Unsupervised Learning

Unsupervised learning (uvejledt læring) er en machine learning-paradigme hvor modellen trænes på data uden labels - der er ingen foruddefinerede "korrekte svar". I stedet for at lære en specifik kortlægning fra input til output, forsøger modellen at finde skjulte mønstre, strukturer og sammenhænge i data.

Dette kan sammenlignes med en person der sorterer en bunke ukendte genstande: uden instruktioner vil personen naturligt gruppere dem baseret på observerede ligheder som form, farve eller størrelse.

De tre hovedtyper af unsupervised learning er:

Clustering: Gruppering af datapunkter baseret på lighed. K-Means, DBSCAN og hierarkisk clustering er populære algoritmer. Anvendelser inkluderer kundesegmentering, billedgruppering og dokumentorganisering.

Dimensionsreduktion: Reduktion af antal features mens vigtige informationer bevares. Principal Component Analysis (PCA) og t-SNE er udbredte teknikker. De bruges til datavisualisering, støjfjernelse og som forbehandling for andre algoritmer.

Anomalidetektion: Identifikation af uventede datapunkter der afviger markant fra normen. Isolation Forest og autoencoders bruges til at finde svindel, defekte produkter og netværksintrusion.

En fjerde vigtig kategori er associations-læring, der finder relationer mellem variabler. Market basket analysis ("kunder der køber X køber også Y") er et klassisk eksempel.

Evaluering af unsupervised learning-modeller er mere udfordrende end for supervised learning, da der ikke er facit at sammenligne med. Interne metrikker som silhouette score og Calinski-Harabasz index bruges til at vurdere klyngekvalitet. Ekstern evaluering kræver domæneeksperter der vurderer om de fundne mønstre er meningsfulde.

Unsupervised learning er særligt værdifuldt i situationer hvor mærkede data er utilgængelige eller dyre at producere, og som et eksplorativt værktøj til at forstå og visualisere komplekse datasæt.

Relateret

Andre koncepter

Supervised Learning

Reinforcement Learning

Overfitting

Bias-Variance Tradeoff