Unsupervised Learning
Modellen finder selv mønstre og strukturer i umærkede data uden foruddefinerede svar. Bruges til clustering, dimensionsreduktion og anomalidetektion.
Unsupervised learning (uvejledt læring) er en machine learning-paradigme hvor modellen trænes på data uden labels - der er ingen foruddefinerede "korrekte svar". I stedet for at lære en specifik kortlægning fra input til output, forsøger modellen at finde skjulte mønstre, strukturer og sammenhænge i data.
Dette kan sammenlignes med en person der sorterer en bunke ukendte genstande: uden instruktioner vil personen naturligt gruppere dem baseret på observerede ligheder som form, farve eller størrelse.
De tre hovedtyper af unsupervised learning er:
Clustering: Gruppering af datapunkter baseret på lighed. K-Means, DBSCAN og hierarkisk clustering er populære algoritmer. Anvendelser inkluderer kundesegmentering, billedgruppering og dokumentorganisering.
Dimensionsreduktion: Reduktion af antal features mens vigtige informationer bevares. Principal Component Analysis (PCA) og t-SNE er udbredte teknikker. De bruges til datavisualisering, støjfjernelse og som forbehandling for andre algoritmer.
Anomalidetektion: Identifikation af uventede datapunkter der afviger markant fra normen. Isolation Forest og autoencoders bruges til at finde svindel, defekte produkter og netværksintrusion.
En fjerde vigtig kategori er associations-læring, der finder relationer mellem variabler. Market basket analysis ("kunder der køber X køber også Y") er et klassisk eksempel.
Evaluering af unsupervised learning-modeller er mere udfordrende end for supervised learning, da der ikke er facit at sammenligne med. Interne metrikker som silhouette score og Calinski-Harabasz index bruges til at vurdere klyngekvalitet. Ekstern evaluering kræver domæneeksperter der vurderer om de fundne mønstre er meningsfulde.
Unsupervised learning er særligt værdifuldt i situationer hvor mærkede data er utilgængelige eller dyre at producere, og som et eksplorativt værktøj til at forstå og visualisere komplekse datasæt.
Relaterede koncepter
Andre koncepter
Supervised Learning
Modellen lærer fra mærkede data - hvert eksempel har et korrekt svar. Den mest udbredte tilgang til machine learning med anvendelser fra spamfiltrering til medicinsk diagnostik.
Reinforcement Learning
En agent lærer ved at interagere med et miljø og modtage belønninger eller straffe. Bruges i spil, robotik og autonome systemer.
Overfitting
Når en model lærer træningsdataens støj og tilfældigheder i stedet for de underliggende mønstre. Resulterer i høj præstation på træningsdata men dårlig generalisering.
Bias-Variance Tradeoff
Den fundamentale afvejning i machine learning mellem en models evne til at fange kompleksitet (lav bias) og dens stabilitet over for datavariationer (lav varians).