Datamønstre og struktur - unsupervised learning
Koncept

Unsupervised Learning

Modellen finder selv mønstre og strukturer i umærkede data uden foruddefinerede svar. Bruges til clustering, dimensionsreduktion og anomalidetektion.

Unsupervised learning (uvejledt læring) er en machine learning-paradigme hvor modellen trænes på data uden labels - der er ingen foruddefinerede "korrekte svar". I stedet for at lære en specifik kortlægning fra input til output, forsøger modellen at finde skjulte mønstre, strukturer og sammenhænge i data.

Dette kan sammenlignes med en person der sorterer en bunke ukendte genstande: uden instruktioner vil personen naturligt gruppere dem baseret på observerede ligheder som form, farve eller størrelse.

De tre hovedtyper af unsupervised learning er:

Clustering: Gruppering af datapunkter baseret på lighed. K-Means, DBSCAN og hierarkisk clustering er populære algoritmer. Anvendelser inkluderer kundesegmentering, billedgruppering og dokumentorganisering.

Dimensionsreduktion: Reduktion af antal features mens vigtige informationer bevares. Principal Component Analysis (PCA) og t-SNE er udbredte teknikker. De bruges til datavisualisering, støjfjernelse og som forbehandling for andre algoritmer.

Anomalidetektion: Identifikation af uventede datapunkter der afviger markant fra normen. Isolation Forest og autoencoders bruges til at finde svindel, defekte produkter og netværksintrusion.

En fjerde vigtig kategori er associations-læring, der finder relationer mellem variabler. Market basket analysis ("kunder der køber X køber også Y") er et klassisk eksempel.

Evaluering af unsupervised learning-modeller er mere udfordrende end for supervised learning, da der ikke er facit at sammenligne med. Interne metrikker som silhouette score og Calinski-Harabasz index bruges til at vurdere klyngekvalitet. Ekstern evaluering kræver domæneeksperter der vurderer om de fundne mønstre er meningsfulde.

Unsupervised learning er særligt værdifuldt i situationer hvor mærkede data er utilgængelige eller dyre at producere, og som et eksplorativt værktøj til at forstå og visualisere komplekse datasæt.

Relaterede koncepter

Supervised LearningK-Means ClusteringReinforcement Learning