Datakompleksitet og overfitting i machine learning
Koncept

Overfitting

Når en model lærer træningsdataens støj og tilfældigheder i stedet for de underliggende mønstre. Resulterer i høj præstation på træningsdata men dårlig generalisering.

Overfitting er et af de mest fundamentale problemer i machine learning. Det opstår når en model lærer træningsdataens specifikke detaljer og støj så godt, at den mister evnen til at generalisere til nye, usete data.

Man kan sammenligne det med en studerende der memorerer specifikke eksamensopgaver ord for ord i stedet for at forstå de underliggende principper. Studerende vil score perfekt på kendte opgaver men fejle på nye variationer.

Symptomerne er tydelige: modellen har meget høj præstation (lav fejl) på træningsdata men markant dårligere præstation på validerings- eller testdata. Gappet mellem trænings- og valideringsfejl er det klassiske tegn.

Årsager til overfitting inkluderer: for kompleks model i forhold til datamængden, for lidt træningsdata, for mange features (curse of dimensionality), for lang træningstid og støj i data.

Teknikker til at forhindre overfitting (regularisering i bred forstand):

Cross-validation: Opdel data i K folds og evaluer modellen på forskellige kombinationer. K-fold cross-validation giver et mere robust estimat af modelens præstation end en enkelt train-test split.

Regularisering: Tilføj en strafterm til loss-funktionen der begrænser modelkompleksiteten. L1 (Lasso) driver koefficienter mod nul, L2 (Ridge) holder dem små, og Elastic Net kombinerer begge.

Dropout: Specifikt for neurale netværk - tilfældigt deaktiver en procentdel af neuroner under træning, hvilket tvinger netværket til at lære mere robuste features.

Early stopping: Overvåg valideringsfejlen under træning og stop når den begynder at stige, selvom træningsfejlen stadig falder.

Data augmentation: Kunstigt udvid datasættet ved at lave variationer af eksisterende data (rotation, flipping og cropping af billeder, synonym-erstatning i tekst).

Ensemble-metoder: Kombiner flere modeller for at reducere individuelle modellers overfitting.

Det modsatte problem - underfitting - opstår når modellen er for simpel til at fange de underliggende mønstre. Den rette balance mellem under- og overfitting er nøglen til gode ML-modeller.

Relaterede koncepter

Bias-VarianceSupervised LearningNeurale Netværk