Balance og tradeoff - bias-variance i ML

Koncept

Bias-Variance Tradeoff

Den fundamentale afvejning i machine learning mellem en models evne til at fange kompleksitet (lav bias) og dens stabilitet over for datavariationer (lav varians).

Bias-variance tradeoff er et af de mest fundamentale koncepter i machine learning og statistisk læringsteori. Det beskriver den uundgåelige afvejning mellem to kilder til fejl der påvirker enhver prædiktiv models præstation.

Bias (systematisk fejl) måler hvor langt modelens gennemsnitlige forudsigelser er fra de sande værdier. Høj bias indikerer at modellen oversimplificerer problemet - den overser vigtige mønstre i data. For eksempel vil en lineær model have høj bias hvis den sande sammenhæng er ikke-lineær. Modeller med høj bias siges at have underfitting.

Variance (variabilitet) måler hvor meget modelens forudsigelser varierer for et givet datapunkt når den trænes på forskellige delmængder af data. Høj varians indikerer at modellen er for følsom over for de specifikke træningsdata den ser. Modeller med høj varians siges at have overfitting.

Den totale forudsigefejl kan dekomponeres som: Fejl = Bias² + Varians + Irreducerbar støj. Den irreducerbare støj er den iboende tilfældighed i data der ingen model kan eliminere.

Tradeoff'en opstår fordi reduktion af bias typisk øger varians og omvendt. Enkle modeller (lineær regression, naive Bayes) har typisk høj bias men lav varians. Komplekse modeller (dybe neurale netværk, uprunede beslutningstræer) har typisk lav bias men høj varians.

Praktiske strategier til at håndtere bias-variance tradeoff:

For høj bias (underfitting): Brug en mere kompleks model, tilføj flere features, reducer regularisering, øg træningstid for neurale netværk.

For høj varians (overfitting): Tilføj regularisering (L1, L2, dropout), brug ensemble-metoder (bagging, boosting), tilføj mere træningsdata, reducer modelkompleksitet, brug cross-validation.

Ensemble-metoder adresserer elegant bias-variance tradeoff: Bagging (som Random Forest) reducerer varians ved at middelværdien af mange modeller. Boosting (som Gradient Boosting) reducerer bias ved at fokusere på de fejl foregående modeller lavede.

Moderne deep learning har delvist udfordret den klassiske forståelse af bias-variance tradeoff. Meget store neurale netværk kan have lav bias OG lav varians hvis de trænes med passende regularisering og nok data - et fænomen kaldet "dobbelt descent".

Relaterede koncepter

OverfittingSupervised LearningRandom Forest

Andre koncepter

Supervised Learning

Modellen lærer fra mærkede data - hvert eksempel har et korrekt svar. Den mest udbredte tilgang til machine learning med anvendelser fra spamfiltrering til medicinsk diagnostik.

Unsupervised Learning

Modellen finder selv mønstre og strukturer i umærkede data uden foruddefinerede svar. Bruges til clustering, dimensionsreduktion og anomalidetektion.

Reinforcement Learning

En agent lærer ved at interagere med et miljø og modtage belønninger eller straffe. Bruges i spil, robotik og autonome systemer.

Overfitting

Når en model lærer træningsdataens støj og tilfældigheder i stedet for de underliggende mønstre. Resulterer i høj præstation på træningsdata men dårlig generalisering.