Skov der symboliserer Random Forest algoritmen
EnsembleKompleksitet: O(n * log n * T * m)

Random Forest

Random Forest kombinerer mange beslutningstræer for at skabe en robust og præcis model. Den er modstandsdygtig over for overfitting og håndterer mange typer data.

Random Forest er en ensemble-læringsmetode der kombinerer adskillige beslutningstræer til en mere robust og præcis model. Grundidéen er enkel men kraftfuld: mange svage modeller kan sammen danne en stærk model.

Algoritmen bygger et "skov" af beslutningstræer, typisk hundredvis eller tusindvis, under træningen. Hver træ trænes på en tilfældig delmængde af data (bootstrap sampling) og bruger kun et tilfældigt udvalg af features ved hver split. Denne dobbelte randomisering sikrer diversitet blandt træerne.

For klassifikation stemmer alle træer, og den mest populære klasse vælges (majority voting). For regression beregnes gennemsnittet af alle træers forudsigelser. Denne aggregering reducerer varians og gør modellen markant mere robust end et enkelt beslutningstræ.

En nøglefordel ved Random Forest er "out-of-bag" (OOB) estimering. Da hvert træ kun trænes på cirka 63% af dataen (pga. bootstrap sampling), kan de resterende 37% bruges til at estimere modelens præstation uden behov for et separat valideringssæt.

Random Forest giver også naturlig feature importance - features der ofte bruges til splits tidligt i træerne og giver store reduktioner i urenheden, vurderes som vigtigere. Dette gør algoritmen nyttig til feature selection og dataforståelse.

Hyperparametre inkluderer antal træer (n_estimators), maksimal trædybde (max_depth), minimum antal datapunkter per split (min_samples_split) og antal features der overvejes ved hver split (max_features). Generelt giver flere træer bedre resultater, dog med aftagende udbytte.

Random Forest er remarkabelt robust: den håndterer både numeriske og kategoriske data, er modstandsdygtig over for outliers, kræver minimal datapræprocessering og overfitter sjældent når der bruges tilstrækkeligt mange træer. Den er en af de mest anvendte algoritmer i industrien og fungerer ofte som en stærk baseline.

Video-forklaring

Random Forests - StatQuest with Josh Starmer

Anvendelsesområder

Fraud-detektionSygdomsdiagnoseFeature selectionKreditscoring