Random Forest
Random Forest kombinerer mange beslutningstræer for at skabe en robust og præcis model. Den er modstandsdygtig over for overfitting og håndterer mange typer data.
Random Forest er en ensemble-læringsmetode der kombinerer adskillige beslutningstræer til en mere robust og præcis model. Grundidéen er enkel men kraftfuld: mange svage modeller kan sammen danne en stærk model.
Algoritmen bygger et "skov" af beslutningstræer, typisk hundredvis eller tusindvis, under træningen. Hver træ trænes på en tilfældig delmængde af data (bootstrap sampling) og bruger kun et tilfældigt udvalg af features ved hver split. Denne dobbelte randomisering sikrer diversitet blandt træerne.
For klassifikation stemmer alle træer, og den mest populære klasse vælges (majority voting). For regression beregnes gennemsnittet af alle træers forudsigelser. Denne aggregering reducerer varians og gør modellen markant mere robust end et enkelt beslutningstræ.
En nøglefordel ved Random Forest er "out-of-bag" (OOB) estimering. Da hvert træ kun trænes på cirka 63% af dataen (pga. bootstrap sampling), kan de resterende 37% bruges til at estimere modelens præstation uden behov for et separat valideringssæt.
Random Forest giver også naturlig feature importance - features der ofte bruges til splits tidligt i træerne og giver store reduktioner i urenheden, vurderes som vigtigere. Dette gør algoritmen nyttig til feature selection og dataforståelse.
Hyperparametre inkluderer antal træer (n_estimators), maksimal trædybde (max_depth), minimum antal datapunkter per split (min_samples_split) og antal features der overvejes ved hver split (max_features). Generelt giver flere træer bedre resultater, dog med aftagende udbytte.
Random Forest er remarkabelt robust: den håndterer både numeriske og kategoriske data, er modstandsdygtig over for outliers, kræver minimal datapræprocessering og overfitter sjældent når der bruges tilstrækkeligt mange træer. Den er en af de mest anvendte algoritmer i industrien og fungerer ofte som en stærk baseline.
Video-forklaring
Random Forests - StatQuest with Josh Starmer
Anvendelsesområder
Andre algoritmer
Lineær Regression
En grundlæggende algoritme der finder den bedste lineære sammenhæng mellem input-variabler og en kontinuert output-variabel. Fundamentet for mange avancerede ML-modeller.
Beslutningstræer
Beslutningstræer opdeler data i grupper ved at stille ja/nej-spørgsmål om features. De er intuitive, fortolkelige og danner grundlag for ensemble-metoder som Random Forest.
Neurale Netværk
Inspireret af hjernen simulerer neurale netværk sammenkoblede neuroner i lag. De kan lære komplekse, ikke-lineære mønstre fra data og driver moderne AI-gennembrud.
K-Means Clustering
En unsupervised algoritme der grupperer data i K klynger baseret på lighed. Enkel, effektiv og bruges bredt til segmentering, mønstergenkendelse og datakomprimering.