Beslutningstræer
Beslutningstræer opdeler data i grupper ved at stille ja/nej-spørgsmål om features. De er intuitive, fortolkelige og danner grundlag for ensemble-metoder som Random Forest.
Beslutningstræer er en af de mest intuitive machine learning-algoritmer. De fungerer ved at opdele datasættet i stadig mindre undergrupper baseret på feature-værdier, og skaber dermed en trælignende struktur af beslutningsregler.
Hver intern node i træet repræsenterer en test af en feature, hver gren repræsenterer udfaldet af testen, og hvert blad repræsenterer en klasse (klassifikation) eller en værdi (regression). Algoritmen bygger træet top-down ved at vælge den feature-split der giver den bedste opdeling af data.
For klassifikationstræer bruges typisk Gini-urenheden eller informationsgevinst (baseret på entropi) til at måle kvaliteten af en split. Gini-urenheden måler sandsynligheden for at en tilfældigt valgt datapunkt vil blive forkert klassificeret. Informationsgevinst måler reduktionen i entropi efter en split.
For regressionstræer bruges variansreduktion som splittingkriterie. Algoritmen vælger den split der minimerer den samlede varians i de resulterende undergrupper.
En central udfordring ved beslutningstræer er overfitting. Et træ kan let blive for dybt og specialiseret til træningsdataen, hvilket giver dårlig generalisering til nye data. Pruning-teknikker bruges til at forhindre dette: enten pre-pruning (begrænsning af trædybde, minimum antal datapunkter per blad) eller post-pruning (fjernelse af grene der ikke forbedrer præstationen).
Beslutningstræer håndterer naturligt både numeriske og kategoriske features og kræver minimal datapræprocessering. De er robuste over for outliers og kan modellere ikke-lineære sammenhænge. Deres store styrke er fortolkelighed - man kan præcist forklare hvorfor en bestemt forudsigelse blev lavet.
De danner desuden grundlaget for kraftfulde ensemble-metoder som Random Forest og Gradient Boosting, der kombinerer mange træer for at opnå markant bedre præstationer.
Anvendelsesområder
Andre algoritmer
Lineær Regression
En grundlæggende algoritme der finder den bedste lineære sammenhæng mellem input-variabler og en kontinuert output-variabel. Fundamentet for mange avancerede ML-modeller.
Neurale Netværk
Inspireret af hjernen simulerer neurale netværk sammenkoblede neuroner i lag. De kan lære komplekse, ikke-lineære mønstre fra data og driver moderne AI-gennembrud.
K-Means Clustering
En unsupervised algoritme der grupperer data i K klynger baseret på lighed. Enkel, effektiv og bruges bredt til segmentering, mønstergenkendelse og datakomprimering.
Random Forest
Random Forest kombinerer mange beslutningstræer for at skabe en robust og præcis model. Den er modstandsdygtig over for overfitting og håndterer mange typer data.