Træstruktur der illustrerer beslutningstræer
Klassifikation & RegressionKompleksitet: O(n log n) per feature

Beslutningstræer

Beslutningstræer opdeler data i grupper ved at stille ja/nej-spørgsmål om features. De er intuitive, fortolkelige og danner grundlag for ensemble-metoder som Random Forest.

Beslutningstræer er en af de mest intuitive machine learning-algoritmer. De fungerer ved at opdele datasættet i stadig mindre undergrupper baseret på feature-værdier, og skaber dermed en trælignende struktur af beslutningsregler.

Hver intern node i træet repræsenterer en test af en feature, hver gren repræsenterer udfaldet af testen, og hvert blad repræsenterer en klasse (klassifikation) eller en værdi (regression). Algoritmen bygger træet top-down ved at vælge den feature-split der giver den bedste opdeling af data.

For klassifikationstræer bruges typisk Gini-urenheden eller informationsgevinst (baseret på entropi) til at måle kvaliteten af en split. Gini-urenheden måler sandsynligheden for at en tilfældigt valgt datapunkt vil blive forkert klassificeret. Informationsgevinst måler reduktionen i entropi efter en split.

For regressionstræer bruges variansreduktion som splittingkriterie. Algoritmen vælger den split der minimerer den samlede varians i de resulterende undergrupper.

En central udfordring ved beslutningstræer er overfitting. Et træ kan let blive for dybt og specialiseret til træningsdataen, hvilket giver dårlig generalisering til nye data. Pruning-teknikker bruges til at forhindre dette: enten pre-pruning (begrænsning af trædybde, minimum antal datapunkter per blad) eller post-pruning (fjernelse af grene der ikke forbedrer præstationen).

Beslutningstræer håndterer naturligt både numeriske og kategoriske features og kræver minimal datapræprocessering. De er robuste over for outliers og kan modellere ikke-lineære sammenhænge. Deres store styrke er fortolkelighed - man kan præcist forklare hvorfor en bestemt forudsigelse blev lavet.

De danner desuden grundlaget for kraftfulde ensemble-metoder som Random Forest og Gradient Boosting, der kombinerer mange træer for at opnå markant bedre præstationer.

Anvendelsesområder

KreditvurderingDiagnoseKundesegmenteringBeslutningsstøtte