Supervised Learning

Supervised learning (vejledt læring) er den mest udbredte paradigme inden for machine learning. Kernen i tilgangen er enkel: modellen trænes på data hvor det korrekte svar allerede er kendt - de såkaldte labels.

Processen kan sammenlignes med en studerende der lærer fra en lærebog med facitliste. Modellen præsenteres for input-data (features) sammen med de korrekte output (labels) og lærer gradvist at kortlægge sammenhængen mellem de to. Målet er at modellen efter træning kan forudsige korrekte labels for nye, usete data.

Supervised learning opdeles i to hovedkategorier: klassifikation og regression. Ved klassifikation tilhører output en af et fast antal kategorier - for eksempel "spam" eller "ikke spam", "kræft" eller "ikke kræft". Ved regression er output en kontinuert værdi - for eksempel pris, temperatur eller alder.

Træningsprocessen involverer typisk følgende trin: 1) Opdel data i trænings-, validerings- og testsæt, 2) Vælg en passende algoritme, 3) Træn modellen på træningsdataen, 4) Evaluer på valideringsdataen og juster hyperparametre, 5) Test den endelige model på testsættet.

Evalueringsmetrikker afhænger af opgavetypen. For klassifikation bruges accuracy, precision, recall, F1-score og AUC-ROC. For regression bruges Mean Absolute Error (MAE), Mean Squared Error (MSE) og R²-score. Valget af metrik afhænger af den specifikke anvendelse og konsekvenserne af forskellige fejltyper.

Populære supervised learning-algoritmer inkluderer lineær regression, logistisk regression, beslutningstræer, Random Forest, Support Vector Machines og neurale netværk. Valget afhænger af datamængde, antal features, problemets kompleksitet og krav til fortolkelighed.

En central udfordring er behovet for store mængder mærkede data, hvilket kan være dyrt og tidskrævende at producere. Transfer learning og semi-supervised learning er teknikker der adresserer dette problem.

Video

Relateret

Andre koncepter

Unsupervised Learning

Reinforcement Learning

Overfitting

Bias-Variance Tradeoff