Lineær Regression
En grundlæggende algoritme der finder den bedste lineære sammenhæng mellem input-variabler og en kontinuert output-variabel. Fundamentet for mange avancerede ML-modeller.
Lineær regression er en af de mest fundamentale algoritmer inden for machine learning og statistik. Algoritmen forsøger at modellere forholdet mellem en afhængig variabel (y) og en eller flere uafhængige variabler (x) ved at tilpasse en ret linje til datapunkterne.
Den matematiske formel er simpel: y = mx + b, hvor m er hældningen og b er skæringspunktet med y-aksen. Ved multipel lineær regression udvides dette til flere input-variabler: y = b₀ + b₁x₁ + b₂x₂ + ... + bₙxₙ.
Træningsprocessen bruger typisk "Ordinary Least Squares" (OLS) metoden, der minimerer summen af kvadrerede afvigelser mellem de forudsagte og faktiske værdier. Denne metode har en lukket matematisk løsning, hvilket gør træningen hurtig og effektiv.
Lineær regression kræver at flere antagelser er opfyldt for at give pålidelige resultater: linearitet mellem variabler, uafhængighed af fejlled, homoskedasticitet (konstant varians af fejlled) og normalfordelte fejlled. Når disse antagelser brydes, kan regulariseringsteknikker som Ridge (L2) eller Lasso (L1) regression hjælpe.
Ridge regression tilføjer en strafterm baseret på summen af kvadrerede koefficienter, hvilket forhindrer overfitting ved at holde koefficienterne små. Lasso regression bruger derimod den absolutte sum af koefficienter, hvilket kan drive nogle koefficienter helt til nul og dermed fungere som feature selection.
I praksis bruges lineær regression bredt til prisforudsigelse, salgsprognoser, risikovurdering og som baseline-model der sammenlignes med mere komplekse algoritmer. Selvom den er simpel, er den ofte overraskende effektiv og fortolkelig.
Video-forklaring
Linear Regression - StatQuest with Josh Starmer
Anvendelsesområder
Andre algoritmer
Beslutningstræer
Beslutningstræer opdeler data i grupper ved at stille ja/nej-spørgsmål om features. De er intuitive, fortolkelige og danner grundlag for ensemble-metoder som Random Forest.
Neurale Netværk
Inspireret af hjernen simulerer neurale netværk sammenkoblede neuroner i lag. De kan lære komplekse, ikke-lineære mønstre fra data og driver moderne AI-gennembrud.
K-Means Clustering
En unsupervised algoritme der grupperer data i K klynger baseret på lighed. Enkel, effektiv og bruges bredt til segmentering, mønstergenkendelse og datakomprimering.
Random Forest
Random Forest kombinerer mange beslutningstræer for at skabe en robust og præcis model. Den er modstandsdygtig over for overfitting og håndterer mange typer data.