Datavisualisering og grafer til lineær regression
RegressionKompleksitet: O(n²p) for OLS

Lineær Regression

En grundlæggende algoritme der finder den bedste lineære sammenhæng mellem input-variabler og en kontinuert output-variabel. Fundamentet for mange avancerede ML-modeller.

Lineær regression er en af de mest fundamentale algoritmer inden for machine learning og statistik. Algoritmen forsøger at modellere forholdet mellem en afhængig variabel (y) og en eller flere uafhængige variabler (x) ved at tilpasse en ret linje til datapunkterne.

Den matematiske formel er simpel: y = mx + b, hvor m er hældningen og b er skæringspunktet med y-aksen. Ved multipel lineær regression udvides dette til flere input-variabler: y = b₀ + b₁x₁ + b₂x₂ + ... + bₙxₙ.

Træningsprocessen bruger typisk "Ordinary Least Squares" (OLS) metoden, der minimerer summen af kvadrerede afvigelser mellem de forudsagte og faktiske værdier. Denne metode har en lukket matematisk løsning, hvilket gør træningen hurtig og effektiv.

Lineær regression kræver at flere antagelser er opfyldt for at give pålidelige resultater: linearitet mellem variabler, uafhængighed af fejlled, homoskedasticitet (konstant varians af fejlled) og normalfordelte fejlled. Når disse antagelser brydes, kan regulariseringsteknikker som Ridge (L2) eller Lasso (L1) regression hjælpe.

Ridge regression tilføjer en strafterm baseret på summen af kvadrerede koefficienter, hvilket forhindrer overfitting ved at holde koefficienterne små. Lasso regression bruger derimod den absolutte sum af koefficienter, hvilket kan drive nogle koefficienter helt til nul og dermed fungere som feature selection.

I praksis bruges lineær regression bredt til prisforudsigelse, salgsprognoser, risikovurdering og som baseline-model der sammenlignes med mere komplekse algoritmer. Selvom den er simpel, er den ofte overraskende effektiv og fortolkelig.

Video-forklaring

Linear Regression - StatQuest with Josh Starmer

Anvendelsesområder

PrisforudsigelseSalgsprognoserRisikovurderingTrend-analyse