Reinforcement Learning
En agent lærer ved at interagere med et miljø og modtage belønninger eller straffe. Bruges i spil, robotik og autonome systemer.
Reinforcement learning (forstærkningslæring) er en unik machine learning-paradigme hvor en agent lærer at træffe beslutninger ved at interagere med et miljø. I modsætning til supervised learning er der ingen træningsdata med korrekte svar. I stedet modtager agenten belønninger eller straffe baseret på sine handlinger og lærer gradvist den optimale strategi.
Grundelementerne er: en agent der handler, et miljø der reagerer, states (tilstande) der beskriver situationen, actions (handlinger) agenten kan udføre, og rewards (belønninger) der signalerer kvaliteten af handlingerne.
Agentens mål er at maksimere den kumulative belønning over tid - ikke bare den umiddelbare belønning. Dette kræver balancering af exploration (afprøve nye handlinger for at lære) versus exploitation (udnytte allerede kendt viden for at maksimere belønning). Denne exploration-exploitation trade-off er central i reinforcement learning.
Vigtige algoritmer inkluderer:
Q-Learning: En model-fri metode der lærer en Q-funktion som estimerer værdien af at tage en given handling i en given tilstand. Tabellbaseret i sin grundform, men kan kombineres med neurale netværk (Deep Q-Networks / DQN).
Policy Gradient-metoder: Optimerer direkte den policy (strategi) agenten bruger til at vælge handlinger. REINFORCE, PPO (Proximal Policy Optimization) og A3C (Asynchronous Advantage Actor-Critic) er populære varianter.
Actor-Critic-metoder: Kombinerer value-baserede og policy-baserede tilgange. En "actor" vælger handlinger mens en "critic" evaluerer dem.
Reinforcement learning har opnået bemærkelsesværdige resultater: AlphaGo besejrede verdensmesteren i Go, robotter har lært at gå og gribe, og RL bruges til at optimere datacenter-energiforbrug. RLHF (Reinforcement Learning from Human Feedback) er central i træningen af store sprogmodeller som ChatGPT.
Udfordringer inkluderer langsom træning, ustabilitet, sample-ineffektivitet (behov for millioner af interaktioner) og vanskeligheden ved at definere passende belønningsfunktioner (reward shaping).
Relaterede koncepter
Andre koncepter
Supervised Learning
Modellen lærer fra mærkede data - hvert eksempel har et korrekt svar. Den mest udbredte tilgang til machine learning med anvendelser fra spamfiltrering til medicinsk diagnostik.
Unsupervised Learning
Modellen finder selv mønstre og strukturer i umærkede data uden foruddefinerede svar. Bruges til clustering, dimensionsreduktion og anomalidetektion.
Overfitting
Når en model lærer træningsdataens støj og tilfældigheder i stedet for de underliggende mønstre. Resulterer i høj præstation på træningsdata men dårlig generalisering.
Bias-Variance Tradeoff
Den fundamentale afvejning i machine learning mellem en models evne til at fange kompleksitet (lav bias) og dens stabilitet over for datavariationer (lav varians).