Naturlig sprogbehandling og tekstanalyse

Anvendelse

Natural Language Processing (NLP)

Gør det muligt for computere at forstå, fortolke og generere menneskeligt sprog. NLP driver chatbots, oversættelse, sentimentanalyse og moderne AI-assistenter.

Natural Language Processing (NLP) - naturlig sprogbehandling - er et felt inden for AI og machine learning der handler om interaktionen mellem computere og menneskeligt sprog. NLP gør det muligt for maskiner at læse, forstå, fortolke og generere naturligt sprog.

NLP har gennemgået en revolution de seneste år, primært drevet af Transformer-arkitekturen introduceret i 2017 med artiklen "Attention Is All You Need". Denne arkitektur bruger self-attention mekanismer til at modellere relationer mellem alle ord i en sætning simultant, i modsætning til ældre RNN-baserede modeller der behandlede ord sekventielt.

Kerneopgaver inden for NLP inkluderer:

Tekstklassifikation: Kategorisering af tekst i foruddefinerede klasser. Sentimentanalyse (positiv/negativ/neutral), spam-detektion og emne-klassifikation er dagligdags anvendelser.

Named Entity Recognition (NER): Identifikation og klassifikation af navngivne entiteter i tekst - personer, organisationer, steder, datoer og mere. Afgørende for informationsekstraktion.

Maskinoversættelse: Automatisk oversættelse mellem sprog. Google Translate, DeepL og lignende tjenester bruger avancerede NLP-modeller. Kvaliteten er steget dramatisk med Transformer-baserede modeller.

Spørgsmål-svar (QA): Systemer der besvarer spørgsmål baseret på en given kontekst eller vidensbase. Bruges i kundeservice-chatbots og søgemaskiner.

Tekstgenerering: Store sprogmodeller (LLMs) som GPT-serien kan generere menneskelignende tekst, skrive kode, opsummere dokumenter og føre samtaler. BERT, GPT, T5 og LLaMA repræsenterer forskellige tilgange til sprogmodellering.

Tokenisering er det første trin i NLP-pipelines: tekst opdeles i tokens (ord eller subword-enheder). Moderne tokenizers som BPE (Byte Pair Encoding) og WordPiece balancerer mellem ordniveau og tegnniveau for at håndtere ukendte ord.

Word embeddings (Word2Vec, GloVe, FastText) repræsenterer ord som dense vectors der fanger semantiske relationer. Kontekstuelle embeddings fra Transformer-modeller er endnu kraftigere, da de giver forskellige repræsentationer af samme ord baseret på konteksten.

NLP på dansk har særlige udfordringer: begrænset datamængde sammenlignet med engelsk, sammensatte ord og morfologisk kompleksitet. Danske NLP-modeller som DaBERT og dansk-specifikke spaCy-pipelines adresserer disse udfordringer.

Eksempler

ChatGPT og AI-assistenter
Google Translate
Spam-filtre
Stemmeassistenter

Relaterede algoritmer

TransformerBERTGPTLSTM

Andre anvendelser

Computer Vision

Giver computere evnen til at forstå og analysere billeder og video. Bruges til ansigtsgenkendelse, selvkørende biler, medicinsk billedanalyse og kvalitetskontrol.

Anbefalingssystemer

Forudsiger brugerens præferencer og anbefaler relevante produkter, film, musik eller indhold. Kernen i platforme som Netflix, Spotify og Amazon.

Predictive Analytics

Bruger historiske data og ML-modeller til at forudsige fremtidige hændelser og trends. Anvendes bredt i finans, sundhed, marketing og supply chain.