Computer vision og billedgenkendelse
Anvendelse

Computer Vision

Giver computere evnen til at forstå og analysere billeder og video. Bruges til ansigtsgenkendelse, selvkørende biler, medicinsk billedanalyse og kvalitetskontrol.

Computer vision er et felt inden for kunstig intelligens der giver computere evnen til at udtrække meningsfuld information fra billeder, video og andre visuelle input - og handle baseret på denne information.

Feltet har gennemgået en transformation siden 2012, da AlexNet viste at dybe convolutional neural networks (CNNs) dramatisk overgik traditionelle computer vision-metoder. Siden da har en række arkitektoniske innovationer drevet feltet fremad.

Convolutional Neural Networks (CNNs) er rygraden i moderne computer vision. De bruger lærbare filtre (kernels) der glider over billedet for at detektere features som kanter, teksturer og mønstre. Dybere lag detekterer stadig mere abstrakte features. Vigtige arkitekturer inkluderer VGG, ResNet (med skip connections), Inception (multiple filtersstørrelser) og EfficientNet (optimal skalering).

Kerneopgaver i computer vision:

Billedklassifikation: Tildel et billede en eller flere kategorier. ImageNet-datasættet med over 14 millioner billeder i 1000 kategorier har været benchmark for denne opgave.

Objektdetektion: Lokalisér og klassificér objekter i et billede med bounding boxes. YOLO (You Only Look Once), SSD og Faster R-CNN er populære arkitekturer. Real-time detektion med YOLO v8 kører med over 100 FPS.

Semantisk segmentering: Klassificér hver pixel i et billede. U-Net er særligt populær til medicinsk billedsegmentering. Panoptisk segmentering kombinerer semantisk og instance segmentering.

Ansigtsgenkendelse: Identifikation og verifikation af ansigter. FaceNet og ArcFace bruger embedding-baserede metoder der mapper ansigter til vektorer i et latent rum.

Vision Transformers (ViT) har udfordret CNNs dominans ved at anvende Transformer-arkitekturen direkte på billedpatches. CLIP (Contrastive Language-Image Pre-training) fra OpenAI forbinder tekst og billeder i et fælles embedding-rum, hvilket muliggør zero-shot billedklassifikation.

Generative modeller som Stable Diffusion og DALL-E kan skabe fotorealistiske billeder fra tekstbeskrivelser. Disse diffusionsmodeller har revolutioneret kreativ billedgenerering.

I industrien bruges computer vision til kvalitetskontrol i produktion, autonome køretøjer, overvågning, augmented reality, medicinsk diagnostik (røntgen, MRI, patologi) og præcisionslandbrug.

Eksempler

  • Tesla Autopilot
  • Face ID
  • Google Lens
  • Medicinsk diagnostik

Relaterede algoritmer

CNNYOLOResNetVision Transformer