Datorseende

Datorseende är ett delområde av datalogin som arbetar med att bygga "seende datorer", vilka automatiskt bearbetar och "förstår" innehållet i digitala bilder. Med "förstår" menas här att specifika typer av information extraheras ur bilder beroende på den uppgift som ska lösas. Exempel på vanliga uppgifter utgörs av

automatisk inspektion vid exempelvis tillverkning,
automatisk eller halvautomatisk konstruktion av tre-dimensionella objektmodeller (liknande CAD-modeller) från två-dimensionella bilddata,
automatisk igenkänning av två- eller tre-dimensionella objekt i bilder,
automatisk styrning av robotar och fordon med hjälp av kameror,
kombination med datorgrafik för att skapa avancerade visuella effekter vid exempelvis filmproduktion,
automatisk personidentifikation från fingeravtryck, ögon, ansikten och andra biometriska särdrag,
detektion av cancerceller och tumörer i exempelvis mikroskopi- eller röntgenbilder,
automatisk registrering och segmentering av medicinska bilder, samt
halvautomatisk anpassning och uppbyggande av biologiska organmodeller för exempelvis strålbehandling.

Ämnet datorseende är starkt tvärvetenskapligt och innefattar såväl nära relationer till biologiskt seende, neurovetenskap och visuell perception som studier av matematik för perspektivavbildning, rörelseekvationer och informationsinnehåll jämte statistiska modeller för inlärning och beslutsfattande samt effektiva algoritmer för snabb bearbetning av stora datavolymer. Vanligen utgörs indata av två-dimensionella bilder som erhålls av en eller eventuellt flera samverkande kameror i ett stereosystem, men även tre-dimensionella bilder är av stort intresse främst vid medicinsk bildbehandling samt även vid kvalitetsavsyning från röntgenbilder.

Området datorseende kan också ses som övergripande till ämnena bildbehandling, bildanalys och bildkompression. Med bildbehandlingsoperationer menas operationer där såväl indata som utdata är i form av bilder. Med bildanalys avses metoder som gör kvantitativa mätningar i och klassifikation av bilder utan beaktandet av någon dimensionsreducerande perspektivavbildning. Ett seende datorsystem innefattar utöver genuina datorseendemetoder vanligen även ett flertal olika typer av operationer som hör till klasserna bildbehandling och bildanalys. Dessutom kan såväl indata som mellanresultat vara komprimerade på olika sätt.

Till klassen datorseendeoperationer räknas (utöver de operationer som listats i artiklarna om bildbehandling och bildanalys) vanligen följande typer av operationer:

Skalrumsrepresentation för att framhäva och extrahera bildstrukturer på olika skalor,
Detektion av särdrag som kanter, regioner, intressepunkter, hörn och åsar i bilder,
Matchning av punkt- och linjesärdrag mellan bilder,
Följning av bildsärdrag och objekt över tiden,
Struktur- och rörelsebestämning från punkt- och linjekorrespondenser,
Konstruktion av objektmodeller från stereobilder och/eller tidsberoende bilddata, samt
Igenkänning av tre-dimensionella objekt från en eller flera två-dimensionella bilder.

En orsak till att datorseende är svårt är att den information som är tillgänglig i bilder vanligen endast utgör indirekt information (reflekterat ljus) från de objekt som studeras. En annan stor svårighet hänför sig till att perspektivprojektionen ger upphov till två-dimensionella bilder som innebär en dimensionsförlust i förhållande till den tre-dimensionella värld som det seende systemet ska tolka. I den mänskliga hjärnan är det också väl känt att för seende personer ägnas en stor del av den mänskliga hjärnans kapacitet åt bearbetning och tolkning av visuell information.

Datorseende är fortfarande ett forskningsområde i snabb utveckling, och det presenteras fortlöpande nya tillämpningar. För fler och mer detaljerade exempel, se gärna de nedan angivna (engelskspråkiga) referenserna.

Se även

bildbehandling, bildanalys, bildkompression, medicinsk bildbehandling, robotik, maskininlärning, fotogrammetri, artificiell intelligens, Simultaneous localization and mapping (SLAM), homografi

Externa länkar