Evaluering af punktfindere ved indholdsbaseret billedsøgning

Evaluering af punktfindere ved indholdsbaseret billedsøgning Speciale – Jacob Rohde

Plan • Hvad er indholdsbaseret billedsøgning? • De 4 punktfindere • Beskrivelse af lokale gradientretninger med SIFT deskriptoren • Segmentering ved K-means • Resultat/Konklusion

Indholdsbaseret billedsøgning (IBBS) • IBBS: indeksere og finde billeder på baggrund af deres visuelle indhold. • Forskningsområde siden 1979. • Ordinær tekstbaseret søgning ikke altid nok: • Billedmængden eksploderet, især siden Internettets kommen. • Tekstuel annotation præget af menneskelig subjektivitet.

Indholdsbaseret billedsøgning • Forespørgelsesbillede: • Resultatbilleder:

Indholdsbaseret billedsøgning • IBBSer kan kategoriseres: målsøgning, kategorisøgning eller associativ søgning. • Målsøgning: Søgning efter et specifik objekt/billede, f.eks. i kunstkatalog. • Kategorisøgning: Billeder repræsentative for en specifik kategori. • Associativ søgning: Simpel ”browsing”, tit interaktivt.

Indholdsbaseret billedsøgning • Et billede repræsenteres ved dets egenskaber: • Farve. • Tekstur. • Form. • Etc. • Søgning: Sammenlign input-billedets egenskaber med egenskaber fra basens billeder.

Indholdsbaseret billedsøgning • En eller flere egenskabsvektor(er) konstrueres. Repræsenterer billedets egenskaber kvantitativt. • Egenskabsvektoren kan være lokal eller global. • Egenskaber: farve, tekstur, form, etc.

Indholdsbaseret billedsøgning • Mål: Sammenlign fire punktfindere i et setup: IBBS. • Anvend dokumenterede og anerkendte metoder. Indeksering: K-Means SIFT deskriptor Egenskabsvektor: Harris Hessian Hessian SIFT Pedersen Punktfindere:

Punktfindere • Finder interessante punkter: • Punkter med en klar, gerne matematisk, definition. • Oprindeligt brugt ved objekt tracking og til at finde interessante områder (blob detektion). • Nu også billede-matching og udsyns-baseret objekt genkendelse. • Vi ser også gerne at et sådanne punkt detekteres med en tilknyttet skala.

Skala? • Ting i den virkelige verden består af forskellige strukturer ved forskellige skalaer. • Skalarumsteori gør det muligt at håndtere repræsentationer af billeder ved flere skalaer, og derved anvende skala-invariante metoder. • Skalaen repræsenteres ved en parameter: σ. • Detaljer ”undertrykkes” ved højere skalaer. • Et billedes skalarepræsentation findes ved foldning med en Gauss:

Punktfindere – Harris • Harris klassiske hjørne- og kantfinder. Vi holder os til hjørnerne. • Vi betragter et vindue omkring en pixel og sammenligner dette vindue med omkringliggende vinduer. • Ved at udregne summen af kvadraterne af intensitetsændringerne (SSD) kan vi udtale os om ligheden mellem vinduerne. • Høj SSD i alle retninger: hjørnepunkt. • Auto-korellations matricen beskriver første ordens intensitetsstruktur i et lokalt område: • To høje egenværdier = hjørnepunkt.

Punktfindere - Pedersen • Anvender en statistisk model for et billede: billederne udfald i en stokastisk generisk model for billeder. Interessante punkter er punkter der er usandsynlige under modellen. • Anvender skalarumsteori: punkter skala-invariante. • Finder normaliserede skalarums afledte og konstruerer et 2-jet i hvert punkt: • Find punkter og deres skala, der minimerer modellens sandsynlighedsfunktion:

Punktfindere - Lowe • Bruger også skalarumsteori. • Difference-of-Gaussian: • Lowe konstruerer en pyramide af DoG billeder. Pyramideformen fremkommer ved jævnligt at ”downsample” billedet. • Punkterne i DoG billederne sammenlignes med dens naboer i et 3x3x3 område. Detekteres som et interessant punkt hvis det er højere/lavere end de andre punkter. • Lowe ”forfiner” punkterne ved at ”fitte” dem til en 3D kvadratisk funktion, og ved at fjerne kantpunkter.

Punktfindere - Hessian • En Hessian matrix er en kvadratisk matrix af alle andenordens partielt afledte af en funktion af flere variabler. • I vores tilfælde en 2x2 matrix: • Interessante punkter detekteres som lokale maksima i matricens determinant:

Hvad med skala i Harris og Hessian? • Harris og Hessian har ikke skalaselektion ”indbygget” som i Lowe og Pedersen. • Vi skal derfor udføre en ”ekstern” skalaselektion. • Til det benyttet Laplace operatoren: • For hvert punkt finder vi Laplace operatorens maksima.

SIFT deskriptor • Beskriver den lokale struktur omkring et punkt. Baseret på gradient data. • 128-dimensionel vektor! • Invariant overfor visse billedtransformation, herunder skala. • Rotationsinvarians opnås ved at beregne deskriptoren i forhold til punktets (gradient) retning, så hvert punkt tildeles først en retning. • Skalainvarians opnås ved at benytte skalarumsbilleder.

Indeksering/Søgning • Vi segmenterer egenskabsvektorerne i homogene klynger. • K-means: • Vælger klyngernes centrum. • Tildeler objekterne til de nærmeste klynger • Udregner nyt centrum • Færdig? • Problemer med K-means: • Stærkt afhængig af den første ”seedning” af klyngecentrumerne. • At vælge et fornuftigt klyngeantal kan være svært. • Resultatet skrevet til en ”inverted” fil. • Ved søgning: • Find punkter, udregn egenskabsvektorer, find nærmeste klyngecentrum. • Find billeder fra basen med fælles klynger.

Resultater • Anvender en ”ground-truth” billedsamling. • Følgende mål evalueres: • Rangen af første relevante billede. • Præcision (forholdet mellem antallet af relevante returnerede billeder og det totale antal returnerede billeder); siger noget om støjen. • ”Recall” (forholdet mellem antallet af relevante returnerede billeder og det totale antal relevante billeder); siger noget om hvor meget vi gik glip af. • Normaliserede rang: gennemsnitlige rang af relevante billeder (en værdi på 0 betyder at alle relevante billeder blev returneret først mens en værdi på ½ betyder tilfældig returnering).

Resultater • Selvom om Harris detektoren er overlegen hvad angår rangen af første relevante billeder, og Pedersen detektoren har en generelt bedre normaliseret rang af alle punktfinderne. Så står ingen af detektorerne frem som markant bedre end resten! • Variationen i den normaliseret rang var større ved anvendelse af forskellige klyngestørresler ved indekseringen end den var anvendelsen af de forskellige punktfindere!

Konklusion • Ingen af punktfinderne synes at være markant bedre end resten. • Noget kunne tyde på at elementer som indekseringen kan have en større indflydelse på en endelige ”performance”. • Masser af muligheder for forbedringer: • Bedre indeksering (ny metode, bedre parameterestimation). • Prøv flere billeddatabaser. • Eksperimenter med vægtene. • Eksperimenter med stop-lister.

Evaluering af punktfindere ved indholdsbaseret billedsøgning

Evaluering af punktfindere ved indholdsbaseret billedsøgning

Presentation Transcript

Læsning i alle fag Åbenrå 030909 12.00 til 16.00

Matrikulære forandringer

TYSK

Tiltak, - avhjelping og kompensasjon av lese- og skrivevansker

Efteruddannelse Embedded C

Medietrening Arbeiderpartiet Gardermoen 4.november

Asfyksi og terapeutisk hypotermi behandling av nyfødte

12 Kursusgang: Brug af undersøgelser, evaluering og eksamen

Effektiv specialeskrivning

Evaluering av organisasjonsmodell NAV Fredrikstad November – desember 2009

Disposition

Arsen i grundvandet og betydningen af reaktivt organisk materiale

Overvågning og forbedring af sundhedsfaglige kerneydelser

Den gode ansøgning

Evaluering og Effektmåling i Praksis

Dokumentation og evaluering

Nicole K. Rosenberg 13-11-2009

Psykisk helsehjelp med lav terskel

IT Forum 2005 Østfold fylkeskommune

ViSiCAST 2002 Technical Audit

En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Design, analyse og verifikation