400 likes | 551 Vues
MPEG-7 Visual Descriptors. Jens-Rainer Ohm Lehrstuhl und Institut für Nachrichtentechnik RWTH Aachen. Vortragsüberblick. Einführung Terminologie und Elemente von MPEG-7 Überblick und Details Visual Descriptors Anwendungen. Einführung (1).
E N D
MPEG-7 Visual Descriptors Jens-Rainer Ohm Lehrstuhl und Institut für Nachrichtentechnik RWTH Aachen
Vortragsüberblick • Einführung • Terminologie und Elemente von MPEG-7 • Überblick und Details Visual Descriptors • Anwendungen
Einführung (1) • Vielfalt audiovisueller Ressourcen – Unterstützung bei Auffinden der gewünschten Information notwendig • textbasierte Suchmaschinen ungeeignet • Suche auf Basis audiovisueller Inhaltsmerkmale • Systeme müssen Benutzerintention verstehen • Multimodale Eingaben, z.B. Sprache, Zeichnen, Zeigen, Beschreiben mittels Beispielen • Audiovisuelle Beschreibungssprache notwendig • Automatische Analyse audiovisueller Signale • Unterstützung bei der Produktion und Interaktion • Ereignissteuerung, z.B. für Webcams, Live-Übertragungen • Kommunikation automatischer Systeme
Einführung (2) • MPEG-7 = Multimedia Content Description Interface • ...kein Kompressionsstandard (im Gegensatz zu seinen Vorläufern MPEG-1/2/4) • ...standardisiert die abstrakte Beschreibung der Eigenschaften multimedialer Information • ... damit für die schnelle Suche und Erschließung multimedialer Daten anzuwenden • ...standardisiert nicht die Methoden der Extraktion der Information, sondern das Format der kompakten Beschreibungsform
Einführung (3) • MPEG-7 Geschichte / Arbeitsplan
Terminologie (1) • Data • Allg.: audio-visuelle Information, multimediales Datenmaterial, z.B. Musikstücke, Bilder, Videos... • Feature • charakteristisches Merkmal in multimedialem Datenmaterial, das jemandem (irgend-)etwas aussagt • Descriptor • Repräsentation eines Features, definiert Syntax und Semantik der Darstellung charakteristischer Merkmale • Descriptor Value • Instanz eines Deskriptors für einen speziellen Datensatz, oder einen Teil davon
Terminologie (2) • Description Scheme • beschreibt die Struktur und Semantik der wechselseitigen Beziehungen zwischen einzelnen Deskriptoren und Description Schemes • Description • besteht aus einem Description-Scheme (Struktur) und einem Satz von Descriptor-Values, welche die audio-visuelle Information beschreiben • Description Definition Language • DDL- Abstrakte Beschreibungssprache für die Entwicklung von Description-Schemes, erlaubt darüber hinaus auch Abwandlung und Ergänzung bestehender Deskriptoren
DS "A" DS "B" D "B" D "A" DV DV D "D" D "C" DV DV Terminologie (3) • Beispiel einer hierarchischen MPEG-7-Beschreibungsstruktur
Multimedia Description Scheme Framework Erzeugung und Produktion Medientyp Verwendung Inhaltsmanagement Inhaltsbeschreibung strukturelle Aspekte semantische Aspekte Audio Bild/Video • Sprachpausen • Sprache • Melodie • Stimmung • Sound Effekte • Farbe • Textur • Kontur • Bewegung
Deskriptoren • Deskriptoren beschreiben Eigenschaften (features) multimedialer Daten in sehr kompakter Form. Aus ihnen kann das ursprüngliche Signal nicht wiedergewonnen werden. • Anforderungen: • effektiv bei der Suche • skalierbare Darstellung • wenig Speicherbedarf • wenig Aufwand bei der Extraktion • wenig Aufwand beim Vergleich (Matching)
Bewegung Farbe Textur Shape Visuelle Deskriptoren
Visuelle Deskriptoren – Überblick (1) • Basic Structures • Grid Layout, Time Series, Multiple View, Spatial 2D Coordinates, Temporal Interpolation • Farbe • Color Space, Color Quantization • Dominant Color • Scalable Color (Histogram), Group of Frames Histogram • Color Structure, Color Layout • Textur • Homogeneous Texture • Texture Browsing • Edge Histogram
Visuelle Deskriptoren – Überblick (2) • Shape • Contour Shape • Binary Shape • Shape 3D • Bewegung • Camera Motion • Motion Trajectory • Parametric Motion • Motion Activity • Localization • Region Locator, Spatio-Temporal Locator
Visuelle Descriptoren : Basic Structures (1) • Grid Layout • Unterteilung eines Bildes in MxN rechteckige Blöcke(Beispiel unten : M=N=4) • Zuordnung eines oder mehrerer Deskriptoren zu jedem Teilblock • Maskierung für individuelle Teilblöcke möglich
Visuelle Descriptoren : Basic Structures (2) • Time Series • Zuordnung von Descriptoren zu Zeitpunkten eines Video • Regular : Gleiche Abstände • Irregular : Variable Abstände
y 2 4 2 6 5 3 x x 7 3 1 4 z z 1 Visuelle Descriptoren : Basic Structures (3) • Multiple View • Zuordnung von Descriptoren zu verschiedenen Ansichten derselben Szene oder desselben Objektes • Beispiel : Shape unter verschiedenen Blickwinkeln
Visuelle Descriptoren : Basic Structures (4) • Spatial 2D Coordinates • Definition von örtlichen Referenz-Koordinatensystemen • Längeneinheiten natürlich (Meter) oder Bildpunkte • Lokale (Einzelbild) oder integrierte (Bildabbildung) Koordinatensysteme
Visuelle Descriptoren : Basic Structures (5) • Temporal Interpolation • Generische Interpolationsfunktion für zeitlich variable Parameter, z.B. Objektpositionen • Lineare und quadratische Interpolation unterstützt
Visuelle Deskriptoren: Farbe (1) • Color Space • Farbraum, in welchem die Bildeigenschaften beschrieben werden • MPEG-7 unterstützt RGB, HSV, HMMD, YCbCr, lineare Matrixtransformation und Monochrom • Farbreferenzabgleich möglich • Color Quantization : Lineare Quantisierung
Visuelle Deskriptoren: Farbe (2) • Dominant Color • Bis zu 8 dominante Farben pro Region oder Bild definierbar • Repräsentation durch prozentualen Anteil, Mittelwert und Varianz • Zuverlässigkeitsmaß basierend auf örtlicher Kohärenz
Visuelle Deskriptoren: Farbe (3) / GoF Color-Histogram • Color-Histogram • definiert Methode um Farbeigenschaften von Bildern oder Videosequenzen in einem Histogramm erfassen zu können
Visuelle Deskriptoren: Farbe (4) • Scalable Color • Repräsentation eines HSV-Farbhistogramms • Haar-Transformation, Bitebenen-Codierung • Skalierbar zwischen 16 bit und 1 Kbit
Color Structure • berücksichtigt Farbe und Farbverteilung Visuelle Deskriptoren: Farbe (5) • Color Layout • räumliche Verteilung der Farbe Originalbild Kleine Blöcke große Blöcke
r Visuelle Deskriptoren: Textur (1) • Homogeneous Texture • Winkel/Radialzerlegung der 2D-Frequenzebene • 30 Frequenzbänder • Repräsentation durch Momente 1. und 2. Ordnung
Regelmäßigkeit Hauptrichtung Skalierung - - + + Visuelle Deskriptoren: Textur (2) • Texture Browsing • berücksichtigt menschliche Wahrnehmung • 3 Kriterien: Regelmäßigkeit, Hauptrichtung, Skalierung
16 Regionen X 5 Kanten = 80 Balken 5 Kanten Richtungen Kanten-Häufigkeit (0,0) (0,1) (0,2) (0,3) (1,0) (1,2) (1,2) (1,3) (2,0) (2,1) (2,2) (2,3) (3,0) (3,1) (3,2) (3,3) 0 79 16 Regionen Visuelle Deskriptoren: Textur (3) • Edge Histogram • Gradientenhistogramm in 4 Richtungen + "nondirectional" • Unterteilung in Blockraster möglich
Visuelle Deskriptoren: Shape (1) • Contour Shape • Globale Eigenschaften: Exzentrizität, Krümmung • Lokale Eigenschaften: curvature scale space (CSS) Number of iterations
Visuelle Deskriptoren: Shape (2) • Binary Shape • Auf Winkel-/Radiallagen parametrierte Basisfunktionen • Repräsentation durch Momente • Skalierbar in Anzahl der verwendeten Funktionen
Visuelle Deskriptoren: Shape (3) • 3D Shape • Basiert auf Krümmung von 3D Oberflächen (z.B. Winkel benachbarter Vertices in Wireframe • "3D Shape Spectrum" ist Histogramm der Krümmungen • Skalierbar in Anzahl der Histogrammlinien
Visuelle Deskriptoren: Bewegung (1) • Camera Motion • Charakterisiert qualitativ und quantitativ das Vorhandensein von Bewegungen der Kamera • 2x6 3D-Grundbewegungen und Zoom
Visuelle Deskriptoren: Bewegung (2) • Motion Trajectory • Definition von 2D- und 3D-Objekttrajektorien • Repräsentation durch zeitlich/örtliche Koordinaten und Interpolationsfunktion • Kombination mehrerer Trajektorien im "Spatio-Temporal Locator"
Translation Rotation /Skalierung perspektiv. Verzerrung Verzerrung 2. Ordnung Visuelle Deskriptoren: Bewegung (3) • Parametric Motion • parametrische Bewegungsmodelle
Visuelle Deskriptoren: Bewegung (4) • Motion-Activity Descriptor • Intensität der Bewegung (6 Stufen) • dominante Richtung (8 Winkel) • räumliche Verteilung der Bewegung • zeitliche Verteilung der Aktivität innerhalb einer bestimmten Stufe
Visuelle Deskriptoren: Localization • Region Locator • beschreibt Position einer Region mittels Bounding-Box oder Polygon • Spatio-Temporal Locator • beschreibt örtlich-zeitliche Position und Größe einer Region durch Kombination von Referenzregion und Bewegungstrajektorien
Merkmal Deskriptor Vergleich Distanz (L1) Vergleich von Deskriptoren (Matching) • Vektor basierte Deskriptoren: L1 Distanz • Mehrere Deskriptoren: Kombination von Distanzen
Qualität der Deskriptoren • Core-Experiment-Prozess • Visuell angepasste Leistungskriterien wurden festgelegt • Detaillierte Untersuchung der Descriptoren, z.B. Effizienz gegenüber Kompaktheit • Beispiel : Scalable Color Retrieval Accuracy (ANMRR) Entropy per histogram line
Anwendungen • "Data Mining" / Retrieval : Verwendung von Signalmerkmalen zur Suche audiovisueller Information
Anwendungen • Audiovisuelle Kommunikation mit Robotern Such den Schuh !
Zusammenfassung • MPEG-7 Visual (Part 3) umfaßt Definitionen von Deskriptoren für alle wichtigen visuellen Merkmale • Effizienz wurde in Core-Experimenten getestet • Offene Fragen (MPEG-7 Version 2 ?) • Deskriptoren universell einsetzbar oder für spezielle Anwendungen weitere Definitionen notwendig ? • Zusammenfassung mehrerer Descriptoren ineffizient ? • Ausnutzung der zeitlichen Redundanz ? • Übergeordnete (z.B. semantische, subjektive) visuelle Merkmale ? • Standardisierte Klassifikationsmechanismen ?