1 / 39

MPEG-7 Visual Descriptors

MPEG-7 Visual Descriptors. Jens-Rainer Ohm Lehrstuhl und Institut für Nachrichtentechnik RWTH Aachen. Vortragsüberblick. Einführung Terminologie und Elemente von MPEG-7 Überblick und Details Visual Descriptors Anwendungen. Einführung (1).

ailani
Download Presentation

MPEG-7 Visual Descriptors

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MPEG-7 Visual Descriptors Jens-Rainer Ohm Lehrstuhl und Institut für Nachrichtentechnik RWTH Aachen

  2. Vortragsüberblick • Einführung • Terminologie und Elemente von MPEG-7 • Überblick und Details Visual Descriptors • Anwendungen

  3. Einführung (1) • Vielfalt audiovisueller Ressourcen – Unterstützung bei Auffinden der gewünschten Information notwendig • textbasierte Suchmaschinen ungeeignet • Suche auf Basis audiovisueller Inhaltsmerkmale • Systeme müssen Benutzerintention verstehen • Multimodale Eingaben, z.B. Sprache, Zeichnen, Zeigen, Beschreiben mittels Beispielen • Audiovisuelle Beschreibungssprache notwendig • Automatische Analyse audiovisueller Signale • Unterstützung bei der Produktion und Interaktion • Ereignissteuerung, z.B. für Webcams, Live-Übertragungen • Kommunikation automatischer Systeme

  4. Einführung (2) • MPEG-7 = Multimedia Content Description Interface • ...kein Kompressionsstandard (im Gegensatz zu seinen Vorläufern MPEG-1/2/4) • ...standardisiert die abstrakte Beschreibung der Eigenschaften multimedialer Information • ... damit für die schnelle Suche und Erschließung multimedialer Daten anzuwenden • ...standardisiert nicht die Methoden der Extraktion der Information, sondern das Format der kompakten Beschreibungsform

  5. Einführung (3) • MPEG-7 Geschichte / Arbeitsplan

  6. Terminologie (1) • Data • Allg.: audio-visuelle Information, multimediales Datenmaterial, z.B. Musikstücke, Bilder, Videos... • Feature • charakteristisches Merkmal in multimedialem Datenmaterial, das jemandem (irgend-)etwas aussagt • Descriptor • Repräsentation eines Features, definiert Syntax und Semantik der Darstellung charakteristischer Merkmale • Descriptor Value • Instanz eines Deskriptors für einen speziellen Datensatz, oder einen Teil davon

  7. Terminologie (2) • Description Scheme • beschreibt die Struktur und Semantik der wechselseitigen Beziehungen zwischen einzelnen Deskriptoren und Description Schemes • Description • besteht aus einem Description-Scheme (Struktur) und einem Satz von Descriptor-Values, welche die audio-visuelle Information beschreiben • Description Definition Language • DDL- Abstrakte Beschreibungssprache für die Entwicklung von Description-Schemes, erlaubt darüber hinaus auch Abwandlung und Ergänzung bestehender Deskriptoren

  8. DS "A" DS "B" D "B" D "A" DV DV D "D" D "C" DV DV Terminologie (3) • Beispiel einer hierarchischen MPEG-7-Beschreibungsstruktur

  9. Multimedia Description Scheme Framework Erzeugung und Produktion Medientyp Verwendung Inhaltsmanagement Inhaltsbeschreibung strukturelle Aspekte semantische Aspekte Audio Bild/Video • Sprachpausen • Sprache • Melodie • Stimmung • Sound Effekte • Farbe • Textur • Kontur • Bewegung

  10. Deskriptoren • Deskriptoren beschreiben Eigenschaften (features) multimedialer Daten in sehr kompakter Form. Aus ihnen kann das ursprüngliche Signal nicht wiedergewonnen werden. • Anforderungen: • effektiv bei der Suche • skalierbare Darstellung • wenig Speicherbedarf • wenig Aufwand bei der Extraktion • wenig Aufwand beim Vergleich (Matching)

  11. Bewegung Farbe Textur Shape Visuelle Deskriptoren

  12. Visuelle Deskriptoren – Überblick (1) • Basic Structures • Grid Layout, Time Series, Multiple View, Spatial 2D Coordinates, Temporal Interpolation • Farbe • Color Space, Color Quantization • Dominant Color • Scalable Color (Histogram), Group of Frames Histogram • Color Structure, Color Layout • Textur • Homogeneous Texture • Texture Browsing • Edge Histogram

  13. Visuelle Deskriptoren – Überblick (2) • Shape • Contour Shape • Binary Shape • Shape 3D • Bewegung • Camera Motion • Motion Trajectory • Parametric Motion • Motion Activity • Localization • Region Locator, Spatio-Temporal Locator

  14. Visuelle Descriptoren : Basic Structures (1) • Grid Layout • Unterteilung eines Bildes in MxN rechteckige Blöcke(Beispiel unten : M=N=4) • Zuordnung eines oder mehrerer Deskriptoren zu jedem Teilblock • Maskierung für individuelle Teilblöcke möglich

  15. Visuelle Descriptoren : Basic Structures (2) • Time Series • Zuordnung von Descriptoren zu Zeitpunkten eines Video • Regular : Gleiche Abstände • Irregular : Variable Abstände

  16. y 2 4 2 6 5 3 x x 7 3 1 4 z z 1 Visuelle Descriptoren : Basic Structures (3) • Multiple View • Zuordnung von Descriptoren zu verschiedenen Ansichten derselben Szene oder desselben Objektes • Beispiel : Shape unter verschiedenen Blickwinkeln

  17. Visuelle Descriptoren : Basic Structures (4) • Spatial 2D Coordinates • Definition von örtlichen Referenz-Koordinatensystemen • Längeneinheiten natürlich (Meter) oder Bildpunkte • Lokale (Einzelbild) oder integrierte (Bildabbildung) Koordinatensysteme

  18. Visuelle Descriptoren : Basic Structures (5) • Temporal Interpolation • Generische Interpolationsfunktion für zeitlich variable Parameter, z.B. Objektpositionen • Lineare und quadratische Interpolation unterstützt

  19. Visuelle Deskriptoren: Farbe (1) • Color Space • Farbraum, in welchem die Bildeigenschaften beschrieben werden • MPEG-7 unterstützt RGB, HSV, HMMD, YCbCr, lineare Matrixtransformation und Monochrom • Farbreferenzabgleich möglich • Color Quantization : Lineare Quantisierung

  20. Visuelle Deskriptoren: Farbe (2) • Dominant Color • Bis zu 8 dominante Farben pro Region oder Bild definierbar • Repräsentation durch prozentualen Anteil, Mittelwert und Varianz • Zuverlässigkeitsmaß basierend auf örtlicher Kohärenz

  21. Visuelle Deskriptoren: Farbe (3) / GoF Color-Histogram • Color-Histogram • definiert Methode um Farbeigenschaften von Bildern oder Videosequenzen in einem Histogramm erfassen zu können

  22. Visuelle Deskriptoren: Farbe (4) • Scalable Color • Repräsentation eines HSV-Farbhistogramms • Haar-Transformation, Bitebenen-Codierung • Skalierbar zwischen 16 bit und 1 Kbit

  23. Color Structure • berücksichtigt Farbe und Farbverteilung Visuelle Deskriptoren: Farbe (5) • Color Layout • räumliche Verteilung der Farbe Originalbild Kleine Blöcke große Blöcke

  24. r Visuelle Deskriptoren: Textur (1) • Homogeneous Texture • Winkel/Radialzerlegung der 2D-Frequenzebene • 30 Frequenzbänder • Repräsentation durch Momente 1. und 2. Ordnung

  25. Regelmäßigkeit Hauptrichtung Skalierung - - + + Visuelle Deskriptoren: Textur (2) • Texture Browsing • berücksichtigt menschliche Wahrnehmung • 3 Kriterien: Regelmäßigkeit, Hauptrichtung, Skalierung

  26. 16 Regionen X 5 Kanten = 80 Balken 5 Kanten Richtungen Kanten-Häufigkeit (0,0) (0,1) (0,2) (0,3) (1,0) (1,2) (1,2) (1,3) (2,0) (2,1) (2,2) (2,3) (3,0) (3,1) (3,2) (3,3) 0 79 16 Regionen Visuelle Deskriptoren: Textur (3) • Edge Histogram • Gradientenhistogramm in 4 Richtungen + "nondirectional" • Unterteilung in Blockraster möglich

  27. Visuelle Deskriptoren: Shape (1) • Contour Shape • Globale Eigenschaften: Exzentrizität, Krümmung • Lokale Eigenschaften: curvature scale space (CSS) Number of iterations

  28. Visuelle Deskriptoren: Shape (2) • Binary Shape • Auf Winkel-/Radiallagen parametrierte Basisfunktionen • Repräsentation durch Momente • Skalierbar in Anzahl der verwendeten Funktionen

  29. Visuelle Deskriptoren: Shape (3) • 3D Shape • Basiert auf Krümmung von 3D Oberflächen (z.B. Winkel benachbarter Vertices in Wireframe • "3D Shape Spectrum" ist Histogramm der Krümmungen • Skalierbar in Anzahl der Histogrammlinien

  30. Visuelle Deskriptoren: Bewegung (1) • Camera Motion • Charakterisiert qualitativ und quantitativ das Vorhandensein von Bewegungen der Kamera • 2x6 3D-Grundbewegungen und Zoom

  31. Visuelle Deskriptoren: Bewegung (2) • Motion Trajectory • Definition von 2D- und 3D-Objekttrajektorien • Repräsentation durch zeitlich/örtliche Koordinaten und Interpolationsfunktion • Kombination mehrerer Trajektorien im "Spatio-Temporal Locator"

  32. Translation Rotation /Skalierung perspektiv. Verzerrung Verzerrung 2. Ordnung Visuelle Deskriptoren: Bewegung (3) • Parametric Motion • parametrische Bewegungsmodelle

  33. Visuelle Deskriptoren: Bewegung (4) • Motion-Activity Descriptor • Intensität der Bewegung (6 Stufen) • dominante Richtung (8 Winkel) • räumliche Verteilung der Bewegung • zeitliche Verteilung der Aktivität innerhalb einer bestimmten Stufe

  34. Visuelle Deskriptoren: Localization • Region Locator • beschreibt Position einer Region mittels Bounding-Box oder Polygon • Spatio-Temporal Locator • beschreibt örtlich-zeitliche Position und Größe einer Region durch Kombination von Referenzregion und Bewegungstrajektorien

  35. Merkmal Deskriptor Vergleich Distanz (L1) Vergleich von Deskriptoren (Matching) • Vektor basierte Deskriptoren: L1 Distanz • Mehrere Deskriptoren: Kombination von Distanzen

  36. Qualität der Deskriptoren • Core-Experiment-Prozess • Visuell angepasste Leistungskriterien wurden festgelegt • Detaillierte Untersuchung der Descriptoren, z.B. Effizienz gegenüber Kompaktheit • Beispiel : Scalable Color Retrieval Accuracy (ANMRR) Entropy per histogram line

  37. Anwendungen • "Data Mining" / Retrieval : Verwendung von Signalmerkmalen zur Suche audiovisueller Information

  38. Anwendungen • Audiovisuelle Kommunikation mit Robotern Such den Schuh !

  39. Zusammenfassung • MPEG-7 Visual (Part 3) umfaßt Definitionen von Deskriptoren für alle wichtigen visuellen Merkmale • Effizienz wurde in Core-Experimenten getestet • Offene Fragen (MPEG-7 Version 2 ?) • Deskriptoren universell einsetzbar oder für spezielle Anwendungen weitere Definitionen notwendig ? • Zusammenfassung mehrerer Descriptoren ineffizient ? • Ausnutzung der zeitlichen Redundanz ? • Übergeordnete (z.B. semantische, subjektive) visuelle Merkmale ? • Standardisierte Klassifikationsmechanismen ?

More Related