1 / 43

Wien,17. November 2000

Auf der Suche nach der Semantik - Inhaltsbasierte Indizierung von Bildern und Video. Wien,17. November 2000. Umfeld der Arbeit. Praktikum 1996 mit Ingeborg Tastl: Suche in Bilddatenbanken mit color adjacency graphen.

dusan
Download Presentation

Wien,17. November 2000

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Auf der Suche nach der Semantik - Inhaltsbasierte Indizierung von Bildern und Video Wien,17. November 2000

  2. Umfeld der Arbeit Praktikum 1996 mit Ingeborg Tastl:Suche in Bilddatenbanken mit color adjacency graphen Diplomarbeit 1999-2000 mit Horst Bischof und Jean-Michel Jolion:Suche in Bilddatenbanken mit interest points und Gabor features Dissertation 2000-?? mit Jean-Michel Jolion:Suche in Bild- und Videodatenbanken mittels Text und sub-konzeptuellen Informationen

  3. Themengebiet Indizierung Die Suche nach Informationen in einer Datenbank von Bildern und Videoclips, basierend auf Inhalt, d.h. “query by example”. Ergebnis Abfrage Vergleich Indizes

  4. „Pre-attentive“ Systeme Pre-Attentive: Systeme ohne Bewußtsein. Für den Vergleich werden Bildverarbeitungsmethoden herangezogen, die Informationen auf niedrigem Niveau extrahieren (Farbe, Textur, Kontur usw.) Teile der Abbildung nach Etienne Loupias: « Indexation d’images: aide au télé-enseignement et similarités pré-attentives » (Dissertation, Nov. 2000) Attentive: Systeme mit „Bewußtsein“, benutzen Schlußfolgerungen auf hohem Niveau um Information zu suchen.

  5. Aufgaben 1. Definition einer Beschreibung für Bilder oder Videos 2. Definition einer (Pseudo)-Metrik, die die Distanz zweier Bilder anhand der Beschreibungen ermitteln kann. Vergleich Distanz

  6. Ansätze • Spezialisierter Ansatz von Bilddatenbanken: Der Arbeitsbereich ist eingeschränkt (Medizinische Bildverarbeitung, Personen usw.). Die Features werden auf den Arbeitsbereich zugeschnitten. • Allgemeiner Ansatz: Keine Einschränkung des Arbeitsbereichs, alle Arten von Bildern/Videos sind erlaubt. • Hybrider Ansatz: Keine Einschränkung des Arbeitsbereichs. Detektion des Bildtypes und Benutzung spezieller Features für diesen Typ.

  7. Zwei Methoden Farbbasierte Distanz mittels Farbnachbar-schaftsgraphen Texturbasierte Distanz mittels Gaborfiltern

  8. Farb Graphen Schwarz Grün Gelb Rot Blau Repräsentation eines Bildes durch einen Graphen

  9. Farbclustering Graphen theoretisches Clustern Eintragen der Farben in ein 3D Histogram, erzeugen von Graphen. 34 13 9 6 17 5 18 8 12 23 21 33 37 83 65 44

  10. Aufbau und Vergleich Knoten: Die Farbe des Clusterrepräsentanten Kanten: Die Nachbarschaftsbeziehungen, die durch „walks“ von den Zusammenhangs-komponenten aus ermittelt werden. Vergleich zweier Graphen: Greedy search in der Distanzmatrix der Farben

  11. Farb Graphen Durch das Löschen von kleinen Regionen werden die wichtigeren Informationen hervorgehoben. Die Regionen werden nach ihrer Größe gewichtet. Die Ergebnisse sind von der Segmentierung abhängig. Das Regionenmodell ist nicht für alle Bilder vorteilhaft Liefert durch die Nachbarschaftsbeziehungen mehr Informationen als ein Farbhistogramm

  12. Gabor Features Selektion von Punkten mit Interest point Detektoren Gabor Filterbank Scale Scale 1 Scale 2 Scale 3 IP1 IP2 IP3 IP4

  13. 2 verschiedene Beschreibungen Beschreibung als Menge von Feature Vektoren Level 1 1 2 Level 2 ... Level 3 Beschreibung als Menge von Histogrammen

  14. Histogramme 0º 45º Nachbarsuche

  15. Distanz - Vektoren Suche der korres-pondierenden Vektoren durch Greedy search in der Distanz-matrix

  16. Distanz - Histogramme Die Distanz der Histogramrepräsentation wird über eine Standard Histogrammdistanzfunktion ermittelt. Die Battacharyya distanz:

  17. Rotationsunabhängigkeit Kompensation von Bildrotationen durch Rotation der Feature-vektoren bzw. Histogramvektoren A) Feature vektoren (N pro Bild) B) Histogram vektoren (1 pro Bild)

  18. Evaluierung der Algorithmen Wie kann die Qualität einer Suchantwort bewertet werden?

  19. Test Datenbanken Datenbank 1: 609 Bilder aus dem Fernsehen. 568 werden als Abfragebilder verwendet. Die Datenbank wird in 11 Klassen eingeteilt: Datenbank 2: 179 Bilder aus der Datenbank von Jean-Michel Jolion. 105 werden als Abfragebilder verwendet, die DB wird in 6 Klassen eingeteilt r ... Relevante Bilder in der Rückgabemenge d ... Relevante Bilder in er DB c ... Größe der Rückgabemenge

  20. DB 1

  21. DB 2

  22. Ergebnisse DB2

  23. Interestpoint Detektoren DB1

  24. Ergebnisse für Interestoperatoren Salient points (Haar) Zufällige Punkte Harris Tiger 26.7 25.6 11.7 Objekt gebundene Klassen Löwen 47.8 25.0 26.3 Gebäude 33.9 28.9 32.3 Sonnenuntergänge 25.6 20.4 20.0 % für die besten 15 Bilder Nach Etienne Loupias: « Indexation d’images: aide au télé-enseignement et similarités pré-attentives » (Dissertation, Nov. 2000)

  25. Schlußfolgerung - Gabor features Gute Charakterisierung der Bilder durch lokale Deskriptoren Gute Resultate für verschiedene Arten von Bildern (Fotos, Zeichnungen). Gute Klassifizierung nach Aufnahmen von den gleichen natürlichen Szenen (z.Bsp. Fernsehsendungen). Die Histogrammethoden werden aus Effizienzgründen empfohlen (ca. 20x schneller als die feature vector Methode) Texturähnlichkeit ist für den Menschen sehr schwer nachvollziehbar (Interface?)

  26. KIWI

  27. Semantik Larousse: “Wissenschaft der Bedeutung von Wörtern” Konzept Sprache Subkonzept Abbildung nach A.Chella, M.Frixione, S.Gaglio Understanding dynamic scenes Sensordaten (Features) VIR: Semantik durch Feedback

  28. Semantik • Konzepte: • Die Art der Information (Spielfilm) • Ort und Zeitpunkt des Geschehens (Frankreich im Mittelalter) • Handlung !! • Bezüge zwischen den einzelnen Shots usw. • Subkonzepte: • Himmel • Wald • Wasser

  29. Ansätze Fallschirm Vogel Explosion + - - + Wasserfall Unterwasser Extrahierter Text Textboxen Position R.Ranford, Christophe Garcia and Jean Carrivé. Conceptual Indexing of Television Images Based on Face and Caption Sizes and Locations - [19] • Location shot • Personal - Interview • Personal - Reporter GesichterGröße Shot/Regionen basierte Klassifizierung und semantische Wahrscheinlichkeitsnetze M.R.Naphade and T.S.Huang. Semantic Video Indexing using a probalisitic framework - [17]

  30. Indizierung basierend auf Text Scheitert momentan noch an der mangelnden Verfügbarkeit von zuverlässiger Video OCR. • Mögliche Features: • Position und Anzahl von Textfeldern • Größe • Klassifizierung des Textes (Ortsnamen, Personennamen, Sportresultate, fixe Strings wie „Interview“, „Live aus“ usw.) • Stichwortsuche über den Text Text muss mit anderen Features kombiniert werden (Gesichter, Motion, Audio)

  31. Extraktion von Text: Wo ist das Problem? Künstliche Kontrasterhöhung bei überlegtem Text (Lesbarkeit über komplexem Hintergrund) • Anti-Aliasing Effekte durch die Reduzierung der Auflösung (Tiefpaßfilter + Downsampling) • Kompressionsartifakte durch JPEG + MPEG Komprimierung

  32. Extraktion von Text Verschiedene Textgrößen machen einen Multiresolutionsansatz erforderlich. Komplexer Hintergrund macht die Segmentierung des Textes schwierig

  33. Ergebnisse der Detektion

  34. Was ist noch zu tun? • Extraktion des Textes: • Einarbeiten von temporellen Aspekten in den Detektionsalgorithmus. Integration von mehreren Frames • Tracking des Textes • Qualitätsverbesserung der Textboxen, wenn möglich Erhöhen der Auflösung • Segmentieren von Vordergrund und Hintergrund • OCR (Kommerzielle Tools??)

  35. Schlußfolgerung Visual Information Retrieval ist noch sehr weit davon entfernt, semantische Informationen zu erkennen und zu benutzen. In der Zwischenweit liefern Methoden basierend auf Farb- und Texturfeatures wertvolle Resultate, deren Einschrän-kungen den Benutzern bewußt sein sollten.

  36. Danke für Ihre Aufmerksamkeit!

  37. Referenzen Farbgraphen [1] J.Matas, R.Marik and J.Kittler, The Color Adjacency Graph Representation of multicolored Objects, Technical Report VSSP-TR-1/95, Department of Electronic & Electrical Engineering, University of Surrey, Guildford. [2] Markus Stricker and Alexander Dimai, Color Indexing with Weak Spatial Constraints, SPIE Vol. 2670/29 (0-8194-2044-1/96) [3] Shapiro L.G., Haralick R.M.: Decomposition of two-dimensional shapes by graph theoretical clustering. IEEE trans. On Pattern Analysis and Machine Intelligence 1979, 1(1), 10-20

  38. Referenzen Interest points und Gabor features [4] B. Huet and E.R. Hancock. Cartographic indexing into a database of remotely sensed images. In Third IEEE Workshop on Applications of Computer Vision (WACV96), pages 8-14, Sarasota, Dec 1996. [5] C. Schmidt and R. Mohr. Local gray value invariants for image retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(5), May 1997. [6] S. Bres and J.M. Jolion. Detection of interest points for image indexing. In 3rd Int. Conf. on Visual Inf. Systems, Visual 99, pages 427-434. Springer, Lecture Notes in Computer Science, 1614, June 1999. [7] H.G. Feichtinger and T. Strohmer. Gabor Analysis and Algorithms. Birkhäuser, 1998. [8] C. Harris and M. Stephens. A combined corner and edge detector. In Proceedings 4th Alvey Visual Conference. Plessey Research Roke Manor, UK, 1988. [9] A.K. Jain and F. Farrokhina. Unsupervised texture segmentation using gabor filters. Pattern Recognition, 24(12):1167-1186, 1991. [10] E. Loupias, N. Sebe S. Bres, and J.M. Jolion. Wavelet-based salient points for image retrieval. In International Conference on Image Processing, Vancouver, Canada, 2000.

  39. Referenzen Detektion und Extraktion von Text [11] F. LeBourgeois. Robust Multifont OCR System from Gray Level Images. Proceedings of the 4th Int. Conf. on Document Analysis and Recognition, pages 1-5. 8/1997. [12] H. Li and D. Doermann and O. Kia. Automatic Text Detection and Tracking in Digital Video. Technical report, LAMP-TR-028, Language and Media Processing Laboratory, Institute for Advanced Computer Studies, University of Maryland, College Park, MD 20742, 12/1998. [13] R. Lienhart and W. Effelsberg. Automatic Text Segmentation and Text Recognition for Video Indexing. Technical report, University of Mannheim, Praktische Informatik IV, 1998. [14] T. Sato and Takeo Kanade and E.K. Hughes and M.A. Smith and S. Satoh. Video OCR: Indexing digtal news libraries by recognition of superimposed captions. Multimedia Systems. [15] V. Wu and R. Manmatha and E.M. Riseman. Finding Text In Images. In ACM, editor, Proc. 2nd ACM Int. Conference on Digital Libraries. 7/1997. [16] Y. Zhong and H. Zhang and A.K.Jain. Automatic Caption Localizatio in Compressed Video. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(4):385-392, 4/2000.

  40. Referenzen Semantische Indizierung [17] M.R.Naphade and T.S.Huang. Semantic Video Indexing using a probalisitic framework. In Proceedings of the ICPR 2000, Barcelona,Spain, Sept.2000, pp 83-88. [18] A. Del Bimbo. Issues and Directions in Visual Information Retrieval. In Proceedings of the ICPR 2000, Barcelona,Spain, Sept.2000, pp 83-88. [19] R.Ranford, Christophe Garcia and Jean Carrivé. Conceptual Indexing of Television Images Based on Face and Caption Sizes and Locations. In Proceedings of the VISUAL 2000, Lyon, France, Nov. 2000, pp. 349-359. [20] J.Z.Wang, J.Li and G.Wiederhold. SIMPLICITY: Semantics-sensitive Integrated Matching. In Proceedings of the VISUAL 2000, Lyon, France, Nov. 2000, pp. 349-359.

  41. Appendix Bhattacharyya Distanz: Distanz zweier Mengen von Feature vektoren: 1. X ... Menge der Paare von korrespondierenden Vektoren t ..... Threshold t = max. Distanz zweier Vektoren 2.

  42. Appendix • Indizierung: • Definition der Features • Definition der Information, die abgeleitet werden kann (Klassen). • Interaktion mit den nicht text-orientierten Features (Motion: Rémi Megret)

More Related