1 / 55

LAPI, Departamentul de Electronică Aplicată și Tehnologia Informației,

Universitatea Politehnica Bucure şti. TEHNICI INTELIGENTE PENTRU ANALIZA ȘI CLASIFICAREA DUP Ă CONȚINUT A COLEC ȚIILOR DE BAZE DE DATE MULTIMEDIA. LAPI, Departamentul de Electronică Aplicată și Tehnologia Informației, Universitatea Politehnica București Romania.

hester
Download Presentation

LAPI, Departamentul de Electronică Aplicată și Tehnologia Informației,

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Universitatea PolitehnicaBucureşti TEHNICI INTELIGENTE PENTRU ANALIZA ȘI CLASIFICAREA DUPĂ CONȚINUT A COLECȚIILOR DE BAZE DE DATE MULTIMEDIA LAPI, Departamentul de Electronică Aplicată și Tehnologia Informației, Universitatea Politehnica București Romania Stagiu 6 luni „University of Trento”, Italia

  2. 2

  3. 3

  4. 4

  5. Scopul tezei de doctorat Date multimedia Informație vizuală - culoare - textură - forme - trăsături Informație de mișcare Informație audio - muzică - vorbire - sunete Informație textuală [www.youtube.com] 5 5

  6. Cuprins • Prezentare concepte • Trăsături propuse pentru descrierea documentelor video • reprezentarea „Fisher kernel” • Metode de Relevance Feedback propuse • Trecerea în revistă a principalelor contribuții originale • Concluzii și perspective de dezvoltare 6

  7. (On-line) Calcul Descriptori (Off-line) Calcul Descriptori Comparaţie I. Prezentare concepte Antrenare/ clasificare Descriptori multimedia (vectori cu componente) Baza de date multimedia Rezultate Căutare similaritate Interogare Relevance feedback Căutare concepte Căutare în conținut 7

  8. I. Prezentare concepte • “Semantic gap” (paradigma semantică) - diferenţa dintre • informaţia computaţională extrasă din documentul multimedia • şi interpretarea semanticăa acestuia. 8

  9. Capitolul II Trăsături pentru descrierea documentelor video

  10. II. Trăsături pentru descrierea video Modelul „Bag of Words” („State-of-the-Art”) Generare histograme Antrenare clasificator Detecție de puncte de interes Creare dicționar [Czurka et al.,ECCV 2004] 10

  11. II. Trăsături pentru descrierea video Modelul „Bag of Words” • conține apartenența fiecărui punct de interes către un element al unui dicționar (histogramă de cuvinte) Rezultat: D = [0;0;0;1]; Dimensiune: K (numărul de cuvinte din dicționar) [Czurka et al.,ECCV 2004] 11

  12. II. Trăsături pentru descrierea video Dezavantaje model „Bag of Words” • nu existănici o metodăriguroasă de reprezentare a distribuțieispațialedintreanumiteperechi de cuvinte. • existămultecuvinte care nu suntrelevante • procesul de cuantizare a cuvintelorgenereazăzgomot de cuantizare. • costulcomputaționalcreștefoarte mult odatăcu dimensiuneavocabularului de cuvinte. 12

  13. II. Trăsături pentru descrierea video Teoria reprezentării „Fisher kernel” • conceptul a fost introdus de [Jaakkolaet al.,: Exploiting generative models in discriminative classifiers. NIPS’99] pentru detecția de proteine. • introdus în Computer Vision de [Perronnin et al.,: "Fisher kernels on visual vocabularies for image categorization." CVPR’07] pentru clasificarea de imagini. • combinăbeneficiile algoritmilor generativicu ceidiscriminativi. • reprezintă un semnal ca și gradientul funcției de densitate de probabilitate care este învățată ca un model generativ al unui semnal. (1) (2) 13

  14. II. Trăsături pentru descrierea video Reprezentarea „Fisher kernel” • Calculează probabilitățile de apartenență la un cuvânt din dicționar Rezultat: D = [0.3;0.1;0.1;0.5]; • calculează gradientul mediei și a varianței probabilităților de apartenență la un cuvânt din dicționar. Dimensiune: 2*D*K 2 – medie + varianță K – numărul de cuvinte din dicționar D – lungimea trăsăturii 14

  15. II. Trăsături pentru descrierea video Contribuții (1) am introdus reprezentarea Fisher pentru modelarea variației de timp în cadrul documentelor video (2) am demonstrat că modelul propus are un caracter general în funcție de problema selectată: de la recunoaștere de gen, la recunoaștere de secvențe sportive și acțiuni cotidiene. (3) am arătat generalitatea metodei în funcție de trăsăturile alese: de la descriptori vizuali, la descriptori de mișcare și trăsături audio (4) cu metoda propusă am obținut rezultate similare sau mai bune decât cele propuse în literatură, deși am utilizat un set de trăsături mai ușor de calculat. [Mironică et al., Multimedia’13 ACM] 15

  16. II. Trăsături pentru descrierea video Arhitectura reprezentării „Fisher kernel” Trăsături (cadre video) vectori Fisher normalizați Vectori Fisher x1 xn1 FK FK Document multimedia 1 Model Generativ Gaussian Mixture Model x1 xnk Document multimedia k Clasificator (SVM) X = {x1 ... xm} Reducere dimensiune descriptori Calcul a vectorilor Fisher Extragere trăsături Pas de antrenare și clasificare Extragere dicționar Secțiune discriminativă Secțiune generativă [Mironică et al., ICMR’13 ACM] 16

  17. II. Trăsături pentru descrierea video Agregarea cadrelor cu reprezentarea „Fisher kernel” Cadrele similare vor face parte din aceeași componentă, modelând variațiile subtile de timp. [Mironică et al., Multimedia’13 ACM] Reprezentare „Fisher kernel” [Mironică et al., ICMR’13 ACM] 17

  18. II. Trăsături pentru descrierea video Agregarea cadrelor cu reprezentarea „Fisher kernel” Cadrele nesimilare vor face parte din componente separate, prevenind amestecarea conceptelor nesimilare. [Mironică et al., Multimedia’13 ACM] Reprezentare „Fisher kernel” [Mironică et al., ICMR’13 ACM] 18

  19. Vector Fisher 1 II. Trăsături pentru descrierea video Fuziunea trăsăturilor – „Late Fusion” clasificator 1 Scor 1 (normalizat) clasificator2 Scor 2 (normalizat) Decizie Vector Fisher 2 Scor de încredere global Vector Fisher n Scor n (normalizat) clasificatorn Normalizarea scorurilor de încredere Generare vectori Fisher Clasificare • Obținerea unui scor de încredere global [Mironică et al., CBMI 2013, IEEE/ACM] 19

  20. II. Trăsături pentru descrierea video Detecția genului documentelor video • Programe de televiziune • știri, sport, documentare, talk show, … • Filme • drame, comedii, thriller, … • Înregistrări • conferințe, video teleconferințe, ... • Altele • camere de supraveghere, înregistrări personale, … [http://www.multimediaeval.org/mediaeval2012] 20

  21. II. Trăsături pentru descrierea video Baza de date „MediaEval 2012”, Tagging Task • 14.838 episoade ~ aproximativ 3.260 ore de conținut video • 5.288 documentepentru antrenare • 9.550 documente pentru testare • conține documente video semi-profesionalede pe internetgrupate în 26 de genuri: artă, autovehicule, afaceri, jurnalism, comedie, documentare, educațional, bucătărie [http://www.multimediaeval.org/mediaeval2012] 21

  22. II. Trăsături pentru descrierea video Trăsături vizuale Histograme de gradienți orientați (HoG) • Împarte imaginea în 3x3 regiuni și pentru • fiecare zonă calculează o histogramă • de orientări de pixeli [Ludwig et al, CITS 2009] Histogramade culoare „Color naming” • Proiectează culorile în 11 culori universale: negru, albastru, maro, gri, verde, portocaliu, roz, purpuriu, roșu, alb și galben [Weijer et al, IEEE TIP’ 2009] 22

  23. Zero-Crossing Rate, • Linear Predictive Coefficients, time • Line Spectral Pairs, • Mel-Frequency Cepstral Coefficients, • Spectral centroid, flux, rolloff și kurtosis … fn f1 f2 + var{f2} + toate împărțite la varianța globală a trăsăturii var{fn} II. Trăsături pentru descrierea video Trăsături audio Trăsături audio bazate pe blocuri audio Parametrii extrași: [Mathieu et al., Yaafe toolbox, ISMIR’10, IEEE] [Mironică et al., CBMI 2013, IEEE/ACM] [Mironică et al., ICMR 2013, ACM] 23

  24. II. Trăsături pentru descrierea video Comparație rezultate cu MediaEval 2012 Genre Retrieval Indicator performantă: MAP (valoare maximă = 1) [Mironică et al., Multimedia’13 ACM] 24

  25. III. Trăsături pentru descrierea video Recunoașterea de acțiuni sportive • Baza Sport UCF 50 • 6500 documente video preluate de pe Youtube împărțite în 50 de acțiuni: • baseball, aruncări, biliard,înot, ridicare de greutăți, scufundări, bătut la tobă, scrima, golf, cântat la chitară, sărituri cu prăjina,curse de cai, aruncarea suliței, sărituri în lungime, caiac, exerciții de încălzire, cal cu mânere, tracțiuni, box,urcări pe pereți artificiali, urcare pe frânghie, canotaj, salsa, skate boarding, sky etc [Reddy et al., MVAP, 2012] 25

  26. II. Trăsături pentru descrierea video Recunoașterea de acțiuni sportive – Trăsături utilizate • Trăsături vizuale • Histograme de gradienţi orientaţi • (HOG - 2x2, 3x3, 4x4) • Histograme „Color Naming” • (2x2, 3x3, 4x4) • Trăsături de mișcare • Histograme de flux optic (HOF) • (2x2, 3x3, 4x4) Piramide Spațiale [Lazebnik et al., CVPR, 2006] Fuziune cu „Late Fusion” [Mironică et al., Multimedia’13 ACM] 26

  27. II. Trăsături pentru descrierea video Recunoașterea de acțiuni sportive – Comparație „State-of-the-Art” [Mironică et al., Multimedia’13 ACM] 27

  28. II. Trăsături pentru descrierea video Recunoașterea de acțiuni cotidiene Baza de date „University of Rochester Activities of Daily Living Dataset” Răspuns la telefon Tocat de banane Formare de numere la telefon A bea apă Utilizare furculiță A mânca biscuiți Desfacere banane Citire agendă telefonică A mânca banane Scris pe tablă [www.cs.rochester.edu/rmessing/uradl] 28

  29. II. Trăsături pentru descrierea video Recunoașterea de acțiuni cotidiene – metoda propusă [Ramanan, et. al. CVPR 2007] [Rostamzadeh, Zen, Mironică, Uijlings, Sebe, ICIAP 2013, IEEE] 29

  30. II. Trăsături pentru descrierea video Recunoașterea de acțiuni cotidiene – comparație „State-of-the-Art” [Mironică et al., Multimedia’13 ACM] 30

  31. Capitolul III Algoritmi de „Relevance Feedback” 31

  32. III. Relevance Feedback Arhitectura algoritmilor de Relevance Feedback Se utilizează exemplele pozitive şi negative preluate de la utilizator pentru a îmbunătăţi performanţa sistemului. Afişare Feedback Utilizator Estimare a noilor documente Afişare Feedback Utilizator 32

  33. III. Relevance Feedback Provocările algoritmilor de Relevance Feedback • numărul de documente pe care se oferă feedback este mult mai redus decât spațiul descriptorilor • dezechilibru în modul de a acorda feedback între utilizatori diferiți • dezechilibru între numărul de documente relevante și nerelevante • viteza de procesare (sisteme în timp real) 33

  34. III. Relevance Feedback Algoritmi clasici de „Relevance feedback” Căutare inițială Feedback utilizator Antrenare Document de interogare Documente relevante Documente nerelevante [Tao et al., PAMI’07, IEEE Trans.] Documente fără feedback 34

  35. III. Relevance Feedback „Relevance feedback” cu clusterizare ierarhică Calculează gradul de similaritate intre oricare două combinații de documente Crează un cluster cu cele mai similare 2 grupuri de documente Calculează gradul de similaritate între clusterul creat și restul clusterelor Condiție de încheiere Clasificare documente din baza de date utilizând dendograma antrenată Stop [Mironică et al., ISSCS’11, IEEE] [Mironică et al., CBMI’12, IEEE/ACM] 35

  36. III. Relevance Feedback „Relevance feedback” cu clusterizare ierarhică Interogare Inițială [Mironică et al., ISSCS’11, IEEE] [Mironică et al., CBMI’12, IEEE/ACM] 36

  37. III. Relevance Feedback „Relevance feedback” cu clusterizare ierarhică [Mironică et al., ISSCS’11, IEEE] [Mironică et al., CBMI’12, IEEE/ACM] 37

  38. III. Relevance Feedback „Relevance feedback” cu clusterizare ierarhică [Mironică et al., ISSCS’11, IEEE] [Mironică et al., CBMI’12, IEEE/ACM] 38

  39. III. Relevance Feedback Condiție de încheiere Varianta 1:Numărul fix de clustere Varianta 2: Număr adaptiv de clustere – criteriul arcului Procentul de varianță Număr de centroizi [Mironică et al., CBMI’12, IEEE/ACM] 39

  40. III. Relevance Feedback Calculul similarității dintre clusteri Distanța dintre centroizi Centroid + C2 Centroid + C1 Distanța Minimă + + C2 [Mironică et al., ISSCS’11, IEEE] C1 [Mironică et al., CBMI’12, IEEE/ACM] 40

  41. III. Relevance Feedback Calculul similarității dintre clusteri Distanța Medie Gradul de similaritate = Media distanțelor posibile dintre 2 clustere C2 C1 Distanța Maximă + C2 + [Mironică et al., ISSCS’11, IEEE] C1 [Mironică et al., CBMI’12, IEEE/ACM] 41

  42. III. Relevance Feedback Evaluare – Comparație cu „State-of-the-Art” • Metoda propusă a fost comparată cu o serie de algoritmi • „State-of-the-Art”: • Rocchio • Nearest Neighbor RF - NB • Boost RF • SVM RF • Random Forest RF - (RF) • Decision Trees RF • Relevance Feature Estimation - (RFE) [Mironică et al., CBMI’12, IEEE/ACM] 42

  43. III. Relevance Feedback Comparație cu „State-of-the-Art” (baze de date de imagini) Curbele Precizie – Reamintire pentru bazele de date Caltech 101 și Microsoft utilizând descriptorii de culoare, MPEG7 și Bag of Words (SURF) [Mironică et al., CBMI’12, IEEE/ACM] 9/14/2014 43

  44. III. Relevance Feedback Comparație cu „State-of-the-Art” – mai multe iterații feedback [Mironică et al., CBMI’12, IEEE/ACM] 9/14/2014 44

  45. III. Relevance Feedback Comparație cu „State-of-the-Art” – baze de date video (MediaEval 2011) Grafice Precizie – Reaminitire pentru o sesiune de relevance feedback pe patru ferestre de afisare (20, 30, 40 si 50 de documente afișate) [Ionescu, Seyerlehner, Mironică, Vertan, MTAP ’12] 9/14/2014 45

  46. Capitolul IV Alte contribuții originale Interfață

  47. IV. Alte contribuții originale • Descrierea conținutului de textură folosind automate celulare [Mironică et al., Buletin UPB, ‘13] • Analiza influenței metricilor asupra performanțelor sistemelor de indexare [Mironică et al., EUSIPCO ’12, IEEE ] • Algoritm de „Relevance Feedback" cu estimare a importanței trăsăturilor • Algoritm de „Relevance Feedback" cu reprezentare „Fisher kernel" [Mironică et al., SPAMEC ’11, EURASIP] [Mironică et al., ICMR ’13, ACM] • Metode multimodale de clasificare a documentelor video web prin integrarea • acestora cu algoritmi de relevance feedback [Ionescu, Seyerlehner, Mironică, Vertan, MTAP ’12] [Ionescu, Seyerlehner, Mironică, Vertan, EUSIPCO’12, IEEE] • Sistem de indexare multimedia după conținut [Mironică, Raport cercetare 2011] 47

  48. IV. Alte contribuții originale • Catalogarea imaginilor ORL [Mironică et al., EHB ’11, IEEE] • Catalogarea imaginilor microscopice [Mironică et al., COMM ’10, IEEE] [Mironică et al., ISSCS ’11, IEEE] • Catalogarea după gen a documentelor video • Competiție MediaEval 2012 - Poziția 2 / 29 sisteme [Mironică et al., CBMI’13, ACM/IEEE] • Catalogareaconținutului de violențăînfilme (analiza și implementarea de trăsături • vizuale) • Competiție MediaEval 2012 - Poziția 1 / 35 sisteme [Ionescu, Schlüter, Mironică, Schedl ICMR’13, ACM] • Catalogarea gesturilor (pozițiilor) statice ale mâinii [Vieriu, Mironică, Goraș, ISSCS’13, IEEE] 48

  49. IV. Lista de lucrări originale Articole publicate în reviste de specialitate [1] Ionuț Mironică, Radu Dogaru, „A novel feature-extraction algorithm for efficient classification of texture images", în Scientific Bulletin of UPB, Series C - Electrical Engineering, 2012. [2] Bogdan Ionescu, Klaus Seyerlehner, Ionuț Mironică, Constantin Vertan, Patrick Lambert, „An Audio-Visual Approach to Web Video Categorization", Multimedia Tools and Applications, 2012 (factor impact ISI 0.91). Cărți [3] Bogdan Ionescu, Ionuț Mironică, „Conceptul de Indexare Automată după Conținut în Contextul Datelor Multimedia", trimisă spre publicare (103 pagini). 9/14/2014 49 49

  50. IV. Lista de lucrări originale Articole publicate în conferințe internaționale (18) [4] Ionuț Mironică, Constantin Vertan, „Relevance feedback approaches for MPEG-7 content-based biomedical image retrieval", Communications (COMM), iunie 2010, Bucucurești, Romania. [5] Ionuț Mironică, Radu Dogaru, „A comparison between various classification methods for image classification stage in CBIR", Signals, Circuits and Systems (ISSCS), iulie 2011, Iași Romania [6] Ionuț Mironică, Constantin Vertan „An adaptive hierarchical clustering approach for relevance feedback in content-based image retrieval systems", Signals, Circuits and Systems (ISSCS), iulie 2011, Iași, Romania. [7] Ionuț Mironică, Constantin Vertan „A Modified Feature Relevance Estimation Approach to Relevance Feedback in Content-Based Image Retrieval Systems", Signal Processing and Applied Mathematics for Electronics and Communications, 26-28 august, 2011, Cluj-Napoca, Romania. [8] Ionuț Mironică, Constantin Vertan, Bogdan Ionescu „A Relevance Feedback Approach to Video Genre Retrieval", International Conference on Intelligent Computer Communication and Processing august, 2011, Cluj-Napoca, Romania. [9] Ionuț Mironică, Constantin Vertan, Dan Cristian Gheorghe „Automatic Pediatric Otitis Detection by Classification of Global Image Features", International Conference on e-Health and Bioengineering, EHB, noembrie, 2011, Iași, Romania. [10] Ionuț Mironică, Bogdan Ionescu, Constantin Vertan, „Hierarchical Clustering Relevance Feedback for Content-Based Image Retrieval", IEEE/ACM 10th International Workshop on Content-Based Multimedia Indexing, 27-29 iunie, Franța, 2012. [11] Bogdan Ionescu, Klaus Seyerlehner, Ionuț Mironică, Constantin Vertan, Patrick Lambert, "Automatic Web Video Categorization using Audio-Visual Information and Hierarchical Clustering Relevance Feedback", 20th European Signal Processing Conference - EUSIPCO 2012, 27-31 august, București, Romania. [12] Ionuț Mironică, Bogdan Ionescu, Constantin Vertan, „The Influence of the Similarity Measure to Relevance Feedback", 20th European Signal Processing Conference - EUSIPCO 2012, 27-31 august, București, Romania, 2012. [13] Jan Schlüter, Bogdan Ionescu, Ionuț Mironică, Markus Schedl, „ARF @ MediaEval 2012: An Uninformed Approach to Violence Detection in Hollywood Movies", MediaEval Benchmarking Initiative for Multimedia Evaluation workshopItalia 2012. [14] Bogdan Ionescu, Ionuț Mironică, Klaus Seyerlehner, Peter Knees, Jan Schlüter, Markus Schedl, Horia Cucu, Andi Buzo, Patrick Lambert, „ARF @ MediaEval 2012: Multimodal Video Classification", MediaEval workshop,Italia, 4-5 octombrie, 2012. [15] Bogdan Ionescu, Jan Schlüter, Ionuț Mironică, Markus Schedl, „A Naive Mid-level Concept-based Fusion Approach to Violence Detection in Hollywood Movies", ACM International Conference on Multimedia Retrieval - ICMR 2013, SUA, 2013. ISSCS EHB ICMR 9/14/2014 50

More Related