1 / 37

Indexation de séquences de descripteurs

Indexation de séquences de descripteurs. Romain Tavenard Jury : Marie-Odile CORDIER, Univ . Rennes I Philippe JOLY, Univ . P. Sabatier (Toulouse), Rapporteur Hervé GLOTIN,  Univ . Sud-Toulon-Var, Rapporteur Stéphane MARCHAND-MAILLET, Univ . Genève Patrick GROS, INRIA Rennes

Download Presentation

Indexation de séquences de descripteurs

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Indexation de séquences de descripteurs Romain Tavenard Jury :Marie-Odile CORDIER, Univ. Rennes I Philippe JOLY, Univ. P. Sabatier (Toulouse), Rapporteur Hervé GLOTIN,  Univ. Sud-Toulon-Var, Rapporteur Stéphane MARCHAND-MAILLET, Univ. Genève Patrick GROS, INRIA Rennes Laurent AMSALEG, CNRS / IRISA

  2. Problématiques • Exemples • Shazam • Reprises musicales • “Query by Humming” • Problématiquesinduites • Comparer • Rechercher • Application aux grands volumes de données • Compromiscoût / pertinence Indexation de séquences de descripteurs - Romain Tavenard

  3. Comparer :Spécificités des séquences Distorsionstemporellesouvalue-métriques Sous-séquences Indexation de séquences de descripteurs - Romain Tavenard

  4. Rechercher :Indexation Base Liste de résultats Document X Document Y Document Z … Index Indexation de séquences de descripteurs - Romain Tavenard

  5. Plan • Recherche de séquences • Réduction du coût de comparaison • Réduction du coût de recherche • Recherche de sous-séquences • Recherche de plus prochesvoisinslocauxefficace • Robustificationtemporelle • Nécessité de l’utilisation de l’Alignement Dynamique Indexation de séquences de descripteurs - Romain Tavenard

  6. Dynamic Time Warping (DTW) Principe de base En pratique Coût de calculélevé Indexation de séquences de descripteurs - Romain Tavenard

  7. DTW & Bornes inférieures Principe Utilité des bornes inférieures [Keogh2005] Distance à la requête Coût de calculfaible S1 S2 S3 S4 BI DTW Indexation de séquences de descripteurs - Romain Tavenard

  8. DTW & Bornes inférieures Limites Recherche exacte + Coût faible de la borne → Mauvais ajustement → Calculs de DTW trop nombreux Indexation de séquences de descripteurs - Romain Tavenard

  9. Apprentissage de la borne inférieure approximative DTW BI BS BIA 1 p 0 BI BS Pour un ensemble de paires de séquences d’apprentissage, on calcule : On en déduit : Indexation de séquences de descripteurs - Romain Tavenard

  10. Résultats expérimentaux • Jeux de données UCR Time Series • 20 jeux de données • Chaque jeu de données séparé entre : • 1 jeu d’apprentissage (de 24 à 1 000 séquences) • 1 jeu de test (de 28 à 6 174 séquences) • Séquences de même taille dans chaque jeu de données • Étiquettes de classification fournies • Ex: Jeu de données EEG • 3 états des rats étudiés (éveillé+ 2 phases de sommeil) Indexation de séquences de descripteurs - Romain Tavenard

  11. Résultats expérimentaux Ajustement Recherche de plus proches voisins Indexation de séquences de descripteurs - Romain Tavenard

  12. DTW & Indexation • Arbre d’indexation : iSAX [Shieh2008] • Sous-échantillonnage • Quantification • Séquences stockées dans les feuilles • Recherche = parcours des feuilles basé borne inférieure {0*,0*} [0*,1*] {01,1*} {00,1*} Indexation de séquences de descripteurs - Romain Tavenard

  13. DTW & Indexation • Résultats • Dans le manuscrit • kPAA • k-means • équilibrage Indexation de séquences de descripteurs - Romain Tavenard

  14. Plan • Recherche de séquences • Réduction du coût de comparaison • Réduction du coût de recherche • Recherche de sous-séquences • Recherche de plus prochesvoisinslocauxefficace • Robustificationtemporelle • Nécessité de l’utilisation de l’Alignement Dynamique Indexation de séquences de descripteurs - Romain Tavenard

  15. Recherche de sous-séquences • Contextetemporel • Sous-séquence commune • Cas d’application : recherche de reprises musicales • Structure du morceau altérée • Modification locale de la partition jouée (insertion d’arpèges, …) Indexation de séquences de descripteurs - Romain Tavenard

  16. Recherche de reprises musicales Requête Chanson X • [Serrá2009] : comparaison de 2 séquences • Matrice de similarité binarisée (relation “est un des plus proches voisins de” et sa réciproque) • Algorithme de “Plus Longue Sous-séquence Commune” Indexation de séquences de descripteurs - Romain Tavenard

  17. Recherche de plus proches voisins locaux • Utilisation de la base • Plus prochesvoisinsdans la base • Améliorationd’uneméthode de l’état-de-l’art • IVFADC [Jégou2011] • Estimation de distances • IVFADC+R • Raffinementefficace de l’estimation • Passage à l’échelle (évaluésur 1milliard de descripteurs) Indexation de séquences de descripteurs - Romain Tavenard

  18. Serrá & IVFADC+R Requête Requête Chanson X Chanson Y Chanson Z Indexation de séquences de descripteurs - Romain Tavenard

  19. Évaluation expérimentale • Jeu de données • Yolita (remixes de Madonna) • 2 018 chansons dans la base (~8M descripteurs), 82 requêtes • Chromagrammes (dimension 12) concaténés par groupes de 5 (dimension 60) • Fenêtred’analyse : 200 ms • Recouvrement entre fenêtres : 100 ms Indexation de séquences de descripteurs - Romain Tavenard

  20. Évaluation expérimentale Indexation de séquences de descripteurs - Romain Tavenard

  21. Plan • Recherche de séquences • Réduction du coût de comparaison • Réduction du coût de recherche • Recherche de sous-séquences • Recherche de plus prochesvoisinslocauxefficace • Robustificationtemporelle • Nécessité de l’utilisation de l’Alignement Dynamique Indexation de séquences de descripteurs - Romain Tavenard

  22. Alignement dynamique • Utilisation fréquente pour comparer des séquences • Est-ce nécessaire ? Car c’est coûteux ! • Élément de réponse • Reprises musicales : Oui • Deux autres cas de figures • Recherche de quasi-réplicats (vidéo) • Recherche de répétitions altérées (audio) Indexation de séquences de descripteurs - Romain Tavenard

  23. Approches référentes Pas d’informationtemporelle Sacs de mots Information temporelle locale Sacs de mots n-grammes Indexation de séquences de descripteurs - Romain Tavenard

  24. Recherche de quasi-réplicats (vidéo) • Cadre • Déformations uniquement value-métriques • Corpus • Jeu d’apprentissage : 1 jour de flux TV (France 2) • Base : 2 jours de flux TV (France 2) distincts du jeu d’apprentissage • Flux découpé en segments de 5 secondes • Requêtes : 33 jingles annonçant la publicité France 2 • Descripteurs • 1 image → 1 Signature binaire 64-bit [Naturel2005] • [Chantamunee2008] à TRECVID, par exemple Indexation de séquences de descripteurs - Romain Tavenard

  25. Recherche de quasi-réplicats (vidéo) • Déformations du flux non temporelles • Alignement dynamique = idée coûteuse • n-grammes pénalisés Indexation de séquences de descripteurs - Romain Tavenard

  26. Recherche de répétitions altérées (audio) • Cadre • Déformations temporelles fortes : un mot est répété par plusieurs locuteurs • Corpus • Jeu d’apprentissage : 8 heures de flux radio (France Info) • Base : 1 heure de flux radio (France Info) • Flux découpé en segments de 5 secondes • Requêtes : 78 enregistrements de mots • Descripteurs • Mel FrequencyCepstral Coefficients (dimension 12) • [Muscariello2009,Fraihat2010] par exemple Indexation de séquences de descripteurs - Romain Tavenard

  27. Recherche de répétitions altérées (audio) • Alignement dynamique largement utilisé • Sacs de mots bruts insuffisants • Information temporelle faible suffisante Indexation de séquences de descripteurs - Romain Tavenard

  28. Faiblesses de l’alignement dynamique • Faible robustesse à l’insertion de grandes valeurs dans la matrice de similarité • Pas de pénalisation des chemins peu réalistes Indexation de séquences de descripteurs - Romain Tavenard

  29. Alignement dynamique etmodèle de déformations • Variabilité temporelle de type insertions/suppressions • Alignement dynamique OK • Exemple : Reprises musicales • Variabilité temporelle d’un autre type • Alignement dynamique questionnable • Exemple : Parole • Absence de variabilité temporelle • Alignement dynamique inadapté • Exemple : Recherche de quasi-réplicats • Étudier la nature des transformations applicables avant de choisir une métrique de similarité Indexation de séquences de descripteurs - Romain Tavenard

  30. Conclusion générale • Propositions dérivées de l’alignement dynamique dans deux cadres distincts • DTW classique entre séquences • Méthode de réduction de coût de calcul au détriment de l’exactitude • Recherche de sous-séquences communes • Première étape de filtrage rapide avec peu d’information temporelle • Robustification utilisant l’alignement dynamique • Limites de l’alignement dynamique • Importance de la nature des déformations considérées Indexation de séquences de descripteurs - Romain Tavenard

  31. Perspectives - 1 • Modèles de déformations temporelles plus adaptées au cas d’utilisation • Travail entamé sur la recherche de reprises musicales • Attaquer le problème des grandes valeurs dans la matrice de similarité • DTW symbolique pour des données numériques • Analogie avec les méthodesrobustes en statistiques Indexation de séquences de descripteurs - Romain Tavenard

  32. Perspectives - 2 • Découverte de motifs • Nécessité d’une approche à plusieurs niveaux • Intérêt des représentations peu coûteuses intégrant peu d’information temporelle • Classification • cf. recherche de reprises qui est proche de la classification • Supervisée : Méthodes à noyau & DTW • Non supervisée : k-means & DTW Indexation de séquences de descripteurs - Romain Tavenard

  33. BonusLBUB vs. IDDTW • IterativeDeepeningDynamic Time Warping • Estimation de la DTW à des niveaux de résolution croissants • Filtrage progressif des séquences Indexation de séquences de descripteurs - Romain Tavenard

  34. BonusDTW & pénalisation • Recherche de mots parlés • [Fraihat2010] suggère de pénaliser la diagonale Indexation de séquences de descripteurs - Romain Tavenard

  35. BonusVidéo & courts extraits Indexation de séquences de descripteurs - Romain Tavenard

  36. BonusSéquences illustratives Indexation de séquences de descripteurs - Romain Tavenard

  37. Recherche approximative de plus proches voisins LB LBUB DTW DTW DTW DTW S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4 Indexation de séquences de descripteurs - Romain Tavenard

More Related