1 / 41

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle. É quipe SAMoVA ( S tructuration A nalyse et Mo délisation de la V idéo et de l’ A udio) Julien Pinquier Directeur de recherche : Régine André-Obrecht. Objectifs.

Download Presentation

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de l’Audio) Julien Pinquier Directeur de recherche : Régine André-Obrecht

  2. Objectifs • Contribution à l’analyse automatique • Recherche de composantes primaires • Apport d’outils utiles • Pour la structuration automatique Contexte : indexation Présentation de thèse Lundi 20 décembre 2004

  3. Indexation sonore : que faire ? musique parole silence parole leçon lesson locuteur 1 (homme) locuteur 2 (femme) français anglais jingle 1 Présentation de thèse Lundi 20 décembre 2004

  4. Plan • Détection PMB • Etat de l’art • Système de base • Système hybride (fusion) • Détection de sons clés • Jingles • Applaudissements, rires et locuteur cible • Mots clés • Structuration 1 2 3 Présentation de thèse Lundi 20 décembre 2004

  5. Plan 2 3 1 • Détection PMB • Etat de l’art • Système de base • Système hybride (fusion) • Détection de sons clés • Jingles • Applaudissements, rires et locuteur cible • Mots clés • Structuration Présentation de thèse Lundi 20 décembre 2004

  6. Etat de l’art 2 3 1 • Parole • Structure formantique [Calliope89] • Formants = Fréquences de résonance du conduit vocal Formants Présentation de thèse Lundi 20 décembre 2004

  7. Etat de l’art 2 3 1 • Musique • Instrumentale traditionnelle • Structure harmonique Harmoniques Présentation de thèse Lundi 20 décembre 2004

  8. Etat de l’art : paramétrisation 2 3 1 • Paramétrisation • Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98] • Fréquentielle : DSP [Saunders96] et [Scheirer97] • Mixte [Scheirer97] • MFCC [Gauvain99] • Classification • Approche statistique : • méthodes paramétriques • méthodes non paramétriques • Réseaux de neurones • SVM Présentation de thèse Lundi 20 décembre 2004

  9. Etat de l’art : paramétrisation 2 3 1 Parole Musique Signal ZCR Énergie Spectral rolloff point Flux spectral Présentation de thèse Lundi 20 décembre 2004

  10. Etat de l’art : classification 2 3 1 • Paramétrisation • Temporelle : ZCR et énergie • Fréquentielle : DSP • Mixte • MFCC • Classification • Approche statistique : • méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99] • méthodes non paramétriques [Foote97] et [Rossignol2000] • Réseaux de neurones [Rossignol2000] • SVM [Chapelle2002] Présentation de thèse Lundi 20 décembre 2004

  11. Etat de l’art : quelques systèmes 2 3 1 • Détection de musique : système IRCAM • Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) • Décision : RN, kppv • ≈ 10% d’erreurs • Détection de parole : système LIMSI • Paramétrisation : MFCC (38 coefficients) • Décision : MMG • 3 à 8 % d’erreurs • Détection binaire : autres systèmes • [Saunders96], [Scheirer97] et [Zhang98] • < 10% d’erreurs • Identification Présentation de thèse Lundi 20 décembre 2004

  12. Notre système PMB de base Parole NonParole 2 3 1 Signal Analyse cepstrale Classification Modélisation différenciée Apprentissage Modèles Signal Musique Classification Analyse spectrale NonMusique Présentation de thèse Lundi 20 décembre 2004

  13. Notre système PMB de base 128 lois gaussiennes Modèle Parole Paramètres indicés (Parole) Étiquetagemanuel(parole) VQ EM Affectation Coeff. Cepstraux 18 Paramètres indicés (NonParole) Modèle NonParole VQ EM Pré-traitement acoustique SIGNAL Modèle Musique Paramètres indicés (Musique) 29 Coeff. Spectraux VQ EM Affectation Paramètres indicés (NonMusique) Modèle NonMusique VQ EM Étiquetagemanuel(musique) 128 lois gaussiennes 2 3 1 • Apprentissage des MMG Présentation de thèse Lundi 20 décembre 2004

  14. Notre système PMB de base 2 3 1 Problème : apprentissage Présentation de thèse Lundi 20 décembre 2004

  15. Notre système hybride Durée des segments Modulation de l’entropie Nombre de segments 2 3 1 Signal Détection de parole Détection de musique Segmentation Modulation de l’énergie à 4 Hz Fusion (scores) Fusion (scores) Classification Musique / NonMusique Classification Parole / NonParole Présentation de thèse Lundi 20 décembre 2004

  16. Notre système hybride Parole Musique 2 3 1 • Modulation de l’énergie à 4 Hz • Fenêtrage (16 ms) • 40 coefficients spectraux (Mel) • Filtrage (RIF passe-bande 4 Hz) • Somme et normalisation • Modulation (variance sur 1 s) • Modulation de l’entropie • Fenêtrage (16 ms) • Histogramme (amplitude du signal) • Entropie (estimateur non biaisé) • Modulation (variance sur 1 s) Présentation de thèse Lundi 20 décembre 2004

  17. Notre système hybride Parole Musique Signal Signal 2 3 1 • Segmentation (DFB) [André-Obrecht88] • Nombre de segments • Durée des segments Présentation de thèse Lundi 20 décembre 2004

  18. Notre système hybride 2 3 1 • Les seuils • Parole : corpus MULTEXT [Campione98] • Musique : base personnelle Exemple : Modulation de l’énergie à 4 Hertz Seuil Présentation de thèse Lundi 20 décembre 2004

  19. Résultats Paramètres Score Modulation de l’énergie à 4 Hertz Modulation de l’entropie 87,3 % 87,5 % MFCC + MMG 86,1 % max max MFCC + MMG (adaptation) 90,9 % 89,8 % 93,9 % Fusion (max) Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 90,7 % 90,9 % 90,5 % Nombre de segments Durée des segments 86,4 % 78,1 % Coef. Spectraux + MMG 79,7 % Coef. Spectraux + MMG (adaptation) 87 % Fusion (max) Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 89 % 84,8 % 86,9 % 2 3 1 CORPUS RFI (6 heures) Système de base P A R O L E Système hybride Etiquetage manuel 2 heures d’étiquetage M U S I Q U E Décalage parole : 500 ms Décalage musique : 1 s Présentation de thèse Lundi 20 décembre 2004

  20. Plan 2 3 1 • Détection PMB • Etat de l’art • Système de base • Système hybride (fusion) • Détection de sons clés • Jingles • Applaudissements, rires et locuteur cible • Mots clés • Structuration Présentation de thèse Lundi 20 décembre 2004

  21. Détection de sons clés 2 3 1 • Jingles (reproduction) → Référence (signature) • Applaudissements, rires et locuteur cible • Mots clés MMG Modèles MMC Jingle Applaudissements Rires Présentation de thèse Lundi 20 décembre 2004

  22. Détection de jingles Hamming | FFT | Filtrage Coefficients spectraux Signal 2 3 1 • Extrait sonore • Système classique • Analyse spectrale (29 coefficients) • Comparaison (distance Euclidienne) • Analyse des « pics » Présentation de thèse Lundi 20 décembre 2004

  23. Détection de jingles h 2 3 1 • Méthode d’analyse des pics Présentation de thèse Lundi 20 décembre 2004

  24. Détection de jingles 2 3 1 • Résultats • 2 erreurs • Précision : ~ 0,5 s France Info Présentation de thèse Lundi 20 décembre 2004

  25. Détection des applaudissements, des rires et d’un locuteur cible 2 3 1 • Pourquoi ? Présentation de thèse Lundi 20 décembre 2004

  26. Détection des applaudissements, des rires et d’un locuteur cible Modèle Classe Étiquetagemanuel (Classe/Non-classe) Paramètres indicés (Classe) VQ EM Affectation Paramètres indicés (Non-classe) Modèle Non-classe VQ EM SIGNAL Pré traitement acoustique 2 3 1 • Apprentissage des applaudissements et des rires • Classe={Applaudissements,Rires} • Apprentissage du locuteur cible Présentation de thèse Lundi 20 décembre 2004

  27. Détection des applaudissements, des rires et d’un locuteur cible 2 3 1 • Corpus : « Le Grand Échiquier », projet FERIA • Apprentissage : 1 émission • Reconnaissance : 1 émission • Résultats • Locuteur cible = présentateur « Jacques Chancel » : • 92,9 % (P/NP manuel) • 89,7 % (P/NP auto à 94,6 %) • Applaudissements et rires : problème du critère évaluation • Taux > 98 % : segments significatifs • Applaudissements : excellents • Rires : problèmes Présentation de thèse Lundi 20 décembre 2004

  28. Détection de mots clés 2 3 1 • Buts : • Notion de thème (cf. texte) • Structuration • Rapidité d’exécution, robustesse → légèreté de mise en œuvre • Etat de l’art • Modèle poubelle • Anti-modèles • Mesures de confiance • Système Présentation de thèse Lundi 20 décembre 2004

  29. Détection de mots clés 2 3 1 • Pré-traitement acoustique • MFCC • Modélisation : MMC • Unité : phonème Présentation de thèse Lundi 20 décembre 2004

  30. Détection de mots clés φ1 Deb Fin φp « b » « a » « l » 2 3 1 • Modèles : mots clés, poubelle et silence • Poubelle : φ • Mot clé : concaténation des modèles de φ→ intéressant • Grammaire → pénaliser Présentation de thèse Lundi 20 décembre 2004

  31. Détection de mots clés 2 3 1 • Corpus • Apprentissage : 30h ESTER (Technolangue) • France Inter (20h) et RFI (10h) • Reconnaissance : RFI (6 h, cf. PMB) • Mise en œuvre • Phonème → victoire : v i k t w a R v i k t w a R @ v i k t w a R sil v i k t w a R @ sil • Faisabilité : 20 mots clés, 5 thèmes • Politique : politique, président, ministre, Europe, gouvernement • Économie : technologie, industrie, travail, entreprise • Catastrophe : génocide, attentat, victime, sécurité, militaire • Sport : championnat, victoire, football • Météo : dépression, précipitations, température Présentation de thèse Lundi 20 décembre 2004

  32. Détection de mots clés 2 3 1 • Résultats • Erreurs • Système • 12 MFCC, Δ, ΔΔ, ΔE • MMC, 32G / état • Accuracy : 56,62 % • Amélioration (en cours) • Passage aux triphones Présentation de thèse Lundi 20 décembre 2004

  33. Plan 2 3 1 • Détection PMB • Etat de l’art • Système de base • Système hybride (fusion) • Détection de sons clés • Jingles • Applaudissements, rires et locuteur cible • Mots clés • Structuration Présentation de thèse Lundi 20 décembre 2004

  34. Structuration sonore 2 3 1 • Détection de motif dans une collection d’émissions • « Le grand Échiquier » 54 émissions de 3h • Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur • Détections automatiques, indépendantes : • Détection de musique (chansons, spectacle) • Détection de parole, puis du présentateur • Détection des applaudissements • Résultats : 1 émission → détection de 10 motifs • Besoins ? → autres émissions de la collection Présentation de thèse Lundi 20 décembre 2004

  35. Structuration sonore J 2 3 1 • Structuration d’un journal télévisé (« 6 minutes » de M6) • Détection de jingles (J et JG) • Détections de parole et de musique • Détection de mots clés • 1 erreur • Besoins ? Présentation de thèse Lundi 20 décembre 2004

  36. Structuration : perspectives Chanteur ? 2 3 1 • Apport de la vidéo • Détection de logos • Extraction de texte • Reconnaissance de l’intervenant Présentation de thèse Lundi 20 décembre 2004

  37. Structuration : perspectives 2 3 1 • Macrosegmentation automatique (exemple du motif) • Annotations automatiques • Recherche de suites récurrentes [Haidar04] • Inférence d’un motif • Structuration Important : difficile manuellement Présentation de thèse Lundi 20 décembre 2004

  38. Plan 2 3 1 • Détection PMB • Etat de l’art • Système de base • Système hybride (fusion) • Détection de sons clés • Jingles • Applaudissements, rires et locuteur cible • Mots clés • Structuration CONCLUSION Présentation de thèse Lundi 20 décembre 2004

  39. Conclusion • Indexation sonore : étude de composantes primaires • « Unités communes » • Parole et musique : → robustesse (plus d’apprentissage) • Mots clés : faisabilité → mise en œuvre intéressante • Thèmes : validation • Locuteur cible : résultats encourageants • «Unités caractéristiques» • Jingles : résultats excellents → 1 occurrence • Applaudissements : résultats très bons → universel • Rires : problèmes→ rires de foule Présentation de thèse Lundi 20 décembre 2004

  40. Perspectives • 2 études de structuration sonore → très intéressantes • Structuration d’un JT • Détection d’un motif • Ne pas se limiter à un seul média • Quelques pistes (analyse vidéo) • Difficulté du couplage audio/vidéo • Problèmes du traitement audiovisuel • Information audiovisuelle ou une indexation audiovisuelle ? • Analyse audiovisuelle ? Présentation de thèse Lundi 20 décembre 2004

  41. Merci de votre attention… Présentation de thèse Lundi 20 décembre 2004

More Related