410 likes | 483 Views
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle. É quipe SAMoVA ( S tructuration A nalyse et Mo délisation de la V idéo et de l’ A udio) Julien Pinquier Directeur de recherche : Régine André-Obrecht. Objectifs.
E N D
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de l’Audio) Julien Pinquier Directeur de recherche : Régine André-Obrecht
Objectifs • Contribution à l’analyse automatique • Recherche de composantes primaires • Apport d’outils utiles • Pour la structuration automatique Contexte : indexation Présentation de thèse Lundi 20 décembre 2004
Indexation sonore : que faire ? musique parole silence parole leçon lesson locuteur 1 (homme) locuteur 2 (femme) français anglais jingle 1 Présentation de thèse Lundi 20 décembre 2004
Plan • Détection PMB • Etat de l’art • Système de base • Système hybride (fusion) • Détection de sons clés • Jingles • Applaudissements, rires et locuteur cible • Mots clés • Structuration 1 2 3 Présentation de thèse Lundi 20 décembre 2004
Plan 2 3 1 • Détection PMB • Etat de l’art • Système de base • Système hybride (fusion) • Détection de sons clés • Jingles • Applaudissements, rires et locuteur cible • Mots clés • Structuration Présentation de thèse Lundi 20 décembre 2004
Etat de l’art 2 3 1 • Parole • Structure formantique [Calliope89] • Formants = Fréquences de résonance du conduit vocal Formants Présentation de thèse Lundi 20 décembre 2004
Etat de l’art 2 3 1 • Musique • Instrumentale traditionnelle • Structure harmonique Harmoniques Présentation de thèse Lundi 20 décembre 2004
Etat de l’art : paramétrisation 2 3 1 • Paramétrisation • Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98] • Fréquentielle : DSP [Saunders96] et [Scheirer97] • Mixte [Scheirer97] • MFCC [Gauvain99] • Classification • Approche statistique : • méthodes paramétriques • méthodes non paramétriques • Réseaux de neurones • SVM Présentation de thèse Lundi 20 décembre 2004
Etat de l’art : paramétrisation 2 3 1 Parole Musique Signal ZCR Énergie Spectral rolloff point Flux spectral Présentation de thèse Lundi 20 décembre 2004
Etat de l’art : classification 2 3 1 • Paramétrisation • Temporelle : ZCR et énergie • Fréquentielle : DSP • Mixte • MFCC • Classification • Approche statistique : • méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99] • méthodes non paramétriques [Foote97] et [Rossignol2000] • Réseaux de neurones [Rossignol2000] • SVM [Chapelle2002] Présentation de thèse Lundi 20 décembre 2004
Etat de l’art : quelques systèmes 2 3 1 • Détection de musique : système IRCAM • Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) • Décision : RN, kppv • ≈ 10% d’erreurs • Détection de parole : système LIMSI • Paramétrisation : MFCC (38 coefficients) • Décision : MMG • 3 à 8 % d’erreurs • Détection binaire : autres systèmes • [Saunders96], [Scheirer97] et [Zhang98] • < 10% d’erreurs • Identification Présentation de thèse Lundi 20 décembre 2004
Notre système PMB de base Parole NonParole 2 3 1 Signal Analyse cepstrale Classification Modélisation différenciée Apprentissage Modèles Signal Musique Classification Analyse spectrale NonMusique Présentation de thèse Lundi 20 décembre 2004
Notre système PMB de base 128 lois gaussiennes Modèle Parole Paramètres indicés (Parole) Étiquetagemanuel(parole) VQ EM Affectation Coeff. Cepstraux 18 Paramètres indicés (NonParole) Modèle NonParole VQ EM Pré-traitement acoustique SIGNAL Modèle Musique Paramètres indicés (Musique) 29 Coeff. Spectraux VQ EM Affectation Paramètres indicés (NonMusique) Modèle NonMusique VQ EM Étiquetagemanuel(musique) 128 lois gaussiennes 2 3 1 • Apprentissage des MMG Présentation de thèse Lundi 20 décembre 2004
Notre système PMB de base 2 3 1 Problème : apprentissage Présentation de thèse Lundi 20 décembre 2004
Notre système hybride Durée des segments Modulation de l’entropie Nombre de segments 2 3 1 Signal Détection de parole Détection de musique Segmentation Modulation de l’énergie à 4 Hz Fusion (scores) Fusion (scores) Classification Musique / NonMusique Classification Parole / NonParole Présentation de thèse Lundi 20 décembre 2004
Notre système hybride Parole Musique 2 3 1 • Modulation de l’énergie à 4 Hz • Fenêtrage (16 ms) • 40 coefficients spectraux (Mel) • Filtrage (RIF passe-bande 4 Hz) • Somme et normalisation • Modulation (variance sur 1 s) • Modulation de l’entropie • Fenêtrage (16 ms) • Histogramme (amplitude du signal) • Entropie (estimateur non biaisé) • Modulation (variance sur 1 s) Présentation de thèse Lundi 20 décembre 2004
Notre système hybride Parole Musique Signal Signal 2 3 1 • Segmentation (DFB) [André-Obrecht88] • Nombre de segments • Durée des segments Présentation de thèse Lundi 20 décembre 2004
Notre système hybride 2 3 1 • Les seuils • Parole : corpus MULTEXT [Campione98] • Musique : base personnelle Exemple : Modulation de l’énergie à 4 Hertz Seuil Présentation de thèse Lundi 20 décembre 2004
Résultats Paramètres Score Modulation de l’énergie à 4 Hertz Modulation de l’entropie 87,3 % 87,5 % MFCC + MMG 86,1 % max max MFCC + MMG (adaptation) 90,9 % 89,8 % 93,9 % Fusion (max) Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 90,7 % 90,9 % 90,5 % Nombre de segments Durée des segments 86,4 % 78,1 % Coef. Spectraux + MMG 79,7 % Coef. Spectraux + MMG (adaptation) 87 % Fusion (max) Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 89 % 84,8 % 86,9 % 2 3 1 CORPUS RFI (6 heures) Système de base P A R O L E Système hybride Etiquetage manuel 2 heures d’étiquetage M U S I Q U E Décalage parole : 500 ms Décalage musique : 1 s Présentation de thèse Lundi 20 décembre 2004
Plan 2 3 1 • Détection PMB • Etat de l’art • Système de base • Système hybride (fusion) • Détection de sons clés • Jingles • Applaudissements, rires et locuteur cible • Mots clés • Structuration Présentation de thèse Lundi 20 décembre 2004
Détection de sons clés 2 3 1 • Jingles (reproduction) → Référence (signature) • Applaudissements, rires et locuteur cible • Mots clés MMG Modèles MMC Jingle Applaudissements Rires Présentation de thèse Lundi 20 décembre 2004
Détection de jingles Hamming | FFT | Filtrage Coefficients spectraux Signal 2 3 1 • Extrait sonore • Système classique • Analyse spectrale (29 coefficients) • Comparaison (distance Euclidienne) • Analyse des « pics » Présentation de thèse Lundi 20 décembre 2004
Détection de jingles h 2 3 1 • Méthode d’analyse des pics Présentation de thèse Lundi 20 décembre 2004
Détection de jingles 2 3 1 • Résultats • 2 erreurs • Précision : ~ 0,5 s France Info Présentation de thèse Lundi 20 décembre 2004
Détection des applaudissements, des rires et d’un locuteur cible 2 3 1 • Pourquoi ? Présentation de thèse Lundi 20 décembre 2004
Détection des applaudissements, des rires et d’un locuteur cible Modèle Classe Étiquetagemanuel (Classe/Non-classe) Paramètres indicés (Classe) VQ EM Affectation Paramètres indicés (Non-classe) Modèle Non-classe VQ EM SIGNAL Pré traitement acoustique 2 3 1 • Apprentissage des applaudissements et des rires • Classe={Applaudissements,Rires} • Apprentissage du locuteur cible Présentation de thèse Lundi 20 décembre 2004
Détection des applaudissements, des rires et d’un locuteur cible 2 3 1 • Corpus : « Le Grand Échiquier », projet FERIA • Apprentissage : 1 émission • Reconnaissance : 1 émission • Résultats • Locuteur cible = présentateur « Jacques Chancel » : • 92,9 % (P/NP manuel) • 89,7 % (P/NP auto à 94,6 %) • Applaudissements et rires : problème du critère évaluation • Taux > 98 % : segments significatifs • Applaudissements : excellents • Rires : problèmes Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 2 3 1 • Buts : • Notion de thème (cf. texte) • Structuration • Rapidité d’exécution, robustesse → légèreté de mise en œuvre • Etat de l’art • Modèle poubelle • Anti-modèles • Mesures de confiance • Système Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 2 3 1 • Pré-traitement acoustique • MFCC • Modélisation : MMC • Unité : phonème Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés φ1 Deb Fin φp « b » « a » « l » 2 3 1 • Modèles : mots clés, poubelle et silence • Poubelle : φ • Mot clé : concaténation des modèles de φ→ intéressant • Grammaire → pénaliser Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 2 3 1 • Corpus • Apprentissage : 30h ESTER (Technolangue) • France Inter (20h) et RFI (10h) • Reconnaissance : RFI (6 h, cf. PMB) • Mise en œuvre • Phonème → victoire : v i k t w a R v i k t w a R @ v i k t w a R sil v i k t w a R @ sil • Faisabilité : 20 mots clés, 5 thèmes • Politique : politique, président, ministre, Europe, gouvernement • Économie : technologie, industrie, travail, entreprise • Catastrophe : génocide, attentat, victime, sécurité, militaire • Sport : championnat, victoire, football • Météo : dépression, précipitations, température Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 2 3 1 • Résultats • Erreurs • Système • 12 MFCC, Δ, ΔΔ, ΔE • MMC, 32G / état • Accuracy : 56,62 % • Amélioration (en cours) • Passage aux triphones Présentation de thèse Lundi 20 décembre 2004
Plan 2 3 1 • Détection PMB • Etat de l’art • Système de base • Système hybride (fusion) • Détection de sons clés • Jingles • Applaudissements, rires et locuteur cible • Mots clés • Structuration Présentation de thèse Lundi 20 décembre 2004
Structuration sonore 2 3 1 • Détection de motif dans une collection d’émissions • « Le grand Échiquier » 54 émissions de 3h • Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur • Détections automatiques, indépendantes : • Détection de musique (chansons, spectacle) • Détection de parole, puis du présentateur • Détection des applaudissements • Résultats : 1 émission → détection de 10 motifs • Besoins ? → autres émissions de la collection Présentation de thèse Lundi 20 décembre 2004
Structuration sonore J 2 3 1 • Structuration d’un journal télévisé (« 6 minutes » de M6) • Détection de jingles (J et JG) • Détections de parole et de musique • Détection de mots clés • 1 erreur • Besoins ? Présentation de thèse Lundi 20 décembre 2004
Structuration : perspectives Chanteur ? 2 3 1 • Apport de la vidéo • Détection de logos • Extraction de texte • Reconnaissance de l’intervenant Présentation de thèse Lundi 20 décembre 2004
Structuration : perspectives 2 3 1 • Macrosegmentation automatique (exemple du motif) • Annotations automatiques • Recherche de suites récurrentes [Haidar04] • Inférence d’un motif • Structuration Important : difficile manuellement Présentation de thèse Lundi 20 décembre 2004
Plan 2 3 1 • Détection PMB • Etat de l’art • Système de base • Système hybride (fusion) • Détection de sons clés • Jingles • Applaudissements, rires et locuteur cible • Mots clés • Structuration CONCLUSION Présentation de thèse Lundi 20 décembre 2004
Conclusion • Indexation sonore : étude de composantes primaires • « Unités communes » • Parole et musique : → robustesse (plus d’apprentissage) • Mots clés : faisabilité → mise en œuvre intéressante • Thèmes : validation • Locuteur cible : résultats encourageants • «Unités caractéristiques» • Jingles : résultats excellents → 1 occurrence • Applaudissements : résultats très bons → universel • Rires : problèmes→ rires de foule Présentation de thèse Lundi 20 décembre 2004
Perspectives • 2 études de structuration sonore → très intéressantes • Structuration d’un JT • Détection d’un motif • Ne pas se limiter à un seul média • Quelques pistes (analyse vidéo) • Difficulté du couplage audio/vidéo • Problèmes du traitement audiovisuel • Information audiovisuelle ou une indexation audiovisuelle ? • Analyse audiovisuelle ? Présentation de thèse Lundi 20 décembre 2004
Merci de votre attention… Présentation de thèse Lundi 20 décembre 2004