20 likes | 193 Views
Résultats 1ère exp. Parole. Musique. Délai < 20 cs (1). 86 %. 91 %. Accuracy (2). 95 %. 93 %. Omissions. Voix faible ou forte, parole téléphonique. -. Insertions. Musique faible. Bruit de voiture, explosion. Indexation sonore : recherche des composantes Parole et Musique.
E N D
Résultats 1ère exp. Parole Musique Délai < 20 cs (1) 86 % 91 % Accuracy (2) 95 % 93 % Omissions Voix faible ou forte, parole téléphonique - Insertions Musique faible Bruit de voiture, explosion Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118, route de Narbonne – 31062 Toulouse Cedex 04, France Tél. : ++33 (0)5 61 55 88 35 – Fax : ++33 (0)5 61 55 62 58 Email : pinquier@irit.fr – Web : http://www.irit.fr/ACTIVITES/EQ_ARTPS Résumé Ces travaux traitent de l'indexation de la bande sonore de documents audiovisuels : le but est la détection des composantes Parole et/ou Musique. L’originalité réside dans la modélisation différenciée des composantes recherchées. Il s’agit en effet de caractériser au mieux de façon indépendante la parole et la musique afin de faire une séparation de type Classe / NonClasse. Ainsi, chacune des classes est définie par son espace de représentation et son ensemble de modèles (MMG). Des expérimentations sont conduites sur un corpus de l’INA (films, reportages sportifs et extraits de journaux télévisés). Les premiers résultats sont très satisfaisants compte tenu de la nature du corpus et du volume restreint de données en apprentissage. Introduction La modélisation différenciée • But : trouver les composantes Parole et Musique de façon indépendante. • Moyen : en caractérisant au mieux chacune des classes • Parole : structure formantique • Musique : structure harmonique • 1 classe = {Espace de représentation, Modèle Classe, Modèle NonClasse} • Indexation : à partir du signal, recherche d’informations servant à caractériser le document. • Recherche des composantes Parole et Musique. • Système d’indexation basé sur la modélisation différenciée. • Mise en œuvre à partir de Modèles de Mélanges de Gaussiennes (MMG). L’apprentissage des MMGs Schéma du système d’indexation 1ère Expérience • Apprentissage : 60 mn • Test : 20 mn de film disjointes de l’apprentissage (nouveau locuteur, nouvelle musique, parole téléphonique non représenté en apprentissage) • Corpus • Episode de « Chapeau melon et bottes de cuir » + commentaires en direct de patinage • Durée totale : 80 mn • Composition : parole pure, musique pure et zones « mixtes » • Parole : téléphonique, extérieure, foule, … • Musique : cordes, vents, basses, batterie, … • Locuteurs : environ 10 (hommes et femmes) • Modèles : Parole Pure / NonParole et Musique Pure / Non Musique 2ème Expérience • Corpus • Journaux télévisés sportifs • Durée totale : 34 mn • Composition : parole pure et parole très bruitée • Apprentissage : 14 mn • Test : 20 mn • Modèles : Parole Audible / NonParole • 1) Mesure des délais entre frontières manuelles et automatiques • 2) Accuracy = (durée corpus test – durée insertions – durée omissions) / (durée corpus test) Exemple d’indexation • (a) Etiquetage manuel • (b) Indexation Parole / NonParole (P / NP) • (c) Indexation Musique / NonMusique (M / NM) • (d) Fusion des indexations Parole / NonParole et • Musique/NonMusique (P, M, P&M, -)