1 / 25

RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -

RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -. Chafic Mokbel et Gérard Chollet Congrès 10ème Anniversaire Programme CEDRE. Un Parcours. Qui Sommes Nous?. ENST Gérard Chollet Dijana Petrovska Maurice Charbit Raphael Blouet Guido Aversano

Download Presentation

RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. RPM - Reconnaissance de la Parole Multilingue- Un début de Parcours - Chafic Mokbel et Gérard Chollet Congrès 10ème Anniversaire Programme CEDRE

  2. Un Parcours

  3. Qui Sommes Nous? • ENST • Gérard Chollet • Dijana Petrovska • Maurice Charbit • Raphael Blouet • Guido Aversano • + des thésards et stagiaires • Université de Balamand • Chafic Mokbel • Hanna Greige • Walid Karam • Rania Bayeh • + des thésards et stagiaires

  4. Le Projet Reconnaissance de La Parole Bilingue Français/Arabe BECARS Reconnaissance du Locuteur Indépendant du Texte HMM CART GMM Base de données Bilingue BEAF

  5. Base Scientifique • Modèles stochastiques • Les mélanges à composantes Gaussiennes • Les chaînes de Markov Cachées • Les arbres de classification et de régression • Spécialisation • Adaptation ou algorithmes EM récursifs

  6. x(t) s(t) Base Scientifique • Modèles de Markov Cachés (MMC ou “HMM”) • A un instant t, le système est dans un état interne (non observable) s(t) qui n’est observé qu’à travers une mesure x(t)

  7. 2° Accélération 3° 4° Vitesse Base ScientifiqueMMC 1° 2° 3° 4°

  8. Base Scientifique MMC • MMC (l) caractérisé par • Probabilités d’occupation des états à l’instant initial • Probabilités de transition • Distributions des observations conditionnellement à l’état • Données incomplètes 

  9. Base Scientifique MMC • Lors de la manipulation des MMCs, une partie des observations est cachée. • Calcul de la vraisemblance (avant-arrière) • Calcul du meilleur chemin (Viterbi) • Apprentissage (EM) • Modèle stochastique: • Besoin d’une base de données représentative • Adaptation aux nouvelles conditions (EM récursif)

  10. Paramètres q q1 Chemin ou Alignement s1 s0 q2 Base ScientifiqueEM q0

  11. Base de données • Avec CEDRE – RPM: • Serveur de collecte de données parole • Un programme de validation des données • Une expérience en étiquettage • 2 bases de données (BAD et BEAF) dont l’une bilingue • Plus d’expériences en reco

  12. Reconnaissance Multilingue

  13. Reconnaissance Multilingue • Peu de données dans BEAF partie arabe pour effectuer un apprentissage multilocuteur et surtout pour des modèles par mots • Modélisation phonétique • Pas d’étiquettage phonétique lors du lancement des premières expériences Modéliser les mots arabes en utilisant des modèles phonétiques français

  14. Reconnaissance Multilingue • Modèles phonétiques français appris par l’Enst sur de large bases de données • Inférence de structures phonétiques: • Description manuelle • ta3deel tt aa dd ii ll • Inférence automatique: Trouver une ou plusieurs séquences phonétiques de manière que le modèle résultant soit le plus vraisemblable

  15. Acceptation Rejet Vérification du Locuteur Système de Vérification du Locuteur • Technologie du Traitement Automatique de la Parole Identité proclamée • Technologie Biométrique de l’Authentification Automatique

  16. Acceptation Rejet Phase d’apprentissage Phase opérationnelle Architecture des Systèmes Modélisation Modélisation Paramétrisation Base de données Id1 ,..,IdN Identité proclamée Paramétrisation Comparaison et décision

  17. Modélisation: travail effectué • Mise au point d’un système état-de-l’art • Mise au point d’un système avec adaptation MLLR • des paramètres du mélange [Mokbel, 1992] • Participation commune aux évaluations NIST’2003 • Organisée par le National Institute of Standard and Technologies (USA) • 350 locuteurs – téléphones cellulaires – 20.000 accès • Regroupant les meilleurs laboratoires mondiaux: MIT, IBM… • Résultats proches des meilleurs systèmes

  18. BECARS • Balamand ENST CEDRE Automatic Recognition of Speakers • Logiciel libre (sous license cecile en France) • http://tsi.enst.fr/becars • http://www.balamand.edu.lb/english/Research.asp

  19. http://tsi.enst.fr/becars • Utilisé par différents labos dans différents pays

  20. BioSecure

  21. NIST 2006

  22. A la fin de RPM • Bases de données BEAF • Système de reconnaissance multilingue • BECARS

  23. Suite à RPM Reco de l’écriture manuscrite HCM SecurePhone Virgule fixe /PDA BioSecure ESTER Reco Multi Reco AudioVisuelle Autres Projets RPM BECARS Segmentation et codage Video NIST 2004, 2005, 2006 Imagerie Médicale BEAF Autres Domaines Prédiction d’erreur NEMLAR Détection d’intrus Transformation audio-visuelle

  24. Segmentation/Codage Video Becars (G. Yazbek)

  25. Conclusions • CEDRE RPM était l’impulsion: • Plusieurs technologies développées • Plusieurs thèses en cours (5) • Plusieurs projets en cours • Au delà et sur le plan scientifique: • Le temps ou la position dans la séquence comme paramètre (ou dimension de l’espace comme les autres dimensions) • Inférence de la connaissance à partir des données

More Related