Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière

Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen GorinGiuseppe RiccardiJerry Wright

Introduction • Notre objectif => dialoguer en langage spontané avec des machines • Méthodes actuelles =>besoin des corpus de parole annotés manuellement • Inconvénients => nouvelle application, collecte et annotation de nouvelles bases de données • Objectif =>développer des méthodes d’apprentissage automatique du vocabulaire, de la grammaire et de la sémantique à partir de corpus de parole sans transcriptions • Tâche difficile => commencer avec un reconnaisseur phonétique (dépendant de la langue) • Evaluation => l’utilité de unités apprises automatiquement, évaluée lors de la classification d’appels téléphoniques dans la tâche « How May I Help You ?», développée à AT&T 2

Plan • 1Etat de l’art • 2Base de données • 3Acquisition automatique de « morphèmes acoustiques » et leur caractérisation • 4Détection de ces morphèmes • 5Evaluation expérimentale => classification de requêtes téléphoniques • 6Conclusions et perspectives 3

1 Etat de l’art • Olivier (1968 ) : acquisition automatique de mots et de la grammaire à partir du texte sans les délimiteurs de mots • Gorin, Levinson et Sankar (1994) : acquisition des unités lexicales à partir d’un flux de mots isolés • Deligne et Bimbot - 1997;Llyod-Thomas, Parris, Wright -1998 et Chollet, Cernocky, Constantinescu, Deligne, Bimbot -1999acquisition automatique de séquences d’unités de longueur variable dans de la parole continue • Notre but :exploiter la parole et sa signification pour la compréhension du langage en minimisant l’utilisation des transcriptions 4

Base de données utilisée Corpus « How may I help you ?» HMIHY • transactions téléphoniques classées par type d’appel (appel <=> action): 7462 apprentissage et 1000 test Reconnaisseur phonétique indépendant de la tâche : • Modèle de langage phono-tactique de Switchboard 1(Automate Stochastique de multigrammes, max 6) • Résultats sur HMIHY : 44% de phones reconnus correctement dans le meilleur chemin, et 68% dans le treillis phonétique ASR-phone-train et ASR-phone-test 5

2.1 Caractérisation des données ASR-phone 6

3. Morphèmes acoustiques - définitions Morphème acoustique f= forme acoustique associée à une action = séquence f de phones pi: f = p1 p2 … pn ; • Mesure de sa pertinence pour l’action associée, évaluée par le maximum de la distribution à posteriori:avec C =15 types d’appel de HMIHY • Son utilité pour la reconnaissance est évalué par la mesure de l’information mutuelle de ses composants : MI(f) MI (p1 p2 … pn-1 ; Pn) 7

ASR-phone-train + actions Algorithme itératif Séquences pré-selectionnées Seuil de sélection Séquences pertinentes Algorithme de regroupement Morphèmes acoustiques 3.2 Morphèmes : schéma d’acquisition 8

3.3 MI des séquences pré-sélectionnées 9

3.4 Pmax des séquences pré-sélectionnées 10

3.4 Séquences pertinentes • Séquences pré-sélectionnées : seuil sur Pmax >= 0.6 • Exemples de séquences pertinentes, associées à collect : 11

K eh K eh T ax l ay K ao l D K ao K m aa 3.5 On arrive au « Morphème acoustique » • En utilisant une mesure de distorsion segmentale • On les représente par des automates à états finis • Exemple d’un morphème acoustique f (associé a collect) : 12

4. Détection des morphèmes acoustiques • Classification des appels est basée sur la détection des morphèmes acoustiques • Meilleur chemin de la reco. de phonèmes • dans 42% des appels, aucun morphème trouvé => classification impossible pour ces appels => résultats non satisfaisants • Solution: les treillis du reconnaisseur phonétique 13

4.1 Détections dans les treillis de phonèmes Treillis: • représentation des distributions d’hypothèses de reconnaissance alternatives • représentés comme des automates à états finis • utilisés sous forme de : • treillis complets ou • treillis élagués, seuil r : ri =< r avec ri = pi / p1, et pi = prob. du chemin i Résultats: plus de détections de morphèmes incluant aussi des fausses détections 14

eh K l r T ao ax ah K ao l D K l 4.2 Exemple du treillis d’une élocution • Elocution = « collect call « • Treillis élague correspondant : 15

4.3 Les treillis améliorent la détection 16

4.4 Morphèmes acoustiques détectés 17

4.5 Statistiques d’un Morphème Acoustique Fc Sa pertinence sur l’ensemble d’apprentissage P(c | Fc) = 0.89 W = suite de mots correspondant à Fc dans transr-word-train P (c | Fc) = proba. d’apparition du morphème dans ASR-phone-test P (W) = proba. d’apparition de W , calculée dans transr-word-test 18

4.6 Détections et pertinence de Fc P ( Fc | c) = proba de Fc étant donné l’appel ; P ( c | Fc ) = pertinence effective sur l’ensemble de test ; 19

4.7 Comparaison avec les données transcrites P ( Fc | W) = proba de « détection correcte » de Fc ; P ( Fc | ) = proba de « fausse détection » de Fc ; 20

5. Evaluation expérimentale avec la classification d’appels téléphoniques • Utilité des morphèmes acoustiques évaluée pour la classification d’appels de « How may I help you ? » • Classificateur actuel utilise seulement les meilleurs chemins • Modification simple : • si détection dans meilleur chemin => OK • sinon chercher dans le treillis jusqu’à la découverte d’une détection • considérer seulement ce chemin • si aucune détection => classer l’appel dans la classe poubelle « OTHER » 21

6. Résultats de la classification d’appels 22

6. Conclusions • Nous avons cherché à «apprendre à comprendre» à partir d’une base de données sans transcriptions • Comment : par l’acquisition automatique de « morphèmes acoustiques » • Utilisation pour la classification d’appels téléphoniques HMIHY • Résultats • en cherchant dans les treillis, on réduit le taux de faux rejet de 59%, accompagné d’une réduction d’appels classés correctement de 5% • On atteint un point opérationnel de 86% classifications correctes, avec 50% de faux rejet 23

7. Perspectives • Optimiser l’algorithme d’acquisition des séquences pré-sélectionnées • Phase de test : exploiter des détections multiples dans les treillis • Utiliser des détections « floues » • Utiliser les treillis dans la phase d’apprentissage 24

Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière