510 likes | 761 Views
Typologies linguistiques et identification automatique des langues : vers des typologies automatiques ?. François Pellegrino Francois.Pellegrino@univ-lyon2.fr Laboratoire Dynamique Du Langage UMR 5596 CNRS –Université Lumière Lyon 2 Ecole thématique VPL - Cargèse juin 2006.
E N D
Typologies linguistiquesetidentification automatique des langues : vers des typologies automatiques ? François Pellegrino Francois.Pellegrino@univ-lyon2.frLaboratoire Dynamique Du Langage UMR 5596 CNRS –Université Lumière Lyon 2 Ecole thématique VPL - Cargèse juin 2006
Typologies automatiques ?? • ‘Typology(ies)’ = 8 millions de “hits” sous Google • ‘Automatic’ = 470 M. • ‘Automatic typology(ies)’… 21 “hits” • Moitié télédétection spatiale • Moitié DDL ou assimilés Merci de votre attention... => une utopie !
Plan • Introduction: • la rencontre espérée entre la typologie et la modélisation automatique • Partie I : l’état des lieux • Des données typologiques à la reconnaissance des langues • Des modèles automatiques à leur interprétation linguistique • Partie II : la prosodie, terrain d’investigation • Introduction • La dimension rythmique • Typologie & modélisation automatique • La dimension tonale lexicale • Typologie et modélisation automatique • Conclusions
Analyselinguistique Données audio Données textuelles Descriptionslinguistiques Typologies linguistiques Analyseautomatique Perspective historique Audio Textes Interface : Typologie automatique Alignementou codage en cognats Données lexicales Analyse statistique Corpus textuels Identification automatiquedes langues Modèles phonétiques, phonotactiques, prosodiques
Plan • Introduction: • la rencontre espérée entre la typologie et la modélisation automatique • Partie I : l’état des lieux • Des données typologiques à la reconnaissance des langues • Des modèles automatiques à leur interprétation linguistique • Partie II : la prosodie, terrain d’investigation • Introduction • La dimension rythmique • Typologie & modélisation automatique • La dimension tonale lexicale • Typologie et modélisation automatique • Conclusions
Les bases de donnees typologiques • Caveat • Représentativité des langues • Qualité des données primaires • Consistance/cohérence inter-langues des données • Biais d’analyse lié au cadre théorique choisi • De formidables outils… • Plusieurs centaines de langues • UPSID (UCLA Phonological Segment Inventory Database) • ULSID (UCLA Lexical and Syllabic Inventory Database) • WALS (World Atlas of Language Structures) • AUTOTYP … à exploiter automatiquement
Bases de donnees typologiquesUPSID/CaSSoPI UCLA Phonological Segment Inventory Database Maddieson, (1984) ; Maddieson and Precoda (1990) ~ • V 102/451 - 23% • V 51/451 - 11% • Both 11/451 - 2.4% • Identification des langues • Corrélations phonologiques
Bases de donnees typologiquesUPSID/CaSSoPI • Utilisation pour rechercher des indices pertinents • Hombert & Maddieson, (1998) • Indices discriminants et détectables automatiquement • Contraste dental vs. labio-dental // vs. // ; // vs. // : +discriminant –détectable • Clicks : + discriminant +détectable • Limites • Comment modéliser ces indices ? • Évaluer leur incidence dans la parole réelle (probabilité d'apparition) • Des inventaires phonologiques à la parole • Prises en compte de processus phonologiques ou phonétiques • Anglais : pas de voyelles nasales phonologiques pourtant ‘sable’ : /snd/ (phonologique) est prononcé [sd] (phonétique) • Incidence statistique moins grande ? • Conclusion • Détection des traits rares potentiellement intéressante • Non encore exploitée automatiquement • Prise en compte de l'incidence des traits fondamentale • Ohala, & Marsico, 2001, "Differentiating phonetic from phonological events in speech"
Bases de donnees typologiquesWALS Haspelmath et al. (2005) • 2,600 langues • 140 caractéristiques (670 types) phono-morpho-syntaxiques • 60,000 données (sur 364 000 potentielles)
Bases de donnees typologiquesWALS : distances typologiques Extrait de Michael Cysouw, (2006), transparent 21.
Bases de donnees typologiquesConclusions • BD fondamentales pour des recherches linguistiques • Tendances universelles • Caractéristiques aréales, historiques, universelles • Mais encore peu utiles pour l’identification automatique • Niveaux morpho-syntaxiques hors d’atteinte des analyses automatiques translinguistiques • Difficulté à prendre en compte des phénomènes phonétiques fins • Problème de la distinction entre phénomène phonétique et phonologique • MAIS analyse typologique peut proposer des pistes • Incidence de traits (aspiration, friction, contrastes de durée)
Plan • Introduction: • la rencontre espérée entre la typologie et la modélisation automatique • Partie I : l’état des lieux • Des données typologiques à la reconnaissance des langues • Des modèles automatiques à leur interprétation linguistique • Partie II : la prosodie, terrain d’investigation • Introduction • La dimension rythmique • Typologie & modélisation automatique • La dimension tonale lexicale • Typologie et modélisation automatique • Conclusions
Classification des languesa partir de donnEes textuelles • Visée historique : le calcul d’arborescences de langues • À partir de données lexicales (listes de Swadesh, etc.) • Lexique de base supposé peu sujet aux emprunts (chiffres, parentèle, etc.) • 2 approches pour estimer les distances inter-langues • Taux de partage de cognats (codage manuel, attention aux emprunts !) • Alignement phonétique des lexiques (distance d’édition : nb insertions/déletions, remplacements) • Méthodologies empruntées à la bioinformatique (génomique) • Construction d’arbres ou de réseaux Bryant et al. (2005) Gray, & Atkinson (2003)
identification automatique des languesa partir de donnees textuelles • Identification automatique des langues • À partir de corpus textuels (journaux, mails, etc.) • Approches par comptage statistique (cooccurrences) • Un problème... peu problématique • Grands corpus disponibles (pour langues à tradition écrite) • Caractère discret des inputs • Une validité linguistique indéniable Damashek, (1995)
Classification/identification des languesa partir de donnees textuellesConclusion • Des méthodes diverses • Cooccurrences (identification à partir de corpus) • Distances (reconstruction d'arbres de proximité) • Cognats • Alignements • Une interprétation linguistique possible • Prise en compte du lexique et de la morphosyntaxe
L’identification automatique des langues a partir de donnees parlees • Caveat • Relativement peu de langues prises en compte (quelques dizaines au mieux) • Langues non représentatives en termes typologiques (choix dicté par l’application ou par la disponibilité des données) • Prise en compte de la variabilité intra-langue (parlers, accents, dialectes) balbutiante • Une affaire d’échelle • Comment définir une langue, un dialecte, etc. ? • Intercompréhension complète ? • Intercompréhension immédiate ? • Taux de lexique partagé ?
Id. auto. langues parleesLes approches • Approche acoustico-phonétique • Paramètres spectraux/cepstraux (MFCC, LPC, SDC) • Modèle de Mélange de lois Gaussiennes (GMM) • Modélisation acoustique globale de l’espace phonétique • Approche phonético-phonotactique • Paramètres spectraux/cepstraux (MFCC, LPC, SDC) • Modèles de Markov Cachés (MMC) + n-grammes • Modélisation des contraintes phonologiques d’enchaînements • Utilisation des MMC comme opérateurs de projection • Espace acoustique (continu, multidimensionnel) -> Espace pseudo-phonémique (discret, unidimensionnel) • Prise en compte des vraisemblances MMC • Utilisation de plusieurs MMC ou d'un MMC unique multilingue • Utilisation d'unités de nature syllabique • Approches prosodiques
Id. auto. langues parleesUtilisation linguistique ? • Interprétation des matrices de confusion • Format des évaluations • NIST : tâche de vérification de la langue • Equal Error Rate et Detection Error Trade-off (et non matrice de confusion) • Hétérogénéité des ressources • Choix des langues • Dialectes et diglossie • Vietnamien Nord/Sud • Hindi • Arabe • … • Accents • env. 1/3 des locuteurs français de OGI MLTS sont québécois • Locuteurs hispanophones d’Amérique centrale ou du nord
Trait acoustique partagé ? - consonnes rétroflexes 1.4 1.2 ENglish KOrean FArsi MAndarin 1 FRench SPanish GErman TAmil 0.8 Distance HIndi VIetnamese JApanese 0.6 Stress-accent Pitch-accent Tone language Syllable-timed 0.4 Origine commune SP VI Stress-timed FR 0.2 Lexique partagé EN GE HI MA Mora-timed KO JA MA FR SP EN GE FA HI TA VI TA KO JA FA Id. auto. langues parleesUtilisation linguistique : essayons ! • Matrice de confusion (Id. correcte = 57%) • Hegde & Murthy, 2005 (OGI MLTS) • Modélisation acoustique : MFCC + phase (group delay) • Représentation multidimensionnelle (MultiDimensional Scaling)
1.98 1.96 ARabic ENglish 1.94 FArsi FRench GErman 1.92 HIndi JApanese KOrean 1.9 MAndarin SPanish 1.88 TAmil EN GE AR FA FR MA JA KO HI TA SP VI VIetnamese Id. auto. langues parleesUtilisation linguistique II • Matrice de confusion (Id. correcte 84%) • Système MIT (NIST LRE 2003 – 12 langues – CallFriend) • Modélisation acoustique + phonétique + phonotactique Distance D’après A. Martin & M. Przybocki, (2003)
Id. auto. langues parleesUtilisation linguistique : le point • Conclusions • Matrices de confusion potentiellement intéressantes • Émergence de facteurs historiques, aréaux ou typologiques • Mais interprétation très spéculative • Distances très multidimensionnelles (=> réduction pour représentation) • Modèles principalement acoustiques • Interprétations plutôt lexicales ou morphosyntaxiques • Lexique partagé => éléments phonético-phonologiques potentiellement proches • Perspectives • Choix de langues linguistiquement pertinentes • Conception de modèles modulaires • Modèles acoustiques => systèmes phonologiques • Modèles phonotactiques => structures syllabiques, mais aussi lexique • Modèles rythmiques • Modèles intonatifs • Nécessité d’un travail en concertation entre linguistes et modélisateurs
Intermede & Changement d’echelle :les dialectes anglais britanniques • Problématique • Dialectes anglais des îles britanniques • Description sociolinguistique plus ou moins disponible • Exploitation automatique de traits linguistiques ? • Travail en cours (thèse de Emmanuel Ferragne) • Rythme et intonation • Diphtongaison • Systèmes vocaliques • Alignement automatique HTK (transcription orthographique connue) • Corrélations entre matrices de distances des voyelles • Résultats • 91 % id. correcte (13 dialectes) • Etude des mergers • cf. Poster (trop tard...) • Autres études "linguistico-modélisatrices" • Dialectes arabes (M. Barkat-Defradas et collègues)
Plan • Introduction: • la rencontre espérée entre la typologie et la modélisation automatique • Partie I : l’état des lieux • Des données typologiques à la reconnaissance des langues • Des modèles automatiques à leur interprétation linguistique • Partie II : la prosodie, terrain d’investigation • Introduction • La dimension rythmique • Typologie & modélisation automatique • La dimension tonale lexicale • Typologie et modélisation automatique • Conclusions
La prosodie - introduction • La prosodie • Mélodie du langage • Vision structuraliste puis générativiste • Phénomènes suprasegmentaux = traits ayant une portée de plusieurs segments • “…prosodic features cannot simply be seen as features which are superimposed on segments.” (Fox, 2000, p. 2) • Portées ou domaines des traits prosodiques (d’après Fox, 2000) • Length / Rhythm • Accent • Tone • Intonation • cf. exposé Jacqueline Vaissière • Portée de l’exposé • Rythme (régularité perceptive liée à l’occurrence d’unités ou d’événements) • Utilisation lexicale ou morphémique du Fo (des tons à Ø)
Les parametres acoustiques • Fo : pitch, fréquence fondamentale (Hz) • Intensité (dB) • Durée (s) • Durée des syllabes • Durée des intervalles interaccentuels, des pieds accentuels… • Durée des phonèmes • Contrastes de durée (gémination, voyelles longues) • Réduction de quantité vocalique (jusqu’à l’élision) • Des paramètres… • liés au locuteur • Modulables au cours de la phonation • Porteurs d’informations linguistiques ou paralinguistiques (attitude et émotion, état physiologique) • Difficilement comparables d’un enregistrement à l’autre => Paramètres surtout étudiés de manière relative (variations)
Typologie rythmique • Rythme = interface segmental/suprasegmental • Importance du rythme • Implications cognitives • Acquisition : rythme et segmentation du flux continu de parole • Phonological bootstrapping : Morgan & Demuth, (1996) • Production/Compréhension : unités rythmiques comme unités d'accès lexical ? • Implications phonologiques • Théorie de la syllabe et théorie de l'optimalité, etc. • la syllabe... • Une structure intuitivement universelle • MAIS certaines langues s’éloignent de ce schéma idyllique • Noyaux syllabiques consonantiques • Consonnes syllabiques (e.g. anglais ‘bottle’ []) • Mais aussi occlusives non voisées • berbère chleuh (AA, Maroc) ‘donne-le’ [Skt] (cf. Ridouane (2003)) • bella coola (Salishan, Canada)‘North-East wind’ [sps] Bagemihl (1991) • Analyse syllabique peu pertinente • Gokana (Niger-Congo, Nigéria) kε̃ ε̃̀ - ε̃̀ - ε̃̀ - ε̃ - ε̃́ wake –CAUS –LOG – him - FOC Hyman (1983)
Typologie rythmique :de la di/TRI-chotomie... • La vision traditionnelle dichotomique • Deux classes rythmiques (Pike, 1945) : • Rythme syllabique (syllable-timed) : français, espagnol, ... • Rythme accentuel (stress-timed) : anglais, néerlandais, russe • Puis une troisième (par ex. Ladefoged, 1975) • Rythme moraïque (moraic-timed) : unité infra-syllabique (japonais, tamoul) • A la recherche de l'isochronie (Abercrombie, 1967) • Hypothèse : les langues cherchent toutes à régulariser les durées syllabiques ou interaccentuelles • Mise à l'épreuve (Roach, 1982, ...) : pas concluante • Un continuum ? • Argumentation de Dauer (1983) • Rythme = "effet de bord" de phénomènes phonologiques • Contraintes de complexité de la structure syllabique • Existence du phénomène de réduction vocalique • Les langues se situent sur un continuum +- accentuel à -+ syllabique
Typologie rythmique :...au continuum • Existence de langues non prototypiques (Nespor, 1990) • Catalan : langue syllabique à réduction vocalique • Polonais : langue à structure syllabique riche sans réduction vocalique • Continuum ou espace multidimensionnel ? • Auer (1993) propose une typologie en 5 "classes" (1 dimension) • Syllabique prototypique (yoruba, navaho, ...) • Syllabique non prototypique (japonais, hausa, ...) • Intermédiaire (français, turc, ...) • Accentuel non prototypique (ouzbèque, tamang, ...) • Accentuel prototypique (russe, anglais, ...) • Basée sur une analyse multicritère • Complexité syllabique (cf. aussi Levelt et Van de Vijver, 1998) • Processus phonologiques (réduction, épenthèse, harmonie vocalique, ...) • Utilisation du Fo (présence de tons +- contrainte, accentuation, etc.)
Premier Bilan surles typologies rythmiques linguistiques • Une typologie difficile à établir • Multidimensionnelle • Continue • Basée sur relativement peu de langues (max. Auer : 34 langues) • MAIS • Corrélations entre rythme et composantes morphosyntaxiques • Langues agglutinantes : plutôt syllabiques • Autres rapprochements (ordre Tête-Complément, affixation, etc.) mais contestés (cf. Auer, 1993 pour une discussion) • un réalité perceptuelle • Discrimination par des nouveaux-nés humains et non humains (tamarins) de stimuli identiques/différents en fonction de l'appartenance à des classes rythmiques (stress-timed vs. syllable-timed) (Nazzi et Ramus, 2003). => Existence de corrélats acoustiques du rythme
typologies rythmiques Correlats acoustiques :un travail fondateur • Travaux de thèse de Franck Ramus (e.g. Ramus et al., 1999) • 8 langues – 5 énoncés (15 à 19 syllabes) / locutrice – 4 locutrices / langues • Segmentation manuelle en intervalles consonantiques et vocaliques • Calcul de paramètres à l'échelle de l'énoncé • %V quantité vocalique (rapport de la durée vocalique totale/durée énoncé) • DC écart-type de la durée des intervalles consonantiques • Limites de l'approche • Corpus très contraint • Non prise en compte de caractéristiques dynamiques du rythme • Variations • Enchaînements trochaïques/iambiques??
typologies rythmiques Correlats acoustiques :Extensions, generalisations ?? • Autres travaux de même type • Galves (2002) : paramètres issus d'une échelle de sonorité • Grabe et Lowe, (2002) • Calcul d'indices locaux (Pairwise Variability Indices)
Variations dialectales Arabe dialectal Anglais britannique Ask to E. Ferragne Influence du débit de parole typologies rythmiques Ma Al Jo Tu * + Eg Sy Correlats acoustiques :Variations DC * FR CA EN %V d'après Hamdi et al., (2004) d'après Dellwo et Wagner, (2003)
Typologie rythmique :Modelisation automatiqueDominey et Ramus, 2000 • Modélisation neuromimétique du rythme • Réseau récurrent dédié au traitement des séquences temporelles • Les entrées du réseau sont des étiquettes C ou V échantillonnées toutes les 5 ms et alignées manuellement. • Données • Corpus spécifique (dit RNM) • Résultats • 78 % de discrimination correcte pour (EN – JA) • 52 % de discrimination correcte (Hasard) pour (EN – DU) • Commentaires • Résultats cohérents avec une prise en compte du rythme • Résultats cohérents avec sujets humains
el a m E E t e b n Amplitude 0 0 0.2 0.2 0.4 0.4 0.6 0.6 0.8 0.8 1.0 1.0 Time (s) Time (s) Typologie rythmique :Modelisation automatiqueFarinas et al., 2005 ; Rouas et al., 2005 • Modélisation statistique de "pseudo-syllabes" • Segmentation automatique du signal (infra-phonémique) • Détection automatique de noyaux vocaliques • Segmentation en intervalles vocaliques et consonantiques • Codage en pseudo-syllabes CCV.CCV.CV.CCCV.CV.CCC • Paramétrage : • Dc : durée de l'intervalle consonantique • Dv : durée de l'intervalle vocalique • Nc : nombre de segments (complexité) de l'intervalle consonantique • Modélisation MMG dans cet espace tridimensionnel • Ajout de paramètres dérivés de Fo et E : accentuation André-Obrecht, (1988)
Typologie rythmique :Modelisation automatiqueFarinas et AL., 2005 ; Rouas et al., 2005 • Evaluation • Corpus de parole lue MULTEXT (7 langues) • Validation croisée (5 LANGUES) • Modèle de rythme seul : 79 % d’identification correcte • Modèle « d’accentuation » : 78 % d’identification correcte • Fusion : 92 % d’identification correcte • Evaluation classique app/tst (très peu de données…) • Fusion : 86 % d’identification correcte (5 langues) • Modèle de rythme seul : 67 % d’identification correcte (7 langues) • Comparaison modèle GMM acoustique : 99 % • Corpus de parole spontanée OGI MLTS (11 langues) • Identification : • très mauvais résultats • Discrimination par paire • du hasard à 80 % en fonction des langues • Encore du travail…
Plan • Introduction: • la rencontre espérée entre la typologie et la modélisation automatique • Partie I : l’état des lieux • Des données typologiques à la reconnaissance des langues • Des modèles automatiques à leur interprétation linguistique • Partie II : la prosodie, terrain d’investigation • Introduction • La dimension rythmique • Typologie & modélisation automatique • La dimension tonale lexicale • Typologie et modélisation automatique • Conclusions
Typologie intonative lexicale • La vision traditionnelle • Langues à tons (tone languages) – vietnamien, mandarin, yoruba • Exemple cantonais : • Exemple somali : "ínan" ‘garçon’ vs. "inán" ‘fille’ • Langues à accent tonal (pitch-accent languages) – japonais • CVCVCV vs. CVCVCV – (dialecte de Tokyo) • Langues à accent tonique (stress-accent languages) – espagnol, anglais • /'pervert/ (nom) vs. /per'vert/ (verb) • Le Fo n'est pas forcément utilisé (réduction qualitative et/ou quantitative) • Perspectives récentes (Remijsen, 2003 ; Hyman, 2005) • Continuum d’utilisation lexicale de Fo • Tons à placement libre • Tons à placement – à + contraints (tons sandhi, neutralisation de tons) • Tons limités à 1 syllabe par mot (pitch-accent ?) • Interactions stress/tons • Co-existence de système de tons et de stress : Ma'ya (Austronésien) • 3 tons possibles sur dernière syllabe + accent
Modelisation de Fo et E (niveau global)Itahashi, 1995 • Modélisation statistique de l’intonation • Extraction automatique du Fo • Approximation polygonale de la courbe de Fo • Calculs de paramètres sur Fo et E • Pentes moyennes sur les segments • Moments d’ordre supérieurs sur les segments (écart-type, coefficients d'asymétrie et d'aplatissement) • Analyse discriminante dans l’espace des paramètres • Expériences • Données • Extraits d’OGI MLTS (6 langues, 20 secondes) • Résultats • 63.3 % d’identification correcte • Commentaires • Approche basée sur des statistiques globales dérivées de la mélodie • Travaux non continués
Modelisation de Fo et E (niveau global)ThymE–Gobbel & Hutchins, 1999 • Modélisation statistique de la prosodie • Basée sur des « syllabes » (i.e. des segments entre 2 minima d'énergie) • Paramètres intra- et inter- syllabiques dérivés de Fo, des durées, de l’énergie • Comparaison statistique d’histogrammes • Données • OGI MLTS (11 langues, 45 s., discrimination par paires) • Résultats • 75 % d’identification correcte • Commentaires • Beaucoup de paramètres analysés • Évaluation de la corrélation avec des typologies prosodiques
Modelisation de Fo et E (dynamique)Cummings et al., 1999 • Modélisation neuromimétique de l’intonation • Réseau récurrent • Les entrées sont des paramètres dérivés de E et Fo • Données • OGI MLTS (5 langues, 45 s., discrimination par paires) • Résultats • Entre hasard et 69 % discrimination correcte • Commentaires • Meilleurs résultats avec DFo qu’avec DE
Modelisation de Fo et E (dynamique)ADAMI, 2003 • Modélisation n-gramme de Fo et E • Segmentation en segments monotones par rapport à E et Fo • montée de F0 et montée de l’énergie • montée de F0 et descente de l’énergie, • descente de F0 et montée de l’énergie, • descente de F0 et descente de l’énergie, • segment non voisé. • Données • CALLFRIEND (3 langues, tâche de vérification de la langue) • Résultats • EER : • Commentaires • Approche totalement automatique prenant en compte les enchaînements (et non des statistiques globales)
0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 IT SP FR JA EN MA GE Modelisation de Fo et E (dynamique)Rouas, 2005 • Modélisation n-gramme de Fo et E • inspiré de Adami et Fujisaki • Séparation en macro et micro-mélodie (ligne de base et résidu) • Étiquettes composites tenant compte des 2 niveaux de variations (exemple : montée(M)-montée(m), etc.) • 2 niveaux temporels : infra-syllabique (segments) ou pseudo-syllabiques • Données • MULTEXT (7 langues, parole lue, env. 20s., peu de données) • Résultats
Modelisation de Fo et E (dynamique)Rouas, 2005 • Fusion des approches rythmiques (67 % d’id. correcte) et intonative (71 % d’id. correcte) • Extension à la parole spontanée (OGI MLTS)
Conclusion sur prosodie et identification automatique • Typologie prosodique • Domaine multidimensionnel (espace continu, Fo, E, durées...) • Domaine en évolution • (r)évolution épistémologique (passage du catégoriel au continu) • (r)évolution en termes de données (nombre de langues, réanalyse...) • Modélisation translinguistique de la prosodie • Domaine récent et stimulant • Approches diverses – pas d'état de l'art • Performances significatives sur la parole lue (à mettre en perspectives avec la typologie) • GROS problèmes pour la parole spontanée • Prise en compte du débit... (conséquences cognitives et typologiques) • => modèles pas assez performants pour être compétitifs (quoique...) • Performances / approches phonético-phonotactiques sur mauvais SNR ?
Plan • Introduction: • la rencontre espérée entre la typologie et la modélisation automatique • Partie I : l’état des lieux • Des données typologiques à la reconnaissance des langues • Des modèles automatiques à leur interprétation linguistique • Partie II : la prosodie, terrain d’investigation • Introduction • La dimension rythmique • Typologie & modélisation automatique • La dimension tonale lexicale • Typologie et modélisation automatique • Conclusions
Intermede IIretour sur la seance de lundi PM • Test perceptif : facteurs de difficulté • Test mixte • Identification (langue 1 puis langue 2) ET • Discrimination (évaluation de la distance) => 2 tâches cognitives différentes et potentiellement interférentes • Absence de connaissance du nombre de langues • Absence d'apprentissage • Protocole très difficile • Application humaine de l'identification des langues ? • Comparaison humain/machine • Performance NIST 2003 : <3% EER pour 10+ langues (extraits 30s) • Notre expérience d'humain (cf. ci-dessus) : tâche difficile • MAIS • Plusieurs dizaines d'heures d'apprentissage pour les machines !! => amha performances quasi-parfaites pour humains dans les conditions de la machine
Conclusions GENERALES • Typologie automatique : l'âge de pierre • Modèles automatiques "fusionnels" plus que modulaires • Effet "Boîte noire" • Dédiés à la vérification de la langue plus qu'à l'étude des distances linguistiques • Approches linguistiques doivent être confrontées à des corpus représentatifs • Étude de l'incidence des traits potentiellement saillants (aspiration...) • Convergence possible • Données audio disponibles pour un nombre important de langues • Possibilité de "modulariser" pour interpréter les performances en termes linguistiques (phonétique, phonotactique, prosodique) • Travail interdisciplinaire important à faire à l'interface phonético-morphophonologique • Variabilité phonétique en fonction de la position morphologique... • Prosodie • Une interface linguistique segmental/suprasegmental • Des modèles innovants, rudimentaires, mais pertinents
Abercrombie, D., (1967), Elements of General Phonetics, Edinburgh University Press, Edinburgh Adami, A., R. Mihaescu, D. A. Reynolds et J. Godfrey : “Modeling Prosodic Dynamics for Speaker Recognition”, in proc. ICASSP, p. 788–791, Hong Kong, China, 2003 André-Obrecht, R., (1988), A New Statistical Approach for Automatic Speech Segmentation, IEEE Trans. on ASSP, vol. 36, n° 1 Auer, P. (1993). Is a rhythm-based typology possible? A study of the role of prosody in phonological typology. KontRI Working Paper 21, Hamburg: UniversitaÈt Hamburg. Bagemihl B. (1991). "Syllable structure in Bella Coola". Linguistic Inquiry 22: 589-646. Bryant, D., Filimon, F. and Gray, R. (2005) Untangling our past: Languages, Trees, Splits and Networks. In: The Evolution of Cultural Diversity: Phylogenetic Approaches. Editors: R. Mace, C. Holden, S. Shennan. Publisher: UCL Press, pp. 69-85 Cummins, F., Gers, F., and Schmidhuber, J., (1999), Language identification from prosody without explicit features, in Proc. of EUROSPEECH ‘99 Cysouw, M. (2006). Identifying areas from typological surveys. Bielefeld, Germany (28th Jahrestagung DGfS) (pdf slides). Damashek M.1995, Gauging Similarity with n-Grams: Language Independent Categorization of Text, Science, 10 February 1995, Vol. 267, pp. 843-8 Dauer, R. M., (1983), Stress-timing and syllable-timing reanalyzed, Journal of Phonetics, 11 Dellwo, V. and Wagner, P., 2003. Relations between Language Rhythm and Speech Rate. Proceedings of ICPhS 2003, Barcelona, Spain, 471-474. Dominey, P. F., & Ramus, F., (2000), Neural Network Processing of Natural Language: I. Sensitivity to Serial, Temporal and Abstract Structure in the Infant, Language and Cognitive Processes, 15(1) Farinas, J., Rouas, J.L., Pellegrino, F. & André-Obrecht, R., 2005, "Extraction automatique de paramètres prosodiques pour l’identification automatique des langues", Traitement du Signal, 22:2 Fox A. 2000. Prosodic features and Prosodic Structure, Oxford University Press Galves, A., Garcia J., Duarte D. & Galves C., (2002), “ Sonority as a Basis for Rhythmic Class Discrimination ”, in proc. of the Speech Prosody 2002 conference, 11-13 April 2002 Grabe, E. & Low, E.L., (2002), Durational Variability in Speech and the Rhythm Class Hypothesis, Papers in Laboratory Phonology 7, Mouton. Gray, R.D. & Atkinson, Q.D. (2003). Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426, 435-439 Hamdi R., Barkat-Defradas M., Ferragne E. & Pellegrino F., (2004), “Speech Timing and Rhythmic structure in Arabic dialects: a comparison of two approaches”, in proc. of INTERSPEECH/ICSLP 2004, October 2004 Jeju, Korea Haspelmath, M., Matthew S. Dryer, David Gil and Bernard Comrie (Eds). 2005. The World Atlas of Language Structures, Oxford University Press Hegde R. M. & H. A.Murthy, 2005. ``Automatic Language Identification and Discrimination using The Modified Group Delay Feature'', in Proc. of International Conference on Intelligent Sensing and Information Processing,Chennai Hombert, J.M. & Maddieson, I., 1998, "A linguistic approach to automatic language recognition", UCLA Working Papers in Phonetics, 96, pp. 106-118 Hyman L. 1983. "Are there syllables in Gokana?" In J. Kaye et al (eds), Current approaches to African linguistics, vol. 2. Dordrecht: Foris. 171–179. Hyman L. 2005. “Word-Prosodic Typology”, in UC Berkeley Phonology Lab Annual Report 2005 Itahashi S., K. Kiuchi et M. Yamamoto : “Spoken Language Discrimination Using Speech Fundamental Frequency And Cepstra”, in proc. Eurospeech, Budapest, Hungary, 1999 Ladefoged, P. (1975). A course in phonetics. New York: Harcourt Brace Jovanovich pp.296 Levelt, C., & van de Vijver, R. (1998). Syllable types in cross-linguistic and developmental grammars. Third Biannual Utrecht Phonology Workshop (11-12/06/1998), Maddieson, I. 1984. Patterns of sounds. Cambridge, MA: Cambridge University Press. Maddieson, I. and K. Precoda. 1990. Updating UPSID. UCLA Working Papers in Phonetics 74: 104-111. Martin, A. F. & M. A. Przybocki. (2003). NIST 2003 Language Recognition Evaluation, in proc. of Eurospeech, p.1341-1344, Geneva Morgan J. L., & K. Demuth, 1996. Signal to Syntax: Bootstrapping from Speech to Grammar in Early Acquisition. Mahwah, NJ: Lawrence Erlbaum Associates. Nazzi, T. & Ramus, F. (2003). Perception and acquisition of linguistic rhythm by infants. Speech Communication 41(1-2), 233-243. Nespor, M. (1990). On the rhythm parameter in phonology. In I. M. Roca, Logical issues in language acquisition, (pp. 157±175). Dordrecht: Foris. Ohala, J. & Marsico, E., 2001, "Differentiating phonetic from phonological events in speech", in De la caractérisation à l'identification des langues. Actes sélectionnés de la 1ère journée d'étude sur l'identification automatique des langues (19/01/1999, Lyon), Pellegrino, F. (ed), Lyon, Edition en ligne Pike, K. L. (1945). The intonation of American English, Ann Arbor, MI: University of Michigan Press. Ramus, F., Nespor, M., & Mehler, J., (1999), Correlates of linguistic rhythm in the speech signal, Cognition, 73(3) Remijsen B. 2003. “New Perspectives In Word-prosodic Typology”, IIAS Newsletter, #32, p. 29 Ridouane R. 2003. Suites de Consonnes en Berbère Chleuh : Phonétique et Phonologie. Thèse de doctorat, Université Paris 3 / Sorbonne Nouvelle. Roach, P. (1982). On the distinction between `stress-timed' and `syllable-timed' languages. In D. Crystal, Linguistic controversies, London: Edward Arnold. Rouas J.-L.. 2005. Caractérisation et identification automatique des langues. Thèse de doctorat, Université Paul Sabatier, Toulouse, mars 2005. Rouas, J.L., Farinas, J., Pellegrino, F. & André-Obrecht, R., 2005, "Rhythmic Unit Extraction and Modelling for Automatic Language Identification", Speech Communication, 47:4, pp. 436-456 Thymé-Gobbel, A., & Hutchins, S. E., (1999), Prosodic features in automatic language identification reflect language typology, in Proc. of ICPhS’99, San Francisco, CA, USA MERCI DE VOTRE ATTENTION
DET – NIST LRE 2003 Hindi English Miss Probability (%) Vietnamese False Alarm Probability (%) D’après A. Martin & M. Przybocki, NIST 2003 LRE Workshop, April 28-29th, 2003