1 / 30

Nathalie Vallée & Isabelle Rousset vallee,rousset@icppg.fr Institut de la Communication Parlée

Indices en typologie des structures lexicales et syllabiques pour la discrimination et l’identification des langues. Nathalie Vallée & Isabelle Rousset vallee,rousset@icp.inpg.fr Institut de la Communication Parlée Grenoble. Vallée & Arnal, 2000. Typologie linguistique Procédure et objectif.

vlora
Download Presentation

Nathalie Vallée & Isabelle Rousset vallee,rousset@icppg.fr Institut de la Communication Parlée

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Indices en typologie des structures lexicales et syllabiquespour la discrimination et l’identification des langues Nathalie Vallée & Isabelle Rousset vallee,rousset@icp.inpg.fr Institut de la Communication Parlée Grenoble Vallée & Arnal, 2000

  2. Typologie linguistiqueProcédure et objectif • Classer des éléments dans des langues différentes en fonction de leur propriétés structurelles et/ou fonctionnelles • Comparer les langues entre elles • Faire émerger de la ressemblance et de la différence

  3. Typologie linguistiqueDes atouts pour l’IAL • Une connaissance de la diversité des systèmes linguistiques et de leur variation • Une démarche taxinomique qui permet de réduire la variation • Une procédure comparative qui permet de mettre en évidence : • des propriétés générales ou universelles • des caractéristiques spécifiques ou contingentes à une langue donnée • des éléments stables diffusés par filiation génétique ou par contact • des éléments systématiquement variables entre les langues

  4. Typologie des structures lexicales et syllabiquesSource d’informations pour l’IAL • La phonotactique, en regard d’éléments prosodiques, est riche d’indices pour • isoler des unités plus larges que le son • trouver les limites d’unités lexicales • segmenter la parole • La typologie basée sur les structures syllabiques est source d’informations sur • les combinaisons sonores possibles dans une langue, indépendamment de la signification et de la grammaire • les suites de sons plus fréquentes que d’autres • les régularités dans la distribution des sons

  5. ULSIDUCLA Lexical and Syllabic Inventory Database • 14 lexiques syllabés (en gras) tirés des données de Maddieson et Precoda (1992) • Asie : chinois standard, tibétain, coréen, thaï, jeh, wa, nyahkur, sora, kannada, darai • Amériques : comanche, totonaque, quechua, navaho, kwakw’ala, yup’ik, shipibo, pirahã • Afrique : !xóõ, ngizim, maninka, gbaya, kanouri, igbo, afar • Europe : turc, polonais, finnois • Pacifique : fasu, hawaiien, kadazan, rotokas • Ajout de 2 autres langues à l’ICP : suédois et français •  diversité génétique et géographique •  diversité de taille et de contenu des systèmes phonologiques

  6. Actuellement 16 lexiques transcrits 94 535 items lexicaux 247 252 syllabes Diversité génétique et géographique Langues transcrites Langues en cours de transcription

  7. Une Plateforme MATLABpour l’exploitation des données

  8. Unité lexicale, syllabe, phonèmeLe Principe de Menzerath (1954) "Le nombre de phonèmes par syllabe diminue à mesure qu’augmente le nombre de syllabes par unité lexicale"

  9. Typologie des langues et structures lexicales4 types de langues Type 1 Type 2 % % 60 100 Nyahkur Navaho 50 Wa Thaï 80 !Xoo 40 60 30 40 20 20 10 0 0 1 2 3 4 5 6 7 8 1 2 3 4 % Type 4 Type 3 % 50 70 Finnois Afar 60 Français 40 Kannada Kanouri 50 Kwakwa'la Yup'ik 30 Ngizim 40 Quechua 30 20 Sora Suédois 20 10 10 0 0 1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11 Nombre de syllabes par unité lexicale

  10. FC 3,5 3 2,5 2 RS 1,5 Rendement syllabique 25 1 Forme canonique 0,5 20 0 15 Wa Thaï Sora !Xóõ Afar Yup'ik Ngizim Finnois Suédois Kanouri Navaho Nyahkur Français Kannada Quechua Kwakw'ala 10 Typologie nombre de syllabes par unité lexicale 5 0 Wa Thaï Afar Sora !Xóõ Nombre moyen de phonèmes par unité lexicale Ngizim Yup'ik Finnois 3 Suedois Kanouri Navaho Français Nyahkur Quechua Kannada Kwakw'ala 8 2,5 Nombre moyen de phonèmes par syllabe 7 2 Nombre moyen de phonèmes par unité lexicale 6 1,5 5 Nombre moyen de phonèmes par syllabe 1 4 0,5 3 0 2 Wa Afar Sora !xóõ Thaï Yup'ik Finnois Ngizim Navaho Suédois Kanouri Français 1 Nyakhur Kannada Quechua Kwakw'ala 0 Wa Thaï Afar Sora !Xóõ Ngizim Yup'ik Finnois Suedois Kanouri Navaho Français Nyahkur Quechua Kannada Kwakw'ala

  11. Prédominance CV ou CVC : 2 types de langue °/° CV et CVC représentent plus de 80 % des syllabes 5 langues majoritairement CVC °/° CV ou CVC majoritaire  syllabes ouvertes ou fermées favorisées

  12. Implications dans la complexité • Si une structure syllabique avec attaque/coda complexe de n consonnes est attestée dans une langue, elle implique les structures avec attaque/coda de n-i consonnes (i = 1 à n-1) C C C V Þ C C V Þ C V C C C V C Þ C C V C Þ C V C C V C C C C Þ C V C C C Þ C V C C Þ C V C • V C C C Þ V C C Þ V C Þ V • Si n augmente, le rang d'occurrence de la structure syllabique diminue C C C V <<< C C V << C V C C V C <<< C V C V C C C <<< V C C << V C < V • Ces règles restent vraies si on considère la nature des constituants syllabiques

  13. Syllabes favorisées • Attaques : lieux et modes d’articulation les plus répandus dans les systèmes phonologiques des langues du monde : coronal/labial/vélaire et plosif/fricatif/nasal • Codas : idem mais coronales très populaires même dans les langues où les restrictions en coda ne sont pas ou peu observées. Les segments avec articulation supplémentaire (aspiration, coup de glotte, labialisation …) sont nettement défavorisés Plus de restriction au niveau de l’utilisation de l’inventaire phonologique = indices pour la segmentation • Noyaux : les voyelles cardinales extrêmes avec une dominance très nette des voyelles centrales quel que soit le type de consonne, de syllabe, et très majoritairement quelle que soit la langue

  14. Syllabes favorisées Des tendances liées aux capacités biologiques des systèmes de production et de perception de la parole Liljencrants & Lindblom 1972 Stevens 1972 Lindblom 1986, 1990, 2000 Schwartz et al. 1997 Abry et al. 1998 Vallée et al. 2002 …

  15. Combinaisons favoriséesentre consonne et voyelle Entre attaque et noyau : (CCC)CV(CCCC) Entre noyau et coda (CCC)VC(CCC)

  16. Les « CV-like » les plus fréquentes du babillage syllabes les plus répandues des premiers mots, des langues, et des proto-langues MacNeilage & Davis (2000) Syllabes "pure frame" Organisation syllabique : alternance C-VThéorie Frame, then ContentMacNeilage & Davis (1990), MacNeilage (1998) Oscillation mandibulaire

  17. L’effet Labial-Coronal"The LC effect"MacNeilage & Davis (2000) • Effet LC = tendance forte dans l’organisation syllabique des lexiques des langues à préférer pour une structure CVCV la succession • Labiale–V–Coronale–V plutôt que Coronale–V–Labiale–V • Mis en évidence à partir d’études statistiques sur un corpus contenant les lexiques d’une dizaine de langues et confirmé dans les 27 racines mondiales proposées par Ruhlen (1997) • Absent du babillage, il apparaît avec les premiers mots des enfants • L’effet LC serait la conséquence de propriétés articulatoires de l’appareil de parole : • Consonnes labiales mouvement basique de la mandibule • Consonnes coronales mandibule + mouvement additionnel de la pointe de la langue MacNeilage et Davis (2000) : Ratio Labial-Coronal / Coronal-Labial= 2,45 ULSID : Ratio Labial-coronal/ Coronal-Labial = 2,39 pour CV.CV Ratio Labial-coronal/Coronal-Labial = 1,44 pour CVC

  18. Une expérience de perception Rousset, Sato, Schwartz & Vallée (2004) • Testent chez des sujets l’existence d’une plus grande stabilité des structures Labial-Coronal par rapport à Coronal-Labial à travers une expérience perceptive fondée sur le paradigme des transformations verbales life life life… …fly fly fly fly • Observent une préférence perceptive (stabilité) de /pV.tV/ par rapport à /tV.pV/ quel que soit le paramètre mesuré (nombre de transformations, durée) ou quelle que soit la voyelle /i a o/ Le paradigme des transformations verbales leur permet de mettre en évidence l’existence d’un corrélat perceptif de l’effet lexical Labial-Coronal indépendant des facteurs de densité et de fréquence lexicales

  19. ConclusionStructures lexicales et syllabiques : utilisation des données typologiques en IAL • Distribution des lexiques par nombre de syllabes dans les unités lexicales : 4 types de langues • Conforté en partie par la congruence d’autres facteurs (FC, RS… ) • Et des gabarits lexicaux, en nombre et en diversité différents entre les types 1-2 & 3-4 • Des patrons syllabiques simples dominants et d’autres plus complexes et plus rares mais liés par des tendances implicationnelles fortes qui peuvent aider la discrimination • Des caractéristiques des attaques et des codas comme indices utilisables pour la segmentation des unités • Des généralités à considérer pour les écarter des procédures de discrimination car liées à des caractéristiques des appareils sensori-moteurs

  20. ConclusionTypologies linguistiques : utilisation des données et résultats en IAL • Étude systématique de la variabilité entre les langues • Établissement des familles et des types • Estimation d’une distance linguistique entre ces familles, entre ces types • Mise en évidence de zones aréales de diffusion de traits, phonèmes, syllabes, structure syntaxique… ) • Mise en évidence de caractéristiques universelles • Mise au point des protocoles d’évaluation des systèmes de reconnaissance automatique des langues • Constitution de matériaux tests : langues voisines vs. langues différentes • Interprétation des confusions entre langues

  21. Fin

  22. ULSIDFormat des données d’entrée • Des langues qui disposent d'un dictionnaire ou d'un lexique dont les entrées sont soit : • phonologiques • phonétiques • orthographiques • 3 types de séparateur : • le retour à la ligne séparateur des entrées lexicales • le point séparateur de syllabes • le blanc graphique séparateur des constituants phonémiques de la syllabe

  23. Proportion de l’inventaire consonantique attestée dans les positions d’attaque et de coda

  24. La théorie « Frame, then Content » … L’organisation de la syllabe autour du cycle mandibulaire (Théorie «Frame, then Content», MacNeilage & Davis, 2000) semble prometteuse pour la compréhension de son rôle dans le langage humain • Pourtant : • Les interactions entre C et V sont nettement plus dominantes entre noyau et coda qu’entre attaque et noyau • Le même geste consonantique entre attaque et coda est défavorisé (même pour les coronales), de même qu’entre attaque de syllabes consécutives (sauf pour les coronales) • Visiblement, la relation entre attaque et noyau vocalique est différente selon la structure ouverte ou fermée de la syllabe : • La coda influence-t-elle le noyau qui la précède ? Ou l’inverse ? • Joue-t-elle un rôle dans la prégnance de la forme syllabique ? • Comment la théorie « Frame, then Content » pourrait intégrer le type syllabique CVC (au 2e rang des structures dans les langues CV) ? De plus, comment expliquer ce qu’on observe au niveau perceptif et comment concilier la validité perceptive de l’« effet LC » dans une tâche de transformation verbale avec une explication articulatoire ?

  25. Perspectives • Extension de la base ULSID (langues en cours : karitiana, portugais, …) • Prolongement des typologies et tendances notamment : Les modes oral/nasal, voisé/non voisé, … La nature des groupements consonantiques intra-syllabiques Les régularités inter-syllabiques et la structure gabaritique des items lexicaux • Comparaison avec les données de l'ontogenèse et de la phylogenèse (Ruhlen, 1997 ; données provenant de protolexiques, OHLL « Congruences ») • Estimation de la part des contraintes substantielles dans les séquences syllabiques favorisées : Economie articulatoire Distinctivité, contraste perceptif Stabilité des formes syllabiques La syllabe dans le couple perception-action (Théorie de la perception pour le contrôle de l’action, Schwartz & al. 2000) • Mise à l’épreuve dans un cadre modélisateur

  26. Cooccurrences C_C intra-syllabiques dans ULSID • Les structures syllabiques CVC avec une consonne de même lieu en attaque qu’en coda sont défavorisées (< 5 %), même pour les coronales • ex. [tat], [pap] vs [pat] Les structures syllabiques CVC avec une consonne de même mode en attaque qu’en coda sont possibles sauf pour les vibrantes (< 1%) et les affriquées (0 %) Certaines combinaisons sont favorisées

  27. Paradigme des transformations verbales (TV) • L’effet de Transformation Verbale correspond à la perception multistable d’un stimulus auditif langagier présenté de manière répétitive et continue • Ex : life life life … fly • Ces Transformations Verbales sont généralement considérées comme le reflet de processus liés à l’organisation perceptive (perception active) Ex. Cube de Necker et donc à l’interprétation de la parole

  28. Analyse globale Seul effet significatif : l’effet d’amorçage Nombre de transformations en fonction de l’effet d’amorçage (ANOVA [F(1,23) = 4,61, p < 0,05])

  29. Analyse des formes avec couplage par paires nb transformations L’organisation principale est celle d’un couplage par paires entre la forme de base et sa forme inverse : plus de 70% des transformations

  30. Analyse des formes avec structures préférentielles ms ms voyelle du stimuli amorçage Durée de stabilité des structures : LC et CL en fonction des deux effets (test-t unilatéral, [t(1,143) = 3,73, p < 0,005] )

More Related