250 likes | 419 Views
Colloque International APLIC – 25/26 Juin 2004 – Paris. Traitement Automatique des Langues appliqué à l’Acquisition du Langage. Apports d’une pluridisciplinarité. Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO. Plan. 1. Corpus utilisés
E N D
Colloque International APLIC – 25/26 Juin 2004 – Paris Traitement Automatique des Languesappliquéà l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO
Plan • 1. Corpus utilisés • 2. Repérage automatique des reprises et reformulations • 3. Etiquetage morphosyntaxique • 4. Evolution du langage et ajustement des locuteurs • 5. Limites de l’automatisation de certaines tâches et « remèdes » possibles Colloque International APLIC Paris, 25-26 Juin 2004
Introduction • Corpus d’interactions verbales adulte/enfant • Enregistrement (K7, DAT, VIDEO) • Transcription (conventions suivant objectifs) • Analyses (grilles, courbes, tableaux) • Logiciels et programmes informatiques • Correcteur orthographique (syntaxe, grammaire) • Statistique textuelle (lexicométrie, évolution du vocabulaire) • Traitement du signal (phonologie, prosodie) Colloque International APLIC Paris, 25-26 Juin 2004
1. Corpus utilisés • Julien • 3 dialogues de 5 ans 10 mois à 6 ans 4 mois • Transcriptions imprimées et sauvegardées sur disquette • Analyses, grilles, courbes, tableaux • Mathilde • 3 dialogues de 4 ans 9 mois à 4 ans 11 mois • Transcriptions imprimées et sauvegardées sur disquette • Analyses, grilles, courbes, tableaux Colloque International APLIC Paris, 25-26 Juin 2004
1. Corpus Extrait d’une transcription d’un autre corpus Colloque International APLIC Paris, 25-26 Juin 2004
1. Corpus Extrait d’une grille d’analyse Colloque International APLIC Paris, 25-26 Juin 2004
1. Corpus Exemple d’un tableau récapitulatif Colloque International APLIC Paris, 25-26 Juin 2004
1. Corpus Exemple d’un graphique d’évolution Colloque International APLIC Paris, 25-26 Juin 2004
2. Repérage automatique • Logiciel utilisé : • Lexico3 (SYLED 2290 – A. Salem, W. Martinez, C. Lamalle, S. Fleury) http://www.cavi.univ-paris 3.fr/ilpga/ilpga/tal/lexicoWWW • Corpus utilisés : • Julien • Mathilde Colloque International APLIC Paris, 25-26 Juin 2004
2. Reprises et Reformulations Phases de Préparation du corpus Colloque International APLIC Paris, 25-26 Juin 2004
2. Reprises et Reformulations Dictionnaire des formes Colloque International APLIC Paris, 25-26 Juin 2004
2. Reprises et Reformulations Carte des énoncés Qui parle Forme recherchée Enoncé n° Dialogue n° Colloque International APLIC Paris, 25-26 Juin 2004
2. Reprises et Reformulations Repérage des Feed-back Colloque International APLIC Paris, 25-26 Juin 2004
2. Reprises et Reformulations Repérage des tentatives Colloque International APLIC Paris, 25-26 Juin 2004
3. Etiquetage de l’oral • Logiciels utilisés : • Cordial Université 6(Synapse Developpement) http://www.synapse-fr.com • MkCorpus (CLA2T/SYLED – S. Fleury) http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/mkcorpusProject.htm • Corpus utilisés : • Julien • Mathilde Colloque International APLIC Paris, 25-26 Juin 2004
3. Corpus étiquetés Forme-Cat et Lemme-Cat Colloque International APLIC Paris, 25-26 Juin 2004
3. Corpus étiquetés Concordance des PREP Colloque International APLIC Paris, 25-26 Juin 2004
3. Corpus étiquetés Repérage Subjonctif Colloque International APLIC Paris, 25-26 Juin 2004
4. Evolution et Ajustement Julien Mathilde Colloque International APLIC Paris, 25-26 Juin 2004
4. Evolution et Ajustement Prep+VInf Colloque International APLIC Paris, 25-26 Juin 2004
4. Evolution et Ajustement Ajustement du langage Colloque International APLIC Paris, 25-26 Juin 2004
5. Limites de la recherche • Peu de corpus et corpus trop petits • Transcriptions et représentations • Etiquetage automatique Colloque International APLIC Paris, 25-26 Juin 2004
5. Limites Mots inconnus Colloque International APLIC Paris, 25-26 Juin 2004
5. Limites Erreurs d’étiquetage « en fait » a trois étiquetages différents : – en fait_ADV (7 occurrences) uniquement dans le discours de l’adulte ; – en_PREP fait_NCMS (13 occurrences) ; – en_PREP fait_ADJMS (3 occurrences) uniquement en début d’énoncé avec le segment « madame Bodot » à la suite. « pour » : – pour (11 occurrences) en contexte « pour que_SUB » ; – pour_PREP (88 occurrences) dont une en contexte « pour_PREP que_SUB » ; – pour_NCMS (2 occurrences) dans les énoncés suivants : - <ma207> […] elle l’amena des palmiers pour euh remettre sa / pour - <ad=337> euh on a que cinq doigts dans une main six comme les / pour les six pattes d’un insecte […]. Colloque International APLIC Paris, 25-26 Juin 2004
Merci luiggi.sansonetti@noos.fr http://mapage.noos.fr/luiggi.sansonetti/ Colloque International APLIC Paris, 25-26 Juin 2004