210 likes | 385 Views
Le projet ANACAL. ANalyse Automatique de Corpus d’Acquisition du Langage. Luiggi SANSONETTI – Maîtrise 2000-2001. SOMMAIRE. Présentation du Projet ANACAL Interdisciplinarité Intentions du projet Etat de l’art Structure générale En-tête Perspectives de recherche.
E N D
Le projet ANACAL ANalyse Automatique de Corpus d’Acquisition du Langage. Luiggi SANSONETTI – Maîtrise 2000-2001
SOMMAIRE • Présentation du Projet ANACAL • Interdisciplinarité • Intentions du projet • Etat de l’art • Structure générale • En-tête • Perspectives de recherche
Linguistique Informatique Linguistique de l’acquisition Interdisciplinarité Programmes informatiques Traitement automatique Données linguistiques Interactions langagières Adulte/Enfant Observables linguistiques Linguistique informatique appliquée à la linguistique de l’acquisition
Intentions du projet • Banque de données normalisées • Données électroniques • Corpus d’interaction langagière de langue française • Entre adulte/enfant en cours d’acquisition • Format adapté aux échanges par Internet • Programmes informatiques • Traitements textuels • Préparation de corpus • Analyses automatiques
Structure générale • Présentation • Situation • Transcription
Présentation <PRESENTATION> <ENREGISTREMENT> <NOM>Luiggi Sansonetti</NOM> <DATE>2 décembre 1998</DATE> </ENREGISTREMENT> <TRANSCRIPTION> <NOM>Luiggi Sansonetti</NOM> <DATE>10-30 décembre 1998</DATE> </TRANSCRIPTION> <APPRENANT> <NOM>Corentin D</NOM> <DATE>24 décembre 1998</DATE> <AGE>03,11,09</AGE> </APPRENANT>
<LEGENDES> <NoCORPUS>1</NoCORPUS> <A>Adulte</A> <E>Corentin</E> <nA>67</nA> <nE>65</nE> </LEGENDES> </PRESENTATION>
Situation <SITUATION> <ENFANT> Corentin est le fils (…).</ENFANT> <ENTRETIEN> Le 4 novembre (…).</ENTRETIEN> <SUPPORT> Je n'ai pas (…).</SUPPORT> <ENREGISTREMENT> Sur(…).</ENREGISTREMENT> </SITUATION>
Transcription <TRANSCRIP> <ENF num="1"> <COMM> (il revient en courant) </COMM> i(l) faudra chanter celles-là aussi d'accord? <COMM> (il pose les livres sur le micro) </COMM> </ENF> <ADULT num="1">Alors, Trois Fables de La Fontaine.</ADULT> <ENF num="2">humm mais i(l) faut pas <COMM> (il bouge un livre sur le micro) </COMM> acore (=encore) la lire i(l) faut lire celle-là d'abord </ENF> </ TRANSCRIP >
En-tête • Description du fichier • Description du codage • Description du profil • Description de la révision
Description du fichier <FILEDESC> <TITLESTMT> <H.TITLE>Etude longitudinale de Corentin</H.TITLE> <RESPSTMT> <RESPTYPE>Conversion et balisage XML</RESPTYPE> <RESPNAME>Corpus recueilli et édité en XML par Luiggi Sansonetti </RESPNAME> </RESPSTMT> </TITLESTMT> <EXTENT> <WORDCOUNT>2407 mots et 387 lignes</WORDCOUNT> <BYTECOUNT>18.0 Ko</BYTECOUNT> </EXTENT>
<PUBLICATIONSTMT> <DISTRIBUTION>ILPGA TAL Université Paris III France </DISTRIBUTION> <PUBADRESSE>ILPGA 19 rue des Bernardins 75005 Paris </PUBADRESSE> <EADRESSE>luiggi.sansonetti@wanadoo.fr</EADRESSE> <EADRESSE type="www">http://www.cavi.univ-paris3.fr/ilpga/ ilpga/tal/</EADRESSE> </PUBLICATIONSTMT> </FILEDESC>
Description du codage <ENCODINGDESC> <PROJETDESC>Le corpus de Corentin a été normalisé dans le but d'analyser automatiquement les corpus d'interaction Adulte/Enfant en cours d'acquisition du langage</PROJETDESC> <SAMPLINGDESC>Ce corpus a été recueilli et normalisés par Luiggi Sansonetti</SAMPLINGDESC> </ENCODINGDESC>
Description du profil <PROFILEDESC> <CREATIONDATE>2001</CREATIONDATE> <LANGUEUSAGE> <LANGUAGE iso639="fr" type="corpus d'interaction Adulte/Enfant en cours d'acquisition du langage"/> </LANGUEUSAGE> </PROFILEDESC>
Description de la révision <REVISIONDESC> <CHANGE> <CHANGEDATE>26/05/2001</CHANGEDATE> <RESPNAME>Luiggi Sansonetti</RESPNAME> </CHANGE> </REVISIONDESC>
Définition du Type de Document <!ELEMENT CORPUSGROUP (CORPUSGROUPSHEAD, CORPUSGROUPBODY)> <!ELEMENT CORPUSGROUPHEAD (FILEDESC, ENCODINGDESC, PROFILEDESC, REVISIONDESC)> <!ELEMENT CORPUSGROUPBODY (CORPUS+)> <!ELEMENT CORPUS (PRESENTATION, SITUATION, TRANSCRIP)> <!ELEMENT PRESENTATION (ENREGISTREMENT, TRANSCRIPTION, APPRENANT, LEGENDES)> <!ELEMENT SITUATION (ENFANT, ENTRETIEN, SUPPORT, ENREGISTREMENT)> <!ELEMENT TRANSCRIP (ADULT+ | ENF+ | COMM+)>
Perspectives de recherche • Finition de l’en-tête • Programmes de balisages automatiques • Programmes d’analyse et de traitement
A suivre … Luiggi Sansonetti - 29 juin 2001