1 / 21

Le projet ANACAL

Le projet ANACAL. ANalyse Automatique de Corpus d’Acquisition du Langage. Luiggi SANSONETTI – Maîtrise 2000-2001. SOMMAIRE. Présentation du Projet ANACAL Interdisciplinarité Intentions du projet Etat de l’art Structure générale En-tête Perspectives de recherche.

dolph
Download Presentation

Le projet ANACAL

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Le projet ANACAL ANalyse Automatique de Corpus d’Acquisition du Langage. Luiggi SANSONETTI – Maîtrise 2000-2001

  2. SOMMAIRE • Présentation du Projet ANACAL • Interdisciplinarité • Intentions du projet • Etat de l’art • Structure générale • En-tête • Perspectives de recherche

  3. Linguistique Informatique Linguistique de l’acquisition Interdisciplinarité Programmes informatiques Traitement automatique Données linguistiques Interactions langagières Adulte/Enfant Observables linguistiques Linguistique informatique appliquée à la linguistique de l’acquisition

  4. Intentions du projet • Banque de données normalisées • Données électroniques • Corpus d’interaction langagière de langue française • Entre adulte/enfant en cours d’acquisition • Format adapté aux échanges par Internet • Programmes informatiques • Traitements textuels • Préparation de corpus • Analyses automatiques

  5. Structure générale • Présentation • Situation • Transcription

  6. Présentation <PRESENTATION> <ENREGISTREMENT> <NOM>Luiggi Sansonetti</NOM> <DATE>2 décembre 1998</DATE> </ENREGISTREMENT> <TRANSCRIPTION> <NOM>Luiggi Sansonetti</NOM> <DATE>10-30 décembre 1998</DATE> </TRANSCRIPTION> <APPRENANT> <NOM>Corentin D</NOM> <DATE>24 décembre 1998</DATE> <AGE>03,11,09</AGE> </APPRENANT>

  7. <LEGENDES> <NoCORPUS>1</NoCORPUS> <A>Adulte</A> <E>Corentin</E> <nA>67</nA> <nE>65</nE> </LEGENDES> </PRESENTATION>

  8. Situation <SITUATION> <ENFANT> Corentin est le fils (…).</ENFANT> <ENTRETIEN> Le 4 novembre (…).</ENTRETIEN> <SUPPORT> Je n'ai pas (…).</SUPPORT> <ENREGISTREMENT> Sur(…).</ENREGISTREMENT> </SITUATION>

  9. Transcription <TRANSCRIP> <ENF num="1"> <COMM> (il revient en courant) </COMM> i(l) faudra chanter celles-là aussi d'accord? <COMM> (il pose les livres sur le micro) </COMM> </ENF> <ADULT num="1">Alors, Trois Fables de La Fontaine.</ADULT> <ENF num="2">humm mais i(l) faut pas <COMM> (il bouge un livre sur le micro) </COMM> acore (=encore) la lire i(l) faut lire celle-là d'abord </ENF> </ TRANSCRIP >

  10. En-tête • Description du fichier • Description du codage • Description du profil • Description de la révision

  11. Description du fichier <FILEDESC> <TITLESTMT> <H.TITLE>Etude longitudinale de Corentin</H.TITLE> <RESPSTMT> <RESPTYPE>Conversion et balisage XML</RESPTYPE> <RESPNAME>Corpus recueilli et édité en XML par Luiggi Sansonetti </RESPNAME> </RESPSTMT> </TITLESTMT> <EXTENT> <WORDCOUNT>2407 mots et 387 lignes</WORDCOUNT> <BYTECOUNT>18.0 Ko</BYTECOUNT> </EXTENT>

  12. <PUBLICATIONSTMT> <DISTRIBUTION>ILPGA TAL Université Paris III France </DISTRIBUTION> <PUBADRESSE>ILPGA 19 rue des Bernardins 75005 Paris </PUBADRESSE> <EADRESSE>luiggi.sansonetti@wanadoo.fr</EADRESSE> <EADRESSE type="www">http://www.cavi.univ-paris3.fr/ilpga/ ilpga/tal/</EADRESSE> </PUBLICATIONSTMT> </FILEDESC>

  13. Description du codage <ENCODINGDESC> <PROJETDESC>Le corpus de Corentin a été normalisé dans le but d'analyser automatiquement les corpus d'interaction Adulte/Enfant en cours d'acquisition du langage</PROJETDESC> <SAMPLINGDESC>Ce corpus a été recueilli et normalisés par Luiggi Sansonetti</SAMPLINGDESC> </ENCODINGDESC>

  14. Description du profil <PROFILEDESC> <CREATIONDATE>2001</CREATIONDATE> <LANGUEUSAGE> <LANGUAGE iso639="fr" type="corpus d'interaction Adulte/Enfant en cours d'acquisition du langage"/> </LANGUEUSAGE> </PROFILEDESC>

  15. Description de la révision <REVISIONDESC> <CHANGE> <CHANGEDATE>26/05/2001</CHANGEDATE> <RESPNAME>Luiggi Sansonetti</RESPNAME> </CHANGE> </REVISIONDESC>

  16. Représentation hiérarchique du document normalisé

  17. corpusgrouphead

  18. corpusgroupbody

  19. Définition du Type de Document <!ELEMENT CORPUSGROUP (CORPUSGROUPSHEAD, CORPUSGROUPBODY)> <!ELEMENT CORPUSGROUPHEAD (FILEDESC, ENCODINGDESC, PROFILEDESC, REVISIONDESC)> <!ELEMENT CORPUSGROUPBODY (CORPUS+)> <!ELEMENT CORPUS (PRESENTATION, SITUATION, TRANSCRIP)> <!ELEMENT PRESENTATION (ENREGISTREMENT, TRANSCRIPTION, APPRENANT, LEGENDES)> <!ELEMENT SITUATION (ENFANT, ENTRETIEN, SUPPORT, ENREGISTREMENT)> <!ELEMENT TRANSCRIP (ADULT+ | ENF+ | COMM+)>

  20. Perspectives de recherche • Finition de l’en-tête • Programmes de balisages automatiques • Programmes d’analyse et de traitement

  21. A suivre … Luiggi Sansonetti - 29 juin 2001

More Related