1 / 19

Soutenance de s tage : Informatisation de dictionnaires fulfulde-anglais-français

Stagiaire : Mariam BARRY Maître de Stage : Mathieu MANGEOT. Soutenance de s tage : Informatisation de dictionnaires fulfulde-anglais-français. Introduction. Objectif : Conversion de dictionnaires éditoriaux Format pour impression (ODT) => Electronique (XML Propre) Comment ?

holleb
Download Presentation

Soutenance de s tage : Informatisation de dictionnaires fulfulde-anglais-français

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Stagiaire : Mariam BARRY Maître de Stage : Mathieu MANGEOT Soutenance de stage : Informatisation de dictionnaires fulfulde-anglais-français

  2. Introduction Objectif : • Conversion de dictionnaires éditoriaux Format pour impression (ODT) => Electronique (XML Propre) Comment ? • Traitement du contenu XML • Codage de la forme (Style) => Codage de fond (Informations) Résultat attendu : • Fichier XML Propre et Structuré avec marquage explicite des informations

  3. II. Laboratoire d’accueil LIG (Laboratoire Informatique de Grenoble) • Recherche en informatique ; créé le 01/01/2007 • Taille : 500 chercheurs, enseignant-chercheurs, doctorants, personnel, • Campus de Grenoble et Montbonnot • Partenaires CNRS, Grenoble INP, INRIA, UJF, UPMF, Stendhal Equipe GETALP (Groupe d’Etude pour la Traduction Automatique et le Traitement automatisé des Langues et de la Parole) • Taille : 17 permanents : 1chercheuse et 3 ingénieurs CNRS, 13 enseignants-chercheurs.

  4. III. Données • Un dictionnaire fulfulde => français (dico1) • Projet Soutéba (Soutien à l’éducation de base) • Rédigé en se basant sur une version imprimée • 4 523 Entrées et riche en informations • Erreurs de mise en page, style, etc. • Un dictionnaire fulfulde <=> français et anglais (2 fichiers : dico2 et dico3) • Equipe de linguistes Américains travaillant au Niger • Entrées : 17 230 (ful=>ang-fra) ; 10 000 (ang=>ful) et 10 300 (fra=>ful) • Propre • Fournies par : Mme Chantal Enguehard, enseignante-chercheuse au LINA

  5. III. Données : Extrait du dico1.odt

  6. IV. Travail réalisé

  7. 4.1. Balises XML • Elément d’un fichier XML • Exemple : <NomB>Exemple</NomB> ; <A><a>b</a></A> • Nom des balises ouvrantes et fermantes doivent correspondre

  8. 4.1. Expressions régulières • Suite de caractères => Chaine de caractères • Trouver un bloc de texte • Traitement automatisé (Remplacement, …) • Exemples : a[lou]+ ,^[st]ac, [st]ac$, ([^<]+) • Les parenthèses servent à capturer une information : Rechercher : <Test>([^<]+)</Test><Exemple>([^<]+)</Exemple>Remplacer par : <Resultat>\1 et \2</Resultat> <Test>Aurevoir</Test><Exemple>Merci</Exemple> <Resultat>Aurevoiret Merci</Resultat>

  9. 4. 2. Analyse de données • Nécessitait des compétences linguistiques en fulfulde • Bilan sur dico1 :

  10. 4. 3. Marquage explicite des informations Version de départ : XML provenant de l'ODT‏

  11. 4. 3. Marquage explicite des informations Rech: <text:ptext:style-name="Entry_20_Paragraph">Remp : <Article>Rech : </text:p> Remp : </Article> Rech :<text:spantext:style-name=“Lexeme">([^<]+)</text:span>Remp : < Vedette>\1</Vedette>Rech : (<Paradigm>[^<]+)</text:span><Paradigm>([^<]+</text:span>)Remp : \1\2 Rech : calt: ([^<\.]+)\.Remp : <Variante>\1</Variante> (Pareil avec tok, mbahdi, etc) • Far : Automatique : 3985 et Manuel : 485 (cas particuliers ou avec erreurs)

  12. 4. 3. Marquage explicite des informations Version finale : fichier XML traité‏

  13. 4. 4. Visualisation des données • Validation XML • Nécessite une syntaxe XML correcte ! • Corriger les • Feuille de style • Représentation de documents XML, HTML • Définir des règles (alignement, police, couleur, marges, etc.) • Fichier XML : <?xml-stylesheet type="text/css" href="dicoNiger.css"?>

  14. 4. 4. Visualisation des données • Affichage du Dico1 sur chrome avec feuille de style

  15. 4. 5. Mise en ligne sur Jibiki • Jibiki • Plate-forme de gestion de ressources lexicales • Programmée en Java • Accès à des ressources hétérogènes • Import et traitement de données, dictionnaires • Open source • Import • Ressource importée au Format XML valide • Décrire le dictionnaire, sa macrostructure • Analyse des données • Disponible sur la plateforme

  16. 4. 5. Mise en ligne sur Jibiki C Résultat d’une recherche sur Jibiki sur une entrée du dico1

  17. 4. 5. Mise en ligne sur Jibiki Résultat d’une recherche sur Jibiki sur 2 entrées du dico2

  18. V. Conclusion Bilan • Mise à disposition de Ressources électroniques - Pour le traitement automatique des langues • Ressource précieuse - Car cette langue est peu dotée Apport • Nécessitait des compétences en fulfulde et en informatique • Fini le travail que DILAF n’a pas pu (à cause des erreurs) • Notions de : Expressions régulières, XML, Feuille de style • Développer mon autonomie

  19. Merci pour votre attention ! Questions ?

More Related