190 likes | 380 Views
Stagiaire : Mariam BARRY Maître de Stage : Mathieu MANGEOT. Soutenance de s tage : Informatisation de dictionnaires fulfulde-anglais-français. Introduction. Objectif : Conversion de dictionnaires éditoriaux Format pour impression (ODT) => Electronique (XML Propre) Comment ?
E N D
Stagiaire : Mariam BARRY Maître de Stage : Mathieu MANGEOT Soutenance de stage : Informatisation de dictionnaires fulfulde-anglais-français
Introduction Objectif : • Conversion de dictionnaires éditoriaux Format pour impression (ODT) => Electronique (XML Propre) Comment ? • Traitement du contenu XML • Codage de la forme (Style) => Codage de fond (Informations) Résultat attendu : • Fichier XML Propre et Structuré avec marquage explicite des informations
II. Laboratoire d’accueil LIG (Laboratoire Informatique de Grenoble) • Recherche en informatique ; créé le 01/01/2007 • Taille : 500 chercheurs, enseignant-chercheurs, doctorants, personnel, • Campus de Grenoble et Montbonnot • Partenaires CNRS, Grenoble INP, INRIA, UJF, UPMF, Stendhal Equipe GETALP (Groupe d’Etude pour la Traduction Automatique et le Traitement automatisé des Langues et de la Parole) • Taille : 17 permanents : 1chercheuse et 3 ingénieurs CNRS, 13 enseignants-chercheurs.
III. Données • Un dictionnaire fulfulde => français (dico1) • Projet Soutéba (Soutien à l’éducation de base) • Rédigé en se basant sur une version imprimée • 4 523 Entrées et riche en informations • Erreurs de mise en page, style, etc. • Un dictionnaire fulfulde <=> français et anglais (2 fichiers : dico2 et dico3) • Equipe de linguistes Américains travaillant au Niger • Entrées : 17 230 (ful=>ang-fra) ; 10 000 (ang=>ful) et 10 300 (fra=>ful) • Propre • Fournies par : Mme Chantal Enguehard, enseignante-chercheuse au LINA
4.1. Balises XML • Elément d’un fichier XML • Exemple : <NomB>Exemple</NomB> ; <A><a>b</a></A> • Nom des balises ouvrantes et fermantes doivent correspondre
4.1. Expressions régulières • Suite de caractères => Chaine de caractères • Trouver un bloc de texte • Traitement automatisé (Remplacement, …) • Exemples : a[lou]+ ,^[st]ac, [st]ac$, ([^<]+) • Les parenthèses servent à capturer une information : Rechercher : <Test>([^<]+)</Test><Exemple>([^<]+)</Exemple>Remplacer par : <Resultat>\1 et \2</Resultat> <Test>Aurevoir</Test><Exemple>Merci</Exemple> <Resultat>Aurevoiret Merci</Resultat>
4. 2. Analyse de données • Nécessitait des compétences linguistiques en fulfulde • Bilan sur dico1 :
4. 3. Marquage explicite des informations Version de départ : XML provenant de l'ODT
4. 3. Marquage explicite des informations Rech: <text:ptext:style-name="Entry_20_Paragraph">Remp : <Article>Rech : </text:p> Remp : </Article> Rech :<text:spantext:style-name=“Lexeme">([^<]+)</text:span>Remp : < Vedette>\1</Vedette>Rech : (<Paradigm>[^<]+)</text:span><Paradigm>([^<]+</text:span>)Remp : \1\2 Rech : calt: ([^<\.]+)\.Remp : <Variante>\1</Variante> (Pareil avec tok, mbahdi, etc) • Far : Automatique : 3985 et Manuel : 485 (cas particuliers ou avec erreurs)
4. 3. Marquage explicite des informations Version finale : fichier XML traité
4. 4. Visualisation des données • Validation XML • Nécessite une syntaxe XML correcte ! • Corriger les • Feuille de style • Représentation de documents XML, HTML • Définir des règles (alignement, police, couleur, marges, etc.) • Fichier XML : <?xml-stylesheet type="text/css" href="dicoNiger.css"?>
4. 4. Visualisation des données • Affichage du Dico1 sur chrome avec feuille de style
4. 5. Mise en ligne sur Jibiki • Jibiki • Plate-forme de gestion de ressources lexicales • Programmée en Java • Accès à des ressources hétérogènes • Import et traitement de données, dictionnaires • Open source • Import • Ressource importée au Format XML valide • Décrire le dictionnaire, sa macrostructure • Analyse des données • Disponible sur la plateforme
4. 5. Mise en ligne sur Jibiki C Résultat d’une recherche sur Jibiki sur une entrée du dico1
4. 5. Mise en ligne sur Jibiki Résultat d’une recherche sur Jibiki sur 2 entrées du dico2
V. Conclusion Bilan • Mise à disposition de Ressources électroniques - Pour le traitement automatique des langues • Ressource précieuse - Car cette langue est peu dotée Apport • Nécessitait des compétences en fulfulde et en informatique • Fini le travail que DILAF n’a pas pu (à cause des erreurs) • Notions de : Expressions régulières, XML, Feuille de style • Développer mon autonomie
Merci pour votre attention ! Questions ?