1 / 10

Université de Rouen Laboratoire DySoLa

Méthodologie pour la structuration semi-automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle. Université de Rouen Laboratoire DySoLa (Dynamiques Sociales et Langagières). Mahfoud MAHTOUT. m ahfoud.mahtout@yahoo.fr.

taber
Download Presentation

Université de Rouen Laboratoire DySoLa

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Méthodologie pour la structuration semi-automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Université de Rouen Laboratoire DySoLa (Dynamiques Sociales et Langagières) Mahfoud MAHTOUT • mahfoud.mahtout@yahoo.fr

  2. Numérisation Récupération des données textuelles Structuration des données Constitution d’une base de donnée interrogeable

  3. Notre étude Objectifs de l’étude • Proposer une méthodologie de structuration de corpus lexicographiques bilingues • Accès libre à une ressource linguistique difficilement consultable • Valorisation du patrimoine écrits franco-algérien • Constitution d’une base de données lexicales au service des recherches fondamentales Pourquoi le choix du dictionnaire bilingue de Huyghe • Il n’existe aucune tentative d’informatisation de dictionnaires bilingues anciens • Le dictionnaire français-kabyle foisonne d’exemples qu’il était souhaitable d’interroger séparément du texte • Il est représentatif de l’idéologie véhiculée par le pouvoir colonial Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

  4. Caractéristiques du projet Un projet pluridisciplinaire faisant coopérer: • Informaticiens (INSA de Rouen) • Numérisation du dictionnaire papier au format électronique • Extraction de données textuelles • Structuration et gestion XML des données • Constitution d’une base de données lexicales • Linguistes • Analyser et décrire la structure linguistique des articles du dictionnaire • Annoter les informations microstructurelles • Découper les articles en différents champs: vedettes, informations grammaticales, traduction, marques d’usages, exemples, etc. Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

  5. Numérisation et récupération des données textuelles • Numérisation par la bibliothèque universitaire de Grenoble (SICD 2) • Document scanné au format PDF-image • Reconnaissance optique de caractères • Conversion du format PDF-image en format texte • Utilisation du logiciel OCR Omnipage 18 • Vérification et contrôle du texte • Relecture et correction des erreurs de reconnaissance • Préservation des caractéristiques typographiques du texte original Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

  6. Structuration des données Codage du document textuel en XML • Codage automatique • Spécification typographique • Vedettes (Bookman Old Style, gras, 14) • Marques d’usage (h. [habitude], p. ou pl. [pluriel], litt. [littéralement], etc.) • Exemples (Ex.: ) • Tournures (Tourn.) • Remarques (Rem.) • Expressions (Expr.), • Limites des articles, etc. • Usage d’expressions régulières • Annotation et pose de balises • Conversion au format XML Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

  7. Structuration des données Codage semi-automatique • Utilisation d’un éditeur XML (Adobe FrameMaker) • Compléter le fichier XML issu du premier traitement • Insérer des balises et marqueurs aux endroits voulus • Balisage des éléments restants • Blocs sémantiques • Indicateurs sémantiques • Contexte d’usage • Vérification et validation du document XML Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

  8. L’interface utilisateur Trois modes de consultation • Recherche simple • S’effectue sur une entrée de la nomenclature • Donne accès à l’article lui correspondant • Recherche plein texte • S’effectue dans le texte intégral • Trouve toutes les occurrences du mot recherché • Affiche à l’écran la liste des résultats trouvés • Recherche avancée • Effectuer des recherches expertes ciblées au moyen de critères multiples • Possibilité de combiner plusieurs critères • catégories grammaticales • Exemples • Expressions • Equivalents kabyles • Forme d’habitude, etc. Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

  9. Conclusion • Ressources informatisées pour les langues africaines • Base de données lexicales importantes du point de vue historique et patrimonial • Soutien précieux aux recherches fondamentales, notamment en métalexicographie • Accès au grand public à une ressource peu disponible • Valorisation des langues peu dotées en ressources informatisées • Possibilité d’actualisation des ressources lexicales anciennes pour constituer des outils lexicographiques modernes • Beaussier • De Foucauld • Dallet

  10. Merci de votre attention

More Related