100 likes | 234 Views
Méthodologie pour la structuration semi-automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle. Université de Rouen Laboratoire DySoLa (Dynamiques Sociales et Langagières). Mahfoud MAHTOUT. m ahfoud.mahtout@yahoo.fr.
E N D
Méthodologie pour la structuration semi-automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Université de Rouen Laboratoire DySoLa (Dynamiques Sociales et Langagières) Mahfoud MAHTOUT • mahfoud.mahtout@yahoo.fr
Numérisation Récupération des données textuelles Structuration des données Constitution d’une base de donnée interrogeable
Notre étude Objectifs de l’étude • Proposer une méthodologie de structuration de corpus lexicographiques bilingues • Accès libre à une ressource linguistique difficilement consultable • Valorisation du patrimoine écrits franco-algérien • Constitution d’une base de données lexicales au service des recherches fondamentales Pourquoi le choix du dictionnaire bilingue de Huyghe • Il n’existe aucune tentative d’informatisation de dictionnaires bilingues anciens • Le dictionnaire français-kabyle foisonne d’exemples qu’il était souhaitable d’interroger séparément du texte • Il est représentatif de l’idéologie véhiculée par le pouvoir colonial Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
Caractéristiques du projet Un projet pluridisciplinaire faisant coopérer: • Informaticiens (INSA de Rouen) • Numérisation du dictionnaire papier au format électronique • Extraction de données textuelles • Structuration et gestion XML des données • Constitution d’une base de données lexicales • Linguistes • Analyser et décrire la structure linguistique des articles du dictionnaire • Annoter les informations microstructurelles • Découper les articles en différents champs: vedettes, informations grammaticales, traduction, marques d’usages, exemples, etc. Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
Numérisation et récupération des données textuelles • Numérisation par la bibliothèque universitaire de Grenoble (SICD 2) • Document scanné au format PDF-image • Reconnaissance optique de caractères • Conversion du format PDF-image en format texte • Utilisation du logiciel OCR Omnipage 18 • Vérification et contrôle du texte • Relecture et correction des erreurs de reconnaissance • Préservation des caractéristiques typographiques du texte original Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
Structuration des données Codage du document textuel en XML • Codage automatique • Spécification typographique • Vedettes (Bookman Old Style, gras, 14) • Marques d’usage (h. [habitude], p. ou pl. [pluriel], litt. [littéralement], etc.) • Exemples (Ex.: ) • Tournures (Tourn.) • Remarques (Rem.) • Expressions (Expr.), • Limites des articles, etc. • Usage d’expressions régulières • Annotation et pose de balises • Conversion au format XML Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
Structuration des données Codage semi-automatique • Utilisation d’un éditeur XML (Adobe FrameMaker) • Compléter le fichier XML issu du premier traitement • Insérer des balises et marqueurs aux endroits voulus • Balisage des éléments restants • Blocs sémantiques • Indicateurs sémantiques • Contexte d’usage • Vérification et validation du document XML Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
L’interface utilisateur Trois modes de consultation • Recherche simple • S’effectue sur une entrée de la nomenclature • Donne accès à l’article lui correspondant • Recherche plein texte • S’effectue dans le texte intégral • Trouve toutes les occurrences du mot recherché • Affiche à l’écran la liste des résultats trouvés • Recherche avancée • Effectuer des recherches expertes ciblées au moyen de critères multiples • Possibilité de combiner plusieurs critères • catégories grammaticales • Exemples • Expressions • Equivalents kabyles • Forme d’habitude, etc. Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
Conclusion • Ressources informatisées pour les langues africaines • Base de données lexicales importantes du point de vue historique et patrimonial • Soutien précieux aux recherches fondamentales, notamment en métalexicographie • Accès au grand public à une ressource peu disponible • Valorisation des langues peu dotées en ressources informatisées • Possibilité d’actualisation des ressources lexicales anciennes pour constituer des outils lexicographiques modernes • Beaussier • De Foucauld • Dallet