130 likes | 363 Views
Projet des corpus écrits des langues manding : le bambara, le maninka. Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135). L’aire mandingue. Quelques informations sur le mandingue. Nombre de locuteurs (L1 + L2): jusqu’à 40 millions.
E N D
Projet des corpus écrits des langues manding : le bambara, le maninka ValentinVydrin INALCO – LLACAN (CNRS, UMR-8135)
Quelques informations sur le mandingue • Nombre de locuteurs (L1 + L2): jusqu’à 40 millions. • 4 variétés les plus importantes sociolinguistiquement: le bambara (Mali); le maninka (Guinée + Liberia, Sierra Leone); le dioula (Côte d’Ivoire, Burkina Faso); le mandinka (Gambie, Sénégal, Guinée Bissau). • Plusieurs variétés « secondaires »: khassonka, mahou, konya, manya, marke-dafing, bolong, etc. • Une « guerre des écritures »: latine, adjami, N’ko.
Quelques caractéristiques linguistiques • langues isolantes, très peu de morphologie flexionnelle; • langues tonales, des nombreuses règles de modifications tonales contextuelles, un article tonal (les tons ne sont pas normalement notés dans les transcriptions latines; les réalisations tonales sont notées dans le N’ko).
L’historique du projet « Corpus mandingue »: • 2009: le démarrage • avril 2012 : le Corpus Bambara de Référence est affiché à l’Internet (1 mln. de mots) • février 2014: le Corpus Maninkade Référence est en ligne (3 mln. de mots, 90% en N’ko) • mai 2014: le Corpus Bambara de Référence a atteint 1 770 000 mots, dont 290 000 mots dans le sous-corpus désambiguïsé.
Les logiciels Daba (KirillMaslinsky) • le métaediteur (une interface graphique pour l’introduction des métadonnées); • l’analyseur morphologique; • le désambiguïsateur (une interface graphique pour la désambiguïsation semi-automatique); • les convertisseurs (l’ancienne orthographe la nouvelle orthographe; le N’ko l’orthographelatine) sontintégrésdansl’analyseurmorphologique.
Dictionnaires: • Bamadaba (BamanaDataBase), dérivé du dictionnaire de Charles Bailleul (sérieusement modifié), en évolution permanente; • dictionnaires auxiliaires: prénoms humains; noms claniques; toponymes; «encyclopédique» • Malidaba, un dictionnaire maninka-français dérivé de la première version du corpus maninka.
Caractéristiques du CBR • Un premier grand corpus d’une langue subsaharienne à l’accès libre. • Un corpus balancé: tous les genres écrits y sont représentés (journaux, prose, poésie, épopées, contes populaires, textes religieux, littérature fonctionnelle, documents juridiques…). • Un corpus annoté morphologiquement à plusieurs niveaux (POS, gloses françaises).
Le processus de l’intégration des textes dans le CBR • (une faible présence du bambara à l’Internet) • 1) la saisie manuelle double suivie du collationnement • 2) l’introduction de l’information métatextuelle • 3) l’analyse morphologique automatique • 4) l’intégration des textes dans le sous-corpus non-désambiguïsé, ou: • 5) désambiguïsation sémi-automatique • 6) intégration dans le sous-corpus désambiguïsé.
Le Corpus Maninka: • une grande activité sur l’Internet; • la disponibilité des textes électroniques en N’ko; • le retardement en ce qui concerne l’outillage (le dictionnaire, les données métatextuelles, l’élaboration du site).
Le site du Corpus Bambara de Référence • (à voir sur l’Internet)
Les outils sur la base du CBR • le correcteur d’orthographe bambara: commencé par AndrijRovenchak, continué par Jean Jacques Méric; • le logiciel pour l’OCR des textes bambara, par J.J.Méric
L’utilisation du CBR dans l’enseignement du bambara • préparation des matériaux didactique pour l’enseignement du bambara; • désambiguïsation des textes par les étudiants; • études ponctuelles sur les sujets grammaticaux, orthographiques et sémantiques par les étudiants.