200 likes | 349 Views
Conception, réalisation et utilisation des ressources lexicales et grammaticales pour le russe avec le logiciel Nooj de Max Silberztein. Ressources lexicales et grammaticales pour le russe. Séminaire 24/10/12. Vincent BÉNET CREE CERRUS - RAO Recherche assistée par ordinateur.
E N D
Conception, réalisation et utilisation des ressources lexicales et grammaticales pour le russe avec le logiciel Nooj de Max Silberztein Ressources lexicales et grammaticales pour le russe Séminaire 24/10/12 Vincent BÉNET CREE CERRUS - RAO Recherche assistée par ordinateur
Conception , réalisation et utilisationde ressources lexicales et grammaticales pour le russe pour le logiciel Nooj de Max Silberztein • Historique des ressources existantes pour le russe • Principes de conception • Descriptif de la réalisation • Travail restant à faire • Travaux pratiques
Historique des ressources existantes en russe UNILEX ( sous DOS) MAK ( sous Windows ) avec un corpus d’environ 4000 pages de textes russes lemmatisés LOGICIELS DE TRAITEMENT DE CORPUS pour la langue russe 1980-2000
Historique des ressources existantes en russe La bibliothèque de Moshkov http://lib.ru Le fonds informatisé de la langue russehttp://cfrl.ru Le corpus national de la langue russe http://www.ruscorpora.ru Le corpus national de la langue littéraire* russe http://www.narusco.ru CORPUS RUSSES ACTUELS 2000-2010
Corpus de textes russes La Bibliothèque de Moshkov http://lib.ru
Corpus de textes russes • 1600 oeuvres littéraires (romans, poésies, théâtre du XIX et XX, environ 100 auteurs) • Corpus de textes de journaux (années 1991-2000) • Dictionnaires • avec logiciel intégré de recherche d’occurrences Le fonds informatisé de la langue russehttp://cfrl.ru
Национальный корпус русского языкаhttp://www.ruscorpora.ru Échantillon « représentatif » de la langue russe 50 000 textes 150 000 000 mots Corpus de 5 000 000 formes étiquetées et désambiguïsées avec recherche d’occurences
Ressources pour Nooj pour la langue russe • NOOJhttp://www.nooj4nlp.net/ M. Silbersztein
Lemmatiseur du russe pour Nooj 1. constituer un dictionnaire 2. créer un jeu d’étiquettes lisibles 3. recoder le dictionnaire avec ces étiquettes 4. problème du ë / e 5. établir la liste des modèles types 6. écrire les paradigmes 7. affecter les modèles aux mots du dictionnaire 8. vérifier le paradigme 9. tester avec des textes 10. corriger les erreurs
Lemmatiseur du russe pour Nooj 1. constituer un dictionnaire a tergo 2. créer un jeu d’étiquettes lisibles N, A, V, ADV etc. A_Forme = fc | fl | adv; A_Genre = m | f | n ; A_SGenr = an | inan ; A_Nombre = s | p; A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv; A_Deg = Comp | Sup ; ADV_Deg = Comp;
Lemmatiseur du russe pour Nooj 3. recoder le dictionnaire avec ces étiquettes 4. problème du ë / e (non résolu à ce jour par l’Académie de Russie)
Lemmatiseur du russe pour Nooj 5. établir la liste des modèles types #j1a=karta #jo1a=korova #j2a=nedelja #jo2a=boginja #j3a=kniga #jo3a=sobaka #j4a=tuča #jo4a=kassirša #j5a=ulica #jo5a=volčica #j6a=statuja #jo6a=feja #j7a=linija #jo7a=furija 6. écrire les paradigmes карта= <E>/Im+f+s + <B>у/Vi+f+s + <B>ы/Ro+f+s + <B>е/Da+f+s + <B>ой/Tv+f+s + <B>е/Pr+f+s + <B>ы/Im+f+p + <B>ы/Vi+f+p + <B>/Ro+f+p + <B>ам/Da+f+p + <B>ами/Tv+f+p + <B>ах/Pr+f+p ;
Lemmatiseur du russe pour Nooj 7. affecter les modèles aux mots du dictionnaire abažur,N+m+inan+FLX=zavod abazinec,N+m+an+FLX=ukrainec abazin,N+m+an+FLX=artist abaz,N+m+inan+FLX=zavod abak,N+m+inan+FLX=čajnik abbat,N+m+an+FLX=artist 8. vérifier le paradigme
Lemmatiseur du russe pour Nooj 9. tester avec des textes : «la dame au petit chien » de Tchekhov
Lemmatiseur du russe pour Nooj 10. corriger les erreurs : • -coquilles (mélange latin/cyrillique) • A B E K M H O P C y X MOCKBA • erreurs dans l’écriture paradigmes <B><L> • mauvaise affectation des mots à leur type flexionnel • surgénération de formes incongrues • - mots inutiles dans le dictionnaire source d’ambiguïtés supplémentaires • les noms des lettres a, б, в, и, к, о, с, у, я • les mots vieillis etc..
Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation • - régime des prépositions • régime des verbes courants • accords adjectifs / substantifs • rection des numéraux • expression des dates / heures etc. • reconnaissance des toponymes, des prénoms, des diminutifs etc.
Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation
Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation
Constituer un corpus de textes vérifiés et désambiguïsés