1 / 40

Ressources lexicales et grammaticales pour le russe

Conception et réalisation de ressources lexicales et grammaticales pour le russe pour le logiciel Nooj de Max Silberztein. Ressources lexicales et grammaticales pour le russe. Semaine NOOJ Inalco 31 janvier 2012. Vincent BÉNET CREE CERRUS - RAO Recherche assistée par ordinateur.

chavez
Download Presentation

Ressources lexicales et grammaticales pour le russe

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Conception et réalisation de ressources lexicales et grammaticales pour le russe pour le logiciel Nooj de Max Silberztein Ressources lexicales et grammaticales pour le russe Semaine NOOJ Inalco 31 janvier 2012 Vincent BÉNET CREE CERRUS - RAO Recherche assistée par ordinateur

  2. Conception et réalisation de ressources lexicales et grammaticales pour le russe pour le logiciel Nooj de Max Silberztein • Historique des ressources existantes pour le russe • Principes de conception • Descriptif de la réalisation • Travail restant à faire

  3. Historique des ressources existantes en russe La bibliothèque de Moshkov http://lib.ru Le fonds informatisé de la langue russehttp://cfrl.ru Le corpus national de la langue russe http://www.ruscorpora.ru Le corpus national de la langue littéraire* russe http://www.narusco.ru CORPUS RUSSES ACTUELS 2000-2010

  4. Corpus de textes russes La Bibliothèque de Moshkov http://lib.ru

  5. Corpus de textes russes • 1600 oeuvres littéraires (romans, poésies, théâtre du XIX et XX, environ 100 auteurs) • Corpus de textes de journaux (années 1991-2000) • Dictionnaires • avec logiciel intégré de recherche d’occurrences Le fonds informatisé de la langue russehttp://cfrl.ru

  6. Машинный фонд русского языкаhttp://cfrl.ru

  7. Машинный фонд русского языкаhttp://cfrl.ru

  8. Национальный корпус русского языкаhttp://www.ruscorpora.ru Échantillon « représentatif » de la langue russe 50 000 textes 150 000 000 mots Corpus de 5 000 000 formes étiquetées et désambiguïsées avec recherche d’occurences

  9. Национальный корпус русского языкаhttp://www.ruscorpora.ru • Recherche dans le corpus : choix du sous-corpus

  10. Национальный корпус русского языкаhttp://www.ruscorpora.ru • Sélection morphosyntaxique dans le corpus

  11. Национальный корпус русского языкаhttp://www.ruscorpora.ru • Sélection sémantique dans le corpus

  12. Национальный корпус русского языкаhttp://www.ruscorpora.ru • Sélection sémantique dans le corpus

  13. Национальный корпус русского языкаhttp://www.ruscorpora.ru • Recherche dans le corpus

  14. Национальный корпус русского языкаhttp://www.ruscorpora.ru • Recherche dans le corpus

  15. Historique des ressources existantes en russe dictionnaire grammatical de ZALIZNIAK 96 000 entrées avec codage morphosyntaxique version papier = dictionnaire a tergo version électronique (avec codage) alphabétique DICTIONNAIRE ELECTRONIQUE pour la langue russe

  16. dictionnaire grammatical de ZALIZNIAK Historique des ressources existantes en russe DICTIONNAIRE ELECTRONIQUE pour la langue russe

  17. conjugueur-déclineur russe de STARLING http://starling.rinet.ru/cgi-bin/morphque.cgi?flags=endnnnn Historique des ressources existantes en russe

  18. Historique des ressources existantes en russe UNILEX ( sous DOS) MAK ( sous Windows ) avec un corpus d’environ 4000 pages de textes russes lemmatisés LOGICIELS DE TRAITEMENT DE CORPUS pour la langue russe 1980-2000

  19. Historique des ressources existantes en russe UNITEX avec un corpus d’environ 100 pages ( Le joueur de Dostoevski) et un dictionnaire de 9000 mots correspondant au vocabulaire russe du texte LOGICIELS DE TRAITEMENT DE CORPUS pour la langue russe 1980-2000

  20. UNITEX avec un corpus d’environ 100 pages ( Le joueur de Dostoevski) et un dictionnaire de 9000 mots Historique des ressources existantes en russe

  21. Constituer des ressources Nooj pour la langue russe • NOOJhttp://www.nooj4nlp.net/ M. Silberztein

  22. Ecrire un lemmatiseur du russe pour Nooj Prendre l’UNILEX russe comme modèle ? étiquettes: С - substantif, П – adjectif … мр, жр, ср – masculin, féminin, neutre им, рд, дт, вн, тв, пр - cas : nominatif, génitif, datif, accusatif, instrumental, prépositif tableau de correspondances: аа A С мр, но, ед, им.aa= substantif, masc, inanimé, sing, nominatif аб A С мр, но, ед, рд. бд C С мр, од, ед, тв. dictionnaire: АРОТЛОП%0*эжэйэтэх   «IMED TE NU » paradigmes: %ЙО*ад%У*аг%Ы*абажайY=gén. sg fém, nom. pl. fém , acc. pl. inan

  23. Ecrire un lemmatiseur du russe pour Nooj  IMPOSSIBILITE DE RECUPERER LES LEMMATISEURS EXISTANTS Utiliser le dictionnaire ZALIZNIAK : 96 000 entrées Problème du codage utilisé полный п 1*а/б // 1*a/c basé sur l’accent de mot complété d’annotations inutilisables non formalisée non-phonologique non-orthographique (écriture de la voyelle mobile, du jod) les modèles de Zalizniak ont dû être remaniés pour le traitement informatique

  24. Ecrire un lemmatiseur du russe pour Nooj 1. reconstituer un dictionnaire 2. créer un jeu d’étiquettes  lisibles 3. recoder le dictionnaire avec ces étiquettes 4. problème du ë / e 5. établir la liste des modèles types 6. écrire les paradigmes 7. affecter les modèles aux mots du dictionnaire 8. vérifier le paradigme 9. tester avec des textes 10. corriger les erreurs

  25. Ecrire un lemmatiseur du russe pour Nooj 1. reconstituer un dictionnaire a tergo 2. créer un jeu d’étiquettes  lisibles N, A, V, ADV etc. A_Forme = fc | fl | adv; A_Genre = m | f | n ; A_SGenr = an | inan ; A_Nombre = s | p; A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv; A_Deg = Comp | Sup ; ADV_Deg = Comp;

  26. Ecrire un lemmatiseur du russe pour Nooj 2. jeu d’étiquettes NUM_Cat = ord | card | coll NUM_Genre = m | f | n ; NUM_SGenr = an | inan ; NUM_Nombre = s | p; NUM_Cas = Im | Vi | Ro | Da | Tv | Pr ; PRON_Genre = m | f | n; PRON_SGenr = an | inan ; PRON_Nombre = s | p; PRON_Pers = 1 | 2 | 3; PRON_Cas = Im | Vi | Vip | Ro | Rop | Da | Dap | Tv | Tvp | Pr ; V_Pers = 1 | 2 | 3; V_Asp = Ipf | Pf; V_Temps = Pre | Pa | Fu; V_Mode = Inf | Ind | Imp | Cond | Ger | Prtp ; V_Voix = Act | Pss ; V_Genre = m | f | n ; V_Nombre = s | p ; V_Sem = Intr | Tr | Refl ; V_Cas = Im | Vi | Ro | Da | Tv | Pr ; PREP; CONJ; INTERJ; PART; INTRO; DEFINITION DES PROPRIETES ET DES CARACTERISTIQUES AFFECTEES A_Forme = fc | fl | adv; A_Genre = m | f | n ; A_SGenr = an | inan ; A_Nombre = s | p; A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv; A_Deg = Comp | Sup ; ADV_Deg = Comp; N_Genre = m | f | n ; N_SGenr = an | inan ; N_Nombre = s | p; N_Cas = Im | Vi | Ro | R2 | Da | Tv | Pr | P2 | Zv ; N_Sem = Hum | Conc | Abstr | Org | Text | ConcColl + Cpmc | Immeub | Qual | Anim | Loc | Pdc | Sent | Quant | Mat | Liq | Alim | Vehicl | Pr | Tmp | Atm | Geom | CollHum | CollImmeub | Mach ;

  27. Ecrire un lemmatiseur du russe pour Nooj 3. recoder le dictionnaire avec ces étiquettes 4. problème du ë / e (non résolu à ce jour par l’Académie de Russie)

  28. Ecrire un lemmatiseur du russe pour Nooj modèles types <N> 45000 substantifs <A> 20000 adjectifs <V> 27000 verbes <ADV> <PREP> <NUM> 2200 paradigmes <N> 350 types flexionnels <A> 60 types flexionnels <V> 400 types verbaux <NUM> Cardinaux

  29. Ecrire un lemmatiseur du russe pour Nooj 5. établir la liste des modèles types #j1a=karta #jo1a=korova #j2a=nedelja #jo2a=boginja #j3a=kniga #jo3a=sobaka #j4a=tuča #jo4a=kassirša #j5a=ulica #jo5a=volčica #j6a=statuja #jo6a=feja #j7a=linija #jo7a=furija 6. écrire les paradigmes карта= <E>/Im+f+s + <B>у/Vi+f+s + <B>ы/Ro+f+s + <B>е/Da+f+s + <B>ой/Tv+f+s + <B>е/Pr+f+s + <B>ы/Im+f+p + <B>ы/Vi+f+p + <B>/Ro+f+p + <B>ам/Da+f+p + <B>ами/Tv+f+p + <B>ах/Pr+f+p ; 6b. écrire les dérivés ( patronymes)

  30. Ecrire un lemmatiseur du russe pour Nooj 7. affecter les modèles aux mots du dictionnaire abažur,N+m+inan+FLX=zavod abazinec,N+m+an+FLX=ukrainec abazin,N+m+an+FLX=artist abaz,N+m+inan+FLX=zavod abak,N+m+inan+FLX=čajnik abbat,N+m+an+FLX=artist 8. vérifier le paradigme

  31. Ecrire un lemmatiseur du russe pour Nooj 9. tester avec des textes : «la dame au petit chien » de Tchekhov

  32. Ecrire un lemmatiseur du russe pour Nooj 10. corriger les erreurs : • -coquilles (mélange latin/cyrillique) • A B E K M H O P C y X MOCKBA • erreurs dans l’écriture paradigmes <B><L> • mauvaise affectation des mots à leur type flexionnel • surgénération de formes incongrues • - mots inutiles dans le dictionnaire = source d’ambiguïtés supplémentaires • les noms des lettres a, б, в, и, к, о, с, у, я • les mots vieillis etc..

  33. Désambiguïser un texte

  34. Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation • - régime des prépositions • régime des verbes courants • accords adjectifs / substantifs • rection des numéraux • expression des dates / heures etc. • reconnaissance des toponymes, des prénoms, des diminutifs etc.

  35. Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation

  36. Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation

  37. Constituer un corpus de textes vérifiés et désambiguïsés

  38. Constituer un corpus de textes vérifiés • NOOJ

  39. Ecrire des ressources pour le russe pour Nooj Pour aller plus loin…. dans une perspective ultérieure de constitution de ressources parallèles et alignées Harmonisation des étiquettes entre langues (slaves)

  40. Conception et réalisation de ressources lexicales et grammaticales russes pour NOOJ Ressources lexicales et grammaticales pour le russe vincent.benet@inalco.fr CREE Langue , linguistique et développement numérique Recherche assistée par ordinateur Semaine NOOJ Inalco 31 janvier 2012

More Related