1 / 39

Repérage automatique de nouvelles formes lexicales sur le Web

Repérage automatique de nouvelles formes lexicales sur le Web. Franck SAJOUS, Ludovic TANGUY ERSS / UTM. Séminaire TAL IRIT-ERSS 12 Janvier 2006. Plan. Créations lexicales : pour quoi faire ? Repérage des créations sur corpus "classique" Repérage sur le Web via un moteur de recherche

marcin
Download Presentation

Repérage automatique de nouvelles formes lexicales sur le Web

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS 12 Janvier 2006

  2. Plan • Créations lexicales : pour quoi faire ? • Repérage des créations sur corpus "classique" • Repérage sur le Web via un moteur de recherche • Méhode inductive vs hypothético-déductive • Exemples de campagnes • Les difficultés du Web • Un moteur dédié : Trifouillette • Parcours du web • Analyse • Résultats

  3. Quelques trouvailles en vrac • Termes techniques • Aquamarquage, hémaglutination, immunofixation • Créations récentes • Pacser (se), surencadrement, intermédiation • Langue populaire • Baisage, poilade • Diverses créations transparentes • Pêchable, japonisation, europhobie, googler

  4. Intérêt du repérage de créations lexicales • L'évolution de la langue : un objet d'étude en soi • Étude des mécanismes morphologiques • Deux types de clients • Linguistique traditionnelle : morphologie, lexicologie, terminologie • Traitement automatique : analyse (morpho)-syntaxique, traduction, etc.

  5. Approches ciblées ou non • Ciblage sur un procédé de création : • Dérivation morphologique (préfixation, suffixation) • Emprunts • Ciblage sur un domaine : • Terminologie, traductions spécialisées • Scientifique, technique, juridique, etc. • Couverture maximale sans ciblage : • Extension de lexiques génériques

  6. Exemples d'études à l'ERSS • Etude de suffixes particuliers • -able, -esque, -este, -ien, -ouill-, etc. • Recensement de formes puis analyses • M. Plénat, M. Roché, N. Hathout, S. Lignon • Noms déverbaux d'action • Famille de suffixes : -age, -ment, -tion, -erie, -ance,-ence, -ure • Recensement et analyse : repérage de couples nom/verbe • Extension du lexique Verbaction utilisé par des analyseurs de corpus • N. Hathout, L. Tanguy

  7. Approches sur corpus classiques • A partir d'une liste de référence • Dictionnaire de langue (formes fléchies) • Repérage de toute forme non référencée • Mathieu et al, 1998 • Sans liste de référence • Repérage des formes rares (hapax) • Janicijevic & Walker 1997 • Par accumulation • Repérage des apparitions sur corpus évolutif • Renouf et al. • Problèmes communs : • Noms propres, fautes d'orthographe, mots collés, etc.

  8. Le cas de la dérivation morphologique • Phénomène de création d'un lexème à partir d'un autre • Divers mécanismes : préfixation, infixation, suffixation, conversion • Le procédé le plus productif repéré par les approches générales • Permet une caractérisation aisée du mot créé • Notamment un calcul du lexème base

  9. La tentation du Web • Le plus gros des corpus (A. Kilgariff) … • … ou la "poubelle planétaire" (F. Rastier) • Dans les deux cas : • De grandes quantités de données • Une créativité et une spontanéité débordante • Une représentation de nombreux types de textes, domaines, niveaux de langue • Une absence totale d'organisation, de représentativité • Des modes d'accès très spécifiques pensés pour d'autres usages

  10. L'accès au Web • Trois méthodes envisageables : • Constitution d'un corpus • Utilisation d'un moteur de recherche généraliste • Parcours du Web (crawling) • Méthode la plus directe et la moins coûteuse : les moteurs de recherche généralistes • Couverture importante • Accès simple et automatisable

  11. Utilisation des moteurs de recherche • Deux approches : hypothético-déductive ou inductive • Hypothético-déductive : • Construire un mot-candidat en appliquant des processus de création lexicale • Google -> googlisation ? • Vérifier son existence sur le Web • Inductive : • Utilisation de patrons • *isation

  12. Le point sur les moteurs de recherche • De 1995 à 2003 : de nombreux moteurs aux caractéristiques variées • Depuis 2003 : Deux compagnies et des caractéristiques similaires • La cas AltaVista • Un des tout premiers moteurs • Recherches complexes : jokers (*), proximité (NEAR) • Comportement fiable et pas de traitements cachés • Pas de paranoïa ni de protection contre les robots • Racheté par Yahoo en 2003 avec modification complète de la base de données et des modes d'accès

  13. La situation actuelle • Deux moteurs majeurs : Google et Yahoo • Des grosses bases de données mal quantifiées • Des modes d'interrogation (très) basiques • Des traitements opaques (pseudo-lemmatisation, mots vides, etc.) • Des accès contrôlés et rationnés • APIs permettant environ 1000 requêtes par jour, sur une base de données restreinte

  14. Les travaux avant 2003 • Possibilités d'interrogation d'AltaVista et Northern Light par patrons • Méthode inductive : • *esque • Découpage du problème en sous-requêtes • aba*esqueabr*esque –abracadabrantesque… • Un programme : Webaffix (Hathout & Tanguy)

  15. Webaffix en quelques mots • Pour un suffixe donné : • Construction des sous-requêtes correspondantes avec élimination des mots connus (TLFi + Grand Robert) • Lancement des requêtes et analyse des pages • Récupération des formes et filtrage des résultats : • Vérification de la langue • Corrections orthographiques diverses • Élimination de contextes bruités

  16. Analyse des créations • Calcul des différentes bases possibles • Programme DeCor (N. Hathout) • Exemple : jospinisation -> jospiniser • Fonctionnement par analogie sur la base d'un lexique existant • Vérification des hypothèses • Recherche de pages Web contenant à la fois le lexème dérivé et le lexème base • Bon taux de précision : 70% pour les suffixes principaux

  17. Méthode hypothético-déductive • Processus de prévision – vérification • Adapté aux créations dérivées à partir de bases connues • Exemple : verbe -> nom par suffixation • Système Walim (F. Namer) • gratiner -> ?gratinage ?gratination ?gratinement • Après vérification : gratinage • Limites de l'approche : • Bases connues • Procédés morphologiques connus

  18. Exemples de campagne • Adjectifs en –este • 1 attestation avant 1997, 14 en 2004 • Adjectifs en –able • 1145 nouveaux adjectifs (1641 dans les dictionnaires généraux) • Extension du lexique Verbaction • Au total, 9400 couples noms/verbes dont 2000 trouvés sur le Web • Etude des noms déverbaux concurrents • 1150 couples Xage/Xment dont une des formes n'est pas recensée dans les dictionnaires

  19. Les difficultés du Web • Noms propres • ABCVoyage, Nuisement, GLevesque • Fautes d'orthographe • Abbatage, adminstration, rélaisation, requiquition • Mots collés/découpés • "…tellement absurdesque je…", "la dé nonciation de…" • Codes informatiques ou autres • Tifimage, clientstable, myhachage • Autres langues que le français • Niederschlagstation, cabbage, diversidade • Faux documents • Traductions automatiques, linguistes, pornographes, etc.

  20. La recherche continue face à l'adversité : Trifouillette • Objectif : détection automatique de "formes rares" • indépendante des moteurs de recherche→ mise en oeuvre d'un crawler • recherche non ciblée→ l'utilisateur définit ses requêtes a posteriori • stockage des pages pertinentespertinente ≈ contient au moins une forme rarerare≈ nombre d'occurrences recontrées < seuil donné

  21. Superviseurde Crawl url page Crawlerdomainek Crawlerdomainei nom de domaine urlsdomainek urlsdomainei nom de domaine base dedomaines url page nouveauxdomaines Gestionnairede données liens collectés liensinternes CRAWL Analyseur Pagei,n Analyseur Pagek,m UTILISATEUR abracadabranteque cuisinesque micaretesque ratounesque rolesque... base demots {mots, pages} collecteurde liens collecteurde liens collecteurde mots collecteurde mots 2 DONNÉES requête (eg. *esque) 1 mot M contenudans pagesP contextes de "cuisinesque" ? 3 bla bla...cuisinesque ...blabla 4 cache(pagespertinentes) Architecture

  22. / (arpa) ca com fr org ... cnrs.fr irit.fr univ-tlse2.fr dr14.cnrs.fr dsi.cnrs.fr ... ... atlas.irit.fr dilan.irit.fr Crawl (parcours du web) • Noms de domaines : exhaustivité impossible • → germe + suivi de liens

  23. PagesurTrifouil-lette Suivi de liens : principe • <a href="http://trifouillette.org/">Page sur Trifouillette</a> • Simple, mais insuffisant : • www.univ-tlse2.fr/erss/ : 1 page • www.alstom.com : 1 page • www.femina.fr : 1 page • Traiter aussi : • frames • images mappées • javascript • redirections trifouillette.org

  24. headerHTTP headerHTML extension dedomaines extension defichiers base dedomaines .uk.mil .gov... .exe.mp3 .swf... lang=en, charset=kio8content-type=x-application/swf... lang=en, charset=kio8content-type=x-application/swf... Suivi de liens : filtrage • sélectionner l'information pertinente a priori • langue • type de contenu (textuel ou autre) Pagecandidate .html.htm.txt.jsp .asp ... lang=fr latin1, latin9 iso-8859-1 iso-8859-15 utf-8 ... .fr.ca.org.com ...

  25. Suivi de liens : filtrage (2) • Headers souvent absents • traiter la page/ignorer ? • polluer la base/rater une information pertinente • Parfois incorrects • Content-Type:text/html;character=8859-1(http://www.femina.fr/feminav2/www/index.php) • Content-Type: text/html; character=iso-8859-1Content-Language:pl; (http://pageperso.free.fr/showtheme?theme=...)

  26. &eacute; &#233; &#xE9;é latin1 contexte scripts, headers,urls, e-mails języka, años Analyse de la page • Sélectionner les contextes pertinents(contenu : texte) • Segmenter, filtrer (encore) • Compter • Pertinence locale, filtrer (toujours) compteur tu<span>es...tu<div>es... segmenteur(unicode) segmen -teur html {języka, créée, años...} convertisseurunicode {créée} Pagecandidate segmenteurlatin1 é unicode \u00E9 {tues}{tu, es} {j, zyka, créée, a, os...}

  27. Détection globale de la langue • Eliminer les autres langues • Ignorer certaine pages en français • recours à des lexiques • si %mots-vides < Seuilmots-videsou%mots-connus < Seuilmots-connusla page n'est pas analysée • bien mais insuffisant

  28. %mots-vides : OK %mots-connus : OK Détection globale de la langue :problèmes page en françaisdont on aimeraitse passer

  29. Détection globale de la langue :problèmes (2) mots vides : 24% a, de, en, entre, et, la, nos, par, que, se, un, y mots connus : 42% digital, sus, pistas, culas, montés, sociales, formas, entrante, bigouden, société, los, si, vida, locales, su, principales, sobre, poco, palabras, chronique, final, alain, partir, vil, art, claire, total, capturas, ajuste, claves, tic, grand, os, embargo, alan, pertinentes, bien, son, culturales, hip, mai, da, inversion, culturelle, pays, dos, gracias, salas, as, texto, participantes, récit, jean, demanda, cargo, esther, micas, sciences, local, conforme, coordonné, an, migrantes, ventas, flexible, sala, historia, dossier, para, area, intenta, existe, las, barbés, con, han, dernier, est, varias, stria, mas, es, strias, démocratisation, pues, internas, probable, fin, thomas, fabricantes

  30. Détection de la langue en contexte + recherche des mots vides de langues "proches" ? contexte OK :'-( Mêmes seuils appliqués au voisinage d'un "mot"

  31. Thiviers Décision de l'assemblée des habitants concernantles mesures de sûreté pendant la Fronde 20 juin 1652 Sur l'advis donné à la communaulté qu'il y a plusieurs personnes mal intantionées contre le général et le particuilher et qui se prévallent du dézordre du temps pour leur nouire tant en leurs personnes, bestiaux, que grains, la communaulté ayant esté dhuement assamblée en corps de jurade, la cloche sounant à la mode acoustumée, a esté délibéré que líon continuera de se guarder dans les mesmes de[s]sains et délibérations cy devant prinses et avec les mesmes précaultions, ou plus grandes sy besoing est, quíy[l] sera pontuellement et sans contredy au ... http://www.perigord.tm.fr/archives/gutenber/mazzarin/thiviers/thivier.htm Détection de la langue en contexte • ancien français • latin • occitan • catalan • provençal • etc.

  32. mot1 mot2 Filtrage des erreurs • recoller les morceaux : Angers il arrive d angers (apostrophe oubliée) trifo uillette mais : uillette to its gave the company its inconnu inconnu contexte :anglais connu ! mot1mot2 chairman a present ? • séparer les mots collés : • "tellesque" : des technologies d'accès sans fil tellesque IEEE802 → telles que • idem : "pâquestes" →pâques tes ?

  33. A bon ch bon r A bon chapitre, bon rapitreA bon chascal, bon rascalA bon chapin, bon rapinA bon chapon, bon rapon.[...]A bon chabougri, bon rabougriA bon chorizo, bon rorizoA bon checul, bon reculA bon choyaume, bon royaume (Boris Vian,Lettre au provéditeur-éditeursur quelques équations morales) Non-Filtrage des erreurs • on ne traite pas : les consonnes doubblées, les invesrions de lettres, etc. • juste pour rire :

  34. http://www.irit.fr/ACTIVITES/EQ_TCI/ENSEIGNEMENT/CetSHELL/TD/td13.htmlhttp://www.irit.fr/ACTIVITES/EQ_TCI/ENSEIGNEMENT/CetSHELL/TD/td13.html http://www.irit.fr/ACTIVITES/MasterPro_IIN/RESSOURCES/Annales_Corriges/99_RF.htm Pollution difficilement évitable • Formes présentes dans la base : • aabcabcababaaa, aaaaccbbabc, abcaaab, ... • aacdefjllpy

  35. Premiers résultats • En une semaine, chaque jour : • 100 000 à 700 000 pages - 2 à 35 millions de "mots" • 2000 à 70000 nouvelles entrées (dont déchets) • 3,5 millions de pages stockées • -ette : rhône-alpettes, bambousette, bisounette... • -esque : downesque, kamasutresque, ratounesque • -ouil- :festouille, jazzouillant, pizzouille... • -iste :gnomoniste, informatiste, terreuriste, ViWiste • -isme : warriorisme, entomoterrorisme, beaufisme • merci l'IRIT : agentifié/en agentifiant, questionnabilité, repositoires

  36. requête annotations résultats contextes Coté utilisateur...

  37. Coté utilisateur : contextes

  38. Coté utilisateur : personnalisation à venir : - utilisation d'anti-lexiques - alertes e-mails

  39. Conclusion • Bilan : trop tôt, mais encourageant • Dans l'immédiat : • laisser tourner • faire utiliser (interne) • mettre à disposition les résultats • Perspectives : • diachronie/veille • caractérisation des trouvailles (marqueurs discriminants) • degré de nettoyage réglable suivant les applications

More Related