1 / 19

Analyse multidimensionnelle textuelle standard ( introduction)

ananda
Download Presentation

Analyse multidimensionnelle textuelle standard ( introduction)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. L’analyse multidimensionnellede l’information : du texte au multimédiaIsmaïl Biskri (*) (**), Jean-Guy Meunier (**)* Université du Québec à Trois RivièresDépartement de Mathématiques et d ’Informatique** Université du Québec À MontréalLaboratoire d’Analyse Cognitive de l’InformationIsmail_biskri@uqtr.caMeunier.jean-guy@uqam.ca

  2. Analyse multidimensionnelle textuelle standard (introduction) • Premières opérations : • partition du texte en segments (domaines de l’information) ; • extraction du lexique (unités d’information, par exemple : les mots, les n-grams) ; • représentation vectorielle (matricielle) du texte. • Classification

  3. Analyse multidimensionnelle textuelle standard (questions 1) • Quelle est la définition d’une unité d’information ? • Quelle est la définition informatique du mot ? • lebensversicherungsgesellschaftsangestellter(employé d’une compagnie d’assurance vie) • kathabthouhou (je l’ai écrit) • Le n-Gram est il une solution ?

  4. Analyse numérique textuelle standard (réponses2) • La définition d’une unité d’information dépend • de l’objectif de lecture et de compréhension; • de l’usage dont sera fait le résultat ; • Idem pour le choix du type de segmentation;

  5. N-GRAM (définition ) • Bi-grams, tri-grams, quadri-grams, … • « bonjour le monde » • Liste des bi-grams : bo, on, nj, jo, ou, ur, r_, _l, le, e_, _m, mo, on, nd, de. • Liste des tri-grams : bon, onj, njo, jou, our, ur_, r_l, _le, le_, e_m, _mo, mon, ond, nde. • Liste des quadri-grams : bonj, onjo, njou, jour, our_ ur_l, r_le, _le_, le_m, e_mo, _mon, mond, onde.

  6. Segmentation • Par phrases ou paragraphes pour rechercher les similarités intra-textuelles • Par documents pour une classification documentaire préparatoire à une indexation.

  7. Texte Ascii • Représentation matricielle • Extraction des n-grams • segmentation • Suppression des n-grams contenant des espaces • Suppression des n-grams en dessous et au dessus d’un certain seuil Réduction de la taille de la matrice Réseau de neurones (classification) Classe 1 Classe n Classe 2 GRAMEXCO – eGRAMEXCO (Deux chaînes de traitement)

  8. GRAMEXCO (les résultats)

  9. GRAMEXCO (Evaluation 1) • Corpus (extraits de documents web) de 50 pages. Format ASCII. • Paramètres : • taille du segment = 10 phrases ; • Quadri-grams ; • Lettres majuscules identiques aux lettres minuscules ; • caractères non alphabétique remplacés par des espaces ; • Suppression des n-grams contenant un ou plusieurs espaces ; • suppression des n-grams dont la fréquence est 1. • Résultats : 174 segments, 4 857 quadri-grams, 100 classes.

  10. GRAMEXCO (Evaluation 1 - suite 1) • classe 100 : • segments 137 et 157. • lexique interprétable : {bourse, francs, marchés, millions, mobile, pdg, prix}. • le mot francs désigne la monnaie française et non la franchise ou les fameuses tribus "les francs". • thème commun : le domaine financier. • classe 54 : • segments 141 et 143. • lexiques interprétable : {appel, cour, décidé, juge}. • le mot cour désigne la cour de justice et non la cour qu'on fait à une demoiselle, la cour de récréation,ou les toilettes des Belges. • thème commun : affaires judiciaires.

  11. GRAMEXCO (Evaluation 1- suite 2) • classe 13 : • segments 32, 35, 41 et 48 ; • Lexique selon l’intersection : {russe} ; • lexique selon l’union : {conservateur, socialisme, marxiste, conservateur, révolutionnaire, Dostoievski, doctrine, impérial, slavophile} ; • thème commun : les slavophiles et la culture politique russe du 19ième siècle.

  12. GRAMEXCO (Evaluation 2) • Corpus de deux pages extraits d’un texte sur les biotechnologies (format ASCII). • Paramètres : • taille du segment = 1 mot ; • Quadri-grams ; • Lettres majuscules identiques aux lettres minuscules ; • caractères non alphabétique remplacés par des espaces ; • Suppression des n-grams contenant un ou plusieurs espaces ; • suppression des n-grams dont la fréquence est 1.

  13. GRAMEXCO (Evaluation 2 - suite) • Classe 101 : {survécu, survie} • Classe 102 : {utilisée, outil} • Classe 110 : {congelé, décongelé, congelés, congélateur} • Classe 112 : {simple, simplifier, simplifiée} • Classe 48 : {optimisées, optimum} • Classe 60 : {cellules, cellulaire} • Classe 65 : {collecte, collectifs} • Classe 7 : {transfert, transférables, transférés, pénétrant, transferts, retransfert} • Classe 81 : {glycol, glycérol} • Classe 88 : {déshydratées, déshydratation}

  14. GRAMEXCO (Evaluation 3) • Comparaison (découpage en mots vs quadri-grams). • Corpus de 50 pages. • Paramètres : • taille du segment = 10 phrases ; • lemmatisation des mots ; • suppression des hapax ; • suppression des n-grams dont la fréquence est 1. • Résultats : 174 segments, 4 857 quadri-grams, 1757 mots. • Conclusions : l ’analyse en n-grams de caractères diminue la taille du lexique pour des corpus de plus de 200 pages

  15. GRAMEXCO : (Evaluation 4) • classe 16 : segments 33 et 34. • Le lexique (intersection): {station, shuttle, space, russian, nasa, launch, dock }. • space désigne l'espace dans son sens cosmique et non un intervalle. • shuttle désigne une navette spatiale et non le mouvement alternatif (shuttle movement). • thème commun : la conquête spatiale. • classe 2 : segments 2, 4 et 5. • Le lexique : {court, investigation, israeli, sharon}. • Court désigne unecour de justice et non ruelle, ou le verbe courtiser.

  16. GRAMEXCO (Evaluation 4) • La classe 24 : segments 53, 54 et 55. • Le lexique : {hospitals, patient, Hollebeek, project, computing, data, cancer, breast, built, grid}. • patient désigne un malade, et n ’introduit pas notion de patience ou d'endurance. • Le thème : un projet médical en rapport avec le cancer du sein. • La classe 44 : segments 98, 99, 100, 101, 102. • Le lexique : {central, carat, diamonds, model, platinum, plain, weighing, head, hoop}. • Pour un américain diamonds correspondra à une pierre précieuse et non à un terrain de base-ball

  17. GRAMEXCO : (Evaluation 5) • Classe 85 : {peace, peacekeepers, peecekeeping} • Classe 97 : {accused, accusations} • Classe 107 : {inquiries, required, inquiry} • Classe 130 : {minor, minorities, minority} • Classe 133 : {civilians, civilized} • Classe 110 : {allegations, alleged} • Classe 231 : {city, citizen} • Classe 52 : {Belgium, belgian, belgians} • Classe 14 : {thursdays, wednesday, tuesday} • Classe 212 : {imprisonment, prison, prisoners, prisons} • Classe 60 : {prosecute, prosecuted, prosecutor, security}

  18. GRAMEXCO : (Evaluation 6) • Corpus multilingue mixte anglais + français • Résultat important : séparation parfaite des segments français et des segments anglais.

  19. Conclusion • Étant donnée que la définition des unités d’information est indépendante de toute contrainte langagière est il possible de généraliser GRAMEXCO à d’autres sources d’encodage de l’information : image, son, vidéo, … ? • Nous pensons que oui : nos travaux futurs.

More Related