E N D
L’analyse multidimensionnellede l’information : du texte au multimédiaIsmaïl Biskri (*) (**), Jean-Guy Meunier (**)* Université du Québec à Trois RivièresDépartement de Mathématiques et d ’Informatique** Université du Québec À MontréalLaboratoire d’Analyse Cognitive de l’InformationIsmail_biskri@uqtr.caMeunier.jean-guy@uqam.ca
Analyse multidimensionnelle textuelle standard (introduction) • Premières opérations : • partition du texte en segments (domaines de l’information) ; • extraction du lexique (unités d’information, par exemple : les mots, les n-grams) ; • représentation vectorielle (matricielle) du texte. • Classification
Analyse multidimensionnelle textuelle standard (questions 1) • Quelle est la définition d’une unité d’information ? • Quelle est la définition informatique du mot ? • lebensversicherungsgesellschaftsangestellter(employé d’une compagnie d’assurance vie) • kathabthouhou (je l’ai écrit) • Le n-Gram est il une solution ?
Analyse numérique textuelle standard (réponses2) • La définition d’une unité d’information dépend • de l’objectif de lecture et de compréhension; • de l’usage dont sera fait le résultat ; • Idem pour le choix du type de segmentation;
N-GRAM (définition ) • Bi-grams, tri-grams, quadri-grams, … • « bonjour le monde » • Liste des bi-grams : bo, on, nj, jo, ou, ur, r_, _l, le, e_, _m, mo, on, nd, de. • Liste des tri-grams : bon, onj, njo, jou, our, ur_, r_l, _le, le_, e_m, _mo, mon, ond, nde. • Liste des quadri-grams : bonj, onjo, njou, jour, our_ ur_l, r_le, _le_, le_m, e_mo, _mon, mond, onde.
Segmentation • Par phrases ou paragraphes pour rechercher les similarités intra-textuelles • Par documents pour une classification documentaire préparatoire à une indexation.
Texte Ascii • Représentation matricielle • Extraction des n-grams • segmentation • Suppression des n-grams contenant des espaces • Suppression des n-grams en dessous et au dessus d’un certain seuil Réduction de la taille de la matrice Réseau de neurones (classification) Classe 1 Classe n Classe 2 GRAMEXCO – eGRAMEXCO (Deux chaînes de traitement)
GRAMEXCO (Evaluation 1) • Corpus (extraits de documents web) de 50 pages. Format ASCII. • Paramètres : • taille du segment = 10 phrases ; • Quadri-grams ; • Lettres majuscules identiques aux lettres minuscules ; • caractères non alphabétique remplacés par des espaces ; • Suppression des n-grams contenant un ou plusieurs espaces ; • suppression des n-grams dont la fréquence est 1. • Résultats : 174 segments, 4 857 quadri-grams, 100 classes.
GRAMEXCO (Evaluation 1 - suite 1) • classe 100 : • segments 137 et 157. • lexique interprétable : {bourse, francs, marchés, millions, mobile, pdg, prix}. • le mot francs désigne la monnaie française et non la franchise ou les fameuses tribus "les francs". • thème commun : le domaine financier. • classe 54 : • segments 141 et 143. • lexiques interprétable : {appel, cour, décidé, juge}. • le mot cour désigne la cour de justice et non la cour qu'on fait à une demoiselle, la cour de récréation,ou les toilettes des Belges. • thème commun : affaires judiciaires.
GRAMEXCO (Evaluation 1- suite 2) • classe 13 : • segments 32, 35, 41 et 48 ; • Lexique selon l’intersection : {russe} ; • lexique selon l’union : {conservateur, socialisme, marxiste, conservateur, révolutionnaire, Dostoievski, doctrine, impérial, slavophile} ; • thème commun : les slavophiles et la culture politique russe du 19ième siècle.
GRAMEXCO (Evaluation 2) • Corpus de deux pages extraits d’un texte sur les biotechnologies (format ASCII). • Paramètres : • taille du segment = 1 mot ; • Quadri-grams ; • Lettres majuscules identiques aux lettres minuscules ; • caractères non alphabétique remplacés par des espaces ; • Suppression des n-grams contenant un ou plusieurs espaces ; • suppression des n-grams dont la fréquence est 1.
GRAMEXCO (Evaluation 2 - suite) • Classe 101 : {survécu, survie} • Classe 102 : {utilisée, outil} • Classe 110 : {congelé, décongelé, congelés, congélateur} • Classe 112 : {simple, simplifier, simplifiée} • Classe 48 : {optimisées, optimum} • Classe 60 : {cellules, cellulaire} • Classe 65 : {collecte, collectifs} • Classe 7 : {transfert, transférables, transférés, pénétrant, transferts, retransfert} • Classe 81 : {glycol, glycérol} • Classe 88 : {déshydratées, déshydratation}
GRAMEXCO (Evaluation 3) • Comparaison (découpage en mots vs quadri-grams). • Corpus de 50 pages. • Paramètres : • taille du segment = 10 phrases ; • lemmatisation des mots ; • suppression des hapax ; • suppression des n-grams dont la fréquence est 1. • Résultats : 174 segments, 4 857 quadri-grams, 1757 mots. • Conclusions : l ’analyse en n-grams de caractères diminue la taille du lexique pour des corpus de plus de 200 pages
GRAMEXCO : (Evaluation 4) • classe 16 : segments 33 et 34. • Le lexique (intersection): {station, shuttle, space, russian, nasa, launch, dock }. • space désigne l'espace dans son sens cosmique et non un intervalle. • shuttle désigne une navette spatiale et non le mouvement alternatif (shuttle movement). • thème commun : la conquête spatiale. • classe 2 : segments 2, 4 et 5. • Le lexique : {court, investigation, israeli, sharon}. • Court désigne unecour de justice et non ruelle, ou le verbe courtiser.
GRAMEXCO (Evaluation 4) • La classe 24 : segments 53, 54 et 55. • Le lexique : {hospitals, patient, Hollebeek, project, computing, data, cancer, breast, built, grid}. • patient désigne un malade, et n ’introduit pas notion de patience ou d'endurance. • Le thème : un projet médical en rapport avec le cancer du sein. • La classe 44 : segments 98, 99, 100, 101, 102. • Le lexique : {central, carat, diamonds, model, platinum, plain, weighing, head, hoop}. • Pour un américain diamonds correspondra à une pierre précieuse et non à un terrain de base-ball
GRAMEXCO : (Evaluation 5) • Classe 85 : {peace, peacekeepers, peecekeeping} • Classe 97 : {accused, accusations} • Classe 107 : {inquiries, required, inquiry} • Classe 130 : {minor, minorities, minority} • Classe 133 : {civilians, civilized} • Classe 110 : {allegations, alleged} • Classe 231 : {city, citizen} • Classe 52 : {Belgium, belgian, belgians} • Classe 14 : {thursdays, wednesday, tuesday} • Classe 212 : {imprisonment, prison, prisoners, prisons} • Classe 60 : {prosecute, prosecuted, prosecutor, security}
GRAMEXCO : (Evaluation 6) • Corpus multilingue mixte anglais + français • Résultat important : séparation parfaite des segments français et des segments anglais.
Conclusion • Étant donnée que la définition des unités d’information est indépendante de toute contrainte langagière est il possible de généraliser GRAMEXCO à d’autres sources d’encodage de l’information : image, son, vidéo, … ? • Nous pensons que oui : nos travaux futurs.