Eléments de statistique et de visualisations pour l’analyse textuelle

Eléments de statistique et de visualisations pour l’analyse textuelle Jean-Marie Viprey Maison des Sciences de l’Homme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice jean-marie.viprey@univ-fcomte.fr

Généralités

La statistique a pour objet de caractériser des ensembles (« populations ») en regroupant les individus qui les constituent selon les attributs ou propriétés qu’ils ont ou non en commun. Posséder un même attribut, pour N individus, c’est relever d’une même classe. Pour le démographe statisticien, le genre sexuel est une classe (de même la CSP, la tranche d’âge…). Pour l’économiste statisticien, le chiffre d’affaire des entreprises, le PNB des états, le revenu d’un ménage détermine (par seuils) des classes statistiques.

Que la propriété soit qualitative (sexe, CSP, lieu d’implantation) ou quantitative (taille, âge, PNB), elle doit le plus souvent être discrétisée pour donner prise à la statistique. Ainsi : Le lieu n’est pas un point GPS, mais une commune, un département, un état… La taille est arrondie au centimètre, ou de 5 en 5 cm… L’âge est arrondi au mois, à l’an, de 5 en 5, de 10 en 10, ou par tranches inégales… *** Le genre sexuel est une donnée binaire, non discrétisable. ***

Exemple d’un « mot » dans un « texte » : « chanté » propriétés qualitatives : séquence des lettres c-h-a-n-t-é entièrement en bas de casse forme verbale forme fléchie du verbe chanter participe passé sa fonte et son corps 4ème mot du premier vers…

Exemple d’un « mot » dans un « texte » : « chanté » propriétés quantitatives : comporte 6 lettres Comporte 4 phonèmes, 2 syllabes Comporte 4 consonnes graphiques Comporte 2 consonnes phonétiques Comporte 2 voyelles graphiques…

Exemple d’un « mot » dans un « texte » : « chanté » « autres » propriétés qualitatives : « champ sémantique » de la musique « domaine » du show-business ? métaphore !

Un « texte », au sens restreint d’énoncé écrit, est formé d’unités successives délimitées conventionnellement (lettres, mots, phrases, paragraphes, chapitres…) Si l’on considère ces unités, ou segments, comme les individus d’une population, comportant des attributs susceptibles de les associer à des classes, dès lors le texte est un objet statistique.

La statistique a pour intérêt de permettre la connaissance synthétique d’objets complexes, très complexes, voire infiniment complexes. Un ensemble discursif et ses matérialités textuelles (corpus) deviennent rapidement aussi complexes que la population ou l’économie d’un état ou du monde. Quelques applications statistiques relativement simples permettent de prendre connaissance de structures et de contrastes grossiers et simplifiés, mais surplombants, étayés et reproductibles, afin de les confronter à une expérience empirique subtile et diverse, mais « au ras du sol », labile et contradictoire.

APPLICATION : Un corpus de 692 articles de presse « vernaculaire » constitué dans le cadre d’une enquête commanditée par la Préfecture de Région Franche-Comté Après une segmentation conventionnelle, on dénombre 336 246 « individus », « segments » ou « mots » (à l’exception des ponctuations). On désigne cette « population » par la lettre N. Si l’on prend en compte le caractère qualitatif : Chaîne de caractères indépendamment de la casse, et de toute mise en forme de caractères, on détermine 23 264 « classes », dont les plus fréquentes sont : (On désigne ce nombre de classes par la lettre V.)

Et parmi lesquelles une majorité (13 919) n’ont qu’une occurrence (« hapax »).

Si l’on rapporte le nombre d’occurrences (effectif) de chaque classe à N (336 246), on établit sa fréquence.

Il est plus aisé de comparer des fréquences que des effectifs. 2ème APPLICATION : Un corpus de 252 numéros du mensuel Le Monde diplomatique de 1980 à 2000. Après une segmentation suivant les mêmes normes que pour le corpus « SGAR », et sur la base du même caractère qualitatif : N = 17 662 550 V = 182 190

Monde diplomatique SGAR NB : on peut déjà comparer les « rangs »…

La comparaison la plus immédiatement « parlante » est celle des fréquences. Monde diplomatique SGAR

RAPPORT DE V ET DE N. Souvent défini comme indice de « richesse » lexicale (parfois mieux dit : « variété » Comparaison difficile. L’accroissement de V (l’emploi de formes non encore utilisées) diminue au fur et à mesure du développement du texte (et donc, de l’accroissement de N). Le rapport n’est en aucun cas proportionnel. De nombreuses formules d’indices ont été proposée, sans qu’aucune parvienne à maîtriser les grandes variations de V. On en est réduit à recenser des échantillons du corpus le plus étendu.

RAPPORT DE V ET DE N. En l’occurrence, si l’on prend plusieurs tranches de 335 000 mots extraites du Monde diplomatique, on obtient un résultat « V » toujours supérieur au V de SGAR. Exemples : SGAR N = 336 246 V = 23 264 Mondiplo1 N = 332 214 V = 25 982 (1980) Mondiplo2 N = 334 135 V = 25 188 (1986) Mondiplo3 N = 334 064 V = 27 977 (1998) Mais Le Vicomte de Bragelonne, de Dumas père : N = 690 111 V = 25 417 !

RAPPORT DE V ET DE N. Quelles conclusions (ne pas) en tirer ? Certains linguistes ont considéré qu’il s’agissait d’un indice d’étendue du lexique sous-jacent. Le terme de « richesse » va dans le sens d’un jugement de valeur et a minima d’un jugement stylistique. En réalité, le rapport de V à N renvoie à plusieurs facteurs que seules des analyses plus poussées peuvent espérer discriminer.

LOI DE ZIPF Liée aux théories de l’information (Shannon, Mandelbrot), c’est une loi statistique applicable aux dépouillements lexique-fréquence dans les langues naturelles. Rang décroissant et effectif sont liés : grosso modo, le produit d’un rang par l’effectif correspondant à ce rang est constant. (plus exactement : où f est l’effectif et K une constante) La relation des logarithmes du rang et de l’effectif correspondant donne lieu à un nuage de points typiquements alignés.

LOI DE ZIPF Vocabulaire de SGAR en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

LOI DE ZIPF Vocabulaire de Mondiplo en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

LOI DE ZIPF Vocabulaire de La Comédie humaine en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

LOI DE ZIPF Vocabulaire d’ Illusions perdues en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

LOI DE ZIPF Vocabulaire du Vicomte de Bragelonne en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

GAMMES DE FREQUENCES TOTAL (N= 17 662 550 V=182 190) 10 ANS (N=8 522 268 V=1220174) MD 6 MOIS (N=415 266 V=28 085) 2 ANS (N=1 729 312 V=55 663) SGAR

GAMMES DE FREQUENCES COMEDIE HUMAINE (N=4 104 853 V=66 108) ILLUSIONS (N=236 208 V=18 287) BALZAC DUMAS BRAGELONNE (N=690 111 V=25 417)

2. Probabilités

La majorité des tests statistiques employés dans l’étude des textes sont de nature probabiliste. La probabilité affectée à un événement dans un cadre spatio-temporel défini est un quotient : Le dénominateur est le nombre total de configurations envisageables de tous les facteurs efficaces contenus dans le cadre défini Le numérateur est le nombre de configurations produisant cet événement.

Ainsi, la probabilité de tirer un Roi dans un jeu de 32 cartes classique neuf et normal, non marqué, en prenant une seule carte est de 4/32 (il existe 4 configurations favorables pour un total de 32). On comprend que p a pour bornes 0 et 1. Une probabilité peut être inférée des paramètres du cadre (exemples : un dé à six faces) ou (cas le plus fréquent) de l’observation prolongée du cadre (sexe de l’enfant à naître, météorologie, voire astrologie…).

La distinction est importante. Le modèle théorique d’un dé à six faces, conduit à prêter à chacun des six résultats possibles d’un lancer simple une probabilité égale (équiprobabilité). Mais on peut tester un dé « réel », qui peut ne pas être équilibré. Il faut alors le lancer un « certain » nombre de fois afin de vérifier si les résultats sont conformes aux prédictions du modèle. Si le dé est mal équilibré, l’expérience permet à un tricheur de détenir un modèle non équiprobable susceptible de lui permettre un système de paris gagnants.

Modèle du lancer de dés : un seul lancer Chaque résultat est « équiprobable » Le total des probabilités est 1. Chaque probabilité est comprise entre 0 et 1

Un dé « pipé », lancé 1000 fois. Résultats de 1000 lancers : Modèle probabiliste de ce dé :

Contraste des deux modèles : Permet de spéculer sur le(s) facteur(s) d’une telle déviation. Ici, une masse plus dense entre le centre du dé et la face « 6 » ?

Modèle du lancer de dés : un seul lancer Additivité Le total des probabilités reste 1. Chaque probabilité est comprise entre 0 et 1, ces bornes comprises

Modèle du lancer de dés : deux lancers Composition exemple A Le total des probabilités reste 1. Attention à l’opérateur « ET »

Modèle du lancer de dés : deux lancers Composition exemple B Le total des probabilités reste 1. Attention à l’opérateur « PUIS »

Modèle du lancer de dés : deux lancers Composition exemple C Le total des probabilités reste 1.

Modèle du jeu de cartes Les tirages ne sont plus indépendants les uns des autres Exemple 1 : on tire une seule carte. Le total des probabilités reste 1.

Modèle du jeu de cartes Les tirages ne sont plus indépendants les uns des autres Exemple 1 : on tire deux cartesSANS REMETTRE LA 1ère. Les probabilités concernant la 2ème carte sont modifiées par le tirage de la 1ère carte. Si je tire un Roi, il reste alors 3 rois sur 31 cartes. La probabilité combinée de tirer SIMULTANEMENT 2 rois se calcule ainsi : 4/32 * 3/31 = 0.0121 (si l’on remettait la carte et rebattait le jeu, la probabilité de tirer SUCCESSIVEMENT 2 rois serait : 4/32 * 4/32 = 0.0156

Modèle du jeu de cartes Les tirages ne sont plus indépendants les uns des autres La différence de 0.0121 à 0.0156 peut paraître minime… Mais si je tire 4 cartes dans l’espoir d’obtenir 4 Rois : La probabilité combinée de tirer SIMULTANEMENT 4 rois (un « carré de rois » ) se calcule ainsi : 4/32 * 3/31 * 2/30 * 1/29 = 28 pour UN MILLION (noté 2.78 E-05) (si l’on remettait la carte et rebattait le jeu, la probabilité de tirer SUCCESSIVEMENT 2 rois serait : 4/32 * 4/32 * 4/32 * 4/32 = 244 pour un million (noté 2.44 E-04) SOIT 9 FOIS PLUS.

Modèle du jeu de cartes En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle (« sans remise ») Exemple : si je compare le vocabulaire d’un article de journal à celui de la collection complète de ce journal, c’est « comme si » je tirais SIMULTANEMENT d’un immense jeu de (mettons) 40 millions de cartes une « poignée » de (mettons) 5000 cartes Si je veux calculer la probabilité que cette « poignée » comporte (mettons) 50 « cartes » marquées « je », je devrai tenir compte du fait que le « stock » total de cartes « je » est limité et épuisable.

Modèle du jeu de cartes En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle (« sans remise ») REMARQUE ECLAIRANTE : Quelle est la probabilité de tirer SIMULTANEMENT 5 rois en 5 cartes dans un jeu de 32 cartes ordinaire ?

Modèle du jeu de cartes En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle (« sans remise ») REMARQUE ECLAIRANTE : Quelle est la probabilité de tirer SIMULTANEMENT 5 rois en 5 cartes dans un jeu de 32 cartes ordinaire ? Cette probabilité est NULLE. On le montre aisément par le calcul : p = 4/32 * 3/31 * 2/30 * 1/29 * 0/28 = 0 Il en va de même pour l’hypothèse de rencontrer 51 occurrences de « je » dans un article si la collection complète n’en comporte que 50.

Fréquence et probabilité Si l’on « prend » (« tire ») un mot au hasard dans la suite des mots du corpus, la probabilité que ce mot soit une occurrence de telle ou telle forme graphique est égale à la fréquence de cette forme dans le corpus (Fréquence et probabilité sont également bornées par 0 et 1) [ DANS LE MODELE LEXICAL D’EQUIPROBABILITE ] qui permettra, par contraste avec les observations réelles, de connaître certaines contraintes (STOCHASTIQUES)

Stochastique On laissera ici de côté la combinatoire syntaxique proprement dite (impossibilité linguistique de la suite « de je », fréquence de la suite « de la » bien supérieure à sa probabilité calculée mot par mot). Combinatoire « lexicale ». Exemple de la séquence « conseil général ». Dans SGAR, la fréquence de « conseil » est 9.57 E-04, celle de « général » de 6.22 E-04. La probabilité de les trouver dans cet ordre est 5.05 E-07 (0.6 pour 1 million). Or, la fréquence de « conseil général » parmi les 336 245 « bi-formes » du corpus est 2.17 E-04, soit à peine plus faible que celle de ses constituants !

Conclusion partielle Face à un événement, produit « naturellement » ou provoqué « artificiellement » (on le nomme un résultat), du type : « je dénombre 8 occurrences de démocratie dans une page de ce livre, qui en compte 355 pour 220 pages » on calcule quelle était la probabilité de ce résultat « avant qu’il ait eu lieu », c’est-à-dire la probabilité a posteriori de se tromper en affirmant qu’il est dû au hasard (ou l’inverse, de parier qu’il va se reproduire, p.ex.) Les « lois » de distribution (binomiale, normale, de Poisson) expriment directement la probabilité de ce qui est observé, comme si elles avaient à le prévoir, et c’est ce qui valorise – ou non – l’événement.

Conclusion partielle Le calcul de l’écart-réduit d’une observation à sa valeur calculée dans le modèle de l’équidistribution substitue un indice « désincarné », épuré d’attributs accidentels, à l’effectif dénombré. Et c’est lui, l’écart-réduit, qui répond de sa probabilité « d’être dû au hasard ». Pour ceux qui le pratiquent, il a incorporé l’échelle statistique (on dit « un écart-réduit de 3, un écart-réduit « du feu de Dieu »).

Eléments de statistique et de visualisations pour l’analyse textuelle

Eléments de statistique et de visualisations pour l’analyse textuelle

Presentation Transcript

L’évaluation des risques

Cours 3-b Méthode des éléments finis 1D

ETUDES ET RECHERCHE

Les éléments du diagnostic financier

L’analyse de la valeur

Cours Analyse Fonctionnelle

Etude de Marché du Jus de Fuit

Analyse des algorithmes: une introduction

Structures de Données

SQL Manipulations Avancées (08-09)

XSLT : XML Stylesheet Language Transformation

Les éléments clés pour l’accompagnement des malades en fin de vie de la société moderne

Analyse financière

L’Analyse Transactionnelle

Nitrox

HSBC Six Sigma Black Belt Training Analyse

STATISTIQUES DESCRIPTIVES

SQL Avancé 2010

Présentation du Traité établissant une Constitution pour l’Europe

Risques d’erreur statistique et test statistique