400 likes | 504 Views
La richesse lexicale dans une perspective de lexicométrie arabe Etude contrastive de cinq méthodes de mesure Application à al-’Imtâ‘ wa l-mu’ânasa de Taw h îdî (932-1024). 5 èmes Journées de linguistique de corpus Lorient les 13, 14 et 15 septembre 2007 Zoubeïr MOUELHI ICAR
E N D
La richesse lexicale dans une perspective de lexicométrie arabeEtude contrastive de cinq méthodes de mesureApplication à al-’Imtâ‘ wa l-mu’ânasa de Tawhîdî(932-1024) 5èmes Journées de linguistique de corpus Lorient les 13, 14 et 15 septembre 2007 Zoubeïr MOUELHI ICAR Université Lumière-Lyon2
PLAN • Autour de la notion de richesse lexicale • Les méthodes de mesure • La méthode de comparaison des indices • La formule de Guiraud • L’indice W de Brunet • La méthode binomiale de Muller • L’indice Vm de Yule-Herdan • Bilan • Conclusion
Richesse lexicale difficile à définir • Lexicométrie un dénominateur commun : «lieu de comparaison entre deux ou plusieurs textes en fonction de leur étendue respective et du nombre de vocables relevés dans chacun d’eux»[1] • Décrire la structure lexicale ou la comparer à d’autres corpus indépendante du contenu propriété quantitative • Notion absolue ou relative ? • "Neutralité" du terme Richesse « mieux vaut donc comprendre le mot "richesse" comme un terme neutre, un peu comme font les physiciens pour qui "vitesse" ne se confond pas avec "rapidité" »[2] [1] Nathan Ménard, Mesure de la richesse lexicale. Théorie et vérifications expérimentales :Etudes stylométriques et sociolinguistiques, 1983, p. 16 [2] Thoiron, Ph., Richesse lexicale et classement des textes, dans Études sur la richesse et la structure lexicales, 1988, pp. 141-163, p.142.
Les méthodes de mesure de la richesse lexicale • Problèmes : objectivité, comparaison, évaluer V en fonction de N, influence de l’étendue sur la RL, existe-t-il un indice/échelle (≈ thermomètre)? • Solutions multiples : V/N, V1/V et V1/N influence de l’étendue d’autres méthodes • La méthode de comparaison des indices, la formule de Guiraud ( ), l’indice W de Brunet, la méthode binomiale de Muller et l’indice Vm de Yule-Herdan
q1= = Comparaisons binaires Méthode des indices :Comparaison binaire des textes en confrontant les 4 indices
Valeurs des indices pour chacunedes nuits al-’Imtâ‘ wa l-mu’ânasa
Résultat des comparaisons binaires des Nuits selon la méthode des indices
Préambule A B A B Nuit 02 A est plus riche que B Nuit 01 comparaison non résolue Nuit 14 Nuit 03 Nuit 06 Nuit 04 Nuit 07 Nuit 15 Nuit 09 Nuit13 Classement de quelques Nuits en fonction de la richesse lexicale selon la méthode des indices Nuit 2Nuit 1Nuit 7 Nuit 13Nuit 2Nuit 14Nuit 15PréambuleNuit 14Nuit 15PréambuleNuit 7Nuit 13PréambuleNuit 4Nuit 9Nuit 3Nuit 13Nuit 3Nuit 15Nuit 6Nuit 9Nuit 6Nuit 13
Classement des Nuits selon l’indice de richesse lexicalede Guiraud
Selon la formule de Guiraud (2 / 3) Test de corrélation des rangs de Spearman
Selon l’indice W de Brunet (1 / 3) Traduit une réduction de l’influence de l’étendue
T (N = 61177) T’ (N’ = 5062) T - T’ p = 0,083 q = 0,917 Classement des Nuits selon la méthode binomiale de Muller
Selon la méthode binomiale de Muller (2 / 4) Réduction de l’influence de l’étendue
Selon l’indice Vm de Yule-Herdan (1 / 4) Sous l’influence de N et de V1
Selon l’indice Vm de Yule-Herdan (2 / 4)Confirmation de l’influence de V1 sur l’indice Vm en comparant les deux diagrammes de la richesse lexicale, selon l’indice Vm et le quotient V1/V
BILAN Récapitulatif des classements selon les différentes méthodes utilisées
BILAN Nombre total, pour chaque méthode, des rangscommuns et contigus à ceux des autres méthodes
BILAN Corrélation des rangs de Spearman entre les classements obtenus par les 4 principales méthodes
Sur la base de la contiguïté Sous l’influence inverse de N et de V1 BILAN Analyse Factorielle des variables latentes du classement des 15 nuits par les quatre méthodes de mesure de richesse lexicale :Représentations graphique des méthodes
Analyse Factorielle des variables latentes du classement des 15 nuits par les quatre méthodes de mesure de richesse lexicale : Représentations graphique des nuits
BILAN La dispersion des nuits interprétée selon l’axe F1
BILAN La dispersion des nuits interprétée selon l’axe F2
Interprétation globale, selon les deux axes F1 et F2, de la représentation graphique de l’analyse factorielle des variables latentes
Classement, en fonction de la richesse lexicale, des nuits d'al-ÞImtâÝ wa l-muÞânasa résultant de la représentation graphique de l'analyse factorielle des variables latentes Nuit 00 Nuit 02 Nuit 04 Nuit 05 Nuit 03 Nuit 16 Nuit 01 Nuit 06 Nuit 08 Plus riche que Nuit 10 Nuit 15 Nuit 07 Nuit 14 Nuit 09 Nuit 13 BILAN
BILAN Corrélation entre les classements calculéset le classement inféré
Conclusion • Commencer, tout d’abord, par la méthode des indices. Les cas résolus (surtout les cas sûrs) pourront ouvrir la voie par la suite, aux autres méthodes de mesure (21 / 22 comparaisons résolues sont confirmées). • S’il ne faut choisir qu’une seule méthode de mesure de la richesse lexicale, la méthode binomiale proposée par Charles Muller est la plus apprpopriée ("logique irréprochable" et bien-fondé théorique). • À défaut d’utiliser la méthode binomiale l’indice W de Brunet est fortement recommandé (stabilité, à l’instar de la loi binomiale). • Sinon, l’on peut imaginer une utilisation coinjointe des quatre méthodes. L’analyse factorielle pourrait dans ce cas servir d’outil d’aide à la prise de décision dans le choix de l’une ou l’autre des méthodes (voire même déduire un classement qui soit la résultante des autres).