230 likes | 353 Views
INF L14 Initiation aux statistiques. 4 – Classement et cumul. Classement des modalités. Non classées : pas très lisible. Classement des modalités. Classement par fréquences décroissantes. Classement des modalités. Polygone de fréquences. Classement des modalités. Diagramme en secteurs.
E N D
INF L14Initiation aux statistiques 4 – Classement et cumul
Classement des modalités Non classées : pas très lisible...
Classement des modalités Classement par fréquences décroissantes
Classement des modalités Polygone de fréquences
Classement des modalités Diagramme en secteurs
Rangs Quand les modalités sont très nombreuses, on utilise plutôt les rangs sur l’axe des abscisses (X), par exemple de 10 en 10, 100 en 100, etc.
Changement d’échelle Lorsque les modalités sont très nombreuses et les fréquences très inégales on peut utiliser un changement d’échelle des axes (coordonnées logarithmiques).
Loi de Zipf Approximativement : rang x fréquence = constante • George Zipf (1935) s’est aperçu que cette relation rang-fréquence était une propriété de tous les textes.
Fréquences cumulées Etape 1 : Classement par fréquences décroissantes
Fréquences cumulées Idem, expression en pourcentages
Exemple • Petit Prince • 15351 occurrences • 2414 formes • Rappel : loi de Zipf
Fréquences cumulée • Environ • 50 mots = 50% • 1000 mots = 90% Vocabulaire fondamental
Antidictionnaire • Mots outils • Mots grammaticaux • Présents dans tous les textes • Parmi les plus fréquents
Exemple $ £ a A à afin ah ai aie aient aies ailleurs ainsi ait alentour alias allais allaient allait allons allez alors Ap. Apr. après après-demain arrière as assez attendu au aucun aucune au-dedans au-dehors au-delà au-dessous au-dessus au-devant ...
Filtré On voit apparaître les mots-clés du texte
Rang Coordonnées logarithmiques Loi de Zipf Fréquences cumulées Termes à retenir