1 / 44

Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique

Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique. Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr. Objectif. Exploration en corpus des revues de linguistique française et de leurs genres et objets spécifiques.

Download Presentation

Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

  2. Objectif Exploration en corpus des revues de linguistique française et de leurs genres et objets spécifiques

  3. Corpus d’articles de revues linguistiques (ASL) Représentation par année de publication Représentation par revue et numéro

  4. ASL: années de publication

  5. ASL: répartition des revues

  6. Méthodologie d’analyse générale... • 1. Première exploration par • Analyse en Composantes Principales (ACP) • Classification Ascendante Hiérarchique (CAH) • 2. Exploration des spécificités et caractérisation différentielle • Analyse des spécificités (des correspondances) • 3. Exploration conceptuelle • ACP sur co-occurrents (S. Loiseau) avec corpus Reader

  7. et jeux de descripteurs utilisés • Descripteurs lexicaux • Mots non vides • 140 descripteurs morphosyntaxiques • Parties du discours traditionnelles • Descripteurs spécifiques au discours scientifique linguistique • IL impersonnel vs. anaphorique, ON, modaux, connecteurs (opposition, causalité, conséquence, etc.), marqueurs de structuration textuelle, éléments étrangers (non français), etc. • Marqueurs de formalisation linguistique (SN, SV, ? et *, morphèmes, etc.)

  8. Les trois genres de la revue de linguistique française L’article de recherche La présentation Le compte rendu

  9. Corpus

  10. Exploration et caractérisation différentielle des trois genres • Corpus d’articles • Textes entiers • Textes sans exemples • Textes sans exemples ni citations • Première exploration • Analyse en Composantes Principales (ACP) + Classification Ascendante Hiérarchique (CAH) • Caractérisation • Analyse des spécificités • Lexicales • Morphosyntaxiques

  11. CAH en 12 classes: répartition des trois genres

  12. Caractérisation lexicale des 3 genres: en positif

  13. Caractérisation lexicale des 3 genres: en négatif

  14. Synthèse • Articles vs. présentations • P: ‘articles’ et ‘numéro’ • A: symboles et chiffres • Articles vs. comptes rendus • A: pronoms NOUS, ON et JE + chiffres • CR: ‘chapitre’, ‘ouvrage’ et ‘auteur’

  15. Spécificités morphosyntaxiques • Articles vs. CR et présentations • A: longueur, structuration, modaux présent, deux points, connecteurs de conséquence... • CR et P: noms propres, connecteurs d’addition, numéraux ordinaux... • Articles vs. présentations • A: symboles, négations • Articles vs. comptes rendus • CR: déterminants définis

  16. Sous-domaines et thématique scientifique linguistique Corpus: 224 articles

  17. Comment caractériser la thématique et les sous-domaines du corpus? • Exploration par ACP • Descripteurs morphosyntaxiques • Descripteurs épistémiques • Analyse des exemples et des citations • Analyse des spécificités des revues et des numéros thématiques • Analyse des concepts linguistiques • Exemple de LINGUISTIQUE

  18. Première exploration du corpus d’articles ACP 140 descripteurs morphosyntaxiques Examen des deux premiers axes factoriels

  19. La parole intérieure Genres et intertexte La langue des signes Histoire, Epistémologie, Langage

  20. Spécificités lexicales du corpus

  21. Exemples et citations Typologie des exemples Répartition par revue et numéro

  22. Répartition des exemples dans l’ensemble du corpus

  23. Répartition des exemples par numéro de revue PRAX RSP LF VERBUM SCOLIA LANG CIEL LINX SYNT SEMIO HEL

  24. Répartition des citations par numéro de revue LF SCOLIA PRAX CIEL VERBUM HEL SEMIO SYNT LINX RSP LANG

  25. Rapport exemples/citations par numéro HEL LF PRAX

  26. Spécificités des numéros et des revues

  27. Intérêt • Évaluation de l’homogénéité des articles d’un même numéro/d’une même revue • Détermination des concepts et objets caractéristiques des numéros/des revues

  28. Numéros lexicalement homogènes • 17 numéros thématiques sur 30 • Spécificités positives • Objets: • intertexte, dénomination, prépositions, dialogue, participe, parole intérieure, langues des signes, hypothétique, contexte(s), impossible, futur, référence discursive, référence pronominale plurielle, relations de discours, sémantique des verbes, syntaxe au-delà de la phrase, sémantique verbale

  29. Gain en précision Futur 37.9 Visée 17.37 Présent 16.88 Autour du futur Verbum Linguistique de la dénomination Cahiers de Praxématique Dénomination 44.3 Dénominations 23.9 Famille 18.44 Nom 14.7 Verbe -7.6 Verbes -6.5 Préposition -6,49 Texte -6.54

  30. Gain en précision q et p 26.7 si 23,24 condition 18.62 énonciateur (17,8) L’hypothétique LINX Référence discursive et accessibilité cognitive Verbum CR 26.6 segment 25.6 référent 24 centrage 22.2 énoncé 18.1 langue -9.9 verbe -8.4 verbes -7,8 sens -7.5

  31. Numéros moins homogènes • Causes: • Hétérogénéité du numéro • Spécificités d’un ou deux textes Surface 28.5 Côté 7.9 Nombre 7.5 Commun 7.4 Quatre 6.5 Horizons de la grammaire Alexandrine HEL contexte -4.6 français -4.07 interprétation -3,6 langues -3.4 MAIS

  32. Analyse des concepts linguistiques Deux exemples d’analyse avec CR (S. Loiseau) Exemple de LINGUISTIQUE

  33. Fréquence de linguistique par revue PRAX Scolia Sémiotiques LF lexique HEL dialogue RSP NT

  34. ACP • Individus: 50 premiers co-occurrents de LINGUISTIQUE • Variables: fréquences dans les segments des textes délimités par la variable ‘indice de structuration’

  35. num | lemme | rate | freq | subfreq 1 | système | 1.00000000000000000 | 727 | 296 2 | sponsoring | 1.00000000000000000 | 37 | 37 3 | sens | 1.00000000000000000 | 2368 | 822 4 | mots | 1.00000000000000000 | 1296 | 495 5 | mot | 1.00000000000000000 | 958 | 391 6 | linguistiques | 1.00000000000000000 | 660 | 353 7 | linguistique | 1.00000000000000000 | 1331 | 1206 8 | langue | 1.00000000000000000 | 2037 | 835 9 | langage | 1.00000000000000000 | 1184 | 563 10 | idiome | 1.00000000000000000 | 74 | 59 11 | grammaire | 1.00000000000000000 | 308 | 161 12 | discours | 1.00000000000000000 | 1830 | 672 13 | des | 1.00000000000000000 | 21203| 6343 14 | Saussure | 1.00000000000000000 | 97 | 76 15 | Jakobson | 1.00000000000000000 | 44 | 40 16 | ' | 1.00000000000000000 | 2688 | 905 17 | terminologie | 0.99999999999999989 | 185 | 102 18 | conception | 0.99999999999999989 | 309 | 150 19 | Vygotskij | 0.99999999999999989 | 72 | 53 20 | contexte | 0.99999999999999967 | 1568 | 559 21 | texte | 0.99999999999999956 | 1313 | 479 22 | traducteur | 0.99999999999999944 | 120 | 74 23 | Jakubinskij | 0.99999999999999667 | 48 | 39 24 | représentations | 0.99999999999999256 | 312 | 146 25 | extra- | 0.99999999999998512 | 65 | 47 26 | recherches | 0.99999999999998324 | 188 | 99 27 | analyse | 0.99999999999994549 | 1302 | 465 28 | relations | 0.99999999999993983 | 960 | 358 29 | la | 0.99999999999950795 | 35232 | 9889 30 | études | 0.99999999999941214 | 259 | 122 31 | sélection- | 0.99999999999923739 | 21 | 21 32 | linguistes | 0.99999999999917411 | 179 | 92 33 | habere | 0.99999999999905631 | 24 | 23 34 | sémiotique | 0.99999999999893030 | 81 | 52 35 | traduction | 0.99999999999873723 | 242 | 115 36 | théorie | 0.99999999999761136 | 625 | 244 37 | unité | 0.99999999999664757 | 547 | 218 38 | les | 0.99999999999640732 | 19686 | 5618 39 | [ | 0.99999999999580502 | 1287 | 450 40 | ] | 0.99999999999374434 | 1287 | 449 41 | scientifique | 0.99999999999013101 | 128 | 70 42 | dialogue | 0.99999999998670397 | 338 | 146 43 | traitement | 0.99999999998612410 | 344 | 148 44 | communauté | 0.99999999998441302 | 109 | 62 45 | phonèmes | 0.99999999997350364 | 72 | 46 46 | WordNet | 0.99999999996460620 | 77 | 48 47 | concepts | 0.99999999994672506 | 223 | 104 48 | intérieur | 0.99999999988978017 | 519 | 203 49 | unités | 0.99999999988648036 | 669 | 251 50 | sciences | 0.99999999986778498 | 91 | 53 50 premiers co-occurrents de ‘linguistique’

  36. Histoire, Epistémologie, Langage Genres et intertexte La parole intérieure Contexte(s)

  37. Conclusion et perspectives(1/2) • Intérêt des méthodes statistiques pour cartographier le champ linguistique français • Détermination des propriétés formelles et différentielles des genres de la revue • Détermination de potentiels mots-clés • Expérimentations complémentaires (analyse plus précise des thèmes des numéros de revue et des concepts les plus discriminants)

  38. Conclusion et perspectives(1/2) • Analyse plus précise des exemples selon la cartographie obtenue • Analyse contrastive interlangue • Comparaison avec un corpus de 200 articles de revues linguistiques anglo-saxonnes

  39. Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

More Related