290 likes | 397 Views
Text organi z ation by combining fine-grained linguistic markers with global statistical measures. Linear text segmentation analysis. In this paper A better understanding of discourse phenomena in order to Improving discourse modelling Automatic detection of text structures
E N D
Text organization by combining fine-grained linguistic markers with global statistical measures
Linear text segmentation analysis • In this paper • A better understanding of discourse phenomena in order to • Improving discourse modelling • Automatic detection of text structures • Collaboration between statistical and linguistic analysis • Global topical cohesion (Masson 95, Salton et Al. 96) • Local topic shift (Hearst 97) • Frame adverbials (Charolles 97) retrieved by (Minel 01)
Contents • Linear text segmentation analysis • Methods: Presentation • Global topical cohesion (Masson 95, Salton et Al. 96) • Local topic shift (Hearst 97) • Frame adverbials (Charolles 97) • ContextO (Minel 01) • Contributions and limitations • Examples of collaborative works • Boundary adjustements • Segmentation validation • Conclusions and future works
Statistical approaches: Basic notions • Hypothesis: • « Term repetition is a strong cohesion indicator » (Halliday & Hasan 76) • « Lexical cohesion is a strong indicator of topical coherence » (Masson 95, Salton et Al. 96, Hearst 97) • Main principle: • Parsing text and measuring lexical similarity between adjacent text parts • If similar then consider as belonging to the same text segment • Else consider that there is a topic break
METHODS : PRESENTATION • Global topical cohesion (Masson 95, Salton et Al. 96) • Local topic shift (Hearst 97) • Frame adverbials (Charolles 97) • ContextO (Minel 01)
Complementary lexical approaches:global and local coarse information Masson (95) & Hearst (97) compare the lexical similarity of adjacent text units • (Masson 95) – And similar (Salton et Al. 96) • Segmentation based on aggregation of adjacent text units in case of « sufficient » lexical similarity (i.e. topic breaks are infered) • (Hearst 97) – TextTiling • Segmentation based on aggragation of blocs of quasi-sentences, a quasi-sentence at a time
Complementary lexical approaches:global and local coarse information • Main differences: • the unity considered by each method: • Masson (95) : paragraphs = minimal topical text units; • Hearst (97) Basic units with size-fixed • The comparison of units: • Masson (95) compare text units two by two • Hearst (97) compare text units by gradually moving the comparison windowsover the text
Linguistic markers frame adverbials (M.Charolles, 1997). • “In the Netherlands, …” • “During holidays, …” • “In biology, …” • “On the one hand, ….On the other hand, …” • “With regard to Paul, …” • Etc.
FRAMEWORK Of the utterance-act of the utterance Topic organizational Universes qualitative Frames frames of discourse frames In regard On the one hand In France Fortunately with X on the other hand In 1989 By luck, About X First, … Secondly,… In linguistics … … … …
Closing of frames • (p)In the meantime, the tradition of private performance of “ tableaux vivants ” would continue. (q) In France, it was given a royal seal of approval during the reign of Napoleon III. (r)At his autumn vacation chateau of Compiegne, effectively the grand hotel of his regime, guests passed the time by participating in tableaux depicting The Dream of Herculaneum and the more risque Sardanapalus on the Pyre with the Women of His Household, among other diversions. (s) This French tradition was imported to America as a part of the celebration of Mardi Gras in New Orleans (t) where the “ tableaux vivants ” were used as a spectacle at private balls as early as 1857. • (u)By the 1870s, American variety shows were being sanitized and transformed into the family entertainment of vaudeville. (…)
Closing of frames TF1 In the meantime (= between 1850 & 1870) p SF 2 In France, q (T+S)F3 At his autumn vacation chateau of Compiegne, r This french tradition s, t By the 1870s,
CONTEXTO Agata Jackiewicz (2002) Identification and delimitation of organizational frames for automatic text segmentation
Contributions and limitations • Contributions • (Masson 95) and (Hearst 97) • Text partitionning into global and local segments • (Charolles 97) • Local and Fine break at the beginnings of segments
Limitations • (Hearst 97 and Masson 95) • Nature of the limitations • Granularity of handled units (improper comparison and too fine units) • Relations between lexical Cohesion & Topic coherence & Textuality
Limitations • Charolles (97) • Problems of syntactic ambiguity • (1) Selon une technique imposée par l’Ecole Supérieure des Arts Visuels, elle réalise ici un exercice en dessin animé tout à fait convaincant. • (2) Selon un témoin, il aurait plaisanté avec le préposé de la sécurité lors du contrôle, prétendant avoir une bombe dans ses chaussures. • Frames : How to delimitate their end boundary ?
Adverbial classificationsM. Aunargue, M. Bras L. Vieu, N. Asher (2001): • I-P adjunct position (sentence modifier) : • (1) Heureusement, Luc arriva (Fortunately, Luc arrived) • (2) En Bolivie , Marie avait les cheveux rouges. (In Bolivia, Marie had red hair • (3) A Toulouse, il faisait soleil et le vent était doux (At Toulouse, the sun was shining and the wind was warm) • VP- adjunct (VP modifier) : • (4) Marie dansa sur la terrassejusqu’à l’aube • V’ – adjunct (Verb modifier) • (5) Marie sortit de la maison sur la terrasse (Marie came out of the house onto the terrace) • V – complement (Argument position) • (6) Marie sortit (de la maison) (Marie came out ( of the house)) • (7) La fête dura du matin jusqu’au soir (The party lasted from the morning to the evening) Ludo Melis (1983), Henning Nølke (1990), Claude Guimier (1996), Michel Charolles (1997), Christian Molinier & Françoise Levrier (2000)
(Masson 95, Hearst 97) – Improper cohesion <segmentHearst/> Le terme de la scolarité complète en collège est marqué par le brevet . Ce diplôme , qui a remplacé le brevet élémentaire du premier cycle ( BEPC ) , est attribué, pour les candidats des collèges et lycées professionnels , au vu des résultats scolaires de l’ annéeet d’ un examen , et à la suite d’ épreuves pour les candidatsindividuels : élèves de Seconde delycée ou de lycée professionnel repassant l’ examen auquel ils ont échoué précédemment , élèves desétablissements privés hors contrat , etc. 747500 candidats se sont présentés à l’ examen , dont 35000 candidatsindividuels ; près des trois quarts ont été reçus ; mais pour les candidats individuels le taux de réussitea été à peine de 50% .Pour la série collège ( 85% de l’ ensemble des candidats ) , 76%des candidats des établissements scolaires ont obtenu le brevet , ceux des collèges privés sous contratréussissant mieux que ceux des collèges publics ( 85, 74% dans les seconds ) . <Paragraph/> En juin 1992, <segmentHearst/>
(Hearst 97) – Improper cohesion <segmentHearst/> L’ éventail des formations professionnelles proposées , l’ éloignementdeslycées, lesinscriptionsdans ceux de Toulouse , Montpellier ou Clermont-Ferrand contribuentsans doute à réduire les demandes d’orientationsvers leslycéesde cesdépartements. Inversement , dans quelquesdépartements, le Bas-Rhin et la Marne par exemple , lespassagesen 2e sont relativement nombreux , alors que les taux depassagede 5e en 4e sont parmi lesplus bas ; sans doute faut -il aussi faire intervenir , outre lesorientationsde 5e en 4e technologique, lesinscriptionsdans les 2e deslycéesde Reims ou Strasbourg d’élèvesdescollègesde l’ Aube ,de la Haute-Marne et des Ardennes pour les premiers , des Vosges pour les seconds . </p> <p> Au total , malgré l’ augmentation générale des taux depassagede 5e en 4e etde 3e en 2e , les perspectives d’étudeslongues restent donc très inégales d’ undépartementà l’ autre. Et elles le sont plus encore d’ uncollègeà l’ autre . en moyenne , 20% desélèvesdu second degré quichaqueannéearrêtent leursétudes, le font au cours ou au terme de leur scolarité en collège . Ces 150000 jeunes sortent de 3e ( 40000 à 50000 ) , de CPA ( environ 45000 , dont plus dela moitié vont ensuite en apprentissage ) , de CPPN ( 25000 à 30000 ) , de 5e ( 20000 environ ) , de4e et de 6e enfin ( 5000 à 10000 ) . <Paragraph/> Les sorties prématurées Au milieu desannées1980 , <segmentHearst/>
(Hearst 97) – Adjustement required […]La cartographie géologique de l' Angleterre est par bonheur exacte , ce qui , la plupart du temps , permet d' identifier avec précision la carrière d' origine de la roche en question . C' est ainsi que des haches de pierre provenant de la carrière de Great Langdale , dans le Westmorland , ont été retrouvées jusque dans le Wiltshire et le West Lothian . Il y avait des carrières de même importance à Graig Lwyd , dans le Caernavon , et en Cornouailles . La connaissance de ces faits permet de dresser la carte d' un très vaste trafic de haches avant même 3000 ans avant J.-C . " Trafic " et " commerce " restent des mots ambigus et imprécis , tant que nous ne savons pas exactement comment ces objets étaient transportés au échangés . l' application des techniques scientifiques a permis de repousser la préhistoire de la circulation des biens entre régions différentes avant même le début de l' ère de l' agriculture , à une époque antérieure à 8000 avant J.-C . Des éclats et des lames de petite dimension en obsidienne , roche vitreuse volcanique noire qui se taille comme le silex , ont été trouvés dans les premiers sites agricoles de l' ensemble du Proche-Orient . La spectroscopie optique a permis d' y mesurer la quantité d' éléments à l' état de traces ( avec une concentration de quelques parties par million seulement ) . Une étude parallèle des sources naturelles permet de confronter trouvailles et sources . Grâce à une technique d' empreinte fondée sur l' examen des éléments à l' état de traces , on constate que tous les premiers sites agricoles du Moyen-Orient reçurent de l' obsidienne de l' une ou de l' autre des principales sources : Turquie centrale et Turquie orientale . Dans un site aussi éloigné vers le sud que Jéricho en Palestine , les quantités d' obsidienne découvertes sont très faibles . Mais force est de constater que vers 8000 ans avant J.-C . […] <Paragraph/> <?segmentHearst?/> Au Moyen-Orient, <?segmentHearst?/>
A complementary way for text segmentation • To adjust the segmentations • To locally close a frame of discourse
Hearst boundary adjustement (1) • (…) par exemple les signaux du code de la route, les pictogrammes des lieux publics. <Masson/ > <Paragraph/><Hearst/?>Toutefois,au sens propre, celui qui prévaut dans les sciences huimaines – histoire, linguistique, anthropologie, sociologie – “écriture” désigne tout système de signes essentiellement visuels, capable d’encoder n’importe quel énoncé linguistique, et donc, de transposer sa matérialité phonique en matérialité optique (ou tactile dans le cas du Braille).<Hearst/?>A la différence des autres systèmes de notations symboliques évoqués, l’écriture au sens propre établit une correspondance univoque (…)
Hearst boundary adjustement (2) (…) “Trafic” et “commerce” restent des mots ambigus et imprécis, tant que nous ne savons pas exactement comment ces objets étaient transportés ou échangés. <Paragraph/><Hearst/?> Au Moyen-Orient, l’application des techniques scientifiques a permis de repousser la préhistoire de la circulation des biens entre régions différentes avant même le début de l’ère de l’agriculture, à une époque antérieure à 8000 av J-C. <Hearst/?> Des éclats et des lames de petites dimensions (…)
Hearst boundary adjustement (3) L’expérimentation comparative au contraire ne porte que sur la constatation du fait et sur l’art de le dégager des circonstances ou des autres phénomènes avec lesquels il peut être mêlé. (….) <Hearst/?>En physiologie, la méthode des différences est rarement applicable, parce que (…) et parce qu’ensuite (…). <Hearst/?> Je suppose , par exemple, que l’on paralyse isolément et successivement tout le corps (…)
Hearst can provide an important indication with regard to the frame adverbial closing. <Paragraph/>En fin de seconde, les trois quart des lycéens passent en première. (…) <Paragraph/> En classe de première, la proportion des lycéens (…) <Paragraph/> En Terminale, moins de 35 % des lycéens ont dix-sept ans ou moins. Un tiers ont une année de retard et un autre tiers deux ans ou plus. <Hearst/?>Les élèves qui se présentent au baccalauréat à dix-neuf ans, vingt ans, voire plus, sont de plus en plus nombreux, signe de l’allongement progressif de la durée des études secondaires longues.<Hearst/?>Cet allongement à de nombreuses causes: les passages de 3e en 2e font partie de la scolarité normale (…) qui auraient dans le passé abandonné leurs études en 2e ou en 1re, sollicitent maintenant (…)
Final remark <Masson/ > <Paragraph/><Hearst/?>Mais la proportion de jeunes qui vont jusqu'au terme des études secondaires continue de varier fortement d'un département à l'autre.<Hearst/?>Dans la plupart des départements méridionaux, plus d'un jeune sur deux de la classe d'âge se trouve en Terminale en 1987; on approche ou on dépasse même 60% dans les Alpes-Maritimes, le Rhône ou la Haute-Garonne. Dans la France du Nord, où l'on tombe fréquemment à moins de 40%, voire à moins du tiers dans le Bassin parisien, la Bretagne (à l'exception du Morbihan) et quelques départements à ville universitaire s'individualisent par des taux qui avoisinent 50%. Et Paris est une nouvelle fois un cas particulier: qu'il y ait plus d'élèves en Terminale de lycée que de jeunes dans la classe d'âge correspondante donne la mesure de l'attrait qu'exercent les lycées de la capitale et des beaux quartiers de la proche banlieue ouest sur les départements voisins.
Conclusion and future works • Limitation of discourse model partitionning text into consecutive non-overlapping topic segments: • Indeed some segments with ambiguous lexical cohesion point out • the hierarchical structure of texts • and the functional role of some segments, more than topical (announcement, shift segment, synthesis, etc.). • Complementary of the approach • Consider more features (G. Schrepfer-André " according to ", M. Charolles " If p, q (r, s...),” D.Vigier " In N(activity), p...”
Thanks, any questions ? • M. Charolles, « L’encadrement du discours - univers, champs, domaines et espaces », Cahier de recherche linguistique, 6, 1997 • N. Hernandez et B. Grau, “ Combining topic and meta descriptors for text structure presentation ”, ACM SIGDOC, San Francisco, USA, October 12-15, 2003 • D. Vigier “ Les syntagmes prépositionnels en “ en N ” détachés en tête de phrase référant à des domaines d'activité ”, Lingvisticae Investigationes, 26 (1), 2003.. • J-L. Minel, J-P. Desclés, E. Cartier, G. Crispino, S. Ben Hazez, et A. Jackiewicz.Résumé automatique par filtrage sémantique d’informations dans des textes. Présentation de la plateformefiltext. Revue Technique et Science Informatique, 3, 2001