1 / 29

Collocations en contexte: tude et analyse contrastive

Amalia Todirascu

lamya
Download Presentation

Collocations en contexte: tude et analyse contrastive

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations en contexte: étude et analyse contrastive Amalia Todirascu & Christopher Gledhill LILPA, Université Marc Bloch, Strasbourg JLC'2007, Lorient

    2. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Plan Motivation et contexte Les constructions VN Les constructions VN en français et en roumain Conclusion et perspectives

    3. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations Collocations: séquences de mots qui apparaîssent ensemble et qui ont un comportement syntaxique et un sens bien définis utilisation correcte difficile pour Les apprenants etrangers systèmes TAL quelques dictionnaires proposent l'information sur le comportement morpho-syntaxique des collocations système d'extraction automatique (Smadja, 1991, Seretan et al 1994, Tutin 2004, Daille 1996)

    4. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations (II) Plusieurs définitions possibles co-occurences fréquentes (Cowie 1981) Expressions figées (Grossmann, Tutin, 2003) "a conventional way of saying things" (Manning, Schütze, 1999) Interpretations divers cooccurence (Sinclair 1991) construction (colligation): relations lexico-syntaxiques (Goldberg 1995, Hausmann 2004, Hunston & Francis 2000) expression, une unité sémiotique du point de vue pragmatique (Moon, 1998, Gledhill & Frath 2007)

    5. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations en contexte: extraction et analyse contrastive objectif: le développement d'un système semi-automatique d'extraction de collocations à partir des textes, parametrable pour plusieurs langues (français, roumain, allemand, anglais) Les collocations sont des constructions/'colligations' composées par une base et un collocatif (Hausmann 2004), réliés par des relations syntaxiques Propriétés morpho-syntaxiques contextuelles Projet financé par l'AUF (Agence Universitaire pour la Francophonie) Partenaires: Université Marc Bloch de Strasbourg, l'Académie Roumaine, IMS Stuttgart

    6. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations et contextes Français: "La commission a fait appel aux experts…" Absence du déterminant Complément indirect: préference pour la préposition 'à' Préference pour le singulier Roumain: "Statele membre vor face fata situatiei…"/' Les états membres vont faire face à la situation…' l'absence du déterminant préférence pour le singulier Complément indirect : préference pour le datif

    7. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Méthodologie une méthode déjà appliquée pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006) Les collocations sont caracterisées par des informations contextuelles spécifiques à chaque langue L'identification de ces properties à partir des corpus de grande taille (en français, allemand, roumain, anglais) Une combinaison des méthods d'extraction statistiques et des filtres linguistiques une validation manuelle des candidats

    8. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les corpus Corpus multilingue, aligné: AcquisCommunautaire (ACC) Normes adoptées par les membres UE depuis 1950 Étude des corpus français, allemand, roumain, anglais documents communs pour les langues étudiées (16 millions mots/langue) Alignement au niveau des propositions (et au niveau des mots en cours de réalisation) Corpus spécialisé Termes spécifiques au domaine et expressions figées Style impersonnel une analyse linguistique pour definir des filtres linguistiques

    9. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les corpus (II) L'utilisation des corpus monolingues pour comparer les résultats extraits de ACC (en cours): français: journaux (Le Monde, Le Monde Diplomatique), littérature (Frantext) (40 millions mots) roumain: 2 romans, journaux, textes médicaux et techniques (15 millions mots) anglais: BNC Baby, Brown (7 millions mots) allemand: journaux, littérature (60 millions mots)

    10. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Etiquetage et annotation étiquetage et lemmatisation des corpus pour retrouver l'information pertinente TreeTagger (Schmid 1994) pour français, anglais, allemand ACC et pour les corpus monolingues QTAG (Mason, Tufis 2000) pour le corpus roumain (ACC + corpus monolingue) Annotation syntaxique partielle Annotation des syntagmes: français, roumain, allemand adapter les ressources pour le domaine correction des lemmas inconnus et des catégories lexicales (pour les mots spécifiques au domaine et pour les noms propres)

    11. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Plan Motivation et contexte Les constructions VN Les constructions VN en français et en roumain Conclusion et perspectives

    12. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les collocations Verbe-Nom une étude des collocations V-N trois catégories de collocations (Gledhill et al., 2007) cooccurence (éléments permutables) faire: un gâteau constructions (éléments commutables) faire + face expression (éléments invariables) [kick the bucket]

    13. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Constructions VN Propriétés spécifiques au verbe: V1 (Morphologie). Est-ce que c'est possible de remplacer les constructions par un verbe? faire du travail = travailler, mais faire froid n'est synonyme à refroidir A face obiectul/'faire l'objet' = ?obiecta/'faire des objections' V2 (Arguments). Les constructions VN comportent des complements directs ou indirects Jean fait du bruit, Copiii fac galagie /’Les enfants font du bruit’ Pierre fait peur à Jean, El face apel la colegi /’Il fait appel aux collègues’ V3 (Passivation). Les constructions VN peuvent être passivisées? Un résumé de ton livre a été fait par Jean mais pas *La fuite a été prise V4 (Aspect). Les constructions VN expriment souvent un aspect perfectif She laughed / She gave a laugh / She laughed for hours / ?She gave a laugh for hours

    14. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Constructions VN (II) Propriétés spécifiques au nom N1(détermination). Le déterminant est absent ou fixe prendre la fuite mais pas ?prendre une fuite a face apel/'faire appel' (le déterminant est absent) N2 (clivage). Le nom d'une VN ne peut pas servir du focus dans une structure clivée C’est la caisse qu’il a prise mais pas ?C’est la fuite qu’il a prise N3 (expansion). Le nom ne peut pas étre modifié par une clause relative A luat decizia care era necesara /’ Il a pris la décision qui était nécessaire’, mais *A facut obiectul care era necesar / ‘a fait l’objet qui s’imposait’ N4 (conversion). La nominalisation du V n'est pas toujours possible Elle a vérifié l’hypothèse = sa vérification de l’hypothèse / Elle a fait l’hypothèse = ?son fait de l’hypothèse A facut fata situatiei dificile cu bine / Il a fait face à la situation difficile=*Fata a fost facuta cu bine /*La face a été faite

    15. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 La grammaire fonctionnelle systémique Toutes les catégories des constructions VN Trois niveaux d'analyse (Halliday 1985, Banks 2000): structure lexicale (prédicat complex vs. Prédicateur complex) rôle fonctionnel (Sujet, Prédicat, Complément) semantique (le complément exprime la portée du verbe)

    16. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Structure lexicale Prédicat complex vs. prédicateur complexe (Gledhill 2007) le nom d'un prédicat complexe peut être passivisé Paul fait un gateau/ Le gâteau a été fait par Paul. S P C noun verb det noun Agent Process Range - le nom d'un predicateur complexe ne peut pas être passivisé El si-a luat zborul/*Zborul a fost luat 'il lui a pris vol-DET/Vol-DET a été pris' S P C pro verb noun Ben Process Range le complément du prédicateur complexe peut être relativisé we had a look at the screenshots... the screenshots which we had a look at were interesting.

    17. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Propriétés sémantiques Le procès est exprimé par la phrase: Les participants: agent, affecté, bénéficiaire etc; Les non-participants: portée, temps, instrument, place etc. La portée: les éléments qui précisent le procès (Halliday & Matthiessen 2004) le complément indirect précise la portée. En français, identifié par une préposition faire l'objet d'une procedure.... En roumain, le complément indirect est au datif ...sa faca fata situatiei... 'qu'on fasse face à la situation'

    18. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Plan Motivation et contexte Les constructions VN Les constructions VN en français et en roumain Conclusion et perspectives

    19. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les données Une étude des verbes a face/faire Identification des propriétés morpho-syntaxiques contextuelles (V1-V4;N1-N4) dans le corpus multilingue et les corpus monolingues Identification des procès exprimés par la base 'a face/faire' et les collocatifs La relation entre le type de procès et les testes syntaxiques

    20. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Notions de grammaire roumaine 5 cas Identification par les articles définis Nominatif/Accusatif: suffixe: calul, casa, oamenii, casele Genitif/Datif: suffixe: calului, casei, oamenilor, caselor Identification par les article indéfinis Nominatif/Accusatif: un cal, o casa, niste case Genitif/Datif: unui cal, unei case, unor case préposition pe (lit. 'sur') – accusatif clitiques et compléments peuvent être utilisés ensemble Paul vede pe Maria (sans clitique) 'Paul voit Maria' Paul o vede pe Maria (clitique + CD) 'Paul la voit Maria' Paul o vede 'Paul la voit'

    21. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Grammaire roumaine (II) Le subjonctif identifié par la particule ‘sa’ suivi de la forme présent, mode indicatif - Trebuie sa mergem / ‘Il faut qu'on aille’ Le passif est composé à l'aide de l'auxiliaire a fi /être:  Florin citeste cartea. ’Florin lire-PRESENT livre-le' ‘Florin lit le livre’ Cartea a fost citita de Florin. Livre-le a été lue par Florin L'ordre est libre:  S (or Ø) + P + C (direct) + C (indirect)

    22. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Quelques propriétés Identifiés dans les corpus (ACC+ monolingues) Vérification des propriétés V1-V4, N1-N4 V4, N2 ne s'applique pas au roumain les propriétés contextuelles: Le marqueurs de cas du complément indirect Le marqueurs de N ou V

    23. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Types de procès

    24. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 N1. Détermination (I) Verbe + l’article défini+ Nom Corpus Acquis Communautaire : Français (procès matériel): il n’est pas nécessaire de conditionner les spécimens ni de faire les analyses dans une atmosphère … le nombre de points où il y a lieu de faire les prélèvements sera déterminé en conformité avec la règle… Roumain (procès relationnel) : …care este recunoscut pe plan international si care face obiectul unui audit./'…qui est mondialement reconnu et qui fait l’objet d’un audit…' …Trece peste granita dintre statele membre si care face legatura între sistemele de transport…/'…traverse les frontières entre les états membres et qui fait le lien entre les systèmes de transport…

    25. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 N1.Détermination (II) Article indéfini Corpus Acquis Communautaire : Français (procès mental ou communicatif) la Commission peut faire des commentaires et, le cas échéant, présenter des propositions au comité … La Commission peut faire des suggestions aux États membres en ce qui concerne la coordination de … Roumain (procès matériel ou mental) (Procès matériel) Comisia poate sa faca orice modificari la prezentul Regulament care … 'La commission peut faire des changements sur le present règlement…'  (Procès mental) Acest raportor face o evaluare preliminara al recursului. 'Ce rapporteur fait une évaluation préliminaire du recours… ‘

    26. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 N1. Détermination (III) Verbe + Nom (sans article) Corpus AcquisCommunautaire : Français (procès relationnel) Le comité fait fonction de comité de gestion selon la procédure prévue à l’article 47, paragraphe 3, l… La couverture des risques peut faire partie des activités tant de sociétés d’assurance vie que de sociétés… Afin de faire face à ces difficultés, il y a lieu d’autoriser la Commission à adopter des mesures transitoires, La présente disposition ne fait pas obstacle à ce que lesdites mentions soient indiquées en plusieurs langues. Roumain (procès relationnel ou matériel) (relationnel) Pentru a putea face fata unor situatii de urgenta …/‘pour faire face aux situations d’urgence’ (matériel) Organismul autorizat poate face vizite inopinante la producator/‘L’organisme autorisé peut faire des visites-surprises chez le producteur’

    27. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007

    28. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007

    29. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Conclusion et perspectives Propriétés morpho-syntaxiques communes pour plusieurs langues Définir des filtres linguistiques pour chaque langue (en cours) Module d'extraction en cours d'évalutaion validation manuelle des données extraites

More Related