E N D
1. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Collocations en contexte: étude et analyse contrastive Amalia Todirascu & Christopher Gledhill
LILPA, Université Marc Bloch, Strasbourg
JLC'2007, Lorient
2. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Plan Motivation et contexte
Les constructions VN
Les constructions VN en français et en roumain
Conclusion et perspectives
3. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Collocations Collocations: séquences de mots qui apparaîssent ensemble et qui ont un comportement syntaxique et un sens bien définis
utilisation correcte difficile pour
Les apprenants etrangers
systèmes TAL
quelques dictionnaires proposent l'information sur le comportement morpho-syntaxique des collocations
système d'extraction automatique (Smadja, 1991, Seretan et al 1994, Tutin 2004, Daille 1996)
4. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Collocations (II) Plusieurs définitions possibles
co-occurences fréquentes (Cowie 1981)
Expressions figées (Grossmann, Tutin, 2003)
"a conventional way of saying things" (Manning, Schütze, 1999)
Interpretations divers
cooccurence (Sinclair 1991)
construction (colligation): relations lexico-syntaxiques (Goldberg 1995, Hausmann 2004, Hunston & Francis 2000)
expression, une unité sémiotique du point de vue pragmatique (Moon, 1998, Gledhill & Frath 2007)
5. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Collocations en contexte: extraction et analyse contrastive objectif: le développement d'un système semi-automatique d'extraction de collocations à partir des textes, parametrable pour plusieurs langues (français, roumain, allemand, anglais)
Les collocations sont des constructions/'colligations'
composées par une base et un collocatif (Hausmann 2004), réliés par des relations syntaxiques
Propriétés morpho-syntaxiques contextuelles
Projet financé par l'AUF (Agence Universitaire pour la Francophonie)
Partenaires: Université Marc Bloch de Strasbourg, l'Académie Roumaine, IMS Stuttgart
6. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Collocations et contextes Français:
"La commission a fait appel aux experts…"
Absence du déterminant
Complément indirect: préference pour la préposition 'à'
Préference pour le singulier
Roumain:
"Statele membre vor face fata situatiei…"/' Les états membres vont faire face à la situation…'
l'absence du déterminant
préférence pour le singulier
Complément indirect : préference pour le datif
7. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Méthodologie une méthode déjà appliquée pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006)
Les collocations sont caracterisées par des informations contextuelles spécifiques à chaque langue
L'identification de ces properties à partir des corpus de grande taille (en français, allemand, roumain, anglais)
Une combinaison des méthods d'extraction statistiques et des filtres linguistiques
une validation manuelle des candidats
8. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Les corpus Corpus multilingue, aligné: AcquisCommunautaire (ACC)
Normes adoptées par les membres UE depuis 1950
Étude des corpus français, allemand, roumain, anglais
documents communs pour les langues étudiées (16 millions mots/langue)
Alignement au niveau des propositions (et au niveau des mots en cours de réalisation)
Corpus spécialisé
Termes spécifiques au domaine et expressions figées
Style impersonnel
une analyse linguistique pour definir des filtres linguistiques
9. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Les corpus (II) L'utilisation des corpus monolingues pour comparer les résultats extraits de ACC (en cours):
français: journaux (Le Monde, Le Monde Diplomatique), littérature (Frantext) (40 millions mots)
roumain: 2 romans, journaux, textes médicaux et techniques (15 millions mots)
anglais: BNC Baby, Brown (7 millions mots)
allemand: journaux, littérature (60 millions mots)
10. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Etiquetage et annotation étiquetage et lemmatisation des corpus pour retrouver l'information pertinente
TreeTagger (Schmid 1994) pour français, anglais, allemand ACC et pour les corpus monolingues
QTAG (Mason, Tufis 2000) pour le corpus roumain (ACC + corpus monolingue)
Annotation syntaxique partielle
Annotation des syntagmes: français, roumain, allemand
adapter les ressources pour le domaine
correction des lemmas inconnus et des catégories lexicales (pour les mots spécifiques au domaine et pour les noms propres)
11. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Plan Motivation et contexte
Les constructions VN
Les constructions VN en français et en roumain
Conclusion et perspectives
12. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Les collocations Verbe-Nom une étude des collocations V-N
trois catégories de collocations (Gledhill et al., 2007)
cooccurence (éléments permutables)
faire: un gâteau
constructions (éléments commutables)
faire + face
expression (éléments invariables)
[kick the bucket]
13. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Constructions VN Propriétés spécifiques au verbe:
V1 (Morphologie). Est-ce que c'est possible de remplacer les constructions par un verbe?
faire du travail = travailler, mais faire froid n'est synonyme à refroidir
A face obiectul/'faire l'objet' = ?obiecta/'faire des objections'
V2 (Arguments). Les constructions VN comportent des complements directs ou indirects
Jean fait du bruit, Copiii fac galagie /’Les enfants font du bruit’
Pierre fait peur à Jean, El face apel la colegi /’Il fait appel aux collègues’
V3 (Passivation). Les constructions VN peuvent être passivisées?
Un résumé de ton livre a été fait par Jean mais pas *La fuite a été prise
V4 (Aspect). Les constructions VN expriment souvent un aspect perfectif
She laughed / She gave a laugh / She laughed for hours / ?She gave a laugh for hours
14. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Constructions VN (II) Propriétés spécifiques au nom
N1(détermination). Le déterminant est absent ou fixe
prendre la fuite mais pas ?prendre une fuite
a face apel/'faire appel' (le déterminant est absent)
N2 (clivage). Le nom d'une VN ne peut pas servir du focus dans une structure clivée
C’est la caisse qu’il a prise mais pas ?C’est la fuite qu’il a prise
N3 (expansion). Le nom ne peut pas étre modifié par une clause relative
A luat decizia care era necesara /’ Il a pris la décision qui était nécessaire’, mais *A facut obiectul care era necesar / ‘a fait l’objet qui s’imposait’
N4 (conversion). La nominalisation du V n'est pas toujours possible
Elle a vérifié l’hypothèse = sa vérification de l’hypothèse / Elle a fait l’hypothèse = ?son fait de l’hypothèse
A facut fata situatiei dificile cu bine / Il a fait face à la situation difficile=*Fata a fost facuta cu bine /*La face a été faite
15. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
La grammaire fonctionnelle systémique Toutes les catégories des constructions VN
Trois niveaux d'analyse (Halliday 1985, Banks 2000):
structure lexicale (prédicat complex vs. Prédicateur complex)
rôle fonctionnel (Sujet, Prédicat, Complément)
semantique (le complément exprime la portée du verbe)
16. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Structure lexicale Prédicat complex vs. prédicateur complexe (Gledhill 2007)
le nom d'un prédicat complexe peut être passivisé
Paul fait un gateau/ Le gâteau a été fait par Paul.
S P C
noun verb det noun
Agent Process Range
- le nom d'un predicateur complexe ne peut pas être passivisé
El si-a luat zborul/*Zborul a fost luat
'il lui a pris vol-DET/Vol-DET a été pris'
S P C
pro verb noun
Ben Process Range
le complément du prédicateur complexe peut être relativisé
we had a look at the screenshots...
the screenshots which we had a look at were interesting.
17. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Propriétés sémantiques Le procès est exprimé par la phrase:
Les participants: agent, affecté, bénéficiaire etc;
Les non-participants: portée, temps, instrument, place etc.
La portée: les éléments qui précisent le procès (Halliday & Matthiessen 2004)
le complément indirect précise la portée.
En français, identifié par une préposition
faire l'objet d'une procedure....
En roumain, le complément indirect est au datif
...sa faca fata situatiei...
'qu'on fasse face à la situation'
18. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Plan Motivation et contexte
Les constructions VN
Les constructions VN en français et en roumain
Conclusion et perspectives
19. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Les données Une étude des verbes a face/faire
Identification des propriétés morpho-syntaxiques contextuelles (V1-V4;N1-N4) dans le corpus multilingue et les corpus monolingues
Identification des procès exprimés par la base 'a face/faire' et les collocatifs
La relation entre le type de procès et les testes syntaxiques
20. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Notions de grammaire roumaine 5 cas
Identification par les articles définis
Nominatif/Accusatif: suffixe: calul, casa, oamenii, casele
Genitif/Datif: suffixe: calului, casei, oamenilor, caselor
Identification par les article indéfinis
Nominatif/Accusatif: un cal, o casa, niste case
Genitif/Datif: unui cal, unei case, unor case
préposition pe (lit. 'sur') – accusatif
clitiques et compléments peuvent être utilisés ensemble
Paul vede pe Maria (sans clitique)
'Paul voit Maria'
Paul o vede pe Maria (clitique + CD)
'Paul la voit Maria'
Paul o vede
'Paul la voit'
21. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Grammaire roumaine (II) Le subjonctif identifié par la particule ‘sa’ suivi de la forme présent, mode indicatif
- Trebuie sa mergem / ‘Il faut qu'on aille’
Le passif est composé à l'aide de l'auxiliaire a fi /être:
Florin citeste cartea.
’Florin lire-PRESENT livre-le'
‘Florin lit le livre’
Cartea a fost citita de Florin.
Livre-le a été lue par Florin
L'ordre est libre:
S (or Ø) + P + C (direct) + C (indirect)
22. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Quelques propriétés Identifiés dans les corpus (ACC+ monolingues)
Vérification des propriétés V1-V4, N1-N4
V4, N2 ne s'applique pas au roumain
les propriétés contextuelles:
Le marqueurs de cas du complément indirect
Le marqueurs de N ou V
23. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Types de procès
24. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
N1. Détermination (I) Verbe + l’article défini+ Nom
Corpus Acquis Communautaire :
Français (procès matériel):
il n’est pas nécessaire de conditionner les spécimens ni de faire les analyses dans une atmosphère …
le nombre de points où il y a lieu de faire les prélèvements sera déterminé en conformité avec la règle…
Roumain (procès relationnel) :
…care este recunoscut pe plan international si care face obiectul unui audit./'…qui est mondialement reconnu et qui fait l’objet d’un audit…'
…Trece peste granita dintre statele membre si care face legatura între sistemele de transport…/'…traverse les frontières entre les états membres et qui fait le lien entre les systèmes de transport…
25. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
N1.Détermination (II) Article indéfini
Corpus Acquis Communautaire :
Français (procès mental ou communicatif)
la Commission peut faire des commentaires et, le cas échéant, présenter des propositions au comité …
La Commission peut faire des suggestions aux États membres en ce qui concerne la coordination de …
Roumain (procès matériel ou mental)
(Procès matériel)
Comisia poate sa faca orice modificari la prezentul Regulament care …
'La commission peut faire des changements sur le present règlement…'
(Procès mental)
Acest raportor face o evaluare preliminara al recursului.
'Ce rapporteur fait une évaluation préliminaire du recours… ‘
26. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
N1. Détermination (III) Verbe + Nom (sans article)
Corpus AcquisCommunautaire :
Français (procès relationnel)
Le comité fait fonction de comité de gestion selon la procédure prévue à l’article 47, paragraphe 3, l…
La couverture des risques peut faire partie des activités tant de sociétés d’assurance vie que de sociétés…
Afin de faire face à ces difficultés, il y a lieu d’autoriser la Commission à adopter des mesures transitoires,
La présente disposition ne fait pas obstacle à ce que lesdites mentions soient indiquées en plusieurs langues.
Roumain (procès relationnel ou matériel)
(relationnel) Pentru a putea face fata unor situatii de urgenta …/‘pour faire face aux situations d’urgence’
(matériel) Organismul autorizat poate face vizite inopinante la producator/‘L’organisme autorisé peut faire des visites-surprises chez le producteur’
27. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
28. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
29. Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007
Conclusion et perspectives Propriétés morpho-syntaxiques communes pour plusieurs langues
Définir des filtres linguistiques pour chaque langue (en cours)
Module d'extraction en cours d'évalutaion
validation manuelle des données extraites