IRCOM : Consortium Corpus Oraux et Multimodaux de l’IR-CORPUS

IRCOM :Consortium Corpus Oraux et Multimodaux de l’IR-CORPUS

1. Présentation Générale

Présentation • L’Infrastructure de Recherche CORPUS http://www.corpus-ir.fr/ • Créée en 2011, elle vient compléter les 3 autres infrastructures SHS déjà mises en place : • Adonis : accès unifié aux données (moteur de recherche généralisé) + services divers • Progedo : gestion et réservoirs des données sociales « quantitatives » • BSN : bibliothèque scientifique numérique • Objectifs généraux de l’IR CORPUS: • Création de consortiums disciplinaires ou thématiques qui s’accordent sur les méthodologies de sauvegarde et de partage des données numériques autour d’objets numériques identifiés. • Création de réservoirs de données numériques des consortiums

Contexte 1/2 • Les données dites « qualitatives » produites par les Sciences Humaines et Sociales se trouvent confrontées à trois problèmes majeurs : • 1) Leur exploitation est limitée et insuffisante car leur accès est difficile, sinon impossible. • 2) Les départs massifs à la retraite dans les années qui viennent risquent de faire disparaître un patrimoine scientifique et humain considérable. Il est urgent de prendre des mesures afin que les nouvelles générations de chercheurs développent une conscience et des pratiques solides à l'égard de ces problèmes. • 3) De manière générale, les données françaises ont une présence insuffisante et un trop faible degré d'interopérabilité avec nos partenaires internationaux. • Lorsque nous parlons de données dites « qualitatives », nous entendons par cela tout type d'information qui ne peut s'exprimer directement en termes mesurables ou quantifiables. Les supports des données « qualitatives » sont les carnets de terrain, les manuscrits, les photographies, les croquis et dessins, les cartes, les enregistrements sonores, les rush de films, etc. Ils peuvent être classés selon trois types : les textes, les images et les sons. 4

Contexte 2/2 • Trois mesures générales sont nécessaires afin de répondre à ces problèmes • 1) Lasensibilisation de la communauté scientifique aux risques de perte d'un patrimoine scientifique et humain inestimable et à la nécessité de procéder à des sauvegardes coordonnées de ces données. • 2) La définition, l'application et le suivi de procédés d'enregistrement, de stockage et d'archivage numériques qui assurent l'accessibilité aux données et leur pérennisation. Sans déposséder les chercheurs, Ces pratiques permettent le partage et la mise en réseau de l'information et engendrent de réelles plus-values scientifiques. • 3) L'application concrète de ces procédés par le biais de la coordination de communautés scientifiques. • L'infrastructure CORPUS (IR Corpus) a comme objectif de répondre à ces trois mesures, avec un accent particulier sur la troisième. La première et la seconde mesure sont prises en charge en coopération avec l'infrastructure du TGE ADONIS. 5

Missions de l'IR-CORPUS • CORPUS assure des missions de labellisation, de suivi et de soutien financier à des consortiums qui sont constitués d'unités et d'équipes de recherche de tous types d'établissements publics. Ces derniers répondent à un cahier des charges validé par un conseil scientifique et par le comité de pilotage. Ces consortiums ont vocation à identifier, acquérir, diffuser, promouvoir et préserver les données produites par les chercheurs. Ainsi, CORPUS intervient : • - En lien étroit avec les communautés scientifiques pour fédérer les initiatives, aider à la mise en commun des sources, encourager leur diffusion par une présentation et l'utilisation de normes adaptées et ainsi leur réutilisation et enrichissement. • - Pour soutenir la mise en relation des projets français avec les projets internationaux. • Les Consortiums peuvent être labellisés pour 4 ans. Le financement apporté par CORPUS est réservé au volet numérisation et documentation des corpus, ainsi qu'à la coordination des consortiums ; il vient en complément des financements des laboratoires et en appui aux projets de recherche concernés. 6

Les consortiums • Consortium linguistique « Corpus Oraux et Multimodaux » (IRCOM)Labellisé en Juillet 2011 • Consortium anthropologique « Consortium Archive des ethnologues »Labellisé en Juillet 2011 • Consortium linguistique « Corpus Écrits »Labellisé en Septembre 2011 • Consortium littérature et philosophie « CAHIER »Labellisé en Septembre 2011 Planning de la création des consortiums (indicatif seulement) 7

Le comité de pilotage de l'IR-CORPUS 8

Le comité de pilotage de l'IR-CORPUS Participants statutaires : Représentant MESR Représentant MCC Représentant INSHS Représentant UP Représentant CS de Corpus Participants invités : Représentant MSH Représentant CRN Représentant TGE Adonis Représentant ESFRI SHS Représentant ANR Représentant BNF Représentant DGLFLF Représentant CORPUS IR 9

Le conseil scientifique de l'IR-CORPUS • Constitution et fonctionnement • Le conseil scientifique (en cours de constitution) sera composé de 10 à 12 personnalités nationales et internationales reconnues dans les domaines des digital humanities, de la patrimonialisation ou dans celui des sciences humaines et sociales. • Le conseil scientifique propose des priorités scientifiques et des schémas d’évolution des actions de l’IR Corpus et des Consortiums. • Il constitue une liste d’experts scientifiques chargés d’évaluer les projets des Consortiums de Corpus. • Le conseil scientifique élit un président parmi ses pairs qui le représentera dans le comité de pilotage. • Le conseil scientifique se réunit au moins 2 fois par an, en amont à la réunion du comité de pilotage. Le président du conseil scientifique rapporte les délibérations du conseil scientifique au comité de pilotage. 10

Création du Consortium (bref historique) • Une initiative du Ministère de la Recherche • Sollicitation de Laurent Dousset à partir des manifestations d’intérêt sur la liste IR-Corpus • Répartition en 2 consortiums pour la linguistique : (1) oral & multimodal (2) écrit • Constitution d’un pré-comité de pilotage • La fédération TUL est désignée pour porter le consortium • Soumission dans l’urgence d’un projet proposant un comité de pilotage, un programme scientifique et un budget prévisionnel pour validation par l’IR-Corpus • Labellisation

Le Consortium : présentation Une structure ouverte : • Le consortium n’a pas de contours prédéfinis (pas de numerus clausus) • Pas d’exclusivité : un même individu peut appartenir aux 2 consortiums • Pas d’adhésion formelle requise

Le budget • Une dotation de 50 000 €

Le Comité de Pilotage • Martine Adda-Decker (LPP – UMR 7018 – Université Paris III) • Gabriel Bergounioux (LLL - EA 3850 - Université d'Orléans - Université de Tours) • Philippe Blache (LPL - UMR 6057 - Université Aix Marseille) • Carole Etienne (ICAR - UMR 5191 - Université Lumière Lyon 2) • Maya Hickmann (SFL - UMR 7023 - Université Paris VIII) • Harriet Jisa (DDL - UMR 5596 - Université de Lyon II) • Amina Mettouchi (LLACAN - UMR8135 - EPHE) • Boyd Michailovsky (LACITO – UMR 7107 – Université de Paris II et IV) • Christophe Parisse (Modyco - UMR7114 - Université Paris Ouest Nanterre La Défense) • Stéphane Robert (Fédération TUL - FR 2559) – porteur du consortium

Le Conseil Scientifique • Missions du Conseil Scientifique : conseiller et orienter le CP, concevoir des actions à long terme • Fonctionnement : une réunion annuelle du CS, limitée aux thèmes de réflexion traités dans l’année en cours • Principes d’éligibilité: jusqu’à env. 40 personnes assurant une représentativité à deux niveaux – les institutions et laboratoires, ainsi que les types de corpus et connaissances des problèmes spécifiques à envisager • modalités de candidature: formulaire Adresse: http://www.typologie.cnrs.fr/spip.php?rubrique5

2. Actions envisagées en 2011 16

Actions de mutualisation de l’information • Le recensement des corpus existants et des besoins en vue d’un soutien technique/financier dès 2012 aux producteurs de corpus • La mise en ligne d’un site internet et la mise en place d’une veille scientifique • L’organisation d’une journée de concertation avec la communauté 17

Le recensement des corpus existants (1/2) • Prise en compte des précédents inventaires • Inventaire des corpus oraux - Projet DGLFLF - Paul CAPPEAU (et Magali SEIJIDO) • Nom du corpus, Nom du Laboratoire, Responsable, Média , L'accès aux données, Enregistrements, Transcriptions, Publications, Contacts • Rapport sur les corpus oraux sonores en SHS par ADONIS Séverine Guillaume et Mathilde Schmitt (Lacito) • enquête et liste des unités contactées, projets en cours, banque de données existantes 18

Le recensement des corpus existants (2/2) • Inventaire plus précis des corpus oraux • volume de données par thématique, par langue, par projet au sein du laboratoire • nombre de personnes impliquées dans l'activité "corpus oraux" • volume de données décrites, numérisées, transcrites (logiciel, vérifiées), annotées (nature), traduites, informatisées, en ligne, archivées • nature des supports , format, compression, qualité • droits d'accès, anonymisation 19

Veille scientifique • Identifier les principales ressources déjà disponibles • Les ressources Adonis • Les ressources européennes comme ELDP ou DoBes • Les ressources produites par les projets (ANR, …) • Les standards (Dublin Core, Olac, Tei, Isle, Clarin, …) • Les guides des bonnes pratiques • Lister les appels à projets 20

Veille scientifique A partir des ressources déjà disponibles, proposer de nouvelles ressources • un glossaire • Pour chaque standard, expliciter les catégories avec plusieurs exemples choisis dans différentes thématiques • construire des guides de bonnes pratiques en ligne pour • enregistrer des données, numériser, compresser • décrire un corpus • transcrire, annoter, traduire, anonymiser • sauvegarder, archiver • donc partager ... 21

Groupes de travail • corpus linguistiques et finalités scientifiques • interopérabilité • corpus multilingues et corpus plurilingues • multimodalité, codage des gestes • questions juridiques, droits des personnes et des producteurs de corpus (y compris le cas des langues peu décrites, des corpus recueillis sur d’autres continents, dans d’autres cultures) 22

Formations • Le soutien à l'école thématique sur l'annotation de données langagières. L’intégralité des interventions a été filmée et celles-ci seront consultables en ligne • Organisation de formation(s) Première manifestation : « Les outils d’annotations de corpus : CLAN, ELAN, ELAN-CorpA » (novembre-décembre 2011) Christophe Parisse & Amina Mettouchi …/…

Formation 1 : « Les outils d’annotations de corpus » • Formation à CLAN • le 30 novembre 2011 – formation débutants • description • segmentation • alignement • formats utilisables • le14 décembre 2011 – formation avancée • fouille • importation – exportation • commandes • outils son – lien avec Praat • conversion et alignement d’anciens corpus

Formation 1 : « Les outils d’annotations de corpus » • Formation à ELAN • le 1 décembre 2011 – formation débutants • description de Elan • les bases de la transcription • manipuler Elan • structurer des transcriptions • le 15 décembre 2011 – formation avancées • outils automatiques • fouille de corpus • conversion • exportations – interface avec d’autres outils

Formation 1 : « Les outils d’annotations de corpus » • Formation à Elan-CorpA (session organisée par Amina Mettouchi le 6 décembre 2011- date à confirmer) Elan-CorpA est un module développé à partir du logiciel ELAN du Max Planck Institut de Nijmegen. Ce module est adapté à l’annotation de langues peu décrites. Il est disponible au téléchargement à cette adresse : http://corpafroas.tge-adonis.fr

Formation 1 : « Les outils d’annotations de corpus » • Formation à Elan-CorpA (session organisée par Amina Mettouchi le 6 décembre 2011- date à confirmer) Matinée : présentation et prise en main de ELAN-CorpA • Segmentation d'un fichier sonore (apporté par chaque participant), • Paramétrage de ELAN • Annotation par le lexique (lexique vierge ou importé de Toolbox) • Requêtes

Formation 1 : « Les outils d’annotations de corpus » • Formation à Elan-CorpA (session organisée par Amina Mettouchi le 6 décembre 2011- date à confirmer) Après-midi : • segmentation et transcription de l'extrait sonore sous Praat • son importation dans ELAN-CorpA et pour ceux qui ont des annotations Toolbox correspondant à un fichier : • importation dans ELAN • synchronisation temporelle

3. Actions 2012-2014

Aide à des actions ciblées sur corpus • Mise à niveau • Aide technique • Fonctionnement par appels d’offre • Faible dotation, soutien financier nécessairement modeste

Poursuite des Formations • Formations des utilisateurs, éditeurs et créateurs de corpus. Diffusion des standards, des informations sur le bon usage des corpus. Veille technologique. • formations collectives ou formations dans les labos demandeurs ? • Informer les chercheurs sur : • les standards d’archivage (par ex : quelles qualités audio ou video sont requises) • Les standards de collecte de données (quels matériels utiliser etc) • … • Quels formateurs ? Quelles modalités de formation (journées, écoles thématiques, …) ?

Thématiques abordées • Numérisation, stockage affichage clair des standards, des techniques et des moyens existants. • Métadonnées généraliser leur usage et les étendre de manière à pouvoir faire des recherches sur la teneur scientifique des données. • Transcriptions les transcriptions représentent un investissement considérable (bien supérieur à la numérisation), et il faut donc absolument améliorer leur partage, leur diffusion, leur utilisation. Ceci implique notamment un meilleur accord sur les formats utilisés (oral, gestes, multimodal), un accès clair et aisé en téléchargement, en interrogation et en manipulation pour des usages post-transcription initiale.

Collaborations européennes • CLARIN • ELDP • DoBeS • … • Quelles collaborations internationales ?

Thématiques abordées • Accès aux corpus les sites permettant d'accéder aux corpus ont pour la plupart des formes et des présentations variées rendant parfois difficile et peu clair l'accès aux corpus, aux transcriptions, aux droits et contraintes des utilisateurs. Une série de propositions de type bon usage et éventuellement un site exemplaire serait nécessaire. • Droits les types de droits d'accès, clairement définis (licences libres, publiques, privées, limitées, etc.), devraient être mieux présentés et affichés. Ce point est une des questions qui revient le plus souvent chez les producteurs isolés de corpus. • Outils, formats un travail de formation et de diffusion des outils et des formats auprès de la communauté est nécessaire (écoles, sites de formation, diffusion de matériel pédagogique). Ce travail doit avoir une certaine récurrence et une collaboration avec des universités qui pourraient inscrire ces acquis de connaissance dans leurs cursus (ou qui l’ont déjà fait) serait intéressante.

Thématiques abordées • Utilisation des corpus les corpus sont nécessaires aujourd'hui en linguistique et pour l'industrie, il faut diffuser et définir les outils qui permettent de s'en servir et d'en tirer parti. • Innovation dans quel sens doivent évoluer la nature des corpus de langage. Comment prendre en compte de nouvelles données (imagerie cérébrale, résultats d’expérimentation psycholinguistique ou neurolinguistique) ? • Traitements quels traitements automatiques (ou semi-automatiques) peut-on réaliser sur les corpus pour les enrichir (annotation phonologique, prosodique, syntaxique, analyse d’image fixes ou mobiles) ?

IRCOM : Consortium Corpus Oraux et Multimodaux de l’IR-CORPUS