300 likes | 449 Views
Les transcriptions dans la plate-forme CLAPI. implémentation solution hétérogénéité standardisation. Groupe ICOR L. Balthasar, M. Bert, S. Bruxelles, C. Etienne, L. Mondada, V. Traverso, D. Valero. La plate-forme CLAPI http://clapi.univ-lyon2.fr Banque de données :
E N D
Les transcriptions dans la plate-forme CLAPI implémentation solution hétérogénéitéstandardisation Groupe ICOR L. Balthasar, M. Bert, S. Bruxelles, C. Etienne, L. Mondada, V. Traverso, D. Valero GROUPE ICORhttp://clapi.univ-lyon2.fr
La plate-forme CLAPI http://clapi.univ-lyon2.fr • Banque de données : corpus de LPI collectés en situation naturelle • Outils d’analyse et de requête sur le contenu des transcriptions (dont des traitements automatiques) Les corpus oraux • Intégration de corpus anciens ou récents, confectionnés dans le cadre de domaines de recherche différents, dans divers laboratoires => Hétérogénéité des transcriptions hébergées GROUPE ICORhttp://clapi.univ-lyon2.fr
Les principes d'intégration des transcriptions dans CLAPI • Restitution la plus fidèle possible de la représentation d'origine du transcripteur • Charte graphique pour l’affichage des transcriptions • Validation par le responsable • Modifications minimales de la transcription originale on ne refait pas la transcription pour des raisons de coût et de respect de la propriété intellectuelle en cas de modification, recours à la conventionICOR GROUPE ICORhttp://clapi.univ-lyon2.fr
Convention de référence Convention ICOR • Principes pour l’établissement d’une convention de transcription • Économie • Cohérence • Lisibilité • Sélectivité • Granularité • Transformabilité • Évolutivité • Établissement de la convention Convention ICOR • fondée sur des conventions internationalement retenues en linguistique interactionnelle : Jefferson, Heritage, Psathas, Kerbrat, Cosnier, Traverso • explicite : accessibilité des concepts et des conventions pour chercheurs/ transcripteurs non interactionnistes • concise (genre textuel : « quick-reference manual ») • définissant une solide transcription de base en linguistique interactionnelle • implémentée en XML GROUPE ICORhttp://clapi.univ-lyon2.fr
Convention de référence Convention ICOR http://icar.univ-lyon2.fr/projets/ICOR/ICAR_Conventions_ICOR.doc GROUPE ICORhttp://clapi.univ-lyon2.fr
N° phénomène notation exemple dans PRAAT ex. Praat Convention ICOR Exemple du chevauchement http://icar.univ-lyon2.fr/projets/ICOR/ICAR_Conventions_ICOR.doc GROUPE ICORhttp://clapi.univ-lyon2.fr
Diversité des conventions de transcription • Granularité différente des transcriptions • Robustesse : une même convention servant à noter deux phénomènes différents • Cohérence : notations différentes d’un même phénomène dans une même transcription • Exhaustivité : notation non systématique de certains phénomènes dans une même transcription • Orthographe adaptée : un même mot représenté différemment suivant sa prononciation Problèmes posés par les transcriptions de Français Parlé en Interaction GROUPE ICORhttp://clapi.univ-lyon2.fr
Diversité des conventions de transcription • Corpus CHAPERON ROUGE, extrait "Jean-Pierre et Magali ", resp. M.-M. de Gaulmyn 481M le loup s'empresse/de prendre le plus court/ 482 /JP//le loup s'en000s'empresse/ 483Mchemin pour arriver chez la mère-grand avant le p(e)tit chaperon rouge0mais là faut mettre pas pris le bon chemin/euh/ 484JP/répond/le loup Corpus CONVERSATIONS FAMILIERES, extrait "grillage T3 ", resp. V. Traverso Lt` sais j` suis(inaud.)intoxiquée maint`nant (..) Lvoulez rien boire(.)vous partez tout d` suite/[là/ P[ben non faut [qu'on passe chez moi récupérer c` qu'est[(inaud.)d` chez moi A[OUAIS ff[va déménager Conventions Chaperon rouge Conversations familières pause 0, 00, 000 (.), (..) chevauchement/ … /[ montée intonative / élision ( ) `(antiquote) GROUPE ICORhttp://clapi.univ-lyon2.fr
Diversité des conventions de transcription Solutions identification des phénomènes GROUPE ICORhttp://clapi.univ-lyon2.fr
Diversité des conventions de transcription Solutions GROUPE ICORhttp://clapi.univ-lyon2.fr
Diversité des conventions de transcription Solutions identité graphique des phénomènes de l’interaction Quelle que soit la convention, les chevauchements sont indiqués en vert, les pauses en bleu turquoise et les descriptions en bleu gris GROUPE ICORhttp://clapi.univ-lyon2.fr
Granularité différente des transcriptions GROUPE ICORhttp://clapi.univ-lyon2.fr
Granularité différente des transcriptions Solutions implémentation dans la préparation des transcriptions dans la liste des transcriptions GROUPE ICORhttp://clapi.univ-lyon2.fr
Robustesse : une même convention servant à noter deux phénomènes différents => ambiguïté : apostrophe pour l’élision standard ou non ex. j’aime / j’parle => trait d'union notant également la troncation ex. avant-hier / sta- statut => parenthèse : hésitation du transcripteur ou observation/commentaire GROUPE ICORhttp://clapi.univ-lyon2.fr
Robustesse Solutionsapostrophe pour l’élision standard ou non GROUPE ICORhttp://clapi.univ-lyon2.fr
parenthèse : hésitation du transcripteur ou observation Robustesse Solutions GROUPE ICORhttp://clapi.univ-lyon2.fr
Partition et liste • Notation du chevauchement • Alternance de [ et < au cours de la transcription • etc… • Solutions Uniformisation par la médiathèque Cohérence : notations différentes d’un même phénomène dans une même transcription GROUPE ICORhttp://clapi.univ-lyon2.fr
Exhaustivité : notation non systématique de certains phénomènes dans une même transcription Solution Tous les outils qui permettent de faire des requêtes sur les phénomènes précisent s'ils sont notés totalement ou partiellement GROUPE ICORhttp://clapi.univ-lyon2.fr
Orthographe adaptée Comment dans une requête trouver automatiquement p`tit quand on cherche petit , am`ner pour amener, … ? GROUPE ICORhttp://clapi.univ-lyon2.fr
Orthographe adaptée Solutions • Construction d'un outil basé sur les n-grams de caractères pour identifier automatiquement lesvariantes graphiques, avec la collaboration de Ramzi ABBES, post-doctorant TAL Arabe (voyellation) • Données du problème • Les formes élidées ont des tailles inférieures ou égales à celle du mot cible • Le caractère d'élision ` (antiquote) remplace une ou plusieurs lettres du mot cible GROUPE ICORhttp://clapi.univ-lyon2.fr
Orthographe adaptée Solutions • Les n-grams de caractères retrouvent les formes élidées du token en les comparant aux mots existants dans clapi avec une égalité parfaite des n-grams. • Par une approche empirique, on a constaté que : • - les bi-grams permettent de repérer les variantes des mots de moins de huit lettres • - les tri-grams sont adaptés aux mots plus longs • Résultat • ex. attends, ‘tends, ‘ttends / parce que, pa’ce que / bonjour, b’jour • Certaines formes trop éloignées du mot standard seront identifiées dans un glossaire (quelques dizaines de formes maximum) • ex. chais / je sais, vouais / ouais GROUPE ICORhttp://clapi.univ-lyon2.fr
Orthographe adaptée dans CLAPI GROUPE ICORhttp://clapi.univ-lyon2.fr
•changement de locuteur : production verbale attribuée à un locuteurenchaînement des locuteurs, taille pv (tour bref), place dans la pv (début/fin)•formes (tokens)lexique répétition co_occurrences variantes morphologiquesdistance entre les mots groupe de mots•chevauchement chevauchant, chevauché, départ simultané •pause (courte, longue, quantifiée)•timingrepère dans la transcription, alignement du signal•commentaire/observation Phénomènes pris en compte et modélisés à ce jour GROUPE ICORhttp://clapi.univ-lyon2.fr
Procédure d'intégration GROUPE ICORhttp://clapi.univ-lyon2.fr
Préparation par la médiathèque • Identification manuelle des phénomènes • Balisage automatique • Bilan des tokens et des phénomènes • Vérification • Contrôle qualité • Correction de la transcription adaptée • Consignation des modifications dans la convention de transcription • Génération XML de la transcription • Intégration dans CLAPI GROUPE ICORhttp://clapi.univ-lyon2.fr
Exemple de préparation GROUPE ICORhttp://clapi.univ-lyon2.fr
Exemple d'un bilan tokens et phénomènes GROUPE ICORhttp://clapi.univ-lyon2.fr
Exemple de transcription balisée en XML GROUPE ICORhttp://clapi.univ-lyon2.fr
La transcription dans CLAPI GROUPE ICORhttp://clapi.univ-lyon2.fr
Exploitation scientifique dans CLAPI • A VENDREDI… GROUPE ICORhttp://clapi.univ-lyon2.fr