150 likes | 247 Views
Graphes d'annotation – une introduction. Claude Barras, LIMSI-CNRS figures et exemples de Steven Bird et al ., Linguistic Data Consortium University of Pennsylvania http://www.ldc.upenn.edu/AG. Un exemple d'interface de transcription. Format des données associées.
E N D
Graphes d'annotation – une introduction Claude Barras, LIMSI-CNRS figures et exemples de Steven Birdet al., Linguistic Data Consortium University of Pennsylvania http://www.ldc.upenn.edu/AG
Un exemple d'interface de transcription C. Barras - Graphes d'annotation
Format des données associées <?xml version="1.0" encoding="ISO-8859-1"?> <!DOCTYPE Trans SYSTEM "trans-13.dtd"> <Trans scribe="cb" audio_filename="dormeur" version_date="050208"> <Topics><Topic id="to1" desc="Le Dormeur du val"/></Topics> <Speakers><Speaker id="spk1" name="Serge Reggiani"/></Speakers> <Episode> <Sectiontype="report"topic="to1" startTime="0" endTime="74.0"> <Turn speaker="" startTime="0" endTime="7.41"> <Background type="music" level="high"time="0"/> </Turn> <Turnspeaker="spk1" startTime="7.41" endTime="74.0"> <Sync time="7.41"/> C'est un trou de verdure où chante une rivière <Sync time="10.891"/> Accrochant follement aux herbes des haillons <Sync time="14.714"/> D'argent : où le soleil, de la montagne fière, <Sync time="19.138"/> Luit : c'est un petit val qui mousse de rayons. <Sync time="24.38"/> Un soldat jeune, bouche ouverte, tête nue, <Sync time="29.671"/> … C. Barras - Graphes d'annotation
Nombreux autres environnements… • BAS Partitur • www.phonetik.uni-muenchen.de/Bas/ • CHILDES/CHAT • childes.psy.cmu.edu • DAMSL • www.cs.rochester.edu/research/cisd/resources/damsl/ • GATE • gate.ac.uk • LDC (TIMIT, Switchboard, SGML) • www.ldc.upenn.edu • TEI, CES • www.tei-c.org • www.cs.vassar.edu/CES/ C. Barras - Graphes d'annotation
base dedonnées SGML Résultat, un bazar de formats et d'outils textetabulé C. Barras - Graphes d'annotation
Cadre unificateurpour les annotations linguistiques • Problèmes • interopérabilité • adaptation des données à de nouveaux domaines de recherche • développement d'outils flexibles et génériques • Diagnostic • les différents formats de données masquent des similitudes structurelles dans toutes les annotations linguistiques • A formal framework for linguistic annotation,S. Bird & M. Liberman, ICSLP'98/SpeechCom'01 C. Barras - Graphes d'annotation
Annotation linguistiqueappliquée à des signaux • Il faut préciser • Le signal source annoté • Larégion particulière du signal sur laquelle doit porter l'information • Lecontenu de l'annotation appliquée à cette portion du signal Signal Region Annotation C. Barras - Graphes d'annotation
transcription: C'est un trou de verdure… transcription: Accrochant follement… 0 0.00 1 7.41 2 10.9 3 14.7 15 74.0 speaker:Serge Regianni background: music Le modèle des graphes d'annotation (AG) • Cas des signaux mono-dimensionnels • région = intervalle entre deux nœuds • annotation = arc étiqueté entre deux nœuds • l'arc porte des champs d'information • (couples attributs/valeurs) • graphe d'annotation = une collection d'annotations C. Barras - Graphes d'annotation
W: C' W: est W: un W: trou 1 7.41 1-1 1-2 1-3 2 10.9 Définition des graphes d'annotation • Les nœuds peuvent être ancrés dans le signal • i.e. ils sont associés à un instant précis dans le signal • pour d'autres cette information est inconnue ou inutile • Définition formelle • graphe acyclique orienté, étiqueté,et partiellement ou totalement ancré • tout nœud est borné par le graphe entre des nœuds ancrés • Cadre unificateur • séparation du niveau physique et logique • pas d'hypothèse a priori sur le sens des étiquettes C. Barras - Graphes d'annotation
Architecture à 3 couches Graphes d'annotation textetabulé C. Barras - Graphes d'annotation
Caractéristiques des AG • Pas de contrainte dans la structure des graphes • chevauchements, discontinuités… • Evenements instantanés ? • pas de boucle sur un nœud (graphe acyclique) • possibilité de créer 2 nœuds renvoyant au même instant • Annotations non temporelles • utilisation e.g. des conventions Dublin Core /S 1 2 3 je oui C. Barras - Graphes d'annotation
Le cas d'un dialogue • Il existe des parties de parole superposée • comment associer les transcriptions à un locuteur donnée? • Hiérarchie implicite • structure du graphe • regroupe les arcs portés par les mêmes noeuds • Hiérarchie explicite • classes d'équivalence • utilise un identifiant associé aux arcs spk: Client; A trans: Bonjour Monsieur; A trans: Je voudrais des informations sur …; A 1 2 4 5 3 trans: Bonjour Madame; B spk: Agent; B C. Barras - Graphes d'annotation
AG Interchange Format <AGSet id="dormeur" version="1.0"> <Metadata> <dc:title>Le dormeur du Val</dc:title> </Metadata> <Timeline id="T1"> <Signal id="S1" mimeClass="audio" mimeType="wav" xlink:href="dormeur.wav"/> </Timeline> <AG id="t1" type="transcription" timeline="T1"> <Anchor id="A0" offset="0.00"/> <Anchor id="A1" offset="7.41"/> <Anchor id="A2" offset="10.89"/> <Anchor id="A3" offset="14.71"/> … <Annotation id="Ann1" type="speaker" start="A1" end="A15"> <Feature name="label">Serge Reggiani</Feature> </Annotation> <Annotation id="Ann2" type="transcription" start="A1" end="A2"> <Feature name="label">C'est un trou de verdure où chante une rivière</Feature> </Annotation> <Annotation id="Ann3" type=" transcription" start="A2" end="A3"> <Feature name="label">Accrochant follement aux herbes des haillons</Feature> </Annotation> … C. Barras - Graphes d'annotation
code open source sur http://agtk.sourceforge.net/ code en C++, interface avec Tcl/Tk et Python plateformes Unix et Windows support de différents formats de données (xlabel, TIMIT, Penn Treebank, Switchboard, BAS Partitur, CSV, LDC Callhome, AIF level 0) Implémentation par le LDC C. Barras - Graphes d'annotation
Perspectives et bilan • Extensions • généralisation à des sources non-linéaires (images, annotations): ATLAS proposé avec le NIST • traitement efficace de requêtes dans un graphe d'annotation • Bilan sur les graphes d'annotation • un cadre formel, simple et clair • des librairies logicielles, pas nécessairement un format de données spécifique • permet de factoriser l'effort sur la structure de données • la signification des annotations reste à la charge de l'application C. Barras - Graphes d'annotation