1 / 13

Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12)

Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12). Projet ATO-MCD Une implantation des technologies WEB pour le partage des corpus et des traitements François Daoust, Centre ATO, UQAM http://www.ling.uqam.ca/ato Plan Contexte Traitements (architecture WEB)

shasta
Download Presentation

Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Projet ATO-MCD Une implantation des technologies WEB pour le partage des corpus et des traitements François Daoust, Centre ATO, UQAM http://www.ling.uqam.ca/ato Plan Contexte Traitements (architecture WEB) Corpus (normalisation XML-TEI) Conclusion (le fruit est-il mûr?)

  2. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Contexte : projet universitaire - préoccupation de diffusion et de partage de l'expertise, des méthodes et des logiciels dans un contexte de recherche et d'enseignement ; - utilisation typiques : - Analyse de contenu ou de discours à partir de transcriptions d'entrevues ou de textes publics : le marquage des textes se résume le plus souvent à distinguer les documents et les locuteurs en y adjoignant des informations externes décrivant le profil des intervenants; - Analyse de structures de la langue à partir des corpus. - diversité des approches et des outils; - ressources financières limitées; - exigence de robustesse

  3. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Contexte : rappel historique - période des ordinateurs centraux (librairies de corpus et de ressources, entretien centralisé et accès décentralisé par terminaux telnet); - arrivée des micro-ordinateurs et de DOS (baisse des coûts du «temps calcul» mais augmentation des coûts d'entretien); - pression pour développer des interfaces Windows; - 1996, on décide d'expérimenter l'architecture WEB (interface graphique multi-plateforme+ accès décentralisé à des ressources centralisées); - 2002, on obtient le projet ATO-MCD pour déployer et généraliser cette approche.

  4. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Traitements : fonctionnement de l'architecture WEB

  5. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Traitements : avantages de l'architecture WEB - Séparation de l'interface et du traitement des données; - Familiarité des utilisateurs avec la navigation WEB; - Accessibilité de la programmation des interfaces écrite en HTML (gestion du bureau WEB, contrôle des traitements par formulaires et instructions de traitement dans les gabarits, documentation et tutoriels); - Intégration simple de modules de traitement (par fichiers de commandes et filtres de conversion des formats -- programmes Perl par ex.); - Possibilité de déployer l'architecture sur un PC, un serveur ou un réseau de serveurs. - Inconvénient : moins puissant qu'une interface graphique en mode local.

  6. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Traitements : Exemple des deux poèmes Fichier de soumission du corpus avec entête Alphabet fr Caractère citation \ Caractère propriété * Page 60 lignes 68 caracteres propriété champ symbolique pour texte titre poème signature Titre Deux poèmes célèbres... *page=@rimbaud-le_dormeur_du_val.txt *page=@baudelaire-la_mort_des_amants.txt

  7. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Traitements : Exemple «Le dormeur du val» Fichier «rimbaud-le_dormeur_du_val.txt» minimalement annoté *champ=titre Le dormeur du val *champ=poème C'est un trou de verdure où chante une rivière Accrochant follement aux herbes des haillons D'argent ; où le soleil, de la montagne fière, Luit : c'est un petit val qui mousse de rayons. Un soldat jeune, bouche ouverte, tête nue, Et la nuque baignant dans le frais cresson bleu, Dort ; il est étendu dans l'herbe, sous la nue, Pâle dans son lit vert où la lumière pleut. Les pieds dans les glaïeuls, il dort. Souriant comme Sourirait un enfant malade, il fait un somme : Nature, berce-le chaudement : il a froid. Les parfums ne font pas frissonner sa narine ; Il dort dans le soleil, la main sur sa poitrine Tranquille. Il a deux trous rouges au côté droit. *champ=signature Arthur Rimbaud

  8. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Traitements : illustration de l'interface WEB?

  9. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Corpus : cumuler les annotations Pour profiter pleinement de cette base technologique, il faut convenir de formats d'annotation de corpus enrichis par les couches successives de traitement. XML et le TEI s'imposent... mais il faut expérimenter des solutions légères pour intégrer les résultats de modules de traitement existants. Le projet ATO-MCD en est à cette étape par rapport au logiciel SATO.

  10. Corpus : le modèle d'annotation de SATO SATO est un vieux logiciel qui évolue vers les nouvelles normes. Outil de catégorisation et d'analyse lexicale, il utilise un balisage-propriétaire. Ce n'est pas un logiciel XML. SATO est basé sur un modèle matriciel qui représente le corpus sous la forme d'un plan lexèmes/occurrences augmenté de fonctions de catégorisation, appelées propriétés (pas un modèle de segments en arbre) Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12)

  11. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Corpus : stratégie pour adapter SATO au format TEI - Identifier un sous-ensemble de balises TEI apte à rendre compte du modèle de traitement SATO; - Prototyper le passage du format propriétaire au balisage TEI par des programmes de conversion gérés par la plateforme WEB; - Adapter les formats d'import et export du logiciel pour assurer l'accueil des corpus TEI et le respect des annotations. Les balises non reconnues sont traitées comme des commentaires exportables.

  12. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Corpus : structures de traits pour les propriétés SATO <TEI.2> <teiHeader> ... </teiHeader> <text> <body> <wid="t2"ana="pt2 pl2">Je</w><wid="t3"ana="pt3 pl3">pense</w> ...<fslibid="pt"type="propriétés textuelles"><fsid="pt2"> <fname="Édition"><symbolvalue="maj"/></f> <fname="partie"><symbolvalue="prém"/></f> </fs><fsid="pt3"> <fname="partie"><symbolvalue="prém"/></f> </fs></fslib><fslibid="pl"type="propriétés lexicales"><fsid="pl2"n="je"><fname="Fréqtot"><numeric value="2"/></f> <fname="Gramr"><symbolvalue="Proper"/></f></fs> <fsid="pl3"n="pense"><fname="Fréqtot"><numeric value="1"/></f> <fname="Gramr"><symbolvalue="Vconj"/></f></fs></fslib></body> </text> </TEI.2>

  13. Articuler les traitements sur corpus Projet ATO-MCD (Atala 2005-02-12) Conclusion : Le fruit est-il mûr ? - Les solutions techniques pour articuler les traitements sur corpus existent; - La complexité demeure, mais on peut l'aborder en séparant la chaîne de traitement en couches distinctes reliées par des passerelles facilement adaptables; - Il faut expérimenter sur la base de projets concrets; - Au Canada, en collaboration avec des collègues français, on a obtenu un premier projet «réseau» pour amorcer cette expérimentation : - rassembler un ensemble de corpus tests; - établir une terminologie commune multilingue; - programmer des passerelles pour relier les logiciels des collaborateurs sur la base d'une normalisation XML et TEI. - On espère que le fruit soit mûr!

More Related