340 likes | 415 Views
Catherine Cyrot. Introduction à la TEI. Comment va-t-on s'y prendre pour arriver à ce résultat ? En structurant les documents produits, c'est à dire en donnant du sens à l'information contenue dans ce document, quelle que soit sa destination finale.
E N D
Catherine Cyrot Introduction à la TEI - la TEI -
Comment va-t-on s'y prendre pour arriver à ce résultat ? En structurant les documents produits, c'est à dire en donnant du sens à l'information contenue dans ce document, quelle que soit sa destination finale. Il va falloir définir des régles de production, de structuration de l'information, mais aussi des règles qui garantissent l'accès, au document, sa stabilité, sa pérennité. Il va falloir ensuite respecter ces régles qui sont des normes. En résumé : XML, Unicode, OAI..... - la TEI -
http://www.tei-c.org/ - la TEI -
Principes de la TEI • être simple, clair et concret, • être facile à utiliser sans logiciel particulier, • être rigoureusement défini, • permettre un traitement efficace, • être ouvert à des extensions définies par les utilisateurs, • être compatible avec les standards existants ou en développement. - la TEI -
Ce balisage s'organise selon deux types d'éléments : • Le noyau : ce sont des balises et des éléments communs à toutes disciplines. Par exemple, la structure en division et paragraphes, la description documentaire du contenu, etc.. . • Les balises et éléments propres à des disciplines : ils permettent de travailler sur le théâtre, la poésie, les dictionnaires, l'histoire... • Ainsi, tout texte conforme à la TEI comporte : • Un en tête qui reprend les caractéristiques formelles des documents : équivalent de la notice catalographique • Une DTD avec les identificateurs de base des grandes catégorises de documents littéraires : prose, poésie, théâtre, … - la TEI -
La structure de la TEI • L'en-tête TEI contient des informations analogues à celles que l'on trouve sur la page de titre d'un texte imprimé. Il contient jusqu'à quatre parties : • => Une description bibliographique du texte électronique; • => Une description de la manière dont il a été codé; • => Une description non bibliographique du texte (le « profil » du texte); • Un historique de révision. • Par exemple : pour un document unitaire • <TEI.2> <teiHeader> [ informations contenues dans l'en-tête TEI ] </teiHeader>, • <text> • <front>[ textes préliminaires... ] </front>, • <body>[ corps du texte... ] </body> • <back> [annexes... ] </back> • </text> • </TEI.2> - la TEI -
La structure de la TEI le corps du document 1Le corps d'un texte en prose peut avoir la forme d'une simple suite de paragraphes; Exemple sur le texte de Victor Hugo : <div1 id=NDP6 n='VI' type='livre'> <div2 id=NDP61 n='1' type='chapitre'> <head>Coup d'oeil impartial sur l'ancienne magistrature</head> <p>C'était un fort heureux personnage... 2Coupures de lignes et de pages <pb> marque la limite entre une page d'un texte et la suivante, dans un système de référence normalisé; <lb> marque le début d'une nouvelle ligne (typographique) dans une édition ou version donnée d'un texte. - la TEI -
La structure de la TEI le corps du document 3 Marquage d'expressions mises en valeur Changements des styles de caractères ou alternances typographiques Exemple <hi rend=gothic>And this Inventure further witnesseth</hi>that the said <hi rend=italic>Walter Shandy</hi>, merchant,in consideration of the said intended marriage ... Citations et éléments associés Exemple Few dictionary makers are likely to forgetDr. Johnson's description of the lexicographer as <q>a harmless drudge.</q> Expressions ou mots étrangers Exemple John has real <foreign lang=fra>savoir-faire</foreign>.Have you read <title lang=deu>Die Dreigroschenoper</title>?<mentioned lang=fra>Savoir-faire</mentioned> is French for know-how.The court issued a writ of <term lang=lat>mandamus</term>.Savoir-faire se dit <mentioned lang=eng>know-how</mentioned> en anglais! - la TEI -
La structure de la TEI le corps du document 4Notes Par exemple Collections are ensembles of distinctentities or objects of any sort.<note place=foot n=1>We explain below why we use the uncommon term<mentioned>collection</mentioned>instead of the expected<mentioned>set</mentioned>.Our usage corresponds to the <mentioned>aggregate</mentioned>of many mathematical writings and to the sense of<mentioned>class</mentioned> foundin older logical writings.</note>The elements ...<p><note place=margin>Voir le second exemple</note>Si nécessaire, l'attribut ...devrait indiquer leur type.</p> - la TEI -
La structure de la TEI le corps du document 5 Références croisées et liens Exemple : Si je reviens sur <ref target=ABCD>le passage sur lequel je me suis endormi</ref>, je note que <ref target=EFGH>trois mots</ref> ont été entourés de rouge par un précédant lecteur. Pointeurs étendus <xptr> définit un pointeur vers un autre emplacement dans le document courant ou dans un document externe; <xref> définit un pointeur vers un autre emplacement dans le document courant ou dans un document externe, modifié éventuellement par un commentaire ou un texte supplémentaire. Attributs de liaison - la TEI -
La structure de la TEI le corps du document 6 Interventions éditoriales Le codage d'un texte électronique a beaucoup de points communs avec l'édition d'un manuscrit ou d'un texte destiné à être imprimé. Dans les deux cas, un éditeur consciencieux peut vouloir enregistrer l'état originel de la source ainsi que toutes les corrections éditoriales ou les modifications qui y ont été apportées. Les éléments présentés dans cette section et la suivante fournissent quelques ressources permettant de répondre à ces besoins - la TEI -
La structure de la TEI le corps du document 7 Omissions, effacements et ajouts Outre la correction ou la normalisation des mots et des expressions, les rédacteurs et les transcripteurs peuvent aussi ajouter du texte dans des passages lacunaires, ôter du texte, ou encore transcrire du texte effacé ou biffé dans l'original. En outre, un texte donné peut être particulièrement difficile à transcrire car difficile à déchiffrer dans la page. Les éléments suivants peuvent être employés pour enregistrer de tels phénomènes : 8 Noms, dates, chiffres et abréviations - la TEI -
La structure de la TEI le corps du document 9 Listes Exemple <list><head>Une petite liste:</head><item n=1>premier élément de la liste;</item><item n=2>second élément;</item><item n=3>dernier élément.</item></list> - la TEI -
La structure de la TEI le corps du document 10 Citations bibliographiques <bibl> contient une citation bibliographique structurée de façon lâche, dans laquelle les sous-éléments peuvent ou non être balisés explicitement. Par exemple, l'annotation éditoriale suivante He was a member of Parliament for Warwickshire in 1445, and died March 14, 1470 (according to Kittredge, Harvard Studies 5. 88ff). Pourraitêtretranscritecomme suit : He was a member of Parliament for Warwickshire in 1445, and died March 14, 1470 (according to <bibl><author>Kittredge</author>, <title>Harvard Studies</title> <biblScope>5. 88ff</biblScope></bibl>). - la TEI -
La structure de la TEI le corps du document 11 Tables <table> contient le texte affiché sous forme tabulaire, en lignes et en colonnes; <row> contient une ligne d'une table; parmi les attributs possibles, citons : <cell> contient une cellule de table; parmi les attributs possibles, citons : 12 Figures et graphiques <figure> marque l'endroit où un graphique doit être inséré dans un document; parmi les attributs possibles, citons : entity nom d'une entité système prédéfinie contenant une version numérisée du graphique à insérer; <figDesc> contient une description textuelle de l'aspect ou du contenu d'un graphique, lorsqu'une image est documentée sans être visualisée. - la TEI -
La structure de la TEI le corps du document 13 Interprétation et analyse Typiquement, l'interprétation porte sur l'ensemble d'un texte, sans prendre particulièrement en compte les autres unités structurales. 14 Documentation technique un nombre limité d'éléments supplémentaires sont inclus dans la TEI Lite en tant qu'extensions du DTD principal de la TEI; ils serviront à marquer les caractéristiques particulières de documents techniques 15 Jeux de caractères, signes diacritiques, etc. 16 Pièces liminaires et annexes - la TEI -
Un exemple d’utilisation de la TEI CYBERTHESE http://www.cybertheses.org/ - la TEI -
La notice biblio Cerist - Alger - 04 février 2004 J-P Ducasse - la TEI -
Integral et sommaire - la TEI -
De Cyberthèses à Cyberdocs : les principes politiques et techniques En 2003-2004, la plateforme Cyberthèses a subi de profonds changements • Elle est complètement « open source » • Elle repose sur la norme XML • Elle fonctionne en mode dynamique • Il est possible de traiter non seulement les thèses, mais tout type de document Un projet qui repose sur une approche structurée du document et l’utilisation de SGML et de la DTD TEILite. Extrait d’une présentation réalisée à l’ENSSIB par Jean Paul Ducasse - la TEI -
Cyberdocs, maintenant c’est : Une plate forme de publication électronique de documents structurés avec : • Un module de conversion du traitement de texte vers un document TEILite XML • Un module de gestion pour diriger la conversion via une interface Web • Une application Web dynamique pour la publication des documents : SDX L’ensemble est sous licence GPL Extrait d’une présentation réalisée à l’ENSSIB par Jean Paul Ducasse - la TEI -
Le Module de conversion Extrait d’une présentation réalisée à l’ENSSIB par Jean Paul Ducasse - la TEI -
La conversion et le résultat Extrait d’une présentation réalisée à l’ENSSIB par Jean Paul Ducasse Cerist - Alger - 04 février 2004 J-P Ducasse - la TEI -
Le module de publication • Infrastructure sous jacente : SDX et XML, moteur de recherche et pivot de publication et Cocoon, une infrastructure basée sur XML pour construire des applications dynamiques • La recherche peut se faire sur les métadonnées, en plein texte ou dans des zones spécifiques ( titre, légende ou figures). Liste des documents présentée par institution, sujets. Table interactive des matières, liste des tableaux, liste des figures, termes recherchés en surbrillance, recherche à l’intérieur du document. • Réservoir OAI-PMH: support OAI-PMH est bâti dans la plate forme SDX • Les métadonnées envoyées sont au format Dublin Core (obligatoirement), ETDMS Extrait d’une présentation réalisée à l’ENSSIB par Jean Paul Ducasse - la TEI -
http://www.atilf.fr/ - la TEI -
Une application de la TEI aux industries de la langue : le "Corpus Encoding Standard" Le CES fournit un ensemble de balises et des DTD qui sont spécifiques au codage des corpus de textes pour les besoins de l'ingénierie linguistique, ainsi qu'un ensemble détaillé de recommandations pour l'usage des balises, et leur sémantique précise dans le contexte des corpus. http://www.up.univ-mrs.fr/veronis/pdf/1996gut-corpus.pdf - la TEI -
Pour en savoir plus Un n° spécial des cahiers Gutemberg http://www.gutenberg.eu.org/ - la TEI -