1 / 45

T ext E ncoding I nitiative

T ext E ncoding I nitiative. Mats Dahlström | Digitalisering av text | April 2005. TEI: bakgrund. Behov av uniformt system för textkodning och utbyte inom humaniora Till 80-talet användes proprietära representationssystem Behov av: Återanvändbarhet Interoperabilitet

kayo
Download Presentation

T ext E ncoding I nitiative

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Text Encoding Initiative Mats Dahlström | Digitalisering av text | April 2005

  2. TEI: bakgrund • Behov av uniformt system för textkodning och utbyte inom humaniora • Till 80-talet användes proprietära representationssystem • Behov av: • Återanvändbarhet • Interoperabilitet • Plattforms, hård- och mjukvaruoberoende • Portabilitet • Kollaborationsmöjligheter • Ett verktyg för flera discipliner / vetenskaper inom humaniora • TEI-konsortiet <http://www.tei-c.org>

  3. TEI: utveckling • 1986: SGML / ISO • 1987: Vassar College, Poughkeepsie principles • 1990: P1 (SGML) • 1992: P2 • 1994: P3 : 600 + elements • 1995: TeiLite : 121 elements • 1999: P3rev • 2000: TEI Consortium • 2001: P4 : XML • 2001: TeixLite : XML • 2005: P5 : XML. XML Schema.

  4. Hur används TEI? • För kodning av: • texter på olika språk, av olika ålder och epoker, i olika litterära och bibliografiska genrer (texttyper) • såväl “continuous material” som “discontinuous material” (t.ex. lexika och korpora)

  5. Varför så omfattande? • TEI uppbyggt kring riktlinjer, regler och rekommendationer istället för standard eftersom • Textkodning innebär representation och tolkning • Frihet för forskaren att uttrycka sin teori om texten genom att göra olika val • Riktlinjerna att betrakta som referensmanual

  6. Vad innehåller TEI? • Inte en enda given DTD, utan en mängd DTD-fragment (tag sets), som kan kombineras • Vissa nödvändiga (required), andra grundläggande (basic) och vissa valfria (optional)

  7. Sugen på pizza? • Core tag sets • Base tag sets • Additional tag sets http://www.tei-c.org/pizza.html

  8. Core tag set • Nödvändigt • Innefattar bl.a. <teiHeader> (kapitel 5 i ”Guidelines”) • Jämförbart med titelsidan i tryckt bok • Gemensamma element för alla TEI-dokument (kapitel 6)

  9. Base tag sets • Prose • Verse • Drama • Speech • Dictionaries • Terminology • General base • Mixed base

  10. Additional tag sets • Urvalsförfarande och ej nödvändiga • Länkar • Figurer • Analyselement (mycket enkla) • Textkritiska möjligheter (apparat) • Namn och datum

  11. Prologen • XML-deklaration <?xml version=”1.0” encoding=”ISO-8859-1” standalone=”no”?> • Dokumenttypsdeklaration <DOCTYPE TEI.2 PUBLIC ”-//TEI P4//DTD Main Document Type//EN” http://www.adm.hb.se/personal/mg/dig/XMLLab/masterx.dtd>

  12. <TEI.2> <teiHeader> [Metadata] </teiHeader> <text> <front> [Preliminärer, t.ex. titelsidans text och förord] </front> <body> [Huvudtexten] </body> <back> [Subsidiärer, t.ex. appendix, epilog och liknande] </back> </text> </TEI.2>

  13. I ett TEI-dokument ingår alltid [rotelementet] exv. <tei.2> teiHeader text body Dessa kan inte innehålla text (PCDATA)

  14. TEI Lite • Den mest populära DTD:n är TEI Lite • 121 fasta element • Med bara 20 % av elementen täcks 90 % av TEI-användarnas behov i 90 % av fallen • 80 % av projekten • TeixLite: den XML-kompatibla versionen • http://www.tei-c.org/Lite/

  15. TEI Lite – prolog, t.ex.: <?xml version="1.0"?> <!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML ver. 1//EN" "teixlite.dtd">

  16. med rotelement, header och text <?xml version="1.0"?> <!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML ver. 1//EN" "teixlite.dtd"> <TEI.2> <teiHeader>...<teiHeader> <text>...<text> <TEI.2>

  17. <teiHeader> • ... tar vi upp i morgon • vill du förbereda dig, läs litteraturen om detta och titta på övningsmaterialet

  18. <text> <text> <front>...</front> <body>...</body> <back>...</back> </text>

  19. <group> <group> <text>...</text> <text>...</text> <text>...</text> </group> <text> innehåller ingen ‘text’, utan andra element

  20. teiCorpus.2 tei.2 TEI.2 tei.2 teiHeader text teiHeader front back group body div text front back body div div TEI:s textstruktur er

  21. <front> • “Preliminärer” ss titelsidor, förordstexter osv – dvs den explicita informationen i förlagan <front> <titlePage> <docTitle> <titlePart type="main"> ... </titlePart> <docAuthor>...</docAuthor> <docDate>...</docDate> <docEdition>...</docEdition> <docImprint>...</docImprint> <epigraph>...</epigraph> </docTitle> </titlePage> </front>

  22. sektionsindelning av text:<div> <text> <front> <!-- titlepage etc here --> </front> <body> <head>Bok 1</head> <div type="chapter" n="1" id="b0101"> <head>Kapitel 1</head> <!– resten av kapitel 1 --> </div> <div type="chapter" n="2" id="b0102"> <head>Kapitel 2</head> <!-- resten av kapitel 2 --> </div> </body> </text>

  23. sektionsindelning av text:<div> <text> <front> <!-- titlepage etc here --> </front> <body> <div1 type="book" n="1" id="b0100"> <head>Bok 1</head> <div2 type="chapter" n="1" id="b0101"> <head>Kapitel 1</head> <!– resten av kapitel 1 --> </div2> <div2 type="chapter" n="2" id="b0102"> <head>Kapitel 2</head> <!-- resten av kapitel 2 --> </div2> </div1> </body> </text>

  24. under <div> • Prose: stycken (<p>) • Verse: rader (<l>), ibland ytterligare indelade hierarkiskt (<lg>) • Drama: repliker (<sp>) som innehåller t.ex. <p>, <l> och <stage>

  25. prosaexempel: <p> • <p> Skulle vi ha valt HTML som märkspråk för textkodningen hade du visserligen fått en snabbare och mer direkt väg från uppmärkning till publicering. Men den hade också varit mindre ut- och påbyggbar. </p>

  26. poesiexempel 1 Summer grass — all that's left of warriors' dreams.

  27. poesiexempel 1 <lg type='haiku'> <l>Summer grass &mdash;</l> <l>all that's left</l> <l>of warriors' dreams.</l> </lg>

  28. poesiexempel 2 This Be The Verse They fuck you up, your mum and dad. They may not mean to, but they do. They fill you with the faults they had And add some extra, just for you.

  29. poesiexempel 2 <lg type="poem"> <head>This Be The Verse</title> <lg type="stanza"> <l>They fuck you up, your mum and dad.</l> <l>They may not mean to, but they do.</l> <l>They fill you with the faults they had</l> <l>And add some extra, just for you.</l> </lg> <!– ytterligare strofer --> </lg>

  30. “Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says: -I wish to the Lord, Mr. Wilson, that I was a red-headed man” Anförande

  31. <q who='Wilson'>Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says:&mdash;<q who='Spaulding'>I wish to the Lord, Mr. Wilson, that I was a red-headed man.</q></q> Anförande • Använd attributet who för att ange vem som talar • Anföranden kan nästas i andra anföranden ... • .. men inte över styckegränser (överlappning!)

  32. My dear Mr. Bennet,said his ladyto him one day, have you heard that Netherfield Parkis let at last? Namn och andra refereringar • Elementet<rs> (referring string) kan användas för namn eller referens

  33. <q>My dear <rs type='person' key='BENM1'>Mr. Bennet</rs>,</q> said <rs type='person' key='BENM2'> his lady</rs> to him one day,<q>have you heard that <rs type='place' key='NETP1'> Netherfield Park</rs> is let at last?</q> Namn och andra refereringar • Elementet<rs> (referring string) kan användas för namn eller referens

  34. Både <name> och <rs> Mr. Joseph Andrews, the hero of our ensuing history, was esteemed to be ...

  35. Både <name> och <rs> <p><name>Mr. Joseph Andrews</name>, <rs>the hero of our ensuing history</rs>, was esteemed to be ...

  36. sid- och radbrytningar And bathed every veyne in swich licour Of which vertu engendred is the flour; ------------------------ s. 23 Whan Zephirus eek with his sweete breeth

  37. sid- och radbrytningar • <pb /> : sidbrytning • <lb /> : radbrytning And bathed every veyne in swich licour<lb /> Of which vertu engendred is the flour;<lb /> <pb ed="riverside" n="23" /> Whan Zephirus eek with his sweete breeth<lb />

  38. Today is <date>Tuesday 29th</date>. Today is <date value='1994-11-29'>Tuesday 29th </date>. One afternoon in <date certainty='approx' value='1994-11'>late November.</date>. One afternoon in <dateRange from='1994-11-15' to='1994-11-30 exact='to'> late November.</dateRange>. <date> • attribut kan precisera <date> och <dateRange> • dito med <time>, <timeRange> och <num>

  39. (Å): Peer, du lyver! (P): Nei, jeg gjør ei! (Å): Nå, så bann på det er sant! (P): Hvorfor banne? (Å): Tvi, du tør ei! Alt i hop er tøv og tant!

  40. Överlappande hierarkier • Välformad XML • Men dokument är komplexa saker och flera parallella hierarkier kan identifieras, t.ex. • kapitel/ sektion / stycke / fras • ark / blad / sida / kolumn • Repliker och versrader

  41. Bilder och grafik <figure> <head> <figDesc> <!ENTITY fezziPic SYSTEM “fezzi.tff NDATA tiff>

  42. <figure entity="fezziPic"> <head>Mr Fezziwig's Ball</head> <figdesc>A Cruikshank engraving showing Mr Fezziwig leading a group of revellers. </figdesc></figure> till exempel...

  43. Globala attribut • Kan tilldelas alla element • id för unik identifikation • n för (icke-unikt) namn eller nummer • rend för återgivning • lang för språk

  44. acknowledgements • Thanks to the following for ideas, slides & texts: • Mikael Gunnarsson • Veronica Johansson • Edward Vanhoutte • Lou Burnard

More Related