170 likes | 299 Views
TEI の概要. イースト株式会社 コミュニケーション事業部 渋谷 誠 mshibuya@est.co.jp. TEI とは. Text Encoding Initiative 電子テキスト作成・交換の ガイドライン作成プロジェクト SGML の DTD を提供 いくつかの学術団体がスポンサー 学術文献から一般文学まで対象 http://www.uic.edu:80/orgs/tei/. 歴史. 1988年:3団体により設立 the Association for Computers and the Humanities (ACH)
E N D
TEIの概要 イースト株式会社 コミュニケーション事業部 渋谷 誠 mshibuya@est.co.jp
TEIとは • Text Encoding Initiative • 電子テキスト作成・交換のガイドライン作成プロジェクト • SGMLのDTD を提供 • いくつかの学術団体がスポンサー • 学術文献から一般文学まで対象 • http://www.uic.edu:80/orgs/tei/
歴史 • 1988年:3団体により設立 • the Association for Computers and the Humanities (ACH) • the Association for Computational Linguistics (ACL) • the Association for Literary and Linguistic Computing (ALLC) • 1990年6月: TEI P1 ドラフトを公開 • 1992-93年: TEI P2 ドラフトを順次公開 • 1994年5月: P3を公式Guidelineとして公開
仕様はWebで公開 • 仕様=ガイドライン文書 • 単一の文書定義ではない • http://www.uic.edu/orgs/tei/p3/
基本アーキテクチャ • ひとつのDTDを定義するのではない • Chicagoピザ方式 • 基本タグセット(ピザ生地)からひとつを選ぶ • Prose, Verse, Drama, Speech, Dictionary, Terminology • General base, Mixed base • 必要なオプションタグセット(トッピング)を追加 • Linking, Analysys, fs, certainty, transcr • names.dates, nets, figures, corpora • カスタムDTDが完成 • カスタムDTD自動生成サイト • http://www.oucs.ox.ac.uk/humanities/TEI/pizza.htm
TEI-Lite • TEIガイドラインに準拠した文書定義 • すぐに使えるDTD • 汎用的な文書を想定 • 実際にはこれが広く使われている • http://www.uic.edu/orgs/tei/p3/
XMLへの対応 • XMLへの対応は表明されている • 非公式のものならば既に存在する • http://www.loria.fr/~bonhomme/xml.html
全体構造 TEI.2 teiHeader text front back group body + * * group text
TEI文書の構成例 TEI.2 teiHeader text front body back TEI.2 teiHeader text front group text text text text text back
body body * * div component div component trailer head + + + div div0 div1
div<n> div<n> n = 1,2,3,4,5,6,7 * + * div component div<n+1> div component trailer head
div div * + * div component div div component trailer head
type属性による階層表現 <div type='part' n='1'> <div type='chapter' n='1'> <!-- text of part 1, chapter 1 --> </div> <div n='2'> <!-- text of part 1, chapter 2--> </div> </div> <div type='part' n='2'> <div n='1' type='chapter'> <!-- text of part 2, chapter 1 --> </div> <div n='2'> <!-- text of part 2, chapter 2 --> </div> </div>
ページ・ラインブレーク pb, lb 強調・ハイライト hi, emph foreign, term, title 引用 q, mentioned, soCalled, gloss 注 note参照 ref, ptr xref, xptr 編集・校正 corr, sic, orig, reg add, gap, del, unclear 本文内容の要素(1)
名前・日付 rs, name, date, time, num, abbr, address リスト list, item, label 書誌 bibl author, biblscope, date editor, imprint, publisher pubPlace, series, title 表 teble, row, cell 図 figure head, figDesc 翻訳 interp, interpGrp 技術用語 eg, code, ident, gi kw, formula 本文内容の要素(2)
まとめ • 学術ベースで開発 • SGMLの模範的応用例のひとつ • DTDは比較的単純だが膨大 • カスタマイズが前提 • Chicagoピザモデル • 一般書も幅広く考慮されている • 学会などでの利用例が多い