TEIの概要 イースト株式会社 コミュニケーション事業部 渋谷 誠 [email protected] 1 TEIとは Text Encoding Initiative 電子テキスト作成・交換の ガイドライン作成プロジェクト • SGMLのDTD を提供 • いくつかの学術団体がスポンサー 学術文献から一般文学まで対象 http://www.uic.edu:80/orgs/tei/ 2 歴史 1988年:3団体により設立 • the Association for Computers and the Humanities (ACH) • the Association for Computational Linguistics (ACL) • the Association for Literary and Linguistic Computing (ALLC) 1990年6月: 1992-93年: 1994年5月: TEI P1 ドラフトを公開 TEI P2 ドラフトを順次公開 P3を公式Guidelineとして公開 3 仕様はWebで公開 仕様=ガイドライン文書 単一の文書定義ではない • http://www.uic.edu/orgs/tei/p3/ 4 基本アーキテクチャ ひとつのDTDを定義するのではない Chicagoピザ方式 • 基本タグセット(ピザ生地)からひとつを選ぶ – Prose, Verse, Drama, Speech, Dictionary, Terminology – General base, Mixed base • 必要なオプションタグセット(トッピング)を追加 – Linking, Analysys, fs, certainty, transcr – names.dates, nets, figures, corpora • カスタムDTDが完成 カスタムDTD自動生成サイト • http://www.oucs.ox.ac.uk/humanities/TEI/pizza.htm 5 TEI-Lite TEIガイドラインに準拠した文書定義 すぐに使えるDTD 汎用的な文書を想定 実際にはこれが広く使われている http://www.uic.edu/orgs/tei/p3/ 6 XMLへの対応 XMLへの対応は表明されている 非公式のものならば既に存在する • http://www.loria.fr/~bonhomme/xml.html 7 TEI-Liteでの文書構造の定義 8 全体構造 TEI.2 teiHeader text front back group body + * group * text 9 TEI文書の構成例 TEI.2 teiHeader text front body back TEI.2 teiHeader text front group text text text text text back 10 body body * head div component * + + div div0 + div1 trailer div component 11 div<n> div<n> * + n = 1,2,3,4,5,6,7 * div<n+1> head trailer div component div component 12 div div * + * div head trailer div component div component 13 type属性による階層表現 <div type='part' n='1'> <div type='chapter' n='1'> <!-- text of part 1, chapter </div> <div n='2'> <!-- text of part 1, chapter </div> </div> <div type='part' n='2'> <div n='1' type='chapter'> <!-- text of part 2, chapter </div> <div n='2'> <!-- text of part 2, chapter </div> </div> 1 --> 2--> 1 --> 2 --> 14 本文内容の要素(1) ページ・ラインブレーク • note参照 • ref, ptr • xref, xptr • pb, lb 強調・ハイライト • hi, emph • foreign, term, title 引用 • q, mentioned, • soCalled, gloss 注 編集・校正 • corr, sic, orig, reg • add, gap, del, unclear 15 本文内容の要素(2) 名前・日付 • rs, name, date, time, • num, abbr, address • teble, row, cell 書誌 – head, figDesc 翻訳 • interp, interpGrp • bibl – author, biblscope, date – editor, imprint, publisher – pubPlace, series, title 図 • figure リスト • list, item, label 表 技術用語 • eg, code, ident, gi • kw, formula 16 まとめ 学術ベースで開発 SGMLの模範的応用例のひとつ DTDは比較的単純だが膨大 カスタマイズが前提 • Chicagoピザモデル 一般書も幅広く考慮されている 学会などでの利用例が多い 17
© Copyright 2024 ExpyDoc