Linguistic Markup with XML 言語研究にXMLをどう役立てるか 千葉庄寿 (麗澤大学) 2004-12-11 言語資料のXMLによるマークアップ 研究会の背景 特定領域研究「環太平洋の『消滅に瀕した言語』にかんする緊急調査研 究」~情報処理による調査研究支援班 (1999~2003年度) 基盤研究「音声記号等で表記された言語資料のマークアップとコン ピュータ処理」 (2003~2005年度) Oxford University Computing Services, Humanities Computing Unit 調 査 (2001年7月23日~28日) International Workshop on Resources and Tools in Field Linguistics (2002年5月26日~27日) フィンランド学術コンピュータセンター 調査 (2004年2月11日~25日) ALLC/ACH 2004 (Joint International Conference of the Association for Literary and Linguistic Computing and the Association for Computers and the Humanities, 2004年6月11日~16日) 2004-12-11 言語資料のXMLによるマークアップ ALLC/ACH 2004 での体験 – XMLの人文系分野への応用:オンラインデータベースシ ステム構築,大規模電子化プロジェクト,マルチメディア の活用 – XML を用いる言語研究むけの分析ツールや言語研究に 特化した分析アプローチの報告は TaPoR (Text Analysis Portal for Research, URL: http://www.tapor.ca, Ramsay et. al. 2004) などごく少数 言語研究者にとって,言語研究のために役立つ情 報処理の知識とは? 2004-12-11 言語資料のXMLによるマークアップ 言語をコンピュータで扱う際の前提 「文字」としてのデータ処理 – コンピュータで扱える言語の単位は「文字」 – コード(文字コード)を使って高速な処理を可能にする マルチメディアのもつ意味 – 言語を音声や映像として記録する重要性 – テキストと組み合わせることで,ダイナミックな利用が可 能 言語データの活用には文字化されたデータの存在 が大前提 2004-12-11 言語資料のXMLによるマークアップ キーワード 「テキスト処理」 言語データの電子化に必要な技術的基盤 – 汎用性の確保:どのようなソフトウエアでも処理 可能なテキストデータとしてデータを作成する – ユニコードの利用:さまざまな文字体系のテキス トデータをひとつのコード体系で処理可能にする – データの構造化:標準化された方法で付加情報 をつける (文書メタ情報,音声記述,文法記述等) 情報の付加をテキストで行い,テキストとして 処理する 2004-12-11 言語資料のXMLによるマークアップ 言語資料のマークアップの必要性 マークアップ markup とは? 「情報の付加とその方 法」 複数の研究者が共同で利用する言語資料の構築 さまざまなレベルの情報 – 言語データの構造をどう表現するか – 言語学的なアノテーションをどのように付加するか 「構造化」の要請:複雑な構造の言語資料に含まれ る情報をコンピュータで適切に処理するために必要 な手順 2004-12-11 言語資料のXMLによるマークアップ 付加情報の埋め込みによる弊害の回避 生のコーパスに簡単に戻せるようにすること 付加情報自体を取り出せるようにすること 付加情報の内容や解釈の原則を利用者が閲覧できるように すること 誰がどのように付加したかが分かるようにすること 付加情報は便宜的なものであり,利用者が自己責任で使う ものであること 付加情報はできるだけ偏らず,理論に中立なものにすること 特定の付加情報を絶対的なものとは考えないこと Leech (1993: 275) 2004-12-11 言語資料のXMLによるマークアップ さまざまなマークアップ COCOA形式 (Hockey 1998: 108—111):最も古いデータ構造に関する情 報のマークアップ方式。日本語でも,1990年に『源氏物語』コーパスが COCOA形式で作成され公開されている (近藤2003: 63—64, 66—67)。 Brown Corpusのマークアップ方式:行頭にコーパスのファイル番号と行 番号を固定長データとして置く。原本の情報を忠実に再現。日本語でも いくつかの古典語コーパスが採用 (近藤2003: 65) ICE (International Corpus of English, Meyer 2002: 82—84) の構造タグ: 会話などの間言語的情報の記述方法を規定 KOKINルール (国文学研究資料館, 近藤2003: 67—68):岩波古典文学大 系・旧版の本文コーパスとして本文をそのまま電子化することを目的に 設計 相互変換ができない (Hockey 1998: 108; 近藤 2003: 67—68)。 これらのマークアップを活用して高度な検索処理をおこなうためには,そ のマークアップに対応したソフトウエアを用意する必要あり 2004-12-11 言語資料のXMLによるマークアップ XML (eXtensible Markup Language) 1997年12月 W3C勧告 (1.0) 最新版は1.1 (2004年2月勧告) – 1.0 も引き続き利用できる 文書の交換を目的に1970年前後から開発が進めら れ, 1986年に国際規格 ISO8879 となった SGML (Standard Generalized Markup Language) の改良版 2004-12-11 言語資料のXMLによるマークアップ SGMLからXMLへ SGML の特徴 – テキストへのテキストによるマークアップという形 で情報を記述 – 文書構造をDTD (Document Type Definition) で 定義 SGML の欠点 (村田 1998) – – – – – 2004-12-11 仕様の複雑さ ツールの不足 DTD 作成の難しさ 論理構造の作成の難しさ 既存の電子文書からの変換の難しさ 言語資料のXMLによるマークアップ BNCA9V.sgmの一部 <head type=MAIN><s n=0001 p=Y><w DA>Former <w JJ>Bolivian <w NN1>minister <w II>in <w NP1>US <w NN1>court<c YSTP>. </s></head> <head type=BYLINE><s n=0002 p=Y><w II>By <w NP1>Mark <w NP1>Tran <w II>in <w NP1>Washington </s></head> <p><s n=0003 p=Y><w AT>THE <w NN2>wheels <w IO>of <w NN1>justice <w VVD>began <w VVG>turning <w RT>yesterday <w IF>for <w AT>the <w DA>former <w JJ>Bolivian <w NN1>Interior <w NN1>Minister<c YCOM>, <w NNB>Mr <w NP1>Luis <w NP1>Arce <w NP1>Gomez<c YCOM>, <w CS>when <w PPHS1>he <w VVD>appeared <w II>before <w AT1>a <w NP1>Miami <w NN1>magistrate <w II>following <w APPGE>his <w NN1>arrest <w CC>and <w NN1>deportation <w II>from <w NP1>Bolivia<c YSTP>. </s></p> SGMLでは,文書構造をDTD (Document Type Definition) いう別のファイ ルであらかじめ定義しておく。以下は w タグの定義: <!ELEMENT w - o (#PCDATA) > 2004-12-11 言語資料のXMLによるマークアップ XML の特徴 DTD に頼らない構造化規則 (wellformedness) Unicode への対応 (XML 1.1 で最新の Unicodeにも対応) 処理効率の向上のための仕様の簡素化 – 終了タグの省略の禁止 – 最上位要素の義務的配置など 活発な関連技術開発→XMLの普及 2004-12-11 言語資料のXMLによるマークアップ XMLによるマークアップの主な決まり 情報のまとまりをあらわす要素 element – 開始タグ,終了タグのペアで内容を囲んで表わす。 <title>エクスプレスフィンランド語</title> – 終了タグがないときは,空要素であることを明示する。 <xsl:apply-template /> SGMLでは,省略が可能だった – 要素は入れ子にできるが,交差はできない。 – 最上位の要素はひとつだけ。 要素の付属情報をあらわす属性attribute – – – – 開始タグに記述 順番は問わない 属性の値は引用符で必ず囲む ひとつの要素に同じ名前の属性名を複数つけてはいけない。 文字: < > &, と2種類の引用符は特殊。置き換えて使う。 – < > & ' " 2004-12-11 言語資料のXMLによるマークアップ XML関連技術 関連規格:XMLの検索と加工 – XPath (1999), XPointer (2003), XLink (2001), XSLT (1999), XSL-FO (2001), XML Query (未 勧告), XQuery (未勧告), DOM (1998, 2000) XMLアプリケーション – XML 処理用パーサ:Expat, IBM XML Parser, iPEX, libxml, MSXML, sablotron, Xerces, XP (and SP) – ソフトウエアのXMLサポート:マイクロソフト社 Internet Explorer, Excel, InfoPath等 2004-12-11 言語資料のXMLによるマークアップ XMLの応用例 (1) インターネットを介してのXMLの利用の普 及 – XMLに基づく具体的なデータ形式: ContactXML (住所記述), MathML, RDF(メタ データ), RSS, SMILE (マルチメディア), SVG (グラフィックス), XHTML (XML対応HTML) – ビジネスのデータ交換形式としてのXML – XMLを使ったオンラインシステム: Webサービ ス (UDDI, WSDL, SOAP), ebXML, BizTalk 2004-12-11 言語資料のXMLによるマークアップ XMLの応用例 (2) メタデータの表現形式としてのXML – RDF, RSS (RDF Site Summary) データベース形式としてのXML – 現状の多くのシステムはリレーショナルデータベース を使い,XML形式で(入)出力を処理 – オープンソースのネイティブXMLデータベースアプリ ケーションの登場:Berkeley DB XML (Staken, 2004), Xindice など – XML 用の検索言語 query language の仕様の議論が 続いており,複数の提案がなされている (cf. 大規模 コーパスの検索の問題 Ide, 2000a 2000b; 音声言語 データの検索の問題 Cassidy, 2002) 2004-12-11 言語資料のXMLによるマークアップ XMLの応用例 (3) 言語データの構造化のためのXML – TEI (Text Encoding Initiative, P4 でXMLに対応, P5 で XML向けに規格刷新の予定) – Corpus Encoding Standard for XML (XCES 0.2) XMLを利用した言語データベース – 『日本語話し言葉コーパス』 – フィンランド言語バンク (kielipankki) の検索インター フェース WWW-Lemmie メタデータと言語データのアーカイブ – ISLE Metadata Initiative (IMDI schema 3.0) – E-MELD (Electronic Metastructure for Endangered Languages Data) 2004-12-11 言語資料のXMLによるマークアップ なぜ今XMLか? (1) XMLとその関連技術が普及し,ソフトやツールに実 装されはじめた – 高機能なフリーウエアの出現 – XPath (XML 文書を抽出, Clark et. al, 1999) – 標準規格ゆえ,さまざまな分野で利用され,技術指導が できる専門家を探しやすい XML処理用の特別なソフトなしでも稼動するユー ザー環境が整ってきた。 – Java Virtual Machine や Microsoft .NET Framework 1.0 など,実行環境がインストールされていれば安定して動 作する 2004-12-11 言語資料のXMLによるマークアップ なぜ今XMLか? (2) XMLとその関連技術が普及し,ソフトやツールに 実装されはじめた – XPath (XML 文書を抽出, Clark et. al, 1999) – 標準規格はさまざまな分野で利用され,技術指導が できる専門家を探しやすい XML処理用の特別なソフトなしでも稼動するユー ザー環境が整ってきた。 – 開発環境として Microsoft .NET Framework 1.0 を利 用 (利用言語は C#) – 実行環境がインストールされていれば安定して動作 XML in 10 points 2004-12-11 言語資料のXMLによるマークアップ
© Copyright 2025 ExpyDoc