言語研究にXMLをどう役立てるか

Linguistic Markup with XML
言語研究にXMLをどう役立てるか
千葉庄寿 (麗澤大学)
2004-12-11
言語資料のXMLによるマークアップ
研究会の背景






特定領域研究「環太平洋の『消滅に瀕した言語』にかんする緊急調査研
究」~情報処理による調査研究支援班 (1999~2003年度)
基盤研究「音声記号等で表記された言語資料のマークアップとコン
ピュータ処理」 (2003~2005年度)
Oxford University Computing Services, Humanities Computing Unit 調
査 (2001年7月23日~28日)
International Workshop on Resources and Tools in Field Linguistics
(2002年5月26日~27日)
フィンランド学術コンピュータセンター 調査 (2004年2月11日~25日)
ALLC/ACH 2004 (Joint International Conference of the Association for
Literary and Linguistic Computing and the Association for Computers
and the Humanities, 2004年6月11日~16日)
2004-12-11
言語資料のXMLによるマークアップ


ALLC/ACH 2004 での体験
– XMLの人文系分野への応用:オンラインデータベースシ
ステム構築,大規模電子化プロジェクト,マルチメディア
の活用
– XML を用いる言語研究むけの分析ツールや言語研究に
特化した分析アプローチの報告は TaPoR (Text Analysis
Portal for Research, URL: http://www.tapor.ca, Ramsay
et. al. 2004) などごく少数
言語研究者にとって,言語研究のために役立つ情
報処理の知識とは?
2004-12-11
言語資料のXMLによるマークアップ
言語をコンピュータで扱う際の前提

「文字」としてのデータ処理
– コンピュータで扱える言語の単位は「文字」
– コード(文字コード)を使って高速な処理を可能にする

マルチメディアのもつ意味
– 言語を音声や映像として記録する重要性
– テキストと組み合わせることで,ダイナミックな利用が可
能

言語データの活用には文字化されたデータの存在
が大前提
2004-12-11
言語資料のXMLによるマークアップ
キーワード 「テキスト処理」

言語データの電子化に必要な技術的基盤
– 汎用性の確保:どのようなソフトウエアでも処理
可能なテキストデータとしてデータを作成する
– ユニコードの利用:さまざまな文字体系のテキス
トデータをひとつのコード体系で処理可能にする
– データの構造化:標準化された方法で付加情報
をつける (文書メタ情報,音声記述,文法記述等)

情報の付加をテキストで行い,テキストとして
処理する
2004-12-11
言語資料のXMLによるマークアップ
言語資料のマークアップの必要性



マークアップ markup とは? 「情報の付加とその方
法」
複数の研究者が共同で利用する言語資料の構築
さまざまなレベルの情報
– 言語データの構造をどう表現するか
– 言語学的なアノテーションをどのように付加するか

「構造化」の要請:複雑な構造の言語資料に含まれ
る情報をコンピュータで適切に処理するために必要
な手順
2004-12-11
言語資料のXMLによるマークアップ
付加情報の埋め込みによる弊害の回避







生のコーパスに簡単に戻せるようにすること
付加情報自体を取り出せるようにすること
付加情報の内容や解釈の原則を利用者が閲覧できるように
すること
誰がどのように付加したかが分かるようにすること
付加情報は便宜的なものであり,利用者が自己責任で使う
ものであること
付加情報はできるだけ偏らず,理論に中立なものにすること
特定の付加情報を絶対的なものとは考えないこと
Leech (1993: 275)
2004-12-11
言語資料のXMLによるマークアップ
さまざまなマークアップ






COCOA形式 (Hockey 1998: 108—111):最も古いデータ構造に関する情
報のマークアップ方式。日本語でも,1990年に『源氏物語』コーパスが
COCOA形式で作成され公開されている (近藤2003: 63—64, 66—67)。
Brown Corpusのマークアップ方式:行頭にコーパスのファイル番号と行
番号を固定長データとして置く。原本の情報を忠実に再現。日本語でも
いくつかの古典語コーパスが採用 (近藤2003: 65)
ICE (International Corpus of English, Meyer 2002: 82—84) の構造タグ:
会話などの間言語的情報の記述方法を規定
KOKINルール (国文学研究資料館, 近藤2003: 67—68):岩波古典文学大
系・旧版の本文コーパスとして本文をそのまま電子化することを目的に
設計
相互変換ができない (Hockey 1998: 108; 近藤 2003: 67—68)。
これらのマークアップを活用して高度な検索処理をおこなうためには,そ
のマークアップに対応したソフトウエアを用意する必要あり
2004-12-11
言語資料のXMLによるマークアップ
XML (eXtensible Markup Language)


1997年12月 W3C勧告 (1.0)
最新版は1.1 (2004年2月勧告)
– 1.0 も引き続き利用できる

文書の交換を目的に1970年前後から開発が進めら
れ, 1986年に国際規格 ISO8879 となった SGML
(Standard Generalized Markup Language) の改良版
2004-12-11
言語資料のXMLによるマークアップ
SGMLからXMLへ

SGML の特徴
– テキストへのテキストによるマークアップという形
で情報を記述
– 文書構造をDTD (Document Type Definition) で
定義

SGML の欠点 (村田 1998)
–
–
–
–
–
2004-12-11
仕様の複雑さ
ツールの不足
DTD 作成の難しさ
論理構造の作成の難しさ
既存の電子文書からの変換の難しさ
言語資料のXMLによるマークアップ
BNCA9V.sgmの一部





<head type=MAIN><s n=0001 p=Y><w DA>Former <w JJ>Bolivian <w
NN1>minister <w II>in <w NP1>US <w NN1>court<c YSTP>.
</s></head>
<head type=BYLINE><s n=0002 p=Y><w II>By <w NP1>Mark <w
NP1>Tran <w II>in <w NP1>Washington </s></head>
<p><s n=0003 p=Y><w AT>THE <w NN2>wheels <w IO>of <w
NN1>justice <w VVD>began <w VVG>turning <w RT>yesterday <w
IF>for <w AT>the <w DA>former <w JJ>Bolivian <w NN1>Interior <w
NN1>Minister<c YCOM>, <w NNB>Mr <w NP1>Luis <w NP1>Arce <w
NP1>Gomez<c YCOM>, <w CS>when <w PPHS1>he <w VVD>appeared
<w II>before <w AT1>a <w NP1>Miami <w NN1>magistrate <w
II>following <w APPGE>his <w NN1>arrest <w CC>and <w
NN1>deportation <w II>from <w NP1>Bolivia<c YSTP>. </s></p>
SGMLでは,文書構造をDTD (Document Type Definition) いう別のファイ
ルであらかじめ定義しておく。以下は w タグの定義:
<!ELEMENT w
- o (#PCDATA) >
2004-12-11
言語資料のXMLによるマークアップ
XML の特徴



DTD に頼らない構造化規則 (wellformedness)
Unicode への対応 (XML 1.1 で最新の
Unicodeにも対応)
処理効率の向上のための仕様の簡素化
– 終了タグの省略の禁止
– 最上位要素の義務的配置など

活発な関連技術開発→XMLの普及
2004-12-11
言語資料のXMLによるマークアップ
XMLによるマークアップの主な決まり

情報のまとまりをあらわす要素 element
– 開始タグ,終了タグのペアで内容を囲んで表わす。

<title>エクスプレスフィンランド語</title>
– 終了タグがないときは,空要素であることを明示する。


<xsl:apply-template />
SGMLでは,省略が可能だった
– 要素は入れ子にできるが,交差はできない。
– 最上位の要素はひとつだけ。

要素の付属情報をあらわす属性attribute
–
–
–
–

開始タグに記述
順番は問わない
属性の値は引用符で必ず囲む
ひとつの要素に同じ名前の属性名を複数つけてはいけない。
文字: < > &, と2種類の引用符は特殊。置き換えて使う。
– &lt; &gt; &amp; &apos; &quot;
2004-12-11
言語資料のXMLによるマークアップ
XML関連技術

関連規格:XMLの検索と加工
– XPath (1999), XPointer (2003), XLink (2001),
XSLT (1999), XSL-FO (2001), XML Query (未
勧告), XQuery (未勧告), DOM (1998, 2000)

XMLアプリケーション
– XML 処理用パーサ:Expat, IBM XML Parser,
iPEX, libxml, MSXML, sablotron, Xerces, XP
(and SP)
– ソフトウエアのXMLサポート:マイクロソフト社
Internet Explorer, Excel, InfoPath等
2004-12-11
言語資料のXMLによるマークアップ
XMLの応用例 (1)

インターネットを介してのXMLの利用の普
及
– XMLに基づく具体的なデータ形式:
ContactXML (住所記述), MathML, RDF(メタ
データ), RSS, SMILE (マルチメディア), SVG
(グラフィックス), XHTML (XML対応HTML)
– ビジネスのデータ交換形式としてのXML
– XMLを使ったオンラインシステム: Webサービ
ス (UDDI, WSDL, SOAP), ebXML, BizTalk
2004-12-11
言語資料のXMLによるマークアップ
XMLの応用例 (2)

メタデータの表現形式としてのXML
– RDF, RSS (RDF Site Summary)

データベース形式としてのXML
– 現状の多くのシステムはリレーショナルデータベース
を使い,XML形式で(入)出力を処理
– オープンソースのネイティブXMLデータベースアプリ
ケーションの登場:Berkeley DB XML (Staken, 2004),
Xindice など
– XML 用の検索言語 query language の仕様の議論が
続いており,複数の提案がなされている (cf. 大規模
コーパスの検索の問題 Ide, 2000a 2000b; 音声言語
データの検索の問題 Cassidy, 2002)
2004-12-11
言語資料のXMLによるマークアップ
XMLの応用例 (3)

言語データの構造化のためのXML
– TEI (Text Encoding Initiative, P4 でXMLに対応, P5 で
XML向けに規格刷新の予定)
– Corpus Encoding Standard for XML (XCES 0.2)

XMLを利用した言語データベース
– 『日本語話し言葉コーパス』
– フィンランド言語バンク (kielipankki) の検索インター
フェース WWW-Lemmie

メタデータと言語データのアーカイブ
– ISLE Metadata Initiative (IMDI schema 3.0)
– E-MELD (Electronic Metastructure for Endangered
Languages Data)
2004-12-11
言語資料のXMLによるマークアップ
なぜ今XMLか? (1)

XMLとその関連技術が普及し,ソフトやツールに実
装されはじめた
– 高機能なフリーウエアの出現
– XPath (XML 文書を抽出, Clark et. al, 1999)
– 標準規格ゆえ,さまざまな分野で利用され,技術指導が
できる専門家を探しやすい

XML処理用の特別なソフトなしでも稼動するユー
ザー環境が整ってきた。
– Java Virtual Machine や Microsoft .NET Framework 1.0
など,実行環境がインストールされていれば安定して動
作する
2004-12-11
言語資料のXMLによるマークアップ
なぜ今XMLか? (2)

XMLとその関連技術が普及し,ソフトやツールに
実装されはじめた
– XPath (XML 文書を抽出, Clark et. al, 1999)
– 標準規格はさまざまな分野で利用され,技術指導が
できる専門家を探しやすい

XML処理用の特別なソフトなしでも稼動するユー
ザー環境が整ってきた。
– 開発環境として Microsoft .NET Framework 1.0 を利
用 (利用言語は C#)
– 実行環境がインストールされていれば安定して動作

XML in 10 points
2004-12-11
言語資料のXMLによるマークアップ