第2回国際ワークショップ“NLPXML-2002”の 概要と NLP,

第2回国際ワークショップ
“NLPXML-2002”の概要と
NLP, Semantic Web の融合
に向けての展開
中挾知延子(東洋大学)
野村直之(法政大学)
浦本直彦(IBM, 国立情報学研究所)
Key-Sun Choi(KAIST, NHK技研)
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
1
発表の流れ
 イントロ:NLPXML-2002
& Corpora
 セッション2:Document Generation
 セッション3:Discourse,Dialog & Speech
 セッション4:Semantic Web
 NLPXML-2003に向けて
 セッション1:Tools
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
2
“NLPXML-2002”

第1回:”1st NLP &
XML WS” 於:東京
http://hal2001.itakura.toyo.ac.jp
/~chiekon/nlpxml/

第2回:
Coling2002のポ
ストワークショップと
して台北で開催
Chair:Dr. Graham
Wilcock(Helsinki大学)
http://www.ling.helsinki.fi/~gwilcock/NLPXML/
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
3
ワークショップの目的=XMLとNLPの
シナジー効果

XML for NLP(自然言語
処理のためのXML技術)
– 高機能なフリーのXML処理系に
より,NLPシステムの設計から
実装までの高速プロトタイピング
を実現
– 統一的な中間データ形式,コー
パス記述言語としての役割

NLP for XML(XMLのた
めの自然言語処理)
– 多義語の処理,制約の解決,一
貫性の保持,シソーラス開発な
ど
– XMLドキュメントの自動生成,メ
タデータ,オントロジの(半)自動
メンテナンスなど産業界から期
待されている機能の実現にNLP
を適用
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
4
セッション1:Tools & Corpora
 XML
for NLP
– コーパスにおけるアノテーションの共有と再利用
アノテーションスキーマの提案
 NLP
for XML
– XMLドキュメント変換処理に用いる文法ルールな
どのNLPツールの標準化の提案
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
5
1.XML-Based NLP Tools for Analysing and
Annotating Medical Language
C. Grover, et al.(Univ. of Edinburgh)

医学分野の専門知識であ
るOHSUMEDコーパスを
浅いレベル(e.g.形態素
解析)から深いレベル
(e.g.意味解析)まで処理
するためにアノテーション
をしてXML化
A sample from the
XML-marked-up
OHSUMED Corpus
29-Nov-02
<RECORD>
<ID>395</ID>
<MEDLINE-ID>87052477</MEDLINE-ID>
<SOURCE>Clin Pediatr (Phila) 8703; 25(12):617-9 </SOURCE>
<MESH>
Adolescence; Alcoholic Intoxication/BL/*EP; Blood Glucose/AN; Canada;
Child; Child, Preschool;
Electrolytes/BL; Female; Human; Hypoglycemia/ET; Infant; Male;
Retrospective Studies.
</MESH>
<TITLE>Ethyl alcohol ingestion in children. A 15-year review.</TITLE>
<PTYPE>JOURNAL ARTICLE.</PTYPE>
<ABSTRACT>
<SENT><WP=’DT’>A</W><W P=’JJ’>retrospective</W>
<W P=’NN’ LM=’study’>study</W><W P=’VBD’ LM=’be’>was</W>
<W P=’VBN’ LM=’conduct’>conducted</W><WP=’IN’>by</W><WP=’NN’
LM=’chart’>chart</W>
<W P=’NNS’ LM=’review’>reviews</W><W P=’IN’
>of</W><WP=’CD’>27</W>
<W P=’NNS’ LM=’patient’>patients</W><WP=’IN’>with</W><W
P=’JJ’>documented</W>
<W P=’NN’ LM=’ethanol’>ethanol</W><W P=’NN’
LM=’ingestion’>ingestion</W><WP=’.’>.</W>
</SENT><SENT> : : : </SENT><SENT> : : : </SENT>
</ABSTRACT>
<AUTHOR>Leung AK.</AUTHOR>
</RECORD>
情報処理学会デジタルドキュメント研究会
大阪
6
2.A Brief Introduction to the Gem Annotation
Schema for Complex Document Layout
J. Bateman, et al.(Univ. of Bremen)
マルチモーダルな文章
レイアウトをXML化す
るためのGem(Genre
& Multimodality)ア
ノテーションスキーマの
提案
 スキーマによるレイア
ウトタグ付きコーパスを
活用した文章生成シス
テム,レイアウト作成支
援システムへの応用

29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
7
レイアウトをより大きなブロックへ抽象化
<unit id="u-21.5">--------------</unit>
<unit id="u-21.6"
src="gannet.jpg" alt="gannetphoto"/>
<unit id="u-21.7">
Huge (90cm) unmistakable seabird.
</unit>
<unit id="u-21.8">
Watch for white, cigar-shaped body
and
long straight, slender, black-tipped
wings.
</unit>
<unit id="u-21.9">
In summer, yellow head of
adult inconspicuous. </unit>
<unit id="u-21.10">
Plunges spectacularly for
fish.</unit>
<unit id="u-21.11">Sexes
similar.</unit>
29-Nov-02
<layout-unit id="lay-flegg-text"
xref="u-21.7 u-21.8 u-21.9
u-21.10u-21.11">
Huge (90cm) unmistakable seabird.
Watch for white, cigar-shaped body
and long straight, slender,
black-tipped wings. In summer,
yellow
head of adult inconspicuous. Plunges
spectacularly for fish. Sexes similar.
</layout-unit>
情報処理学会デジタルドキュメント研究会
大阪
8
レイアウトの階層化
<layout-root id="page21">
<layout-leaf
xref="header-21"/>
<layout-chunk id="body21">
<layout-leaf xref="lay21.2"/>
<layout-leaf xref="lay21.3"/>
</layout-chunk>
<layout-leaf xref="pageno-21"/>
</layout-root>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
9
3.Cascaded Regular Grammars over
XML Documents
K. Simov, et al.(Linguistic Modelling Lab.)

テキストコーパス処理のた
めのルールに基づいた
XML変換システムCLaRK
Date ->
( (0,(1|2|3|4|5|6|7|8|9)) |
((1|2),(0|1|2|3|4|5|6|7|8|9)) |
(3,(0|1))
)
,.,
((0,(1|2|3|4|5|6|7|8|9))|(1,(0|
1|2)))
,.,
(((1|2|3|4|5|6|7|8|9),
(0|1|2|3|4|5|6|7|8|9)*))
29-Nov-02
カスケード型正規文法に基づ
いて複雑な制約や並べ替え
を伴うXML変換が実現
C→R C:語句のカテゴリ
R:正規表現(エレメントノード
の場合はXPath表記)
The feast is from 12.03.2002
to 15.03.2002.
↓
The feast is from Date to Date.
情報処理学会デジタルドキュメント研究会
大阪
10
正規文法の適用による文章のXML表現
<s>
John loves Mary who is in
love with Peter
</s>
<s>
<w g="N">John</w>
<w g="V">loves</w>
<w g="N">Mary</w>
<w g="Pron">who</w>
<w g="V">is</w>
<PP>
<w g="P">in</w>
<w g="N">love</w>
</PP>
<PP>
<w g="P">with</w>
<w g="N">Peter</w>
</PP>
</s>
<s>
<w g="N">John</w>
Propositional
<w g="V">loves</w>
Attachment
<w g="N">Mary</w>
<w g="Pron">who</w>
<w g="V">is</w>
<w g="P">in</w>
<w g="N">love</w>
<w g="P">with</w>
<PP>\w</PP> -> <"P"><"N#">
<w g="N">Peter</w>
</s>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
11
セッション2:Document Generation
 XSLTの文書生成への貢献-効率の良さと保
守性の高さ
– 多言語対応の文書フィルタ
– XMLテンプレートからの文書自動生成
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
12
1.Cascading XSL Filters for Content Selection in
Multilinguial Document Generation
G. Burrutieta, et al.(Mondragon Univ.)



RST(Rhetorical
Structure
Theory)に基づく
ユーザのニーズに
応じた文書フィルタ
CSA(Content
Selection
Algorithm)により
フィルタリング,XSL
で実装
英語,スペイン語,
バスク語に対応
User Aspects
XML-DTD
Course Generator
Inputs
html-xml-dtd
Select content and
xsl-javascript
format in
an “intelligent” way
Generation
Course Material
engine
(Multilingual Parallel
Document Generation
Corpus)
Web Browser
Document View
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
13
Rhetorical Structure Theory
<RST>
<RST-S>
<PREPARATION>
<S> What is knowledge management?
</S>
</PREPARATION>
</RST-S>
<RST-N>
<S>
Knowledge, in a business context, is the
organizational
memory, which people know collectively
and individually
</S>
<S>
Management is the judicious use of
means to accomplish
an end
</S>
<S>
Knowledge management is the
combination of those
concepts, KM = knowledge +
management
</S></RST-N></RST>
29-Nov-02
<RST>
<RST-S>
<PREPARATION>
<S> Zer da ezagutzaren kudeaketa?
</S>
</PREPARATION>
</RST-S>
<RST-N>
<S>
Kudeaketa, negozioetan, erakundearen
memoria
da, jendeak bakarka eta taldeka dakiena
</S>
<S>
Kudeaketak erabideen erabilera zuzena
du helburu
</S>
<S>
Ezagutzaren kudeaketa bi kontzeptu
hauen nahasketa da,
EK = ezagutza + kudeaketa
</S>
</RST-N>
</RST>
情報処理学会デジタルドキュメント研究会
大阪
14
Content Selection Algorithm
Specific User
Aspects
Discrete values
Subject
Language processors
Moment in
time
Before the course / Period
1 / Period 2 / … / After
the course (review)
Languages
EN/ ES/ EU
General User
Aspects
Discrete values
Level of
expertise
Null / Basic / Medium /
High
Reason to read To get an idea / To get
deep into it
Background
29-Nov-02
If level_expertise = “null” or
level_expertise = “basic”
Then
no relation-satellite is
discarded;
If level_expertise =
“medium” or
level_expertise = “high”
Then
discard example, exercise,
background
and preparation relationsatellites;
Not related to the subject
/ Related to the subject
情報処理学会デジタルドキュメント研究会
大阪
15
XtraGen – A Natural Language Generation
System using XML & Java Technologies
H. Stenzhorn (XtraMind Technologies GmbH)


XtraGenの文章生成メカニズム
とそのXMLとJavaによる実装
XMLテンプレートによる文章生成
– 形態素の扱い
– 生成文のレベル分け
<template id="String"
category="String">
<conditions>
Condition*</conditions>
<parameters>
Parameter*</parameters>
<actions>
Action+</actions>
<constraints>
Constraint*</constraints>
</template>
29-Nov-02
<conditions>
<or>
<and>
<condition type="equal">
<get path="/recall"/>
<value>95</value>
</condition>
<condition type="less">
<get path="/accuracy"/>
<value>90</value>
</condition>
</and>
<not>
<condition type="exist">
<get path="/exception"/>
</condition>
</not>
</or></conditions>
情報処理学会デジタルドキュメント研究会
大阪
16
ユーザレベルに応じた
生成のためのXMLテ
ンプレート
<template id="explainExpert"
category="explain">
<parameters>
<parameter
name="level"
value="expert">
<parameter
name="verbosity"
value="low">
</parameters>
...
</template>
generator.addParameter
("level","novice",0.75);
generator.addParameter
("verbosity","low",0.5);
29-Nov-02
形態素の制約のため
のXMLテンプレート
<template ...>
<actions>
<select category="determiner"
label="X0"/>
<select category="noun"
label="X1"/>
</actions>
<constraint>
<place label="X0"
attribute="number"/>
<place label="X1"
attribute="number"/>
<get
path="/categoryNumber"/>
</constraint></template>
情報処理学会デジタルドキュメント研究会
大阪
17
セッション3:Discourse, Dialog & Speech
 マルチモーダリティを扱えるXMLでのアノテー
ションの活用
– 音声認識
– 談話生成
 SALT
29-Nov-02
– VoiceXMLの次に来るもの?
情報処理学会デジタルドキュメント研究会
大阪
18
1.XML/XSL in the Dictionary: The Case of
Discourse Markers
D. Berger, et al.(Univ. of Potsdam)


XMLによる談話マーカ付き
辞書DiMLexを用いてXSL
によりHTMLへ変換し可読
性を向上
文章生成,文章理解システ
ムへの応用が期待
談話マーカ
接続詞ならびに接続
の働きをする語
29-Nov-02
We were in SoHo;
{nevertheless |
nonetheless | however |
still | yet}, we found a
cheap bar.
We were in SoHo, but we
found a cheap bar anyway.
Despite the fact that we were
in SoHo, we found a cheap
bar.
Notwithstanding the fact that
we were in SoHo, we found
a cheap bar.
Although we were in SoHo,
we found a cheap bar.
情報処理学会デジタルドキュメント研究会
大阪
19
2.XiSTS – XML in Speech Technology
Systems
M. Walsh, et al.(Univ. of College Dublin)

音声認識のための3つのサブシステムにXMLを活
用
– 音韻認識 LIPS
 Network Generatorによる音素配列オートマトンの
生成とXML記述
– 音声合成 REFLEX
 シラブル辞書の生成
 辞書エントリをXML化
– 辞書生成 T-REX
 異なる音韻特徴セットの記述をXMLで作成
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
20
LIPS
Network Generator
による音素配列オート
マトンの生成
 パージングされ候補の
音素配列が決定
[S]
 XML化され(次のスラ
イド参照),REFLEXへ
の入力となる

29-Nov-02
音素配列オートマトン
alveolar ○ approximant
approximant ○ voiceless
voiceless ○ alveolar
[r]
[S]
[vowels]
[n][m]
fricative ○ palato
palato ○ voiceless
voiceless ○ fricative
情報処理学会デジタルドキュメント研究会
大阪
21
音素配列オートマトンのXML表現
<phonotactic_automaton language=“english”>
<arc position=“o1” voweltrans=“false” initial=“true” root_final=“false” suffix_final=“false”
internal=“false”>
<start_node>1</start_node>
<end_node>2</end_node>
<phonemes><phonemeSymbol>S</phonemeSymbol>
<overlapConstraint>
<ranking>3</ranking>
<feature_info1><feature_name>fricative</feature_name></feature_info1>
<feature_info2><feature_name>voiceless</feature_name></feature_info2>
</overlapConstraint>
<overlapConstraint>
<ranking>2</ranking>
<feature_info1><feature_name>palato</feature_name></feature_info1>
<feature_info2><feature_name>voiceless</feature_name></feature_info2>
</overlapConstraint>
<overlapConstraint>
<ranking>2</ranking>
<feature_info1><feature_name>fricative</feature_name></feature_info1>
<feature_info2><feature_name>palato</feature_name></feature_info2>
</overlapConstraint>
<typical_duration>50</typical_duration>
<threshold>6</threshold>
</phonemes></arc>
</phonotactic_automaton>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
22
REFLEX, T-REX
<syllable>
So:n
<onset type=”first”>
<segment phonation=”voiceless”
manner=”fricative” place=”palato”
duration=”null”>S</segment>
</onset>
<nucleus type=”first”>
<segment phonation=”voices”
manner=”vowellike” place=”back”
 XML化された特徴ベー
height=”mid” roundness=”round”
スのシラブル辞書を生
length=”tense”duration=”null”>o:
成(REFLEX)
</segment>
</nucleus>
 音素の特徴記述は
<coda type=”first”>
ユーザによってカスタマ
<segment phonation=”voiced”
manner=”nasal” place=”apical”
イズされ新たな辞書を
生成(T-REX) </coda> duration=”null”>n</segment>
</syllable>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
23
3.SALT: An XML Application for Web-based
Multimodal Dialog Management
K. Wang(Microsoft Research)





SALT(Speech Application Language Tags)
– Web上での分散環境におけるマルチモーダルな対話処理システムの
ためのXMLベース言語
– プログラミング言語に依存せずHTML,XMLに対話処理のインタ
フェースとして埋め込み可能
マルチモーダル
– GUI環境において多様な方式でユーザが入力
– 音声入力,テキスト入力,マウスでのイベント通知など
Webページ単位での制御フロー
データと表示を切り離すことでのモジュール性の向上
対話の解釈にセマンティックオブジェクトを用いたOOモデルを採用
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
24
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
25
プロンプトオブジェクトのXML表現
<input name=”origin” type=”text” />
<input name=”destination” type=”text” />
<input name=”date” type=”text” />
…
<prompt …> Do you want to fly from
<value targetElement=”origin”/> to
<value targetElement=”destination”/> on
<value targetElement=”date”/>?
</prompt>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
26
SALTフォーラム
http://www.saltforum.org/
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
27
セッション4:Semantic Web
 NLPに用いるメタデータは汎用性や流通性か
ら考えるとSemanticWebでの標準スキーマ
への準拠が妥当
 SemanticWebにおけるオントロジの洗練や
メンテナンスにNLPの手法が適用(例:多義
性解消,オントロジ等の知識獲得)
 エージェントのプロファイリングにIRの成果を
適用
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
28
1.Annotating the Semantic Web using
Natural Language
B. Katz(MIT Artificial Intelligence Lab.)
STARTシステム
 人間が
SemanticWeb
に自然言語で質
問し満足できる回
答を得るための
アノテーションの
しくみをRDFに実
現

29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
29
RDFでのプロパティ設定
nlアノテーションを付けたCIA World Factbook
<rdfs:Class ID=“Country”>
<rdfs:comment>A Country in the CIA
Factbook</rdf:comment>
</rdfs:Class>
<rdf:property ID=“population”>
<rdfs:domain rdf:resource=“#Country”/>
<rdfs:range rdf:resource=“xsd:string”/>
<nl:ann text=“Many People live in ?s”/>
<nl:ann text=“population of ?s”/>
<nl:gen text=“The population of ?s is ?o”/>
</rdf:property>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
30
インフォメーションアクセススキーマ
多様な自然言語の質問に応答するためのメタ記述
<nl:InformationAccessSchema>
<nl:ann>$country-1’s $att is larger than $country-2’s
$att</nl:ann>
<nl:pattern>?x a :Country</nl:pattern>
<nl:pattern>?x map($att) ?var-1</nl:pattern>
<nl:pattern>?y a :Country</nl:pattern>
<nl:pattern>?y map($att) ?var-2</nl:pattern>
<nl:action>display(gt(?var-1,?var-2))</nl:action>
<nl:mapping>
<nl:hash variable=“$attribute”>
<nl:map value=“population”>:population</nl:map>
<nl:map value=“area”>:area</nl:map>
...
</nl:hash></nl:mapping>
</nl:InformationAccessSchema>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
31
プランスキーマ
質問にどのような手順で応答するのかを手続き
的に記述
<nl:InformationPlanningSchema>
<nl:ann>distance between $country1 and $country2</nl:ann>
<nl:plan>?x a :Country</nl:pattern>
<rdf:seq>
<rdf:li>what is the capital of $country1 := ?capital1</rdf:li>
<rdf:li>what is the capital of $country2 := ?capital2</rdf:li>
<rdf:li>what is the distance between ?capital1
and ?capital2 := ?distance</rdf:li>
</rdf:seq>
</nl:plan>
<nl:action>display(?distance)</nl:action>
</nl:InformationPlanningSchema>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
32
START Webサイト
http://www.ai.mit.edu/projects/infolab/
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
33
3rd Workshop on NLP and XML
(NLPXML-2003)
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
34