第2回国際ワークショップ “NLPXML-2002”の概要と NLP, Semantic Web の融合 に向けての展開 中挾知延子(東洋大学) 野村直之(法政大学) 浦本直彦(IBM, 国立情報学研究所) Key-Sun Choi(KAIST, NHK技研) 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 1 発表の流れ イントロ:NLPXML-2002 & Corpora セッション2:Document Generation セッション3:Discourse,Dialog & Speech セッション4:Semantic Web NLPXML-2003に向けて セッション1:Tools 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 2 “NLPXML-2002” 第1回:”1st NLP & XML WS” 於:東京 http://hal2001.itakura.toyo.ac.jp /~chiekon/nlpxml/ 第2回: Coling2002のポ ストワークショップと して台北で開催 Chair:Dr. Graham Wilcock(Helsinki大学) http://www.ling.helsinki.fi/~gwilcock/NLPXML/ 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 3 ワークショップの目的=XMLとNLPの シナジー効果 XML for NLP(自然言語 処理のためのXML技術) – 高機能なフリーのXML処理系に より,NLPシステムの設計から 実装までの高速プロトタイピング を実現 – 統一的な中間データ形式,コー パス記述言語としての役割 NLP for XML(XMLのた めの自然言語処理) – 多義語の処理,制約の解決,一 貫性の保持,シソーラス開発な ど – XMLドキュメントの自動生成,メ タデータ,オントロジの(半)自動 メンテナンスなど産業界から期 待されている機能の実現にNLP を適用 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 4 セッション1:Tools & Corpora XML for NLP – コーパスにおけるアノテーションの共有と再利用 アノテーションスキーマの提案 NLP for XML – XMLドキュメント変換処理に用いる文法ルールな どのNLPツールの標準化の提案 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 5 1.XML-Based NLP Tools for Analysing and Annotating Medical Language C. Grover, et al.(Univ. of Edinburgh) 医学分野の専門知識であ るOHSUMEDコーパスを 浅いレベル(e.g.形態素 解析)から深いレベル (e.g.意味解析)まで処理 するためにアノテーション をしてXML化 A sample from the XML-marked-up OHSUMED Corpus 29-Nov-02 <RECORD> <ID>395</ID> <MEDLINE-ID>87052477</MEDLINE-ID> <SOURCE>Clin Pediatr (Phila) 8703; 25(12):617-9 </SOURCE> <MESH> Adolescence; Alcoholic Intoxication/BL/*EP; Blood Glucose/AN; Canada; Child; Child, Preschool; Electrolytes/BL; Female; Human; Hypoglycemia/ET; Infant; Male; Retrospective Studies. </MESH> <TITLE>Ethyl alcohol ingestion in children. A 15-year review.</TITLE> <PTYPE>JOURNAL ARTICLE.</PTYPE> <ABSTRACT> <SENT><WP=’DT’>A</W><W P=’JJ’>retrospective</W> <W P=’NN’ LM=’study’>study</W><W P=’VBD’ LM=’be’>was</W> <W P=’VBN’ LM=’conduct’>conducted</W><WP=’IN’>by</W><WP=’NN’ LM=’chart’>chart</W> <W P=’NNS’ LM=’review’>reviews</W><W P=’IN’ >of</W><WP=’CD’>27</W> <W P=’NNS’ LM=’patient’>patients</W><WP=’IN’>with</W><W P=’JJ’>documented</W> <W P=’NN’ LM=’ethanol’>ethanol</W><W P=’NN’ LM=’ingestion’>ingestion</W><WP=’.’>.</W> </SENT><SENT> : : : </SENT><SENT> : : : </SENT> </ABSTRACT> <AUTHOR>Leung AK.</AUTHOR> </RECORD> 情報処理学会デジタルドキュメント研究会 大阪 6 2.A Brief Introduction to the Gem Annotation Schema for Complex Document Layout J. Bateman, et al.(Univ. of Bremen) マルチモーダルな文章 レイアウトをXML化す るためのGem(Genre & Multimodality)ア ノテーションスキーマの 提案 スキーマによるレイア ウトタグ付きコーパスを 活用した文章生成シス テム,レイアウト作成支 援システムへの応用 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 7 レイアウトをより大きなブロックへ抽象化 <unit id="u-21.5">--------------</unit> <unit id="u-21.6" src="gannet.jpg" alt="gannetphoto"/> <unit id="u-21.7"> Huge (90cm) unmistakable seabird. </unit> <unit id="u-21.8"> Watch for white, cigar-shaped body and long straight, slender, black-tipped wings. </unit> <unit id="u-21.9"> In summer, yellow head of adult inconspicuous. </unit> <unit id="u-21.10"> Plunges spectacularly for fish.</unit> <unit id="u-21.11">Sexes similar.</unit> 29-Nov-02 <layout-unit id="lay-flegg-text" xref="u-21.7 u-21.8 u-21.9 u-21.10u-21.11"> Huge (90cm) unmistakable seabird. Watch for white, cigar-shaped body and long straight, slender, black-tipped wings. In summer, yellow head of adult inconspicuous. Plunges spectacularly for fish. Sexes similar. </layout-unit> 情報処理学会デジタルドキュメント研究会 大阪 8 レイアウトの階層化 <layout-root id="page21"> <layout-leaf xref="header-21"/> <layout-chunk id="body21"> <layout-leaf xref="lay21.2"/> <layout-leaf xref="lay21.3"/> </layout-chunk> <layout-leaf xref="pageno-21"/> </layout-root> 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 9 3.Cascaded Regular Grammars over XML Documents K. Simov, et al.(Linguistic Modelling Lab.) テキストコーパス処理のた めのルールに基づいた XML変換システムCLaRK Date -> ( (0,(1|2|3|4|5|6|7|8|9)) | ((1|2),(0|1|2|3|4|5|6|7|8|9)) | (3,(0|1)) ) ,., ((0,(1|2|3|4|5|6|7|8|9))|(1,(0| 1|2))) ,., (((1|2|3|4|5|6|7|8|9), (0|1|2|3|4|5|6|7|8|9)*)) 29-Nov-02 カスケード型正規文法に基づ いて複雑な制約や並べ替え を伴うXML変換が実現 C→R C:語句のカテゴリ R:正規表現(エレメントノード の場合はXPath表記) The feast is from 12.03.2002 to 15.03.2002. ↓ The feast is from Date to Date. 情報処理学会デジタルドキュメント研究会 大阪 10 正規文法の適用による文章のXML表現 <s> John loves Mary who is in love with Peter </s> <s> <w g="N">John</w> <w g="V">loves</w> <w g="N">Mary</w> <w g="Pron">who</w> <w g="V">is</w> <PP> <w g="P">in</w> <w g="N">love</w> </PP> <PP> <w g="P">with</w> <w g="N">Peter</w> </PP> </s> <s> <w g="N">John</w> Propositional <w g="V">loves</w> Attachment <w g="N">Mary</w> <w g="Pron">who</w> <w g="V">is</w> <w g="P">in</w> <w g="N">love</w> <w g="P">with</w> <PP>\w</PP> -> <"P"><"N#"> <w g="N">Peter</w> </s> 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 11 セッション2:Document Generation XSLTの文書生成への貢献-効率の良さと保 守性の高さ – 多言語対応の文書フィルタ – XMLテンプレートからの文書自動生成 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 12 1.Cascading XSL Filters for Content Selection in Multilinguial Document Generation G. Burrutieta, et al.(Mondragon Univ.) RST(Rhetorical Structure Theory)に基づく ユーザのニーズに 応じた文書フィルタ CSA(Content Selection Algorithm)により フィルタリング,XSL で実装 英語,スペイン語, バスク語に対応 User Aspects XML-DTD Course Generator Inputs html-xml-dtd Select content and xsl-javascript format in an “intelligent” way Generation Course Material engine (Multilingual Parallel Document Generation Corpus) Web Browser Document View 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 13 Rhetorical Structure Theory <RST> <RST-S> <PREPARATION> <S> What is knowledge management? </S> </PREPARATION> </RST-S> <RST-N> <S> Knowledge, in a business context, is the organizational memory, which people know collectively and individually </S> <S> Management is the judicious use of means to accomplish an end </S> <S> Knowledge management is the combination of those concepts, KM = knowledge + management </S></RST-N></RST> 29-Nov-02 <RST> <RST-S> <PREPARATION> <S> Zer da ezagutzaren kudeaketa? </S> </PREPARATION> </RST-S> <RST-N> <S> Kudeaketa, negozioetan, erakundearen memoria da, jendeak bakarka eta taldeka dakiena </S> <S> Kudeaketak erabideen erabilera zuzena du helburu </S> <S> Ezagutzaren kudeaketa bi kontzeptu hauen nahasketa da, EK = ezagutza + kudeaketa </S> </RST-N> </RST> 情報処理学会デジタルドキュメント研究会 大阪 14 Content Selection Algorithm Specific User Aspects Discrete values Subject Language processors Moment in time Before the course / Period 1 / Period 2 / … / After the course (review) Languages EN/ ES/ EU General User Aspects Discrete values Level of expertise Null / Basic / Medium / High Reason to read To get an idea / To get deep into it Background 29-Nov-02 If level_expertise = “null” or level_expertise = “basic” Then no relation-satellite is discarded; If level_expertise = “medium” or level_expertise = “high” Then discard example, exercise, background and preparation relationsatellites; Not related to the subject / Related to the subject 情報処理学会デジタルドキュメント研究会 大阪 15 XtraGen – A Natural Language Generation System using XML & Java Technologies H. Stenzhorn (XtraMind Technologies GmbH) XtraGenの文章生成メカニズム とそのXMLとJavaによる実装 XMLテンプレートによる文章生成 – 形態素の扱い – 生成文のレベル分け <template id="String" category="String"> <conditions> Condition*</conditions> <parameters> Parameter*</parameters> <actions> Action+</actions> <constraints> Constraint*</constraints> </template> 29-Nov-02 <conditions> <or> <and> <condition type="equal"> <get path="/recall"/> <value>95</value> </condition> <condition type="less"> <get path="/accuracy"/> <value>90</value> </condition> </and> <not> <condition type="exist"> <get path="/exception"/> </condition> </not> </or></conditions> 情報処理学会デジタルドキュメント研究会 大阪 16 ユーザレベルに応じた 生成のためのXMLテ ンプレート <template id="explainExpert" category="explain"> <parameters> <parameter name="level" value="expert"> <parameter name="verbosity" value="low"> </parameters> ... </template> generator.addParameter ("level","novice",0.75); generator.addParameter ("verbosity","low",0.5); 29-Nov-02 形態素の制約のため のXMLテンプレート <template ...> <actions> <select category="determiner" label="X0"/> <select category="noun" label="X1"/> </actions> <constraint> <place label="X0" attribute="number"/> <place label="X1" attribute="number"/> <get path="/categoryNumber"/> </constraint></template> 情報処理学会デジタルドキュメント研究会 大阪 17 セッション3:Discourse, Dialog & Speech マルチモーダリティを扱えるXMLでのアノテー ションの活用 – 音声認識 – 談話生成 SALT 29-Nov-02 – VoiceXMLの次に来るもの? 情報処理学会デジタルドキュメント研究会 大阪 18 1.XML/XSL in the Dictionary: The Case of Discourse Markers D. Berger, et al.(Univ. of Potsdam) XMLによる談話マーカ付き 辞書DiMLexを用いてXSL によりHTMLへ変換し可読 性を向上 文章生成,文章理解システ ムへの応用が期待 談話マーカ 接続詞ならびに接続 の働きをする語 29-Nov-02 We were in SoHo; {nevertheless | nonetheless | however | still | yet}, we found a cheap bar. We were in SoHo, but we found a cheap bar anyway. Despite the fact that we were in SoHo, we found a cheap bar. Notwithstanding the fact that we were in SoHo, we found a cheap bar. Although we were in SoHo, we found a cheap bar. 情報処理学会デジタルドキュメント研究会 大阪 19 2.XiSTS – XML in Speech Technology Systems M. Walsh, et al.(Univ. of College Dublin) 音声認識のための3つのサブシステムにXMLを活 用 – 音韻認識 LIPS Network Generatorによる音素配列オートマトンの 生成とXML記述 – 音声合成 REFLEX シラブル辞書の生成 辞書エントリをXML化 – 辞書生成 T-REX 異なる音韻特徴セットの記述をXMLで作成 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 20 LIPS Network Generator による音素配列オート マトンの生成 パージングされ候補の 音素配列が決定 [S] XML化され(次のスラ イド参照),REFLEXへ の入力となる 29-Nov-02 音素配列オートマトン alveolar ○ approximant approximant ○ voiceless voiceless ○ alveolar [r] [S] [vowels] [n][m] fricative ○ palato palato ○ voiceless voiceless ○ fricative 情報処理学会デジタルドキュメント研究会 大阪 21 音素配列オートマトンのXML表現 <phonotactic_automaton language=“english”> <arc position=“o1” voweltrans=“false” initial=“true” root_final=“false” suffix_final=“false” internal=“false”> <start_node>1</start_node> <end_node>2</end_node> <phonemes><phonemeSymbol>S</phonemeSymbol> <overlapConstraint> <ranking>3</ranking> <feature_info1><feature_name>fricative</feature_name></feature_info1> <feature_info2><feature_name>voiceless</feature_name></feature_info2> </overlapConstraint> <overlapConstraint> <ranking>2</ranking> <feature_info1><feature_name>palato</feature_name></feature_info1> <feature_info2><feature_name>voiceless</feature_name></feature_info2> </overlapConstraint> <overlapConstraint> <ranking>2</ranking> <feature_info1><feature_name>fricative</feature_name></feature_info1> <feature_info2><feature_name>palato</feature_name></feature_info2> </overlapConstraint> <typical_duration>50</typical_duration> <threshold>6</threshold> </phonemes></arc> </phonotactic_automaton> 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 22 REFLEX, T-REX <syllable> So:n <onset type=”first”> <segment phonation=”voiceless” manner=”fricative” place=”palato” duration=”null”>S</segment> </onset> <nucleus type=”first”> <segment phonation=”voices” manner=”vowellike” place=”back” XML化された特徴ベー height=”mid” roundness=”round” スのシラブル辞書を生 length=”tense”duration=”null”>o: 成(REFLEX) </segment> </nucleus> 音素の特徴記述は <coda type=”first”> ユーザによってカスタマ <segment phonation=”voiced” manner=”nasal” place=”apical” イズされ新たな辞書を 生成(T-REX) </coda> duration=”null”>n</segment> </syllable> 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 23 3.SALT: An XML Application for Web-based Multimodal Dialog Management K. Wang(Microsoft Research) SALT(Speech Application Language Tags) – Web上での分散環境におけるマルチモーダルな対話処理システムの ためのXMLベース言語 – プログラミング言語に依存せずHTML,XMLに対話処理のインタ フェースとして埋め込み可能 マルチモーダル – GUI環境において多様な方式でユーザが入力 – 音声入力,テキスト入力,マウスでのイベント通知など Webページ単位での制御フロー データと表示を切り離すことでのモジュール性の向上 対話の解釈にセマンティックオブジェクトを用いたOOモデルを採用 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 24 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 25 プロンプトオブジェクトのXML表現 <input name=”origin” type=”text” /> <input name=”destination” type=”text” /> <input name=”date” type=”text” /> … <prompt …> Do you want to fly from <value targetElement=”origin”/> to <value targetElement=”destination”/> on <value targetElement=”date”/>? </prompt> 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 26 SALTフォーラム http://www.saltforum.org/ 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 27 セッション4:Semantic Web NLPに用いるメタデータは汎用性や流通性か ら考えるとSemanticWebでの標準スキーマ への準拠が妥当 SemanticWebにおけるオントロジの洗練や メンテナンスにNLPの手法が適用(例:多義 性解消,オントロジ等の知識獲得) エージェントのプロファイリングにIRの成果を 適用 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 28 1.Annotating the Semantic Web using Natural Language B. Katz(MIT Artificial Intelligence Lab.) STARTシステム 人間が SemanticWeb に自然言語で質 問し満足できる回 答を得るための アノテーションの しくみをRDFに実 現 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 29 RDFでのプロパティ設定 nlアノテーションを付けたCIA World Factbook <rdfs:Class ID=“Country”> <rdfs:comment>A Country in the CIA Factbook</rdf:comment> </rdfs:Class> <rdf:property ID=“population”> <rdfs:domain rdf:resource=“#Country”/> <rdfs:range rdf:resource=“xsd:string”/> <nl:ann text=“Many People live in ?s”/> <nl:ann text=“population of ?s”/> <nl:gen text=“The population of ?s is ?o”/> </rdf:property> 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 30 インフォメーションアクセススキーマ 多様な自然言語の質問に応答するためのメタ記述 <nl:InformationAccessSchema> <nl:ann>$country-1’s $att is larger than $country-2’s $att</nl:ann> <nl:pattern>?x a :Country</nl:pattern> <nl:pattern>?x map($att) ?var-1</nl:pattern> <nl:pattern>?y a :Country</nl:pattern> <nl:pattern>?y map($att) ?var-2</nl:pattern> <nl:action>display(gt(?var-1,?var-2))</nl:action> <nl:mapping> <nl:hash variable=“$attribute”> <nl:map value=“population”>:population</nl:map> <nl:map value=“area”>:area</nl:map> ... </nl:hash></nl:mapping> </nl:InformationAccessSchema> 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 31 プランスキーマ 質問にどのような手順で応答するのかを手続き 的に記述 <nl:InformationPlanningSchema> <nl:ann>distance between $country1 and $country2</nl:ann> <nl:plan>?x a :Country</nl:pattern> <rdf:seq> <rdf:li>what is the capital of $country1 := ?capital1</rdf:li> <rdf:li>what is the capital of $country2 := ?capital2</rdf:li> <rdf:li>what is the distance between ?capital1 and ?capital2 := ?distance</rdf:li> </rdf:seq> </nl:plan> <nl:action>display(?distance)</nl:action> </nl:InformationPlanningSchema> 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 32 START Webサイト http://www.ai.mit.edu/projects/infolab/ 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 33 3rd Workshop on NLP and XML (NLPXML-2003) 29-Nov-02 情報処理学会デジタルドキュメント研究会 大阪 34
