今日の話の内容情報工学通論１．序論：コンピュータに賭ける夢２．自然言語処理という研究分野の紹介研究分野紹介「自然言語処理」 (1) 「言語」のモデル化と処理 (2) 人工知能（ＡＩ）と自然言語処理 (3) 自然言語インタフェース (4) Web 情報処理と自然言語処理 Natural Language Processing 2015年6月9日３．まとめ杉本徹専門科目カリキュラムとの関係，アドバイス [email protected] 1 2 コンピュータ画像理解ネットワーク１．序論コンピュータに賭ける夢 Virtual Reality 機械学習 • 論理的判断＋記憶（⇔ 人間） • プログラミングによって動作を際限なく複雑に（高度化）していくことが可能 3 人工知能（Artificial Intelligence） 4 人間の知能と機械の知能人間が行うような知的な振舞いを機械に行わせる研究認知科学（Cognitive Science）：情報処理の観点から人間の知能の解明を目指す応用分野：人間人工知能知覚画像・音声認識記憶・表象知識表現・知的制御システム思考・推論推論機構・数学の計算・証明・知的交通システム学習知識獲得・ゲーム・知的CAI（教育支援）システム言語理解自然言語処理・ロボット・画像理解，音声理解・自然言語処理，機械翻訳・情報検索（Webなど）・エキスパートシステム（医療診断システム，設計システム，遺伝子解析システム，など） 5 6 1 人間と対決する人工知能 Watson の概要 • 幅広い分野の問題に対し，高い精度で素早く解答可能（正答率 90%，解答時間 3秒） • Deep Blue（チェス） – IBM RS/6000 ＋チェス専用LSI 512個 – 1997年，世界チャンピオンに勝利 • 情報源：百科事典，新聞記事，戯曲，聖書，歌詞など，約70GB • GPS将棋（将棋） – Intel Xeon（マスタ）＋ iMac（Intel Core i5） 667台 – 2013年，トップ（A級）棋士に勝利参考：「Watson: クイズ番組に挑戦する質問応答システム」，金山・武田，情報処理 Vol.52，No.7，2011 • Watson（クイズ） – IBM Power7 2,880コア – 2011年，米クイズ番組Jeopardy!でクイズ王に勝利 7 Watson の応用例 8 私が人工知能に興味を持った動機 • 医療判断支援 • 人間と対戦するオセロ・コンピュータ – 100万件以上の症例や論文を入力しておく – 患者の症状を入力すると，関連する情報を検索し，最適な治療法を推論して医師に提案する – 必要に応じて，その推論結果の根拠となる症例や論文を表示する • テレビで見たロボット – （鉄腕アトム） – 鉄人２８号 – マジンガーＺ – がんばれロボコン – ドラえもん・・・ • コールセンター業務支援（銀行など） • シェフ・ワトソン 9 お茶目な友達ロボット・人間のようにものを考える・言葉（日本語）をしゃべる 10 コンピュータ２．自然言語処理という研究分野の紹介 • 論理的判断＋記憶（⇔ 人間） • プログラミングによって動作を際限なく複雑に（高度化）していくことが可能 11 12 2 自然言語処理研究の目的自然言語へのアプローチ • 理論的な目的 – 「言葉を使う能力」を明らかにすることにより，人間の知能の仕組みを解明する手掛かりを得る（⇒人工知能 AI） – 言語の体系自体とそれに関する計算処理の深い理解（⇒計算言語学 Computational Linguistics） • 実用的な目的 • What? (自然言語とはどのようなものか） ⇒ トピック１：「言語」のモデル化と処理 • How? （自然言語をどうやって処理するか） ⇒ トピック２：人工知能と自然言語処理 – 情報検索，情報抽出 • Why? （自然言語処理の応用分野の展望） – 機械翻訳，自動要約，言い換え – 自動校正，語学教育 ⇒ トピック３：自然言語インタフェーストピック４： Web情報処理と自然言語処理 – 対話型ユーザ・インタフェース – 音声（認識，合成）インタフェース 13 14 言語（自然言語、人工言語）言語＝ある約束に従って記述された文字列の体系トピック１ • 自然言語日本語，英語，中国語，韓国語，フランス語，… 「言語」のモデル化と処理 • 人工言語 – – – – – 数学言語（数式），論理式プログラミング言語（C, Java, アセンブリ言語, …）マークアップ言語（HTML, XML, TeX, …）その他のコンピュータ言語（SQL, UML, HDL, …）通信プロトコル（HTTP,SMTP,FTP等）も広い意味では言語 15 16 言語の例（１）： XML（Extensible Markup Language）コンピュータによる（自然、人工）言語の処理 • 構造化データをテキスト形式で表現するための言語 • ネットワーク上のデータ通信に広く使われているまず最初に、対象となる言語を定義しておく 1) 語彙（使用可能な単語）の定義 2) 構文（文字列の構成方法）の定義 3) 意味（構成された文字列の使われ方）の定義記述例（書籍データ）：１．解析処理（parsing） – 与えられた（対象言語に属す）文字列を解析し，それに含まれる語彙を抽出して，全体の構造を求める２．生成処理（generation） – 目的に応じて，対象言語に属す文字列を作り出す 17 開始タグ <booklist> <book> <title> はじめてのUNIX入門 </title> 要素（element） <author> 近藤光志他 </author> <publisher> 森北出版 </publisher> </book> <book> 終了タグ <title> 新版明解C言語入門編 </title> <author> 柴田望洋 </author> <publisher> ソフトバンククリエイティブ </publisher> </book> </booklist> 18 3 「0個以上何個でも」という意味 XMLの文法（簡略版）要素 → 開始タグ子要素* 終了タグ子要素 → 要素 or 文字列開始タグ → < タグ名 > 終了タグ → </ タグ名 > C言語の文法（簡略版）文→式 ; { 文* } if ( 式 ) 文前ページの例に対する構文木（parse tree）要素要素要素開始タグ or or 式 → 値（数値，文字列など） or 変数 or 式演算子式 or 関数名（式* ) 要素開始タグ開始タグ文字列終了タグ開始タグ文字列終了タグ言語の例（２）： C言語文字列終了タグ終了タグ <book><title>…</title><author>…</author><publisher>…</publisher></book> 19 演算子 → +, -, *, /, =, ==, … 20 言語の例（3）：英語 C言語の文とその構文木の例英語の文法（簡略版）文文文式名詞句 → 名詞 or 冠詞名詞 or 名詞句前置詞句文式式変数演算子変数演算子変数関数名動詞句 → 自動詞他動詞名詞句動詞句前置詞句文字列 if ( x + y == z ) { printf( “正解です” ) ; } 21 if (x+y==z) {printf(“正解です”);} 動詞句前置詞句名詞句変数 … 演算子 …文字列 if (x+y==z) {printf(“正解です”);} 名詞句入力データ、プログラム入力文字句解析形態素解析トークンのリスト単語のリスト構文解析構文解析構文木構文木 … 名詞他動詞 I saw 冠詞 a 名詞 girl 前置詞 with 22 言語の解析処理文名詞句 or or 前置詞句 → 前置詞名詞句英語の文とその構文木の例動詞句 → 名詞句動詞句冠詞 a telescope. 23 名詞自動詞 … … 冠詞名詞 I saw a girl with a telescope. … 名詞変数 … 演算子 …文字列 if (x+y==z) {printf(“正解です”);} I saw a girl with a telescope. 名詞自動詞 … … 冠詞名詞 I saw a girl with a telescope. 24 4 自然言語の曖昧性 (1) 構文的曖昧性人工言語と自然言語の比較文人工言語自然言語動詞句単語（トークン）の種類数種類～数百種類数万～数十万種類名詞句文法規則の数数個～数十個数百～数千個曖昧性・状況依存性ないある言語解析にかかる時間早いあまり早くない言語解析の精度常に正しく解析できる正解率はせいぜい 80～90% 動詞句名詞句名詞句名詞他動詞 I 前置詞句 saw 名詞句冠詞名詞前置詞冠詞 a girl with a 名詞 telescope. 25 26 トピック１のまとめ自然言語の曖昧性 (2) 語義的曖昧性（多義語）例２： “study” ⇒ 勉強する、勉強、研究、書斎、… • コンピュータでは，様々な情報やデータを文字列として表現するために，様々な種類の人工言語が定義され利用されている例３： “持つ” ⇒ • 言語に対する処理として，解析と生成がある例１： “bank” ⇒ 銀行、土手、傾ける、… ・物を支えた状態を保つ「荷物を持つ」・所有する「自分の家を持つ」・性質を備える「古い伝統を持った学校」・気持ちを抱く「自信を持つ」・負担する「今晩の食事代を持つ」・状態を維持する「残業続きで体が持たない」 27 ・・・ • 自然言語も言語の一種であるから，人工言語に対する処理手法の多くを活用することができる • しかし，自然言語は複雑性や曖昧性など人工言語にない特徴があるので，うまく処理するためには一層の工夫が必要となる ⇒ 人工知能技術の利用 28 人工知能（Artificial Intelligence）人間が行うような知的な振舞いを機械に行わせる研究トピック２応用分野：人工知能と自然言語処理・ロボット・画像理解，音声理解・自然言語処理、機械翻訳 29 ・エキスパートシステム（医療診断システム，設計システム，遺伝子解析システム，など）・情報検索（Webなど）・知的制御システム・数学の計算・証明・知的交通システム・ゲーム・知的CAI（教育支援）システム 30 5 人工知能の産業への応用自然言語処理への応用：知識を使った曖昧性解消 1980年代～「知識は力なり（Knowledge is Power）」 I saw a girl with a telescope. 知的な機能を実現するためには，知識（専門知識や常識）を明確な形で記述して利用できるようにすることが必要使う・持つ動物？道具エキスパートシステム（Expert System）専門家の経験的な知識を分析してコンピュータに入れておくことにより，知的な判断（診断，設計，計画立案，相談等）を行えるようにしたシステム人間 I saw a bear with a telescope. × クマ私少女・・・・望遠鏡 ○ 知識工学（Knowledge Engineering）知識の記述方法，利用方法，獲得方法に関する研究 When I arrived at the bank, the boat is about to sink down. 銀行？土手？浮かぶ ☆ 難題：知識獲得ボトルネック大規模な問題を解くために必要な大量の知識をどのように収集して蓄積するか？ 31 銀行土手一部分 bank 川水面ボート海 32 言語と知能トピック２のまとめ • 日常生活において（高度な）言語を使うのは人間のみ ⇒ 言語使用に知能の本質が隠されている？ • 自然言語処理の研究は，機械に知的な処理を行わせる人工知能の一分野と考えられる • 知能の実現には，以下のものが必要「物には名前がある」ヘレン・ケラーの発見 • 人間は，自分が見たり経験した事物を言葉（概念）によって分節化・再構成して理解する – 頭の中でも言葉を使って考えている？ – 「言葉で説明する」，「言葉にできない」，… – 知識の表現 – 知識の利用（推論） – 知識の獲得 • 自然言語の解析を行う際に，知識（一般常識や専門分野知識）を使うことによって，曖昧性を解消したり言外の意味（比喩や皮肉など）を理解したりできるようになる 33 34 ユーザ・インタフェース • 文字によるユーザ・インタフェース（CUI） – シンプルな仕組みトピック３ • グラフィック・ユーザ・インタフェース（GUI）自然言語インタフェース – 直感的に操作できる • 自然言語によるインタフェース（音声またはタイプ入力） – 使い方を覚える手間が少ない – 複雑な指示を簡潔に入力できる – 特に，対話型インタフェース（対話システム）応用例：ホテルの予約，飛行機チケット予約，道案内システムなど 35 36 6 研究事例1：日常言語コンピューティング私が参加した，理化学研究所（理研）における研究プロジェクト（2000～2005）コンピュータに不慣れな人でも，日常的な言葉を使って様々なソフトウェアの操作や情報の検索を対話的に行えるシステムの研究開発理研プロジェクトの研究成果（１） • あらゆる言語処理の基盤となる言語知識データベースと言語処理機能の設計・開発 – 言語学の理論（システミック言語理論）に基づき，深い解析（構文解析，意味解析など）を行う観念構成的機能対人的機能テキスト形成的機能コンテクストベース活動領域役割関係伝達様式意味ベース現象，要素，現象間接続発話機能修辞構造過程構成，位相ムード，モダリティ，テンス主題，接続関係日常的な言葉語彙文法ベース機能の呼出し対話一般のユーザ言語の理解表現ベース字種，句読法電子化辞書単語辞書，共起辞書，概念辞書コーパスタグ付き対話事例研究事例２：「知ってる君」プロジェクト（最近やっている研究）理研プロジェクトの研究成果（２） S.I.T. TELL • 応用対話システムの開発おはよう！今日の予定は？ – 日常的な言葉でソフトウェア操作を行えるシステム (1) 言語ワープロ（言葉でワープロを操作する） (2) 言語プログラミング（言葉で操作手順を指示） (3) スマートヘルプ（マニュアルを言い換えて教示）目標像： • 物知りキャラクタ・エージェント – ユーザの好みや予定を「知ってる」 – 雑学（from Web）を「知ってる」 • 個別のユーザに特化した対話動作 • Web上の情報を参照してユーザをアシスト 40 Wikipediaを利用した観光地推薦対話システム（卒業研究）トピック３のまとめ • 自然言語インタフェース（特に，音声を用いた対話的なインタフェース）は夢の技術地図応用が期待される分野：ロボット，カーナビ，携帯電話，情報家電など • 解決すべき難題が多い（話し相手の意図の推測，対人関係の考慮，口語表現や断片的表現の理解など）が，着実に研究が続けられている入力エリア • 例：「美術館行きのバスはどこですか？」出力エリア • 応答１：「３番乗り場です」 • 応答２：「３番乗り場です．あと５分で発車します」 41 41 • 応答３：「今日は美術館はお休みですよ」 42 7 World Wide Web の発展 • 情報量の爆発的増大 – Webページ総数： 10億ページ（’99） ⇒ 100億ページ（’05） • 多様な情報トピック４ – 事実に基づく情報（企業HP，分野毎の情報集約サイトなど） – 口コミ情報（blog，SNS，掲示板など） – 辞書・事典（世界最大の百科事典Wikipediaなど），マルチメディア Web情報処理と自然言語処理 • 多様なサービス – 情報検索サービス – ショッピングサービスなど 43 一部のサービス（Google, Amazon, Yahooなど）は，WebサービスのAPI が公開されているため，自作プログラムの中からこれらのサービスを呼び出して簡単に利用することができる 44 Semantic Web: 次世代のWebの形情報の海に溺れないために • 検索エンジンの高度化 • 現在の Web の仕組み（html）は人間向け（人間がブラウザでページを見た時に内容を理解しやすいように作られている）．ページ表示以上の知的な処理を機械に行わせるには不向き – Google の PageRank アルゴリズム • 「重要度の高い」ページを検索結果の上位に表示する • ページ間のリンク関係を基に各ページの重要度を算出 ⇒ WWWの発明者である Tim Berners-Leeが新たな仕組み Semantic Web を提案 – キーワード検索の限界を超える情報検索 • 隣接する単語の構造（→句，文）を考慮に入れた検索 • 領域を限定し，専門知識を援用する情報検索 Web上のデータに対してその「意味」を表すメタデータを付加することにより，機械によるデータ検索，推論を可能とする，「機械的な処理が可能な」次世代のWeb方式 • 情報統合 – Web 上に散在する類似した情報を統合し，関連する情報を整理して出力する – メタデータの記述形式 RDF （Resource Description Framework） • 人工知能における知識表現形式に基づき，XMLデータとして記述する – データの関係の記述 OWL（Web Ontology Language）自然言語処理の技術が鍵となる！ 45 • 記述論理（Description Logic）に基づく推論が可能 46 研究事例３：言語の意味を考慮に入れた Web 情報検索（現在やっている研究） RDF/XML による知識の記述例 <rdfs:Class rdf:ID=“Animal”/> <rdfs:Class rdf:ID=“Human”> <rdfs:subClassOf rdf:resource=“#Animal”/> <ex:use rdf:resource=“#Instrument”/> </rdfs:Class> <rdfs:Class rdf:ID=“Bear”> <rdfs:subClassOf rdf:resource=“#Animal”/> </rdfs:Class> • 情報検索の手法 Animal subClassOf subClassOf Human Bear <rdfs:Class rdf:ID=“Telescope”> <rdfs:subClassOf rdf:resource=“#Instrument”/> </rdfs:Class> – 対象分野の Web ページを言語解析し，内容を理解する – ユーザの入力に対しても言語解析を行い，Web ページ上の情報と照らし合わせて解を求める use Instrument <rdfs:Class rdf:ID=“Instrument”/> – 言語知識および専門分野に関する知識を用意しておく • 具体的な研究テーマ – Web 上のお出かけ情報の抽出と観光地推薦への応用 subClassOf – Web 上の情報工学教材の体系化と検索・推薦 Telescope – Web 上の評判情報抽出（映画，小説，音楽など） 47 48 8 Yahoo!映画， Amazon の研究事例：レビュー記事からの特徴語の抽出レビュー記事 Web上のレビュー情報に基づく推薦システム（卒業研究）．．．北野監督は車を使うシーンは絶妙に上手いですね。．．．今の時代貴重な任侠映画。．．．言語解析・特徴抽出重み付け車車シーン選択時代任侠映画任侠映画映画（または楽曲）データベース．．．聴いていると明るい気持ちになれる。．．．冬にぴったりな力強いバラード．．．希望を表す言葉言語理解・照合・推薦判断ユーザおすすめ映画（または楽曲）【心理表現】明るい【鑑賞状況】冬 49 50 トピック４のまとめここまでのまとめ • 「知識は力なり（Knowledge is Power）」再び – Web 上には膨大な量の知識（一般常識も専門的な知識も）が記述されている。 – 自然言語処理技術を用いることにより，それらを巨大な知識ベースとして活用できるようになれば「知識獲得ボトルネック」を解決できる • トピック１：「言語」のモデル化と処理 • トピック２：人工知能と自然言語処理 • トピック３：自然言語インタフェース • トピック４： Web情報処理と自然言語処理 • 増え続ける情報の海にユーザを溺れさせないためにも，情報の検索・取捨選択・整理を自動化できる部分はなるべく自動化したい 51 52 自然言語処理の研究と情報工学科カリキュラムの関係自然言語処理モデル化のツール３．終わりに・・・３年次２年次モデル化の内容自然言語処理データ解析法人工知能ソフトウェア工学パターン認識 H.C.インタラクション数理論理学コンパイラシステム化の基礎高度情報演習データ構造とアルゴリズムプログラミング言語論基礎情報演習形式言語とオートマトン１年次 53 離散数学確率論と情報理論プログラミング入門 54 9 アドバイスそして・・・１．数学をよく学ぶ – どんな応用分野でも，問題のモデル化に数学が必要 – 微積分，線形代数，離散数学，論理学，統計学２．プログラミングをマスターする夢を持とう（見つけよう） – どんな研究でも，コンピュータによる動作実験は不可欠 – 情報技術者にとってプログラムは作品 ⇒ より良いもの（高機能，汎用，高速，明解，高保守性など）を目指す – 最低限，C言語（１年～）と Java（３年で習う）をマスター３．資格取得（基本情報，応用情報など）を目標にする４．英語に意識的に接するようにする（何でもよい） – 慣れると，抵抗感を感じなくなる 55 56 10