再帰型神経回路網による 単語クラスタリングに関する研究 兵藤 大輔 2002/2/18 北陸先端科学技術大学院大学 知識科学研究科 知識システム構築論講座 1 本発表の流れ 1. 2. 3. 4. 5. 研究背景(Elman[1990]) 問題提起と目的提示 実験手法 実験、結果 まとめ 2 Elman[1990]の単語クラスタ smell move see break smash sleep eat dog think exit 自動詞 自/他動詞 like 他動詞 chase mouse cat 動物 monster lion woman dragon girl man boy car book rock sandwich cookie bread plate glass 生物 人 食物 こわれる物 無生物 3 SRN(Simple Recurrent Neural Network) 1ステップ前の隠れ層の状態を文脈層に保持し、 時系列処理を可能にする Output Units Hidden Units weight 1.0 Input Units Context Units 4 Elman[1990]の語系列予測課題 課題 文の中の次に続く単語の予測 教師信号は次に入力する単語 (例) “dog” “chase” “cat” 入力“dog” ・・・・出力“chase” 入力“chase”・・・・出力“cat” 5 Elmanの単語クラスタリング • SRNに語系列予測課題を与え、隠れ層 の 活性化パターンによる単語の階層的クラスタを 構築した上で、意味の近さの階層構造ができた と主張 見かけ上構文情報のみの例文から、 単語の意味のようなものをSRNが獲得した [Elman,1990] 6 しかし・・・・本当に“意味”を学習したの? • 隠れ層状態は単に前の単語(文脈層)情報を 反映している“だけ”とも考えられる – 反映しているのは事実(○) – 意味的特徴の学習(?) • 意味的な概念は獲得していない? – 学習によるものと、文脈情報を直接使っているもの との、切り分けが明らかになっていない 目的 Elmanの主張[1990]の妥当性を検証する 7 定義 • 意味的・・・人・動物・食物とするような範疇 • 文法的・・・我々が品詞とする名詞・動詞の ような範疇 8 Elman[1990]の検証方法 単語の並び(語系列)だけを反映するような 他の手法を使い、間接的に検証 [Pollak,1990] RAAM(Recursive Auto-Associative Memory) 9 RAAMで検証する理由 問題・・・ データ幅が同一でないと、うまく階層構造 クラスタが作れない •RAAMは可変長データを同一長データとして 隠れ層の内部表現を得られる 10 Recursive Auto-Associative Memory エンコード部で作られる圧縮表現の使用 ((Nil,dog),chase) 文脈情報 エンコード部 cat 出力層 隠れ層 STACK 本研究ではここでの重み更新なし ((Nil,dog),chase) cat 入力層 11 (1) RAAM隠れ層表現のクラスタリング • RAAMの隠れ層表現から、Elmanの結果と 同一のクラスタができるか検証する RAAMは前の単語列を単純に反映しているので、この 実験の評価が良ければ、Elmanの単語クラスタは 前の単語列を反映しただけ であるといえる。 12 (2) SRNの学習の可能性 Elmanの単語クラスタの成立要因のほとんどが文脈情 報であると言えた。しかし入力層側での学習が行われ ている(行われ得る)ことは否定できない。 • SRNの入力層と隠れ層の間(入力層側) に、 文脈層の影響を受けない層を追加する 13 文脈層と結合のない隠れ層 Output Units HiddenUnitsA weight 1.0 Context Units HiddenUnitsB Input Units Elmanのクラスタが できるのなら意味的 なものを学習してい る。 14 実験手順 1. RAAMの隠れ層表現からElman[1990]の ようなクラスタリングを行う ー文脈情報を直接使うだけで単語クラスタが できることを示す 2.SRNに文脈層と結合のない隠れ層を追加し、 学習後、その層で階層的な単語クラスタが 得られるかを検証する -学習を行っても入力層側では単語クラスタが 構築できないことを示す 15 例文生成のための規則 Category Example NOUN-HUM man,woman NOUN-FOOD cookie,sandwich VERB-TRAN see,chase VERB-EAT eat ルール (全16ルー ル) •NOUN-HUM •NOUN-HUM VERB-TRAN NOUN-HUM VERB-EAT NOUN-FOOD •NOUN-ANIM VERB-AGPAT NOUN-INANIM [Elman1990] 16 入力データ・・Local coding 単純な2単語、3単語の文 • (dog),(chase),(cat) • (man),(break),(glass) (man) (chase) (cat) 0100000000…00 0000000100…00 0000100000…00 ・・31bits 例 (dog),(chase),(cat) 0100000000….00 0000000100….00 0000100000….00 17 クラスタリング • 入力単語に対応する隠れ層表現で階層的な木 を作る。 1.個々の単語に対応する隠れ層表現 (全ての文脈における表現の平均)の決定 2.それぞれの単語の表現について他の全ての 単語の表現とのユークリッド距離を測る 3.この距離を使って階層的なクラスタの木を作る 18 追実験 man girl boy lion woman cat dog mouse dragon monster book glass sandwich cookie plate bread rock see break move think smash eat chase smell sleep 1-10 第1語、第3語 11-17 第3語 18-26 第2語 平方距離 19 RAAMによる単語クラスタ man woman girl cat dog mouse boy lion dragon monster book cookie glass bread sandwich plate rock see break chase eat move smell sleep think smash 1-10 第1語、第3語 11-17 第3語 18-26 第2語 平方距離 20 結果(1) RAAMの隠れ層表現からElmanの示したような 単語クラスタができた。 文脈情報を直接使うだけで、Elmanが示した ような単語クラスタができる 21 隠れ層A の表現から Output Units HiddenUnitsA weight 1.0 Context Units Hidden Units B Input Units 22 隠れ層A(文脈層と結合)の単語クラスタ man woman girl boy lion mouse dog cat dragon monster book rock sandwich bread cookie plate glass see smell chase think smash sleep break eat move 1-10 第1語、第3語 11-17 第3語 18-26 第2語 平方距離 23 隠れ層Bの表現から Output Units HiddenUnitsA weight 1.0 Context Units Hidden Units B Input Units 24 文脈依存なし隠れ層Bの単語クラスタ man see dragon smash sleep think eat cat bread plate chase woman mouse break monster sandwich boy lion rock book glass cookie smell dog move girl 1-10 第1語、第3語 11-17 第3語 18-26 第2語 平方距離 25 文脈の無い入力による 隠れ層Aの表現から Output Units HiddenUnitsA weight 1.0 Context Units Hidden Units B Input Units 26 文脈無し隠れ層A(文脈層と結合)の単語クラスタ man see dragon smash sleep think cat bread eat plate chase woman monster mouse break sandwich boy lion rock book glass cookie smell dog move girl 1-10 第1語、第3語 11-17 第3語 18-26 第2語 平方距離 27 結果(2) 文脈依存の無い層では単語クラスタは 構築できなかった 学習を行っても文脈情報がない入力側には 単語クラスタは構築できなかった 28 まとめ Elmanの示した単語クラスタは・・・・ • 文脈情報を直接使うだけで構築できる – 重みの更新のないRAAMでも構築できた • 学習を行っても入力層側には構築できない – 文脈依存のない層や文脈の無い入力では構 築できなかった Elmanが示したクラスタはSRNが文法的・ 意味的なものを獲得したとする根拠を持たない 29 今後の課題 文例だけから学習できる「意味」が何かを明らかにするために • 文法規則のどこまでが統計的処理(文脈情報 のみ)で表現できるかを調べる。 • さらに長い文において統計的処理だけで 単語クラスタを表現できるのかを調べる 30 END 31 32 特徴的な3つのクラスタ RAAM (ユニット 150) RAAM (ユニット10) 隠れ層A boy,girl,man,woman, book,rock,sandwich, see,break,smash, eat, mouse,cat,dog,lion, cookie,bread,plate, chase,smell,think, dragon,monster sleep glass boy,girl,man,woman, book,rock,sandwich, see,break,smash, eat, mouse,cat,dog,lion, bread, glass chase,smell,think, dragon,monster sleep,cookie,plate boy,girl,man,woman, book,rock,sandwich, see,break,smash, eat, mouse,cat,dog,lion, cookie,bread,plate, chase,smell,think, dragon,monster sleep glass •隠れ層B・・・特徴的なクラスタなし •入力に文脈を持たせない場合の隠れ層A ・・・特徴的なクラスタなし 33 文例だけから学習できる「意味」が 何であるのかを明らかにする • 子供は言葉の意味を事物との対応で学習 • 大きくなると過去学習した単語の意味の組合わせ で、具体的な言葉や抽象的な言葉を学習していく 我々の使っている言葉の多くにもそれは言える のではないだろうか? 文例だけでもある程度まではうまくいくのではないか 34 RAAMによる単語クラスタ(ユニット数10) man woman boy monster dog lion dragon mouse girl cat book rock bread glass sandwich cookie plate break move eat smell see smash chase think sleep 1-10 第1語、第3語 11-17 第3語 18-26 第2語 平方距離 35 man girl boy lion woman cat dog mouse dragon monster book glass sandwich plate cookie bread rock see break move think smash eat chase smell sleep 学習無しSRNの単語クラスタ 1-10 第1語、第3語 11-17 第3語 18-26 第2語 平方距離 36 Bakerのパラドックス(1979) • 子供の言語獲得 – 「このような文は文法的でない」という情報が ないのに、過剰に生成される文法的でない文 をそぎ落としている。 否定証拠欠如問題、そぎ落とし問題。 37 RAAM STACK1 TOP NIL 出力層 X デコーダ (NIL,X) 中間層 STACK2 エンコーダ NIL (NIL,X) 入力層 X STACK1 TOP Y 38 例文 dog chase cat STACK1 ((NIL,dog),chase) (NIL,dog) NIL TOP dog chase cat (((NIL,dog),chase),cat) ((NIL,dog),chase) (NIL,dog) (((NIL,dog),chase),cat) ((NIL,dog),chase) (NIL,dog) NIL STACK2 chase cat dog STACK1 TOP chase cat cat 39 例文 dog chase cat STACK1’ ((NIL,dog),chase) (NIL,dog) NIL TOP’ dog chase cat デコーダ (((NIL,dog),chase),cat) ((NIL,dog),chase) (NIL,dog) STACK2 エンコーダ (((NIL,dog),chase),cat) ((NIL,dog),chase) (NIL,dog) NIL chase cat dog STACK1 TOP chase cat cat 40 RAAMの隠れ層表現 隠れ層ユニット数をNとすると • 入力 “dog” “chase” “cat” 1. (NIL,dog) ・・・・N次元ベクトル 2. ((NIL,dog),chase) ・・・・N次元ベクトル 3. (((NIL,dog),chase),cat) ・・・・N次元ベクトル データ幅をそろえることができる 41
© Copyright 2024 ExpyDoc