Document

再帰型神経回路網による
単語クラスタリングに関する研究
兵藤 大輔
2002/2/18
北陸先端科学技術大学院大学
知識科学研究科 知識システム構築論講座
1
本発表の流れ
1.
2.
3.
4.
5.
研究背景(Elman[1990])
問題提起と目的提示
実験手法
実験、結果
まとめ
2
Elman[1990]の単語クラスタ
smell
move
see
break
smash
sleep
eat
dog
think
exit
自動詞
自/他動詞
like
他動詞
chase
mouse
cat
動物
monster
lion woman
dragon
girl
man
boy
car
book
rock
sandwich
cookie
bread
plate
glass
生物
人
食物
こわれる物
無生物
3
SRN(Simple Recurrent Neural Network)
1ステップ前の隠れ層の状態を文脈層に保持し、
時系列処理を可能にする
Output Units
Hidden Units
weight 1.0
Input Units
Context Units
4
Elman[1990]の語系列予測課題
課題
文の中の次に続く単語の予測
教師信号は次に入力する単語
(例) “dog” “chase” “cat”
入力“dog” ・・・・出力“chase”
入力“chase”・・・・出力“cat”
5
Elmanの単語クラスタリング
• SRNに語系列予測課題を与え、隠れ層 の
活性化パターンによる単語の階層的クラスタを
構築した上で、意味の近さの階層構造ができた
と主張
見かけ上構文情報のみの例文から、
単語の意味のようなものをSRNが獲得した
[Elman,1990]
6
しかし・・・・本当に“意味”を学習したの?
• 隠れ層状態は単に前の単語(文脈層)情報を
反映している“だけ”とも考えられる
– 反映しているのは事実(○)
– 意味的特徴の学習(?)
• 意味的な概念は獲得していない?
– 学習によるものと、文脈情報を直接使っているもの
との、切り分けが明らかになっていない
目的 Elmanの主張[1990]の妥当性を検証する
7
定義
• 意味的・・・人・動物・食物とするような範疇
• 文法的・・・我々が品詞とする名詞・動詞の
ような範疇
8
Elman[1990]の検証方法
単語の並び(語系列)だけを反映するような
他の手法を使い、間接的に検証
[Pollak,1990]
RAAM(Recursive Auto-Associative Memory)
9
RAAMで検証する理由
問題・・・
データ幅が同一でないと、うまく階層構造
クラスタが作れない
•RAAMは可変長データを同一長データとして
隠れ層の内部表現を得られる
10
Recursive Auto-Associative Memory
エンコード部で作られる圧縮表現の使用
((Nil,dog),chase)
文脈情報
エンコード部
cat
出力層
隠れ層
STACK
本研究ではここでの重み更新なし
((Nil,dog),chase)
cat
入力層
11
(1) RAAM隠れ層表現のクラスタリング
• RAAMの隠れ層表現から、Elmanの結果と
同一のクラスタができるか検証する
RAAMは前の単語列を単純に反映しているので、この
実験の評価が良ければ、Elmanの単語クラスタは
前の単語列を反映しただけ であるといえる。
12
(2) SRNの学習の可能性
Elmanの単語クラスタの成立要因のほとんどが文脈情
報であると言えた。しかし入力層側での学習が行われ
ている(行われ得る)ことは否定できない。
• SRNの入力層と隠れ層の間(入力層側)
に、
文脈層の影響を受けない層を追加する
13
文脈層と結合のない隠れ層
Output Units
HiddenUnitsA
weight 1.0
Context Units
HiddenUnitsB
Input Units
Elmanのクラスタが
できるのなら意味的
なものを学習してい
る。
14
実験手順
1. RAAMの隠れ層表現からElman[1990]の
ようなクラスタリングを行う
ー文脈情報を直接使うだけで単語クラスタが
できることを示す
2.SRNに文脈層と結合のない隠れ層を追加し、
学習後、その層で階層的な単語クラスタが
得られるかを検証する
-学習を行っても入力層側では単語クラスタが
構築できないことを示す
15
例文生成のための規則
Category
Example
NOUN-HUM
man,woman
NOUN-FOOD
cookie,sandwich
VERB-TRAN
see,chase
VERB-EAT
eat
ルール (全16ルー
ル)
•NOUN-HUM
•NOUN-HUM
VERB-TRAN
NOUN-HUM
VERB-EAT
NOUN-FOOD
•NOUN-ANIM VERB-AGPAT NOUN-INANIM
[Elman1990]
16
入力データ・・Local coding
単純な2単語、3単語の文
• (dog),(chase),(cat)
• (man),(break),(glass)
(man)
(chase)
(cat)
0100000000…00
0000000100…00
0000100000…00
・・31bits
例 (dog),(chase),(cat)
0100000000….00 0000000100….00 0000100000….00
17
クラスタリング
•
入力単語に対応する隠れ層表現で階層的な木
を作る。
1.個々の単語に対応する隠れ層表現
(全ての文脈における表現の平均)の決定
2.それぞれの単語の表現について他の全ての
単語の表現とのユークリッド距離を測る
3.この距離を使って階層的なクラスタの木を作る
18
追実験
man
girl
boy
lion
woman
cat
dog
mouse
dragon
monster
book
glass
sandwich
cookie
plate
bread
rock
see
break
move
think
smash
eat
chase
smell
sleep
1-10 第1語、第3語
11-17 第3語
18-26 第2語
平方距離
19
RAAMによる単語クラスタ
man
woman
girl
cat
dog
mouse
boy
lion
dragon
monster
book
cookie
glass
bread
sandwich
plate
rock
see
break
chase
eat
move
smell
sleep
think
smash
1-10 第1語、第3語
11-17 第3語
18-26 第2語
平方距離
20
結果(1)
RAAMの隠れ層表現からElmanの示したような
単語クラスタができた。
文脈情報を直接使うだけで、Elmanが示した
ような単語クラスタができる
21
隠れ層A の表現から
Output Units
HiddenUnitsA
weight 1.0
Context Units
Hidden Units B
Input Units
22
隠れ層A(文脈層と結合)の単語クラスタ
man
woman
girl
boy
lion
mouse
dog
cat
dragon
monster
book
rock
sandwich
bread
cookie
plate
glass
see
smell
chase
think
smash
sleep
break
eat
move
1-10 第1語、第3語
11-17 第3語
18-26 第2語
平方距離
23
隠れ層Bの表現から
Output Units
HiddenUnitsA
weight 1.0
Context Units
Hidden Units B
Input Units
24
文脈依存なし隠れ層Bの単語クラスタ
man
see
dragon
smash
sleep
think
eat
cat
bread
plate
chase
woman
mouse
break
monster
sandwich
boy
lion
rock
book
glass
cookie
smell
dog
move
girl
1-10 第1語、第3語
11-17 第3語
18-26 第2語
平方距離
25
文脈の無い入力による
隠れ層Aの表現から
Output Units
HiddenUnitsA
weight 1.0
Context Units
Hidden Units B
Input Units
26
文脈無し隠れ層A(文脈層と結合)の単語クラスタ
man
see
dragon
smash
sleep
think
cat
bread
eat
plate
chase
woman
monster
mouse
break
sandwich
boy
lion
rock
book
glass
cookie
smell
dog
move
girl
1-10 第1語、第3語
11-17 第3語
18-26 第2語
平方距離
27
結果(2)
文脈依存の無い層では単語クラスタは
構築できなかった
学習を行っても文脈情報がない入力側には
単語クラスタは構築できなかった
28
まとめ
Elmanの示した単語クラスタは・・・・
• 文脈情報を直接使うだけで構築できる
– 重みの更新のないRAAMでも構築できた
• 学習を行っても入力層側には構築できない
– 文脈依存のない層や文脈の無い入力では構
築できなかった
Elmanが示したクラスタはSRNが文法的・
意味的なものを獲得したとする根拠を持たない
29
今後の課題
文例だけから学習できる「意味」が何かを明らかにするために
• 文法規則のどこまでが統計的処理(文脈情報
のみ)で表現できるかを調べる。
• さらに長い文において統計的処理だけで
単語クラスタを表現できるのかを調べる
30
END
31
32
特徴的な3つのクラスタ
RAAM
(ユニット
150)
RAAM
(ユニット10)
隠れ層A
boy,girl,man,woman, book,rock,sandwich, see,break,smash, eat,
mouse,cat,dog,lion, cookie,bread,plate, chase,smell,think,
dragon,monster
sleep
glass
boy,girl,man,woman, book,rock,sandwich, see,break,smash, eat,
mouse,cat,dog,lion, bread, glass
chase,smell,think,
dragon,monster
sleep,cookie,plate
boy,girl,man,woman, book,rock,sandwich, see,break,smash, eat,
mouse,cat,dog,lion, cookie,bread,plate, chase,smell,think,
dragon,monster
sleep
glass
•隠れ層B・・・特徴的なクラスタなし
•入力に文脈を持たせない場合の隠れ層A
・・・特徴的なクラスタなし
33
文例だけから学習できる「意味」が
何であるのかを明らかにする
• 子供は言葉の意味を事物との対応で学習
• 大きくなると過去学習した単語の意味の組合わせ
で、具体的な言葉や抽象的な言葉を学習していく
我々の使っている言葉の多くにもそれは言える
のではないだろうか?
文例だけでもある程度まではうまくいくのではないか
34
RAAMによる単語クラスタ(ユニット数10)
man
woman
boy
monster
dog
lion
dragon
mouse
girl
cat
book
rock
bread
glass
sandwich
cookie
plate
break
move
eat
smell
see
smash
chase
think
sleep
1-10 第1語、第3語
11-17 第3語
18-26 第2語
平方距離
35
man
girl
boy
lion
woman
cat
dog
mouse
dragon
monster
book
glass
sandwich
plate
cookie
bread
rock
see
break
move
think
smash
eat
chase
smell
sleep
学習無しSRNの単語クラスタ
1-10 第1語、第3語
11-17 第3語
18-26 第2語
平方距離
36
Bakerのパラドックス(1979)
• 子供の言語獲得
– 「このような文は文法的でない」という情報が
ないのに、過剰に生成される文法的でない文
をそぎ落としている。
否定証拠欠如問題、そぎ落とし問題。
37
RAAM
STACK1
TOP
NIL
出力層
X
デコーダ
(NIL,X)
中間層
STACK2
エンコーダ
NIL
(NIL,X)
入力層
X
STACK1
TOP
Y
38
例文 dog chase cat
STACK1
((NIL,dog),chase)
(NIL,dog)
NIL
TOP
dog
chase
cat
(((NIL,dog),chase),cat)
((NIL,dog),chase)
(NIL,dog)
(((NIL,dog),chase),cat)
((NIL,dog),chase)
(NIL,dog)
NIL
STACK2
chase
cat
dog
STACK1
TOP
chase
cat
cat
39
例文 dog chase cat
STACK1’
((NIL,dog),chase)
(NIL,dog)
NIL
TOP’
dog
chase
cat
デコーダ
(((NIL,dog),chase),cat)
((NIL,dog),chase)
(NIL,dog)
STACK2
エンコーダ
(((NIL,dog),chase),cat)
((NIL,dog),chase)
(NIL,dog)
NIL
chase
cat
dog
STACK1
TOP
chase
cat
cat
40
RAAMの隠れ層表現
隠れ層ユニット数をNとすると
• 入力 “dog” “chase” “cat”
1. (NIL,dog)
・・・・N次元ベクトル
2. ((NIL,dog),chase)
・・・・N次元ベクトル
3. (((NIL,dog),chase),cat) ・・・・N次元ベクトル
データ幅をそろえることができる
41