ACL2016読み会@すずかけ台 Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric Learning for Kernel Regression E.Dario Gutierrez, Roger Levy, Benjamin Bergen 紹介者:笹野遼平(東工大) Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric Learning for Kernel Regression • ACL2016のBest Paper • 著者: E.Dario Gutierrez, Roger Levy and Benjamin Bergen cf. Literal and Metaphorical Senses in Compositional Distributional Semantic Models • トピック: 言語の恣意性(の否定的な立場の検証) – 犬を"dog"と呼ぶことには必然性はない – しかし、まったく言葉の形状と意味に関係がないわけではない • 手法: String-Metric Learning for Kenel Regression – 意味的類似度(by SkipGram)を再現するように Weighted Edit Distance を学習し検証 • 結論: 語の形状と意味の間には先行研究で 示されているよりも強い関係 2 Background • 言語の恣意性 in 言語学 – 語のformはmeaningと関係がないという考え方 – しかし、例外も多く知られている • phonaestheme: 多くの語に共通する音(gl-等)の存在 • iconicity: 性質(サイズ等)と形状間の関係(cf. オノマトペ) • 関連する用語 – Word: いわゆる語のこと (e.g. dog, cat) – Morpheme: 形態素 (e.g. discovered) – Phon(a)estheme: 象徴素 (e.g. glow, glaze) 3 既存手法: Local/Globalなアプローチ • Local: 特定のphonosemantic setに着目 – 直観・観察により特定されていたphonosemantic set (=局所的なform-meaning pattern)を経験的手法により確認 – e.g. (Hutchins,1998; Magnus, 1998; Bergen, 2004) • Global: 全体的なphonosemanticに着目 – 音素レベルの編集距離と分布意味論的距離の 相関により全体的なsystematicityを検証[Shillcock+’01] – 英語におけるsystematicityは特定のクラスターではなく 広範に分布[Monaghan+’14] 本研究: Local/Globalな手法のGapを解消 4 提案手法の概要 • カーネル回帰(kernel regresion) – Predictor: 語を構成する文字列(string-valued) – Target: 語の意味のベクトル表現(vector-valued) – + • String-Metric Learning – 語の類似度を、重み付き編集距離で表現 – 各重みはMetric Learningで学習 5 • 回帰: 前提1: Kernel Regression を入力として を予測 • カーネル回帰: 入力と他のデータとの関係性を利用 – はカーネルで、例えば2点間の距離尺度 を用いて以下のように定義される(拡散カーネル) 6 前提2: MLKR [Weinberger&Tesauro’07] Metric Learning for Kernel Regression • Xがベクトルだとすると一般的には各次元は 同様に重要なものとして扱うがその保証はない ⇒ Task-specificなマハラノビス距離 ⇒ (=重み付き ユークリッド距離)を学習 – leave-one outしたときの平均2乗誤差(MSE)を 最適化することで、重みWを学習 7 String-Metric Learning for Kernel Regression (SMLKR) • MLKRを入力値が実数ベクトルではなく文字 列である場合に拡張 – やっていることは単純 • 編集操作 ごとに重み • X間の距離を以下で定義 8 実験設定 • 実験対象: 4949 monomorphemic word (=単独の形態素から構成される語) • 意味ベクトルの学習 – 学習コーパス: UKWaC, BNC, Wikpedia – モデル: SkipGram (Word2Vec in GENSIM) • デフォルトパラメータ • 次元数100で、ノルムを1に正規化 • SMLKRの学習: L-BFGS-B (B: [Byrd et al.’95]) – 各重みが正という制約付きのL-BFGS 9 Non-Arbitrariness性の確認 • 実験1: – 構築モデルは、arbitraryだとした場合(=文字列と意味ベクトルの 組み合わせをシャッフル)にもあり得るか?⇒ No (p<.001) • 実験2: – 予測値と実際の値の相関係数は十分に高いか? • 0.016 : [Monaghan+’14] with binary phonological features • 0.0194: Word2Vecによる距離 vs 編集距離(重みなし) • 0.0464: Word2Vecによる距離 vs SMLKRで学習した編集距離 • 実験3: – 2語を与えた場合の、回帰モデルにより推定した意味的距離と、 実際の意味的距離の相関: 0.1028 (p<.001) 従来手法よりも形状と意味に強い関係 10 Most Systematic Wordの分析 • [Monaghan+’14]: – 語を1つ抜いた時の globalなcorrelationの 低下量で評価 – 低下量が大きいなら Systematic Word • SMLKR: – 語の回帰誤差で評価 – 誤差が小さいなら Systematic Word 11 語の先頭2文字の影響 • 先頭2文字が共通する語ごとにまとめて、各グループごとの 予測誤差の平均が他のグループより有意に小さいか検証 ⇒ Systematicityは一様に分布しておらず偏りが存在 12 まとめ • ACL 2016のBest Paper • トピックは言語の恣意性 • String-Metric Learning for Kernel Regression (SMLKR)を用いてモデル化 – 従来考えられていたよりも語の形状と意味の間 には強い関係があることを示唆 – Systematicityは一部の文字列に偏って存在 13 感想 • これをBest Paperに選ぶのは流石ACLという印象 – かなり多くの言語学的背景をふまえた研究 cf. 人間の言語の特徴13か条[by Hockett], パターンの二重性 – 言語学的な課題を計算を用いて解決 • Metric Learning + Kernel Regression • 気になったところ – 分析に使う語と、学習に使用した語のセットが同じ? • おそらく過学習はしてない気はするけれど… – 結果の解釈が難しい(相関係数0.0464をどう考えるか) 14
© Copyright 2024 ExpyDoc