日本語 WordNet 類義語の誤り検出 Detection of Error Synonyms in

一般社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
IEICE Technical Report
日本語 WordNet 類義語の誤り検出
-コーパス利用の試み-
平尾
拓也†
宮田
光樹†
孝彦‡
鈴木
廣川
佐千男‡
†九州大学大学院システム情報科学府 〒819-0395 福岡市西区元岡 744 番地
‡九州大学情報基盤研究開発センター 〒812-8581 福岡県福岡市東区箱崎 6-10-1
E-mail: †{2ie14071e, 2ie13089s}@s.kyu-shu-u.ac.jp,
‡{hirokawa, suzuki}@cc.kyushu-u.ac.jp
あらまし 日本語 WordNet は自然言語処理において有用なツールであるが、5%の間違いが存在すると公式に認
められている。結果として、言語処理のデータベースとして信頼性の面に疑問が残る。本論文では、日本語 WordNet
内の間違いを抽出するいくつかの手法を提示する。
前半では日本語 WordNet それ単体のみを使用した手法を提示し、その結果を記述する。後半では日本語 WordNet
と、外部より準備したコーパスを使用し、構造上の間違いを抽出する手法を提示する。
キーワード
シソーラス,
WordNet,
日本語 WordNet,
Detection of Error Synonyms in Japanese WordNet
-A trial of using corpus-
Takuya HIRAO†
Kouki MIYATA†
Takahiko SUZUKI‡
Sachio HIROKAWA‡
†Kyushu University Graduate School of Information Science and Electrical Engineering
774, Motooka, Nishi-ku,
Fukuoka, 819-0395 Japan
‡Kyushu University Research Institute for Information Technology 6-10-1, Hakozaki, Higashi-ku, fukuoka, 812-8581
Japan
E-mail: †{2ie14071e, 2ie13089s}@s.kyu-shu-u.ac.jp, ‡{hirokawa, suzuki}@cc.kyushu-u.ac.jp
Abstract Lexical Database the Japanese WordNet is a useful tool in natural language processing. However, it is officially
announced that Japanese WordNet contains 5% errors. In this paper, we discuss error detection methods in the Japanese
WordNet.
キーワード
Thesaurus,
WordNet,
Japanese WordNet,
1. は じ め に
日 本 語 WordNet[1,2] は Princeton 大 学 が 開 発 し た
の発見を主眼にしており、この間違いのことを「類義
語の間違い」と呼んでいる。
WordNet[3]を 用 い た 言 語 デ ー タ ベ ー ス で あ る 。 日 本 語
WordNet は 自 然 言 語 処 理 に お い て 有 用 で あ り 、 様 々 な
英 語 で な い WordNet や WordNet に 似 た 言 語 デ ー タ ベ
実 験 に 使 用 さ れ て い る [4] 1 。 フ リ ー の Web シ ソ ー ラ ス
ースの作成という点において、複数のプロジェクトが
サ ー ビ ス に お い て 、日 本 語 WordNet は 一 般 的 に 使 用 さ
行 わ れ て い る 。 日 本 語 WordNet や Chinese Open
れ て い る 。し か し な が ら 、現 行 の 日 本 語 WordNet は 間
WordNet[5]は 、 ブ ー ト ス ト ラ ッ プ の 段 階 で 、 Princeton
違 い を 5%ほ ど 含 ん で い る と 作 成 者 ら が 認 め て お り [2]、
WordNet の マ ッ ピ ン グ 手 法 を 用 い て 半 自 動 生 成 さ れ て
そ れ ら の 間 違 い が 日 本 語 WordNet の 使 い や す さ に 影 響
いる。
を及ぼしている可能性がある。
ま た 、 Universal WordNet[6] や Babel Net[7] 、 Open
本 論 文 で は 、わ れ わ れ が 検 証 し た 日 本 語 WordNet の
Multilingual WordNet[8]と い っ た 、 WordNet の 拡 張 に よ
間違い探知手法において議論する。間違い探知は日本
る統合、多言語概念字句データベースの生成の試みも
語 WordNet の 間 違 い 修 正 の 第 一 段 階 で あ る 。こ の 手 法
なされている。概念と語句、または複数の概念間の関
は、大規模言語データベースの作成に有用であると考
係 は 、Wikipedia や タ グ 付 け コ ー パ ス の よ う な 様 々 な 資
え る 。我 々 は 特 に 日 本 語 WordNet の 似 た よ う な 間 違 い
源から自動的に抽出することが可能である。それらに
1
Weblio, http://ejje.weblio.jp
This article is a technical report without peer review, and its polished and/or extended version may be published elsewhere.
Copyright ©2014 by IEICE
よって得られた統合データベースの品質は、生成者自
ロジェクトの目的は、誰でも自由に使用可能な大規模
身や、ネットワークコミュニティによって評価されて
日本語データベースを提供することである。このデー
きた。
タ ベ ー ス は 2006 年 か ら 開 発 さ れ て い る 。
WordNet は 、 オ ン ト ロ ジ ー の ひ と つ と し て み な す こ
日 本 語 WordNet の 構 造 は 、Princeton WordNet に 準 拠
と が で き る 。多 言 語 WordNet を 生 成 す る 場 合 に は 、言
し て い る [1]。し か し 、日 本 語 と 英 語 と い う 言 語 の 違 い
語数に応じたオントロジー間のマッピングをする必要
が 存 在 す る た め 、日 本 語 WordNet は Princeton WordNet
がある。そのため、オントロジーの間違いの検出と修
に 含 ま れ て い な い オ リ ジ ナ ル の Synset を 含 ん で い る 。
正、オントロジー間のマッピングに関する研究がなさ
ま た 、日 本 語 WordNet は 、シ ソ ー ラ ス と し て の 精 度 よ
れてきた。これらの研究において、オントロジー内で
り多数の概念を包括することに主眼を置いている。
分類が間違っているものや、冗長もしくは 不適切であ
現 行 の 日 本 語 WordNet の 規 模 は 以 下 の と お り で あ る 。
る、または間違った関係性を生成されている箇所を修
・ 57,238 概 念 ( Synset 数 )
正する試みがなされてきた。
・ 93,834 語 ( 日 本 語 )
・ 158,058 語 義 ( 単 語 -synset ペ ア 数 )
間 違 い 検 出 の 手 法 と し て 、日 本 語 WordNet の み を 使
用した手法を動詞に適用した場合をベースラインとし
て 提 示 す る [9]。ま た 、コ ー パ ス を 用 い た 単 語 を ベ ク ト
ル化し、これらのコサイン類似度によって 名詞の間違
い検出の手法として使用できないかを議論する。
本 論 文 で は 、第 2 節 で WordNet と 日 本 語 WordNet の
説 明 、第 3 節 で 本 論 文 の コ ン セ プ ト と WordNet の 構 造
における「同義語の間違い」の一例を紹介する。第 4
節では間違いの抽出法に関するわれわれの手法の説明、
第 5 節では手法を用いた場合の結果の提示を行う。第
6 節 で は 、 本 手 法 の Princeton WordNet に お け る 応 用 例
と、関心を持っている別手法に 関しての説明、第 7 節
で word2vec を 用 い た 単 語 の ベ ク ト ル 化 と そ れ ら を 用
図 1 日 本 語 WordNet の Synset-同 義 語 間 リ ン ク 例
いた間違い検出の実験、第 8 節に今後の展望と課題を
述べる。
日 本 語 と リ ン ク を 持 つ Synset は 日 本 語 の gloss を 持
っ て い る 。日 本 語 WordNet の カ バ ー 範 囲 の 拡 張 の た め
2. WordNet と 日 本 語 WordNet
2.1. Princeton WordNet
Princeton WordNet は 英 語 の 大 規 模 言 語 デ ー タ ベ ー ス
に 、SUMO や Wikipedia、GoiTaikei[10]と い っ た 他 の リ
ソースが使用されている。
2.3. 他 言 語 の WordNet と WordNet の拡 張
である。名詞、動詞、形容詞、副詞といった品詞ごと
Princeton WordNet を 基 に し た 、 様 々 な 言 語 の 言 語 デ
に 、明 確 な コ ン セ プ ト を 持 っ た「 Synset」と い う 認 知 同
ータベース作成プロジェクトが存在する。一部のプロ
義 語 の セ ッ ト に 纏 め ら れ る 。 各 Synset は 固 有 の ID に
ジ ェ ク ト で は WordNet、Wikipedia 2 、Wiktionary 3 及 び そ
よ っ て 管 理 さ れ て お り 、Gloss と 呼 ば れ る 、Synset の 簡
の他の言語資源を用いて、多言語のごくデータベース
単な意味を説明するテキストがリンクされている。
を作成しようと試みている。
Synset は 概 念 -意 味 関 係 も し く は 字 句 ト ー ク ン 関 係 で
既存の言語資源と新しいデータベース間のマッピ
相 互 リ ン ク を 持 っ て い る 。単 語 が 持 つ 意 味 を Synset に
ングの正確さは、それによって出力されるデータベー
よ っ て グ ル ー プ 化 す る こ と が で き る た め 、 WordNet は
スの整合性の正しさを証明する指標になるので非常に
シソーラスとして使用できる。多義である単語が存在
重 要 で あ る 。新 し い 言 語 の WordNet を 作 成 す る こ と は 、
す る た め 、 単 語 は 複 数 の Synset に 属 す る こ と が あ る 。
他の言語からなる新しいオントロジーで表現されてい
2.2. 日 本 語 WordNet
る、既存のオントロジーからマッピングで作成すると
日 本 語 WordNet は Princeton WordNet を 基 に し た 、日
みなすことができる。
本 語 の 語 彙 デ ー タ ベ ー ス で あ る 。日 本 語 WordNet の プ
2
Wikipedia, http://ja.wikipedia.org
3
Wiktionary, http://ja.wiktionary.org
と ペ ア 関 係 を チ ェ ッ ク し た 。担 当 者 は そ の 後 、間
3. 日 本 語 WordNet の 間 違 い
違いの確認用のリストを作成した。
間違いの訂正は、新しく作成したオントロジーや、
オントロジー間のマッピングの整合性の確認において
4)
スクリーニング担当とは別のチェック担当者た
重 要 で あ る 。日 本 語 WordNet の 現 行 の バ ー ジ ョ ン で は 、
ちが独立して確認を行った。チェック担当者全
約 5%の 間 違 い が 含 ま れ て い る 。 ま た 、 Chinese Open
員 が 間 違 い と 判 断 し た Synset と 単 語 の ペ ア を 最
WordNet も 、 そ れ に 匹 敵 す る エ ラ ー 率 で あ る 。 本 節 の
終的な間違いとしてマークした。
残りでは、同義語における間違いにおける、エラーの
種類に焦点を当てる。
3.3. 間 違 いの種 類
結 果 と し て 900 単 語 中 、81 語( 9%)が 間 違 い だ と 判
3.1. 同 義 語 の間 違 い
WordNet の 構 造 に お い て 、
「 同 義 語 の 間 違 い 」を 、語
w m is s が 属 し て い る synset( S と す る ) の Gloss と 合 致
しない語であると定義する。
図 2 で は 、Synset 02651424-v に つ い て 図 示 し て い る 。
こ の Synset は「 泊 め る 」、
「 収 容 」、
「 宿 る 」、
「持ち込む」
という 4 つの同義語を持っている。
断された。それらは 3 つのエラーパターンに分類され
た。
Synset S 内 の す べ て の 日 本 語 の 同 義 語 を Syn(S)と 表
現 す る 。 ま た 、 Synset S 内 の 間 違 い を mis(S)と 表 現 す
る。
・ Syn(S)内 の 同 義 語 が 一 つ で な く 、 Syn(S)=mis(S)で
ある場合、S には全部型の間違いが存在していると呼
称した。
・ Syn(S) / mis(S) ≠ φ か つ mis(S) ≠ φ で あ る と
き 、 こ の Synset S は 一 部 型 の 間 違 い が 存 在 し て い る と
呼称した。
・Syn(S)内 の 同 義 語 が 一 つ し か な く 、Syn(S)=mis(S)
である場合、S には単独型の間違いが存在していると
呼称した。
全 81 個 の 間 違 い の う ち 、 26 個 が 一 部 型 、 27 個 が
全 部 型 、28 個 が 単 独 型 の 間 違 い で あ っ た 。こ の 種 類 を
数 え る 際 、 我 々 は 81 個 の 単 語 と Synset の 間 の リ ン ク
を対象とした。
4. 間 違 い の 抽 出 方 法
我 々 は 日 本 語 WordNet 単 体 で 間 違 い を 抽 出 す る 方 法
を 試 し た 。 わ れ わ れ の 手 法 は 日 本 語 WordNet 以 外 の 、
図 2 同義語の間違いの具体例
限 定 的 な 情 報 し か 持 た な い WordNet 構 造 の デ ー タ ベ ー
スにも使用することができる。
こ の う ち 、「 持 ち 込 む 」 と い う 単 語 は こ の Synset
02651424-v に お い て 同 義 語 の 間 違 い で あ る と い え る 。
4.1. Synset-同 義 語 間 リンクによる抽 出
は じ め に 提 示 す る 抽 出 手 法 は 、 Synset と 同 義 語 の リ
ン ク の み を 用 い た 手 法 で あ る 。 以 降 の 記 述 で は Synset
3.2. 予 備 実 験
我 々 は 日 本 語 WordNet 内 の 間 違 い を 手 動 で チ ェ ッ ク
し た 。今 回 対 象 と し た の は 動 詞 で あ る 。理 由 と し て は 、
がリンクを持っている単語を w と定義する。
単 語 w と Synset S に お い て の 、w の 重 複 Synset
SC
は以下の式で表現される。
WordNet の 構 造 内 で の 間 違 い は 、 名 詞 よ り 動 詞 の ほ う
が多く報告されていたためである。
SC(w) = {Sk |w ∈ syn(Sk)}
以下は、今回の実験で間違いを確認した際の手順で
ある。
1)
Synset 重 複 は 、 単 語 w と リ ン ク を 持 つ す べ て の
日 本 語 能 力 検 定 (JLPT)に 登 場 す る 単 語 の う ち 、
Synset-ID に つ い て 定 義 さ れ る 。 図 3 に SC(売 る )を 例
WordNet に 登 録 さ れ て い る も の を 無 作 為 に 900
として図示する。
語抽出する。
2)
3)
抽 出 し た 単 語 の 同 義 語 を 含 む Synset を 日 本 語
図 1 での単語である商う, 売り買い, 売買, 売る は
WordNet か ら 抽 出 す る 。
同 じ Synset
ス ク リ ー ニ ン グ 担 当 者 が す べ て の Synset と 動 詞
ン ク を 持 っ て い る 。 つ ま り 、 SC(商 う ), SC(売 り 買 い ),
002260362-v と 002244956-v の 2 つ に リ
SC(売 買 ) ,SC(売 る ) は 2 個 あ る い は そ れ 以 上 の 要 素 を
3)
SOL(Si)の 最 小 値 を と る 。
持っていることになる。
mSOL (Si) = min (SOL (w j ,w k )) (for all w j ,w k ∈
Si )
4)
mSOL(Si) < γ.で あ る 場 合 、 間 違 い の 可 能 性 が
あるとタグ付けする。
γ は 閾 値 で あ る 。 (γ < 1 )
GC(w) を 用 い た 手 法 は 、 SC(w) を そ れ ぞ れ SC(w),
SOL(w j, w k ), and
mSOL(Si)
(Gloss Overlap)、 mGOL(S i )
最小値)
から
GC(w), GOL(w j ,w k )
(Synset S の gloss overlap
に置き換えたものとなる。
4.4. 手 法 の適 用 性
4.3 の 手 法 を 適 用 す る に は 、Synset が 一 定 の 状 態 を 満
たしている必要がある。
状 態 4.3
・ Synset 内 に は 2 つ 以 上 の 単 語 が 登 録 さ れ て い る 必
要がある。
図 3 SC(売 る )の 図
・われわれの手法は単独型の間違い抽出に使用する
4.2. Gloss-同 義 語 リンクによる抽 出
ことができない。
二 つ 目 の 手 法 は gloss に 含 ま れ て い る 単 語 を 使 用 す
る。
・仮 説 が 絶 対 的 な も の で は な い 。た と え ば「 切 る 」と
Synset S に 含 ま れ て い る gloss と 文 例 に 存 在 す る す
「 混 ぜ る 」 は Synset 01418667-v (ラ ン ダ ム な 順 序 や 配
べ て の 日 本 語 の 単 語 を glossw(S)={w1,w2,…}. と す る 。
置 に な る よ う に 混 ぜ る )で 同 義 語 で あ る が 、他 の Synset
単 語 w に お け る gloss-coverage (GC) は 以 下 の 式 で 表
で同時に出現することが起こっていない。
される。
GC(w)= {uk| uk ∈ glossw(Sj), Sj ∈ SC(w)}
5. 日 本 語 WordNet 内 で の 一 部 型 の 間 違 い
における結果
SC(w1) と SC(w2)が 同 じ 要 素 を 持 つ と き 、 GC(w1)
日 本 語 WordNet に は 動 詞 を 表 す Synset が 10,324 個
と GC(w2)も 同 様 に 同 じ 要 素 を 持 つ こ と は 自 明 で あ る 。
存在している。そのうち、検証手法の対象となるのは
Gloss overlap は Synset overlap と 似 た よ う な 傾 向 を
3,031 個 で あ っ た 。2 名 の 検 証 者 が そ れ ら の デ ー タ の 間
持つ。
違いを手動でチェックしていき、一部型であるか全部
型 で あ る か の 確 認 も 行 っ て い っ た 。結 果 と し て 、125 個
の 全 部 型 の 間 違 い と 121 個 の 部 分 型 の 間 違 い が 発 見 さ
4.3. 検 証 手 法
1)か ら 4)と い う 順 序 で 、 SC(w)を 用 い た 間 違 い の 抽
れた。
図 7 は 、一 部 型 の mGOL(S)の Precision、Recall、F 値
出手法を記述していく。
を 示 し て い る 。横 軸 は mGOL(S)の 大 き さ を 昇 順 に 並 べ
1)
たものをとっている。
抽 出 手 法 を 適 用 す る 対 象 の Synset を リ ス ト 化
する。
2)
F 値 は γ =0.0455 の 時 に 最 大 と な っ て い る 。表 1 は 具
リ ス ト 上 の Synset Si に つ い て 、各 ペ ア wk, wj
体 的 な 数 値 を 示 し て い る 。図 7 の 縦 線 は F 値 が 最 大 と
∈ Syn(Si)の Synset Overlap 、 SOL(wj,wk)を
なっているところをあらわしている。
計算していく。
SOL(wj,wk)=#(SC(wj) ∩ SC(wk))/ #(SC(wj) ∪
SC(wk))
(#(S) は S の 基 数 を 示 す )
表 1
F 値が最大値をとるときのデータ
6.2. mSOL(mGOL) の 低 ス コ ア に 対 す る 誤 検 知 の
原因推定
mSOL(S)や mGOL(S)の ス コ ア が 低 く と も 、間 違 い で
な い 同 義 語 が 存 在 し て い る 。 最 小 値 が 500 位 以 内 の
Synset の う ち 、 人 間 が 間 違 い と 判 断 し な か っ た も の が
392 個 あ る 。
一 定 の 条 件 を 満 た す と 、mGOL(S)や mSOL(S)が 低 く
なるという現象を確認している。説明のために、
mSOL(S)の 例 を 挙 げ る 。
条 件 6.2
Synset 内 の 同 義 語 の 数 が 2 つ し か な く 、 同 義 語 が そ
れ ぞ れ よ り 多 く の Synset と リ ン ク を 持 っ て い る 場 合 。
こ の 条 件 を 満 た し た 場 合 、mSOL(S)や mGOL(S)が 低
くなる現象が発生する。
mSOL(S)が 100 位 以 内 の Synset 中 に 、同 じ 同 義 語 が
繰り返されているものがあった。表 2 は特に発生して
いた 4 単語を抜き出したものである。
表 2
図 7
頻出した単語の出現傾向
mGOL(S)の 結 果
6. 詳 細 結 果
6.1. 全 部 型 の間 違 い
mGOL(S)値 の 数 値 が 高 く な れ ば 全 部 型 の 間 違 い は 少
なくなっていっているように見えるが、この手法では
全部型の抽出をうまくできていない。
全部型の間違いの原因について、我々は 2 種類の分
類をしている。
表 2 の単語は複数の意味を持つことは自明である。
「 切 る 」と「 考 え る 」は 多 く の 低 mSOL(S)ス コ ア を 持
1) 以 下 の 条 件 を 同 時 に 満 た す 場 合
っており、誤検知を引き起こしている。
・英 語 の 同 義 語 が Synset 内 に 存 在 し て お り 、そ れ が
一 般 的 に よ く 使 わ れ る も の で あ る (get な ど )。
6.3. 高 mSOL(mGOL)値 を持 つ間 違 い
・ Synset 内 に 存 在 し て い る 英 語 の 同 義 語 の 数 が 少 な
い。
・ 英 語 の 同 義 語 の gloss が 一 般 的 に あ ま り 使 わ れ な
いものである。
・日本語の同義語が英語から取られているように推
測される。
mSOL(S)(mGOL(S)) 値 が 高 い 場 合 で も 間 違 い が 存 在
す る パ タ ー ン が 発 見 さ れ て い る 。mSOL > 0.1 を 満 た す
間 違 い は 29 個 発 見 さ れ て お り 、う ち 25 個 で は SC(w1)
∩ SC(w1) が ひ と つ し か 存 在 し て い な か っ た 。
こ れ は 6.3 と 逆 の 現 象 で あ り 、 Synset 内 に 含 ま れ て
いる同義語の数が少ないことから発生したものと考え
2) 日 本 語 の gloss が 誤 訳 さ れ て い る た め 、 日 本 語 の
られる。
同義語がマッチしない状態になっている。
7. ベ ク ト ル を 用 い た 間 違 い 抽 出 法 の 検 証
わ れ わ れ の 手 法 で は 2)の 間 違 い は 抽 出 す る こ と が で
word2vec[11]を 使 い 、コ ー パ ス 中 の 用 例 に つ い て 単 語
き な い 。 理 由 と し て は 日 本 語 gloss の み が 間 違 っ て い
をベクトル化することができる。我々はこれを用いて
るため、同義語同士の不整合が見られないことが多い
日 本 語 WordNet の 間 違 い 抽 出 が 可 能 で は な い か と 考 え
ためである。
た。
青 空 文 庫 4の 新 字 新 仮 名 作 品 に 対 し て 形 態 素 解 析 を
向性を含んでいるならば、多義性を持つ単語であれば
行 っ た コ ー パ ス 5 が 公 開 さ れ て お り 、こ れ を 用 い て 単 語
多義性を持つベクトルが出力されている可能性がある
をベクトル化した。
と考える。
そ の 後 、動 詞 の Synset に 存 在 す る 単 語 の ペ ア に 対 し
また、今回使用したコーパスである青空文庫は著作
て 、生 成 し た ベ ク ト ル を 用 い て コ サ イ ン 類 似 度 を 求 め 、
権 切 れ の 古 い 作 品 が 多 く 、 Synset 内 の 単 語 が コ ー パ ス
そ の 数 値 を 先 述 し た mGOL の よ う に 指 標 と し て 用 い
内に存在しないという現象も起こっている。
た。
これらのことから、ベクトルを用いた検証に関して
動 詞 に よ る 検 証 結 果 は ベ ー ス ラ イ ン と し た mGOL の
は改良の余地が多いと考えている。
結果よりもやや低い F 値の推移となっていた。
コーパスを調べたところ、サ行変格活用である動詞
が名詞と混同されていることが判明したため、再度名
詞のみを対象として検証を行った。
名 詞 に よ る 検 証 に 使 用 し た Synset 数 は 約 7000 個 で 、
そ の う ち 間 違 い を 含 ん で い る と 判 断 し た Synset は 161
個だった。
結 果 と し て 、 F 値 は 一 部 を 除 い て 0.1 を 超 え る こ と
はなく、このままでは間違い抽出への利用は不適切で
ある。
な お 、名 詞 に お け る mGOL に お い て も F 値 は ベ ク ト
ルを用いた際と大きな差はなかった。
8. 課 題 と 今 後 の 展 望
本 論 文 で は 、 WordNet の 構 造 に 存 在 す る 「 同 義 語 の
間 違 い 」の 抽 出 を 目 標 と し て き た 。結 果 と し て 、mGOL
は 、日 本 語 WordNet で「 一 部 型 」と 定 義 し た 種 類 の 動
詞 の 間 違 い の 抽 出 に 効 果 を 示 し た 。 最 小 Gloss Overlap
を 使 用 す る こ と で 、 313 個 の Synset 中 に 50%の 一 部 型
の間違いを集約することを可能にしている。また、特
別に新しく情報資源を準備する必要がなく、日本語
WordNet そ れ 単 体 で 手 法 を 実 行 す る こ と が 可 能 で あ る 。
ベクトルを用いた間違い抽出に関しては、 コサイン
類似度を用いて類似性を判断した 。今回の検証では間
違いとそうでないものの区別がついておらず、課題が
残る。
第一はコサイン類似度の大きさが類義語の正しさ
と相関関係を持っているのかを正しく判断しなければ
な ら な い 。Word2vec で は 、コ サ イ ン 類 似 度 が 大 き け れ
ば 語 は 似 た よ う な 意 味 を 持 つ [11] と あ る が 、 す べ て の
類義語がペアとなった際にコサイン類似度が高いとは
限らない。類似性の判定には他の分類手法も試すべき
であると考える。
第二に、語の多義性の問題がある。今回は単語に対
文
献
[1] F. Bond, H. Isahara, S. Fujita, K. Uchimoto, T.
Kuribayashi, Enhancing the Japanese WordNet, ALR7
Proc. the 7th Workshop on Asian Language Resources ,
pp. 1-8 ,Association for Computational Linguistics .
pp. 1-8, 2009
[2] NICT Information
Analysis Laboratory, National
Institute of
Information and Communications
Technology,
Japanese
WordNet,
http://nlpwww.nict.go.jp/wn -ja/index.en.html
[3] Princeton University "About WordNet." WordNet.
Princeton
University.
2010,
http://wordnet.princeton.edu
[4] K. Miyata, et al., Difficulty and Ambiguity of Verbs Analysis based on Synsets in Japanese WordNet -,
AIT2013, 2013
[5] S. Wang, F. Bond, Building the Chinese Open
WordNet (COW): Starting from Core Synsets, Proc.
International Joint Conference on Natural Language ,
pp. 10–18, 2013
[6] G. Melo, G. Weikum, Towards a Universal WordNet
by Learning from Combined Evidence, CIKM '09 Proc.
18th ACM conference on Information and knowledge
management, pp. 513-522, 2009
[7] R. Navigli, S.P. Ponzetto, BabelNet: Building a Very
Large Multilingual Semantic Network, ACL 2010 48th Annual Meeting of the Association for
Computational Linguistics Proc., pp. 216-225, 201
[8] F. Bond, R. Foster, Linking and Extending an Open
Multilingual WordNet, in Proc. 51st Annual Meeting
of the Association for Computational Linguistics , pp.
1352-1362, 2013
[9] T. Hirao, T. Suzuki, K. Miyata, S. Hirokawa,
Detection Methods for Misplacement of Synonyms in
the Japanese WordNet, International Journal of
Computer and Information Science, to appear
[10] S. Ikehara, et al., “Nihongo GoiTaikei [Japanese
Lexicon]”, Iwanami Shoten, in Japanese , 1997
[11] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey
Dean. Efficient Estimation of Word Representations
in Vector Space. In Proceedings of Workshop at ICLR,
2013.
してベクトルを抽出したが、単語の中には複数の意味
を持つものが存在しており、ベクトルが意味関係の方
4
青 空 文 庫 , http://www.aozora.gr.jp
5 青 空 文 庫 形 態 素 解 析 デ ー タ 集 , http://aozoraword.hahasoha.net