一般社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 信学技報 IEICE Technical Report 日本語 WordNet 類義語の誤り検出 -コーパス利用の試み- 平尾 拓也† 宮田 光樹† 孝彦‡ 鈴木 廣川 佐千男‡ †九州大学大学院システム情報科学府 〒819-0395 福岡市西区元岡 744 番地 ‡九州大学情報基盤研究開発センター 〒812-8581 福岡県福岡市東区箱崎 6-10-1 E-mail: †{2ie14071e, 2ie13089s}@s.kyu-shu-u.ac.jp, ‡{hirokawa, suzuki}@cc.kyushu-u.ac.jp あらまし 日本語 WordNet は自然言語処理において有用なツールであるが、5%の間違いが存在すると公式に認 められている。結果として、言語処理のデータベースとして信頼性の面に疑問が残る。本論文では、日本語 WordNet 内の間違いを抽出するいくつかの手法を提示する。 前半では日本語 WordNet それ単体のみを使用した手法を提示し、その結果を記述する。後半では日本語 WordNet と、外部より準備したコーパスを使用し、構造上の間違いを抽出する手法を提示する。 キーワード シソーラス, WordNet, 日本語 WordNet, Detection of Error Synonyms in Japanese WordNet -A trial of using corpus- Takuya HIRAO† Kouki MIYATA† Takahiko SUZUKI‡ Sachio HIROKAWA‡ †Kyushu University Graduate School of Information Science and Electrical Engineering 774, Motooka, Nishi-ku, Fukuoka, 819-0395 Japan ‡Kyushu University Research Institute for Information Technology 6-10-1, Hakozaki, Higashi-ku, fukuoka, 812-8581 Japan E-mail: †{2ie14071e, 2ie13089s}@s.kyu-shu-u.ac.jp, ‡{hirokawa, suzuki}@cc.kyushu-u.ac.jp Abstract Lexical Database the Japanese WordNet is a useful tool in natural language processing. However, it is officially announced that Japanese WordNet contains 5% errors. In this paper, we discuss error detection methods in the Japanese WordNet. キーワード Thesaurus, WordNet, Japanese WordNet, 1. は じ め に 日 本 語 WordNet[1,2] は Princeton 大 学 が 開 発 し た の発見を主眼にしており、この間違いのことを「類義 語の間違い」と呼んでいる。 WordNet[3]を 用 い た 言 語 デ ー タ ベ ー ス で あ る 。 日 本 語 WordNet は 自 然 言 語 処 理 に お い て 有 用 で あ り 、 様 々 な 英 語 で な い WordNet や WordNet に 似 た 言 語 デ ー タ ベ 実 験 に 使 用 さ れ て い る [4] 1 。 フ リ ー の Web シ ソ ー ラ ス ースの作成という点において、複数のプロジェクトが サ ー ビ ス に お い て 、日 本 語 WordNet は 一 般 的 に 使 用 さ 行 わ れ て い る 。 日 本 語 WordNet や Chinese Open れ て い る 。し か し な が ら 、現 行 の 日 本 語 WordNet は 間 WordNet[5]は 、 ブ ー ト ス ト ラ ッ プ の 段 階 で 、 Princeton 違 い を 5%ほ ど 含 ん で い る と 作 成 者 ら が 認 め て お り [2]、 WordNet の マ ッ ピ ン グ 手 法 を 用 い て 半 自 動 生 成 さ れ て そ れ ら の 間 違 い が 日 本 語 WordNet の 使 い や す さ に 影 響 いる。 を及ぼしている可能性がある。 ま た 、 Universal WordNet[6] や Babel Net[7] 、 Open 本 論 文 で は 、わ れ わ れ が 検 証 し た 日 本 語 WordNet の Multilingual WordNet[8]と い っ た 、 WordNet の 拡 張 に よ 間違い探知手法において議論する。間違い探知は日本 る統合、多言語概念字句データベースの生成の試みも 語 WordNet の 間 違 い 修 正 の 第 一 段 階 で あ る 。こ の 手 法 なされている。概念と語句、または複数の概念間の関 は、大規模言語データベースの作成に有用であると考 係 は 、Wikipedia や タ グ 付 け コ ー パ ス の よ う な 様 々 な 資 え る 。我 々 は 特 に 日 本 語 WordNet の 似 た よ う な 間 違 い 源から自動的に抽出することが可能である。それらに 1 Weblio, http://ejje.weblio.jp This article is a technical report without peer review, and its polished and/or extended version may be published elsewhere. Copyright ©2014 by IEICE よって得られた統合データベースの品質は、生成者自 ロジェクトの目的は、誰でも自由に使用可能な大規模 身や、ネットワークコミュニティによって評価されて 日本語データベースを提供することである。このデー きた。 タ ベ ー ス は 2006 年 か ら 開 発 さ れ て い る 。 WordNet は 、 オ ン ト ロ ジ ー の ひ と つ と し て み な す こ 日 本 語 WordNet の 構 造 は 、Princeton WordNet に 準 拠 と が で き る 。多 言 語 WordNet を 生 成 す る 場 合 に は 、言 し て い る [1]。し か し 、日 本 語 と 英 語 と い う 言 語 の 違 い 語数に応じたオントロジー間のマッピングをする必要 が 存 在 す る た め 、日 本 語 WordNet は Princeton WordNet がある。そのため、オントロジーの間違いの検出と修 に 含 ま れ て い な い オ リ ジ ナ ル の Synset を 含 ん で い る 。 正、オントロジー間のマッピングに関する研究がなさ ま た 、日 本 語 WordNet は 、シ ソ ー ラ ス と し て の 精 度 よ れてきた。これらの研究において、オントロジー内で り多数の概念を包括することに主眼を置いている。 分類が間違っているものや、冗長もしくは 不適切であ 現 行 の 日 本 語 WordNet の 規 模 は 以 下 の と お り で あ る 。 る、または間違った関係性を生成されている箇所を修 ・ 57,238 概 念 ( Synset 数 ) 正する試みがなされてきた。 ・ 93,834 語 ( 日 本 語 ) ・ 158,058 語 義 ( 単 語 -synset ペ ア 数 ) 間 違 い 検 出 の 手 法 と し て 、日 本 語 WordNet の み を 使 用した手法を動詞に適用した場合をベースラインとし て 提 示 す る [9]。ま た 、コ ー パ ス を 用 い た 単 語 を ベ ク ト ル化し、これらのコサイン類似度によって 名詞の間違 い検出の手法として使用できないかを議論する。 本 論 文 で は 、第 2 節 で WordNet と 日 本 語 WordNet の 説 明 、第 3 節 で 本 論 文 の コ ン セ プ ト と WordNet の 構 造 における「同義語の間違い」の一例を紹介する。第 4 節では間違いの抽出法に関するわれわれの手法の説明、 第 5 節では手法を用いた場合の結果の提示を行う。第 6 節 で は 、 本 手 法 の Princeton WordNet に お け る 応 用 例 と、関心を持っている別手法に 関しての説明、第 7 節 で word2vec を 用 い た 単 語 の ベ ク ト ル 化 と そ れ ら を 用 図 1 日 本 語 WordNet の Synset-同 義 語 間 リ ン ク 例 いた間違い検出の実験、第 8 節に今後の展望と課題を 述べる。 日 本 語 と リ ン ク を 持 つ Synset は 日 本 語 の gloss を 持 っ て い る 。日 本 語 WordNet の カ バ ー 範 囲 の 拡 張 の た め 2. WordNet と 日 本 語 WordNet 2.1. Princeton WordNet Princeton WordNet は 英 語 の 大 規 模 言 語 デ ー タ ベ ー ス に 、SUMO や Wikipedia、GoiTaikei[10]と い っ た 他 の リ ソースが使用されている。 2.3. 他 言 語 の WordNet と WordNet の拡 張 である。名詞、動詞、形容詞、副詞といった品詞ごと Princeton WordNet を 基 に し た 、 様 々 な 言 語 の 言 語 デ に 、明 確 な コ ン セ プ ト を 持 っ た「 Synset」と い う 認 知 同 ータベース作成プロジェクトが存在する。一部のプロ 義 語 の セ ッ ト に 纏 め ら れ る 。 各 Synset は 固 有 の ID に ジ ェ ク ト で は WordNet、Wikipedia 2 、Wiktionary 3 及 び そ よ っ て 管 理 さ れ て お り 、Gloss と 呼 ば れ る 、Synset の 簡 の他の言語資源を用いて、多言語のごくデータベース 単な意味を説明するテキストがリンクされている。 を作成しようと試みている。 Synset は 概 念 -意 味 関 係 も し く は 字 句 ト ー ク ン 関 係 で 既存の言語資源と新しいデータベース間のマッピ 相 互 リ ン ク を 持 っ て い る 。単 語 が 持 つ 意 味 を Synset に ングの正確さは、それによって出力されるデータベー よ っ て グ ル ー プ 化 す る こ と が で き る た め 、 WordNet は スの整合性の正しさを証明する指標になるので非常に シソーラスとして使用できる。多義である単語が存在 重 要 で あ る 。新 し い 言 語 の WordNet を 作 成 す る こ と は 、 す る た め 、 単 語 は 複 数 の Synset に 属 す る こ と が あ る 。 他の言語からなる新しいオントロジーで表現されてい 2.2. 日 本 語 WordNet る、既存のオントロジーからマッピングで作成すると 日 本 語 WordNet は Princeton WordNet を 基 に し た 、日 みなすことができる。 本 語 の 語 彙 デ ー タ ベ ー ス で あ る 。日 本 語 WordNet の プ 2 Wikipedia, http://ja.wikipedia.org 3 Wiktionary, http://ja.wiktionary.org と ペ ア 関 係 を チ ェ ッ ク し た 。担 当 者 は そ の 後 、間 3. 日 本 語 WordNet の 間 違 い 違いの確認用のリストを作成した。 間違いの訂正は、新しく作成したオントロジーや、 オントロジー間のマッピングの整合性の確認において 4) スクリーニング担当とは別のチェック担当者た 重 要 で あ る 。日 本 語 WordNet の 現 行 の バ ー ジ ョ ン で は 、 ちが独立して確認を行った。チェック担当者全 約 5%の 間 違 い が 含 ま れ て い る 。 ま た 、 Chinese Open 員 が 間 違 い と 判 断 し た Synset と 単 語 の ペ ア を 最 WordNet も 、 そ れ に 匹 敵 す る エ ラ ー 率 で あ る 。 本 節 の 終的な間違いとしてマークした。 残りでは、同義語における間違いにおける、エラーの 種類に焦点を当てる。 3.3. 間 違 いの種 類 結 果 と し て 900 単 語 中 、81 語( 9%)が 間 違 い だ と 判 3.1. 同 義 語 の間 違 い WordNet の 構 造 に お い て 、 「 同 義 語 の 間 違 い 」を 、語 w m is s が 属 し て い る synset( S と す る ) の Gloss と 合 致 しない語であると定義する。 図 2 で は 、Synset 02651424-v に つ い て 図 示 し て い る 。 こ の Synset は「 泊 め る 」、 「 収 容 」、 「 宿 る 」、 「持ち込む」 という 4 つの同義語を持っている。 断された。それらは 3 つのエラーパターンに分類され た。 Synset S 内 の す べ て の 日 本 語 の 同 義 語 を Syn(S)と 表 現 す る 。 ま た 、 Synset S 内 の 間 違 い を mis(S)と 表 現 す る。 ・ Syn(S)内 の 同 義 語 が 一 つ で な く 、 Syn(S)=mis(S)で ある場合、S には全部型の間違いが存在していると呼 称した。 ・ Syn(S) / mis(S) ≠ φ か つ mis(S) ≠ φ で あ る と き 、 こ の Synset S は 一 部 型 の 間 違 い が 存 在 し て い る と 呼称した。 ・Syn(S)内 の 同 義 語 が 一 つ し か な く 、Syn(S)=mis(S) である場合、S には単独型の間違いが存在していると 呼称した。 全 81 個 の 間 違 い の う ち 、 26 個 が 一 部 型 、 27 個 が 全 部 型 、28 個 が 単 独 型 の 間 違 い で あ っ た 。こ の 種 類 を 数 え る 際 、 我 々 は 81 個 の 単 語 と Synset の 間 の リ ン ク を対象とした。 4. 間 違 い の 抽 出 方 法 我 々 は 日 本 語 WordNet 単 体 で 間 違 い を 抽 出 す る 方 法 を 試 し た 。 わ れ わ れ の 手 法 は 日 本 語 WordNet 以 外 の 、 図 2 同義語の間違いの具体例 限 定 的 な 情 報 し か 持 た な い WordNet 構 造 の デ ー タ ベ ー スにも使用することができる。 こ の う ち 、「 持 ち 込 む 」 と い う 単 語 は こ の Synset 02651424-v に お い て 同 義 語 の 間 違 い で あ る と い え る 。 4.1. Synset-同 義 語 間 リンクによる抽 出 は じ め に 提 示 す る 抽 出 手 法 は 、 Synset と 同 義 語 の リ ン ク の み を 用 い た 手 法 で あ る 。 以 降 の 記 述 で は Synset 3.2. 予 備 実 験 我 々 は 日 本 語 WordNet 内 の 間 違 い を 手 動 で チ ェ ッ ク し た 。今 回 対 象 と し た の は 動 詞 で あ る 。理 由 と し て は 、 がリンクを持っている単語を w と定義する。 単 語 w と Synset S に お い て の 、w の 重 複 Synset SC は以下の式で表現される。 WordNet の 構 造 内 で の 間 違 い は 、 名 詞 よ り 動 詞 の ほ う が多く報告されていたためである。 SC(w) = {Sk |w ∈ syn(Sk)} 以下は、今回の実験で間違いを確認した際の手順で ある。 1) Synset 重 複 は 、 単 語 w と リ ン ク を 持 つ す べ て の 日 本 語 能 力 検 定 (JLPT)に 登 場 す る 単 語 の う ち 、 Synset-ID に つ い て 定 義 さ れ る 。 図 3 に SC(売 る )を 例 WordNet に 登 録 さ れ て い る も の を 無 作 為 に 900 として図示する。 語抽出する。 2) 3) 抽 出 し た 単 語 の 同 義 語 を 含 む Synset を 日 本 語 図 1 での単語である商う, 売り買い, 売買, 売る は WordNet か ら 抽 出 す る 。 同 じ Synset ス ク リ ー ニ ン グ 担 当 者 が す べ て の Synset と 動 詞 ン ク を 持 っ て い る 。 つ ま り 、 SC(商 う ), SC(売 り 買 い ), 002260362-v と 002244956-v の 2 つ に リ SC(売 買 ) ,SC(売 る ) は 2 個 あ る い は そ れ 以 上 の 要 素 を 3) SOL(Si)の 最 小 値 を と る 。 持っていることになる。 mSOL (Si) = min (SOL (w j ,w k )) (for all w j ,w k ∈ Si ) 4) mSOL(Si) < γ.で あ る 場 合 、 間 違 い の 可 能 性 が あるとタグ付けする。 γ は 閾 値 で あ る 。 (γ < 1 ) GC(w) を 用 い た 手 法 は 、 SC(w) を そ れ ぞ れ SC(w), SOL(w j, w k ), and mSOL(Si) (Gloss Overlap)、 mGOL(S i ) 最小値) から GC(w), GOL(w j ,w k ) (Synset S の gloss overlap に置き換えたものとなる。 4.4. 手 法 の適 用 性 4.3 の 手 法 を 適 用 す る に は 、Synset が 一 定 の 状 態 を 満 たしている必要がある。 状 態 4.3 ・ Synset 内 に は 2 つ 以 上 の 単 語 が 登 録 さ れ て い る 必 要がある。 図 3 SC(売 る )の 図 ・われわれの手法は単独型の間違い抽出に使用する 4.2. Gloss-同 義 語 リンクによる抽 出 ことができない。 二 つ 目 の 手 法 は gloss に 含 ま れ て い る 単 語 を 使 用 す る。 ・仮 説 が 絶 対 的 な も の で は な い 。た と え ば「 切 る 」と Synset S に 含 ま れ て い る gloss と 文 例 に 存 在 す る す 「 混 ぜ る 」 は Synset 01418667-v (ラ ン ダ ム な 順 序 や 配 べ て の 日 本 語 の 単 語 を glossw(S)={w1,w2,…}. と す る 。 置 に な る よ う に 混 ぜ る )で 同 義 語 で あ る が 、他 の Synset 単 語 w に お け る gloss-coverage (GC) は 以 下 の 式 で 表 で同時に出現することが起こっていない。 される。 GC(w)= {uk| uk ∈ glossw(Sj), Sj ∈ SC(w)} 5. 日 本 語 WordNet 内 で の 一 部 型 の 間 違 い における結果 SC(w1) と SC(w2)が 同 じ 要 素 を 持 つ と き 、 GC(w1) 日 本 語 WordNet に は 動 詞 を 表 す Synset が 10,324 個 と GC(w2)も 同 様 に 同 じ 要 素 を 持 つ こ と は 自 明 で あ る 。 存在している。そのうち、検証手法の対象となるのは Gloss overlap は Synset overlap と 似 た よ う な 傾 向 を 3,031 個 で あ っ た 。2 名 の 検 証 者 が そ れ ら の デ ー タ の 間 持つ。 違いを手動でチェックしていき、一部型であるか全部 型 で あ る か の 確 認 も 行 っ て い っ た 。結 果 と し て 、125 個 の 全 部 型 の 間 違 い と 121 個 の 部 分 型 の 間 違 い が 発 見 さ 4.3. 検 証 手 法 1)か ら 4)と い う 順 序 で 、 SC(w)を 用 い た 間 違 い の 抽 れた。 図 7 は 、一 部 型 の mGOL(S)の Precision、Recall、F 値 出手法を記述していく。 を 示 し て い る 。横 軸 は mGOL(S)の 大 き さ を 昇 順 に 並 べ 1) たものをとっている。 抽 出 手 法 を 適 用 す る 対 象 の Synset を リ ス ト 化 する。 2) F 値 は γ =0.0455 の 時 に 最 大 と な っ て い る 。表 1 は 具 リ ス ト 上 の Synset Si に つ い て 、各 ペ ア wk, wj 体 的 な 数 値 を 示 し て い る 。図 7 の 縦 線 は F 値 が 最 大 と ∈ Syn(Si)の Synset Overlap 、 SOL(wj,wk)を なっているところをあらわしている。 計算していく。 SOL(wj,wk)=#(SC(wj) ∩ SC(wk))/ #(SC(wj) ∪ SC(wk)) (#(S) は S の 基 数 を 示 す ) 表 1 F 値が最大値をとるときのデータ 6.2. mSOL(mGOL) の 低 ス コ ア に 対 す る 誤 検 知 の 原因推定 mSOL(S)や mGOL(S)の ス コ ア が 低 く と も 、間 違 い で な い 同 義 語 が 存 在 し て い る 。 最 小 値 が 500 位 以 内 の Synset の う ち 、 人 間 が 間 違 い と 判 断 し な か っ た も の が 392 個 あ る 。 一 定 の 条 件 を 満 た す と 、mGOL(S)や mSOL(S)が 低 く なるという現象を確認している。説明のために、 mSOL(S)の 例 を 挙 げ る 。 条 件 6.2 Synset 内 の 同 義 語 の 数 が 2 つ し か な く 、 同 義 語 が そ れ ぞ れ よ り 多 く の Synset と リ ン ク を 持 っ て い る 場 合 。 こ の 条 件 を 満 た し た 場 合 、mSOL(S)や mGOL(S)が 低 くなる現象が発生する。 mSOL(S)が 100 位 以 内 の Synset 中 に 、同 じ 同 義 語 が 繰り返されているものがあった。表 2 は特に発生して いた 4 単語を抜き出したものである。 表 2 図 7 頻出した単語の出現傾向 mGOL(S)の 結 果 6. 詳 細 結 果 6.1. 全 部 型 の間 違 い mGOL(S)値 の 数 値 が 高 く な れ ば 全 部 型 の 間 違 い は 少 なくなっていっているように見えるが、この手法では 全部型の抽出をうまくできていない。 全部型の間違いの原因について、我々は 2 種類の分 類をしている。 表 2 の単語は複数の意味を持つことは自明である。 「 切 る 」と「 考 え る 」は 多 く の 低 mSOL(S)ス コ ア を 持 1) 以 下 の 条 件 を 同 時 に 満 た す 場 合 っており、誤検知を引き起こしている。 ・英 語 の 同 義 語 が Synset 内 に 存 在 し て お り 、そ れ が 一 般 的 に よ く 使 わ れ る も の で あ る (get な ど )。 6.3. 高 mSOL(mGOL)値 を持 つ間 違 い ・ Synset 内 に 存 在 し て い る 英 語 の 同 義 語 の 数 が 少 な い。 ・ 英 語 の 同 義 語 の gloss が 一 般 的 に あ ま り 使 わ れ な いものである。 ・日本語の同義語が英語から取られているように推 測される。 mSOL(S)(mGOL(S)) 値 が 高 い 場 合 で も 間 違 い が 存 在 す る パ タ ー ン が 発 見 さ れ て い る 。mSOL > 0.1 を 満 た す 間 違 い は 29 個 発 見 さ れ て お り 、う ち 25 個 で は SC(w1) ∩ SC(w1) が ひ と つ し か 存 在 し て い な か っ た 。 こ れ は 6.3 と 逆 の 現 象 で あ り 、 Synset 内 に 含 ま れ て いる同義語の数が少ないことから発生したものと考え 2) 日 本 語 の gloss が 誤 訳 さ れ て い る た め 、 日 本 語 の られる。 同義語がマッチしない状態になっている。 7. ベ ク ト ル を 用 い た 間 違 い 抽 出 法 の 検 証 わ れ わ れ の 手 法 で は 2)の 間 違 い は 抽 出 す る こ と が で word2vec[11]を 使 い 、コ ー パ ス 中 の 用 例 に つ い て 単 語 き な い 。 理 由 と し て は 日 本 語 gloss の み が 間 違 っ て い をベクトル化することができる。我々はこれを用いて るため、同義語同士の不整合が見られないことが多い 日 本 語 WordNet の 間 違 い 抽 出 が 可 能 で は な い か と 考 え ためである。 た。 青 空 文 庫 4の 新 字 新 仮 名 作 品 に 対 し て 形 態 素 解 析 を 向性を含んでいるならば、多義性を持つ単語であれば 行 っ た コ ー パ ス 5 が 公 開 さ れ て お り 、こ れ を 用 い て 単 語 多義性を持つベクトルが出力されている可能性がある をベクトル化した。 と考える。 そ の 後 、動 詞 の Synset に 存 在 す る 単 語 の ペ ア に 対 し また、今回使用したコーパスである青空文庫は著作 て 、生 成 し た ベ ク ト ル を 用 い て コ サ イ ン 類 似 度 を 求 め 、 権 切 れ の 古 い 作 品 が 多 く 、 Synset 内 の 単 語 が コ ー パ ス そ の 数 値 を 先 述 し た mGOL の よ う に 指 標 と し て 用 い 内に存在しないという現象も起こっている。 た。 これらのことから、ベクトルを用いた検証に関して 動 詞 に よ る 検 証 結 果 は ベ ー ス ラ イ ン と し た mGOL の は改良の余地が多いと考えている。 結果よりもやや低い F 値の推移となっていた。 コーパスを調べたところ、サ行変格活用である動詞 が名詞と混同されていることが判明したため、再度名 詞のみを対象として検証を行った。 名 詞 に よ る 検 証 に 使 用 し た Synset 数 は 約 7000 個 で 、 そ の う ち 間 違 い を 含 ん で い る と 判 断 し た Synset は 161 個だった。 結 果 と し て 、 F 値 は 一 部 を 除 い て 0.1 を 超 え る こ と はなく、このままでは間違い抽出への利用は不適切で ある。 な お 、名 詞 に お け る mGOL に お い て も F 値 は ベ ク ト ルを用いた際と大きな差はなかった。 8. 課 題 と 今 後 の 展 望 本 論 文 で は 、 WordNet の 構 造 に 存 在 す る 「 同 義 語 の 間 違 い 」の 抽 出 を 目 標 と し て き た 。結 果 と し て 、mGOL は 、日 本 語 WordNet で「 一 部 型 」と 定 義 し た 種 類 の 動 詞 の 間 違 い の 抽 出 に 効 果 を 示 し た 。 最 小 Gloss Overlap を 使 用 す る こ と で 、 313 個 の Synset 中 に 50%の 一 部 型 の間違いを集約することを可能にしている。また、特 別に新しく情報資源を準備する必要がなく、日本語 WordNet そ れ 単 体 で 手 法 を 実 行 す る こ と が 可 能 で あ る 。 ベクトルを用いた間違い抽出に関しては、 コサイン 類似度を用いて類似性を判断した 。今回の検証では間 違いとそうでないものの区別がついておらず、課題が 残る。 第一はコサイン類似度の大きさが類義語の正しさ と相関関係を持っているのかを正しく判断しなければ な ら な い 。Word2vec で は 、コ サ イ ン 類 似 度 が 大 き け れ ば 語 は 似 た よ う な 意 味 を 持 つ [11] と あ る が 、 す べ て の 類義語がペアとなった際にコサイン類似度が高いとは 限らない。類似性の判定には他の分類手法も試すべき であると考える。 第二に、語の多義性の問題がある。今回は単語に対 文 献 [1] F. Bond, H. Isahara, S. Fujita, K. Uchimoto, T. Kuribayashi, Enhancing the Japanese WordNet, ALR7 Proc. the 7th Workshop on Asian Language Resources , pp. 1-8 ,Association for Computational Linguistics . pp. 1-8, 2009 [2] NICT Information Analysis Laboratory, National Institute of Information and Communications Technology, Japanese WordNet, http://nlpwww.nict.go.jp/wn -ja/index.en.html [3] Princeton University "About WordNet." WordNet. Princeton University. 2010, http://wordnet.princeton.edu [4] K. Miyata, et al., Difficulty and Ambiguity of Verbs Analysis based on Synsets in Japanese WordNet -, AIT2013, 2013 [5] S. Wang, F. Bond, Building the Chinese Open WordNet (COW): Starting from Core Synsets, Proc. International Joint Conference on Natural Language , pp. 10–18, 2013 [6] G. Melo, G. Weikum, Towards a Universal WordNet by Learning from Combined Evidence, CIKM '09 Proc. 18th ACM conference on Information and knowledge management, pp. 513-522, 2009 [7] R. Navigli, S.P. Ponzetto, BabelNet: Building a Very Large Multilingual Semantic Network, ACL 2010 48th Annual Meeting of the Association for Computational Linguistics Proc., pp. 216-225, 201 [8] F. Bond, R. Foster, Linking and Extending an Open Multilingual WordNet, in Proc. 51st Annual Meeting of the Association for Computational Linguistics , pp. 1352-1362, 2013 [9] T. Hirao, T. Suzuki, K. Miyata, S. Hirokawa, Detection Methods for Misplacement of Synonyms in the Japanese WordNet, International Journal of Computer and Information Science, to appear [10] S. Ikehara, et al., “Nihongo GoiTaikei [Japanese Lexicon]”, Iwanami Shoten, in Japanese , 1997 [11] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013. してベクトルを抽出したが、単語の中には複数の意味 を持つものが存在しており、ベクトルが意味関係の方 4 青 空 文 庫 , http://www.aozora.gr.jp 5 青 空 文 庫 形 態 素 解 析 デ ー タ 集 , http://aozoraword.hahasoha.net
© Copyright 2024 ExpyDoc