PPT - 日本大学

意外語発見手法
の
動画検索への拡張
日本大学文理学部 情報システム解析学科
山本広大
研究背景
タグ
タグ
…
タグ
あ
た
り
ま
え
の
動
画
タグ
タグ間の意外性を図る
タグ タグ …
タグ タグ
意
外
性
の
あ
る
動
画
意外語の抽出:[ 佃ら 情報処理学会トランザクション 2014 ]
関連研究
語→意外度の高い語
落合博満
ガンダム
意外性とは
落合博満
イチロー
繋がりが強い
落合博満
ガンダム
繋がりが弱い
認知度高い
成田山名古屋
別院大聖寺
落合博満
繋がりが弱い
意外度
繋がりの弱さ
認知度低い
認知度
意外度の定義
繋がりの弱さ
1
意外度=
典型度
次のスライドにて説明
どれほど認知されているか?
× 認知度
Wikipedia上での
重要度を用いる
典型度
野村克也
京都府
…
イチロー
同位語らしさ:
SALSAアルゴリズム
典型度①:
BiasedPageRankアルゴリズム
のルートでの典型度が測れる
三冠王
…
満塁王
タイトル
落合博満
首位打者
野球監督
…
上戸彩
秋田県
…
…
スポーツ選手
都道府県
…
国
日本
アニメ
…
ガンダム
出演者
若井おさむ
東京都
麻生太郎
男性
ローゼンメイデン
典型度②:
co-HITSアルゴリズム
のルートでの典型度を考慮した
提案手法
”語→意外度”から”語群→意外度”への拡張
関連語の意外度
小保方晴子
……
佐村河内守
意外度合成手法:手法①
グラフ合成手法:手法②
タグ
…
…
野々村竜太郎
関連語1:○点
関連語2:○点
関連語3:○点
タグ
タグ
手法①:意外度の合成
小保方晴子の
関連語
関連語1:○点
関連語2 :○
関連語3:○点
点
……
小保方晴子
…
野々村竜太郎
関連語1:○点
関連語2:○点
関連語3:○点
佐村河内守の
関連語
関連語1:○点
関連語2:○点
関連語3:○点
動画Aの関連語
関連語1:○点
関連語2:○点
関連語3:○点
……
……
佐村河内守
野々村竜太郎の
関連語
動画Aに対する意外度
……
手法②:単語ネットワークの合成
佐村河内守
…
動画Aの関連語
…
…
…
小保方晴子
関連語1:○点
関連語2:○点
関連語3:○点
小保方晴子
…
キセキの世代
…
……
野々村竜太郎
動画Aに対する意外度
…
…
理研
…
佐村河内守
謝罪会見
…
野々村竜太郎
…
評価実験
①ケンドーコバヤシ, アントニオ猪木
②毛利小五郎, 毛利蘭
③ドラゴンクエスト, ファイナルファンタジー
④スパイダーマン, バットマン
⑤AKB48,TOKIO
総関連語数
①
②
③
④
⑤
453
103
139
188
430
Wikipediaオントロジーに含
まれている語より。
①
②
③
④
⑤
意外度1 の数
209
49
72
111
255
意外度2 の数
87
17
44
31
72
意外度3 の数
67
18
9
17
59
意外度4 の数
90
19
14
29
44
意外度合成手法:手法①
評価
グラフ合成手法:手法②
評価方法
precision@k
k位以内での正解率
average precision
で評価
手動で関連語に予想値を付与
関連語
予想値
意外度
関連語
予想値
意外度
関連語
予想値
A
3
22.07845
A
2
22.95586
A
3
B
4
8.675918
B
4
22.62594
B
4
C
1
22.95586
C
3
22.07845
C
2
D
2
14.94621
D
2
18.04504
D
1
E
4
18.04504
E
1
14.94621
E
2
F
4
22.62594
F
4
9.963881
F
1
G
4
9.963881
G
3
1
8.675918
H
G
4
8.437681
H
3
8.437681
H
3
提案手法で意外度を付与
ソート
 グラフ合成手法>意外度合成手法
 平均,最小の値は、ほぼ変化せず
 カテゴリが狭いと精度が高い
実験結果
precision @10
ケンドーコバヤシ
アントニオ猪木
毛利小五郎
毛利蘭
ドラゴンクエスト
ファイナルファンタジー
スパイダーマン
バットマン
AKB48
TOKIO
グラフ合成手法
0.2
0.5
0.3
0.3
0.0
意外度合成手法
avg
0.2
0.4
0.1
0.2
0.1
意外度合成手法
min
0.2
0.4
0.1
0.2
0.1
ケンドーコバヤシ
アントニオ猪木
毛利小五郎
毛利蘭
ドラゴンクエスト
ファイナルファンタジー
スパイダーマン
バットマン
AKB48
TOKIO
グラフ合成手法
0.12
0.33
0.35
0.23
0.23
意外度合成手法
avg
0.12
0.35
0.16
0.21
0.21
意外度合成手法
min
0.12
0.31
0.16
0.21
0.21
average precision
動画検索

提案手法で求められた関連語の意外度が上位である語
を持つ動画を意外な動画とみなす。

ニコニコ動画のタグがwikipedia上に存在しない語の場
合、意外度を評価することができない。
まとめ・今後の課題
---まとめ-- 意外度評価の単語集合への拡張
---今後の課題-- 関連語の意外度を評価する際、クエリの上位語の関連
語も意外度評価の対象にする。
→精度が上がったのでは?

ニコニコのオントロジーを用いる
→動画検索の精度が上がるのでは?

具体的なツール開発を行う