「Webからの人間関係ネットワークの抽出とWeblogへの応用」

Webからの
研究者ネットワークの抽出と利用
情報技術研究部門 知的コンテンツグループ
松尾 豊
発表の内容
成果の概要
研究内容の説明
「Webからの研究者ネットワークの抽出」
今後の研究予定、目標
研究成果概要:研究テーマ
2002年4月入所
~2004.7 サイバーアシスト研究センター
~現在 情報技術研究部門
建物内の位置履歴からのユーザモデリングの研究
競争的資金:
• 総務省 戦略的情報通信研究開発推進制度(SCOPE-R)(H15~17)研究代表者
臨海副都心センターでの位置情報取得の実験など
位置の履歴だけから、ユーザの属性をある程度推測することができる
• ユビキタス空間における情報提供で重要
Webからの研究者ネットワーク抽出の研究
競争的資金
• 科研費基盤B(H17~19)研究代表者
• NEDO 産業技術研究助成事業「人の社会的関係を考慮した情報提供に関する研究」
(H17~19、代表:西村 拓一)で主要な研究分担者
Webから研究者の協働関係を抽出する。Polyphonetシステム
研究成果の概要
成果
論文:計20件(筆頭9件)の誌上発表、40件以上の国際会議での発表
• 文書処理、Webマイニング、ユーザモデリング、センサデータの解析等
• 人工知能学会論文賞を受賞。 WWW2006やAAAI-06に採択。
特許出願:7件(筆頭5件)、3件のプレス発表、新聞報道は10件以上
産業との連携
Web系ビジネスと研究コミュニティをつなぐ橋渡し
2003年「Blog勉強会」第1回~3回
• 70人以上。アカデミックでは最も早い時期。多くのIT技術者。
2005年「Webが生み出す関係構造と社会ネットワーク分析ワークショップ」
• 日本初のSNSのワークショップ。プレスも含め100名以上が参加
Polyphonet:
• 大阪市のロボットラボラトリーでの試験運用。
• 産総研イノベーションズと連携し、各企業への技術移転を進めている。
海外との連携
スタンフォード大学CSLI(言語情報研究センター)
2006年4月からは、日本学術振興会の海外特別研究員として長期出張
Webからの研究者ネットワークの抽
出と利用
Webからの研究者ネットワークの抽出と利用
「人」そして「人間関係」の重要性
ユビキタス環境
情報検索、セマンティックオーサリング、セマンティックウェブ:情報の信頼性
「行為を決定するのは、行為者を取り囲む関係構造である.」
社会ネットワーク分析
人同士の社会的関係を記述することは困難
Web上の情報から研究者のネットワークを抽出する。
情報が新しく、多様。今、まさに起こっている関係を捉えられる。
好むと好まざるに関わらず、情報が第三者によって記述される。
研究者ネットワークの抽出:POLYPHONET
研究者の協働関係ネットワーク
融合領域、産学官連携の重要性
研究者ネットワーク
運用実績: POLYPHONET
人工知能学会全国大会: JSAI2003,2004,2005
UbiComp2005, WISS2005
横浜トリエンナーレ
ロボットラボラトリー(大阪市)
予定: AAMAS2006, JSAI2006
※ 実世界指向インタラクションG、国立情報学研究所等と連携
POLYPHONET = POLYPHONY + NETWORK
研究者ネットワークの抽出
Webマイニング
情報検索、自然言語処理、機械学習などの技術を組み合わせて、Web上
の情報を自動的に加工・処理し、有用な知識を抽出する。
処理の流れ
ノード:研究者のリストを与える:名前+所属 (用意する情報はこれだけ)
エッジ:全ての2人の間の関係の強さを測定
エッジラベル:関係が強いと判断された2人の間の関係の種類を測定
•
•
•
•
共著
研究室:同じ研究室や研究所に所属していた
プロジェクト:同じプロジェクトや委員会に所属していた
発表:同じ研究会や全国大会で発表した
その他:研究者の「研究キーワード」、2人の間の「関係キーワード」を抽出。
研究者を研究分野に自動で分類する。
例)124件
抽出の方法
メンバーのリスト(名前、所属)は所与
検索エンジン(Google)を使って、共起関係の強さを測る。
Jaccard係数、相互情報量などさまざまな尺度があるが、
閾値つきOverlap係数を用いる。
例)
“松尾豊 石塚満”:123件 強い
“松尾豊 溝口理一郎”:11件
弱い
“石塚満”:791件
“溝口理一郎”:813件
検索されたWebページから、ページの特徴量を抽出し関係を把握。
共著、 研究室、 プロジェクト、 発表
Simpson係数は、関係の強さを的確に表す。
9割程度の適合率(再現率は2割~5割):アンケート調査
共起の指標
Frequency
|X∩Y|
Mutual Information
log N|X∩Y| / |X||Y|
Dice coefficient 2|X∩Y| / (|X|+|Y|)
Jaccard coefficient
|X∩Y| / |X∪Y|
Simpson coefficient
|X∩Y| / min(|X|,|Y|)
Cosine
|X∩Y| / (√|X||Y|)
We use threshold-based Simpson (overlap) coefficient.
 # (X Y )

rel ( x, y )   min(# ( X ), # (Y ))

0

if # ( A)  k and # ( B)  k
otherwise
H-axis: index, V-axis: probability of co-authorship
Simpson coefficient
Dice coefficient
Frequency
Jaccard coefficient
同姓同名の問題
“松尾豊”ではなく、
“(松尾豊 AND 産業技術総合研究所)”
いろいろなケース
複数の所属名、過去の所属名:全部ORでつなぐ
所属名の略称など:機関の略称リストを用意
松尾豊 AND (産業技術総合研究所 OR 産総研 OR 東京大学 OR 東京
大 OR 東大)
例えば、“松尾豊”903件中256件が私。
この拡張で、262件(適合率86%、再現率93%)となる
※ 日本人ではうまくいくが(必ずと言っていいほど、所属+姓名で書く)、英語名では
工夫が必要。実は、表現形と実体を結び付ける奥深い問題。
関係の種類の判別
“X and Y”で検索した上位5件のページを対象
属性リスト
・2人の氏名の共起回数 ・Simpson係数が閾値以上か
・Xの出現回数 ・Yの出現回数
・{出版、論文、発表、活動、テーマ、賞、著者}のいずれかの語がタイトルに含まれるか
・{メンバー、研究室、研究所、研究機関、チーム}のいずれかの語がタイトルに含まれるか
・{ワークショップ、会議、セミナー、ミーティング、スポンサー、シンポジウム}のいずれかの語がタイト
ルにふくまれるか
・・・・
・{出版、論文、発表、活動、テーマ、賞、著者}のいずれかの語が最初の5行に含まれるか
・・・
ページの特徴属性
(more than one, yes, yes, more than one, more than one, no, no, no, no, no, no, yes, no, no, no, yes,
判別ルール
NumCo = more_than_one → 共著
NumCo = more_than_one & GroFFive(F)=no → 研究室
(Rel=yes & GroTitle(E)=no & GroFFIve(C)=no → 研究室
・・・・
関係のクラス: 共著、研究室、プロジェクト、発表
Polyphonet
研究者ネットワーク抽出・検索システム Polyphonet
polyphony(多声音楽) + network
研究者情報の検索、自分とのつながりの検索、調べたい研究者の登録
などができる。
学会等での運用
JSAI2003-06 人間関係ネットワーク支援システム
UbiComp05
Polyphonetレスキュー版
• 神奈川県・レスキューテクノロジーソリューションデータベース
Polyphonetロボット版
• 大阪市・ロボットラボラトリー
Polyphonet 横浜トリエンナーレ版
Polyphonet WISS2005
Polyphonetに関する研究成果
基本的なアルゴリズム[Matsuo03, 松尾05, Matsuo06]
検索エンジンの負荷を下げる[浅田05]
n^2のクエリー数のオーダをnにする
研究者の分類をする[浅田06]
氏名がどのような語と共起するかで専門分野の分類を行う
研究者のキーワードを抽出する[森05]
氏名とよく共起する研究に関するキーワードを取得する
同姓同名の解決[Bollegara06]
対象となる人物を同定するクエリーを見つける
中心性の分析[友部05、安田04,05]
得られたネットワークを分析し、重要な人物の同定、研究成果との相関を調べる
研究者ネットワーク以外のネットワーク抽出[金06]
企業間のネットワーク、アーティストネットワーク
横浜トリエンナーレ2005のアーティスト
IT・電機系等の企業
関連研究
Semantic Web
MIT A. McCallumら:WebやEmailからの社会ネットワーク抽出
アムステルダムFree大 P. Mikaら:WebやFOAFからの社会ネット
ワーク抽出
Maryland大学 Tim Fininら: FOAFネットワークの収集・分析
ドイツKarlsruhe大学 S. Staabら:Web上のテキストパターンを用
いたエンティティ間のオントロジの抽出
自然言語処理
Kilgariffら:Web as corpus。検索エンジンを用いた言語処理
P. Turneyら:検索エンジンを用いた類義語。TOEFLで普通の学
生よりもよい結果
今後の研究: 技術的方向性
Webからの高次情報のマイニング
一般の人の日々の活動までWebに載るようになってきた
• Blog、掲示板、SNS、検索エンジンの進歩
知識:コミュニティ
• 常識的な知識を抽出できる可能性:
– オントロジの自動獲得、世界知識の獲得、評判の抽出・・・
• 量の変化が質の変化をもたらしている
検索エンジンよりひとつ高次なレイヤー
• 欲しいのは、実世界の情報であって、必ずしも文書ではない。
• 明に現れていない高次情報の抽出、価値の高い情報の提示
ネットワーク的視点
対象の関係性を、総体として捉える。俯瞰を得る。
構造のマイニング:企業間ネットワーク、語のネットワーク・・・
情報システムにおける社会性
コミュニティ、SNS、blog、ソーシャルタギング
人は他人との関係性の中で日常生活を送っている
社会性をどう情報システムに取り込み利用するか
今後の研究:目標
日常生活の場面での情報支援
Webの情報を整理し、生活の各場面で有用な情報を提供:「社会性」
• アノテーション・オーサリング等の技術との融合
ロボットやユビキタスといった実世界での情報支援
意思決定に必要な情報の収集・統合・整理
価値の高い情報の提示:「ネットワーク的視点」
情報の意味内容や情報の価値に関する研究
産業との連携
Webは今後もさらに生活に密着し、情報技術において重要性を増す
Web技術における連携
• アカデミックのコミュニティと産業との連携が十分ではない。⇔シリコンバレー
• これまでにも意識してきた第2種基礎研究を継続する。
ロボットやユビキタスの文脈で生きる、日本独自のWeb技術を目指す
おわり
検索エンジンに対する負荷
普通にやると・・・
氏名リストにn個の氏名があるとすると,共起ページ数
の検索に必要なクエリ数はnC2 個(ほぼO(n2))
overlap係数の分布
0  約67%
0から0.2  約98%
10000
9000
8000
researcher pairs
7000
ほとんどが弱い関係
6000
5000
4000
3000
2000
1000
0
0
0.1
0.2
0.3
0.4
0.5
0.6
overlap coefficient
0.7
0.8
0.9
1
着想
『浅田洋平』の検索結果の上位ページには、浅田洋平と関係の強い人が
ほとんど出現している.(そうでない人も含まれる)
⇒上位ページから共起を調べる名前の候補を出す
提案手法
強い関係がなさそうな氏名のペアを除き、検索エンジンに与え
るクエリの数を減らす.
氏名「X」の検索結果
k
上位k件のページを取得
Y
Z
氏名リスト
X, Y, Z,...
マッチング
強い関係がありそうなペア⇒検索エンジンで調べる
“X,Y”, “X,Z”,...
結果 – クエリの数
ノード: JSAI2003の参加者
ノード数 : 503
•提案手法 : 19182
・・・基本的にO(n)
•従来手法 : 126253 ・・・基本的にO(n2)
85%のクエリを削減.
手法間のoverlap係数の相関
Correlation of overlap coefficient between former method and proposed method
1
r = 0.931
提案手法で抽出できた関係
0.8
0.6
0.4
提案手法では抽出できな
かった関係
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
overlap coefficient by former method
0.8
0.9
1
Polyphonetで使われている技術
検索エンジンの負荷を下げる
研究者の分類をする
研究者のキーワードを抽出する
Webにおける語の共起
『名前 AND キーワード』でWeb検索
ある研究者の特定の研究テーマについてWebを用い
て調べたいとき…
• 石塚満 AND 仮説推論 → 203件
• 石塚満 AND ロボティクス → 49件
研究トピックの推測
石塚満氏はロボティクスよりも仮説推論の研究を行っ
ている人ではないか?
• 実際,石塚満氏は仮説推論の研究に長年携わっているので,
この推測は当たっている.
基本的な考え方
Web上で研究者名とよく共起*する研究キーワード**は,
研究者の研究トピックと関係が深い
*Web上の共起: 同一Webページ上に出現すること
**研究キーワード: 『仮説推論』や『ロボティクス』のような研究トピッ
クに関連する語.
例
JSAI2004(2004年度の人工知能学会全国大会)の参加者: 540人
研究キーワード:JSAI2004の論文のタイトルから抽出: 188語
• 形態素解析システムによる『名詞』『未知語』
• 出現回数が3回以上のn-gram
研究キーワード
例
JSAI2004(2004年度の人工知能学会全国大会)の参加者: 540人
研究キーワード:JSAI2004の論文のタイトルから抽出: 188語
• 形態素解析システムによる『名詞』『未知語』
• 出現回数が3回以上のn-gram
共起行列
研究者の氏名と研究キーワードのWeb上での共起を共起行列
で表現
keyword1
keyword2
...
マイニング
name1
name2
:
浅田洋平
6
共起行列
行: 研究者名
列: 研究キーワード
分布の類似した行にあたる研究者は類似した研究
を行っていると考えられる
χ2値による重みの計算
期待値からの有意な偏りを出すために、χ2値を用いる.
2
(観測値  期待値) 2 (Oij  Eij )
 

期待値
Eij
2
ij
研究者のクラスタリング
ベクトルの類似度
コサイン類似度
va  vb
Sim (a, b) 
| va || vb |
va,vbは研究者a,bのベクトル
クラスタリング法
一般的な最大距離法を用いる.比較的シンプルで,大
きなクラスタができにくいという特徴を持つ.
抽出されたクラスタの具体例
研究者540人を30個のクラスタに分割
クラスタ1: 神嶌敏弘,角田祐一,新村昭好,岡崎直観,倉田岳人,村田剛志,相原健郎,豊田正史,久保山哲二,
藤村滋,仲尾由雄,藤澤瑞樹,橋本泰一, 池原悟,徳永健伸,荒木健治,奥村学,鈴木雅実,熊本忠彦,太田公子,
徳久雅人,村上仁一,賀沢秀人,岩垣守彦,川野洋,藪内佳孝,峯松信明,嵯峨山茂樹,西本卓也,中沢正幸,新
田恒雄,桐山伸也,駒谷和範,伊藤敏彦,桂田浩一,天野成昭,中川聖一,古塩貴行,池ヶ谷有希,鈴木夕紀子,
野口靖浩,松本泰明,小玉智志
重みの大きな語: 自然言語,音声,対話,言語,抽出,処理,クラスタリング,生成,検索システム,情報抽出
自然言語や音声,対話処理など,広い意味で言語を扱う研究分野
クラスタ2: 中丸茂,伊東真紀子,諏訪正樹,青柳悦子,松本裕治,田中穂積
重みの大きな語: 言語,自然言語,処理,解析,研究,システム,技術,抽出,情報,ため
自然言語処理
クラスタ10: 小出誠二,官上大輔,武田英明,和泉憲明,岩爪道昭,小路悠介,垂見晋也,來村徳信,古崎晃司,溝口
理一郎,渡邉英一,池田満,酒井隆道,西原陽子,森田武史,見置孝昌,繁田佳宏,田中庸平,武内雅宇
重みの大きな語: オントロジー,支援環境,知能,支援システム,学習支援,構築,エージェント,設計,支援,人工
セマンティックWeb
Polyphonetで使われている技術
検索エンジンの負荷を下げる
研究者の分類をする
研究者のキーワードを抽出する
キーワード例
キーワード抽出
研究者の具体的な研究テーマ、プロジェクト名、組織名、
共同研究者名などを表すもの
分類が目的ではない
ホームページからキーワード抽出
TF, TFIDF?
1回、せいぜい2回
名前で検索
得られた文書“群”に多く含まれる語を出す
テキスト処理が大変
スコアリング
語の関連度を用いる
研究者名とWeb上でよく共起する語 = 一緒に検索すると多くヒットする語
“石塚満”のキーワードは、“仮説推論”“エージェント”“人工知能”・・・
趣味に関する語や「Web」「ブログ」など一般的な語を除きたいので、「人工知
能」との共起も考慮する
氏名とキーワード候補の関連度
キーワード候補とコンテクストワードの関連度
Jaccard係数
J(石塚満, 高速推論) = 117/(889+364-117)
“石塚満” : 889件 “高速推論” : 364件
“石塚満 and 高速推論” : 117件
評価
ある語(氏名など)を含む文書群をひとつにまとめたときに、Web全体をコー
パスとしたTFIDFの検索エンジンを使った実装になっている。
⇒いろいろなもののキーワード抽出に使えます。
研究動向
同姓同名問題(Bekkerman05, 佐藤04など)
「松尾豊」で検索
クラスタリング(Googleを使った語の類似度を使う)
その人の所属や研究分野との関連で、本人のクラスタを同定
そのクラスタに特有の語をキーワードとして抽出
以降は、「氏名+キーワード」で検索
表記ゆれ問題(Sahami05、他)
「AI」で検索し、snippetを使ったキーワードベクトルと、「artificial
intelligence」で検索し、snippetを使ったキーワードベクトルが類似して
いる:「AI」=「artificial intelligence」
Googleを使った手法は当たり前になりつつある。
Google-dfはよく使われている。
研究者ネットワークの分析
ネットワーク分析
1940年代から社会学の分野でさまざまな手法が提案されている。
分かること
どんなクラスタがあるのか
どんな人が中心的か
ネットワークの性質:スケールフリー?スモールワー
ルド?
時系列的な変化
• 2003年、2004年、2005年