Webからの 研究者ネットワークの抽出と利用 情報技術研究部門 知的コンテンツグループ 松尾 豊 発表の内容 成果の概要 研究内容の説明 「Webからの研究者ネットワークの抽出」 今後の研究予定、目標 研究成果概要:研究テーマ 2002年4月入所 ~2004.7 サイバーアシスト研究センター ~現在 情報技術研究部門 建物内の位置履歴からのユーザモデリングの研究 競争的資金: • 総務省 戦略的情報通信研究開発推進制度(SCOPE-R)(H15~17)研究代表者 臨海副都心センターでの位置情報取得の実験など 位置の履歴だけから、ユーザの属性をある程度推測することができる • ユビキタス空間における情報提供で重要 Webからの研究者ネットワーク抽出の研究 競争的資金 • 科研費基盤B(H17~19)研究代表者 • NEDO 産業技術研究助成事業「人の社会的関係を考慮した情報提供に関する研究」 (H17~19、代表:西村 拓一)で主要な研究分担者 Webから研究者の協働関係を抽出する。Polyphonetシステム 研究成果の概要 成果 論文:計20件(筆頭9件)の誌上発表、40件以上の国際会議での発表 • 文書処理、Webマイニング、ユーザモデリング、センサデータの解析等 • 人工知能学会論文賞を受賞。 WWW2006やAAAI-06に採択。 特許出願:7件(筆頭5件)、3件のプレス発表、新聞報道は10件以上 産業との連携 Web系ビジネスと研究コミュニティをつなぐ橋渡し 2003年「Blog勉強会」第1回~3回 • 70人以上。アカデミックでは最も早い時期。多くのIT技術者。 2005年「Webが生み出す関係構造と社会ネットワーク分析ワークショップ」 • 日本初のSNSのワークショップ。プレスも含め100名以上が参加 Polyphonet: • 大阪市のロボットラボラトリーでの試験運用。 • 産総研イノベーションズと連携し、各企業への技術移転を進めている。 海外との連携 スタンフォード大学CSLI(言語情報研究センター) 2006年4月からは、日本学術振興会の海外特別研究員として長期出張 Webからの研究者ネットワークの抽 出と利用 Webからの研究者ネットワークの抽出と利用 「人」そして「人間関係」の重要性 ユビキタス環境 情報検索、セマンティックオーサリング、セマンティックウェブ:情報の信頼性 「行為を決定するのは、行為者を取り囲む関係構造である.」 社会ネットワーク分析 人同士の社会的関係を記述することは困難 Web上の情報から研究者のネットワークを抽出する。 情報が新しく、多様。今、まさに起こっている関係を捉えられる。 好むと好まざるに関わらず、情報が第三者によって記述される。 研究者ネットワークの抽出:POLYPHONET 研究者の協働関係ネットワーク 融合領域、産学官連携の重要性 研究者ネットワーク 運用実績: POLYPHONET 人工知能学会全国大会: JSAI2003,2004,2005 UbiComp2005, WISS2005 横浜トリエンナーレ ロボットラボラトリー(大阪市) 予定: AAMAS2006, JSAI2006 ※ 実世界指向インタラクションG、国立情報学研究所等と連携 POLYPHONET = POLYPHONY + NETWORK 研究者ネットワークの抽出 Webマイニング 情報検索、自然言語処理、機械学習などの技術を組み合わせて、Web上 の情報を自動的に加工・処理し、有用な知識を抽出する。 処理の流れ ノード:研究者のリストを与える:名前+所属 (用意する情報はこれだけ) エッジ:全ての2人の間の関係の強さを測定 エッジラベル:関係が強いと判断された2人の間の関係の種類を測定 • • • • 共著 研究室:同じ研究室や研究所に所属していた プロジェクト:同じプロジェクトや委員会に所属していた 発表:同じ研究会や全国大会で発表した その他:研究者の「研究キーワード」、2人の間の「関係キーワード」を抽出。 研究者を研究分野に自動で分類する。 例)124件 抽出の方法 メンバーのリスト(名前、所属)は所与 検索エンジン(Google)を使って、共起関係の強さを測る。 Jaccard係数、相互情報量などさまざまな尺度があるが、 閾値つきOverlap係数を用いる。 例) “松尾豊 石塚満”:123件 強い “松尾豊 溝口理一郎”:11件 弱い “石塚満”:791件 “溝口理一郎”:813件 検索されたWebページから、ページの特徴量を抽出し関係を把握。 共著、 研究室、 プロジェクト、 発表 Simpson係数は、関係の強さを的確に表す。 9割程度の適合率(再現率は2割~5割):アンケート調査 共起の指標 Frequency |X∩Y| Mutual Information log N|X∩Y| / |X||Y| Dice coefficient 2|X∩Y| / (|X|+|Y|) Jaccard coefficient |X∩Y| / |X∪Y| Simpson coefficient |X∩Y| / min(|X|,|Y|) Cosine |X∩Y| / (√|X||Y|) We use threshold-based Simpson (overlap) coefficient. # (X Y ) rel ( x, y ) min(# ( X ), # (Y )) 0 if # ( A) k and # ( B) k otherwise H-axis: index, V-axis: probability of co-authorship Simpson coefficient Dice coefficient Frequency Jaccard coefficient 同姓同名の問題 “松尾豊”ではなく、 “(松尾豊 AND 産業技術総合研究所)” いろいろなケース 複数の所属名、過去の所属名:全部ORでつなぐ 所属名の略称など:機関の略称リストを用意 松尾豊 AND (産業技術総合研究所 OR 産総研 OR 東京大学 OR 東京 大 OR 東大) 例えば、“松尾豊”903件中256件が私。 この拡張で、262件(適合率86%、再現率93%)となる ※ 日本人ではうまくいくが(必ずと言っていいほど、所属+姓名で書く)、英語名では 工夫が必要。実は、表現形と実体を結び付ける奥深い問題。 関係の種類の判別 “X and Y”で検索した上位5件のページを対象 属性リスト ・2人の氏名の共起回数 ・Simpson係数が閾値以上か ・Xの出現回数 ・Yの出現回数 ・{出版、論文、発表、活動、テーマ、賞、著者}のいずれかの語がタイトルに含まれるか ・{メンバー、研究室、研究所、研究機関、チーム}のいずれかの語がタイトルに含まれるか ・{ワークショップ、会議、セミナー、ミーティング、スポンサー、シンポジウム}のいずれかの語がタイト ルにふくまれるか ・・・・ ・{出版、論文、発表、活動、テーマ、賞、著者}のいずれかの語が最初の5行に含まれるか ・・・ ページの特徴属性 (more than one, yes, yes, more than one, more than one, no, no, no, no, no, no, yes, no, no, no, yes, 判別ルール NumCo = more_than_one → 共著 NumCo = more_than_one & GroFFive(F)=no → 研究室 (Rel=yes & GroTitle(E)=no & GroFFIve(C)=no → 研究室 ・・・・ 関係のクラス: 共著、研究室、プロジェクト、発表 Polyphonet 研究者ネットワーク抽出・検索システム Polyphonet polyphony(多声音楽) + network 研究者情報の検索、自分とのつながりの検索、調べたい研究者の登録 などができる。 学会等での運用 JSAI2003-06 人間関係ネットワーク支援システム UbiComp05 Polyphonetレスキュー版 • 神奈川県・レスキューテクノロジーソリューションデータベース Polyphonetロボット版 • 大阪市・ロボットラボラトリー Polyphonet 横浜トリエンナーレ版 Polyphonet WISS2005 Polyphonetに関する研究成果 基本的なアルゴリズム[Matsuo03, 松尾05, Matsuo06] 検索エンジンの負荷を下げる[浅田05] n^2のクエリー数のオーダをnにする 研究者の分類をする[浅田06] 氏名がどのような語と共起するかで専門分野の分類を行う 研究者のキーワードを抽出する[森05] 氏名とよく共起する研究に関するキーワードを取得する 同姓同名の解決[Bollegara06] 対象となる人物を同定するクエリーを見つける 中心性の分析[友部05、安田04,05] 得られたネットワークを分析し、重要な人物の同定、研究成果との相関を調べる 研究者ネットワーク以外のネットワーク抽出[金06] 企業間のネットワーク、アーティストネットワーク 横浜トリエンナーレ2005のアーティスト IT・電機系等の企業 関連研究 Semantic Web MIT A. McCallumら:WebやEmailからの社会ネットワーク抽出 アムステルダムFree大 P. Mikaら:WebやFOAFからの社会ネット ワーク抽出 Maryland大学 Tim Fininら: FOAFネットワークの収集・分析 ドイツKarlsruhe大学 S. Staabら:Web上のテキストパターンを用 いたエンティティ間のオントロジの抽出 自然言語処理 Kilgariffら:Web as corpus。検索エンジンを用いた言語処理 P. Turneyら:検索エンジンを用いた類義語。TOEFLで普通の学 生よりもよい結果 今後の研究: 技術的方向性 Webからの高次情報のマイニング 一般の人の日々の活動までWebに載るようになってきた • Blog、掲示板、SNS、検索エンジンの進歩 知識:コミュニティ • 常識的な知識を抽出できる可能性: – オントロジの自動獲得、世界知識の獲得、評判の抽出・・・ • 量の変化が質の変化をもたらしている 検索エンジンよりひとつ高次なレイヤー • 欲しいのは、実世界の情報であって、必ずしも文書ではない。 • 明に現れていない高次情報の抽出、価値の高い情報の提示 ネットワーク的視点 対象の関係性を、総体として捉える。俯瞰を得る。 構造のマイニング:企業間ネットワーク、語のネットワーク・・・ 情報システムにおける社会性 コミュニティ、SNS、blog、ソーシャルタギング 人は他人との関係性の中で日常生活を送っている 社会性をどう情報システムに取り込み利用するか 今後の研究:目標 日常生活の場面での情報支援 Webの情報を整理し、生活の各場面で有用な情報を提供:「社会性」 • アノテーション・オーサリング等の技術との融合 ロボットやユビキタスといった実世界での情報支援 意思決定に必要な情報の収集・統合・整理 価値の高い情報の提示:「ネットワーク的視点」 情報の意味内容や情報の価値に関する研究 産業との連携 Webは今後もさらに生活に密着し、情報技術において重要性を増す Web技術における連携 • アカデミックのコミュニティと産業との連携が十分ではない。⇔シリコンバレー • これまでにも意識してきた第2種基礎研究を継続する。 ロボットやユビキタスの文脈で生きる、日本独自のWeb技術を目指す おわり 検索エンジンに対する負荷 普通にやると・・・ 氏名リストにn個の氏名があるとすると,共起ページ数 の検索に必要なクエリ数はnC2 個(ほぼO(n2)) overlap係数の分布 0 約67% 0から0.2 約98% 10000 9000 8000 researcher pairs 7000 ほとんどが弱い関係 6000 5000 4000 3000 2000 1000 0 0 0.1 0.2 0.3 0.4 0.5 0.6 overlap coefficient 0.7 0.8 0.9 1 着想 『浅田洋平』の検索結果の上位ページには、浅田洋平と関係の強い人が ほとんど出現している.(そうでない人も含まれる) ⇒上位ページから共起を調べる名前の候補を出す 提案手法 強い関係がなさそうな氏名のペアを除き、検索エンジンに与え るクエリの数を減らす. 氏名「X」の検索結果 k 上位k件のページを取得 Y Z 氏名リスト X, Y, Z,... マッチング 強い関係がありそうなペア⇒検索エンジンで調べる “X,Y”, “X,Z”,... 結果 – クエリの数 ノード: JSAI2003の参加者 ノード数 : 503 •提案手法 : 19182 ・・・基本的にO(n) •従来手法 : 126253 ・・・基本的にO(n2) 85%のクエリを削減. 手法間のoverlap係数の相関 Correlation of overlap coefficient between former method and proposed method 1 r = 0.931 提案手法で抽出できた関係 0.8 0.6 0.4 提案手法では抽出できな かった関係 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 overlap coefficient by former method 0.8 0.9 1 Polyphonetで使われている技術 検索エンジンの負荷を下げる 研究者の分類をする 研究者のキーワードを抽出する Webにおける語の共起 『名前 AND キーワード』でWeb検索 ある研究者の特定の研究テーマについてWebを用い て調べたいとき… • 石塚満 AND 仮説推論 → 203件 • 石塚満 AND ロボティクス → 49件 研究トピックの推測 石塚満氏はロボティクスよりも仮説推論の研究を行っ ている人ではないか? • 実際,石塚満氏は仮説推論の研究に長年携わっているので, この推測は当たっている. 基本的な考え方 Web上で研究者名とよく共起*する研究キーワード**は, 研究者の研究トピックと関係が深い *Web上の共起: 同一Webページ上に出現すること **研究キーワード: 『仮説推論』や『ロボティクス』のような研究トピッ クに関連する語. 例 JSAI2004(2004年度の人工知能学会全国大会)の参加者: 540人 研究キーワード:JSAI2004の論文のタイトルから抽出: 188語 • 形態素解析システムによる『名詞』『未知語』 • 出現回数が3回以上のn-gram 研究キーワード 例 JSAI2004(2004年度の人工知能学会全国大会)の参加者: 540人 研究キーワード:JSAI2004の論文のタイトルから抽出: 188語 • 形態素解析システムによる『名詞』『未知語』 • 出現回数が3回以上のn-gram 共起行列 研究者の氏名と研究キーワードのWeb上での共起を共起行列 で表現 keyword1 keyword2 ... マイニング name1 name2 : 浅田洋平 6 共起行列 行: 研究者名 列: 研究キーワード 分布の類似した行にあたる研究者は類似した研究 を行っていると考えられる χ2値による重みの計算 期待値からの有意な偏りを出すために、χ2値を用いる. 2 (観測値 期待値) 2 (Oij Eij ) 期待値 Eij 2 ij 研究者のクラスタリング ベクトルの類似度 コサイン類似度 va vb Sim (a, b) | va || vb | va,vbは研究者a,bのベクトル クラスタリング法 一般的な最大距離法を用いる.比較的シンプルで,大 きなクラスタができにくいという特徴を持つ. 抽出されたクラスタの具体例 研究者540人を30個のクラスタに分割 クラスタ1: 神嶌敏弘,角田祐一,新村昭好,岡崎直観,倉田岳人,村田剛志,相原健郎,豊田正史,久保山哲二, 藤村滋,仲尾由雄,藤澤瑞樹,橋本泰一, 池原悟,徳永健伸,荒木健治,奥村学,鈴木雅実,熊本忠彦,太田公子, 徳久雅人,村上仁一,賀沢秀人,岩垣守彦,川野洋,藪内佳孝,峯松信明,嵯峨山茂樹,西本卓也,中沢正幸,新 田恒雄,桐山伸也,駒谷和範,伊藤敏彦,桂田浩一,天野成昭,中川聖一,古塩貴行,池ヶ谷有希,鈴木夕紀子, 野口靖浩,松本泰明,小玉智志 重みの大きな語: 自然言語,音声,対話,言語,抽出,処理,クラスタリング,生成,検索システム,情報抽出 自然言語や音声,対話処理など,広い意味で言語を扱う研究分野 クラスタ2: 中丸茂,伊東真紀子,諏訪正樹,青柳悦子,松本裕治,田中穂積 重みの大きな語: 言語,自然言語,処理,解析,研究,システム,技術,抽出,情報,ため 自然言語処理 クラスタ10: 小出誠二,官上大輔,武田英明,和泉憲明,岩爪道昭,小路悠介,垂見晋也,來村徳信,古崎晃司,溝口 理一郎,渡邉英一,池田満,酒井隆道,西原陽子,森田武史,見置孝昌,繁田佳宏,田中庸平,武内雅宇 重みの大きな語: オントロジー,支援環境,知能,支援システム,学習支援,構築,エージェント,設計,支援,人工 セマンティックWeb Polyphonetで使われている技術 検索エンジンの負荷を下げる 研究者の分類をする 研究者のキーワードを抽出する キーワード例 キーワード抽出 研究者の具体的な研究テーマ、プロジェクト名、組織名、 共同研究者名などを表すもの 分類が目的ではない ホームページからキーワード抽出 TF, TFIDF? 1回、せいぜい2回 名前で検索 得られた文書“群”に多く含まれる語を出す テキスト処理が大変 スコアリング 語の関連度を用いる 研究者名とWeb上でよく共起する語 = 一緒に検索すると多くヒットする語 “石塚満”のキーワードは、“仮説推論”“エージェント”“人工知能”・・・ 趣味に関する語や「Web」「ブログ」など一般的な語を除きたいので、「人工知 能」との共起も考慮する 氏名とキーワード候補の関連度 キーワード候補とコンテクストワードの関連度 Jaccard係数 J(石塚満, 高速推論) = 117/(889+364-117) “石塚満” : 889件 “高速推論” : 364件 “石塚満 and 高速推論” : 117件 評価 ある語(氏名など)を含む文書群をひとつにまとめたときに、Web全体をコー パスとしたTFIDFの検索エンジンを使った実装になっている。 ⇒いろいろなもののキーワード抽出に使えます。 研究動向 同姓同名問題(Bekkerman05, 佐藤04など) 「松尾豊」で検索 クラスタリング(Googleを使った語の類似度を使う) その人の所属や研究分野との関連で、本人のクラスタを同定 そのクラスタに特有の語をキーワードとして抽出 以降は、「氏名+キーワード」で検索 表記ゆれ問題(Sahami05、他) 「AI」で検索し、snippetを使ったキーワードベクトルと、「artificial intelligence」で検索し、snippetを使ったキーワードベクトルが類似して いる:「AI」=「artificial intelligence」 Googleを使った手法は当たり前になりつつある。 Google-dfはよく使われている。 研究者ネットワークの分析 ネットワーク分析 1940年代から社会学の分野でさまざまな手法が提案されている。 分かること どんなクラスタがあるのか どんな人が中心的か ネットワークの性質:スケールフリー?スモールワー ルド? 時系列的な変化 • 2003年、2004年、2005年
© Copyright 2025 ExpyDoc