PowerPoint プレゼンテーション - Kinoshita Lab Home

キーワードの含有率を用いた
クラウドファイルシステム
木下研究室
200902763 竹村孝太
背景と目的
• インターネットには多種多様な情報(ファイル、ページ)が
散在している。
• これらの情報から必要なものだけを取り出すのは難しい。
インターネット上の情報を視覚的に判りやすく、
より扱いやすいように集めるシステムを作りたい。
クラウドファイルシステム
“情報同士の関係性”・“情報の重要度”
について考察する。
ファイルの
群れの作成
クラウドファイルシステムの構想
群を守るモデル。
セキュリティ面から群
から離れないような
仕組みを作る
小泉
Boid(群知能)を使っ
た集まるという仕組
みの最適化を図る
道下
エージェント
管理
動き
(ベクトル)
重要度の選択やフィルタ
をかけることにより、目的
のファイルを探し出す
任意のファイル
要素
任意のファイル
(スカラ)
鈴木
・フレンドシップモデル
・クラスメートモデル
・Ant Colony Optimization
・ファイルのタグ、色
・群集合(ふるまいの履歴)
任意のファイル
・リンゴ
・赤色
・甘くて、美
味しいです。
任意のファイル
アクセスの順番、ふる
まいの履歴などファイ
ルの持つ”形”から情
報をセパレートする
安竹
キーワードやファイルの中身
から、含用率から重要度や
竹村
群の中心を判断する
「動き」と「要素」の橋渡しとして
家族的類似(パラメータ)が
用いられる。
クラウドファイルシス
テムの様々な仕組み
を統括しての、総合
的な実装を目的とす
る
石田
関係性と集まる力
群れを作成するための
集まる力
関係性があるから集まる
関係性:ファイルの内容の類似
先行研究では、
ユーザーが色など
のタグを付与
キーワードの含有率
「キーワードがファイルにどの程度含まれているか」
重要度
関係性のあるファイルを集めたとしても、全ての
ファイルが等しく必要であるとは限らない。
ファイルごとの重要度に差が出る。
そこで、ファイルの重要度の決め方を考える。
重要度
→
キーワードの含有率
重要度(2)
ファイルの
重要度
・含有率
低い
高い
低い
高い
・重要度
キーワードの含有率
群れの作成における関係性と重要度を決定する指標
キーワードがファイルにどの程度含まれているか
含有率の要素
・キーワードの個数
・キーワードの色、大きさ
・キーワードの位置
1個 < 5個
10個 < 11個
キーワード < キーワード
キーワード <
キーワード < 「キーワード」
キーワード < Fileの名前:キーワード
キーワード
含有率の利点
「先行研究では」
ファイルに自ら以下を付与
関係性:ファイルを種類ごとに色分け
重要度:使用頻度、締切順
問題点
労力と時間が掛かる
「キーワードの含有率」
ファイルの内容に着目して
関係性と重要度を一括決定
利点1
労力と時間を削減
利点2
ファイルの意外な
関係性の発見
キーワードの指示
目的に応じた群れを作るには、
キーワードの指示の仕方も重要である。
キーワードの条件
「単体で意味を成す語」
主語or述語
◎名詞
△動詞・形容詞
×助詞・助動詞
キーワードの数と意味の集合(範囲)の考慮
• キーワードの個数の指定
• 複数のキーワードの意味の範囲への
和集合・積集合の任意適用
群れにバラエティを持
たせられる
意味の範囲が広い場合
Aの意味の集合
Bの意味の集合
ファイル
Aによる群れ
AとBの和集合の群れ
AとBの積集合の群れ
意味の範囲が狭い場合
Aの意味の集合
Bの意味の集合
ファイル
Aによる群れ
AとBの和集合の群れ
AとBの積集合の群れ
含有率の算出
キーワードの個数のみを用いて含有率を算出する。
𝐾
CBP = 𝐶 ×100[%]
𝐴
(CBP : 含有率 ,K : キーワードの個数 A : 総単語数 ,
C : 個人による補正 )
File
---------
茶筌
形態素解析ツール
• 品詞分類
• 単語ごとに改行し、出力
プログ
ラム
Perlによる含有率
算出用プログラム
含有率
茶筌による解析
文章を、意味を成す最小
の単位に分解し、品詞分
類を行える。
プログラム実行結果
任意でキーワードを入力
し、それぞれの個数と
ファイル内の総単語数を
求め、含有率の計算を行
えた。
含有率より関係性と重要
度が決定するため、Boid
に適用し群れの作成を
行える。
まとめ
• 「キーワードの個数」のみを用いた含有率の
算出はできた
• ファイルの内容に着目して関係性と重要度を
一括して決定することが出来るため、実用的
だと思われる
今後の課題
• 「キーワードの色・大きさ」、「キーワードの位
置」を含めた含有率の算出
• キーワードを複数指定する際に、和集合と積
集合を選択できるよう改善する
• 実際に、含有率をBoidのパラメータとして適
用し、シミュレーションを行う