DEIM Forum 2014 C2-3 多次元ツリー自動構成ツール MD-TACT の開発と評価 柿本 由気† 掛下 哲郎‡ 佐賀大学工学系研究科 〒840-8502 佐賀市本庄町 1 番地 E-mail: † [email protected], ‡ [email protected] あらまし 近年多くの企業や企業で大量の情報が電子化されており、それらの整理や検索が困難になっている。 我々は増え続けるファイル群を系統的に整理するべく、多次元ツリーを用いたファイル整理ツール HyperClassifier を開発している。本論文では既存の分類で良く使われる単一ツリーを HyperClassifier の多次元ツリーに変換する手 間を軽減するため、多次元ツリー自動構成ツール MD-TACT を開発する。MD-TACT は単一ツリーを多次元ツリー に自動変換し、さらに手動で洗練する機能を提供する。また、ツリーの再構成情報を利用することで、それ以降の 自動構成の精度向上を図る。MD-TACT の評価実験を行った結果、被験者からは良好な評価が得られた。また、 MD-TACT を使用することで、手作業と比較して 3.8 倍程度の効率化が図れることが分かった。現在、評価実験を通 じて得たログデータを詳細に分析中である。 キーワード 多次元ツリー、OLAP、ファイル整理ツール 1. は じ め に 近年、多くの企業や団体でコンピュータが導入され、 HyperClassifier は 多 次 元 ツ リ ー 構 造 と 対 応 付 け て フ ァ イ ル を 登 録 し 、 OLAP 操 作 を 行 う こ と で 登 録 し た フ ァ 大量の情報を電子化して扱っている。その数は企業の イルを検索できる。これにより、今までのファイル整 規模などにもよるが、ファイル数にして、およそ数万 理ツールと比較して高速かつ柔軟な検索ができるよう か ら 数 十 万 フ ァ イ ル 以 上 に も の ぼ る 。こ れ ら の 情 報 は 、 になった。 企業の活動によって作成およびやり取りがされること HyperClassifier の 欠 点 と し て 、 既 存 の フ ァ イ ル サ ー によって次々と蓄積されていく。企業が蓄積している バからの移行に手間がかかる点が挙げられる。特に、 情報の量は、時間の経過とともに増大の一途をたどっ 単一のフォルダ階層を用いて管理されてきたファイル て い る 。近 年 で は 50~ 60%の 割 合 で 増 加 し 、今 後 10 年 を多次元ツリーによって再整理するには時間と労力が 以上はこの傾向が続くといわれている。このまま大量 かかる。 のファイルが蓄積してくると、それらの整理や検索が この欠点を克服するために、本論文では既存の単一 困難になってくる。ある調査によると「インフォメー ツリーで構成されたファイル群を多次元ツリー形式に シ ョ ン ワ ー カ ー は 、 平 均 で 労 働 時 間 の 24 % を 情 報 の 自 動 的 に 組 み 替 え る ツ ー ル 、 MD-TACT ( Multi- 検 索 と 分 析 に 費 や し て い る 」 と の 報 告 [1] も あ り 、 情 Dimensional Tree Automatic Construction Tool)を 開 発 す 報探索にかかる労力は、企業活動において大きな負担 る [4,5,6]。MD-TACT は 、既 存 の フ ァ イ ル 群 を 読 み 込 み 、 となっている。そのため、必要な情報の探索にかける ファイル名を取得して自動的に多次元ツリーに再構成 時間を短縮することは、企業等にとって重要な課題で す る 。ま た 、生 成 さ れ た 多 次 元 ツ リ ー を HyperClassifier ある。 にインポートすることで、時間のかかるファイル登録 このような背景から、ファイルを系統的に分類・整 を、ファイル群ごと一括で行うことができる。 理し、素早く検索できるシステムが求められている。 本 論 文 で は 、MD-TACT の 開 発 と 評 価 を 行 っ た の で 、 企業内に蓄積された情報を検索できるようなシステム これについてまとめる。まず 2 節では、本研究のファ は 従 来 か ら 多 く 開 発 さ れ て い る が 、 そ の 多 く は 、 Web イ ル 整 理 の 要 点 で あ る 多 次 元 分 類 方 式 と OLAP 操 作 に ページの検索エンジンのような、キーワードを入力す ついて述べ、それをもとに開発されたファイル整理ツ ることによってファイルの検索を行うシステムである。 ー ル HyperClassifier の 機 能 、特 徴 、欠 点 に つ い て 述 べ しかしこの形式のシステムの場合、情報を得るために る 。 3 節 で は 、 HyperClassifier の 欠 点 を 克 服 す る た め 、 はキーワードが必要であり、目的の情報を検索できる 本研究で提案及び開発した多次元ツリー自動構成ツー キーワードが不明だと検索ができない。また、ファイ ル MD-TACT の 目 的 と 機 能 、 基 本 的 な 処 理 の 流 れ に つ ルサーバの中に何の情報がどのように分布しているか い て 説 明 す る 。 4 節 で は 3 節 で 述 べ た MD-TACT の 有 分からず、目的の情報が存在するかが分かりにくい。 用 性 を 検 証 す る た め に 、MD-TACT の 評 価 実 験 を 行 い 、 これらの問題を解決するために、我々は多次元ツリ その結果を分析する。5 節では本論文のまとめと今後 ーを用いてファイルを整理する方法を用いたファイル 整 理 ツ ー ル HyperClassifier を 開 発 し て き た [2,3] 。 の研究課題について述べる。 2. 基 本 事 項 した学生情報を集計する場合に、 「 学 年 」と「 学 部 」と 2.1. 多次 元ツリー いう次元を指定して、それぞれを組み合わせた学生数 多次元ツリーとは、各ファイルを複数のツリーと対 応付けて分類する方式で、本研究で独自に提案する分 類 方 式 で あ る 。 一 般 的 な OS が 用 い る フ ァ イ ル シ ス テ ムは、単一のツリーを使って分類を実現している。単 の表を表示するときなどに用いられる。この操作によ り、分析の観点を変えることができる。 スライシング 特定の条件を適用し、データの絞り込みを行う操作。 一のツリーは、構造が比較的単純で実現が容易である 学生情報を集計する際に、 「 理 工 学 部 の 学 生 」と い っ た が、複数の分類観点が混在していると、ツリーの分類 条件を付けて絞り込むような操作がスライシングであ の一貫性を保てない。この他にも、検索の順序がツリ る。条件を設定して絞り込むことで、必要な情報だけ ーの根から葉への方向に固定され、検索の自由度が低 を抽出できる。 い、分類観点が増えると、ノード数が爆発的に増加す ドリリング る等の欠点があり、検索効率が決して良いとは言えな 特定の次元の階層を上下させ、データの集計範囲を 切り替える操作。下の階層に切り替える操作をドリル い。 こ れ に 対 し て 多 次 元 分 類 方 式 で は 、「 プ ロ ジ ェ ク ト ダウン、上の階層に切り替える操作をドリルアップと 名」や「ファイルの目的」などといった、ファイルの いう。例を挙げると、ドリルダウンは学部ごとのデー 分類基準ごとにツリーを複数構築し、分類を行う。 タを学科ごとのデータに分割する操作、ドリルアップ 多次元ツリーで用いるツリーは、以下の 2 つの制約 を満たすように構成される。 IS-A 制 約 は学科ごとのデータを学部ごとのデータにまとめる操 作である。 2.3. HyperClassifier 親 子 の ノ ー ド 間 に は 、IS-A 関 連 が 成 り 立 つ よ う に HyperClassifier は 、 フ ァ イ ル を 登 録 ・ 分 類 す る 機 能 構 築 す る 。 IS-A 関 連 と は 、 子 ノ ー ド は 親 ノ ー ド と、ファイルを検索する機能の 2 つを主に提供する。 の 特 別 な 場 合 に 対 応 す る 関 連 で あ る 。あ る 概 念 A ファイルの登録は、各観点のツリーから対応付けた と B が 存 在 し た 時 に 、そ れ が「 A は B で あ る( A いタグを選択し、登録するファイルやフォルダをドラ is a B)」 と い う 関 係 が 成 り 立 つ 関 連 で あ る 。 ッ グ &ド ロ ッ プ す る こ と で 、登 録 を 行 う こ と が で き る 。 排他制約 同 一 ツ リ ー の 兄 弟 ノ ー ド は 、互 い に 排 他 的 な も の と す る 。こ の 制 約 に よ り 、分 類 基 準 を 明 確 化 す る ことができる。 登録されたファイルはファイルサーバにアップロード され、利用者が共用できるようになっている。 検 索 の 際 に は 、 OLAP 操 作 を 用 い る こ と が で き る 。 タグを選択するとダイシングを行い、そのタグに対応 多 次 元 ツ リ ー は 個 別 の ツ リ ー が 一 貫 し て お り 、ツ リ ー 付 け ら れ て い る フ ァ イ ル の 一 覧 が 表 示 さ れ る ( 図 1)。 を比較的小さくできるため、理解及び保守が容易であ ファイルを選択した状態でタグを選択するとスライシ る。また、ツリーやノードを利用者が自由に指定して ングされ、目的のファイルを素早く探し出すことがで 検索ができるので、全ての階層をたどらなくてもファ き る( 図 2)。各 階 層 構 造 に は 、ド リ リ ン グ に よ っ て ア イルを見つけることができる。さらに、カテゴリごと ク セ ス で き る ( 図 3)。 にツリーが作られているので、蓄積されている情報の 全体像を容易に把握できる。 2.2. OLAP 操 作 OLAP( Online Analytical Processing)は 、利 用 者 が 直 接データを検索・加工することで、問題発見や問題解 決のための分析を行う、多次元データベース構成の分 析型情報システムである。リレーショナルデータベー スは 2 次元の表で構成されているが、多次元データベ ー ス は 、そ れ 以 上 の 数 の 次 元 を 持 つ こ と が 可 能 で あ る 。 HyperClassifier で は フ ァ イ ル 検 索 の 各 操 作 に ダ イ シ ン 図 1. HyperClassifier の ダ イ シ ン グ 操 作 グ 、 ス ラ イ シ ン グ 、 ド リ リ ン グ の 3 種 類 の OLAP 操 作 を用いる。 従来のファイル整理ツールと違い、多次元ツリーを ダイシング 用いることでより検索しやすく、登録機能によりファ 次元を指定し、それに基づいた検索結果を表示する イルの増加に対応することもできる。 操作。 「学年」 「学部」 「 出 身 地 」の 3 つ の 次 元 か ら 作 成 上 記 2 つ の 機 能 の ほ か に 、 CSV フ ァ イ ル を 介 し た ツ リーや対応関係のインポート・エクスポート機能があ ト す る こ と で HyperClassifier 上 に 多 次 元 ツ リ ー を 再 現 る 。CSV フ ァ イ ル を 使 用 し て 所 定 の 形 式 で ツ リ ー や フ できる。増え続けるファイルにも対応するため、この ァ イ ル の 情 報 を 入 力 し 、そ れ を HyperClassifier に 読 み ツールでも追加読み込みが可能になっている。 込むことで、ツリーの構築やファイルとタグの対応付 MD-TACT は 、2 種 類 の 情 報 を 読 み 込 ん で 処 理 を 行 う 。 け を 一 括 変 更 で き る 。 ま た 、 Hyp erClassifier 上 に 登 録 1つは、単一ツリーの構造を示したファイルフルパス さ れ て い る ツ リ ー や 対 応 関 係 を CSV フ ァ イ ル に 書 き の一覧であり、これはテキストフォルダとして読み込 出 す こ と も で き る 。 MD-TACT を 用 い て 再 構 成 し た 多 む。フルパスは 1 行ずつ記録されており、各ノードの 次 元 ツ リ ー は 、 CSV フ ァ イ ル を 用 い て Hyp erClassifier 区 切 り に は ¥も し く は /が 使 わ れ て い る 必 要 が あ る 。 も に イ ン ポ ー ト で き る 。 こ れ に よ り 、 Hyp erClassifier の う 1 つ は 単 語 辞 書 と い う CSV フ ァ イ ル で あ る 。こ れ は 、 欠点である移行作業の手間を軽減している。 MD-TACT で 多 次 元 ツ リ ー を 再 構 成 し た 時 に 生 成 さ れ るもので、どのノードがどのツリーに所属しているか を記録している。2 回目以降の読み込みでフルパス一 覧と共に読み込めば、前回の構造を維持しながら新た なツリーを自動構成できる。 図 2. HyperClassifier の ス ラ イ シ ン グ 操 作 図 4. MD-TACT の ユ ー ザ ー イ ン タ ー フ ェ ー ス 図 3. HyperClassifier の ド リ リ ン グ 操 作 3.2. 機能 説 明 MD-TACT は 多 次 元 ツ リ ー 自 動 構 成 機 能 と 多 次 元 ツ 3. MD-TACT 3.1. 概要 HyperClassifier で は 、 フ ァ イ ル 登 録 の 際 に フ ァ イ ル リー手動洗練機能を主に提供する。 多次元ツリー自動構成 単一ツリー構造のファイル群から単語を切り出し、 と多次元ツリーを対応付ける必要があり、これには手 多次元ツリーの構造を自動的に構成する機能。このと 間がかかる。多次元ツリー形式で構成されたファイル きに読み込まれるのはファイル群のフルパス一覧であ 群 な ら CSV イ ン ポ ー ト 機 能 を 使 う こ と で 一 括 登 録 で る。初回構築と追加構築の 2 パターンがあり、初回構 きるが、一般のファイル群は単一ツリーで整理されて 築ではファイルパスのみで多次元ツリーを自動構成す おり、単一ツリーから多次元ツリーに再構成するのに る。追加構築では、後述する単語辞書を共に読み込む は手間と時間がかかる。多次元ツリー自動構成ツール ことで、より精度の高い多次元ツリーを自動構成でき MD-TACT は 、 こ の 欠 点 を 克 服 す る た め に 開 発 し て い る ( 図 4 )。 る。 多次元ツリー手動洗練 MD-TACT は 単 一 ツ リ ー で 構 成 さ れ た デ ー タ 構 造 を 初回構築で行われる自動構成は機械的な分類がさ 読み込み、構成されているファイル・フォルダ名を切 れており、必ずしも精度の高い多次元ツリーが生成さ り出し、多次元ツリーへと自動的に変換し出力する。 れるとは限らない。そこで自動構成終了後にユーザが また、出力されたツリーに正しくないカテゴリ設定が 手 動 で 多 次 元 ツ リ ー を 検 査・編 集 す る 機 能 を 提 供 す る 。 されていた場合、手動で修正する機能も提供する。さ 編集結果は単語辞書に記録され、それ以降の自動構成 ら に 再 構 成 さ れ た ツ リ ー の 情 報 は CSV フ ァ イ ル に 出 の際には再利用される。多次元ツリー手動洗練機能は 力 す る こ と が で き 、 こ れ を HyperClassifier に イ ン ポ ー 以下の操作から構成される。 語を移動することもできる。 ノ ー ド の 分 割 : 多 義 語 を 分 割 す る 。「 Light」 (光 ・ 右 )な ど の 紛 ら わ し い 単 語 を 分 割 し て 登 録 す る こ とができる。分割された単語は、分割する単語 に :DE を 足 し た も の と し て 追 加 さ れ る ( 図 7)。 ノ ー ド の 統 合:同 じ 意 味 を 持 つ 名 前 の フ ォ ル ダ を 統 合 す る こ と が で き る 。「 2000 年 以 前 」 と 「 1999 年 」な ど の 、統 合 し て も 問 題 な い フ ォ ル ダ を 統 合 す る こ と が で き る ( 図 8)。 こ れ ら の 機 能 以 外 に も 、ロ グ の 取 得 機 能 、多 次 元 ツ リ ーの出力機能などを提供する。 3.3. アルゴリズム 図 5. 重 複 警 告 機 能 図 6. ノ ー ド の 移 動 機 能 MD-TACT で 単 一 ツ リ ー を 多 次 元 ツ リ ー に 再 構 成 す る に は 、全 5 工 程 を こ な す 必 要 が あ る 。3.3.1 節 で は 多 くの工程の共通操作であるツリーの再構成操作を定義 す る 。3.3.2 節 で は 多 次 元 ツ リ ー 自 動 構 成 ア ル ゴ リ ズ ム ( ス テ ッ プ 1~ 3) に つ い て 、 3.3.3 節 で は 多 次 元 ツ リ ー の 手 動 洗 練 ア ル ゴ リ ズ ム ( ス テ ッ プ 4) に つ い て 、 それぞれ説明する。 最初の工程であるステップ 0 では、読み込んだファ イル群のフルパス一覧から、ツール内で元の単一ツリ ーを構成する。この元ツリーは内部で保持され、基本 的には表示されない。 図 7. ノ ー ド の 分 割 機 能 3.3.1. ツ リ ー の再 構成 操 作 ステップ 0 で生成された元ツリーは、再構成操作を 行う際に利用される。再構成操作とは、内部に保持さ れている元ツリーを、指定した単語のみを使い再構成 する操作である。再構成操作では、上位階層から順に 元ツリーのノードを 1 つずつコピーしていく。コピー しようとしたノードが指定されていない単語だった場 合はコピーせず、その子ノードをコピーする。再構成 操作が行われた後、直接の親子ノード間が同じ名前だ った場合は子ノードを削除し、孫ノードを親ノードの 子ノードとする。また、兄弟ノードが同じ名前だった 場合、兄ノードと弟ノードを合併し、弟ノードの子ノ ードを兄ノードの子ノードとする。 図 8. ノ ー ド の 統 合 機 能 再構成操作は元ツリーを直接操作しないので、元の 構造や親子関係を保存しつつ多次元ツリーの操作がで 重 複 単 語 の 警 告:同 一 ツ リ ー 上 で 同 じ 名 前 の 単 語 きる。 が 複 数 回 出 現 し た 場 合 、単 語 ご と に 色 付 け を 行 い 、 3.3.2. 自 動 構 成ア ルゴ リ ズム ( 初回 構築 ) 警 告 す る ( 図 5)。 MD-TACT で は 、 同 一 ノ ー ド が 重 複 し て 出 現 し た 場 合 、当 該 ツ リ ー に 複 数 の 観 点 に属するノードが含まれていると判定する。 ノ ー ド の 移 動:ツ リ ー 上 の 単 語 を 別 の ツ リ ー に 移 動 す る( 図 6)。ノ ー ド の カ テ ゴ リ を 変 更 し た い と き に 使 う 。移 動 先 の ツ リ ー 候 補 を 示 す 際 に は 、移 動 後 に 単 語 の 重 複 が 発 生 す る 場 合 は「 不 適 切 」と の 警 告 を 出 す 。な お 、利 用 者 が 警 告 を 無 視 し て 単 ステップ 1 から 3 は多次元ツリーの自動構成を行う 工程になる。 ステップ 1 では、ステップ 0 で生成された元ツリー 上にあるファイル名・フォルダ名を全て取得し、単語 辞書に記録する。単語には、それぞれの単語を識別す る た め の 単 語 ID と 、 ど の ツ リ ー に 振 り 分 け る か を 判 別 す る た め の カ テ ゴ リ ID が 割 り 振 ら れ る 。 初 回 構 築 で は 、全 て の 単 語 の カ テ ゴ リ ID は 0 が 割 り 振 ら れ る 。 ステップ 2 では、元ツリー上で 2 つ以上出現した単 追加で読み込んだファイル群のツリーを併合する。併 語を抽出する。多次元ツリーでは排他制約により、同 合したツリーの中に新しい単語があった場合、並行し じ名前のノードが 1 つのツリー上に 2 つ以上出てきて て 読 み 込 ん だ 単 語 辞 書 に 、新 し い 単 語 と し て 登 録 す る 。 は い け な い の で 、再 構 成 操 作 を 用 い て 重 複 す る 単 語( 以 既 に 登 録 し て い る 単 語 は カ テ ゴ リ ID を 引 き 継 ぎ 、 新 降、重複単語と呼称する)を元ツリーから切り出す。 し い 単 語 の み カ テ ゴ リ ID に 0 を 割 り 当 て る 。 あ と は ステップ 3 では、ステップ 2 で切り出した重複単語 初 回 構 築 と 同 じ く ス テ ッ プ 2、3 を 繰 り 返 す こ と で 、前 を、重複が発生しないようなツリーに割り当てる。各 回読み込んだ単語は既に分類された状態で自動構成が ツ リ ー は 、 そ れ ぞ れ カ テ ゴ リ ID と 対 応 し た 番 号 を 持 進む。 つ。この工程ではすべてのツリーに対し、対応する番 4. MD-TACT の 評 価 号 と 同 じ カ テ ゴ リ ID を 持 つ 単 語 の み を 使 い 、 再 構 成 4.1. 目的 操 作 を 行 う 。例 え ば 、ツ リ ー 0 に は カ テ ゴ リ ID が 0 の MD-TACT に 使 わ れ て い る 自 動 構 成 機 能 は 、 比 較 的 単 語 だ け を 使 い 、ツ リ ー 1 に は カ テ ゴ リ ID が 1 の 単 語 単純な機械操作によって行われる。この自動構成機能 だけを使い再構成操作を行う。もしこのステップでど により効率的なアルゴリズムを組み込めば、さらに効 こかのツリーに重複単語が出現した場合、そのツリー 率的な多次元ツリーの自動構成が可能になる。 に対しステップ 2 の操作を行う。 MD-TACT に は ロ グ を 取 得 す る 機 能 が あ り 、 ユ ー ザ の こ の よ う に し て ス テ ッ プ 2・ 3 を 重 複 単 語 の 出 現 が 操作を記録できる。このログ機能を用いて多次元ツリ なくなるまで繰り返し続けることで、同一ツリー内で ーの構成作業を観察すれば、どういった手順で構成す の重複単語はなくなる。これにより、自動生成された れば短時間で質の高い多次元ツリーが構成できるか、 多次元ツリーは排他制約を充足するが、単語の意味を に関する知見を得ることもできる。このデータを用い 考慮した処理を行っている訳ではないため、多次元ツ れ ば 、 MD-TACT の 多 次 元 ツ リ ー 自 動 構 成 機 能 の 精 度 リ ー が 満 た す べ き IS-A 制 約 を 充 足 で き な い 場 合 も あ をさらに向上させることが期待できる。 る。 3.3.3. 手 動 洗 練ア ルゴ リ ズム MD-TACT を た く さ ん の 人 に 利 用 し て も ら う に は 、 まず本ツールの有用性を検証する必要がある。これを ステップ 4 では手動洗練機能を用いて、生成された 証 明 す る た め に 、 MD-TACT 利 用 時 お よ び 非 利 用 時 に 多 次 元 ツ リ ー の 洗 練 を 行 う 。こ れ を 通 じ て 、IS-A 制 約 単一ツリーから多次元ツリーを生成するために必要な を充足するように多次元ツリーを編集する。 時 間 を 計 測 す る 。 本 節 で は 、 MD-TACT の 評 価 実 験 の ノードの移動では、移動させたい単語を選択し、移 動 先 の ツ リ ー に 対 応 し た カ テ ゴ リ ID に 変 更 す る 。 こ の と き 、移 動 先 で 重 複 単 語 が 発 生 す る 場 合 は 警 告 す る 。 内容と評価結果の速報を述べる。 4.2. 評価 実 験の内 容 MD-TACT の 評 価 実 験 で は 、 単 一 ツ リ ー を 多 次 元 ツ カ テ ゴ リ ID の 変 更 後 、 全 て の 表 示 用 ツ リ ー に 対 し 、 リ ー に 再 構 成 す る 作 業 を 10 名 の 被 験 者 に 行 わ せ た 。被 対 応 し た カ テ ゴ リ ID を も つ 単 語 の み を 使 い 元 ツ リ ー 験 者 は 本 学・知 能 情 報 シ ス テ ム 学 科 の 学 部 3~ 4 年 生 で を再構成する。 あり、情報分野の専門教育を一通り受けている。本評 ノードの分割では、同じツリー上と元ツリー上に、 価 実 験 で は MD-TACT 利 用 時 ・ 非 利 用 時 の 2 パ タ ー ン 選 択 し た 単 語 と 同 じ カ テ ゴ リ ID を 持 つ 単 語 を 追 加 す の デ ー タ を 採 取 し た 。 MD-TACT 利 用 時 は ロ グ 機 能 に る。追加される場所は、選択した単語の兄弟ノードの より出力されるログを収集した。一方、非利用時には 位 置 で あ り 、 単 語 ID は 一 意 性 の あ る も の を 与 え ら れ Microsoft Excel の ワ ー ク シ ー ト を 用 い て 多 次 元 ツ リ ー る。変更後は全てのツリーを再構成する。 を 表 現 す る こ と と し 、 Excel の コ マ ン ド を 用 い て ツ リ ノ ー ド の 統 合 で は 、2 つ の 単 語 を 対 象 と し 、後 者 の 単 ーの編集を行わせた。一例として、図 5 のツリー構造 語 ID を 前 者 の 単 語 ID と 同 じ も の に 変 更 す る 。変 更 後 、 を Excel で 表 現 し た も の を 図 9 に 示 す 。 編 集 に 要 し た 全てのツリーを再構成する。 時 間 は Excel マ ク ロ を 用 い て 収 集 し た 。 こ れ ら の デ ー 3.3.4. 自 動 構 成ア ルゴ リ ズム ( 追加 構築 ) タは、多次元ツリーの構築時間と多次元ツリーの品質 前述した 5 工程で多次元ツリーの再構成は完成する の 2 点を比較するために取得したものである。 が、現実のファイル群は次から次へと増加するため、 テストの際には、被験者に多次元ツリーに関する講 追加登録をしなければならない。追加構築以降の再構 義 を 行 い 、 多 次 元 ツ リ ー の 構 成 方 法 、 MD-TACT お よ 成では、ステップ 1 にあたる工程を多少修正する必要 び 評 価 用 Excel ワ ー ク シ ー ト の 使 用 法 を 習 得 し て も ら が あ る 。本 節 で は 、修 正 後 の ス テ ッ プ 1 を ス テ ッ プ 1’ っ た 。 次 に MD-TACT を 使 用 ・ 非 使 用 の 2 パ タ ー ン で と呼ぶ。 ス テ ッ プ 1’ で は 、 初 回 構 築 で 構 成 し た 元 ツ リ ー に 、 多 次 元 ツ リ ー を 生 成 し て も ら っ た 。 10 人 の 被 験 者 は 5 人 2 組のグループに分け、一方のグループ(以下、チ ー ム 甲 ) に は MD-TACT 使 用 、 非 使 用 の 順 で 多 次 元 ツ できたかを確認する。表1の全体の平均時間を比較す リーの構築を行わせた。もう一方のグループ(以下、 る と 、MD-TACT 利 用 時 は 1 時 間 24 分 50 秒 、Excel ワ チ ー ム 乙 ) に は MD-TACT 非 使 用 、 使 用 の 順 で 多 次 元 ー ク シ ー ト を 用 い た 手 動 再 構 成 作 業 で は 5 時 間 21 分 ツリーの構築を行わせた。これは多次元ツリーへの理 46 秒 か か っ て お り 、MD-TACT を 利 用 し な い 場 合 、3.8 解が深まることで公平なデータが取れなくなる事態を 倍程度の時間が必要になることが分かる。これは、 考慮した工夫である。また、再構築してもらうサンプ MD-TACT の 多 次 元 ツ リ ー 自 動 構 成 機 能 や 手 動 洗 練 機 ルの単一ツリーは、1 人 1 人違うサンプルを使っても 能の有効性を示す結果だと考えられる。 ら っ た 。今 回 利 用 し た の は 、1649 行 の フ ァ イ ル フ ル パ また、両チームが手動再構成を行った時間の平均値 ス 群 で あ る 。 MD-TACT 使 用 ・ 未 使 用 で は そ れ ぞ れ 2 を 比 較 す る と 、 甲 チ ー ム は 4 時 間 40 分 26 秒 、 乙 チ ー 時間・9 時間の制限時間を設けたが、どちらも制限時 ムは 6 時間 3 分 5 秒となっており、甲チームの方が 1 間内に再構成を完了した。非使用は膨大な時間がかか 時 間 以 上 短 く な っ て い る 。 こ れ は 、 MD-TACT を 先 に る こ と が 想 定 さ れ て い た の で 休 憩 時 間 も 設 け た 。な お 、 利用することで、多次元ツリーの完成形を既に確認で 休憩時間は構築時間には含まないものとした。休憩中 きていたので、甲チームによる編集作業がスムーズに はマクロの時間計測機能を中断させている。 進んだためと考えられる。 最 後 に 、被 験 者 の 10 人 に は MD-TACT の 使 用 感 に つ 一 方 、 MD-TACT を 使 用 し た 再 構 成 作 業 時 間 の 平 均 値 は 、 甲 チ ー ム が 1 時 間 24 分 54 秒 、 乙 チ ー ム が 1 時 いて感想文を書いてもらった。 間 24 分 45 秒 と な っ て お り 、 両 チ ー ム と も ほ と ん ど 同 じであった。この理由は現在詳しく調査中であるが、 仮 説 の 1 つ と し て 、 MD-TACT の 多 次 元 ツ リ ー 自 動 構 成機能により、完成形に近いツリー状態から手動洗練 作業を始めることができたため、多次元ツリーの完成 形をイメージできなくても作業がスムーズに進められ たことが考えられる。 甲 チ ー ム の 被 験 者 4 は 、MD-TACT を 利 用 す る 際 に 、 何度も最初からやり直しを行っていた。表の※の記録 は 、 試 行 錯 誤 を 経 た 後 の 記 録 で あ り 、 MD-TACT の 修 練を積めば、この程度の時間で多次元ツリーの再構成 図 9. Excel で 表 現 し た 多 次 元 ツ リ ー が可能になるとの傍証である。なお、※の時間は作業 時間の一部の時間なので、甲チームや全体の平均計算 4.3. 評価と考 察 評価実験は無事に終了し、良好な結果を得ることが で き た 。表 1 は 多 次 元 ツ リ ー 作 成 時 間 の 一 覧 表 で あ る 。 には用いていない。 テ ス ト 後 の 感 想 文 で は 、 Excel を 用 い た 手 動 再 構 成 と 比 べ る と MD-TACT を 利 用 し た 方 が 非 常 に 楽 で あ る 4.3.1. MD-TACT に よ る 作 業 時 間低 減 効果 ま ず MD-TACT を 使 う こ と で ど れ ほ ど の 時 間 が 短 縮 という意見がほぼ全員から得られた。しかし、手動洗 表 1. 被 験 者 毎 の 多 次 元 ツ リ ー 再 構 成 作 業 時 間 の 比 較 グループ 甲 乙 平均値 1 再構成作業時間 MD-TAC T 利 用 手動再構成 1:31:20 5:49:17 2 1:35:47 被験者 6:02:25 平均値 1:24:54 3 1:10:34 4 0:36:21( ※ ) 5 1:21:54 5:01:50 1 1:11:53 7:11:40 2 1:28:17 3 1:14:04 4 1:41:00 5 1:29:06 3:22:51 3:05:45 平均値 4:40:26 5:47:30 平均値 1:24:45 6:43:35 5:29:43 平均値 6:03:05 5:02:56 1:24:50 5:21:46 取得した無駄時間の集計を、表 2 に示す。前述した 表 2. 被 験 者 毎 の 無 駄 時 間 の 比 較 グループ 甲 被験者 1 2 3 5 00:03:44( ※ ) 00:39:11 1 00:13:29 4 乙 通り、被験者甲 4 のデータは平均値の計算には含めて 無駄時間 00:04:32 平均値 00:17:38 0:30:39 01:01:17 2 00:18:03 3 00:13:40 4 0 5 00:41:46 いない。再構成操作所要時間と同じく、乙チームは先 に手動で多次元ツリーの再構成を行っていたため、甲 チームの半分ほどの時間で作業を完了していることが 分かった。両チームの被験者 4 は他の被験者と比較す ると、少ない無駄時間で再構成が完了している。これ は利用したファイルパスによって作られる単一ツリー 平均値 0:17:24 が、少ないカテゴリで分類できるノードで構成されて いたのではないかと推測できる。 4.3.3. 自 動 構 成機 能に よ る省 力 効果 今回利用したファイルパス群は、過去に我々が手作 業で多次元ツリーに再構成し、データの提供元による 練機能の使用中に間違った操作を行った場合、リカバ レビューを受けている。この多次元ツリーを模範解答 リーのために時間がかかったという意見もあった。移 とし、自動構成にどれほどの省力効果があるかを考察 動先を間違えて移動したノードを元のツリーに戻すの する。 に時間がかかったり、統合機能でルートノードと統合 自動構成した多次元ツリーと元の一次元ツリーに して元に戻せなくなり最初からやり直す必要が出たり 対 し 、 MD-TACT の 分 割 操 作 と 移 動 操 作 を 用 い て 、 模 し た 。こ う い っ た 問 題 に 対 応 す る た め に undo 機 能 が ほ 範解答を再現する最小限の操作数(移動が必要なノー しいという意見も出た。 ド数)を求める。これに基づいて、以下の式により作 4.3.2. 再 構 成 プロ セス に よる 無 駄時 間の 相 違 業量削減率を定義する。 次に、テストによって得られたログから無駄時間が な い か を 確 認 し た 。 MD-TACT の 洗 練 操 作 を 行 う 際 、 �1 − 自動構成ツリーからの移動ノード数 元ツリーからの移動ノード数 � × 100 一度操作したノードが間違った洗練操作と気づき、元 現在、ファイルパス群 1 および 2 に対する解析が完 に戻す被験者が良く見られた。また、ノードの移動操 了している。ファイルパス群 1 では 3 つのツリーが自 作を行う際、予定した移動先で重複警告が出て、その 動構成された。このうち分割操作が必要だったノード まま元のツリーに再移動する被験者も見られた。この は 57 個 、移 動 操 作 が 必 要 な ノ ー ド は 最 少 で 152 個 だ っ 操作は多次元ツリーの最終構成には不必要と判断でき た 。フ ァ イ パ ス 群 2 で は 4 つ の ツ リ ー が 自 動 構 成 さ れ 、 る。これらの無駄時間をログから計測し、実際の再構 こ の う ち 分 割 操 作 が 必 要 だ っ た ノ ー ド は 68 個 、移 動 操 成時間がどれほどかかっているかを確認した。 作 が 必 要 な ノ ー ド 数 は 最 少 で 172 個 だ っ た 。 MD-TACT は 使 用 後 に ロ グ の CSV フ ァ イ ル を 出 力 す 続 い て フ ァ イ ル パ ス 群 1、 2 の 元 ツ リ ー の 確 認 を 行 る。ログには行われた操作の種類、操作を行ったノー った。結果は表 3 に示すとおりである。移動操作が必 ド、操作後のノードの位置、開始時間、終了時間が操 要なノード数の項目の()内には、自動構成ツリーか 作ごとに行われた時間順に記録されている。無駄時間 らの移動が必要な最少ノード数を示す。 の計測は、このログの操作を行ったノードと終了時間 ノードに対する分割操作数は元ツリー、自動構成ツ を使い計測する。既に確認したノードが操作を行った リーのどちらも同じだった。移動操作が必要な最少ノ ノードとして出現した場合、その操作の終了時間と、 ード数は若干自動構成後の方が少ないが、手動洗練の その操作の一行上の操作の終了時間を確認する。前者 手間が大幅に省けるほどではなかった。作業量削減率 から後者を減算することで、操作内容を考える時間を に し て 、 フ ァ イ ル パ ス 群 1 で は 約 19%、 フ ァ イ ル パ ス 含めた無駄時間を算出できる。 群 2 で は 約 23%、自 動 構 成 後 の 作 業 量 が 削 減 さ れ て い る。このことから、自動構成機能には一定の省力効果 表 3. 元 ツ リ ー と 自 動 構 成 ツ リ ー か ら 模 範 解 答 を 再 現 す る 手 間 の 比 較 総ノード数 重複ノード数 分割操作が必要なノード数 移動操作が必要なノード数 残せるノード数 ファイルパス群 1 224 20 57 186( 152) 99 ファイルパス群 2 279 43 68 223( 172) 96 があることは分かるが、改善の余地も大きいと判断さ れる。また、重複ノード数が多ければ多いほど作業量 設計改良 MD-TACT の 単 語 辞 書 に は 単 語 ID、カ テ ゴ リ ID、単 削減率が上がることが予想される。 語名が記録されているが、これに「表示名」を追加す 5. MD-TACT の 改 良 に 向 け た考 察 ることで、ノード分割時等の新たなノード名を自由に MD-TACT の 評 価 結 果 と DEIM2014 で の 質 疑 応 答 を 踏 指定できるようになる。また、多次元ツリーを表現す ま え 、MD-TACT の 改 良 点 や 新 機 能 に つ い て 考 察 す る 。 るデータ構造をビューとモデルに分離することで、よ ノード分割時のリネーム機能の追加 り系統的な設計が可能になる。 MD-TACT の 手 動 洗 練 機 能 に リ ネ ー ム 機 能 の 追 加 が 提案された。これは表示されているノードの名前を変 6. ま と め 本 論 文 で は 、 MD-TACT の 開 発 に つ い て 述 べ 、 評 価 実 更 す る 機 能 で あ る 。 現 在 MD-TACT の 分 割 機 能 で 生 成 験 の 結 果 を 分 析 し た 。 MD-TACT に よ り 、 単 一 ツ リ ー さ れ る ノ ー ド は 、名 前 を 自 由 に 変 更 で き な い 。し か し 、 を短時間で多次元ツリーに再構成することが可能にな 1 つのノードが複数の観点の単語を含む例はしばしば り、再構成を反復適用することで自動的に多次元ツリ 見 ら れ る( 例:図 4 の「 20 年 度 指 名 業 者 推 薦 書 」)。こ ー を 洗 練 で き る 可 能 性 が 判 明 し た 。 MD-TACT の ロ グ のような場合、ノード分割後にノード名を個別の単語 機能を使い、熟練者による多次元ツリーの再構成作業 に合わせることで重複単語として処理できる。また、 を記録・分析すれば、より精度の高い多次元ツリーの ノードに対して形態素解析を行うことで単語に自動分 自動構成アルゴリズムを工夫できる可能性がある。 割する機能も、多次元ツリーの自動生成を促進する上 よ り 多 く の 利 用 者 に MD-TACT を 使 っ て も ら う た め で有効だと思われる。 には、このツールの有用性を証明する必要がある。今 複数ノードの統合機能の改良 回の評価実験では、時間の短縮の面において、確実に 複 数 ノ ー ド の 統 合 機 能 で は 、1 つ の ノ ー ド を 選 択 後 、 有用であることが証明された。自動構成アルゴリズム 統合機能の中で統合対象ノードを選ばせていた。しか には一定の省力効果があるが、ユーザーインターフェ し、統合したいノードを複数選択した後で統合機能を ー ス の 面 か ら も undo 機 能 が な い 等 、操 作 性 の 面 で 問 題 選ぶように改良することで、統合対象ノードの選択や もあることが分かった。今回の評価実験を通じて、 3 つ以上のノードの統合が容易に指定できるようにな MD-TACT に は 改 善 の 余 地 が あ る こ と が 明 ら か に な っ る。 た。 自動構成機能の強化 今後は評価実験を通じて得られたログデータ等の 重複ノードの少ないツリーの場合、複数の分類観点 詳細な分析を行い、多次元ツリーの品質の観点からも の単語が混在するなど、多次元ツリーの自動構成機能 MD-TACT の 有 用 性 を 検 証 す る 。 こ の 有 用 性 を 証 明 で の 効 果 が 低 下 す る 。こ う し た 状 況 を 改 善 す る た め に は 、 きれば、情報系の職員や教員に使ってもらい、利用デ 頻繁に出現する分類観点を表現するツリーをリポジト ータから効率的な多次元ツリー構成アルゴリズムを開 リに保持しておき、そのツリーとのマッチングを通じ 発する。また、ユーザーインターフェースの改善も行 て多次元ツリーの自動洗練を行う機能が有効だと考え っていく予定である。 られる。 また、複数の利用者によるリポジトリの共有や、利 用者によるリポジトリへのツリーの登録、リポジトリ に登録されたツリーの評価などの機能を提供すること で、コンテンツとしてのリポジトリの価値が高まるこ とが期待できる。 次元集約 多次元ツリーを構成する複数のツリーにおいて、一 方のツリーとファイルの対応関係が、他方のツリーと ファイルの対応関係と相関関係にあるケースが見られ る( 例:住 所 と 郵 便 番 号 、身 長 と 体 重 な ど )。こ の よ う な場合、利用者のニーズと合致するツリーのみを表示 することで次元集約を行い、ファイルの検索能力を低 下させることなく、利用者に提示する多次元ツリーを 単純化できる。 参 考 文 献 [1] IDC, 「 The Hidden Costs of Information Work」, 2006 [2] 山 口 章 太 , 「 フ ァ イ ル 整 理 ツ ー ル Hyp erClassifier における移行支援ツールの評価とその改良」, 平 成 21 年 度 佐 賀 大 学 理 工 学 部 知 能 情 報 シ ス テ ム 学 科卒業論文 [3] 掛 下 哲 郎 , 園 木 幸 寶 ,「 OLAP 操 作 を 活 用 し た フ ァ イ ル 整 理 ツ ー ル HyperClassifier」 , 第 8 回 情 報 科 学 技 術 フ ォ ー ラ ム (FIT 2009), 2009. [4] 柿 本 由 気「 . ファイル分類のための多次元ツリー手 動洗練ツールの開発」. 佐賀大学理工学部知能情 報 シ ス テ ム 学 科 卒 業 論 文 ,2013. [5] 山 口 章 太 , 掛 下 哲 郎 , 「 フ ァ イ ル 整 理 ツ ー ル HyperClassifier に お け る 多 次 元 ツ リ ー 自 動 構 成 ツ ー ル の 開 発 と 評 価 」,第 3 回 デ ー タ 工 学 と 情 報 マ ネ ジ メ ン ト に 関 す る フ ォ ー ラ ム D6-3,2011. [6] 柿 本 由 気 , 掛 下 哲 郎 、「 系 統 的 な フ ァ イ ル 整 理 を 目 的 と す る 多 次 元 ツ リ ー 構 成 ツ ー ル MD-TACT」、 電 気 関 係 学 会 九 州 支 部 第 65 回 連 合 大 会 06-2P-01、 2013.
© Copyright 2024 ExpyDoc