多次元ツリー自動構成ツールMD-TACTの開発と評価

DEIM Forum 2014 C2-3
多次元ツリー自動構成ツール MD-TACT の開発と評価
柿本 由気†
掛下 哲郎‡
佐賀大学工学系研究科 〒840-8502 佐賀市本庄町 1 番地
E-mail:
†
[email protected],
‡
[email protected]
あらまし 近年多くの企業や企業で大量の情報が電子化されており、それらの整理や検索が困難になっている。
我々は増え続けるファイル群を系統的に整理するべく、多次元ツリーを用いたファイル整理ツール HyperClassifier
を開発している。本論文では既存の分類で良く使われる単一ツリーを HyperClassifier の多次元ツリーに変換する手
間を軽減するため、多次元ツリー自動構成ツール MD-TACT を開発する。MD-TACT は単一ツリーを多次元ツリー
に自動変換し、さらに手動で洗練する機能を提供する。また、ツリーの再構成情報を利用することで、それ以降の
自動構成の精度向上を図る。MD-TACT の評価実験を行った結果、被験者からは良好な評価が得られた。また、
MD-TACT を使用することで、手作業と比較して 3.8 倍程度の効率化が図れることが分かった。現在、評価実験を通
じて得たログデータを詳細に分析中である。
キーワード 多次元ツリー、OLAP、ファイル整理ツール
1. は じ め に
近年、多くの企業や団体でコンピュータが導入され、
HyperClassifier は 多 次 元 ツ リ ー 構 造 と 対 応 付 け て フ ァ
イ ル を 登 録 し 、 OLAP 操 作 を 行 う こ と で 登 録 し た フ ァ
大量の情報を電子化して扱っている。その数は企業の
イルを検索できる。これにより、今までのファイル整
規模などにもよるが、ファイル数にして、およそ数万
理ツールと比較して高速かつ柔軟な検索ができるよう
か ら 数 十 万 フ ァ イ ル 以 上 に も の ぼ る 。こ れ ら の 情 報 は 、
になった。
企業の活動によって作成およびやり取りがされること
HyperClassifier の 欠 点 と し て 、 既 存 の フ ァ イ ル サ ー
によって次々と蓄積されていく。企業が蓄積している
バからの移行に手間がかかる点が挙げられる。特に、
情報の量は、時間の経過とともに増大の一途をたどっ
単一のフォルダ階層を用いて管理されてきたファイル
て い る 。近 年 で は 50~ 60%の 割 合 で 増 加 し 、今 後 10 年
を多次元ツリーによって再整理するには時間と労力が
以上はこの傾向が続くといわれている。このまま大量
かかる。
のファイルが蓄積してくると、それらの整理や検索が
この欠点を克服するために、本論文では既存の単一
困難になってくる。ある調査によると「インフォメー
ツリーで構成されたファイル群を多次元ツリー形式に
シ ョ ン ワ ー カ ー は 、 平 均 で 労 働 時 間 の 24 % を 情 報 の
自 動 的 に 組 み 替 え る ツ ー ル 、 MD-TACT ( Multi-
検 索 と 分 析 に 費 や し て い る 」 と の 報 告 [1] も あ り 、 情
Dimensional Tree Automatic Construction Tool)を 開 発 す
報探索にかかる労力は、企業活動において大きな負担
る [4,5,6]。MD-TACT は 、既 存 の フ ァ イ ル 群 を 読 み 込 み 、
となっている。そのため、必要な情報の探索にかける
ファイル名を取得して自動的に多次元ツリーに再構成
時間を短縮することは、企業等にとって重要な課題で
す る 。ま た 、生 成 さ れ た 多 次 元 ツ リ ー を HyperClassifier
ある。
にインポートすることで、時間のかかるファイル登録
このような背景から、ファイルを系統的に分類・整
を、ファイル群ごと一括で行うことができる。
理し、素早く検索できるシステムが求められている。
本 論 文 で は 、MD-TACT の 開 発 と 評 価 を 行 っ た の で 、
企業内に蓄積された情報を検索できるようなシステム
これについてまとめる。まず 2 節では、本研究のファ
は 従 来 か ら 多 く 開 発 さ れ て い る が 、 そ の 多 く は 、 Web
イ ル 整 理 の 要 点 で あ る 多 次 元 分 類 方 式 と OLAP 操 作 に
ページの検索エンジンのような、キーワードを入力す
ついて述べ、それをもとに開発されたファイル整理ツ
ることによってファイルの検索を行うシステムである。
ー ル HyperClassifier の 機 能 、特 徴 、欠 点 に つ い て 述 べ
しかしこの形式のシステムの場合、情報を得るために
る 。 3 節 で は 、 HyperClassifier の 欠 点 を 克 服 す る た め 、
はキーワードが必要であり、目的の情報を検索できる
本研究で提案及び開発した多次元ツリー自動構成ツー
キーワードが不明だと検索ができない。また、ファイ
ル MD-TACT の 目 的 と 機 能 、 基 本 的 な 処 理 の 流 れ に つ
ルサーバの中に何の情報がどのように分布しているか
い て 説 明 す る 。 4 節 で は 3 節 で 述 べ た MD-TACT の 有
分からず、目的の情報が存在するかが分かりにくい。
用 性 を 検 証 す る た め に 、MD-TACT の 評 価 実 験 を 行 い 、
これらの問題を解決するために、我々は多次元ツリ
その結果を分析する。5 節では本論文のまとめと今後
ーを用いてファイルを整理する方法を用いたファイル
整 理 ツ ー ル HyperClassifier を 開 発 し て き た [2,3] 。
の研究課題について述べる。
2. 基 本 事 項
した学生情報を集計する場合に、
「 学 年 」と「 学 部 」と
2.1. 多次 元ツリー
いう次元を指定して、それぞれを組み合わせた学生数
多次元ツリーとは、各ファイルを複数のツリーと対
応付けて分類する方式で、本研究で独自に提案する分
類 方 式 で あ る 。 一 般 的 な OS が 用 い る フ ァ イ ル シ ス テ
ムは、単一のツリーを使って分類を実現している。単
の表を表示するときなどに用いられる。この操作によ
り、分析の観点を変えることができる。
スライシング
特定の条件を適用し、データの絞り込みを行う操作。
一のツリーは、構造が比較的単純で実現が容易である
学生情報を集計する際に、
「 理 工 学 部 の 学 生 」と い っ た
が、複数の分類観点が混在していると、ツリーの分類
条件を付けて絞り込むような操作がスライシングであ
の一貫性を保てない。この他にも、検索の順序がツリ
る。条件を設定して絞り込むことで、必要な情報だけ
ーの根から葉への方向に固定され、検索の自由度が低
を抽出できる。
い、分類観点が増えると、ノード数が爆発的に増加す
ドリリング
る等の欠点があり、検索効率が決して良いとは言えな
特定の次元の階層を上下させ、データの集計範囲を
切り替える操作。下の階層に切り替える操作をドリル
い。
こ れ に 対 し て 多 次 元 分 類 方 式 で は 、「 プ ロ ジ ェ ク ト
ダウン、上の階層に切り替える操作をドリルアップと
名」や「ファイルの目的」などといった、ファイルの
いう。例を挙げると、ドリルダウンは学部ごとのデー
分類基準ごとにツリーを複数構築し、分類を行う。
タを学科ごとのデータに分割する操作、ドリルアップ
多次元ツリーで用いるツリーは、以下の 2 つの制約
を満たすように構成される。


IS-A 制 約
は学科ごとのデータを学部ごとのデータにまとめる操
作である。
2.3. HyperClassifier
親 子 の ノ ー ド 間 に は 、IS-A 関 連 が 成 り 立 つ よ う に
HyperClassifier は 、 フ ァ イ ル を 登 録 ・ 分 類 す る 機 能
構 築 す る 。 IS-A 関 連 と は 、 子 ノ ー ド は 親 ノ ー ド
と、ファイルを検索する機能の 2 つを主に提供する。
の 特 別 な 場 合 に 対 応 す る 関 連 で あ る 。あ る 概 念 A
ファイルの登録は、各観点のツリーから対応付けた
と B が 存 在 し た 時 に 、そ れ が「 A は B で あ る( A
いタグを選択し、登録するファイルやフォルダをドラ
is a B)」 と い う 関 係 が 成 り 立 つ 関 連 で あ る 。
ッ グ &ド ロ ッ プ す る こ と で 、登 録 を 行 う こ と が で き る 。
排他制約
同 一 ツ リ ー の 兄 弟 ノ ー ド は 、互 い に 排 他 的 な も の
と す る 。こ の 制 約 に よ り 、分 類 基 準 を 明 確 化 す る
ことができる。
登録されたファイルはファイルサーバにアップロード
され、利用者が共用できるようになっている。
検 索 の 際 に は 、 OLAP 操 作 を 用 い る こ と が で き る 。
タグを選択するとダイシングを行い、そのタグに対応
多 次 元 ツ リ ー は 個 別 の ツ リ ー が 一 貫 し て お り 、ツ リ ー
付 け ら れ て い る フ ァ イ ル の 一 覧 が 表 示 さ れ る ( 図 1)。
を比較的小さくできるため、理解及び保守が容易であ
ファイルを選択した状態でタグを選択するとスライシ
る。また、ツリーやノードを利用者が自由に指定して
ングされ、目的のファイルを素早く探し出すことがで
検索ができるので、全ての階層をたどらなくてもファ
き る( 図 2)。各 階 層 構 造 に は 、ド リ リ ン グ に よ っ て ア
イルを見つけることができる。さらに、カテゴリごと
ク セ ス で き る ( 図 3)。
にツリーが作られているので、蓄積されている情報の
全体像を容易に把握できる。
2.2. OLAP 操 作
OLAP( Online Analytical Processing)は 、利 用 者 が 直
接データを検索・加工することで、問題発見や問題解
決のための分析を行う、多次元データベース構成の分
析型情報システムである。リレーショナルデータベー
スは 2 次元の表で構成されているが、多次元データベ
ー ス は 、そ れ 以 上 の 数 の 次 元 を 持 つ こ と が 可 能 で あ る 。
HyperClassifier で は フ ァ イ ル 検 索 の 各 操 作 に ダ イ シ ン
図 1. HyperClassifier の ダ イ シ ン グ 操 作
グ 、 ス ラ イ シ ン グ 、 ド リ リ ン グ の 3 種 類 の OLAP 操 作
を用いる。
従来のファイル整理ツールと違い、多次元ツリーを
ダイシング
用いることでより検索しやすく、登録機能によりファ
次元を指定し、それに基づいた検索結果を表示する
イルの増加に対応することもできる。
操作。
「学年」
「学部」
「 出 身 地 」の 3 つ の 次 元 か ら 作 成
上 記 2 つ の 機 能 の ほ か に 、 CSV フ ァ イ ル を 介 し た ツ
リーや対応関係のインポート・エクスポート機能があ
ト す る こ と で HyperClassifier 上 に 多 次 元 ツ リ ー を 再 現
る 。CSV フ ァ イ ル を 使 用 し て 所 定 の 形 式 で ツ リ ー や フ
できる。増え続けるファイルにも対応するため、この
ァ イ ル の 情 報 を 入 力 し 、そ れ を HyperClassifier に 読 み
ツールでも追加読み込みが可能になっている。
込むことで、ツリーの構築やファイルとタグの対応付
MD-TACT は 、2 種 類 の 情 報 を 読 み 込 ん で 処 理 を 行 う 。
け を 一 括 変 更 で き る 。 ま た 、 Hyp erClassifier 上 に 登 録
1つは、単一ツリーの構造を示したファイルフルパス
さ れ て い る ツ リ ー や 対 応 関 係 を CSV フ ァ イ ル に 書 き
の一覧であり、これはテキストフォルダとして読み込
出 す こ と も で き る 。 MD-TACT を 用 い て 再 構 成 し た 多
む。フルパスは 1 行ずつ記録されており、各ノードの
次 元 ツ リ ー は 、 CSV フ ァ イ ル を 用 い て Hyp erClassifier
区 切 り に は ¥も し く は /が 使 わ れ て い る 必 要 が あ る 。 も
に イ ン ポ ー ト で き る 。 こ れ に よ り 、 Hyp erClassifier の
う 1 つ は 単 語 辞 書 と い う CSV フ ァ イ ル で あ る 。こ れ は 、
欠点である移行作業の手間を軽減している。
MD-TACT で 多 次 元 ツ リ ー を 再 構 成 し た 時 に 生 成 さ れ
るもので、どのノードがどのツリーに所属しているか
を記録している。2 回目以降の読み込みでフルパス一
覧と共に読み込めば、前回の構造を維持しながら新た
なツリーを自動構成できる。
図 2. HyperClassifier の ス ラ イ シ ン グ 操 作
図 4. MD-TACT の ユ ー ザ ー イ ン タ ー フ ェ ー ス
図 3. HyperClassifier の ド リ リ ン グ 操 作
3.2. 機能 説 明
MD-TACT は 多 次 元 ツ リ ー 自 動 構 成 機 能 と 多 次 元 ツ
3. MD-TACT
3.1. 概要
HyperClassifier で は 、 フ ァ イ ル 登 録 の 際 に フ ァ イ ル
リー手動洗練機能を主に提供する。
多次元ツリー自動構成
単一ツリー構造のファイル群から単語を切り出し、
と多次元ツリーを対応付ける必要があり、これには手
多次元ツリーの構造を自動的に構成する機能。このと
間がかかる。多次元ツリー形式で構成されたファイル
きに読み込まれるのはファイル群のフルパス一覧であ
群 な ら CSV イ ン ポ ー ト 機 能 を 使 う こ と で 一 括 登 録 で
る。初回構築と追加構築の 2 パターンがあり、初回構
きるが、一般のファイル群は単一ツリーで整理されて
築ではファイルパスのみで多次元ツリーを自動構成す
おり、単一ツリーから多次元ツリーに再構成するのに
る。追加構築では、後述する単語辞書を共に読み込む
は手間と時間がかかる。多次元ツリー自動構成ツール
ことで、より精度の高い多次元ツリーを自動構成でき
MD-TACT は 、 こ の 欠 点 を 克 服 す る た め に 開 発 し て い
る ( 図 4 )。
る。
多次元ツリー手動洗練
MD-TACT は 単 一 ツ リ ー で 構 成 さ れ た デ ー タ 構 造 を
初回構築で行われる自動構成は機械的な分類がさ
読み込み、構成されているファイル・フォルダ名を切
れており、必ずしも精度の高い多次元ツリーが生成さ
り出し、多次元ツリーへと自動的に変換し出力する。
れるとは限らない。そこで自動構成終了後にユーザが
また、出力されたツリーに正しくないカテゴリ設定が
手 動 で 多 次 元 ツ リ ー を 検 査・編 集 す る 機 能 を 提 供 す る 。
されていた場合、手動で修正する機能も提供する。さ
編集結果は単語辞書に記録され、それ以降の自動構成
ら に 再 構 成 さ れ た ツ リ ー の 情 報 は CSV フ ァ イ ル に 出
の際には再利用される。多次元ツリー手動洗練機能は
力 す る こ と が で き 、 こ れ を HyperClassifier に イ ン ポ ー
以下の操作から構成される。
語を移動することもできる。

ノ ー ド の 分 割 : 多 義 語 を 分 割 す る 。「 Light」 (光 ・
右 )な ど の 紛 ら わ し い 単 語 を 分 割 し て 登 録 す る こ
とができる。分割された単語は、分割する単語
に :DE を 足 し た も の と し て 追 加 さ れ る ( 図 7)。

ノ ー ド の 統 合:同 じ 意 味 を 持 つ 名 前 の フ ォ ル ダ を
統 合 す る こ と が で き る 。「 2000 年 以 前 」 と 「 1999
年 」な ど の 、統 合 し て も 問 題 な い フ ォ ル ダ を 統 合
す る こ と が で き る ( 図 8)。
こ れ ら の 機 能 以 外 に も 、ロ グ の 取 得 機 能 、多 次 元 ツ リ
ーの出力機能などを提供する。
3.3. アルゴリズム
図 5. 重 複 警 告 機 能
図 6. ノ ー ド の 移 動 機 能
MD-TACT で 単 一 ツ リ ー を 多 次 元 ツ リ ー に 再 構 成 す
る に は 、全 5 工 程 を こ な す 必 要 が あ る 。3.3.1 節 で は 多
くの工程の共通操作であるツリーの再構成操作を定義
す る 。3.3.2 節 で は 多 次 元 ツ リ ー 自 動 構 成 ア ル ゴ リ ズ ム
( ス テ ッ プ 1~ 3) に つ い て 、 3.3.3 節 で は 多 次 元 ツ リ
ー の 手 動 洗 練 ア ル ゴ リ ズ ム ( ス テ ッ プ 4) に つ い て 、
それぞれ説明する。
最初の工程であるステップ 0 では、読み込んだファ
イル群のフルパス一覧から、ツール内で元の単一ツリ
ーを構成する。この元ツリーは内部で保持され、基本
的には表示されない。
図 7. ノ ー ド の 分 割 機 能
3.3.1. ツ リ ー の再 構成 操 作
ステップ 0 で生成された元ツリーは、再構成操作を
行う際に利用される。再構成操作とは、内部に保持さ
れている元ツリーを、指定した単語のみを使い再構成
する操作である。再構成操作では、上位階層から順に
元ツリーのノードを 1 つずつコピーしていく。コピー
しようとしたノードが指定されていない単語だった場
合はコピーせず、その子ノードをコピーする。再構成
操作が行われた後、直接の親子ノード間が同じ名前だ
った場合は子ノードを削除し、孫ノードを親ノードの
子ノードとする。また、兄弟ノードが同じ名前だった
場合、兄ノードと弟ノードを合併し、弟ノードの子ノ
ードを兄ノードの子ノードとする。
図 8. ノ ー ド の 統 合 機 能
再構成操作は元ツリーを直接操作しないので、元の
構造や親子関係を保存しつつ多次元ツリーの操作がで

重 複 単 語 の 警 告:同 一 ツ リ ー 上 で 同 じ 名 前 の 単 語
きる。
が 複 数 回 出 現 し た 場 合 、単 語 ご と に 色 付 け を 行 い 、
3.3.2. 自 動 構 成ア ルゴ リ ズム ( 初回 構築 )
警 告 す る ( 図 5)。 MD-TACT で は 、 同 一 ノ ー ド が
重 複 し て 出 現 し た 場 合 、当 該 ツ リ ー に 複 数 の 観 点
に属するノードが含まれていると判定する。

ノ ー ド の 移 動:ツ リ ー 上 の 単 語 を 別 の ツ リ ー に 移
動 す る( 図 6)。ノ ー ド の カ テ ゴ リ を 変 更 し た い と
き に 使 う 。移 動 先 の ツ リ ー 候 補 を 示 す 際 に は 、移
動 後 に 単 語 の 重 複 が 発 生 す る 場 合 は「 不 適 切 」と
の 警 告 を 出 す 。な お 、利 用 者 が 警 告 を 無 視 し て 単
ステップ 1 から 3 は多次元ツリーの自動構成を行う
工程になる。
ステップ 1 では、ステップ 0 で生成された元ツリー
上にあるファイル名・フォルダ名を全て取得し、単語
辞書に記録する。単語には、それぞれの単語を識別す
る た め の 単 語 ID と 、 ど の ツ リ ー に 振 り 分 け る か を 判
別 す る た め の カ テ ゴ リ ID が 割 り 振 ら れ る 。 初 回 構 築
で は 、全 て の 単 語 の カ テ ゴ リ ID は 0 が 割 り 振 ら れ る 。
ステップ 2 では、元ツリー上で 2 つ以上出現した単
追加で読み込んだファイル群のツリーを併合する。併
語を抽出する。多次元ツリーでは排他制約により、同
合したツリーの中に新しい単語があった場合、並行し
じ名前のノードが 1 つのツリー上に 2 つ以上出てきて
て 読 み 込 ん だ 単 語 辞 書 に 、新 し い 単 語 と し て 登 録 す る 。
は い け な い の で 、再 構 成 操 作 を 用 い て 重 複 す る 単 語( 以
既 に 登 録 し て い る 単 語 は カ テ ゴ リ ID を 引 き 継 ぎ 、 新
降、重複単語と呼称する)を元ツリーから切り出す。
し い 単 語 の み カ テ ゴ リ ID に 0 を 割 り 当 て る 。 あ と は
ステップ 3 では、ステップ 2 で切り出した重複単語
初 回 構 築 と 同 じ く ス テ ッ プ 2、3 を 繰 り 返 す こ と で 、前
を、重複が発生しないようなツリーに割り当てる。各
回読み込んだ単語は既に分類された状態で自動構成が
ツ リ ー は 、 そ れ ぞ れ カ テ ゴ リ ID と 対 応 し た 番 号 を 持
進む。
つ。この工程ではすべてのツリーに対し、対応する番
4. MD-TACT の 評 価
号 と 同 じ カ テ ゴ リ ID を 持 つ 単 語 の み を 使 い 、 再 構 成
4.1. 目的
操 作 を 行 う 。例 え ば 、ツ リ ー 0 に は カ テ ゴ リ ID が 0 の
MD-TACT に 使 わ れ て い る 自 動 構 成 機 能 は 、 比 較 的
単 語 だ け を 使 い 、ツ リ ー 1 に は カ テ ゴ リ ID が 1 の 単 語
単純な機械操作によって行われる。この自動構成機能
だけを使い再構成操作を行う。もしこのステップでど
により効率的なアルゴリズムを組み込めば、さらに効
こかのツリーに重複単語が出現した場合、そのツリー
率的な多次元ツリーの自動構成が可能になる。
に対しステップ 2 の操作を行う。
MD-TACT に は ロ グ を 取 得 す る 機 能 が あ り 、 ユ ー ザ の
こ の よ う に し て ス テ ッ プ 2・ 3 を 重 複 単 語 の 出 現 が
操作を記録できる。このログ機能を用いて多次元ツリ
なくなるまで繰り返し続けることで、同一ツリー内で
ーの構成作業を観察すれば、どういった手順で構成す
の重複単語はなくなる。これにより、自動生成された
れば短時間で質の高い多次元ツリーが構成できるか、
多次元ツリーは排他制約を充足するが、単語の意味を
に関する知見を得ることもできる。このデータを用い
考慮した処理を行っている訳ではないため、多次元ツ
れ ば 、 MD-TACT の 多 次 元 ツ リ ー 自 動 構 成 機 能 の 精 度
リ ー が 満 た す べ き IS-A 制 約 を 充 足 で き な い 場 合 も あ
をさらに向上させることが期待できる。
る。
3.3.3. 手 動 洗 練ア ルゴ リ ズム
MD-TACT を た く さ ん の 人 に 利 用 し て も ら う に は 、
まず本ツールの有用性を検証する必要がある。これを
ステップ 4 では手動洗練機能を用いて、生成された
証 明 す る た め に 、 MD-TACT 利 用 時 お よ び 非 利 用 時 に
多 次 元 ツ リ ー の 洗 練 を 行 う 。こ れ を 通 じ て 、IS-A 制 約
単一ツリーから多次元ツリーを生成するために必要な
を充足するように多次元ツリーを編集する。
時 間 を 計 測 す る 。 本 節 で は 、 MD-TACT の 評 価 実 験 の
ノードの移動では、移動させたい単語を選択し、移
動 先 の ツ リ ー に 対 応 し た カ テ ゴ リ ID に 変 更 す る 。 こ
の と き 、移 動 先 で 重 複 単 語 が 発 生 す る 場 合 は 警 告 す る 。
内容と評価結果の速報を述べる。
4.2. 評価 実 験の内 容
MD-TACT の 評 価 実 験 で は 、 単 一 ツ リ ー を 多 次 元 ツ
カ テ ゴ リ ID の 変 更 後 、 全 て の 表 示 用 ツ リ ー に 対 し 、
リ ー に 再 構 成 す る 作 業 を 10 名 の 被 験 者 に 行 わ せ た 。被
対 応 し た カ テ ゴ リ ID を も つ 単 語 の み を 使 い 元 ツ リ ー
験 者 は 本 学・知 能 情 報 シ ス テ ム 学 科 の 学 部 3~ 4 年 生 で
を再構成する。
あり、情報分野の専門教育を一通り受けている。本評
ノードの分割では、同じツリー上と元ツリー上に、
価 実 験 で は MD-TACT 利 用 時 ・ 非 利 用 時 の 2 パ タ ー ン
選 択 し た 単 語 と 同 じ カ テ ゴ リ ID を 持 つ 単 語 を 追 加 す
の デ ー タ を 採 取 し た 。 MD-TACT 利 用 時 は ロ グ 機 能 に
る。追加される場所は、選択した単語の兄弟ノードの
より出力されるログを収集した。一方、非利用時には
位 置 で あ り 、 単 語 ID は 一 意 性 の あ る も の を 与 え ら れ
Microsoft Excel の ワ ー ク シ ー ト を 用 い て 多 次 元 ツ リ ー
る。変更後は全てのツリーを再構成する。
を 表 現 す る こ と と し 、 Excel の コ マ ン ド を 用 い て ツ リ
ノ ー ド の 統 合 で は 、2 つ の 単 語 を 対 象 と し 、後 者 の 単
ーの編集を行わせた。一例として、図 5 のツリー構造
語 ID を 前 者 の 単 語 ID と 同 じ も の に 変 更 す る 。変 更 後 、
を Excel で 表 現 し た も の を 図 9 に 示 す 。 編 集 に 要 し た
全てのツリーを再構成する。
時 間 は Excel マ ク ロ を 用 い て 収 集 し た 。 こ れ ら の デ ー
3.3.4. 自 動 構 成ア ルゴ リ ズム ( 追加 構築 )
タは、多次元ツリーの構築時間と多次元ツリーの品質
前述した 5 工程で多次元ツリーの再構成は完成する
の 2 点を比較するために取得したものである。
が、現実のファイル群は次から次へと増加するため、
テストの際には、被験者に多次元ツリーに関する講
追加登録をしなければならない。追加構築以降の再構
義 を 行 い 、 多 次 元 ツ リ ー の 構 成 方 法 、 MD-TACT お よ
成では、ステップ 1 にあたる工程を多少修正する必要
び 評 価 用 Excel ワ ー ク シ ー ト の 使 用 法 を 習 得 し て も ら
が あ る 。本 節 で は 、修 正 後 の ス テ ッ プ 1 を ス テ ッ プ 1’
っ た 。 次 に MD-TACT を 使 用 ・ 非 使 用 の 2 パ タ ー ン で
と呼ぶ。
ス テ ッ プ 1’ で は 、 初 回 構 築 で 構 成 し た 元 ツ リ ー に 、
多 次 元 ツ リ ー を 生 成 し て も ら っ た 。 10 人 の 被 験 者 は 5
人 2 組のグループに分け、一方のグループ(以下、チ
ー ム 甲 ) に は MD-TACT 使 用 、 非 使 用 の 順 で 多 次 元 ツ
できたかを確認する。表1の全体の平均時間を比較す
リーの構築を行わせた。もう一方のグループ(以下、
る と 、MD-TACT 利 用 時 は 1 時 間 24 分 50 秒 、Excel ワ
チ ー ム 乙 ) に は MD-TACT 非 使 用 、 使 用 の 順 で 多 次 元
ー ク シ ー ト を 用 い た 手 動 再 構 成 作 業 で は 5 時 間 21 分
ツリーの構築を行わせた。これは多次元ツリーへの理
46 秒 か か っ て お り 、MD-TACT を 利 用 し な い 場 合 、3.8
解が深まることで公平なデータが取れなくなる事態を
倍程度の時間が必要になることが分かる。これは、
考慮した工夫である。また、再構築してもらうサンプ
MD-TACT の 多 次 元 ツ リ ー 自 動 構 成 機 能 や 手 動 洗 練 機
ルの単一ツリーは、1 人 1 人違うサンプルを使っても
能の有効性を示す結果だと考えられる。
ら っ た 。今 回 利 用 し た の は 、1649 行 の フ ァ イ ル フ ル パ
また、両チームが手動再構成を行った時間の平均値
ス 群 で あ る 。 MD-TACT 使 用 ・ 未 使 用 で は そ れ ぞ れ 2
を 比 較 す る と 、 甲 チ ー ム は 4 時 間 40 分 26 秒 、 乙 チ ー
時間・9 時間の制限時間を設けたが、どちらも制限時
ムは 6 時間 3 分 5 秒となっており、甲チームの方が 1
間内に再構成を完了した。非使用は膨大な時間がかか
時 間 以 上 短 く な っ て い る 。 こ れ は 、 MD-TACT を 先 に
る こ と が 想 定 さ れ て い た の で 休 憩 時 間 も 設 け た 。な お 、
利用することで、多次元ツリーの完成形を既に確認で
休憩時間は構築時間には含まないものとした。休憩中
きていたので、甲チームによる編集作業がスムーズに
はマクロの時間計測機能を中断させている。
進んだためと考えられる。
最 後 に 、被 験 者 の 10 人 に は MD-TACT の 使 用 感 に つ
一 方 、 MD-TACT を 使 用 し た 再 構 成 作 業 時 間 の 平 均
値 は 、 甲 チ ー ム が 1 時 間 24 分 54 秒 、 乙 チ ー ム が 1 時
いて感想文を書いてもらった。
間 24 分 45 秒 と な っ て お り 、 両 チ ー ム と も ほ と ん ど 同
じであった。この理由は現在詳しく調査中であるが、
仮 説 の 1 つ と し て 、 MD-TACT の 多 次 元 ツ リ ー 自 動 構
成機能により、完成形に近いツリー状態から手動洗練
作業を始めることができたため、多次元ツリーの完成
形をイメージできなくても作業がスムーズに進められ
たことが考えられる。
甲 チ ー ム の 被 験 者 4 は 、MD-TACT を 利 用 す る 際 に 、
何度も最初からやり直しを行っていた。表の※の記録
は 、 試 行 錯 誤 を 経 た 後 の 記 録 で あ り 、 MD-TACT の 修
練を積めば、この程度の時間で多次元ツリーの再構成
図 9. Excel で 表 現 し た 多 次 元 ツ リ ー
が可能になるとの傍証である。なお、※の時間は作業
時間の一部の時間なので、甲チームや全体の平均計算
4.3. 評価と考 察
評価実験は無事に終了し、良好な結果を得ることが
で き た 。表 1 は 多 次 元 ツ リ ー 作 成 時 間 の 一 覧 表 で あ る 。
には用いていない。
テ ス ト 後 の 感 想 文 で は 、 Excel を 用 い た 手 動 再 構 成
と 比 べ る と MD-TACT を 利 用 し た 方 が 非 常 に 楽 で あ る
4.3.1. MD-TACT に よ る 作 業 時 間低 減 効果
ま ず MD-TACT を 使 う こ と で ど れ ほ ど の 時 間 が 短 縮
という意見がほぼ全員から得られた。しかし、手動洗
表 1. 被 験 者 毎 の 多 次 元 ツ リ ー 再 構 成 作 業 時 間 の 比 較
グループ
甲
乙
平均値
1
再構成作業時間
MD-TAC T 利 用
手動再構成
1:31:20
5:49:17
2
1:35:47
被験者
6:02:25
平均値
1:24:54
3
1:10:34
4
0:36:21( ※ )
5
1:21:54
5:01:50
1
1:11:53
7:11:40
2
1:28:17
3
1:14:04
4
1:41:00
5
1:29:06
3:22:51
3:05:45
平均値
4:40:26
5:47:30
平均値
1:24:45
6:43:35
5:29:43
平均値
6:03:05
5:02:56
1:24:50
5:21:46
取得した無駄時間の集計を、表 2 に示す。前述した
表 2. 被 験 者 毎 の 無 駄 時 間 の 比 較
グループ
甲
被験者
1
2
3
5
00:03:44( ※ )
00:39:11
1
00:13:29
4
乙
通り、被験者甲 4 のデータは平均値の計算には含めて
無駄時間
00:04:32
平均値
00:17:38
0:30:39
01:01:17
2
00:18:03
3
00:13:40
4
0
5
00:41:46
いない。再構成操作所要時間と同じく、乙チームは先
に手動で多次元ツリーの再構成を行っていたため、甲
チームの半分ほどの時間で作業を完了していることが
分かった。両チームの被験者 4 は他の被験者と比較す
ると、少ない無駄時間で再構成が完了している。これ
は利用したファイルパスによって作られる単一ツリー
平均値
0:17:24
が、少ないカテゴリで分類できるノードで構成されて
いたのではないかと推測できる。
4.3.3. 自 動 構 成機 能に よ る省 力 効果
今回利用したファイルパス群は、過去に我々が手作
業で多次元ツリーに再構成し、データの提供元による
練機能の使用中に間違った操作を行った場合、リカバ
レビューを受けている。この多次元ツリーを模範解答
リーのために時間がかかったという意見もあった。移
とし、自動構成にどれほどの省力効果があるかを考察
動先を間違えて移動したノードを元のツリーに戻すの
する。
に時間がかかったり、統合機能でルートノードと統合
自動構成した多次元ツリーと元の一次元ツリーに
して元に戻せなくなり最初からやり直す必要が出たり
対 し 、 MD-TACT の 分 割 操 作 と 移 動 操 作 を 用 い て 、 模
し た 。こ う い っ た 問 題 に 対 応 す る た め に undo 機 能 が ほ
範解答を再現する最小限の操作数(移動が必要なノー
しいという意見も出た。
ド数)を求める。これに基づいて、以下の式により作
4.3.2. 再 構 成 プロ セス に よる 無 駄時 間の 相 違
業量削減率を定義する。
次に、テストによって得られたログから無駄時間が
な い か を 確 認 し た 。 MD-TACT の 洗 練 操 作 を 行 う 際 、
�1 −
自動構成ツリーからの移動ノード数
元ツリーからの移動ノード数
� × 100
一度操作したノードが間違った洗練操作と気づき、元
現在、ファイルパス群 1 および 2 に対する解析が完
に戻す被験者が良く見られた。また、ノードの移動操
了している。ファイルパス群 1 では 3 つのツリーが自
作を行う際、予定した移動先で重複警告が出て、その
動構成された。このうち分割操作が必要だったノード
まま元のツリーに再移動する被験者も見られた。この
は 57 個 、移 動 操 作 が 必 要 な ノ ー ド は 最 少 で 152 個 だ っ
操作は多次元ツリーの最終構成には不必要と判断でき
た 。フ ァ イ パ ス 群 2 で は 4 つ の ツ リ ー が 自 動 構 成 さ れ 、
る。これらの無駄時間をログから計測し、実際の再構
こ の う ち 分 割 操 作 が 必 要 だ っ た ノ ー ド は 68 個 、移 動 操
成時間がどれほどかかっているかを確認した。
作 が 必 要 な ノ ー ド 数 は 最 少 で 172 個 だ っ た 。
MD-TACT は 使 用 後 に ロ グ の CSV フ ァ イ ル を 出 力 す
続 い て フ ァ イ ル パ ス 群 1、 2 の 元 ツ リ ー の 確 認 を 行
る。ログには行われた操作の種類、操作を行ったノー
った。結果は表 3 に示すとおりである。移動操作が必
ド、操作後のノードの位置、開始時間、終了時間が操
要なノード数の項目の()内には、自動構成ツリーか
作ごとに行われた時間順に記録されている。無駄時間
らの移動が必要な最少ノード数を示す。
の計測は、このログの操作を行ったノードと終了時間
ノードに対する分割操作数は元ツリー、自動構成ツ
を使い計測する。既に確認したノードが操作を行った
リーのどちらも同じだった。移動操作が必要な最少ノ
ノードとして出現した場合、その操作の終了時間と、
ード数は若干自動構成後の方が少ないが、手動洗練の
その操作の一行上の操作の終了時間を確認する。前者
手間が大幅に省けるほどではなかった。作業量削減率
から後者を減算することで、操作内容を考える時間を
に し て 、 フ ァ イ ル パ ス 群 1 で は 約 19%、 フ ァ イ ル パ ス
含めた無駄時間を算出できる。
群 2 で は 約 23%、自 動 構 成 後 の 作 業 量 が 削 減 さ れ て い
る。このことから、自動構成機能には一定の省力効果
表 3. 元 ツ リ ー と 自 動 構 成 ツ リ ー か ら 模 範 解 答 を 再 現 す る 手 間 の 比 較
総ノード数
重複ノード数
分割操作が必要なノード数
移動操作が必要なノード数
残せるノード数
ファイルパス群 1
224
20
57
186( 152)
99
ファイルパス群 2
279
43
68
223( 172)
96
があることは分かるが、改善の余地も大きいと判断さ
れる。また、重複ノード数が多ければ多いほど作業量
設計改良
MD-TACT の 単 語 辞 書 に は 単 語 ID、カ テ ゴ リ ID、単
削減率が上がることが予想される。
語名が記録されているが、これに「表示名」を追加す
5. MD-TACT の 改 良 に 向 け た考 察
ることで、ノード分割時等の新たなノード名を自由に
MD-TACT の 評 価 結 果 と DEIM2014 で の 質 疑 応 答 を 踏
指定できるようになる。また、多次元ツリーを表現す
ま え 、MD-TACT の 改 良 点 や 新 機 能 に つ い て 考 察 す る 。
るデータ構造をビューとモデルに分離することで、よ
ノード分割時のリネーム機能の追加
り系統的な設計が可能になる。
MD-TACT の 手 動 洗 練 機 能 に リ ネ ー ム 機 能 の 追 加 が
提案された。これは表示されているノードの名前を変
6. ま と め
本 論 文 で は 、 MD-TACT の 開 発 に つ い て 述 べ 、 評 価 実
更 す る 機 能 で あ る 。 現 在 MD-TACT の 分 割 機 能 で 生 成
験 の 結 果 を 分 析 し た 。 MD-TACT に よ り 、 単 一 ツ リ ー
さ れ る ノ ー ド は 、名 前 を 自 由 に 変 更 で き な い 。し か し 、
を短時間で多次元ツリーに再構成することが可能にな
1 つのノードが複数の観点の単語を含む例はしばしば
り、再構成を反復適用することで自動的に多次元ツリ
見 ら れ る( 例:図 4 の「 20 年 度 指 名 業 者 推 薦 書 」)。こ
ー を 洗 練 で き る 可 能 性 が 判 明 し た 。 MD-TACT の ロ グ
のような場合、ノード分割後にノード名を個別の単語
機能を使い、熟練者による多次元ツリーの再構成作業
に合わせることで重複単語として処理できる。また、
を記録・分析すれば、より精度の高い多次元ツリーの
ノードに対して形態素解析を行うことで単語に自動分
自動構成アルゴリズムを工夫できる可能性がある。
割する機能も、多次元ツリーの自動生成を促進する上
よ り 多 く の 利 用 者 に MD-TACT を 使 っ て も ら う た め
で有効だと思われる。
には、このツールの有用性を証明する必要がある。今
複数ノードの統合機能の改良
回の評価実験では、時間の短縮の面において、確実に
複 数 ノ ー ド の 統 合 機 能 で は 、1 つ の ノ ー ド を 選 択 後 、
有用であることが証明された。自動構成アルゴリズム
統合機能の中で統合対象ノードを選ばせていた。しか
には一定の省力効果があるが、ユーザーインターフェ
し、統合したいノードを複数選択した後で統合機能を
ー ス の 面 か ら も undo 機 能 が な い 等 、操 作 性 の 面 で 問 題
選ぶように改良することで、統合対象ノードの選択や
もあることが分かった。今回の評価実験を通じて、
3 つ以上のノードの統合が容易に指定できるようにな
MD-TACT に は 改 善 の 余 地 が あ る こ と が 明 ら か に な っ
る。
た。
自動構成機能の強化
今後は評価実験を通じて得られたログデータ等の
重複ノードの少ないツリーの場合、複数の分類観点
詳細な分析を行い、多次元ツリーの品質の観点からも
の単語が混在するなど、多次元ツリーの自動構成機能
MD-TACT の 有 用 性 を 検 証 す る 。 こ の 有 用 性 を 証 明 で
の 効 果 が 低 下 す る 。こ う し た 状 況 を 改 善 す る た め に は 、
きれば、情報系の職員や教員に使ってもらい、利用デ
頻繁に出現する分類観点を表現するツリーをリポジト
ータから効率的な多次元ツリー構成アルゴリズムを開
リに保持しておき、そのツリーとのマッチングを通じ
発する。また、ユーザーインターフェースの改善も行
て多次元ツリーの自動洗練を行う機能が有効だと考え
っていく予定である。
られる。
また、複数の利用者によるリポジトリの共有や、利
用者によるリポジトリへのツリーの登録、リポジトリ
に登録されたツリーの評価などの機能を提供すること
で、コンテンツとしてのリポジトリの価値が高まるこ
とが期待できる。
次元集約
多次元ツリーを構成する複数のツリーにおいて、一
方のツリーとファイルの対応関係が、他方のツリーと
ファイルの対応関係と相関関係にあるケースが見られ
る( 例:住 所 と 郵 便 番 号 、身 長 と 体 重 な ど )。こ の よ う
な場合、利用者のニーズと合致するツリーのみを表示
することで次元集約を行い、ファイルの検索能力を低
下させることなく、利用者に提示する多次元ツリーを
単純化できる。
参
考
文
献
[1] IDC, 「 The Hidden Costs of Information Work」, 2006
[2] 山 口 章 太 , 「 フ ァ イ ル 整 理 ツ ー ル Hyp erClassifier
における移行支援ツールの評価とその改良」, 平
成 21 年 度 佐 賀 大 学 理 工 学 部 知 能 情 報 シ ス テ ム 学
科卒業論文
[3] 掛 下 哲 郎 , 園 木 幸 寶 ,「 OLAP 操 作 を 活 用 し た フ ァ
イ ル 整 理 ツ ー ル HyperClassifier」 , 第 8 回 情 報 科
学 技 術 フ ォ ー ラ ム (FIT 2009), 2009.
[4] 柿 本 由 気「
. ファイル分類のための多次元ツリー手
動洗練ツールの開発」. 佐賀大学理工学部知能情
報 シ ス テ ム 学 科 卒 業 論 文 ,2013.
[5] 山 口 章 太 , 掛 下 哲 郎 , 「 フ ァ イ ル 整 理 ツ ー ル
HyperClassifier に お け る 多 次 元 ツ リ ー 自 動 構 成 ツ
ー ル の 開 発 と 評 価 」,第 3 回 デ ー タ 工 学 と 情 報 マ ネ
ジ メ ン ト に 関 す る フ ォ ー ラ ム D6-3,2011.
[6] 柿 本 由 気 , 掛 下 哲 郎 、「 系 統 的 な フ ァ イ ル 整 理 を
目 的 と す る 多 次 元 ツ リ ー 構 成 ツ ー ル MD-TACT」、
電 気 関 係 学 会 九 州 支 部 第 65 回 連 合 大 会 06-2P-01、
2013.