KV-Tables

KV-Tables
DiX は、セル理論に基づき Java で実装
された第二世代 CDS エンジンを用い
て、フォーマットの異なる複数のデー
タから統一的なデータ加工処理を実現
する究極のアプリケーションです。
東京大学名誉教授の國井利泰先
生が 1999 年に京都で行われた
1億レコードを超えるデータでも特殊
IEEE 主催の国際学会
なサーバーを用意せずに、PC にイン
(DANTE'99)での招待論文とし
ストールするだけで、高速にデータ加
て始めて提唱された数理モデル
工が行えます。
であり、「事象を表現する際に
データ加工処理プロセスは、画面操作
は全て数学的抽象階層(IMAH)が
のみで設定できます。難しいプログラ
形成される」という基本的な考
ミングは不要です。
え方に基づいています
加工プロセスの設定は、データ加工状
況をリアルタイムに確認しながら行え
ます。
セル理論に基づくアーキテクチ
ャで開発された第二世代の CDS
Data Integrator
What is in 「JOB」?
エンジンです。データ空間処理
DiX の基本機能であるデータ加工は、今までにな
DiX の特徴にジョブがあります。
コントローラー(Data
い操作性と高度なインテグレーションを提供しま
今まで、データベースや表集計ソフトで複雑なデー
Integrate)と新しく開発された
す。苗字・名前、住所などからの「名寄せ(横結
タ加工を行うには、プログラムを組む必要が有りま
ハイブリッド型インメモリデー
合)」、複数の異なるデータ構造を合わせる「縦
した。しかし、DiX では、このようなプログラムを
ターベース(Kv-Tables)から
結合」、データの内容を推論し、フラグを立てる
組む必要がありません。
構成されています
「条件(集計)」と「分岐(集計)」、データ内
DiX では、処理単位をジョブと呼び、本処理である
容を判断しグループ化する「グループ」、And・
「プロセス」、前処理の「プリプロセス」、後処理
Or・Not の組み合わせができる「検索」、各デ
の「ポストプロセス」で構成されており、それぞれ
ータを直接加工できる「関数(集計)」、データ
にデータ加工の最小単位である「エレメント」から
をユニークにする「ナンバリング」、これらの組
構成されています。
み合わせで高度なデータ加工が行えます。
ジョブは、独自のスクリプトプログラムとして、
XML フォーマットに基づくジョブファイル
(DiXML)に保存されます。このジョブファイルは
プログラムでもあるので、ほかの PC でも同じ処理
を実行する事が出来ます。
KV-Tables
High-Speed.
DiX の特徴の一つにハイブリッド型インメモ
リデータベースの KV-Tables があります。
KV-Tables は、RDB を用いた同様のデー
タ加工処理と比べると 50 倍以上の高速処理
を行う事が出来ます。今まで十数時間掛けて
いた処理が、十数分で処理できることは、よ
り詳細な分析や解析に時間を割りあてられ、
ビジネススピードを加速させます。
さらに KV-Tables は、インメモリデータベ
ースでありながらオリジナルのディスクデー
タベースと組み合わせたハイブリッド型とい
Batch Process
DiX では、このようなドキュメントを別に作
う特徴があります。そのウェイト比率は、自
今まで大規模なシステム化が必要とされたデ
成するよりも、処理プロセス内で見えるよう
動的に行われ、使用可能なメモリが少ないマ
ータ加工処理もジョブファイル(DiXML)
にすれば、ドキュメントの作成手間を省ける
シンでも快適に実行することができます。
を組み合わせることで、大規模なシステムと
だけでなく、効率的にデータ加工プロセスの
大容量メモリのマシンであれば、自動的にイ
同じことができるのも DiX の特徴です。
設定に専念できるとのアイデアから、各エレ
ンメモリデータベースの比率が上がり、高速
DiXML の組み合わせは、スクリプトと同じ
メントに直接コメントを入力できるようにし
で快適な処理が行えます。小容量メモリのマ
で順序立てて処理が行われます。
てあります。二度手間だと思っていたドキュ
シンでは、メモリの使用量をできる限り少な
日時・曜日の組み合わせ、日付範囲の組み合
メント作成作業は、DiX により解放されま
くするため、ディスクデータベースの比率が
わせ、繰り返し指定も行えます。
す。
自動的に上がります。
DiX が、毎週末に各支店の成果をまとめて、
月曜日の会議に成果として発表する、こんな
Image Data Viewer
Interface
事が、バッチ処理の簡単な設定でできるよう
イメージデータビューアは、データ加工途中
初めて操作するときに、今までにないユーザ
になります。
でもデータの加工状況を確認できるようにし
ービリティの高さを感じられるかもしれませ
たものです。
ん。
例えば、データセット時には、そのデータが
ほとんどの操作は、マウスのみで設定できま
表示され、縦結合を行えば、縦結合後のデー
す。例えば、データの集計操作は、パネルと
タ、横結合を行えばその結果がリアルタイム
呼ばれる属性をドラッグ&ドロップするだけ
に表示されます。
で設定が終わります。また、設定されたデー
タは、色が変化し、可視判断ができるため、
データの未入力項目が一目で確認できます。
「プログラムを実行しなければ、最終的にデ
Insert Comment
ータがどのようになっているのか分からな
今までは、データ加工をシステム化すると引
い」、そんなデータ処理が見えない操作は、
き継ぎ等のため「なぜこんな処理をしたの
DiX では不要です。
か」、「このデータは何か」を別にドキュメ
ントとして作成する必要がありました。
KV-Tables
User's Dictionary
No Data Format
Element
今までにないユーザー辞書機能も DiX の特
DiX の特徴に、データ定義が存在しない点が
エレメントとは、各データ加工処理の最小単
徴です。この辞書機能は、高度な推論機能を
あります。
位です。このエレメントの積み重ねがプロセ
持ち、辞書内の用語の関係性を推論してマッ
通常データベースを用いた場合ですと日付の
スになります。
チングを行います。この辞書機能は、集計エ
属性データには、Date 型、数字のデータに
代表的なエレメントを列記します
レメントや横結合エレメント、グループ化エ
は、Float 型や Double 型などがあり、それ
・縦結合
レメントで使用ができます。
以外にも文字列型などの設定が必要です。
異なるデータフォーマットの複数の CSV フ
DiX では、このような煩わしい作業は不要で
ァイル等を、統合的なデータとして新たなデ
けです。たとえば「一都四県」と「東京,神
す。
ータ構築を行うことができます。
奈川,千葉,埼玉」が親子関係という入力、
データにバラバラの日付形式として、
・横結合
「東京」は、「東京都」と「TOKYO」が同
2013/1/3、平成 24 年 3 月 7 日、
特定の属性要素に基づく集合により自在にデ
義である入力をします。
2000-01-03、20011009、これらが混
ータを統合し、新たな要素データ構築を行い
在していても同じ日付データとして取り扱わ
ます。この要素集合に関しては、データクレ
性を示す有向グラフ構造を構築します。例え
れます。
ンジング機能を用いることで、住所や名前な
ば、データに「TOKYO」と「神奈川」が存
同様に 12300、12,300、¥12300 も同
どデータの揺らぎが多い要素に関しても、自
在すれば、この二つのデータは、「一都四
じ数字データとして取り扱われます。さらに
動的にチェックし要素データを作成すること
県」で結ばれていると DiX は推論します。
漢数字の壱万弐千参百、一万二千三百も数字
が可能です。また、データ欠損、重複データ
データとして取り扱われます。
の確認、データ品質のチェックも自動的に行
ユーザーは単純な集合データを登録するだ
DiX は、その辞書を読込して自動的に関係
これにより、「TOKYO」と「神奈川」の
うことができます。
データは、「一都四県」として集計すること
ができます。
また、データ登録時に属性の位置を必ず 1
行目にしなければ、データを受け付けないデ
約統計量値として出力することができます。
は、登録するための事前加工が必要になって
また、その求められた値、もしくは元の値群
しまいます。DiX では、属性の位置を自動的
に対して、四則演算を実施し、さらに指定さ
に検出して登録する機能がありますので、
れた条件に基づく計算結果を出力することも
DiX で処理するための事前データ加工は不要
できます。また、関数を用いてデータの加工
です。
を行うことができます。
DiX の検索は、And と Or、さらに Not の
ープのデータとして認識され、「C」は別デ 組み合わせ検索が行えます。また、インメモ
ータであると推論されます。
特定の属性要素を元に指定された値群を要
ータ加工プログラムもありますが、これで
上図のような複雑な関係性があっても、近似 Search in a free input
アルゴリズムから「L」と「K」は同じグル
・集計
リデータベースですので、高速に検索できる
のも特徴です。
このほかにもクロス集計が行えるグループ化
エレメントやデータを分割するエレメントも
あります。
KV-Tables
IT Leaders(田口編集長)の記事から
CDS は國井利泰・東京大学名誉教授が提唱する「セル理
論」に基づき、形式や表現方法の異なるデータを操作し
たり検索を行うためのツール。ユニークなツールなのだ
が、セル理論の難しさもあって、どんな業務にどう活用
すればいいかが分かりにくい。そこで CDS の可能性を
実証する狙いも込めて、前田建設は DI を開発した。
~中略~
データの正規表現や品質の問題、システム部門とユーザ
ー部門の役割分担、使い慣れた(使い勝手のいい)BI ツ
ールとの連携など、よく考えられたツールと言える。
「すべてを自動化するとか、高度な BI 機能まで DI に実
装するアプローチもあり得ました。しかし市販の製品で
使えるものがあれば使えばいい。それよりも IT スキル
を持たない利用者が自由に分析できるようにする点に絞
って開発しました」(同社)。
「“なぜデータの分析・活用は進まないのか?” 原因を考え抜いたツール
を前田建設が販売へ」
動作クロック数
より
最低要件
推奨要件
2.6GHz
3.0GHz 以上
メモリ
4GB
16GB 以上
メモリアクセス速度
1066MHz
1333MHz 以上
CPU コア数
2
4 以上
マイクロアーキテクチャ
Nehalem 世代(Core i5 同等)
Sandy Bridge 以降(Core i7 以上)
OS
Winsow7 もしくは Wondows8
32Bit(β版動作)
Winsow7 もしくは Wondows8
64Bit
必須アプリケーション
Java7