Mathematica 10によるデータ解析

技術情報
技術計算プログラム開発環境
Mathematica 10によるデータ解析
Mathematica はあらゆる分野の計算に対応する世界で最も信頼できる技術計算システムです。高度な統計
解析や機械学習に加え、充実した外部データ連携と強力なグラフィックス機能により、データの取得から解
析、可視化まで、すべてを行うことができるデータ解析に最適なツールと言えます。
■ データ解析に適した技術計算環境
■ 間欠泉の噴出の解析
近年、データ収集の方法が多様化され、そのサイズも
間欠泉の各噴出の噴出時間と間隔のデータを基に、噴出
大きくなるに従い、データ解 析の重要性が増し、あらゆ
の予測を行います。
データのばらつきは大きいですが、データ
る分野に応用が広がっています。現実のデータ解析は複
をプロットしてみると2つの主なかたまりがあるように見えま
雑な構造を持つデータを処理してゆく作業であり、ソフト
す。
そこで、似たもののグループ化を行うクラスター分析を行
ウェアによる支援が不可欠となります。また、データ解析
うと、2つのクラスターに分類され、短い噴出時間の後に短い
において、データや解析結果の理解のために可視化は非
間隔、長い噴出時間の後に長い間隔という間欠泉の挙動を
常に重要であるため、ソフトウェアには多様なデータを扱
知ることができます
(図3)
。
このクラスターごとに噴出時間と
う高度な解析機能に加えて、それらを可視化する機能も
間隔の平均を求めるなどして、直近の噴出時間からより正確
求められます。このすべての要求を満たすMathematica
に次の噴出までの時間を予測することができます
(表1)
。
はデータ解析のプロセスを大きく効率化できます。
表1 各クラスターの平均値
■ データの取得と可視化
Mathematica にはさまざまな外部データへのアクセス
機能があり、データを容易に取得できます。また、数値、テ
図3 間欠泉の噴出の
クラスター分析
キスト、画像、音声等あらゆるデータを扱うことができ、さ
らにはデータに応じた最適な可視化が可能です。
■ ファイルの入出力
Duration
WaitingTime
short
2.0522
54.5918
long
4.2963
80.0805
■ アヤメの種類の分類
さまざまな科学技術データを含む170 種類以上のファ
萼片の幅、長さ及び花弁の幅、長さからアヤメの種類を
イル形式に対応しています。
分類します。複数のアヤメの種類について既知であるよう
■ Wolfram Knowledgebase
なデータセットがある場合
(表 2)、機械学習により自動的
Wolfram Research 社の提供する化学、分子生物学、地
に分類規則を抽出できます。Mathematica にはさまざま
理、気象、経済等多岐に渡る膨大な最新のデータを利用
な機械学習アルゴリズムが用意されており、データに応じ
できます
(図 1, 2)。
て自動的に適したアルゴリズムやそのパラメーターを選
■ データベースへのアクセス
択します。学習の結果構築された分類器で新たなデータ
ほとんどの標準 SQLデータベースアプリケーションと接
を分類します。その結果を混同行列で表示すると
(図 4)、
続でき、データを取り込むことができます。
ほとんどのデータが正しく分類されていることを示す対
■ Webからの取得
角線上にあり、アヤメの種類の分類に有効な分類器が構
URLを指定するだけで、インターネット上のオープンデー
成されていることが分かります。
タを簡単に取り込めます。
表2 アヤメのデータ
■ デバイスの操作
カメラや加速度センサー等 Wolfram Connected Devices
Project1)に登録されている様々なデバイスを操作でき、
センサーデータを直接取得できます。
萼片
長さ
萼片
幅
花弁
長さ
花弁
幅
種類
4.7
4.6
5.0
7.0
6.4
6.9
5.8
6.3
3.2
3.1
3.6
3.2
3.2
3.1
2.7
2.9
1.3
1.5
1.4
4.7
4.5
4.9
5.1
5.6
0.2
0.2
0.2
1.4
1.5
1.5
1.9
1.8
setosa
setosa
setosa
versicolor
versicolor
versicolor
virginica
virginica
図4 分類結果
■ 手書き文字の認識
数値以外のデータも全く同様に扱えます。数字の画像と
図1 金融データの可視化
図2 ある日の日本の風向分布
■ データ解析
対応する数値を学習データとして用いると、機械学習によ
り手書きの数字を認識することが可能になります
(図 5)
。
Mathematica はさまざまな統計解析や機械学習の機能を
備えており、例えば以下のような解析が容易に実現できます。
図5 手書き文字の認識
1)http://devices.wolfram.com/
10