ビッグデータと非階層クラスター分析

【客員研究員の報告】
ビッグデータと非階層クラスター分析
客員研究員
山川義介
1.ビッグデータと購買データの特徴
バズワード化したといわれる「ビッグデータ」には、明確な定義は存在しないが、一般
的にはいくつかのVで表わす以下のような特徴があるといわれる。
3V=Volume/Variety/Velocity
4V=Volume/Variety/Velocity/Veracity
5V=Volume/Variety/Velocity/Veracity/Value
0」※1の中
トーマス・Hダベンポート氏は2014年に発刊した「データ・アナリティクス3.
で、
『
「Venality(金次第)
」も加わり「6V」になる』と(おそらく多少の揶揄をこめて)
予想している。さらに彼は、
『定義上の問題があるため、私は(そして他の専門家たちも)
この不幸な言葉が早晩消え去るだろうと予測している。だからと言って、
「ビッグデータと
呼ばれている現象」がどこかに消えるわけではない。そして多種多様の情報源から大量の
データが流れ込むという、ここ10年ほどの状況について何らかの言葉を当てはめようとす
るなら、今のところ「ビッグデータ」以上の言葉は見当たらない』と結論づけている。こ
のように、ビッグデータは飛躍的にその利活用が進んでいくと考えられる。
マーケティング領域における、代表的ビッグデータとしては、通販会社の購買データや
Web サイトでの行動履歴などがあるが、アンケート等で扱うデータとは、どのような違い
があるだろうか。下図に示した通り、例えば5段階評価のアンケート結果データは、数百
から数千程度のサンプルデータの全てが1∼5の数値で埋まっており、全く欠損もなく密
なデータ構造をしている。
アンケートデータ
購買データ
図
データ構造の違い
―81―
それに対し、購買データは、数十万から数百万のサンプルが数万点の商品を購入してい
るという場合もあり、かつ非常に多くの異常値や欠損が含まれており、決して綺麗なデー
タではない。しかも、一人がある一定期間に購入する商品数は限定的であり、ほとんどの
セルがヌル(何も入っていない)という、スパース(疎)なデータ構造をしている。
2.クラスター分析について
クラスター(cluster)とは、英語で「房」
「集団」
「群れ」のことで、似たものがたくさ
ん集まっている様子を表す。クラスター分析とは、異なる性質のものが混ざり合った集団
から、互いに似た性質を持つものを集め、クラスターを作る方法で、対象となるサンプル
(人、行)や変数(項目、列)をいくつかのグループに分ける、簡単にいえば「似たもの
集めの手法」だ。
クラスター分析は、あらかじめ分類の基準が決まっておらず、分類のための外的基準や
評価が与えられていない「教師無しの分類法」といわれる。従って、データを単純に男女
別や年代別に分けた塊をクラスターとは呼ばない。
クラスター分析を始めるときに決めなくてはならないことは、一般的には以下の4つで、
それぞれ、どれを選択するかがポイントになる。
1)グループ分けの対象
サンプルを分けるのか、変数を分けるのか
2)分類の形式(種類、生成)
階層的方法か非階層的方法か
3)分類に用いる対象間の距離(類似度)
ユークリッド距離、マハラノビス距離、コサイン距離…
4)クラスターの合併(生成)方法(クラスター間の距離の測定方法)
ウォード法、群平均法、最短距離法、最長距離法…
クラスター分析は、
「似たもの集めの手法」なので、似ているものを集める必要がある。
「類似度」と似ていることばに「距離」がある。類似度と距離の関係は、
似ている=類似度が高い=距離が近い(小さい)
似ていない=類似度が低い=距離が遠い(大きい)
ということになるが、クラスター分析では、各データのもつ性質の差=距離ととらえ、
その距離の大小により類似性を表現する。データ間の差を用いた距離にはいくつか種類が
あるが、最も優れているというものはなく、そのデータの性質や目的により用いる距離を
選択する必要がある。距離には「公理」といわれるものがあり、以下の性質を持っている。
(1)距離はマイナスにはならない
(2)同一点であれば距離はゼロ
―82―
(3)
2つの距離はどちらから測っても同じ
(4)
三角形の2辺の距離の合計は、もう1辺の距離より大きい
この距離の公理を満たす定義は、無限にあるが、我々が最もよく使う距離はユークリッ
ド距離といわれるもので、ピタゴラスの定理で求められるような直線距離を指す。クラス
ター分析に用いる距離は、ほかにもマハラノビス距離、コサイン距離、マンハッタン距離
などがあり、使い分ける必要がある。
3.クラスター分析の問題点
クラスター分析には、上記の4つのポイントに示した選択すべき方法論やパラメータが
多数存在し、いったいどれを使えばよいかという問題があるが、それ以上に、そもそも
「よ
いクラスターとは何か」という問いに答えがないことが、より問題を複雑にしている。
非階層クラスター分析の代表的な手法である k-means 法は、大量データのクラスタリン
※2と「距離問題」という大
グによく用いられる。ところが、k-means 法には「初期値問題」
きな問題がある。距離問題というのは、どの距離を選択するかということと、統計ソフト
が最適な距離をサポートしているかという2つの問題があるが、ここでは初期値問題だけ
に焦点を絞る。
初期値問題の認識がない分析者が、クラスター分析を1回だけ行って、その結果をその
まま使っているケースを見受けるが、これは非常に危険である。以下はランダムに配置し
たデータを、初期値を変えて k-means 法にかけたものだが、サンプルの分類が初期値に
よって大きく異なることが見てとれる。もちろん、どの結果も繰り返し計算数は充分に多
く、平均クラスター内距離は収束している。
初期値問題を解決する最も簡単な方法は、複数回初期値を変えて分析し、平均クラスター
内距離等の指標を確認して、最良だと思われる初期値を選択する方法だが、それも、それ
が最良である保証はない。また、数百万にも及ぶ大量データをクラスタリングする場合、
昨今のコンピューティングパワーを持ってしても、通常の統計ソフトでは相当の時間がか
かるため、複数回の分析をしてその中から最良のものを選択するという方法はとりにくい。
初期値問題の解決方法としては、
「メタヒューリスティックな方法(simulated annealing
や遺伝的アルゴリズム)
」や「k-means++」※3を用いることがあるが、対応しているソフト
―83―
も限られている。
ビッグデータの分析にあたっては注意するポイントが多く、分析手法への深い理解が求
められる。
参考文献
1.著:トーマス・H・ダベンポート、監修:有限責任監査法人トーマツ、訳:小林啓倫、
「アナリティク
0』
(2014)
、P29∼30
ス3.
2.Douglas Steinley, Michael J. Brusco, Initializing k-means Batch Clustering : A Critical Evaluation
of Several Techniques , Journal of Classification,Vol.24, No.1, 99­121, 2007.
3.David Arthur, k-means++ : The advantages of careful seeding , Proc. of the eighteenth annual
ACM-SIAM symposium on Discrete algorithm,1027­1035, 2007.
筆者紹介:株式会社ALBERT 代表取締役会長
山 川 義 介
■略歴
横浜国立大学工学部卒業。
TDK 株式会社記録メディ
ア事業部門にて研究開発、商品企画に従事の後、株
式会社マルマンに転じ常務取締役家電事業部長など
を歴任。1995年株式会社エムアンドシーを設立し代
表取締役に就任。2000年株式会社インタースコープ
を設立し、取締役副社長に就任。2001年6月株式会
社インタースコープ代表取締役社長に就任。2002年
「EOY JAPAN セミファイナリスト(スタートアッ
プ部門)
」
。2005年7月インタースコープ取締役会長
2005年7月株式会社 ALBERT を設立し、代
に就任。
表取締役会長に就任。2006年2月インタースコープ
をヤフー株式会社に売却。2007年4月より関東学院
大学人間環境研究所客員研究員。2008年9月より明
治大学大学院グローバル・ビジネス研究科非常勤講
師[CRM(データマイニング)]
。
■現在の仕事
事業コンセプトは『分析力をコアとするマーケティ
ングソリューションカンパニー』
。
高度なマーケティングソリューションを提供するた
めのコアコンピタンスである『分析力』は、アナリ
ティクス領域における、
「マーケティングリサーチ」
「多変量解析」
「データマイニング」
「テキスト&画
像解析」
、エンジニアリング領域における、
「大規模
データ処理」
「ソリューション開発」
「プラットフォー
ム構築」
「最適化モデリング」の8つのテクノロジー
で支えられている。8つのテクノロジーには豊富な
実績に裏付けられた、
ALBERT 独自のアルゴリズム
や手法が用いられており、優位性を確保している。
―84―