はじめに 1.「当たり前の結果」をたくさん出すこと

はじめに トレジャーデータが創業した 2011 年年から今⽇日までの 4 年年間、データ分析を取
り巻く世界は⼤大きく発展しました。特に「データ収集」、
「データストレージ」、
Hive や Presto などの「分散処理理エンジン」の進歩は⽬目まぐるしいものがあり
ます。 インフラシステムやデータ収集、分析エンジンに関連する技術の進歩により、
従来は本腰を⼊入れることのできなかった「データ分析」、またそれを担う「デ
ータ分析者」の重要性が理理解されるようになってきました。あるいは理理解とい
うより、分析者にとっては過度度な期待による「プレッシャー」という⾔言葉葉が適
切切かもしれません。 分析者が感じるプレッシャーの1つに、企画者や経営者・あるいは顧客といっ
た結果を活⽤用する⼈人々(=意志決定者)の、 「これだけ材料料(データ)が揃っているのだから、そしてこれだけコストをか
けたのだから、新しい知⾒見見や発⾒見見が⽣生まれ、多くの課題が解決できるはずだ」 という期待がありますが、実際にはいくら⼤大量量のデータが揃っていたとしても、
経営が⼀一気に改善できるような最善結果をすぐにもたらすのは⾮非常に難しいの
です。 もちろん分析者の使命は「データから重要な知⾒見見と改善点をもたらし続けるこ
と」であるので、このプレッシャーから⽬目を背けるわけにはいきません。今回
は、より良良いアウトプットを出すために分析者が意識識したい視点や姿勢につい
て、⼤大切切なことを 3 つご紹介したいと思います。 1.「当たり前の結果」をたくさん出すこと データ分析において、「当たり前の事をきっちりやる・当たり前の結果をたく
さん出す」事は⾮非常に重要です。ただし分析者という専⾨門的な⽴立立場である以上、
「何も有⽤用な結果が出てこなかった」「当たり前の結果しか出てこなかった」
という事に肩を落落としてしまうかもしれません。中には常に「何か新しい発⾒見見
をしないといけない」という焦燥感にとらわれながら仕事をしている⼈人もいる
かもしれません。 時にデータ分析は、機械学習を含む⽂文脈において「データマイニング」と呼ば
れることがありますが(この「マイニング」=「発掘」という⾔言葉葉は絶妙で、
鉱⼭山や油⽥田のようにむしろ発掘できる⽅方が稀である、しかしもし発掘できれば
⼤大成功、という含蓄があります)、「意味のある考察」や「新しい発⾒見見」をも
たらすためには「当たり前の結果」を積み重ねる必要があり、その事を意識識し
て分析業務を⾏行行うことは⾮非常に重要なのです。 a. その当たり前は本当に当たり前なのか また、「当たり前の結果」と⾔言っても、分析者の考える当たり前と、意志決定
者の考える当たり前は同義ではありません。 「分析者の考える当たり前の半分は意志決定者にとって当たり前ではなく、ま
たその逆もしかりである」 という事です。分析者が当たり前と思って⾒見見せた結果に「へえ、意外に××なん
だ、⾯面⽩白い」という反応が返ってくることもあれば、新しい知⾒見見が出たと思っ
て⾃自信ありげに⾒見見せた結果に、「やっぱりね」「そりゃそうだよ」という素っ
気ない反応が返ってくることもあります。 ここで重要なことは、分析者がたいしたこと無いと思っている結果が、実は意
志決定者にはとても貴重な情報となるケースが多くあるという点です。ただ実
際には、分析者はそうした(⾃自⾝身にとって当たり前の)結果をわざわざ報告し
たりしませんので、多くの意志決定者にとって重要な結果が⾒見見す⾒見見すスルーさ
れてしまうことも稀ではありません。その意味で分析者が「当たり前の結果を
たくさん出していく」という意識識を強く持つことはとても重要です。 では具体的にどうするかというと、例例えば •
出来るだけたくさんの分析結果を出す •
わかりやすい表やグラフの形でアウトプットする •
当たり前と突き返されても、めげずにこまめに共有を⾏行行う •
「意思決定者にとって何が当たり前か」=「彼らの経験や勘による部分は
どこか」を明確にする といった事が挙げられます。こうした試⾏行行の繰り返しによって初めて、意思決
定者が何を求めているのか、どの結果にどういう意味があるのか、といった点
が⾒見見えてくるのではないでしょうか。「新しい知⾒見見」というのは、「当たり前
の」繰り返しによって積み上げられたベースの上で初めて得られるものなので
す。 b. 意思決定者にとって当たり前の結果も惜しまずに提供する また、本当に当たり前の結果、つまり意志決定者が「まあそうだよね」という
結果には意味が無いのかといえば、決してそんな事はありません。意志決定者
の頭の中にあるイメージを数値やグラフで裏裏付ける事はそれ⾃自体とても有意義
です。意思決定者にとって、⾃自分の考えている事がデータによってきちんと検
証される事で得られる安⼼心感は意外に⼤大きいものです。そしてそのことが意思
決定の精度度向上や、戦略略策定のスピード向上を導出します。意思決定者に安⼼心
感を与えるのも、分析者の仕事の内なのです。 c.「勘と経験」を KPI やモデル式に落落とし込み、継承する データ分析はもう 1 つの側⾯面として、⼈人間の勘や経験を確証する役割も持って
います。特に製造業や⼩小売業において、データ分析の⼒力力は、現場で⻑⾧長らく前線
を張り続けて来た社員の経験と知識識と勘に及ばないこともしばしばあります。 ただし、そうした現場のプロの頭の中にある資産を、将来のマネージャーが模
範できるように KPI やモデル式にまで落落とし込み、他の⼈人でも再現可能なもの
にしていくのは分析者の業務です。 意思決定者の勘やひらめきは、分析者が⽣生み出すたくさんの「当たり前の結果」
によって裏裏付けられるのです。 2. 誰のため・何のために分析するのかを意識識すること データ分析の業務を⾏行行うにあたり、以下の意識識を常に持っておくことは⾮非常に
重要です。 ⼈人間の意志決定を⽀支援するために解析をすること・「解析結果=意
志決定」ではないこと Amazon や Google など多くのデータ分析先進企業では、例例えば「リコメンデ
ーション」「ページランク」「需要予測システム」など、分析結果それ⾃自体が
意志決定に繋がるようにデータが活⽤用されています。この⽬目的においては機械
学習や確率率率統計モデルといった⾼高度度な⼿手法が駆使され、データから機械的に解
を導き、更更にそれが⾃自動的にサービスに還元されていきます。これらは基本的
に⼤大規模なデータセットの集計によって成り⽴立立ったり、リアルタイムで計算式
に反映していったりするものなので、ある意味では⼈人間の意思の及ばない領領域
をカバーしていることになります。 ⼀一⽅方でデータ分析のより原始的な側⾯面として、機械、およびシステムでは無く、 「⼈人間の意志決定を⽀支援するための(好・悪)材料料をもたらすことに注⼒力力する」 点があります。そしてそのために、 「分析結果をいかにわかりやすく⼈人に提⽰示できるかを常に意識識する」 事は⾮非常に重要です。多くの分析シーンでは意思決定を⼈人間が⾏行行っており、そ
してその意思決定者がデータ分析のスペシャリストでない場合が⼤大半である状
況を考えれば、分析者にとってはいかに簡潔に解析結果を⽰示すことができるの
かが重要になってきます。加えて、分析結果を少しでも解りやすく提⽰示する姿
勢は、時にその正確さよりも歓迎されます。 例例えばクラスタリング⼿手法を⽤用いれば、ユーザーの⾏行行動に基づいたセグメント
分類を⾃自動的に⾏行行ってくれます。しかし、その際の判別結果は 「課⾦金金額:687.3 円〜~3456.7 円、プレイ期間 3.4 ⽇日〜~8.9 ⽇日のユーザークラス
タ」 といった⼀一⾒見見解りにくいものになります。このような微妙な境界をもった分析
結果が得られても、それを受けた所で迅速な解釈やそれに次ぐ意志決定ができ
るでしょうか?逆に、多少厳密性を⽋欠いても、 「課⾦金金額 1000 円〜~5000 円・プレイ期間 1 ⽇日〜~7 ⽇日のユーザークラスタ」 といったわかりやすい境界で提⽰示する⽅方が、意思決定者にとっては有意義であ
るように思われます。そしてそれをきちんと可視化し、意思決定者の視点や基
軸で集計し直すというサイクルを、⾼高速に回していくのです。 今や有名な⼿手法となった RFM 分析も、Recency、Frequency、Monetary すべ
てを⼀一度度に表⽰示させるのではなく、上図のように(Frequency×Recentry、
Frequency×Monetary 等)適切切な区切切りをつけることにより、⼈人間にとって分
かり易易い形で表⽰示するのが⼀一般的です。 3. 1 ⼈人で全てを背負わないこと データ分析者が、データの収集・蓄積から分析、可視化という⼀一連のフローの
中でどこまでをカバーするのかは企業によりますが、もしその業務範囲の中に、
インフラシステムやダッシュボードの保守・運⽤用が含まれているとすると、こ
れらのタスクを全て 1 ⼈人で背負う事は⾮非常に危険であり、多くの場合、分析者
の過負荷を招きます。 ⽇日々増え続けるデータ・変わり続けるサービスの全てを把握するの
は困難 もし周囲に助けを求められない場合、⾃自社・あるいは顧客先のデータ分析業務
を、収集から分析まで⼀一⼿手に引き受けなくてはなりません。そして特に Web サ
ービスにおいては、⾮非常に早いペースでサービスがリリースされ、取り込むデ
ータの内容も絶えず変更更されていきます。ログ収集のスクリプトを管理理し、デ
ータベースのテーブル構造を逐次変更更しながら、システム障害時には昼夜問わ
ず対応を迫られるような環境で、良良い分析アウトプットを出すことなど実質的
に不不可能です。したがって、以下の決め事に則ることは分析者、意思決定者双
⽅方にとって肝要です。 貴重なリソースは分析環境の構築・運⽤用ではなく、分析そのものに
使う その意味で、データ収集ツールや蓄積する器、分析エンジンといった⼿手のかか
る部分をトレジャーデータのようなクラウド上のプラットフォームに任せるの
も有⼒力力な選択肢となりますし、あるいは社内のインフラエンジニアやソフトウ
ェアエンジニアに協⼒力力を仰ぎ、⾃自社⽤用に解析プラットフォームを構築する⼿手⽴立立
てもあるでしょう。 ただ、こうしたプラットフォームを⼀一から構築するにあたっては多くの場合、
甚⼤大な費⽤用と時間がかかりますので、まずは既存のプラットフォームサービス
で希望するインフラ環境が構築可能かどうか、調査検証してみることをお勧め
します。 ※トレジャーデータの無料料トライアルはこちらから: <https://console.treasuredata.com/users/sign_̲up>