IE08 データサイエンティスト 要旨 ©2014 Beacon Users` Group ここ数

IE08 データサイエンティスト
要旨
ここ数年で「データサイエンティスト」という言葉を目や耳にすることが増えた。グー
グルトレンドに依れば、「データサイエンティスト」の検索数は 2013 年頃から増え始め、
現在までほぼ一定の数を保っている。このことは、世の中に「データサイエンティスト」
という言葉が定着しつつあることを示している。
また、企業や政府に所属する「データサイエンティスト」が活躍した事例が数多く生ま
れている。例えば、「楽天i」は顧客の会員情報や購買履歴、ポイントの活用状況を分析し、
その分析結果を顧客ごとに適した広告の配信やサービス利用率の向上に活用している。「デ
ータサイエンティスト」の活躍の場は様々であり、我々は日頃からその恩恵を受けている。
それでは、ビジネスや我々の生活にデータ分析の恩恵をもたらす「データサイエンティ
スト」とは一体何者なのだろうか。一般社団法人「データサイエンティスト協会」のホー
ムページでは「『データサイエンティスト』には明確な定義がない」と述べており、巷で
も統一的な定義は無いという見方が主流である。
そのため我々は、当研究における IE08 としての「データサイエンティスト」を定義した。
定義を考える上で、「データサイエンティスト協会」が提示するデータサイエンティスト
に必要とされるスキルセットを紹介したい。これは、データサイエンティストに必要とさ
れるスキルを具体的に示したものであり、以下の 3 つのスキルによって構成されている。
(1)ビジネス力:課題背景を理解した上で、ビジネス課題を整理し、解決する力
(2)データサイエンス力:情報処理、人工知能、統計学などの情報科学系の知恵を理解
し、使用する力
(3)データエンジニアリング力:データサイエンスを意味のある形に使えるようにし、
実装、運用できるようにする力
これらをもとに我々は「データサイエンティスト」とは「データを収集、運用できる基
盤を構築・活用し、データ分析から導き出された考察をもとに、ユーザーのビジネスに対
して高価値な提言を行う人物」と定義した。しかし、この 3 つのスキルをバランスよく備
えた人物はどれほどいるだろうか。実際のところ、先に定義したデータサイエンティスト
の役割をたった一人で担っているケースは少なく、全社レベルでのプロジェクトまたは、
事業部として実現している場合が多い。
ここで我々は疑問を感じた。「上記の3つのスキルが備わっていなければ、データ分析
をビジネスに活用することはできないのだろうか。」と。我々は自身が関わっているビジ
ネスの現状を理解しているし、日々集計している業務データはいくつかあるはずだ。つま
り、ビジネス力とデータエンジニアリング力を既に少しは備えていると言える。我々に欠
落しているのは、データサイエンス力のみである。したがって、データサイエンス力を“身
に付ける”と言わないまでも“カジる(齧る)”ことでビジネスに活かせるデータ分析が
可能となるのではないか。
2014 Beacon Users' Group
IE08 データサイエンティスト
要旨
我々はこのようなデータ分析初心者を“データカジリスト”と呼ぶこととし、「限られ
た分析手法を用いて、身近なツールとデータからビジネス上の価値ある発見を行う人」と
定義した。
本研究では、“データカジリスト”がデータ分析を通じてビジネスにおいて価値のある
発見が行えるかを検証し、データ分析を活用したいと思っている方々に、データ分析をカ
ジるきっかけを与えることを目的とする。
今回我々は 3 つのシナリオを用意してデータ分析を実践した。そのうち 2 つのシナリオ
では、身近な分析ツールとして Excel を利用したデータ分析を、もう 1 つのシナリオでは
応用編という位置づけで R 言語を利用したデータ分析を行った。その結果、いずれの分析
シナリオにおいても“データカジリスト”レベルの分析から、ビジネスにおける価値のあ
る発見が行える可能性があることを確認した。
今回、実際にデータ分析を実践した経験から、我々が特に重要であると感じた点は 2 つ
ある。
1 点目はデータ分析の目的の明確化である。当然のことではあるが、データ分析の目的が
明確に決まっていない場合、適切な分析方針や分析対象となるデータや分析手法を選ぶこ
とができないためである。
2 点目はデータの前処理とも呼ばれる「データクレンジング」である。調達したデータは
十中八九データ分析ができるほど整っていないため、データをきれいにする作業が必須と
なる。「データクレンジング」の効率性にも限度があるため、純粋なマンパワーが必要と
なってくる場面があり、データ分析において最も負荷がかかる工程となる。
最後に、データ分析未経験者がデータ分析を“カジり”やすくするために、“データカ
ジリスト”として知っておくべき必要最低限の情報として下記をまとめた。
・分析手順
・分析手法マップ
・分析ツール利用法(Excel・R 言語)
データ分析を日々の業務に活かしたいと考えている方々へ。
“データカジリスト”から始めよう!
~データ分析はカジってみなければ分からない~
i
楽天は楽天株式会社の登録商標または商標です。
2014 Beacon Users' Group