PowerPoint プレゼンテーション

ビッグデータとは
・一連の技術を指す
・データの量と多様性の増加によってもたらされる測定における
革命の可能性
新日鉄住金ソリューションズ株式会社
・将来の意思決定がどのように行われるか、または行われるべき
かということについての視点や指針を提供するもの
データサイエンティストに必要なスキル
 最初にある程度必要なもの
統計、線形代数、プログラミング
・これらのスキルを習得後
データの準備、マンジング(データのフォーマットを変換して加
工する技術全般)、モデリング、コーディング、可視化、コミュ
ニケーション
統計的推論
・私たちの住む世界は、複雑で、ランダムで、不確実な世界であ
るが、それと同時に大きなデータ生成機でもある。
・私たちの生活の中の様々なプロセスが実際にデータを生成して
いる。
・世界からデータを取り出し、そしてデータから世界を理解する
この全体のプロセスが、統計推論の扱う分野である
母集団と標本
 母集団
一般的な人口のことではなく、ツイートや写真や星
などといった一連の対象
 標本を取る時は、母集団の一部からn個の観測地を取り出す。
サンプリングはデータにバイアス(標本データを母集団から抽
出すること)をかけて歪めてしまう可能性があるので、標本が
母集団を正しく代表した母集団の「縮小版」になるように注
意する
ビッグデータの母集団と標本
 どれだけのデータを必要とするかは、その目的に依存する。
分析や推論のためであれば、通常は全てのデータを常に保持
する必要はない。一方で必要な場合もある。
 ハリケーン・サンディのように観測する対象が母集団を代表
する一部でなかった場合、データを適切に解釈できない
 母集団から無作為にサンプリングをし、ある標本を作る。も
う一度サンプリングを行った際、先ほどの結果とは異なった
標本が得られる。このようなサンプリングによる不確実性を
標本分布と呼ぶ。
ビッグデータという用語
 ビッグデータとは相対的な表現であり、データのサイズがそ
れを処理するために利用できる最新の計算機の能力を上回っ
ていることを表す。
 データを1つの計算機で処理することができなければ、それは
ビッグデータであり、その場合多くの新しいツールや手法を
学ぶ必要がある。
 技術の進歩が加速したことにより、私たちの生活にどれほど
多量のデータが溢れているかを表す。
 Volume、Variety、Velocity、Value
ビッグデータの大きな仮定
CukierとMayer-Schoenbergerはビッグデータ革命は次の3つの
ことから構成されていると主張している。
 少量の標本ではなく、多量のデータを収集して使用すること
 データの乱雑さを許容すること
 因果関係を知ることを諦めること
彼らはデータが非常に膨大であることを考えれば、ビッグデータ
においては因果関係を理解する必要はないと主張している。これ
はビッグデータにおいて「N=ALL」であるという考え方に基づい
て組み立てられている。
N=ALLは正しいか
 選挙の出口調査の例など、ほとんどの場合が「N=ALL」では
ない
 投票に行かない人を観測することができない
データは客観的ではない
 「N=ALL」であればデータが客観的であると解釈されること
が多いが、それは間違いである。
 ニューヨークタイムズの記事を例にすると、因果関係を無視
することは欠陥になりうることがある。過去の問題を繰り返
すことになり、問題解決をすることができない。
モデル
 モデルは、建築学や生物学や数学など、特定のレンズを通し
て現実の性質を理解し表現しようとする試みなである。
 モデルは全ての余分な詳細部分を取り去った人工的な構造物
で、モデルを分析した後には、何か見落とされたものはない
か、省略された詳細部分に常に注意を払う必要がある。
統計モデル
 データにのめり込んでコーディングを始める前に、作成する
モデルの内在プロセスをどのように考えるか、その概念を思
い描くことが有益である。
どのようにモデルを作るか?
・データをどのような関数形で表現すべきか?
→これはモデリングプロセスの一部。ここでは現実に内在する構造
について多くの仮定を置かなければならない。そして、その仮定の
選択、説明について基準を持つ必要がある。
→最初の足がかりとしてEDA(探索的データ分析)がある。これの過
程では複数の図を作成し、データセットを直観的に理解するため。
→線形関数を書いてみる方法もある。シンプルなものから徐々に複
雑な仮定を追加し、数式やコードへ
確率分布
・自然のプロセスが生み出す測定値はある分布形を持つ傾向がある。
それを数学関数で近似する。
その関数がもつパラメータのいくつかはデータから推定可。(いろ
んな分布の仕方がある)
→分布は起こりうる結果のうち一部に割り当てられた確率と解釈で
きる(対応する関数をもつ)
・モデルフィッテイング
モデル、オーバーフィッテイング
→観測データを使ってモデルのパラメータを推定すること。データ
を証拠とし、現実世界のデータ生成プロセスを数学的に近似。
(最尤推定(データをもとに確率分布の母数を点推定)など、パラメータの
値を求めるための最適化手法やアルゴリズムが必要)
・オーバーフィッテイング
→推定されたモデルが標本データを超え、現実をよく捉えられない、
正確度などの評価指標で表されるモデルの予測が悪い場合。
探索的データ分析(EDA)
・データを体系的に調べる手法であり、すべての変数の分布、時
系列をプロットし、変数を変換、散布図行列を作成。そして、す
べての変数間の関係を確認し、全変数の要約統計量を計算する。
(平均値、最小値、最大値、etc、、)
・同時に考え方でもある。
→データに関する洞察を得て、データの形を理解、データを生成
したプロセスへの理解をデータそのものに結びつけようとする。
探索的データ分析の理念
・データを分析するものはみなEDAを行うべき!
→EDAの過程で①データ理解、②分散比較、③サニティーチェック
(データのスケール、形式の確認)、④欠損値や外れ値の確認、⑤デー
タ要約
を行うことになるため
→ログから生成されたデータはデバックに役立つ
→また、EDAは解析の開始時点、データ可視化(9章)は最後に行う。
EDAで作成される図は自分自身が何がおこっているか理解するために
用いる。
(演習、サンプルコードは割愛)
2.3
現実
世界
データサイエンスのプロセス
探索的 データ分析
(EDA)
生データの
収集
データの 処理
整理された
データ
機械学習ア
ルゴリズム/
統計モデル
データプロダクト
の構築
コミュニケーション
可視化
発見の報告
図2-2
データサイエンスのプロセス
意思決定
2.3
データサイエンスのプロセス
現実世界の行動(あるデータを持つ)を解析するためにデー
タマンジングのためのパイプラインを構築し,使用する.
最終的に形式の整えられたデータを得ることができる.
2. EDA(探索的データ分析)を行う.
3. アルゴリズムを使用してモデルを設計する.
4. 結果を解釈し,視覚化し,報告し,コミュニケーションを行
う.
1.
注意

EDAの過程で,データが完全にきれいになっていない.
→データの重複,欠損値,外れ値,未記録,誤記録がある.
→再度データの収集や,時間をかけてデータセットのクレンジング
を行う.

モデル設計の際,分類,予測,基本的な記述などによって,選択す
るモデルが異なる.

どのような解析を行う場合でも,フィードバックループを考慮し,
モデル自体が原因となったバイアスを調整しなくてはならない.
→モデルは,未来を予測するだけではなく,原因となる.
2.3.1
データサイエンスのプロセスにおける
データサイエンティストの役割
 人間(データサイエンティスト)は,どのデータを収集する
か決定する.
そして,課題を設定し仮説を立て,その問題にどのようにア
プローチするのかプランを立てる.
プロセス
研究課題は何か?
仮説を立てる
課題を設定する
現実
世界
人間活動
生物学
金融
インターネット
図2-3
どのデータを準備するか?
生データの
収集
電子メール
ログ
調査
採決
データの 処理
パイプライン
クリーニング
マンジング
結合
整理された
データ
クリーニング
外れ値
欠損値
デバック
表
データサイエンティストは,データサイエンスのプロセスのあらゆる部分に関与している
科学的手法との関連
 課題を設定する.
 背景の調査を行う.
 仮説を立てる.
 実験を行い,仮説を検証する.
 収集したデータを分析し,結論を導く.
 結果を伝える.
多くの課題は,これらのいくつかを組み合わせることで解決
できる.
2.4
思考実験:混沌(カオス)をどのよう
にシミュレートするか?
 データサイエンスの問題の始まり
・きたないデータ
・明確に定義されていない問い
・緊急性
 データサイエンティストは,混沌から秩序を作り出そうとす
る.
シミュレート
 ローレンツの水車
 有限状態機械におけるカオスのシミュレーション
 秩序を学ぶための模擬的混乱
 スタートアップの混乱から秩序を創る
講師ノート
1.
サイエンティストの仕事は,混沌から秩序を生み出すこと.
2.
質問を心掛ける.
→語彙の意味が分からなかったり,両者の語彙の解釈が異な
ると,コミュニケーションが困難になる.
3.
シミュレーションは有用なテクニック.
→データ生成プロセスの理解やデバッグに役立つ.
2.5
ケーススタディ:RealDirect

RealDirectのCEOであるDoug Perlsonは,不動産に関する法律,
起業,オンライン広告などを専門としている.彼が目指しているの
は,不動産に関する利用可能な全てのデータを使い,よりよい住宅
購入や売却を提供すること.

売却は,仲介を行うブローカーと現在の不動産データを利用する.
→ブローカーのシステムと不動産データの品質の両者に問題がある.
ブローカー

ブローカーは,フリーエージェント.
→自分の持つデータを積極的に守り,よいブローカーだけが多くの経験を
得る.しかし,経験の浅いブローカーに比べ,僅かに多くのデータを持っ
ているだけ.
RealDirectは,ライセンスを持った不動産エージェントをチームとして雇
用し,知識を共同で蓄積する.
ブローカーのチームは,情報収集ツールを使用し,最新の関連情報を監視
し,公的に利用可能な情報を入手する方法を学ぶ.
問題は,情報が古い.

公正な売買であれば,よい情報は買主と売主の両者にとって有益である.



2.5.1 RealDirectはどのように収益を得てい
るか
1.
2.
売主に課金することで,売却ツールへのアクセスを提供している.
売主は不動産エージェントを低手数料で利用することができる.

データ集約のメリットが現れている.
RealDirectは,最適化とそれに伴う大規模化によってより低額の手
数料を実現している.

ソフトウェアは,ユーザのステータスに応じて,ユーザのとるべき
アクションを提案する.
→RealDirectのサイトは,買主と売主が購入と売却プロセスの管理
を行うのに最適なプラットフォームである.
2.5.2 演習問題:RealDirectのデータ戦略
 設定
realdirect.comにCEO直属のチーフデータサイエンティスト
として雇われた.
企業は適切なデータプランを持っていない.
仕事はデータ戦略を提案すること.
提案方法
1.
2.
3.
4.
5.
6.
既存のウェブサイトで,買主と売主はどのように利用しているか,また,
そのウェブサイトの構造化・組織化はどうか.
また,ユーザ行動分析を,どのように意思決定や製品開発のための情報提
供に利用できるか.
マーケットに関する勘を得るため,補助的なデータを入手する.
CEOに報告するため,調査結果をまとめる.
一連のコミュニケーション戦略を持つことが理想.
異なった環境でのデータ収集は,自身の専門分野でデータ収集する方法に
ついて洞察を与えるか.
質問する習慣をつける.
オンラインビジネスや自分の専門分野において,データ戦略を策定するた
めの一連のベストプラクティスがあるか.