ビッグデータとは ・一連の技術を指す ・データの量と多様性の増加によってもたらされる測定における 革命の可能性 新日鉄住金ソリューションズ株式会社 ・将来の意思決定がどのように行われるか、または行われるべき かということについての視点や指針を提供するもの データサイエンティストに必要なスキル 最初にある程度必要なもの 統計、線形代数、プログラミング ・これらのスキルを習得後 データの準備、マンジング(データのフォーマットを変換して加 工する技術全般)、モデリング、コーディング、可視化、コミュ ニケーション 統計的推論 ・私たちの住む世界は、複雑で、ランダムで、不確実な世界であ るが、それと同時に大きなデータ生成機でもある。 ・私たちの生活の中の様々なプロセスが実際にデータを生成して いる。 ・世界からデータを取り出し、そしてデータから世界を理解する この全体のプロセスが、統計推論の扱う分野である 母集団と標本 母集団 一般的な人口のことではなく、ツイートや写真や星 などといった一連の対象 標本を取る時は、母集団の一部からn個の観測地を取り出す。 サンプリングはデータにバイアス(標本データを母集団から抽 出すること)をかけて歪めてしまう可能性があるので、標本が 母集団を正しく代表した母集団の「縮小版」になるように注 意する ビッグデータの母集団と標本 どれだけのデータを必要とするかは、その目的に依存する。 分析や推論のためであれば、通常は全てのデータを常に保持 する必要はない。一方で必要な場合もある。 ハリケーン・サンディのように観測する対象が母集団を代表 する一部でなかった場合、データを適切に解釈できない 母集団から無作為にサンプリングをし、ある標本を作る。も う一度サンプリングを行った際、先ほどの結果とは異なった 標本が得られる。このようなサンプリングによる不確実性を 標本分布と呼ぶ。 ビッグデータという用語 ビッグデータとは相対的な表現であり、データのサイズがそ れを処理するために利用できる最新の計算機の能力を上回っ ていることを表す。 データを1つの計算機で処理することができなければ、それは ビッグデータであり、その場合多くの新しいツールや手法を 学ぶ必要がある。 技術の進歩が加速したことにより、私たちの生活にどれほど 多量のデータが溢れているかを表す。 Volume、Variety、Velocity、Value ビッグデータの大きな仮定 CukierとMayer-Schoenbergerはビッグデータ革命は次の3つの ことから構成されていると主張している。 少量の標本ではなく、多量のデータを収集して使用すること データの乱雑さを許容すること 因果関係を知ることを諦めること 彼らはデータが非常に膨大であることを考えれば、ビッグデータ においては因果関係を理解する必要はないと主張している。これ はビッグデータにおいて「N=ALL」であるという考え方に基づい て組み立てられている。 N=ALLは正しいか 選挙の出口調査の例など、ほとんどの場合が「N=ALL」では ない 投票に行かない人を観測することができない データは客観的ではない 「N=ALL」であればデータが客観的であると解釈されること が多いが、それは間違いである。 ニューヨークタイムズの記事を例にすると、因果関係を無視 することは欠陥になりうることがある。過去の問題を繰り返 すことになり、問題解決をすることができない。 モデル モデルは、建築学や生物学や数学など、特定のレンズを通し て現実の性質を理解し表現しようとする試みなである。 モデルは全ての余分な詳細部分を取り去った人工的な構造物 で、モデルを分析した後には、何か見落とされたものはない か、省略された詳細部分に常に注意を払う必要がある。 統計モデル データにのめり込んでコーディングを始める前に、作成する モデルの内在プロセスをどのように考えるか、その概念を思 い描くことが有益である。 どのようにモデルを作るか? ・データをどのような関数形で表現すべきか? →これはモデリングプロセスの一部。ここでは現実に内在する構造 について多くの仮定を置かなければならない。そして、その仮定の 選択、説明について基準を持つ必要がある。 →最初の足がかりとしてEDA(探索的データ分析)がある。これの過 程では複数の図を作成し、データセットを直観的に理解するため。 →線形関数を書いてみる方法もある。シンプルなものから徐々に複 雑な仮定を追加し、数式やコードへ 確率分布 ・自然のプロセスが生み出す測定値はある分布形を持つ傾向がある。 それを数学関数で近似する。 その関数がもつパラメータのいくつかはデータから推定可。(いろ んな分布の仕方がある) →分布は起こりうる結果のうち一部に割り当てられた確率と解釈で きる(対応する関数をもつ) ・モデルフィッテイング モデル、オーバーフィッテイング →観測データを使ってモデルのパラメータを推定すること。データ を証拠とし、現実世界のデータ生成プロセスを数学的に近似。 (最尤推定(データをもとに確率分布の母数を点推定)など、パラメータの 値を求めるための最適化手法やアルゴリズムが必要) ・オーバーフィッテイング →推定されたモデルが標本データを超え、現実をよく捉えられない、 正確度などの評価指標で表されるモデルの予測が悪い場合。 探索的データ分析(EDA) ・データを体系的に調べる手法であり、すべての変数の分布、時 系列をプロットし、変数を変換、散布図行列を作成。そして、す べての変数間の関係を確認し、全変数の要約統計量を計算する。 (平均値、最小値、最大値、etc、、) ・同時に考え方でもある。 →データに関する洞察を得て、データの形を理解、データを生成 したプロセスへの理解をデータそのものに結びつけようとする。 探索的データ分析の理念 ・データを分析するものはみなEDAを行うべき! →EDAの過程で①データ理解、②分散比較、③サニティーチェック (データのスケール、形式の確認)、④欠損値や外れ値の確認、⑤デー タ要約 を行うことになるため →ログから生成されたデータはデバックに役立つ →また、EDAは解析の開始時点、データ可視化(9章)は最後に行う。 EDAで作成される図は自分自身が何がおこっているか理解するために 用いる。 (演習、サンプルコードは割愛) 2.3 現実 世界 データサイエンスのプロセス 探索的 データ分析 (EDA) 生データの 収集 データの 処理 整理された データ 機械学習ア ルゴリズム/ 統計モデル データプロダクト の構築 コミュニケーション 可視化 発見の報告 図2-2 データサイエンスのプロセス 意思決定 2.3 データサイエンスのプロセス 現実世界の行動(あるデータを持つ)を解析するためにデー タマンジングのためのパイプラインを構築し,使用する. 最終的に形式の整えられたデータを得ることができる. 2. EDA(探索的データ分析)を行う. 3. アルゴリズムを使用してモデルを設計する. 4. 結果を解釈し,視覚化し,報告し,コミュニケーションを行 う. 1. 注意 EDAの過程で,データが完全にきれいになっていない. →データの重複,欠損値,外れ値,未記録,誤記録がある. →再度データの収集や,時間をかけてデータセットのクレンジング を行う. モデル設計の際,分類,予測,基本的な記述などによって,選択す るモデルが異なる. どのような解析を行う場合でも,フィードバックループを考慮し, モデル自体が原因となったバイアスを調整しなくてはならない. →モデルは,未来を予測するだけではなく,原因となる. 2.3.1 データサイエンスのプロセスにおける データサイエンティストの役割 人間(データサイエンティスト)は,どのデータを収集する か決定する. そして,課題を設定し仮説を立て,その問題にどのようにア プローチするのかプランを立てる. プロセス 研究課題は何か? 仮説を立てる 課題を設定する 現実 世界 人間活動 生物学 金融 インターネット 図2-3 どのデータを準備するか? 生データの 収集 電子メール ログ 調査 採決 データの 処理 パイプライン クリーニング マンジング 結合 整理された データ クリーニング 外れ値 欠損値 デバック 表 データサイエンティストは,データサイエンスのプロセスのあらゆる部分に関与している 科学的手法との関連 課題を設定する. 背景の調査を行う. 仮説を立てる. 実験を行い,仮説を検証する. 収集したデータを分析し,結論を導く. 結果を伝える. 多くの課題は,これらのいくつかを組み合わせることで解決 できる. 2.4 思考実験:混沌(カオス)をどのよう にシミュレートするか? データサイエンスの問題の始まり ・きたないデータ ・明確に定義されていない問い ・緊急性 データサイエンティストは,混沌から秩序を作り出そうとす る. シミュレート ローレンツの水車 有限状態機械におけるカオスのシミュレーション 秩序を学ぶための模擬的混乱 スタートアップの混乱から秩序を創る 講師ノート 1. サイエンティストの仕事は,混沌から秩序を生み出すこと. 2. 質問を心掛ける. →語彙の意味が分からなかったり,両者の語彙の解釈が異な ると,コミュニケーションが困難になる. 3. シミュレーションは有用なテクニック. →データ生成プロセスの理解やデバッグに役立つ. 2.5 ケーススタディ:RealDirect RealDirectのCEOであるDoug Perlsonは,不動産に関する法律, 起業,オンライン広告などを専門としている.彼が目指しているの は,不動産に関する利用可能な全てのデータを使い,よりよい住宅 購入や売却を提供すること. 売却は,仲介を行うブローカーと現在の不動産データを利用する. →ブローカーのシステムと不動産データの品質の両者に問題がある. ブローカー ブローカーは,フリーエージェント. →自分の持つデータを積極的に守り,よいブローカーだけが多くの経験を 得る.しかし,経験の浅いブローカーに比べ,僅かに多くのデータを持っ ているだけ. RealDirectは,ライセンスを持った不動産エージェントをチームとして雇 用し,知識を共同で蓄積する. ブローカーのチームは,情報収集ツールを使用し,最新の関連情報を監視 し,公的に利用可能な情報を入手する方法を学ぶ. 問題は,情報が古い. 公正な売買であれば,よい情報は買主と売主の両者にとって有益である. 2.5.1 RealDirectはどのように収益を得てい るか 1. 2. 売主に課金することで,売却ツールへのアクセスを提供している. 売主は不動産エージェントを低手数料で利用することができる. データ集約のメリットが現れている. RealDirectは,最適化とそれに伴う大規模化によってより低額の手 数料を実現している. ソフトウェアは,ユーザのステータスに応じて,ユーザのとるべき アクションを提案する. →RealDirectのサイトは,買主と売主が購入と売却プロセスの管理 を行うのに最適なプラットフォームである. 2.5.2 演習問題:RealDirectのデータ戦略 設定 realdirect.comにCEO直属のチーフデータサイエンティスト として雇われた. 企業は適切なデータプランを持っていない. 仕事はデータ戦略を提案すること. 提案方法 1. 2. 3. 4. 5. 6. 既存のウェブサイトで,買主と売主はどのように利用しているか,また, そのウェブサイトの構造化・組織化はどうか. また,ユーザ行動分析を,どのように意思決定や製品開発のための情報提 供に利用できるか. マーケットに関する勘を得るため,補助的なデータを入手する. CEOに報告するため,調査結果をまとめる. 一連のコミュニケーション戦略を持つことが理想. 異なった環境でのデータ収集は,自身の専門分野でデータ収集する方法に ついて洞察を与えるか. 質問する習慣をつける. オンラインビジネスや自分の専門分野において,データ戦略を策定するた めの一連のベストプラクティスがあるか.
© Copyright 2025 ExpyDoc