ビッグデータ

1
今,改めて問う統計解析の価値
成蹊大学理工学部情報科学科
教授 岩崎 学
[email protected]
2
本日の話
• データ・サイエンティストやビッグデータといった言葉が連日各種メ
ディアや紙面をにぎわしている.
• いま、かつてない程に各種データを分析し、その結果を元に意思決
定することの必要性が叫ばれ、既に多くの企業や組織が活用を進
めている.
• 一方で、市場におけるデータ分析人材の不足が指摘され、日本に
おけるデータ分析市場はまさにこれから発展を遂げていくものと思
われる.
• 統計解析自体は、既に100年以上の歴史がある領域になるが、こ
のビッグデータの時代に統計解析をいかに活用すべきなのか、そし
てその際に必要な人材をいかに育成していくのか.
• 統計学ブーム!?,統計学の考え方,こういうことに注意
• これから:諸外国では,統計検定
3
The Sexy Job
• Hal Varian on how the Web challenges managers (2009)
• Google’s chief economist
• I keep saying the sexy job in the next ten years will be
statisticians.
• The ability to take data—to be able to understand it, to
process it, to extract value from it, to visualize it, to
communicate it—that’s going to be a hugely important skill
in the next decades, not only at the professional level but
even at the educational level for elementary school kids, for
high school kids, for college kids.
最強の学問
• 西内 啓 著
• ダイヤモンド社.1680円
• 2013.1出版
• あえて断言しよう。あらゆる学問のなかで
統計学が最強の学問であると。
• どんな権威やロジックも吹き飛ばして正解
を導き出す統計学の影響は、現代社会で
強まる一方である。
• 「ビッグデータ」などの言葉が流行ることも
そうした状況の現れだが、はたしてどれだ
けの人がその本当の面白さを知っている
だろうか。
5
さまざまなマスコミで
6
こういう書物もありますが...
7
NHK でも
• 2013年7月3日(水)クローズアップ現代
• 数字のカラクリ・データの真実~統計学ブームのヒミツ~
• 視聴率:10.7%(関東地区)
8
統計学の考え方-1.1
• データサイエンティスト 引く手あまたの状況をどう見る?
• データの種類と量の爆発的な増加
• 以前には,データを取る専門家がデータを取り,コンピュータに入力
• 最近では,一人ひとりがデータを入力している
• 多種類のセンサーによるデータ取得 (センサーも千差万別!)
• 官公庁が積極的にデータを公表
• その種のデータを扱える人材が求められている
• データはあっても、欠損してるものが多々見られる?
データ = 数値 + 背景情報
• 最近は,数値だけでなく,テキストなどさまざまなもの
• 背景情報があればデータの欠損に対し,何らかの対処可能
• データがどう取られたのかを知ることが重要
9
統計学の考え方-1.2
• ビッグXを探す
• 昔は,「巨人,大鵬,卵焼き」のように,嗜好が均一
• 最近では,価値観の多様化
• ダイレクトメールの送付でも,グループによって効果の程度が異なる
⇒ 顧客のセグメンテーション
• ビッグXを、公共政策などで導き出せる可能性は?
• データをきちんと取る
• ランダム化比較実験 (RCT) の応用
• 因果関係の確立により,税金の有効的活用を図る
• 日本は、統計学を使える人たちが少ない?
• 人材の育成が急務
• 日本の大学にも統計学科を
10
統計学の考え方-2.1
• 確率は不確かさの確かな尺度
• 不確かさ,不確実性の客観的定量的評価が確率
• データ = 数値 + 背景情報
• コンピュータにできるのは数値解析,データ解析ではない
• データ = 構造 + 偶然変動 (Y = f(X) + e)
• データ解析では,「偶然変動」とは,分析者がそうみなすものであって,も
ともとあるものではない
• データの持つ主要な部分(構造)とそうでもない部分(偶然変動と見なして
しまうもの)との切り分けが分析者の腕の見せ所
• 偶然変動項の大きさとの比較で構造部分の有意性は偶然変動項との比
較で評価
• 現状認識と,予測(統計モデルの重要性)
• 説明変数の個数が多ければ多いほど,現データへのモデルの当てはま
りはよくなる
• 未来のデータの予測に役立つかどうか ⇒ モデル選択 (AIC)
11
統計学の考え方-2.2
• 研究目的の設定
• データ収集法の立案:実験,観察研究,調査
• データの収集(モニタリング)
• データの電子化
• データのチェック(クリーニング),マージ
• データの集計とグラフ化(予備的検討):記述統計
• 統計的推測ないしは予測:推測統計
• 分析結果のプレゼンテーション:文書化,口頭発表
• 意思決定(終了もしくは最初に戻る)
12
統計学の考え方-2.3
• データを主体的に取る
目的:処置効果の評価
• 実験研究:データ取得の計画が研究者自らの手でできる
• 観察研究:データ取得の計画が研究者自らの手ではできない
目的:現状を把握し,今後の政策立案などに生かす
• 調査:全数調査,標本調査
• データが集まっている(集まって来る)
データマイニング:データベースからの知識発見
ビッグデータ:多種多様かつ無秩序でダイナミックな数値情報,
文字情報,映像情報などを整理し,そこから新たな価値を
生み出す.
• プライバシーへの配慮
13
女子学生の名前
• お茶大での2文字名前の比率
=19/43=44.2%
• 成蹊大での2文字名前の比率
=6/35=26.2%
お茶大 (12)
24
19
3文字 2文字
あかり あい
あつみ あや
あやか えり
かおり かな
かおる くみ
かなこ さき
くみこ
しほ
さおり まお
ちあき まな
ちあき みき
ともみ みさ
なつみ みさ
のぞみ みほ
はるか ゆか
はるか ゆみ
ひろこ りえ
みずき りお
みなこ りか
ゆうこ
りさ
ゆうこ
ゆきこ
ゆりか
りかこ
れいな
成蹊 (12)
29
6
3文字 2文字
あいみ えみ
あいり なお
あいり みお
あさこ ゆか
あすか ゆき
あすか りほ
あやこ
ありえ
あんな
あんな
えりこ
かおり
きょうこ
さくら
しょうこ
ともこ
ともこ
ともみ
ともみ
なつき
なつき
はるか
ひとみ
ひとみ
みつみ
みなみ
りえか
れいな
わかな
14
お茶大と成蹊大との比較
• お茶大:19/43=44.2%
• 成蹊大: 6/35=26.2%
• 統計的検定:もし両大学で2文字名前の比率が同じとしたら,こ
れ以上に差がある確率は0.0063でしかない.統計的に有意.
• 結論:お茶大と成蹊大では2文字名前の比率は異なるといえる
• お茶大のほうが2文字名前が入学しやすい?
15
過去8年間の推移
• 全体としては,両大学間で
顕著な差は見られない
• ではなぜ統計的検定で,
両大学間で差ありという
結果となったのか
• たまたま両大学で差が
大きい年に気づいた
• 結果を見てから検定してはならない
• 教訓:たまたまに過ぎない事を,あたかも真実のように思い
込んでしまう
16
女子学生と TOEIC
• ある大学における9学科の「女子学生比率」 (x) と「TOEIC の点
数の平均」 (y) との関係(相関係数 r = 0.80)
• 回帰直線 y = 305.71 + 1.96 x (%)
• 女子学生の比率が多いほど TOEIC の点数が高い,といえるか.
17
どう解釈すればいいのか
• 女子学生の比率が高いほど TOEIC の平均点が高いか
• どういうデータが必要か
• この例では,女子学生の TOEIC の点数が高い学科では,男
子学生の平均も高く,女子学生の平均の低い学科では男子
学生の平均も低い.
• 全体として,男女差はなし
• Ecological inference
集計データからの統計的
推測
18
相関と因果
• 回帰式:y = 300 + 2.0 x (%)
• x が1%大きいと,y は 2 だけ大きい
• x を1%増やせば,y は 2 だけ増える
• 相関関係 (correlation) :現状把握
• 因果関係 (causality) :将来の予測に有用
• 統計的因果推論 (statistical causal inference)
19
Ecological Inference の例
• 集計データ (aggregation data) に基
づく統計的推測
• 例(データ:総務省統計局)
• 平成14 年の若年労働者(15 歳-24
歳) 比率と完全失業率の相関
• 横軸:若年労働者/全労働者人口の比率
• 縦軸:全失業者数/ 全労働者人口の比率
• 各都道府県別のデータの相関係数
(ecological correlation) = 0.516
• 個人データからの相関係数
(individual correlation) = 0.061 失業者
15-24(歳) 25-65(歳)
661
2,985
就業者
6,291
57,238
計
6,952
60,223
計
3,646
63,529
67,175
20
Ecological Correlation (More Examples)
21
統計学の寄与
• 調査研究の効率化,客観化,妥当性の向上
• 研究目的の設定
• 現状把握,因果関係の確立,将来予測
• データ収集法の設計
• 実験研究,観察研究,調査(全数調査,標本調査)
• 調査法:単純無作為抽出,層化抽出,集落抽出
• サンプルサイズの設計
• データの集計,グラフ化
• 種々の統計グラフ
• 基本統計量の導出
• 統計的推論
• 各データ解析手法
22
具体的には
• 現状把握
• 標本調査(パネル調査):調査法の設計,サンプルサイズの決定
• 調査結果の集計とグラフ化
• 基本統計量の算出,各種統計グラフ
• 多変量解析手法
• 主成分分析,因子分析,クラスター分析
• 介入とその効果の予測
• 実験的な研究(主体的介入研究)
• 統計的モデリング
• 各種予測手法モデルに基づく)
• 重回帰分析,判別分析
• 客観的評価
23
Harvard University: Empirical
and Mathematical Reasoning
• Teach the conceptual and theoretical
tools used in reasoning and problem
solving, such as statistics, probability,
mathematics, logic, and decision
theory.
• Also learn how to make decisions and
draw inferences that involve the
evaluation of data and evidence, and
how to recognize when an issue
cannot be settled on the basis of the
available evidence.
24
Harvard University, Statistics 100
• Quantitative Reasoning
• 15 weeks (Sep – Jan)
• Lectures: Three times a week (Mon, Wed, Fri) 60 min each
• Sessions: Twice a week (by Teaching Fellow) 60 min each
• Homework: Eight times.
• Exams: Two one-hour exams and final exam (three hours)
• Project: Poster presentation
• Textbook: Moore, McCabe & Craig (2012) Introduction to
the Practice of Statistics, Seventh Edition. W.H. Freeman
and Co., New York. (Approx. 700 pages + CD-ROM)
25
統計検定 (2013)
• 日本統計学会公式認定
• 2013年11月17日(日)
• 試種目別合格率 (2012)
• 1級(統計学)記述式.120分(25/158=16%)
• 2級(統計学基礎)5択.90分(319/840=38%)
• 3級(データの分析)4択.60分( 390/658=60%)
• 4級(資料の活用)4択.60分( 43/62=70%)
• 統計調査士(統計調査実務の基礎知識)( 149/302=50%)
• 専門統計調査士(高度な専門的知識)( 107/205=52%)
26
統計検定 (2014) 予定
• 2014年5月23日(金)~25日(日):RSS/JSS試験
• Higher Certificate(日・英) + Graduate Diploma(英のみ)
• 2014年6月22日(日)
• 2級(統計学基礎),3級(データの分析),4級(資料の活用)
• 2014年11月30日(日)
• 1級(統計学),2級,3級,4級,専門統計調査士,統計調査士
• 学習マテリアル