データ分析入門(1)

データ分析入門(1)
第1章:データ分析への招待
廣野元久
1
第1章の概要
実り豊かな数量データの分析のために
必要な知識と手法
難しい統計の理屈は抜きにして道筋を理解しよう
お宝の発見と効果
有効な方法論を自分でデータ分析することで
体得(実学)しよう
習得すべき能力
観察力を磨き,問題提起能力と,それを解決するための
センスを磨こう
第1章 データ分析への招待
廣野元久 &高橋行雄
2/28
1 なぜデータ分析するか 1/2
世の中の情報には, 数量データが多く見かけられる
ex.日経 環境経営度, 顧客満足調査,内閣支持率
離婚率,スポーツの成績 など
個人・企業・国家の行動決定の資料
リスクの計算, 予測,要約など
我々が毎日,食事を取るのと同様に,
数量データに基づいて,意思決定がなされている
誤った判断をしない(リスクを回避する)ために
データ分析を行い,その結果を判断に反映させる
第1章 データ分析への招待
廣野元久 &高橋行雄
3/28
1 なぜデータ分析するか 2/2
データは お宝が埋まっている金鉱脈
自身の目的にあった(お宝を採取するために),
データを選別し,データを要約するデータ分析が必要
杜氏がよい大吟醸をつくるために米を磨くようなもの
Mining で留まらない、もっとPolish upする
自然科学系の実験研究データ(仮説検証)
社会科学系の観察研究データ(調査,仮説探索)
第1章 データ分析への招待
廣野元久 &高橋行雄
4/28
なぜ臨床試験を行うか(例)
ヒトを対象とする医学研究の第一の目的は、
予防、診断及び治療方法の改善並びに疾
病原因及び病理の理解の向上にある。最
善であると証明された予防、診断及び治
療方法であっても、その有効性、効果、利
用し易さ及び質に関する研究を通じて、絶
えず再検証されなければならない。
http://www.med.or.jp/wma/helsinki02_j.html
第1章 データ分析への招待
廣野元久 &高橋行雄
5/28
2.データ分析に必要な知識
2.1 分析手法と理論
2.2 データ収集と研究計画
2.3 対象分野の事前知識と判断力
第1章 データ分析への招待
廣野元久 &高橋行雄
6/28
2.1 分析手法と理論
データ分析のツールは星の数ほどある
1変量の分析 ヒストグラム,棒グラフなど
2変量の分析 散布図,クロス表など
多変量の分析 主成分分析,回帰分析など
数量データの要約から因果関係へ
パス解析,共分散構造分析 など
計数データの要約,数量化
対応分析や対数線形モデルなど
第1章 データ分析への招待
廣野元久 &高橋行雄
7/28
JMPデータ分析例
(ユーザ提供フォルダ内の選挙データ2001より(V5.1Jから)
第1章 データ分析への招待
廣野元久 &高橋行雄
8/28
1変量の分析の例
(00年衆議院選挙,01年参議院の自民得票率)
‘I‹“”N=2000
O‹c‰@
ˆê •Ï—Ê‚Ì•ª•z
Ž©–¯“¾•[—¦
‘I‹“”N=2001Ž Q‹ cˆõ
ˆê •Ï—Ê‚Ì•ª•z
Ž©–¯“¾•[—¦
0.55
0.55
0.5
0.5
0.45
0.45
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
沖縄県
リンク機能
大都市を抱える都道府県を選択
得票率のヒストグラムで対応する領域が濃く表示される
ˆê •Ï —Ê‚Ì• ª•z
Œ §–¼
˜ a‰ ÌŽ R
–kŠC “¹
•ºŒ É
•Ÿ“ ‡
•Ÿ‰ ª
•Ÿˆ ä
•xŽ R
“Þ—Ç
“È–Ø
“¿ “ ‡
“Œ‹ž
“‡ 
ª
’¹Ž æ
’·–ì
’·
è
‘啪
‘å
ã
ç— t

Ώ

ì
É ª



X
_ “ ޏ

ì
V Šƒ

H“c

Ž ­Ž ™“ ‡
Ž ‰ ê
Ž R —œ
Ž R Œû
Ž R Œ`
ŽO
d
é‹ Ê

²‰ ê

‚’m


ì
L“ ‡

Œ Q”n
Œ F –{
‹ž“s
‹{ 
é
‹{ 
è
Šò•Œ
ŠâŽ è
‰ «“ê
‰ ªŽ R
ˆï 
é
ˆ¤ •Q
ˆ¤ ’m
1変量の分布を使い,自民党の得票率のヒストグラムを描画してみよう
00年より01年の選挙の方が自民党の得票率は伸びている
相対的に大都市を抱える都道府県では得票率は伸びていない
第1章 データ分析への招待
廣野元久 &高橋行雄
9/28
2変量の分析例
(00年衆議院選挙,01年参議院の自民VS共産)
‘I‹“”N=2001ŽQ‹cˆõ
‹¤ŽY“¾•[—¦‚ÆŽ©–¯“¾•[—¦‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
0.55
0.55
0.5
0.5
0.45
Ώ

ì
0.4
‚’m

0.35
0.3
0.25
0.2
‹ž“s
Ž©–¯“¾•[—¦
Ž©–¯“¾•[—¦
‘I‹“”N=2000
O‹c‰@
‹¤ŽY“¾•[—¦‚ÆŽ©–¯“¾•[—¦‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
0.45
0.35
“Œ‹ž
ŠâŽè ’·–ì ‘å
ã
‹ž“s
0.3
‰«“ê
0.2
0.15
. 025 . 05 . 075 . 1 . 125 . 15 . 175 . 2 . 225 . 25
0.15
. 025 . 05 . 075 . 1 . 125 . 15 . 175 . 2 . 225 . 25
‹¤ ŽY“¾ •[—¦
’¼ŒðŽ®‚ ‚Ä‚Í‚ß”ä=3.551
“ñ•Ï—ʏ
³ ‹K‘ȉ~ P=0.950
‚’m

0.4
0.25
ŠâŽè 
’·–ì
_“ޏ
ì
ã
“Œ‹ž‘å
Ώ

ì
‹¤ ŽY“¾ •[—¦
’¼ŒðŽ®‚ ‚Ä‚Í‚ß”ä=5.045
“ñ•Ï—ʏ
³ ‹K‘ȉ~ P=0.950
2変量の関係を使い主成分(直交回帰線)を追加した散布図
00年01年関わらず、得票率による都道府県の自民党VS共産党では,
負の相関関係(対立)が認められるが、01年は自民党が躍進している。
00年01年の比較では各県の相対的な布置は沖縄県以外ほぼ同じで
大都市圏の方が共産党の得票率は伸びている。
第1章 データ分析への招待
廣野元久 &高橋行雄
10/28
2変量の分析
(00年衆議院選挙,01年参議院の自民得票率)
‘I‹“”N=2001ŽQ‹cˆõ
—ñ 16‚É‚æ‚éŽ ©–¯“¾•[—¦‚Ìˆê Œ³”z’u •ª
Í
0.55
0.55
0.5
0.5
Ώ

ì
0.45
Ž©–¯“¾•[—¦
Ž©–¯“¾•[—¦
‘I‹“”N=2000
O‹c‰@
—ñ 16‚É‚æ‚éŽ ©–¯“¾•[—¦‚Ìˆê Œ³”z’u •ª
Í
0.4
‚’m

0.35
0.3
0.25
0.2

_“ޏ
‘å
ãì
“Œ‹ž
‹ž“s
ŠâŽè
’·–ì
0.15
1
2
“Š•[
” 150–œ•[‚Å‹æ
Ø‚é‚Æ
Ώ

ì
0.45
0.4
“Œ‹ž
‘å
ã
0.35
‚
’m
‹ž“s
’·–ì
ŠâŽè
0.3
‰«“ê
0.25
0.2
1
2
0.15
1
2
1
2
“Š •[ 
” 150–œ •[ ‚Å ‹æ 
Ø ‚é ‚Æ
2変量の関係を使い,投票数150万票で区切ったときの比較
相対的に大都市を抱える都道府県では自民党得票率は伸びていない
相対的に大都市を抱えていない都道府県でも,岩手,長野などでは
自民党が苦戦している.
01年では,沖縄県の自民党の得票率が伸びていない(基地移転問題?)
第1章 データ分析への招待
廣野元久 &高橋行雄
11/28
計数データの要約の例
(MA研究会(日科技連:休会)の研修での楽曲の対応分析)
Bell
2
ロマンチックな
メルヘンチックな
1.5
因子A;主旋律楽器
0
1
幸福な
0.5
不思議な
Va
青春ほい
-0.5
せっかちな 不調和な
軽薄な
-1
3
騒々しい
-1.5
Trp
調和した
5
0
暖かな 和らいだ
因子D
黄昏た
調性
のんびりした
朗々とした
-2
-2
-1.5
86
-1
-0.5
76
0
0.5
因子C;テンポ
第1章 データ分析への招待
廣野元久 &高橋行雄
1
1.5
2
66
12/28
2.1 分析手法と理論 (続き)
分析の目的にあった手法が必ずある
研究目的の難易度と
手法の難易度は一致しない
経済データやマーケットデータのアナリスト
は,定常的な分析ステップを持っている
データマイニングのステップ
工場の技術者も改善ステップを持っている
品質管理のステップではQCストーリ
第1章 データ分析への招待
廣野元久 &高橋行雄
13/28
2.1 分析手法と理論
データをミスリードしないためには,
データの背後にある背景の理解
豊富な専門知識(文献調査も重要)とセンス
正しい分析方法の選択と分析理論の理解
データをグラフで表示し,論理的な推察を
仮説の筋道に整合性があるか?
他人に,筋道が理解できる
論理に矛盾や飛躍がないか
第1章 データ分析への招待
廣野元久 &高橋行雄
データ分析は
論理学だ-ぁ
14/28
臨床試験での活用例
統計学のメジャーな応用分野の一つ
統計ガイドライン <ICH-E9>
http://www.nihs.go.jp/dig/ich/eindex.html
かなり難しいことが書いてある
しかし、基本は、データ分析プロジェクトと同じ
臨床試験の進行に合わせてひも解くと良い
第1章 データ分析への招待
廣野元久 &高橋行雄
15/28
2.2 データ収集と研究計画 1/3
実験研究と観察研究では違う
主に観察研究の場合を学習しよう
観察研究ではデータとその収集方法の知
識が重要となる
第1章 データ分析への招待
廣野元久 &高橋行雄
16/28
2.2 データ収集と研究計画 2/3
すでにデータがある場合
(冷蔵庫の食材で料理を作る)
自分の目的にふさわしいデータか
(今日の献立に必要な食材を選び)
データの素性に不確かなものはないか
(腐ったり,鮮度の落ちた食材でないかチェック)
データを集めて,どうしようではデータ分析できない
(食材を並べて,いきなり調理はできない)
実社会では、これが一番多い
料理が苦手な人は食材ならべた途端
台所でパニくるって事ありませんか?
第1章 データ分析への招待
廣野元久 &高橋行雄
17/28
2.2 データ収集と研究計画 3/3
これからデータを収集する場合
(デパートの地下で食材を購入し,料理する)
はじめに,見通しを立てる
(料理の献立を考える)
必要なデータは何か(不足情報はなにか)
(必要な食材を洗い出す)
データの収集(場所,測定するもの,測定者など)
(買い出し)
第1章 データ分析への招待
廣野元久 &高橋行雄
18/28
臨床研究の方法(例)
第1章 データ分析への招待
廣野元久 &高橋行雄
19/28
2.3 対象分野の事前知識と判断力
ミスリードを察知する
前提情報が多いほど過ちを防ぐことができる
プロといわれる人は,知識が豊富
素人は, まず事前情報や関連情報を集めてみる
チュ-ボーですよ! では,お手本のシェフがいる
料理の本を参考にすれば,無駄な努力は減る
「データ分析入門」を参考に
星3つを目指そう
第1章 データ分析への招待
廣野元久 &高橋行雄
20/28
3.この教科書で学ぶこと
3.1事前知識と
使用するコンピュータソフトウエア
3.2学ぶ内容
3.3さらに深く学習するために
第1章 データ分析への招待
廣野元久 &高橋行雄
21/28
3.1 事前知識と使用する
コンピュータソフトウエア 1/2
データ分析の入門書(入り口)
Windowsの基礎知識が必要
(操作できればよいレベル)
JMP5Jを分析ツールとして利用する
教科書は,必ず購入する(版が変わる)
PCは購入して欲しい(授業にPCは不可欠)
第1章 データ分析への招待
廣野元久 &高橋行雄
22/28
3.1 事前知識と使用する
コンピュータソフトウエア 2/2
データ分析の背後にある統計的な考え方,アプロー
チについて触れるが,直感的に理解できるように教
科書は工夫されている
教科書(データ分析入門第5版)&JMP 5.1Jor5.0J
数学的知識は最小限
「データ分析入門」で,エッセンスを習得してから,
数理統計を学んでも遅くない
数理的内容は統計解析の入門書を参考にして!
データ分析ツールを使い1本の報告書を作成する
第1章 データ分析への招待
廣野元久 &高橋行雄
23/28
3.2 本書の内容
(データ分析入門:慶応義塾大学出版)
データ分析という作業全体の見通し
2章,3章&9章 必要なステージとその作業内容
データを視覚的に表現する
ばらつきの活用
4章 視覚化の方法, 5章 JMPの導入
6章 JMPの操作
関連性の発見
8章,10章 2つの項目間の関連を調べる
11章,12章,13章,少し高度な方法
第1章 データ分析への招待
廣野元久 &高橋行雄
24/28
3.3 さらに深く学習するために
統計的
推定
統計的
検定論
データ
分析
実験
計画法
経済
分析
尺度
構成
JMPでできる多変量解析
・主成分分析
・対応分析
・クラスター分析
・判別分析
多変量 ・決定木(パーティション)
解析
・重回帰分析
・PLS
・ニューラルネット
・項目分析
・非線形回帰分析
・生存時間分析
・時系列解析
第1章 データ分析への招待
廣野元久 &高橋行雄
25/28
臨床分野 1/2
http://www.nihs.go.jp/dig/ich/eindex.html
第1章 データ分析への招待
廣野元久 &高橋行雄
26/28
臨床分野 2/2
第1章 データ分析への招待
廣野元久 &高橋行雄
27/28
4.データ分析プロジェクト
目的
データ分析を学ぶこと
1つのデータ分析プロジェクトを完成させること
プロセス(やりかた・感じかた)
取り上げる内容は,自分の手におえる範囲で選ぶ
道具
JMP(統計ツール) Excel など
教室と友人の中にある
結果
素直にプロジェクトをすすめ,ふりかえりをおこなおう
自分の思い・考え・感じ方を論理的に伝える訓練
第1章 データ分析への招待
廣野元久 &高橋行雄
28/28