第2章 データ分析の進め方

データ分析入門(2)
第2章 データ分析の進め方
廣野元久
1
本章の概要
データ分析の研究ポイント
データの正確さと新鮮さ
分析の正しさと論理の一貫性
結論の面白さ
ネットから先輩のリ
ポートを引用して、あ
たかも自分の結果だと
必要な作業と注意点
リポートを提出しない
事。
社会的ルール
厳罰に処す
人の研究をコピらないなど 人間性を疑う!!!
データ分析の手順
データの改ざん,うそ などは罰則
第2章 データ分析の進め方
廣野元久 &高橋行雄
2/45
1.データ分析の手順
結果の検討
研究テーマ選択
結論
仮説の設定
報告書作成
研究計画立案
データ収集
データ吟味
データ分析
第2章 データ分析の進め方
廣野元久 &高橋行雄
発表
フィードバック
軌道修正
3/45
2.テーマ選びと研究計画
2.1テーマの選択
2.2文献サーベイ
2.3研究仮説の設定
2.4研究計画の立案
2.4.1 研究デザイン
2.4.2 研究計画書
第2章 データ分析の進め方
廣野元久 &高橋行雄
4/45
2.1 テーマの選択(1)
テーマの絞り込み
樹形図でまとめると
分かりやすい
焼き魚
夕飯のメニュー
和食
中華
魚料理
肉料理
野菜料理
刺身
煮魚
第2章 データ分析の進め方
廣野元久 &高橋行雄
洋食
5/45
2.1 テーマの選択(2)
絞込みの基準ーーー>独創性
着眼点のおもしろさ
分析者にとって面白さがあるか
面白さを相手に伝えられるか
手本を参考に,自分の思い・考え・感じ方を
リポートする
自分以外に広める意義があるか
第2章 データ分析の進め方
廣野元久 &高橋行雄
6/45
2.1 テーマの選択(3)
マスコミに
ついて
TVが視聴者に
与える影響
大衆誌に対する
芸能人の対応
与党と新聞報
道のあり方
TV広告の商品
イメージ
キャラクターが与
える商品イメージ
・沖縄線は元気なアイドル女性が多いぞ
・スタミナドリンクは,ひょうきん親父系が多いぞ
・動物はどんなときに使われる
第2章 データ分析の進め方
廣野元久 &高橋行雄
7/45
2.1 テーマの選択(4)
紙ヘリコプタの設計を
テーマとして絞り込め
浮力の向上
紙コプタの設計
滞空時間
重力の抑制
重力と浮力のバランス
羽長/足長
回転力
羽の面積
重りの数
足の幅
羽の長さ
羽の形状
羽の幅
羽の角度
羽の形状
機体の重量
紙重量
紙ヘリコ
プターの作成
折り
/切取り
切り落とし
全長
羽長
足長
対称性
クリップ1個
297/4mm
第2章 データ分析の進め方
廣野元久 &高橋行雄
8/45
2.2 文献サーベイ
テーマの見通しが付いたら文献に当たる
先人の研究を手本とする
先人の手本を種にして発想を広げる
引用ではない
まねることでもない
色々な角度から文献に当たる
日本の工業製品は,既存のネタを組み合わ
せて 新しい物を生み出した結果,繁栄した
第2章 データ分析の進め方
廣野元久 &高橋行雄
9/45
2.3 研究仮説の設定
分析の結果
どの事柄について
具体的にどんな関係にあるか
定量的(数量分析)に知る
データ分析には年代的に
仮説に基づく確証的データ分析(CDA)
データに語らしめる探索的データ分析(EDA)
最近ではデータマイニング
第2章 データ分析の進め方
廣野元久 &高橋行雄
10/45
確証的データ分析(CDA)
Confirmatory Data Analysis
始めに研究仮説(Research Hypothesis)があり
それをデータ分析を通して確認するアプローチ
仮説が頓珍漢だと致命傷
独創性と頓珍漢とは違う
仮説検証に必要なデータを集める
得られたデータには無駄がないか
データ分析は目標に向かってまっしぐら
第2章 データ分析の進め方
廣野元久 &高橋行雄
11/45
研究仮説と作業仮説
研究仮説----課題を構造的に把握している
ラーメンの旨さ
研究仮説の素材
素材と調理法(研究仮説)
樹形図
作業仮説
(Working Hypothesis)
麺の太さ,固さ(湯で時間)
スープの素材(豚ガラ,玉葱,スパイス),調理法
親父の腕
チャーシューの味,枚数
第2章 データ分析の進め方
廣野元久 &高橋行雄
12/45
探索的データ分析(EDA)
仮説の見当がぼんやりとしか分からないとき
データに真実を語らせる 探索的データ分析
(Exploratory Data Analysis)
事後層別やグラフにより視覚化
Tukey(1977)らが提唱
データと分析者のフレンドリーな関係
まったく仮説がないと路頭に迷う
第2章 データ分析の進め方
廣野元久 &高橋行雄
13/45
2.4 研究計画の立案
仮説を想定したら,研究計画を立てる
どこで,どの順番で買出しするか,特選素材は?
2.4.1 研究のデザイン
2.4.2 研究計画書
(1)研究目的
(2)先行業績の検討
(3)研究の枠組み
(4)研究の内容と方法
(5)研究の意義
第2章 データ分析の進め方
廣野元久 &高橋行雄
14/45
2.4.1 研究のデザイン(1)
研究の目的や研究仮説に沿うように
データ収集の方法,分析方法を組み立てる
データ収集の近道(既存情報を頂く)
データベース(DB)の利用
新聞,雑誌,書籍,国勢調査,
新聞社,省庁の発行する統計データ本
民間団体の資料,調査会社のDB
第2章 データ分析の進め方
廣野元久 &高橋行雄
15/45
2.4.1 研究のデザイン(2)
データを自分たちで採る
時間,金,労力 がかかる
失敗するととり返しがつかない
私(廣野)の経験
学生時代,バスの運行遅延時間を半年に渡り測
定した
都市交通と待ち行列の応用
第2章 データ分析の進め方
廣野元久 &高橋行雄
16/45
2.4.2 研究計画書
研究計画書とは
研究をデザインし,
研究内容の重要性や妥当性をチェックするもの
そのためには
自分のアイデアや構想が相手に伝わる
明瞭簡潔 & 論理的
企業や研究機関では,研究予算を確保する
ために不可欠
読み手は必ずしも,その道のプロとは限らない
第2章 データ分析の進め方
廣野元久 &高橋行雄
17/45
ヘルシンキ宣言(臨床分野)
B. すべての医学研究のための基本原則
13. すべてヒトを対象とする実験手続の計画及び作
業内容は、実験計画書の中に明示されていなけ
ればならない。この計画書は、考察、論評、助言
及び適切な場合には承認を得るために、特別に
指名された倫理審査委員会に提出されなければ
ならない。後略
第2章 データ分析の進め方
廣野元久 &高橋行雄
18/45
(1) 研究の目的
研究の重要性,着眼点
具体的に何を対象として,
どんな分析をするか
どんな結果を得ることを目指すか
第2章 データ分析の進め方
廣野元久 &高橋行雄
19/45
(2) 先行業績の検討
先行業績の整理から
先行業績の問題点
残されている課題
自分の研究の位置づけ
自分の研究のオリジナリティの根拠
第2章 データ分析の進め方
廣野元久 &高橋行雄
20/45
(3)研究の枠組
研究の全体像
要素間の関係や作業分担
検討される主要な仮説
探索する範囲
第2章 データ分析の進め方
廣野元久 &高橋行雄
21/45
(4)研究の内容と方法
どんなデータを
どんな方法で収集し
どんな手法を使って分析するか
デザインと実施詳細にふれる
研究が対象や社会環境に与える影響を検
討し,回避案をまとめる
第2章 データ分析の進め方
廣野元久 &高橋行雄
22/45
研究計画のチェックポイント
その研究は本当に価値があるか
自身の前提知識は十分か
研究規模・内容は コスト,納期,能力,人員など無
理はないか
必要なデータは集まるか,もれはないか
分析手法にあてはあるか
面白い結論が得られるか
倫理的問題はないか
社会環境・自然に悪影響を及ぼさないか
第2章 データ分析の進め方
廣野元久 &高橋行雄
23/45
3.データの収集と分析(1)
3.1 データの収集
3.1.1 既成データの利用
3.1.2 調査と実験
3.2 調査・実験と研究者の倫理
3.3 収集したデータの吟味
3.3.1 データの吟味
3.3.2 問題が生じる原因と対策
第2章 データ分析の進め方
廣野元久 &高橋行雄
24/45
3.データの収集と分析(2)
3.4 分析と結果の検討
3.4.1 データの分析
3.4.2 分析結果の検討
3.4.3 結論を導く
第2章 データ分析の進め方
廣野元久 &高橋行雄
25/45
3.1 データの収集
データの収集とは ネタ の仕入れ
既存データの利用
新しくデータを取る
第2章 データ分析の進め方
廣野元久 &高橋行雄
26/45
3.1.1 既成データの利用(1)
データの出所は信頼できるか
週刊誌やワイドショウネタはとっても怪しい???
データの各項目の持つ意味や分類基準が
しっかり把握できているか
項目名は省略,短縮化されていたりする
分類基準がきちんとしているか
第2章 データ分析の進め方
廣野元久 &高橋行雄
27/45
3.1.1 既成データの利用(2)
多時点のデータを使う場合,定義や調査方
法に変更がありやなしや
同様な調査でも,5段階だったり,7段階だったり
設問や回答肢の言葉が違っていたり
同時に使うデータと整合性があるか
結構,整合つかないことが多い
異常値や欠測値はあるか
第2章 データ分析の進め方
廣野元久 &高橋行雄
28/45
3.1.1 既成データの利用(3)
どのような対象(属性)で調査されたか
データアーカイブ
インターネットでダウンロードできたりする
民間調査機関のデータは有料
第2章 データ分析の進め方
廣野元久 &高橋行雄
29/45
3.1.2 調査と実験
調査:受動,あるがままの状態を観察する
(Survey),世論調査,生態調査,市場調査
実験:能動:研究仮説に相応しいような場
を作りあげる
(Experiment),臨床試験,工業実験など
(実験計画法)
Fisherの農場実験が原点
第2章 データ分析の進め方
廣野元久 &高橋行雄
30/45
3.2 調査・実験と研究者の倫理
研究者の倫理
社会調査,環境調査では特に重要
プライバシーや人権(差別)
聞いてはいけない質問もある,
性,職業,学歴,収入などは十分な配慮が必要
生命の尊重,環境への配慮
調査公害(相手の負荷を理解する)
第2章 データ分析の進め方
廣野元久 &高橋行雄
31/45
3.3 収集したデータの吟味
3.3.1 データ吟味:データの品質をチェック
データの妥当性(Validity)
研究事象が数量化されているか
信頼性(Reliability)
誤差,欠測,異常値などないか
欠測(Missing Value):アンケート調査では多い
外れ値(Outlier):桁違いのデータ
異常値(Abnormal Value):研究のフレームから外れ
た原因で生じた桁違いのデータ
不良値(Defective Value):偶然誤差による
第2章 データ分析の進め方
廣野元久 &高橋行雄
32/45
3.3.2 問題が生じる原因と対策(1)
異常値,外れ値,などが生じた
データが異常な現実をそのまま反映した
バブル期の経済状況
オイルショック(年間で30%近い物価上昇)
戦争,地震,迷信
局所的な相互(相殺,相乗)作用があった
(技術では,このような特異な状況が大発見を生む)
第2章 データ分析の進め方
廣野元久 &高橋行雄
33/45
3.3.2 問題が生じる原因と対策(2)
異常値,外れ値,などが生じた
測定に問題があった
測定機器,測定者のミス
IC工程のプローブの接触状況により電気抵抗値異常
回答者のミス
回答者は,知らず知らず,知っていながらうそをつく
回答の方法を間違えた(選択肢の番号の誤りなど)
意図しない人が回答したミス
コピー機は購入者(管理職)と使用者(庶務)が違う
タバコを吸わない人にタバコのコマーシャルフィルムを見
せても不快感が募るだけ
第2章 データ分析の進め方
廣野元久 &高橋行雄
34/45
3.3.2 問題が生じる原因と対策(3)
異常値,外れ値,などが生じた
値の収集や処理に問題があった
タイプミスや無回答のコードをデータとする
アルバイトに集計(入力)させたら30行に1回ミスがあった
集計プログラム上のミス
機械の読み取りミスも意外にある
データクリーニング(Data Cleaning)
調査票やデータ表と突き合わせる
第2章 データ分析の進め方
廣野元久 &高橋行雄
35/45
治験の品質(例)
ICH‐E6,GCPのガイドライン
5. 治験依頼者
5.1 治験の品質保証及び品質管理
5.1.1
治験依頼者は、治験の実施並びにデータの作成、記録及び
報告が、治験実施計画書、GCP及び適用される規制要件を
遵守して行われることを保証するために、標準業務手順書に
基づく品質保証及び品質管理システムを履行し、保持する
責任を有する。
第2章 データ分析の進め方
廣野元久 &高橋行雄
36/45
データの品質
ICH‐E6,GCPのガイドライン
5.1.3
治験に関連する全てのデータの信頼性とその
適正な処理を保証するために、データ取扱い
の各段階に品質管理を適用するものとする。
第2章 データ分析の進め方
廣野元久 &高橋行雄
37/45
3.4 分析と結果の検討(1)
3.4.1 データの分析
仮
説
の
成
長
EDA,CDAではやり方が異なる
EDAでは,データを要約して,データの性格や
分かったことを積み上げる(試行錯誤)
層別(分類),グラフ化
関連性の発見,創造力の発揮(仮説発見)
CDAでは,仮説のチェック
仮説に基づく確認や仮説の修正(仮説検証)
第2章 データ分析の進め方
廣野元久 &高橋行雄
38/45
3.4.2 分析結果の検討(2)
内容の確からしさを検討し,
結果の妥当性と信頼性をチェック
分析手法の適用上の問題
分析手法にも性格がある,性格を把握する
専門的知識の問題
専門分野の知識として,結果が妥当か
データの信頼性
データの数と質(普遍的か),頑健性(Robustness)
第2章 データ分析の進め方
廣野元久 &高橋行雄
39/45
3.4.3 結論を導く
分析結果 から 結論(Conclusion) へ
結論から 含意(Implication) へ
料理でいうと盛り付け
研究結果への考察
大風呂敷を広げない(戯言にならないように)
残された問題についても触れる
謝辞や引用参考文献の整理も必要
第2章 データ分析の進め方
廣野元久 &高橋行雄
40/45
4.報告書とプレゼンテーション
料理の鉄人でいうところの試食
文章による報告(学会誌,書籍など)
論文の書き方(簡潔に、論理的に)
プレゼンテーション(学会,シンポジウムな
ど)
レジュメ(Resume),OHP,スライド,PPT
第2章 データ分析の進め方
廣野元久 &高橋行雄
41/45
4.1 報告書の書き方(1)
(1)研究の目的――簡潔に
重要性や着眼点
対象と目指すもの
(2)先行業績の検討
主な研究業績のトレースと残された課題
研究の位置付け,オリジナリティの根拠
(3)枠組み
全体像
主な仮説,取り上げる範囲
第2章 データ分析の進め方
廣野元久 &高橋行雄
42/45
4.1 報告書の書き方(2)
(4)利用データ
データの出典
調査や実験の概要
(5)分析
分析から観察された事実(定量評価)
仮説の実証性
(6)結論
全体的結論,考察,残された課題,今後の展開
引用物の著作権に注意する
第2章 データ分析の進め方
廣野元久 &高橋行雄
43/45
4.2 プレゼンテーション(1)
説得のテクニック
目的:報告,評価,教習,提案
形式:演説,講義,発表
効果的話術:構成,概要 (興味を引く出だし,充実した展開,満足の結論)
紹介の方法:適格性(主題),座長
発表時間:制限,質疑応答
施設:大きさ,場所,機能
聴衆:人数,性格,知識,参加態度(自主,義務)
視覚教具:枚数(OHP,スライド,PPT), 実物,模型,グラフ,図,表
印刷資料:準備,印刷,枚数,配布(前,随時,後)
日程:開催日,午前,午後,晩,休憩,食事との関係
第2章 データ分析の進め方
廣野元久 &高橋行雄
44/45
4.2 プレゼンテーション(2)
構成をねる,力の入れどころ抜きどころなど
予行演習, 声を出し,時間配分を調べる,友人の協力
修正,
不必要な図表 抜けた図表 のチェック
本番,
原稿のまる読みはしない
評価と反省
次回への収穫
自己評価と聴衆の反応
改善点の書き出し
第2章 データ分析の進め方
廣野元久 &高橋行雄
45/45