データ分析入門(2) 第2章 データ分析の進め方 廣野元久 1 本章の概要 データ分析の研究ポイント データの正確さと新鮮さ 分析の正しさと論理の一貫性 結論の面白さ ネットから先輩のリ ポートを引用して、あ たかも自分の結果だと 必要な作業と注意点 リポートを提出しない 事。 社会的ルール 厳罰に処す 人の研究をコピらないなど 人間性を疑う!!! データ分析の手順 データの改ざん,うそ などは罰則 第2章 データ分析の進め方 廣野元久 &高橋行雄 2/45 1.データ分析の手順 結果の検討 研究テーマ選択 結論 仮説の設定 報告書作成 研究計画立案 データ収集 データ吟味 データ分析 第2章 データ分析の進め方 廣野元久 &高橋行雄 発表 フィードバック 軌道修正 3/45 2.テーマ選びと研究計画 2.1テーマの選択 2.2文献サーベイ 2.3研究仮説の設定 2.4研究計画の立案 2.4.1 研究デザイン 2.4.2 研究計画書 第2章 データ分析の進め方 廣野元久 &高橋行雄 4/45 2.1 テーマの選択(1) テーマの絞り込み 樹形図でまとめると 分かりやすい 焼き魚 夕飯のメニュー 和食 中華 魚料理 肉料理 野菜料理 刺身 煮魚 第2章 データ分析の進め方 廣野元久 &高橋行雄 洋食 5/45 2.1 テーマの選択(2) 絞込みの基準ーーー>独創性 着眼点のおもしろさ 分析者にとって面白さがあるか 面白さを相手に伝えられるか 手本を参考に,自分の思い・考え・感じ方を リポートする 自分以外に広める意義があるか 第2章 データ分析の進め方 廣野元久 &高橋行雄 6/45 2.1 テーマの選択(3) マスコミに ついて TVが視聴者に 与える影響 大衆誌に対する 芸能人の対応 与党と新聞報 道のあり方 TV広告の商品 イメージ キャラクターが与 える商品イメージ ・沖縄線は元気なアイドル女性が多いぞ ・スタミナドリンクは,ひょうきん親父系が多いぞ ・動物はどんなときに使われる 第2章 データ分析の進め方 廣野元久 &高橋行雄 7/45 2.1 テーマの選択(4) 紙ヘリコプタの設計を テーマとして絞り込め 浮力の向上 紙コプタの設計 滞空時間 重力の抑制 重力と浮力のバランス 羽長/足長 回転力 羽の面積 重りの数 足の幅 羽の長さ 羽の形状 羽の幅 羽の角度 羽の形状 機体の重量 紙重量 紙ヘリコ プターの作成 折り /切取り 切り落とし 全長 羽長 足長 対称性 クリップ1個 297/4mm 第2章 データ分析の進め方 廣野元久 &高橋行雄 8/45 2.2 文献サーベイ テーマの見通しが付いたら文献に当たる 先人の研究を手本とする 先人の手本を種にして発想を広げる 引用ではない まねることでもない 色々な角度から文献に当たる 日本の工業製品は,既存のネタを組み合わ せて 新しい物を生み出した結果,繁栄した 第2章 データ分析の進め方 廣野元久 &高橋行雄 9/45 2.3 研究仮説の設定 分析の結果 どの事柄について 具体的にどんな関係にあるか 定量的(数量分析)に知る データ分析には年代的に 仮説に基づく確証的データ分析(CDA) データに語らしめる探索的データ分析(EDA) 最近ではデータマイニング 第2章 データ分析の進め方 廣野元久 &高橋行雄 10/45 確証的データ分析(CDA) Confirmatory Data Analysis 始めに研究仮説(Research Hypothesis)があり それをデータ分析を通して確認するアプローチ 仮説が頓珍漢だと致命傷 独創性と頓珍漢とは違う 仮説検証に必要なデータを集める 得られたデータには無駄がないか データ分析は目標に向かってまっしぐら 第2章 データ分析の進め方 廣野元久 &高橋行雄 11/45 研究仮説と作業仮説 研究仮説----課題を構造的に把握している ラーメンの旨さ 研究仮説の素材 素材と調理法(研究仮説) 樹形図 作業仮説 (Working Hypothesis) 麺の太さ,固さ(湯で時間) スープの素材(豚ガラ,玉葱,スパイス),調理法 親父の腕 チャーシューの味,枚数 第2章 データ分析の進め方 廣野元久 &高橋行雄 12/45 探索的データ分析(EDA) 仮説の見当がぼんやりとしか分からないとき データに真実を語らせる 探索的データ分析 (Exploratory Data Analysis) 事後層別やグラフにより視覚化 Tukey(1977)らが提唱 データと分析者のフレンドリーな関係 まったく仮説がないと路頭に迷う 第2章 データ分析の進め方 廣野元久 &高橋行雄 13/45 2.4 研究計画の立案 仮説を想定したら,研究計画を立てる どこで,どの順番で買出しするか,特選素材は? 2.4.1 研究のデザイン 2.4.2 研究計画書 (1)研究目的 (2)先行業績の検討 (3)研究の枠組み (4)研究の内容と方法 (5)研究の意義 第2章 データ分析の進め方 廣野元久 &高橋行雄 14/45 2.4.1 研究のデザイン(1) 研究の目的や研究仮説に沿うように データ収集の方法,分析方法を組み立てる データ収集の近道(既存情報を頂く) データベース(DB)の利用 新聞,雑誌,書籍,国勢調査, 新聞社,省庁の発行する統計データ本 民間団体の資料,調査会社のDB 第2章 データ分析の進め方 廣野元久 &高橋行雄 15/45 2.4.1 研究のデザイン(2) データを自分たちで採る 時間,金,労力 がかかる 失敗するととり返しがつかない 私(廣野)の経験 学生時代,バスの運行遅延時間を半年に渡り測 定した 都市交通と待ち行列の応用 第2章 データ分析の進め方 廣野元久 &高橋行雄 16/45 2.4.2 研究計画書 研究計画書とは 研究をデザインし, 研究内容の重要性や妥当性をチェックするもの そのためには 自分のアイデアや構想が相手に伝わる 明瞭簡潔 & 論理的 企業や研究機関では,研究予算を確保する ために不可欠 読み手は必ずしも,その道のプロとは限らない 第2章 データ分析の進め方 廣野元久 &高橋行雄 17/45 ヘルシンキ宣言(臨床分野) B. すべての医学研究のための基本原則 13. すべてヒトを対象とする実験手続の計画及び作 業内容は、実験計画書の中に明示されていなけ ればならない。この計画書は、考察、論評、助言 及び適切な場合には承認を得るために、特別に 指名された倫理審査委員会に提出されなければ ならない。後略 第2章 データ分析の進め方 廣野元久 &高橋行雄 18/45 (1) 研究の目的 研究の重要性,着眼点 具体的に何を対象として, どんな分析をするか どんな結果を得ることを目指すか 第2章 データ分析の進め方 廣野元久 &高橋行雄 19/45 (2) 先行業績の検討 先行業績の整理から 先行業績の問題点 残されている課題 自分の研究の位置づけ 自分の研究のオリジナリティの根拠 第2章 データ分析の進め方 廣野元久 &高橋行雄 20/45 (3)研究の枠組 研究の全体像 要素間の関係や作業分担 検討される主要な仮説 探索する範囲 第2章 データ分析の進め方 廣野元久 &高橋行雄 21/45 (4)研究の内容と方法 どんなデータを どんな方法で収集し どんな手法を使って分析するか デザインと実施詳細にふれる 研究が対象や社会環境に与える影響を検 討し,回避案をまとめる 第2章 データ分析の進め方 廣野元久 &高橋行雄 22/45 研究計画のチェックポイント その研究は本当に価値があるか 自身の前提知識は十分か 研究規模・内容は コスト,納期,能力,人員など無 理はないか 必要なデータは集まるか,もれはないか 分析手法にあてはあるか 面白い結論が得られるか 倫理的問題はないか 社会環境・自然に悪影響を及ぼさないか 第2章 データ分析の進め方 廣野元久 &高橋行雄 23/45 3.データの収集と分析(1) 3.1 データの収集 3.1.1 既成データの利用 3.1.2 調査と実験 3.2 調査・実験と研究者の倫理 3.3 収集したデータの吟味 3.3.1 データの吟味 3.3.2 問題が生じる原因と対策 第2章 データ分析の進め方 廣野元久 &高橋行雄 24/45 3.データの収集と分析(2) 3.4 分析と結果の検討 3.4.1 データの分析 3.4.2 分析結果の検討 3.4.3 結論を導く 第2章 データ分析の進め方 廣野元久 &高橋行雄 25/45 3.1 データの収集 データの収集とは ネタ の仕入れ 既存データの利用 新しくデータを取る 第2章 データ分析の進め方 廣野元久 &高橋行雄 26/45 3.1.1 既成データの利用(1) データの出所は信頼できるか 週刊誌やワイドショウネタはとっても怪しい??? データの各項目の持つ意味や分類基準が しっかり把握できているか 項目名は省略,短縮化されていたりする 分類基準がきちんとしているか 第2章 データ分析の進め方 廣野元久 &高橋行雄 27/45 3.1.1 既成データの利用(2) 多時点のデータを使う場合,定義や調査方 法に変更がありやなしや 同様な調査でも,5段階だったり,7段階だったり 設問や回答肢の言葉が違っていたり 同時に使うデータと整合性があるか 結構,整合つかないことが多い 異常値や欠測値はあるか 第2章 データ分析の進め方 廣野元久 &高橋行雄 28/45 3.1.1 既成データの利用(3) どのような対象(属性)で調査されたか データアーカイブ インターネットでダウンロードできたりする 民間調査機関のデータは有料 第2章 データ分析の進め方 廣野元久 &高橋行雄 29/45 3.1.2 調査と実験 調査:受動,あるがままの状態を観察する (Survey),世論調査,生態調査,市場調査 実験:能動:研究仮説に相応しいような場 を作りあげる (Experiment),臨床試験,工業実験など (実験計画法) Fisherの農場実験が原点 第2章 データ分析の進め方 廣野元久 &高橋行雄 30/45 3.2 調査・実験と研究者の倫理 研究者の倫理 社会調査,環境調査では特に重要 プライバシーや人権(差別) 聞いてはいけない質問もある, 性,職業,学歴,収入などは十分な配慮が必要 生命の尊重,環境への配慮 調査公害(相手の負荷を理解する) 第2章 データ分析の進め方 廣野元久 &高橋行雄 31/45 3.3 収集したデータの吟味 3.3.1 データ吟味:データの品質をチェック データの妥当性(Validity) 研究事象が数量化されているか 信頼性(Reliability) 誤差,欠測,異常値などないか 欠測(Missing Value):アンケート調査では多い 外れ値(Outlier):桁違いのデータ 異常値(Abnormal Value):研究のフレームから外れ た原因で生じた桁違いのデータ 不良値(Defective Value):偶然誤差による 第2章 データ分析の進め方 廣野元久 &高橋行雄 32/45 3.3.2 問題が生じる原因と対策(1) 異常値,外れ値,などが生じた データが異常な現実をそのまま反映した バブル期の経済状況 オイルショック(年間で30%近い物価上昇) 戦争,地震,迷信 局所的な相互(相殺,相乗)作用があった (技術では,このような特異な状況が大発見を生む) 第2章 データ分析の進め方 廣野元久 &高橋行雄 33/45 3.3.2 問題が生じる原因と対策(2) 異常値,外れ値,などが生じた 測定に問題があった 測定機器,測定者のミス IC工程のプローブの接触状況により電気抵抗値異常 回答者のミス 回答者は,知らず知らず,知っていながらうそをつく 回答の方法を間違えた(選択肢の番号の誤りなど) 意図しない人が回答したミス コピー機は購入者(管理職)と使用者(庶務)が違う タバコを吸わない人にタバコのコマーシャルフィルムを見 せても不快感が募るだけ 第2章 データ分析の進め方 廣野元久 &高橋行雄 34/45 3.3.2 問題が生じる原因と対策(3) 異常値,外れ値,などが生じた 値の収集や処理に問題があった タイプミスや無回答のコードをデータとする アルバイトに集計(入力)させたら30行に1回ミスがあった 集計プログラム上のミス 機械の読み取りミスも意外にある データクリーニング(Data Cleaning) 調査票やデータ表と突き合わせる 第2章 データ分析の進め方 廣野元久 &高橋行雄 35/45 治験の品質(例) ICH‐E6,GCPのガイドライン 5. 治験依頼者 5.1 治験の品質保証及び品質管理 5.1.1 治験依頼者は、治験の実施並びにデータの作成、記録及び 報告が、治験実施計画書、GCP及び適用される規制要件を 遵守して行われることを保証するために、標準業務手順書に 基づく品質保証及び品質管理システムを履行し、保持する 責任を有する。 第2章 データ分析の進め方 廣野元久 &高橋行雄 36/45 データの品質 ICH‐E6,GCPのガイドライン 5.1.3 治験に関連する全てのデータの信頼性とその 適正な処理を保証するために、データ取扱い の各段階に品質管理を適用するものとする。 第2章 データ分析の進め方 廣野元久 &高橋行雄 37/45 3.4 分析と結果の検討(1) 3.4.1 データの分析 仮 説 の 成 長 EDA,CDAではやり方が異なる EDAでは,データを要約して,データの性格や 分かったことを積み上げる(試行錯誤) 層別(分類),グラフ化 関連性の発見,創造力の発揮(仮説発見) CDAでは,仮説のチェック 仮説に基づく確認や仮説の修正(仮説検証) 第2章 データ分析の進め方 廣野元久 &高橋行雄 38/45 3.4.2 分析結果の検討(2) 内容の確からしさを検討し, 結果の妥当性と信頼性をチェック 分析手法の適用上の問題 分析手法にも性格がある,性格を把握する 専門的知識の問題 専門分野の知識として,結果が妥当か データの信頼性 データの数と質(普遍的か),頑健性(Robustness) 第2章 データ分析の進め方 廣野元久 &高橋行雄 39/45 3.4.3 結論を導く 分析結果 から 結論(Conclusion) へ 結論から 含意(Implication) へ 料理でいうと盛り付け 研究結果への考察 大風呂敷を広げない(戯言にならないように) 残された問題についても触れる 謝辞や引用参考文献の整理も必要 第2章 データ分析の進め方 廣野元久 &高橋行雄 40/45 4.報告書とプレゼンテーション 料理の鉄人でいうところの試食 文章による報告(学会誌,書籍など) 論文の書き方(簡潔に、論理的に) プレゼンテーション(学会,シンポジウムな ど) レジュメ(Resume),OHP,スライド,PPT 第2章 データ分析の進め方 廣野元久 &高橋行雄 41/45 4.1 報告書の書き方(1) (1)研究の目的――簡潔に 重要性や着眼点 対象と目指すもの (2)先行業績の検討 主な研究業績のトレースと残された課題 研究の位置付け,オリジナリティの根拠 (3)枠組み 全体像 主な仮説,取り上げる範囲 第2章 データ分析の進め方 廣野元久 &高橋行雄 42/45 4.1 報告書の書き方(2) (4)利用データ データの出典 調査や実験の概要 (5)分析 分析から観察された事実(定量評価) 仮説の実証性 (6)結論 全体的結論,考察,残された課題,今後の展開 引用物の著作権に注意する 第2章 データ分析の進め方 廣野元久 &高橋行雄 43/45 4.2 プレゼンテーション(1) 説得のテクニック 目的:報告,評価,教習,提案 形式:演説,講義,発表 効果的話術:構成,概要 (興味を引く出だし,充実した展開,満足の結論) 紹介の方法:適格性(主題),座長 発表時間:制限,質疑応答 施設:大きさ,場所,機能 聴衆:人数,性格,知識,参加態度(自主,義務) 視覚教具:枚数(OHP,スライド,PPT), 実物,模型,グラフ,図,表 印刷資料:準備,印刷,枚数,配布(前,随時,後) 日程:開催日,午前,午後,晩,休憩,食事との関係 第2章 データ分析の進め方 廣野元久 &高橋行雄 44/45 4.2 プレゼンテーション(2) 構成をねる,力の入れどころ抜きどころなど 予行演習, 声を出し,時間配分を調べる,友人の協力 修正, 不必要な図表 抜けた図表 のチェック 本番, 原稿のまる読みはしない 評価と反省 次回への収穫 自己評価と聴衆の反応 改善点の書き出し 第2章 データ分析の進め方 廣野元久 &高橋行雄 45/45
© Copyright 2024 ExpyDoc