データ分析入門(9) 第9章 データの品質 廣野 元久 1 本章の概要 測定の誤差が生じる要因 誤差は分析結果を歪める 他人の収集データの誤差つき方の認識 誤差の回避方法 調査計画と誤差の回避法 実験計画と誤差の回避法 第9章 データの品質 廣野元久 &高橋行雄 2/31 1.誤差の種類とデータの品質(1) 1.1 データのばらつき データは誤差(Error)を持つ:小泉政権の支持率 1.2 誤差の種類:かたよりとばらつき 観測値=真値+誤差(真値は不明が多い) 誤差には 系統誤差:偏り(Bias) 偶然誤差:残差 =平均値-真値 =観測値-平均値 データの構造 観測値=真値+偏り+残差 =真値+(平均値-真値)+(観測値-平均値) 正確さ 精密さ 第9章 データの品質 廣野元久 &高橋行雄 3/31 1.誤差の種類とデータの品質(2) 正確な データ 正確でな いデータ 平均値 平均値 測定の散らばり 測定の散らばり 偏り 真の値 真の値(偏りが0) 測定器:標準器に対して,通常使う測定器固有の偏り があるとき正確でないデータとなる 第9章 データの品質 廣野元久 &高橋行雄 4/31 1.誤差の種類とデータの品質(3) 精密でな いデータ 精密な データ 平均値 平均値 測定の散らばり 観測値A 真の値 測定の散らばり 観測値A の残差 標準偏差が小さい 標準偏差が大きい 第9章 データの品質 廣野元久 &高橋行雄 5/31 2.データの収集方法が品質に与える影響 データ収集者 データをどのように収集したのかを記録した、 データヒストリーを記録する 分析者 データヒストリーを吟味してから分析に入る どっちの料理でしょうでは、 特選素材を提供する仕事人のヒストリー 特選素材を使ったシェフの料理の進行 を楽しむことができる 第9章 データの品質 廣野元久 &高橋行雄 6/31 2.1 統計データの品質 第一義統計:素材が新鮮 第二義統計:加工食材 全数調査:原則的に誤差はない(除く、回答もれなど) 標本調査:標本抽出による誤差が生じる すでにある誤差を取り除くことは困難 データの信憑性の限界を考えておく 国の安定度、裕福さによってもデータの信憑性は 異なる 昔の共産圏の国々のデータは、その政策上、あやし げだった 第9章 データの品質 廣野元久 &高橋行雄 7/31 2.2実験・調査データの品質 データの正確さ 抽出された集団の代表性 設問配置、方法、調査の言葉使い 被験者、評価者の思い込み、バイアス データの精密さ 標本の大きさ 実験環境の設定 測定技術 質問文の曖昧さ 第9章 データの品質 廣野元久 &高橋行雄 8/31 3.データの品質を保つ収集の技術 3.1 調査対象の抽出 多くの場合、全数調査は困難 経済的、時間的、効率的、実際的に難しい 工業製品は、一部抜き取り検査で品質を保証 信頼性の高い製品では、無検査で市場に出る 対象全体(母集団)から標本をランダム抽出する 標本調査が現実的 対象全体が反映されるような標本を抽出する(代表 性) 対象中の要素が偏りなく、平等に選ばれる 統計の神様は冷淡 第9章 データの品質 廣野元久 &高橋行雄 9/31 3.1 調査対象の抽出 標本抽出 母 集 団 臨床試験では ランダム割付 標本 計測 データ 統計処理 アクション 情報 評論 考察 研究対象 母集団はどんな性質をもっているか 母集団の状態はどうなっているか 第9章 データの品質 廣野元久 &高橋行雄 10/31 3.1.1抽出された集団の代表性 社会調査における集団の代表性 無作為抽出、ランダム抽出 選ばれ方が平等 他の要素に無関係に選ばれる 統計の神様は冷淡 ランダム抽出と場当たり抽出とは違う 実験における集団の代表性 仮説検証(自分のアイデアを証明する)素材 一般性が成り立つ限界の把握 再現性があるかどうかのチェック 何を研究対象:母集団としているのか? 明確に定義しておく 第9章 データの品質 廣野元久 &高橋行雄 11/31 3.1.2 標本の大きさ(1) •標本の大きさ(サンプルサイズ)を増やせば、精密 •大数の法則 •調査では、標本の大きさが30以上の大標本を使う •標本から求めた平均値や比率などの特性値は、標本数n により精度が増す 1/√n n=1に対する 標準誤差の比 確率 標本数による標準誤差の精度 中心極限定理による標準誤差の変化のようす 0.2 1 標準誤差の比 0.9 0.18 0.8 0.16 0.7 0.14 n=1 n=2 n=4 n=10 n=50 n=100 0.12 0.1 0.6 0.5 0.08 0.4 0.06 0.3 0.04 0.2 0.02 0.1 0 0 -3 0 50 100 150 200 -2 250標本数 第9章 データの品質 廣野元久 &高橋行雄 -1 0 1 標準化距離;u=(χ-μ)/σ 2 3 12/31 3.1.2 標本の大きさ(2) 標本の大きさを考える:95%信頼区間 比率p=r/nの母集団の分布はnが大きい ときには正規分布に近似できる 平均値 p 測定の散らばり 0.025 0.025 この幅をある値にするために標本数を決める 第9章 データの品質 廣野元久 &高橋行雄 13/31 3.1.2 標本の大きさ(3) PL pˆ 1.96 1 pˆ pˆ pˆ pˆ 1.96 1 pˆ pˆ p n n U 1 1 pˆ 0.5 pˆ 1.96 0.5 pˆ pˆ 1.96 0.5 n n 0.98 0.1 n 96 n 0.98 0.98 0.98 pˆ pˆ pˆ 0.05 n 384 n n n 0.98 0.03 n 1067 n 第9章 データの品質 廣野元久 &高橋行雄 14/31 予防率の信頼区間 タミフル群 プラセボ群 2人 / 155人 1.3% 13人 / 153人 8.5% 二項分布 二項分布 0.30 0.15 0.25 0.20 0.10 0.15 0.10 0.05 0.05 第9章 データの品質 廣野元久 &高橋行雄 30 28 26 24 22 20 18 16 14 12 8 10 6 4 2 0 30 28 26 24 22 20 18 16 14 12 8 10 6 4 2 0.00 0 0.00 15/31 Excelの計算シート 第9章 データの品質 廣野元久 &高橋行雄 16/31 95%の正確な信頼区間 タミフル群 2人 / 155人 1.3% 95%下限 = 0.002 = 0.2% 95%上限 = 0.040 = 4.0% プラセボ群 13人 / 153人 8.5% 95%下限 = 0.051 = 5.1% 95%上限 = 0.140 = 14.0% 第9章 データの品質 廣野元久 &高橋行雄 17/31 3.1.3 調査票の配布と回収 調査票は100%回収されない 企業のCS(顧客満足度)調査が50%強で上出来 設問が多ければ回答しない 謝礼やお礼の粗品を工夫する 分からないから何でも聞くという態度は賢明ではない みんな忙しいので,回答のお願いをはがき等で出す 粗品と一緒に調査票を配る お願いの手紙を添える 分析結果を何がしかの方法で公開する旨を示す 責任者の連絡先を明記する 調査票の配布,電話,直接面談 服装,言葉使いには十分気をつける 第9章 データの品質 廣野元久 &高橋行雄 18/31 3.2実験環境の設定 3.2.1 実験計画 料理も段取りが大切!!,段取りが悪いとパニックになる 実験を行う場合には,何がしかの仮説があるので段取 りをきちんと行う 科学的段取り方法として,実験計画法がある 実験計画法 局所管理(実験条件の管理) ランダマイズ 仮説を確認する要因以外の条件は,できるだけ同じにする 実験の順番は,偶然誤差だけが抽出されるように無作為に行 う 水準設定の繰り返し,あるいは反復 第9章 データの品質 廣野元久 &高橋行雄 19/31 3.2.1 実験計画 新薬の実験計画 新薬を投与する群 :実験群 にせ薬(プラセボ)を投与する群:統制群,対照群 薬の効果,安全性を調べる 実験群は複数用意することもある ある英国貴婦人はミルクティを作るのに 1)はじめにミルクを入れる 2)次いで熱い紅茶を入れる 1),2)の順序が逆だとうっまずい(邪道という!!) 本当に1),2)の順番と2),1)の順番で差が分かるのか? 実験を計画してみよう 第9章 データの品質 廣野元久 &高橋行雄 20/31 3.2.2 精密な測定 計測器の出力の桁数が多いと精密と思いがちだ が,きちんと測られている保証はない. 高い測定機器が精度が良いわけではない 昔,波形を測定する(回路のノイズ)のに2つの測定器の 精度を比較したら,表示桁数の少ない旧式の方が精度 が良かった. 実験装置や測り方や測る人を工夫する 測定機器の精度の限界を理解しておく 第9章 データの品質 廣野元久 &高橋行雄 21/31 3.2.3 客観的な測定 評価に恣意が入らないように注意する ある会社で,自社とライバル会社のコピー機の画質の 比較をした. パイロットのヒューマンエラーを調べたら 設計者は自社を甘く,ライバル会社を厳しく評価しがちであった 検査者は自社を厳しく,ライバル会社を甘く評価しがちであった パイロットのミスはほとんどゼロになった. 実際は80%はヒューマンエラーだった パイロットは査定されると思い,無意識に自己防衛した 新薬では,二重盲検(マスキング法)を行う 患者も,薬を投与する先生も,どちらが新薬でどちらがプラセボ か分からないように実験する 第9章 データの品質 廣野元久 &高橋行雄 22/31 3.3 設問の配置や方法 人は,ちょっとしたことに反応(気分を害する)する 相手に失礼や誤解がないような設問,質問の仕方をする 学歴,年齢などプライバシーに関る質問には十分な配慮 調査票の最後に配置し,もしよろしければ・・…を加える 回答に偏りや不必要なばらつきが生じないようにする 設問,質問は,単文で,分かりやすい言葉を使う 設問,質問には,主語である,あなたは…・とする 若者言葉や口語調の言いまわしはしない 第9章 データの品質 廣野元久 &高橋行雄 23/31 3.3.1 設問の配置 社会調査 文脈効果,接近誤差(誘導尋問)に注意する 質問の前後の関連性が強くなることがある 実験 コピー機の故障の頻度とサービス窓口の対応を聞いたのに関連 が強くなって解釈に困った 同じ内容でも言いまわし(肯定的,否定的)で回答が異なる 製品の満足度調査と不満足調査では結果が異なる 第9章 データの品質 廣野元久 &高橋行雄 24/31 3.3.2 設問方法,実験方法や言葉使い(1) 1)設問や教示の正確性 時事用語,流行語,学術・専門語などの使用は十分注意 安易に英単語のカタカナ書きはしない ミッション,ファンクション,ベネフィット などなど 年代によって,言葉から受けるイメージが違う メロディの官能実験で 質問の正確性 単文で,具体的記述であることが肝心 :複数の意味にとれるものは× 社会調査 40代,50代:たそがれた と うらぶれた が関連が強かった 20代 :たそがれた と ロマンチックな が関連が強かった 安易に「その他」は使わない 必要な選択肢を用意しておく 実験 教示文(実験の前の説明,手順の紹介)は容易,簡潔,適切 第9章 データの品質 廣野元久 &高橋行雄 25/31 3.3.2 設問方法,実験方法や言葉使い(2) 2)反応,回答の偏りの防止 黙従傾向 選挙の候補者の名前の順序や街角ポスターの順番はランダム 好き嫌いなどは,段階評点がよい,SD法など 社会調査 個人の倫理観,見栄,外聞に関する設問はバイアスがかかる 選挙にいきますか:選挙に行くと答える方が実際の思いより多くなる 実験 刺激(対象物)の順番は重要 ビールやお茶を官能評価するのに,最初に飲んだものが基準となる テストの点をつけるのに,始めは厳しくつけるが,だんだん甘くなる もう1度,点数の順番に並べ替えて,調整する 第9章 データの品質 廣野元久 &高橋行雄 26/31 3.3.2 設問方法,実験方法や言葉使い(3) 3)回答者の人格尊重 対象者の人格を考えて設問を作る どんなに配慮しても,お叱りは受けることを覚悟する 協力して頂いているという謙虚な気持ちが大切 学生であるという甘えは禁物 余談:昔,奥さんとデート中にアンケートの協力をした アンケートはタバコのコマーシャルフィルムの評価 タバコを吸わないので,どのフィルムも低い評価をつけた 理解に苦しんだ タバコを吸う人にPRするものか タバコを吸わない人の嫌悪感を調べるものか 第9章 データの品質 廣野元久 &高橋行雄 27/31 アンケートの設問と選択肢の作成 ある大学の就職課では就職活動における性差 の問題に関する調査を行うことになった. 以下の方法で調査をしたが,問題点はあるか 方法 ある日の午後,食堂に行き,30人にアン ケート用紙を配り,その結果を基にして, その大学の就職活動を行っている学 生の意見とした 第9章 データの品質 廣野元久 &高橋行雄 28/31 調査項目の作成(1) 携帯電話の購入理由を調査したい どのような質問文と選択肢を作ればよいか 得られたデータの尺度は何か 第9章 データの品質 廣野元久 &高橋行雄 29/31 調査項目の作成(2) トヨタとホンダのブランドが若者に与え る印象を調査したい.どのような調査 票を作成すべきか 第9章 データの品質 廣野元久 &高橋行雄 30/31 調査項目の作成(3) 携帯電話の当たり前(そのような 機能があって当然と思う)品質と 魅力品質(革新的な機能)につい て年代別に調査したい.どのような 調査票を作るとよいか 第9章 データの品質 廣野元久 &高橋行雄 31/31
© Copyright 2024 ExpyDoc