統計学が流行ってる? • Amazonでヒットした出版年ごとの統計学に関する書籍 統計学Ⅰ・基礎統計学Ⅰ イントロダクション 慶應義塾大学 非常勤講師 八賀 洋介 1 2 山田・村井(2004)『よくわかる心理統計』 より なんだか楽しいそうな本が増えた • 世の中の統計本は次の4種類に分けられる • • • • レベル1:とにかくポップな入門書 レベル2:非専門家の視点から書かれた入門書 レベル3:専門家の視点から書かれた入門書 レベル4:専門書 • ポップな表紙や説明は入門には有効だが、なんとなく分 かったというだけで、統計学の基礎を学ぶに十分なレベ ルとはいえないし、自分で使えるまで分かったというレベ ルまではいかない。 • 文系にとってレベル1だとまだ楽しめるが、レベル2から 苦痛になり、レベル3以上はもはや暗号である。 • 本講義では、このうちのレベル2の立場で進める。 3 •Google チーフ・エコノミスト Hal Varian (2009) 4 どうして統計学が注目されるのか • 統計学は、データから意味のある情報を抽出するた めの“道具”である。 だから応用範囲が広い。 • 道具として洗練させていく過程で • 農学、生物学、疫学、心理学、社会調査、経済学 などが 関わってきた。 • 現在では、さらに多くの諸学問のデータ分析で利用さ れている。 • また、社会の情報化が進んだことによって “I keep saying the sexy job in the next ten years will be statisticians”. • データマイニング、人工知能、ウェブ分析 などでも利用さ れる。 情報取得技術が進み、データが溢れ、そのデータ から意味のある情報を抽出する道具が重要性を増した。 5 6 教育:What Works Clearinghouse (WWC) 医療:科学的根拠に基づく治療 (Evidence-based medicine:EBM) 例えば、患者への治療法の選択において、 “医学誌の救急医療ジャーナルの2005年9月刊行の論 文によれば心筋梗塞後の治療法Aの250件と治療法Bの 50件の比較調査では治療法Bの方が不整脈に よる死亡 は8%ほど低いと言う結果であった。ただし同雑誌2008年 の4月の論文における追跡調査では50歳以上の患者の 場合は逆に治療法Aの方が2%ほ ど死亡率は低いとの結 果である。この患者は高齢であるので生存率の観点か らは治療法Aが最適な選択である。” • 米国教育省下の Institute of Education Sciences (教育科 学研究所, IES)によって設立された、ウェブサイトによる、 教育の評価研究に関するレビューのデータベース。 どのような方法が教育的効果を上げるのか? • 教師に生徒の成績に基づいた競争をさせて、ボーナスの査定に反映させる。 • 子どもは小学校入学前から英才教育を施すべきだ。 • 数学教育にもっとコンピュータを取り入れて効率化をはかるべきだ。 7 8 司法の現場にも統計的知識が必要 野球: セイバーメトリクス • 悪性の脳腫瘍で亡くなった患者の相続人が、医療過 誤による死亡だとして患者を担当した医師を訴えた。 医師は新しい治療法を実験的に試みて患者の死期を 早め、その点で医療過誤の責任を負うべきだ、と相続 人は主張した。 • 死期が早まったという主張を証拠立てるために、原告 は同じ病気に罹患した70人の患者を対象とした研究を 引用している。その研究では最初の診断からの余命 の平均値は17か月と報告されていたが、当該患者は7 か月しか生きられなかった。 • しかしながら、裁判所は、その研究によると余命の中 央値が8.3か月となっている点を指摘し、こちらがより 代表値として適切であるとした。 • SABRmetrics • 野球には、様々な価値基準・指標が 存在するが、セイバーメトリクスではこ れらの重要性を数値から客観的に分 析した。 • スコアブック、打席情報、選手成績な どから出塁率、OPS(出塁率+長打 率)、QS(クオリティ・スタート)、ピタゴ ラス勝率を算出。 • 打球の速度・角度・着地点、投手が投 げたボールのコース、球速、球種など からUZR、WARなどの指標を算出。 9 統計学がなぜこれほど使われる ようになったのか? 10 データ分析ツール • MS Excel • 直感的に使い易い • 基本的にはデータ管理ソフトであり、統計分 析には不向き • 1960年頃までに、統計的な“道具”は出揃っていた。 • しかし、大量の数値を計算することは簡単ではな かった。 • SPSS • 対数変換や複雑な行列計算は当たり前で、 • それらの数式を理解し、 • 紙とペンを使って、自ら手計算で分析する。 • その後、IT 技術が飛躍的に進み、統計的な“道 具”を利用するためのデータ分析ツールが利用可 能になった。 11 • Excelと同様のデータ管理ができ、かつ様々 な統計分析が可能 • 高価なので個人での所有は難しい •R • ほとんどの統計分析が可能 • フリーソフト 誰でもただで利用できる • コマンドラインでの操作となるため、初心者 にはとっつきにくい 12 手持ちのデータから 結果を導き出すためには [WHAT] 何をやればいいのか? シラバスより (金曜2限 統計学Ⅰ) • 近年、社会の情報化が進み、様々なデータが集 めやすくなってきたことにより、統計学は多岐にわ たる分野で、いわば "道具" として利用される傾向 は強まっている。そこで我々も統計学がどのように 使われ、そこから何がわかるのかを理解すること は有意義であろう。本授業では主に統計的仮説検 定を題材に Excelや R といったコンピュータソフト ウェアを利用した統計的処理力の獲得と検定方法 の正しい使い分けを理解することを目指す。統計 学に関する講義だけでなく演習に多くの時間を割 く。 [HOW] どうやって やればいいのか データ分析 の理論的 知識 【統計学の知識】 代表値 散布度 相関 回帰 標本分布 推定 検定 正規分布 ・・・・ データを 処理する スキル 【分析ツールの知識】 関数電卓 Excel R SPSS ・・・・ 14 13 シラバスより (金曜3限 基礎統計学Ⅰ) • 近年、社会の情報化が進み、様々なデータが集 めやすくなってきたことにより、統計学は多岐にわ たる分野で、いわば "道具" として利用される傾向 は強まっている。そこで我々も統計学がどのように 使われ、そこから何がわかるのかを理解すること は有意義であろう。本講義では記述統計学や推測 統計学の基本的な方法や概念を理解することを目 的とする。理解を促進するために補助的に Excel や R といったコンピュータソフトウェアを利用して実 際に課題演習を行う。 •本年は金2 統計学と金3 基礎統 計学は同一の内容を扱います。 •統計学の授業ですから、統計的 な内容の説明に重点を置きます。 15 16 出席や課題提出にメールを使います。 • 授業の進め方 • 統計学の考え方の基礎を説明していく。その過程で数式も 出てきます。抽象的で難しい内容の説明を補うためにExcel や R を利用して演習を行う。実際にデータを自分でいじっ てみることで理解を促進し、できるという感覚を自覚しても らう。 • 成績評価方法 以下のアドレスを利用する。 [email protected] 件名のルールを守ること •統計学Ⅰ履修者 • 授業への出席(40%) • 授業中に課される課題及び宿題(60%) • テキスト(教科書) 「金2 学籍番号@名前」 • なし。 授業用スライドを配布する。 • ホームページからダウンロードしてください。 http://user.keio.ac.jp/~8g/stat/index.html 17 •基礎統計学Ⅰ履修者 「金3 学籍番号@名前」 ※ 自動返信メールを設定し ています。件名が正しければ 原則返信が帰ってくるでしょう。 ただし、それほど安定した機 能ではないので、アドレスに よってはgmailが勝手に迷惑 メールとみなしたりすることで 自動返信が起きないこともあ ります。確認を希望する場合 は、授業前後に尋ねてくださ い。 18 コメント 参考書 • 広田すみれ(2005) 読む統計学 使う統計学 慶應義塾出版会 社会科学を学ぶ人に向けて書かれた本 山田剛史・村井潤一郎 (2004) よくわかる心理統計 ミネルヴァ 書房 心理学以外の人にもおすすめの入門書 • 山田剛史・杉澤武俊・村井潤一郎 (2008) Rによるやさしい統計 学 オーム社 Rを利用しながら統計が学べる本 • マイクル・O・フィンケルスタイン(著)太田勝造(監訳) 法統計 学入門―法律家のための確率統計の初歩― 法に関わる統計事例集の趣。ただし、統計学を知っていれば言ってい ることはわかるが、この本で統計の基礎を学ぶことは至難。 • 統計学関連の本は他にもいくらでもあります。しかし、初等統計 学で学ぶべき項目はだいたい同じです。書店行って、統計学の 教科書を手に取って、自分でも6・7割理解できそうだ、という本 をまず読んでみるといい。 19 来週からは 次のような内容を扱っていきます(通 し番号は講義で扱う順とは関係しません。あくまで 目安です) 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. Excelの使い方(1) ・ 統計に関わる記号(主にΣ) Excelの使い方(2) ・ 度数分布 代表値 散布度 線形変換 ・ 標準化 共分散と相関係数 回帰分析 確率モデルと標本分布 正規分布モデルと平均の標本分布 2変数生起分布モデルと相関係数・回帰計数の標本分布 検定の考え方 推定の考え方 ・・・・ 21 • 講義および演習の形式で進めます。遅刻や欠席はくれぐれもし ないようにしてください。統計学の理解はとりわけ文系の初学者 にとっては簡単ではありません。遅刻や欠席をするたびにそれ だけ理解することが難しくなるでしょう。 また、毎授業後、授業内容を復習することが知識の定着のた めに重要となります。 • 出席とは、ただ教室にいればいいのではありません。講義を積 極的に理解しようと努め、課題が出ればそれに取り組む、参加 の姿勢が前提となります。 • 授業用スライドは自由に取得できるが、あくまでも補助資料で す。それだけで理解できることを目指して作成されるわけでは ありません。したがって、授業に出席せずに後からスライド資料 だけを眺めても理解できる保証はないことに注意。 • 授業中の私語など、他人に迷惑がかかる行為は厳禁。 20
© Copyright 2024 ExpyDoc