イントロダクション

統計学が流行ってる?
• Amazonでヒットした出版年ごとの統計学に関する書籍
統計学Ⅰ・基礎統計学Ⅰ
イントロダクション
慶應義塾大学 非常勤講師
八賀 洋介
1
2
山田・村井(2004)『よくわかる心理統計』
より
なんだか楽しいそうな本が増えた
• 世の中の統計本は次の4種類に分けられる
•
•
•
•
レベル1:とにかくポップな入門書
レベル2:非専門家の視点から書かれた入門書
レベル3:専門家の視点から書かれた入門書
レベル4:専門書
• ポップな表紙や説明は入門には有効だが、なんとなく分
かったというだけで、統計学の基礎を学ぶに十分なレベ
ルとはいえないし、自分で使えるまで分かったというレベ
ルまではいかない。
• 文系にとってレベル1だとまだ楽しめるが、レベル2から
苦痛になり、レベル3以上はもはや暗号である。
• 本講義では、このうちのレベル2の立場で進める。
3
•Google チーフ・エコノミスト
Hal Varian (2009)
4
どうして統計学が注目されるのか
• 統計学は、データから意味のある情報を抽出するた
めの“道具”である。 だから応用範囲が広い。
• 道具として洗練させていく過程で
• 農学、生物学、疫学、心理学、社会調査、経済学 などが
関わってきた。
• 現在では、さらに多くの諸学問のデータ分析で利用さ
れている。
• また、社会の情報化が進んだことによって
“I keep saying the sexy job in
the next ten years will be
statisticians”.
• データマイニング、人工知能、ウェブ分析 などでも利用さ
れる。 情報取得技術が進み、データが溢れ、そのデータ
から意味のある情報を抽出する道具が重要性を増した。
5
6
教育:What Works Clearinghouse
(WWC)
医療:科学的根拠に基づく治療
(Evidence-based medicine:EBM)
例えば、患者への治療法の選択において、
“医学誌の救急医療ジャーナルの2005年9月刊行の論
文によれば心筋梗塞後の治療法Aの250件と治療法Bの
50件の比較調査では治療法Bの方が不整脈に よる死亡
は8%ほど低いと言う結果であった。ただし同雑誌2008年
の4月の論文における追跡調査では50歳以上の患者の
場合は逆に治療法Aの方が2%ほ ど死亡率は低いとの結
果である。この患者は高齢であるので生存率の観点か
らは治療法Aが最適な選択である。”
• 米国教育省下の Institute of Education Sciences (教育科
学研究所, IES)によって設立された、ウェブサイトによる、
教育の評価研究に関するレビューのデータベース。
どのような方法が教育的効果を上げるのか?
• 教師に生徒の成績に基づいた競争をさせて、ボーナスの査定に反映させる。
• 子どもは小学校入学前から英才教育を施すべきだ。
• 数学教育にもっとコンピュータを取り入れて効率化をはかるべきだ。
7
8
司法の現場にも統計的知識が必要
野球: セイバーメトリクス
• 悪性の脳腫瘍で亡くなった患者の相続人が、医療過
誤による死亡だとして患者を担当した医師を訴えた。
医師は新しい治療法を実験的に試みて患者の死期を
早め、その点で医療過誤の責任を負うべきだ、と相続
人は主張した。
• 死期が早まったという主張を証拠立てるために、原告
は同じ病気に罹患した70人の患者を対象とした研究を
引用している。その研究では最初の診断からの余命
の平均値は17か月と報告されていたが、当該患者は7
か月しか生きられなかった。
• しかしながら、裁判所は、その研究によると余命の中
央値が8.3か月となっている点を指摘し、こちらがより
代表値として適切であるとした。
• SABRmetrics
• 野球には、様々な価値基準・指標が
存在するが、セイバーメトリクスではこ
れらの重要性を数値から客観的に分
析した。
• スコアブック、打席情報、選手成績な
どから出塁率、OPS(出塁率+長打
率)、QS(クオリティ・スタート)、ピタゴ
ラス勝率を算出。
• 打球の速度・角度・着地点、投手が投
げたボールのコース、球速、球種など
からUZR、WARなどの指標を算出。
9
統計学がなぜこれほど使われる
ようになったのか?
10
データ分析ツール
• MS Excel
• 直感的に使い易い
• 基本的にはデータ管理ソフトであり、統計分
析には不向き
• 1960年頃までに、統計的な“道具”は出揃っていた。
• しかし、大量の数値を計算することは簡単ではな
かった。
• SPSS
• 対数変換や複雑な行列計算は当たり前で、
• それらの数式を理解し、
• 紙とペンを使って、自ら手計算で分析する。
• その後、IT 技術が飛躍的に進み、統計的な“道
具”を利用するためのデータ分析ツールが利用可
能になった。
11
• Excelと同様のデータ管理ができ、かつ様々
な統計分析が可能
• 高価なので個人での所有は難しい
•R
• ほとんどの統計分析が可能
• フリーソフト 誰でもただで利用できる
• コマンドラインでの操作となるため、初心者
にはとっつきにくい
12
手持ちのデータから
結果を導き出すためには
[WHAT]
何をやればいいのか?
シラバスより
(金曜2限 統計学Ⅰ)
• 近年、社会の情報化が進み、様々なデータが集
めやすくなってきたことにより、統計学は多岐にわ
たる分野で、いわば "道具" として利用される傾向
は強まっている。そこで我々も統計学がどのように
使われ、そこから何がわかるのかを理解すること
は有意義であろう。本授業では主に統計的仮説検
定を題材に Excelや R といったコンピュータソフト
ウェアを利用した統計的処理力の獲得と検定方法
の正しい使い分けを理解することを目指す。統計
学に関する講義だけでなく演習に多くの時間を割
く。
[HOW]
どうやって
やればいいのか
データ分析
の理論的
知識
【統計学の知識】
代表値 散布度
相関 回帰
標本分布 推定 検定
正規分布 ・・・・
データを
処理する
スキル
【分析ツールの知識】
関数電卓
Excel
R
SPSS ・・・・
14
13
シラバスより
(金曜3限 基礎統計学Ⅰ)
• 近年、社会の情報化が進み、様々なデータが集
めやすくなってきたことにより、統計学は多岐にわ
たる分野で、いわば "道具" として利用される傾向
は強まっている。そこで我々も統計学がどのように
使われ、そこから何がわかるのかを理解すること
は有意義であろう。本講義では記述統計学や推測
統計学の基本的な方法や概念を理解することを目
的とする。理解を促進するために補助的に Excel
や R といったコンピュータソフトウェアを利用して実
際に課題演習を行う。
•本年は金2 統計学と金3 基礎統
計学は同一の内容を扱います。
•統計学の授業ですから、統計的
な内容の説明に重点を置きます。
15
16
出席や課題提出にメールを使います。
• 授業の進め方
• 統計学の考え方の基礎を説明していく。その過程で数式も
出てきます。抽象的で難しい内容の説明を補うためにExcel
や R を利用して演習を行う。実際にデータを自分でいじっ
てみることで理解を促進し、できるという感覚を自覚しても
らう。
• 成績評価方法
以下のアドレスを利用する。
[email protected]
件名のルールを守ること
•統計学Ⅰ履修者
• 授業への出席(40%)
• 授業中に課される課題及び宿題(60%)
• テキスト(教科書)
「金2 学籍番号@名前」
• なし。 授業用スライドを配布する。
• ホームページからダウンロードしてください。
http://user.keio.ac.jp/~8g/stat/index.html
17
•基礎統計学Ⅰ履修者
「金3 学籍番号@名前」
※ 自動返信メールを設定し
ています。件名が正しければ
原則返信が帰ってくるでしょう。
ただし、それほど安定した機
能ではないので、アドレスに
よってはgmailが勝手に迷惑
メールとみなしたりすることで
自動返信が起きないこともあ
ります。確認を希望する場合
は、授業前後に尋ねてくださ
い。
18
コメント
参考書
• 広田すみれ(2005) 読む統計学 使う統計学 慶應義塾出版会
社会科学を学ぶ人に向けて書かれた本
山田剛史・村井潤一郎 (2004) よくわかる心理統計 ミネルヴァ
書房
心理学以外の人にもおすすめの入門書
• 山田剛史・杉澤武俊・村井潤一郎 (2008) Rによるやさしい統計
学 オーム社
Rを利用しながら統計が学べる本
• マイクル・O・フィンケルスタイン(著)太田勝造(監訳) 法統計
学入門―法律家のための確率統計の初歩―
法に関わる統計事例集の趣。ただし、統計学を知っていれば言ってい
ることはわかるが、この本で統計の基礎を学ぶことは至難。
• 統計学関連の本は他にもいくらでもあります。しかし、初等統計
学で学ぶべき項目はだいたい同じです。書店行って、統計学の
教科書を手に取って、自分でも6・7割理解できそうだ、という本
をまず読んでみるといい。
19
来週からは 次のような内容を扱っていきます(通
し番号は講義で扱う順とは関係しません。あくまで
目安です)
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Excelの使い方(1) ・ 統計に関わる記号(主にΣ)
Excelの使い方(2) ・ 度数分布
代表値
散布度
線形変換 ・ 標準化
共分散と相関係数
回帰分析
確率モデルと標本分布
正規分布モデルと平均の標本分布
2変数生起分布モデルと相関係数・回帰計数の標本分布
検定の考え方
推定の考え方
・・・・
21
• 講義および演習の形式で進めます。遅刻や欠席はくれぐれもし
ないようにしてください。統計学の理解はとりわけ文系の初学者
にとっては簡単ではありません。遅刻や欠席をするたびにそれ
だけ理解することが難しくなるでしょう。
また、毎授業後、授業内容を復習することが知識の定着のた
めに重要となります。
• 出席とは、ただ教室にいればいいのではありません。講義を積
極的に理解しようと努め、課題が出ればそれに取り組む、参加
の姿勢が前提となります。
• 授業用スライドは自由に取得できるが、あくまでも補助資料で
す。それだけで理解できることを目指して作成されるわけでは
ありません。したがって、授業に出席せずに後からスライド資料
だけを眺めても理解できる保証はないことに注意。
• 授業中の私語など、他人に迷惑がかかる行為は厳禁。
20