確率と統計 Probability & Statistics

確率と統計
Probability & Statistics
平成21年10月1日(1回目)
担当教員:亀田弘之
kameda@cs.teu.ac.jp
Copyright© 2009 School of Computer Science, Tokyo University of Technology
統計調査の例
表. フランス大統領選挙
by Le Monde 紙
調査日時
ミッテラン ジスカール
デスタン
4月27日~28日
51.5
48.5
5月 2日~ 4日
53
47
5月 6日
52
48
5月 7日
53
47
5月 8日
52.5
47.7
48.0
5月10日 (投票日)
51.75
単位:パーセンテージ
Probability & Statistics 2009
p.2
Copyright© 2009 School of Computer Science, Tokyo University of Technology
統計調査の例
表. 喫煙と肺がん
肺がん患者
正 常
喫 煙 者
60
32
非喫煙者
3
11
単位:人
Probability & Statistics 2009
p.3
Copyright© 2009 School of Computer Science, Tokyo University of Technology
教科書
 「初等統計学」
P.G.ホーエル(著)、浅井晃・村上正康(訳)
培風館
(原書: P.G. Hoel: Elementary Statistics,
4th Edition, 1976, John Wiley & Sons.)
Probability & Statistics 2009
p.4
Copyright© 2009 School of Computer Science, Tokyo University of Technology
調査
知りたい対象
(未知な調査対象)
得られたデータ
(分析可能)
推測
Probability & Statistics 2009
p.5
Copyright© 2009 School of Computer Science, Tokyo University of Technology
本講義の構成
1. 記述統計学 (表・グラフ・基本統計量)
2. 確率
(確からしさの定式化)
3. 推計学
(推定・検定)
3部構成(1と2が中心・3は基礎のみ)
Probability & Statistics 2009
p.6
Copyright© 2009 School of Computer Science, Tokyo University of Technology
記述統計学
 表・グラフ
– 度数分布表
– ヒストグラム
 なぜ作るの?
 どうやって作るの?
 基本統計量
– 平均・分散・中央値・モード
 これらの定義は?
 なぜこれらの量を考えるの?
 これらの量の意味は?
Probability & Statistics 2009
p.7
Copyright© 2009 School of Computer Science, Tokyo University of Technology
確率
 記述統計学を推計学へと発展させる基礎
ー>思いのほか重要!
(高校で学んでいない人はここで
勉強しよう!)
Probability & Statistics 2009
p.8
Copyright© 2009 School of Computer Science, Tokyo University of Technology
推計学
 推定
 検定
ー>
応用がいっぱいある
学んだ分だけ得をする学問分野
Probability & Statistics 2009
p.9
Copyright© 2009 School of Computer Science, Tokyo University of Technology
調査
確率(sampling)
知りたい対象
(未知な調査対象)
得られたデータ
(分析可能)
記述統計
推測
確率(推定・検定)
Probability & Statistics 2009
p.10
Copyright© 2009 School of Computer Science, Tokyo University of Technology
 統計学は、近代科学の一分野であり、
学ぶ価値は十分あり。
ー>なぜ、高校ではチャンと習わなかったの?
Probability & Statistics 2009
p.11
Copyright© 2009 School of Computer Science, Tokyo University of Technology
「確率と統計」の授業概要
 身の回りにあふれている情報は、そのまま眺め
ていても何も語ってくれないが、統計というメガ
ネを通して見ると、さまざまな真実を語り始める。
本講義は、このような「確率と統計」に関する基
本的な知識と技能とを学生自らが習得すること
を目的とする。平均と分散、ヒストグラム、確率、
統計的推論と検定などの諸概念を理解すると
ともに、表計算ソフトウェアEXCELによる演習
を通じて、簡単な実際のデータ解析も行う。
Probability & Statistics 2009
p.12
Copyright© 2009 School of Computer Science, Tokyo University of Technology
「調査分析法I 」の授業概要
 この授業では、社会現象や人間行動や人間の
コミュニケーションを、実証的に把握、検証する
ための様々な技法について講義を行う。特に質
問紙法を中心に、質問紙の作成や、調査対象
のサンプリング法、調査の実施にあたっての計
画と注意、データの収集に至る一連の過程に
おいて必要となる知識や技能について学習す
る。また、社会社会調査における研究倫理につ
いても理解を深める。授業のなかでは調査票を
実際に作成する。
Probability & Statistics 2009
p.13
Copyright© 2009 School of Computer Science, Tokyo University of Technology
「調査分析法II 」の授業概要
 本講義は、収集されたデータを用いてさまざまな社会
現象や人間行動を実証的に把握、検証するための基
礎的な知識を習得することを目的とする。データの記
述や要約、2変数間の関連についての方法を理解す
ることは、官庁統計やマーケティング調査をはじめと
する様々な「社会調査」資料を批判的に検討する力を
養う上でも不可欠である。講義においては実際にデー
タを集計・分析し、レポートにまとめる過程を通じて、
データの分析と解釈について学んでゆく。
Probability & Statistics 2009
p.14
Copyright© 2009 School of Computer Science, Tokyo University of Technology
社会調査法
 社会には、政府が行う国勢調査、新聞社が行う
内閣支持率調査、企業が行う市場調査などたく
さん調査があります。本講義ではこのような調
査に関して、第一に調査の方法についての知
識を獲得すること、第二に、調査結果を利用し
て社会のことを理解することを目指します。
Probability & Statistics 2009
p.15
Copyright© 2009 School of Computer Science, Tokyo University of Technology
 第一の調査方法ですが、国勢調査のように日
本に居住する総ての世帯を調べる調査もあり
ますが、多くの場合は調べる集団の構成員全
員を調べるのではなく、集団の中から標本(サ
ンプル)を選んで調べ、全体のことを推計する
方法がとられます。この方法は標本調査といわ
れます。この方法を正しく理解しておくことによ
り、自分で小規模なアンケート調査を正しくに実
施できるばかりでなく、他人が行った調査を批
判の目をもって評価した上で、それを活用する
ことができます。
Probability & Statistics 2009
p.16
Copyright© 2009 School of Computer Science, Tokyo University of Technology
 第二の目標は調査結果で社会を理解するとい
う目標です。政府は国費を使い多くのことを調
べています。これらを利用すれば、我々が住む
社会のことをより具体的に知ることができます。
私達は社会調査を自分で実施することはあま
りなく、どちらかといえば、利用する立場にあり
ます。自分で調査結果を分析する訓練の一つ
として、「格差」をテーマに選び政府の調査から
何が言えるか考察することにします。
Probability & Statistics 2009
p.17
Copyright© 2009 School of Computer Science, Tokyo University of Technology
コメント
 このように、統計は極めて重要である。
 また、統計を学ぶためには確率を知っておく必
要がある。
Probability & Statistics 2009
p.18
Copyright© 2009 School of Computer Science, Tokyo University of Technology
今日の内容
 統計処理の実際
 統計処理の有効性を実感する
(デモとしてEXCELを使用する)
Probability & Statistics 2009
p.19
Copyright© 2009 School of Computer Science, Tokyo University of Technology
生データ
 データは計画的に収集しなければ意味がない。
ー>「統計調査」の基本的手法
 今は,とにかくデータが手元にあるとする。
Probability & Statistics 2009
p.20
Copyright© 2009 School of Computer Science, Tokyo University of Technology
新生児の体重
 新生児の体重60人分のデータ
 1988年に収集されたもの
Probability & Statistics 2009
p.21
Copyright© 2009 School of Computer Science, Tokyo University of Technology
新生児60人の体重(1998)
表. 新生児の体重
3740
2550
2920
2530
3280
2840
2520
3350
3610
3430
3020
3320
2790
3050
3620
3260
3320
3800
2640
3360
3320
4100
2720
4050
3850
3380
3040
2710
4150
3200
4120
2780
3220
2780
2490
2950
2580
2020
3010
2010
2800
2760
4480
2990
3700
2960
2320
3060
3200
3380
3100
2840
2990
3100
3530
3270
2600
3640
3300
4570
単位はグラム
Probability & Statistics 2009
p.22
Copyright© 2009 School of Computer Science, Tokyo University of Technology
データの分析
 このデータから何がわかるのか?
 とにかく分析してみる
 でもどうやって分析するの?
 まずは、いろいろやってみよう
Probability & Statistics 2009
p.23
Copyright© 2009 School of Computer Science, Tokyo University of Technology
データ分析
 データを眺める
 大きさの順に並べ替えてみる
– ソート(sort)するとも言う
– 最大値と最小値がわかる
 表にしてみる
– 全体の様子がわかりやすくなる
– 度数分布表と言う
Probability & Statistics 2009
p.24
Copyright© 2009 School of Computer Science, Tokyo University of Technology
データ分析
 図(グラフ)にしてみよう
Probability & Statistics 2009
p.25
Copyright© 2009 School of Computer Science, Tokyo University of Technology
まとめ




データを単に眺めるだけではなく、
並べ替えてみる (ソート)
表にしてみる
(度数分布表)
グラフにしてみる (ヒストグラム)
=> データの特徴がより分かりやすくなる
Probability & Statistics 2009
p.26
Copyright© 2009 School of Computer Science, Tokyo University of Technology
次回は演習!
 パーソナルコンピュータを用意してください。
 EXCELを使います。
(表計算ソフトウェア)
Probability & Statistics 2009
p.27
Copyright© 2009 School of Computer Science, Tokyo University of Technology