情報科学の基礎

統計学入門(1)
第2回
-- データの収集 --
統計的方法(データ解析)


統計数字や統計グラフを作成する
手法
データを集め、集めたデータを分
析、解釈し、背後にある構造に関
して結論を導き出すための方法
統計学入門(1)第2回
2
データの収集

調査

質問紙調査


実験

製薬における臨床実験



効果の優劣の判断
農事試験


世論調査、
効果の推定(英国ロザムステッド農場:近代統計学の祖)
…
観察・記録

POSデータ、視聴率調査(機械によるもの)、品質管理、…
統計学入門(1)第2回
3
標本調査
標本調査と推測統計の概念図:平均の推定の場合
標本抽出
データ収集
x1
x2

xn
標本
集計
母集団
母集団の平均:μ
標本の平均:
2つの値は同じではない
推測統計の理論が架け橋となる
x
実験



仮説を検証するための実験を計画する
薬Aと薬Bのどちらが有効であるか?
方法:

対象となる患者に“無作為に”薬を割り振る

効果を薬別に集計をして結果を出す
統計学入門(1)第2回
5
実験の事例

2つの治療法のうち、どちらが有効か?

データ:被験者72名を無作為に
治療法
患者数
有効率
A
40
0.75
B
32
0.50
単純な
比較でOK
結論 : 治療法Aが優れている
統計学入門(1)第2回
6
調査・観察と実験の違い



実験では「無作為化」ができる
調査・観察でのデータは「無作為化」が行われて
いない
無作為化実験


原因と結果の関係をダイレクトに評価できる
調査・観察

原因と結果以外の「要因」を考慮する必要がある
統計学入門(1)第2回
7
観察研究の事例

サッカーの4バックと3バック、どちらが?

データ:ジーコジャパン72試合の結果
システム
試合数
平均失点数
3バック
40
0.85
4バック
32
1.13
結論は? 単純な比較で結論が出せるのだろうか?
統計学入門(1)第2回
8
「失点数」に影響するものは?
相手の実力は失点数に大きく影響する
相手の実力に関係なくシステムを採用していれば
問題ない(実験であれば可能)
相手の実力により採用するシ
ステムに傾向があれば
システム
失点数
システム
相手の実力
失点数
相手の実力
統計学入門(1)第2回
9
相手の実力と
システム採用数の関係
ランク
下
同
上
日本
3バック 4バック
31
13
4
12
5
6
失点数に影響をしているはずの「相手の実力」と「システム」
採用が関係している。
相手の実力による影響を取り除いて分析する必要がある
統計学入門(1)第2回
10
「交絡(Confound)」



「原因」と「結果」、双方に影響を与える「第
3の変数」
「交絡」の考慮なしに、結論は出せない
実験では、あらかじめ「交絡」が発生しない
ような工夫を行う ・・・ 「無作為化」
統計学入門(1)第2回
11
「交絡」要因の例

「食習慣」と「遺伝」


食習慣が健康に及ぼす影響を調べたいとしても、家
族で同じ食習慣であれば、遺伝の影響を取り除くこと
が難しい
「喫煙」と「余命」の分析

過去の喫煙習慣のある人とない人の高齢者の余命を
追跡調査で調べる場合、「喫煙」と「生命力」が交絡し
て、単純集計すると「喫煙」ありの場合が、「余命」が
長くなることがある

ある一定年齢まで生きているという条件で対象者を選ぶため
に「喫煙」グループに「生命力」が強い人が多く入ってしまう
統計学入門(1)第2回
12
無作為化実験

「結果」と「原因」の関係だけが、集計結果に反映
されるようにするため、
無作為化を行う
他の要因と「原因」の関係をなくす
くじ引きによる無作為化が一般的
統計学入門(1)第2回
13
統計の役立つ場面(ビデオ)


野球におけるデータの活用
あるテレビ番組から
統計学入門(1)第2回
14
問題1

次のような観察研究を行った。Q1-Q2に答えよ。

ある企業で2つの職種での健康状態の差異を検討するため、そ
れぞれの職種から無作為に50名ずつを抜き出し血圧を調べた。
他に血圧に影響を与える要因としては、年齢や運動の有無が考
えられる。いま、年齢構成はほぼ同じであったが、職種Aのほう
が運動機会が多い結果となった。
Q1:この研究において、「原因」と考える変数(説明変数)と
「結果」と考える変数(目的変数)は何と考えればよいか。
 説明変数: 職種
 目的変数: 血圧
Q2:この研究において交絡変数は何になるか?
 交絡変数 :運動の有無
統計学入門(1)第2回
15
問題2

運動を行うことと読書をすることの血圧への影響を調べるために、次
のような研究を計画した。

ある集団から無作為に選ばれた被験者をくじ引きを行い2つのグループ
に分け、一方には、毎日1時間の散歩を義務付け、他方には毎日1時間
の読書を義務付けた。3ヶ月後に、血圧を測定し、研究に入る前の血圧
との変化量についてグループ間での比較を行った。
上記の研究は、無作為化実験である。その理由として適切なものの
番号に丸印を付けなさい。
1.被験者を集団から無作為に選んでいるため
2.くじ引きをして被験者を無作為に2つのグループに分けているため
3.最後に2つのグループの差を計算して比較しているため
4.血圧を研究前と研究後の2回測定して比較しているため

統計学入門(1)第2回
16