1 計量社会学Ⅱ(2016年度秋学期 担当:保田 ) 2016.9.23 第1回「なぜ

や す だ
計 量 社 会 学 Ⅱ ( 2016年 度 秋 学 期 担 当 :保 田 )
2016.9.23
第 1回 「 な ぜ 推 測 統 計 が 必 要 な の か 」
問題
1.関 大 生 全 体( 約 2万 8千 人 )の 中 で 、ア ル バ イ ト を し て い る 学 生 が 何 % い る の か
を 知 り た い 。手 抜 き を し て 関 大 生 100人 だ け を 調 査 し た な ら ば 、調 査 結 果 の 誤 差
は最大何%くらい生じるだろう?
2. で は 、 同 じ よ う に 日 本 全 国 の 大 学 生 ( 約 255万 人 ) の う ち 何 % が ア ル バ イ ト を
し て い る か 知 り た い と し て 、 大 学 生 を 100人 だ け 調 査 し た と す る 。 こ の 場 合 は 、
誤差は何%くらい生じるだろう?
3. イ ン タ ー ネ ッ ト 調 査 会 社 を 使 っ て 、 日 本 の 大 学 生 100人 を 調 べ た 場 合 、 誤 差 は
どう考えるべきだろう?
同 じ く 、 街 中 で 捕 ま え た 100人 の 大 学 生 の 場 合 は ?
授 業 で 100人 に 配 布 し た 場 合 は ?
■全体的な目標
計 量 社 会 学 ( quantitative sociology) と は 、 社 会 を 知 る た め に 積 極 的 に 数 値 ( 統 計 デ
ータ)を活用する社会学の一分野である。この講義では、ⅠとⅡを合わせて計量社会学の
基 本 的 な 考 え 方 を 使 い こ な せ る よ う に な る こ と を め ざ す 。 Iで は 記 述 統 計 ( descriptive
statistics) の 活 用 を 、 Ⅱ は 推 測 統 計 ( inferential statistics ) の 活 用 ( + 多 変 量 解 析
の基礎)を学修する。合わせて修得することが望ましいが、一方だけでも理解できるよう
に講義する。
記述統計……データがもつ情報を要約して記述する統計的方法
例 ) 関 大 生 500人 の 調 査 を 集 計 す る と 、 1ヶ 月 の 読 書 冊 数 は 平 均 10.2冊 だ っ た
推測統計……一部のデータから調べてもいない全体を推し測る統計的方法
例 )関 大 生 500人 の 調 査 か ら 、大 学 全 体 で バ イ ト を し て い る の は 55~ 65% と 予 想 さ れ る
逆に、この講義を終えても以下の点は限界として残ることを了承してほしい。あくまで
「考え方」を身につけてもらう。
1) 数 学 的 な 理 解 は 最 小 限 に 留 ま る
2) 逆 に 、 実 際 的 な 統 計 分 析 ソ フ ト の 操 作 を 練 習 す る わ け で も な い
3) デ ー タ の 集 め 方 ( 社 会 調 査 の 方 法 ) に つ い て は 解 説 し な い
■社会学で推測統計を学ぶ理由
推 測 統 計 は 次 の よ う な 思 考 方 法 を 持 っ て い る 。こ の 考 え 方 は 科 学 の 中 で は と て も 珍 し く 、
画 期 的 な も の で あ っ た ( ラ オ 2010:第 2章 )。
1
不確実な知識
+
不確実性の度合いについての知識
=
有益な知識
例)天気予報
明日は雨でしょう
+
降 水 確 率 は 70% で す
=
役に立つ
同じデータ(天気図)でも、明日の天気は正確にはわからない。
過 去 の デ ー タ を 集 め 、 お そ ら く 雨 だ ろ う と い う 予 想 を す る ( 不 確 実 な 知 識 )。
ど の く ら い 不 確 実 な の か を 分 析 し 、 推 し 測 る ( 不 確 実 性 の 度 合 い に つ い て の 知 識 )。
70% の 確 率 で 雨 ( 有 益 な 知 識 )。
人間の活動に関わる現象については、正確にはわからないことが非常に多い。もし、古
典物理学のように正確な知識のみを積み重ねていこうとするならば、その研究はまったく
進まなかっただろう。人間社会や人間心理にはわからない部分(不確実性)があることを
受け入れ、どの程度不確実なのかを同時に考えることで、社会学をはじめとする社会諸科
学は急速に進歩できるようになった。
それを可能にしたのは統計学であり、もはや統計学なしに社会科学を考えることは不可
能 で あ る 。社 会 学 を 志 す 我 々 は 統 計 学( と く に 推 測 統 計 )に 慣 れ 親 し ま な け れ ば な ら な い 。
■手続きをたどるだけではダメなの?
社会学部の学生は、多くの場合、社会調査の手続きの一環として推測統計の考え方に触
れるはずである。すでに学習をしている人は、母集団、標本、標本調査、推定、検定と い
った用語を見聞きしたことがあるかもしれない。たとえば、吹田市の高校生のレジャー活
動 に つ い て 調 査 す る と き に 、高 校 生 全 員 調 べ る の で は な く 、そ の 一 部( た と え ば 200人 だ け )
を 調 査 し た り す る 。そ れ で も 、き ち ん と し た 手 続 き を 踏 ん で い れ ば 、そ の 200人 の 調 査 結 果
から、調べてもいない全員の様子を正しく推し測ることができる。その「きちんとした手
続き」をまとめた体系が、推測統計である。
しかしながら、実のところ、それほどしつこく推測統計を勉強しなくても、それを利用
することは容易である。
「 統 計 分 析 ソ フ ト の メ ニ ュ ー で こ こ を 選 ん で こ の 数 値 を 見 て ね 」あ
る い は「 こ の 式 に と に か く あ て は め て 計 算 し て ね 」と い う だ け で も 、実 用 上 は 十 分 で あ る 。
例 ) 2016年 9月 の NHK政 治 意 識 月 例 調 査 に よ れ ば 、 内 閣 支 持 率 は 57% だ っ た 。 調 査 し た の
は 有 権 者 全 員 で は な く 、 1 023人 だ け だ が ( 計 画 調 査 数 1540、 回 収 率 66.4 % の 電 話 調 査 )、
下 の 式 に あ て は め れ ば 、調 べ て も い な い 日 本 全 体 の 内 閣 支 持 率 が 57±3% 、つ ま り 54~ 60%
と 推 測 で き る 。( http://www.nhk.or.jp/bunken/yoron/political/ 2016.html
2016年 9月
21日 取 得 )
𝑝(1−𝑝)
𝑝 ± 1.96 × √
→
0.57 ± 1.96 × √
→
0.57 ± 0.03
2
𝑛
※ pは 小 数 で 表 わ し た 内 閣 支 持 率 、
n は 調 査 人 数 ( p=0.57, n=1023)
0.57(1−0.57)
1023
にもかかわらず、我々は推測統計の表面的な手続きだけでなく、その仕組みを理解しな
け れ ば な ら な い 。な ぜ な ら ば 、推 測 統 計 の 手 続 き は 、
「 理 想 的 な 」デ ー タ の 状 態 を 前 提 に し
ているだけだからである。たとえば、調査対象に選ばれた人々は全員調査に協力してくれ
る し ( 回 収 率 100% )、 け っ し て 嘘 を つ い た り 、 い い 加 減 な 答 え を し た り は し な い と い う 前
提である。当たり前であるが、現実の調査はそのようにはいかない。もっと言えば、卒業
研究などの学生が行う調査や企業が行うマーケティング調査で無作為抽出が可能なことは
まれである。それでも、我々は推測統計の手続きを適用する。その際、どのような前提が
どのくらい崩れていると、推測の結果にどういった歪みがありえるのかを想像できること
が大切なのである。そのためには、推測統計の仕組みをある程度深く理解しなければなら
ない。その重要度は、理系の場合よりもむしろ高い。実験環境における理系のデータ科学
は、推測統計の前提を満たした環境を作りやすいため、前提が崩れることの影響をあまり
考える必要がないからである。
推測統計の理解の程度は、社会調査のデータをどのくらい自信を持って扱えるかを決め
る重要なポイントになる。安らかな道のりではないものの、苦労するだけの価値はあるの
で、少しでも多くのことを身に付けてもらいたい。
授業予定表
第 1回
第 2回
第 3回
第 4回
第 5回
第 6回
第 7回
第 8回
第 9回
第 10回
第 11回
第 12回
第 13回
第 14回
第 15回
内容
なぜ推測統計が必要なのか
推 測 統 計 の 基 盤 ( 1) 無 作 為 の 意 義
〃
( 2) 記 述 統 計 の 復 習
〃
( 3) 正 規 分 布 の 利 用
推 定 と 検 定 ( 1) 平 均 の 推 定
〃
( 2) 平 均 と 比 率 の 関 係
〃
( 3) 平 均 の 検 定
〃
( 4) 平 均 の 差 の 検 定
〃
( 5) 独 立 性 の 検 定
統計分析ソフトでの実際
なぜ多変量解析が必要なのか
多 変 量 解 析 ( 1) 3変 数 の ク ロ ス 表
〃
( 2) 単 回 帰 分 析 と 相 関 係 数
〃
( 3) 重 回 帰 分 析 と 偏 相 関 係 数
まとめ:計量社会学がめざすもの
(事務連絡)
毎 回 、 √ の 計 算 で き る 電 卓 を 持 参 の こ と ( 計 量 社 会 学 Ⅰ よ り も か な り 使 う )。
学 期 末 の 試 験 の み で 評 価 ( 持 ち 込 み 全 て 可 )、 出 席 に よ る 加 点 ・ 減 点 な し
た だ し 、 事 前 の 4回 の 小 テ ス ト ( 持 ち 込 み A4用 紙 1枚 の み ) で 60点 以 上 を 受 験 要 件 と す る
質 問 は 授 業 後 か 、 研 究 室 ( C605)、 メ ー ル ( [email protected]) で 。
〈文献〉
C.R.ラ オ 著 、 柳 井 晴 夫 ほ か 訳 2010 『 統 計 学 と は 何 か 』 ち く ま 学 芸 文 庫 .
岩 井 紀 子 ・ 保 田 時 男 2007 『 調 査 デ ー タ 分 析 の 基 礎 』 有 斐 閣 .
片 瀬 一 男 ・ 阿 部 晃 士 ・ 高 橋 征 仁 2015 『 社 会 統 計 学 ベ イ シ ッ ク 』 ミ ネ ル ヴ ァ 書 房 .
3
や す だ
計 量 社 会 学 Ⅱ ( 2016年 度 秋 学 期 担 当 :保 田 )
2016.9.30
第 2回 「 推 測 統 計 の 基 盤 ( 1) 無 作 為 の 意 義 」
■母集団と標本
推測統計の目的は、
「 一 部 の 人 々 し か 調 べ て い な い 調 査 デ ー タ か ら 、本 来 関 心 の あ る 全 体
像を推し測ること」である。たとえば、日本の大学生の生活を知りたいときに、日本の大
学 生 全 員 を 調 べ る の で は な く 、 1000人 だ け を 調 査 し た り す る 。 元 々 関 心 の あ る 集 団 全 体 の
こ と を 母 集 団 ( population) と 呼 び 、 全 体 の 中 か ら 抽 出 し た 一 部 分 の こ と を 標 本 [ サ ン プ
ル]
( sample)と 呼 ぶ 。上 の 例 で は 、日 本 の 大 学 生 全 体 が 母 集 団 、実 際 に 実 験 に 参 加 し た 一
部の学生が標本である。標本、母集団という用語を使って推測統計の目的を言い直そう。
一部の標本から母集団全体を「きちんと」推し測ること
こ の 目 的 を 見 失 わ な い こ と は 、 極 め て 重 要 で あ る ( 念 仏 の よ う に 唱 え て ほ し い ぐ ら い )。
そのため、推測統計においては、何らかの統計的な記述をする際に、それが標本につい
て 述 べ て い る の か 母 集 団 に つ い て 述 べ て い る の か を 、は っ き り と 区 別 し な け れ ば な ら な い 。
た と え ば 、 同 じ よ う に 「 平 均 得 点 が 5.3点 」 と 言 っ た と き で も 、 標 本 の 平 均 得 点 が 5.3点 と
言 っ て い る の か 、母 集 団 の 平 均 得 点 が 5.3点 と 言 っ て い る の か を 明 確 に し な け れ ば な ら な い 。
下 図 に 表 さ れ る 用 語 の 使 い 分 け に 気 を 付 け よ う ( 図 1)。
母集団
標本抽出
[サンプリング]
母数
標本
[サンプル]
(標本)統計量
ミュー
標 本 平 均 𝑥̅
母平均 μ
シグマ
母標準偏差 σ
標本標準偏差s
……
……
図1
母集団と標本の区別
ミュー
シグマ
母 集 団 の 分 布 の 様 子 を 指 し 示 す 母 数( parameter)は 、通 常 ギ リ シ ャ 文 字( μ 、σ 2 な ど )
で 表 さ れ 、 標 本 か ら 算 出 さ れ る 標 本 統 計 量 [ あ る い は 単 に 、 統 計 量 ]( sample statistic )
は、通常ラテン文字(ふつうのアルファベット)で表される。たとえば、以下のように同
じ「平均」でも区別される。
日 本 の 大 学 生 か ら 300人 を 抽 出 し た 調 査 で 、月 間 読 書 冊 数 が 平 均 4.5冊( x̅ = 4.5)で あ っ
た と し て も 、 こ の 調 査 結 果 だ け で 、 日 本 の 大 学 生 の 月 間 読 書 冊 数 が 平 均 4.5冊 ( μ = 4.5)
と 結 論 づ け る の は 行 き 過 ぎ で あ る 。同 じ よ う に 300人 を 調 査 し て も 、平 均 値 は 4.2冊( x̅ = 4.2)
に な っ た り 、 4.7冊 ( x̅ = 4.7) に な っ た り す る で あ ろ う か ら 、 あ る 程 度 誤 差 が あ る と 考 え
て 、 平 均 は 4.1~ 4.9冊 ( 4.1 < μ < 4.9) 程 度 、 と い っ た 見 方 を し な け れ ば な ら な い 。
4
■無作為抽出
推 測 統 計 の さ ま ざ ま な 手 法 は 、 標 本 が 無 作 為 抽 出 [ ラ ン ダ ム ・ サ ン プ リ ン グ ]( random
sampling) に よ っ て 選 ば れ て い る こ と を 大 前 提 に し て い る 。 無 作 為 抽 出 と は 、 標 本 の 抽 出
に 人 間 の 作 為 が 入 る 余 地 が ま っ た く な い 、 と い う 意 味 で あ る 。 つ ま り 、 母 集 団 の 中 の 1人 1
人がまったく等しい確率で標本として選ばれる。選ばれる確率を等しくする方法はさまざ
ま に あ る が 、 も っ と も 単 純 に は 、 母 集 団 全 員 の 名 簿 を ま ず 用 意 し て 1人 1人 に 番 号 を 振 り 、
乱 数 表 や サ イ コ ロ を 使 っ て 、調 査 対 象 者 を 1人 1人 選 ん で い き 、標 本 集 団 を 構 成 す れ ば よ い 。
無作為抽出法がなぜ大切であるかという理由は、よく「母集団全体からまんべんなく標
.......
本をとるため」と誤解されている。無作為抽出された標本は、結果的に母集団をまんべん
なくカバーしていることが多いことは事実である。しかしより重要な目的が別にある。
それは、その標本から母集団を推測する際に、確率にもとづいた計算を可能にすること
で あ る 。例 え ば 、何 人 か の 人 々 に 調 査 を し た と こ ろ で 、回 答 者 に 男 性 が 多 い こ と に 気 付 き 、
女性を標本に追加したとしよう。その方が母集団をまんべんなく調べていることになるで
あ ろ う 。し か し 、規 則 性 を 持 た な い 方 法 で 標 本 が 選 ば れ る と 、確 率 論 の 知 識 が 役 に 立 た ず 、
母集団の推測に統計学の手法を用いることが、もはやできなくなってしまう。
これに対して、無作為抽出によって選ばれた標本は、完全に確率的な規則性だけにもと
づいて母集団からのずれが発生する。ということは、その標本調査で算出される平均値な
どの統計量も、何らかの規則性に従って、母集団の真の平均値から一定の確率でずれると
い う こ と で あ る 。こ れ ら の 規 則 性 を 逆 算 す る こ と に よ っ て 、我 々 は 標 本 調 査 の 結 果 か ら( 一
定の誤差を覚悟しながら)母集団の平均値などを「きっちり」推測できるのである。
では、具体的には、無作為抽出によって標本集団にどのような規則性が生まれるのか。
「標本調査で平均値を出す」という作業を何度も繰り返せば、その規則性を垣間見ること
ができる。
(実験)
無作為抽出で生まれる規則性を、実験調査で確かめてみよう。
① 回答票を取る
ID番 号
② 理想の結婚年齢を回答
(結婚したくなくても回答。なるべく厳格に)
理想の結婚年齢
1人 目
2人 目
③ 保田が受講者全体で集計【=全数調査】
④ 各 自 で 無 作 為 に 5人 を 選 ぶ 【 = 標 本 調 査 】
3人 目
4人 目
⑤ 5人 の 平 均 【 = 標 本 平 均 】 を 算 出
⑥ 皆 の 結 果 を 持 ち 寄 っ て 、標 本 平 均 の 分 布 を 確 か め る
5人 目
標 本 平 均 𝑥̅ =
5
歳
( 実 験 結 果 ) 標 本 調 査 を 繰 り 返 し た と き の 「 標 本 平 均 𝑋̅の 分 布 」
30
20
10
0
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18 歳
■無作為抽出により生まれる規則性
実験の結果からも(たぶん)わかるように、無作為抽出で選ばれた標本の平均値は規則
的 で き れ い な 形 に 分 布 す る 。こ の よ う な 規 則 性 は 、中 心 極 限 定 理( central limit theorem)
と呼ばれ、定式的には以下のように表現される。
平 均 が μ 、 標 準 偏 差 が σ の 分 布 に 従 う 確 率 変 数 に つ い て 、 n個 の 標 本 の 標 本 平 均 を 出 す と
き 、nの 数 が 大 き く な る に つ れ 、そ の 標 本 平 均 の 確 率 分 布 は 、平 均 が μ 、標 準 偏 差 が
σ
√n
の正規分布に近づく。
数学的な表現なのでわかりにくいが、要するに次のようなことを意味している。まず、
.......
標本平均の平均は母平均μと一致する。つまり、安心して標本の平均値を母集団の予測値
.
と し て 使 用 し て よ い 。も ち ろ ん 、あ る 程 度 の ず れ( 誤 差 )は 生 じ る が 、そ の 誤 差 の 程 度( 標
....
σ
本平均の標準偏差)は、
に な る 、 と い う 規 則 性 を も つ 。 調 査 の 人 数 nを 増 や せ ば 、 そ れ
√n
だけ誤差は小さくなっていくことが期待でき、人数を増やせばどれだけ調査の精度が増す
のかも正確にわかる。そして、最後にこれが重要であるが、驚くべきことに、元の母集団
で人々がどのように分布していても、標本平均のずれ方は常に同じ規則性(正規分布)を
示 す ( 図 2)。
正規分布でない
標本平均
母集団


標本平均の分布は
常に正規分布
X
X X
X
X
X X X X
X
X X X X X X
X X X X X X X X X
X
…

図2
中心極限定理
6

n



n
た と え ば 、平 均 μ = 25、標 準 偏 差 σ = 7の 母 集 団 か ら 10人 を 無 作 為 抽 出 し て 標 本 調 査 を お
こ な え ば 、そ の 標 本 調 査 で の 平 均 値 𝑥̅ は 、25( μ と 同 じ )前 後 に な る 確 率 が 高 く 、25か ら 離
れた平均値になる確率は、ベル型のカーブに沿って規則的に小さくなっていく。その標準
偏差は、
σ
√n
=
7
√10
= 2.2と い う こ と な の で 、そ の 標 本 調 査 で の 平 均 値 𝑥̅ は 、25±2.2く ら い の ず
れ が 標 準 的 ( 22.8歳 ~ 27.2歳 く ら い に な る こ と が 普 通 ) と い う こ と が わ か る 。
なぜ中心極限定理が成り立つのかという数理やその証明は数学的な話であるから深入り
する必要はない。我々にとって大切なことは、この法則が正しそうなことを直感的に納得
することと、この法則がなぜ標本調査や推測統計にとって重要なのかを理解することであ
る。
標本調査の結果が規則的に分布するということは、
「 そ の 規 則 性 を 逆 算 し て 」調 査 結 果 か
ら母集団の様子(実際に知りたかったこと)をきっちり推測できる、ということを意味し
て い る ( 図 3)。 前 回 、 試 み に 行 な っ た 内 閣 支 持 率 の 推 測 な ど は 、 こ の よ う な 逆 算 を 定 式 化
したものである。
「 無 作 為 抽 出 を す る 」と い う た だ こ れ だ け の こ と で 、中 心 極 限 定 理 が 生 ま
れ、推測統計のすべての手続きが導かれる。それゆえに、社会調査は可能な限り無作為抽
出に近づけることを目指すのである。
規則的な確率に
従った
標本抽出
(無作為抽出)
→
規則的な確率に
従った
標本の分布
→
規則的な確率に
従った
平均値の分布
(中心極限定理)
↓
確率の逆算にもとづいて母集団が推測できる!
図3
無作為抽出と推測統計
※厳密には、中心極限定理が成り立つのは、ある程度標本サイズが大きい場合である。
し た が っ て 、 今 回 の 実 験 の よ う に 5人 程 度 の 標 本 だ と 、 実 は よ ろ し く な い こ と も あ る の
だが、実際の社会調査ではそんな少人数なわけはないので、問題にはならない。
今日のポイント
① 推 測 統 計 で は 、 母 集 団 と 標 本 の 区 別 が 大 切 ( 例 : 𝑥̅ = 4.2な の か 、 𝜇 = 4.2な の か )。
②無作為抽出によって、中心極限定理が生まれ、その規則性を逆算することで、標
本から母集団を推測できる。だから無作為抽出は重要。
(連絡)
授 業 の 配 布 資 料 は 、 授 業 後 に Webで 公 開 し て い る の で 、 配 布 資 料 を 紛 失 し た 場 合 な ど は 、
な る べ く 各 自 で 補 っ て く だ さ い 。 http://www2.itc.kansai-u.ac.jp/~tyasuda/
7
資料 1
「 サ イ コ ロ 3 回 → 1~ 216 の 乱 数 」 換 算 表
1 回目=
1 回目=
3 回目
3 回目
2 回目
2 回目
1
2
3
4
5
6
37
38
39
40
41
42
7
8
9
10
11
12
43
44
45
46
47
48
13
14
15
16
17
18
49
50
51
52
53
54
19
20
21
22
23
24
55
56
57
58
59
60
25
26
27
28
29
30
61
62
63
64
65
66
31
32
33
34
35
36
67
68
69
70
71
72
1 回目=
1 回目=
3 回目
3 回目
2 回目
2 回目
73
74
75
76
77
78
109
110
111
112
113
114
79
80
81
82
83
84
115
116
117
118
119
120
85
86
87
88
89
90
121
122
123
124
125
126
91
92
93
94
95
96
127
128
129
130
131
132
97
98
99
100
101
102
133
134
135
136
137
138
103
104
105
106
107
108
139
140
141
142
143
144
1 回目=
1 回目=
3 回目
3 回目
2 回目
2 回目
145
146
147
148
149
150
181
182
183
184
185
186
151
152
153
154
155
156
187
188
189
190
191
192
157
158
159
160
161
162
193
194
195
196
197
198
163
164
165
166
167
168
199
200
201
202
203
204
169
170
171
172
173
174
205
206
207
208
209
210
175
176
177
178
179
180
211
212
213
214
215
216
注 : (1 回 目 の 出 目 - 1)×6 2 + (2 回 目 の 出 目 -1)×6 + 3 回 目 の 出 目
8
で算出できる。