クロス集計表と仮説検定

9章：データの品質
9章のポイント






誤差とは何か
質のよいデータとは？
標本抽出
無作為抽出（ランダムサンプリング）
標本のサイズ→大数の法則
実験（調査）のときの注意
誤差とは何か？

観測値（データ)は真の値と誤差からなる
観測値＝真の値＋誤差
誤差には「偏り」と「偶然誤差（ばらつき、残差とも言
う）」
の2種類がある。
観測値＝真の値＋偏り＋残差
＝真の値
＋（平均値ー真の値）
＋（観測値ー平均値）
誤差とは何か？（２）

偏り：


調査の際の不適切な質問のしかたや測定
機器の狂いなどでシステマティックに真の値
からずれた観測値を生み出す。
偶然誤差

観測の際に偶然に生じる誤差によるばらつ
き→標本が大きければだんだん小さくなる
質のよいデータとは？


データに偏りがない（正確なデータ）
偶然誤差が少ない（精密なデータ）
標本とは

対象とする集団の性質を調べる際に、集
団全体をすべて実験（調査）することは不
可能なので、ランダムに標本（サンプル）
を抽出する。
標本抽出で重要なこと

無作為抽出


母集団の特定の下位集団のみに偏らない
ように名簿から無作為に抽出する
標本集団の代表性
標本のサイズ


標本が大きくなればなるほど偶然誤差に
よる影響が少なくなる→大数の法則
ただし、実施上の制約から無駄に大きい
サンプルにすることは好ましくない。
調査・実験の際の注意


インフォームド・コンセント
質問の仕方、実験の教示で被験者を特定
の回答へ誘導しない
→偏りをなくす
10章：クロス集計票と仮説検定
推定

標本から得られた結果に基づいて母集
団の性質はこうであるというように推論
する。


現在の大学生の数学の学力は平均的に
どれくらいであろうか？
有権者の中で現在の総理大臣を支持して
いる人の割合はどれくらいであろうか？
統計的推論

データ分析を行う目的


データのもつ情報から一定の統計的推論
（判断）を導くことである。
統計的推論には二つのタイプがある。


推定
仮説検定←今日の話の中心はこちら
仮説検定

母集団の性質について仮定したある事柄
（命題）が正しいかどうかを標本について
調べた結果から判定すること。
⇒偶然誤差を除外しても命題が正しいか
どうかを判定する。


現在の高校生の学力は、５年前の高校生の
学力に比較して低いといえるだろうか？
男性と女性で平均初任給が異なるだろう
か？
仮説検定
標本抽出
計測
標本
データ
母
集
団
「命題が集団全体にとって正しいだろうか？」
統計処理
仮説検定
情報
命題
考察
「たぶんこういう性質があるといえるだろう」
仮説検定による判断ー事例①



あるデパートでは、販売キャンペーンの
ために1年間に何万通ものDMを出して
いる。
従来の方法では、DMに対する顧客の
反応率は10％（受注の割合）であった。
このデパートの経営者は、ダイレクト・
メールの方法を新しい方法に変えて効
果（反応率）を高めることはできないか
と考えている。
事例①つづき


そこで、試験的に1000人（標本）に新しい方法
でD Mを発送してみることにした（例えば、イン
ターネットを利用する方法など）。
その結果によって新しい方法が効果的である
と判断されたならば新しい方法に切りかえるこ
とにする。
事例①つづき



では、新しい方法を用いて1000人に送っ
た結果がどれくらいあったら、新しい方法
は効果的であったと言えるだろうか？
ちょっと考えてみよう。
ヒント：従来の方法の反応率は10％
事例①つづき



仮に反応率が10％以下、つまり受注数が1000
人のうち100人以下であるならば、新しい方法
が従来の方法よりも効果的であると思わない
だろう。
それでは、受注が102人ならば？反応率は
10.2％であるから10％よりは高いがこの程度
ではまだ新しい方法が効果的であると断言は
できない。
では、150人ならば？250人ならばどうだろう
か？
事例① つづき


通常、受注が多くなればなるほど新しい方
法が効果的であると認める方向に判断が
傾いていくだろう。
10％という従来の方法では、反応率が
25％（1000人のうち250人の受注）という
数字を出すことは難しい（可能性は少な
い）と思うからである。つまり新しい方法の
効果があると判断するだろう。
統計的な仮説検定へ



先ほどの事例では、新しい方法に対する反応率
が従来の方法の10％よりも上に大きく離れるほ
ど新しい方法が従来の方法より効果的であると
考えた。
では、具体的にどこを境界にして、すなわち受
注がいくら以上であったら新しい方法が効果的
であるとし、従来の方法から新しい方法へ切り
かえるのだろうか？
統計学では、経営者の“直感”ではなく、客観的
な基準、ルールに基づき仮説検定を行う。
仮説設定のルール

仮説は二つ設定する！




棄却したい仮説を帰無仮説とする。先の例では、
「新しい方法と従来の方法には違いがない」。
帰無仮説では、データの差は全て偶然誤差であっ
て実質的な差はないと考える。
帰無仮説の反対の仮説（証明したいと思う仮説）を
対立仮説とする。先の例では、「新しい方法は、従
来の方法に比べて効果が高い」。
棄却したい仮説を正しいと仮定した上で、検定を行
う。自分にとって不利な条件にすることがポイント。
これは、背理法の考え方に由来する。
仮説検定の論理：背理法
＜背理法の考え方＞
 命題「りんごは赤い」
 赤いりんごをたくさんもって来ても、命題を証明
することはできない。
 しかし、「りんごは赤くない」例を一つでも示せれ
ば、例えば青い（赤以外の）りんごをもってくれ
ば、命題を否定できる。
 この場合、帰無仮説は「りんごは赤くない」、対
立仮説は「りんごは赤い」
背理法の考え方




帰無仮説がただしいとき、このようなデー
タの特性をもつ標本が現れる確率はどの
くらいか？
母集団から100回標本抽出をしたとして、
この標本のような結果がでる確率は非常
に少ない
もともとの仮説が間違っていたと結論
帰無仮説を棄却
クロス集計表とモザイク図

アメリカの自動車製造業のマーケティング
戦略立案教科書166P


年齢、性別、未婚・既婚別と所有する自動車
のタイプについての情報を分析する。
Databookフォルダの中の“Carpool.jmp”とい
うサンプルデータをロード
“Analyze”から“Fit Y by X”を選択
変数の指定
“Analyze”から“Fit Y by X”で、Yに「自動車のタイプ
（Type）」とXに「未既婚の別（Marital Status)」を指定し
てみよう。
※X、Yがともに名
義尺度又は、順序
尺度の場合は、自
動的にモザイク図
とクロス集計表が
表示される。
表示結果
モザイク図
Y軸を自動車のタイプでをX軸を未既婚の
比率で分割し、色分けしている。
クロス集計表（分割表）
二つの変数群の同時分布を表で表したもの。
カテゴリー別のデータの数値的な情報が得ら
れる。
より詳しく見るために、％表示をしたい場合は、
“Crosstabs”右側の三角形の印から
“Col%”(縦方向）、“Row%”(横方向）、
“Total%”(全体）を選択する。
表示結果の読み取り
既婚と未婚では
選ぶタイプが違う。
既婚の多くは、
ファミリータイプの
車を所有している！
クロス集計表で
読むと数値的に
理解できる
仮説検定（1）

モザイク図及びクロス集計表によって得られた
データを数値的、視覚的に要約して考察した。

その考察を、標本が偏りなく取られたとして、集
団全体(母集団）の状況の推測として利用しても
よいだろうか？
ある調査で得られた標本のモザイク図及びクロス集計表では、未既婚別で
自動車のタイプが異なることが分かったが、それを全体に当てはめてもよ
いのだろうか？単なる標本誤差による偶然の結果の可能性は？
仮説検定（2）
標本抽出
計測
標本
データ
母
集
団
「命題が集団全体にとって正しいだろうか？」
統計処理
仮説検定
情報
命題
考察
「たぶんこういう性質があるといえるだろう」
仮説検定の論理（1）
■命題の正しさを証明するために、２つの仮説を用意する
帰無仮説（null hypothesis)：H0棄却したい仮説
命題がまったく正しくないという状態を考える。
例；「未既婚と車のタイプは関連がまったくない」
対立仮説(alternative hypothesis)：H１帰無仮説と反対の仮説
命題の程度は分からないが、帰無仮説が誤りならば、
必ず対立仮説は正しいと考える。
例；「未既婚と車のタイプは関連がある」
⇒統計学は背理法の考え方を採用している。
仮説検定のステップ
ステップ1：命題を立てる
 ステップ2：帰無仮説、対立仮説を立てる
（ステップ3：仮説検定の手法の選択）
 ステップ4：有意水準を設定
 ステップ5：検定を実行（統計統計量、Ｐ値を計算）
 ステップ6：帰無仮説の棄却/棄却しない⇒結論



P値<有意水準:帰無仮説を棄却⇒命題は正しい
P値>有意水準：帰無仮説を棄却できない（採択）⇒
標本数、分析方法などの見なおし⇒命題は正しくな
い、再調査の結論
有意水準（α）


有意水準α とは、仮説検定において帰無仮説を棄却す
る基準となる確率であり、危険率とも言う。
 有意水準は任意に設定する。通常、５％、１％など
を使う（α＝0.05、0.01）。
 結論をより厳密にしたい場合は1％の値を用いる
例えば、有意水準5％であれば、標本抽出による同じ調
査を同じ母集団から異なる標本で100回繰り返したとき
に、誤って帰無仮説を棄却する回数が平均5回はおこる
という水準←第一種の誤りの危険率と同じ
P値（有意確率）

Ｐ値は、帰無仮説Hoが真として標本が、その
ような母集団から得られる上側（外側）確率



検定統計量（P値に対応する）を計算して、有意水
準αに対応する値と比較←伝統的な方法
あるいは、Ｐ値とαを直接比較←最近の主流
有意水準αとｐ値から帰無仮説を棄却するかど
うかを決める




P値≦α :（OR 統計検定量＞ αに対応する値）
⇒帰無仮説を棄却
P値> α：（OR 統計検定量＜ αに対応する値）
⇒帰無仮説を棄却しない
検定統計量

検定統計量とは



仮説検定の種類により、検定統計量は異なる
母集団に関する統計的仮説を評価するための数値
で、母集団から抽出された標本データから計算され
る。P値は、検定統計量と対応関係にある。
クロス集計表の検定（カイ二乗検定）の場合は


カイ二乗値（χ 2）が検定統計量
カイ二乗値は、自由度{（横のセル数-1）×（縦のセ
ル数-1）}によって決められる分布（χ 2分布）に従う
ことが分かっている。
カイ二乗分布
例：自由度3のカイ二乗分布
ｐ値≦α帰無仮説を棄却なので、αが1％の時
（青）は帰無仮説を棄却する。しかし、5％の
時（緑）は棄却できない。※面積が確率。
α＝0.05
P値
α＝0.01
検定統計量
カイ二乗値
クロス集計の検定①

クロス集計の検定（カイ二乗検定）

質的データにおける二群間の関係性を調べるため
の仮説検定の手法
結婚ステイタス
自
動
車
の
タ
イ
プ
既婚
未婚
小計
ファミリー車
119
36
155
スポーツ車
45
55
100
仕事車
32
16
48
小計
196
107
303（総計）
クロス集計の検定②

帰無仮説、対立仮説の設定



検定手法の選択


帰無仮説：未既婚の別と自動車のタイプは無関係
（独立）である。
対立仮説：未既婚の別により自動車のタイプに差が
ある。
質的データの関係性を見るのでクロス集計の検定
（独立性の検定）を行う
有意水準の設定

5％とする。a=0.05
クロス集計の検定③

検定統計量の計算と検定の実行
χ 2＝ Σ（観測値-期待値）2
期待値
•
未既婚別と車のタイプの例では、 χ 2 ＝26.963
カイ二乗値は、自由度{（横のセル数-1）×（縦のセル数-1）}のカイ
二乗分布に分布に従うことが分かっている。
∴この例では、自由度2のカイ二乗分布に従う。
★最近は、統計ｿﾌﾄが自動的にP値を計算してくれるので数表を使う
必要はなくなりつつある。
JMP－INも計算してくれるので、手計算する必要はない
クロス集計の検定④

帰無仮説の棄却/採択の判断
カイ二乗分布表で自由度2、有意水準5％（a=0.05）に対応
する値をみると、5.9914である。
5.9914＜26.963なので帰無仮説は棄却できる。
JMP－INの結果をみると、P値が＜0.0001と記載されており、カイ二乗
分布の数表を見て検定統計量を比較する必要がないことが分かる。
つまり、P値は＜0.0001なので、有意水準が5％（a=0.05)であっても、1％
（0.001）でもｐ値<αになり帰無仮説を棄却できることが分かる。
クロス集計の検定⑤

Carpoll.jmpのデータの表示結果をチェック
PearsonのProb>ChiSq
を見る。統計量から計算されたＰ値
Χ二乗値
未既婚と車種は統計的に
関係がある
Ｐ値が.0001以下で
あることが分かる。
つまり、1万に１回も
無関係であるような
標本は得られない。
有意水準が5％でも1％で
も帰無仮説は棄却される
余裕のある人は①計算式

カイ二乗値の手計算をしてみよう
χ 2＝ Σ（観測値-期待値）2
期待値
期待値
カイ二乗値
一般に、変数群間に関連がある場合（帰無仮説が棄却できる）は、カイ二乗値は大きな値になる。
余裕のある人は③表の見方
B1
A1
A2
：
Ai
：
Ak
合計
B2
...
Bj
O1j
O2j
：
Oij
：
Okj
n・j
Oi1
Oi2
...
n・1
n・2
...
観測値⇒
期待値⇒
×
÷
...
Bm
合計
...
Oim
...
n・m
n1・
n2・
：
ni・
：
nk・
n
余裕のある人は②計算例

式はややこしそうだったが、実は簡単

例えば、男性と女性と免許の有無に差があ
るかどうかを見てみよう。
カイ二乗値＝{4-（5*6/13）｝2/ （5*6/13） +｛2-（8*6/13）｝2 /
（8*6/13）+｛1-（5*7/13）｝2 / （5*7/13） +｛6-（8*7/13）｝2 /
（8*7/13）＝37.452
ありなし合計
4
2
6
男子
※自由度1のカイ二乗分布に従う。
この場合、有意水準5％で棄却される。女子
1
6
7
5
8
13
合計
検定結果からの結論の導き方

帰無仮説が棄却できる（ｐ値≦α）


帰無仮説が棄却できない（ｐ値＞α）





積極的に命題（対立仮説）の正当性を主張できる
対立仮説が誤っているとは必ずしも言えない
標本の大きさやデータの品質（誤差のばらつきや偏
り）に依存
標本を大きくしたり、調査、実験方法の改良の必要
がある。
つまり、今あるデータだけでは何も言えない
検定結果と命題が真であるかは別

知見にあった（一般常識に照らして）結論を導く
検定における2種類の誤り①

第1種の誤り



帰無仮説が正しいのに、棄却してしまう可能性
有意水準αは第一種の誤りが起こる可能性と同じ。
第2種の誤り



帰無仮説が正しくないのに、棄却しない（採択）する
可能性。βで表されるときもある。
母集団の平均や分散、標本数が分かっていないと
第2種の誤りをおこす確率を計算することはなかな
かできない。⇒深い統計知識が必要。
そのため、容易に決定できる第一種の誤りを基準
に検定できる仮説を設定している。
検定における2種類の誤り②
帰無仮説を棄帰無仮説を棄
却する
却しない
帰無仮説が
真である
第1種の誤り
（α）
正しい判断
帰無仮説が
偽りである
正しい判断
第2種の誤り
（β）

Download Report