統計学基礎Ⅱ


データの収集と定義
データの収集は、意外と難しいものである。データ
を収集する際には、対象を定義しなくてはならない
が、定義がきちんとできるものや、あいまいになる
ものなど、さまざまである。

データの種類
同じように数値であらわされたデータであっても、
実はさまざまな種類がある。データの種類が変われ
ば、それにともなって、どのようにまとめればよい
か、まとめ方も変わる。ここでは、データの種類と
尺度から見た分類について学ぶ。
問 3階建の建物があり、そのビルにはネズミが多く出る。
このビルにいるネズミの数を数えるにはどうすればよいか?
答え 1階から順番に、2階、3階と数えていけばよい。
→ しかし、1階で数えたネズミを、2階でもう1度数えることもあり
うる。1階から2階に移動した際に、ネズミが1階に逃げ込むことも
あるでしょう。
さて、どうする??
解決策(例)
 1階から3階まで、3人の人が同時に数える。
 ネットなどをはって、他の階に逃げないようにする。
 数え終わったネズミに、しるしをつけておく。
など
人間であれば、このような問題は起きないであろうか?
→ 教室に座っている学生の人数を数えることは簡単
→ 教室の机といすを片付けて、動き回っている学生の人数を数え
ることは、少し工夫が必要
<国勢調査における日本の人口>
平成22年10月1日現在、3か月以上日本に住んでいるか、これから3
か月以上日本に住む予定のすべての人を対象に、ふだん住んでいる
場所で調査する。
→ 日本の人口、日本国内のある地域(たとえば周南市)の人口
にこのような定義を与えている。
→ 単身者(1人ぐらしの学生、単身赴任)などは、注意が必要(重
複のリスクが高い)

周南市に「お年寄り」がどれぐらいいるのかを調べたい
⇒

このクラスに「イケメン」がどれぐらいいるのかを数えたい
⇒

「お年寄り」として、何歳以上かを定義する。
老年人口として65歳以上が広く用いられているが、これを用いるのであれ
ば、周南市にふだん住んでいる(3か月以上)65歳以上の人を数えればよ
い。
「イケメン」が定義できればよいが、これは難しい。
明らかに「イケメン」 「イケメンではない」であると、みんなが認めれば
それも定義になるのだが、それ以外があまりに多い。(自称「イケメン」な
ら、挙手すればよいのだが・・・。)
「貧困層」はどれぐらいいるのか?
⇒
「貧困層」 の定義は、微妙な例である。
たとえば、「年間収入200万円未満」を「貧困層」とおいてみると、いろい
ろと問題が生じる。
単身で180万円なのか、5人家族で180万円なのか。
持ち家があって180万円なのか、借家で家賃を払って180万円なのか。
→ 社会保障の分野などでは、条件を細分化「貧困層」を定義しようとして
いる。
データを収集する場合、その条件にあう人やモノなどを、何らかの形で定義
する必要がある。
10人の学生について下の表のような情報がえられた。
出席番号 学年 性別 出身地 身長
体重
家族の人数 テストの点数
1
2
男 山口県 170.3
61.2
1
60
2
3
女 山口県 155.4
48.6
4
90
3
4
男 広島県 168.2
54.2
5
80
4
2
男 福岡県 171.0
58.5
3
50
5
2
男 島根県 175.4
57.6
2
70
6
3
男 山口県 165.7
63.5
1
10
7
4
女 広島県 157.2
50.1
1
60
8
3
女 愛媛県 162.3
53.4
4
80
9
2
男 山口県 177.1
63.0
3
20
10
3
男 山口県 165.0
52.5
3
80
• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

データを分析する場合、性別や出身地などの情報はなん
らかの数値によって表されることが多い。
出席番号 学年 性別 出身地 身長
体重
家族の人数 テストの点数
1
2
1
35
170.3
61.2
1
60
2
3
2
35
155.4
48.6
4
90
3
4
1
34
168.2
54.2
5
80
4
2
1
40
171.0
58.5
3
50
5
2
1
32
175.4
57.6
2
70
6
3
1
35
165.7
63.5
1
10
7
4
2
34
157.2
50.1
1
60
8
3
2
38
162.3
53.4
4
80
9
2
1
35
177.1
63.0
3
20
10
3
1
35
165.0
52.5
3
80
この例では出身地(都道府県コード)、性別(男-1、
女-2)を数値で表している。
この表にある変量は次のように分類することができる。
質的変量(質的変数)
量的変量(量的変数)
性別、学年、出身地など
離散変量(離散変数)
家族の人数、テストの点数など
連続変量(連続変数)
身長、体重など
<質的変量と量的変量>



数値が量的な意味を持つ変量を量的変量、意味を持たないものを質
的変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。
また、学年は実際に大学に在学している年数とは異なり、分類のた
めの数値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味があ
るか」を考えてみる方法がある。
<離散変量と連続変量>



量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとら
ない変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数
値になる。(身長171.2865...cm)このような変量は連続変量であ
る。
テストの点数(離散変量)
50
51
52
53
身長(連続変量)
170
171
172
173
データの種類によって、まとめ方が異なる
※ データの尺度
データの分類方法としては、尺度による分類方法もある。
尺度による分類
名義尺度
名義尺度
質的変量
質的変量
順序尺度
順序尺度
間隔尺度
量的変量
比例尺度
離散変量
間隔尺度
量的変量
※ 離散変量と連続変量のそれ
ぞれに、間隔尺度と比例尺度の
ものがある。
連続変量
比例尺度
ⅰ)名義尺度(性別、出身地など)
データ同士を区別するためにつけたもの。性別で、男-1、女-2
などとしているが、男女を入れ替えても問題ない。
ⅱ)順序尺度(テストの順位、成績評価など)
テストの順位や成績評価など、順番に意味があるものである。これ
は、入れ替えることはできない。
出席番号 テストの点数 成績
1
60 可
2
90 優
3
80 優
4
50 不可
5
70 良
6
10 不可
7
60 可
8
80 優
9
20 不可
10
80 優
出席番号 成績
1
3
2
1
3
1
4
4
5
2
6
4
テストの点数をもとに、成
7
3
績をつけ、優-1、良-
8
1
2、可-3、不可-4とす
9
4
る。
10
1
順序尺度
この数値が少ない方が成績が良いことはわかる
が、等間隔ではなく、算術平均をとる意味はない。
ⅲ)間隔尺度(テストの点数、日付など)
テストの点数のように、順番に意味があり、さらにそれが等間隔に
並んでいるもの。比例尺度との違いは、ゼロが絶対的な意味を持つ
かどうか。
ⅳ)比例尺度(身長、体重、家族の人数など)
比率尺度ともいう。体重40kgは20kgの2倍というように、比にも意
味がある。
※ テストの点数 - ここでは、間隔尺度とした。その理由は、0点は「全
く能力がない」ということではなく、たまたまその問題に正解することが
できなかった(易しい問題になれば、何点か取れる)からである。
間隔尺度も比例尺度も、それぞれ離散変量の場合と連続変量の場合
がある。この講義では、データをまとめる際に尺度の違いは意識し
なくても構わない。