データの収集と定義 データの収集は、意外と難しいものである。データ を収集する際には、対象を定義しなくてはならない が、定義がきちんとできるものや、あいまいになる ものなど、さまざまである。 データの種類 同じように数値であらわされたデータであっても、 実はさまざまな種類がある。データの種類が変われ ば、それにともなって、どのようにまとめればよい か、まとめ方も変わる。ここでは、データの種類と 尺度から見た分類について学ぶ。 問 3階建の建物があり、そのビルにはネズミが多く出る。 このビルにいるネズミの数を数えるにはどうすればよいか? 答え 1階から順番に、2階、3階と数えていけばよい。 → しかし、1階で数えたネズミを、2階でもう1度数えることもあり うる。1階から2階に移動した際に、ネズミが1階に逃げ込むことも あるでしょう。 さて、どうする?? 解決策(例) 1階から3階まで、3人の人が同時に数える。 ネットなどをはって、他の階に逃げないようにする。 数え終わったネズミに、しるしをつけておく。 など 人間であれば、このような問題は起きないであろうか? → 教室に座っている学生の人数を数えることは簡単 → 教室の机といすを片付けて、動き回っている学生の人数を数え ることは、少し工夫が必要 <国勢調査における日本の人口> 平成22年10月1日現在、3か月以上日本に住んでいるか、これから3 か月以上日本に住む予定のすべての人を対象に、ふだん住んでいる 場所で調査する。 → 日本の人口、日本国内のある地域(たとえば周南市)の人口 にこのような定義を与えている。 → 単身者(1人ぐらしの学生、単身赴任)などは、注意が必要(重 複のリスクが高い) 周南市に「お年寄り」がどれぐらいいるのかを調べたい ⇒ このクラスに「イケメン」がどれぐらいいるのかを数えたい ⇒ 「お年寄り」として、何歳以上かを定義する。 老年人口として65歳以上が広く用いられているが、これを用いるのであれ ば、周南市にふだん住んでいる(3か月以上)65歳以上の人を数えればよ い。 「イケメン」が定義できればよいが、これは難しい。 明らかに「イケメン」 「イケメンではない」であると、みんなが認めれば それも定義になるのだが、それ以外があまりに多い。(自称「イケメン」な ら、挙手すればよいのだが・・・。) 「貧困層」はどれぐらいいるのか? ⇒ 「貧困層」 の定義は、微妙な例である。 たとえば、「年間収入200万円未満」を「貧困層」とおいてみると、いろい ろと問題が生じる。 単身で180万円なのか、5人家族で180万円なのか。 持ち家があって180万円なのか、借家で家賃を払って180万円なのか。 → 社会保障の分野などでは、条件を細分化「貧困層」を定義しようとして いる。 データを収集する場合、その条件にあう人やモノなどを、何らかの形で定義 する必要がある。 10人の学生について下の表のような情報がえられた。 出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数 1 2 男 山口県 170.3 61.2 1 60 2 3 女 山口県 155.4 48.6 4 90 3 4 男 広島県 168.2 54.2 5 80 4 2 男 福岡県 171.0 58.5 3 50 5 2 男 島根県 175.4 57.6 2 70 6 3 男 山口県 165.7 63.5 1 10 7 4 女 広島県 157.2 50.1 1 60 8 3 女 愛媛県 162.3 53.4 4 80 9 2 男 山口県 177.1 63.0 3 20 10 3 男 山口県 165.0 52.5 3 80 • 学年、性別、出身地、身長、体重、家族の人数、テストの点数 という7つの変量(変数)について、10個の観測値を持つデー タ。 データを分析する場合、性別や出身地などの情報はなん らかの数値によって表されることが多い。 出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数 1 2 1 35 170.3 61.2 1 60 2 3 2 35 155.4 48.6 4 90 3 4 1 34 168.2 54.2 5 80 4 2 1 40 171.0 58.5 3 50 5 2 1 32 175.4 57.6 2 70 6 3 1 35 165.7 63.5 1 10 7 4 2 34 157.2 50.1 1 60 8 3 2 38 162.3 53.4 4 80 9 2 1 35 177.1 63.0 3 20 10 3 1 35 165.0 52.5 3 80 この例では出身地(都道府県コード)、性別(男-1、 女-2)を数値で表している。 この表にある変量は次のように分類することができる。 質的変量(質的変数) 量的変量(量的変数) 性別、学年、出身地など 離散変量(離散変数) 家族の人数、テストの点数など 連続変量(連続変数) 身長、体重など <質的変量と量的変量> 数値が量的な意味を持つ変量を量的変量、意味を持たないものを質 的変量という。 家族の人数は数値に意味があるが、性別などは数値に意味が無い。 また、学年は実際に大学に在学している年数とは異なり、分類のた めの数値である。 質的変量か量的変量を見分けるには、「算術平均をとって意味があ るか」を考えてみる方法がある。 <離散変量と連続変量> 量的変量はさらに離散変量と連続変量に分類される。 離散変量は家族の人数やテストの点数など、とびとびの値しかとら ない変量である。 一方、身長や体重などは正確に測ろうとする場合、無限に細かい数 値になる。(身長171.2865...cm)このような変量は連続変量であ る。 テストの点数(離散変量) 50 51 52 53 身長(連続変量) 170 171 172 173 データの種類によって、まとめ方が異なる ※ データの尺度 データの分類方法としては、尺度による分類方法もある。 尺度による分類 名義尺度 名義尺度 質的変量 質的変量 順序尺度 順序尺度 間隔尺度 量的変量 比例尺度 離散変量 間隔尺度 量的変量 ※ 離散変量と連続変量のそれ ぞれに、間隔尺度と比例尺度の ものがある。 連続変量 比例尺度 ⅰ)名義尺度(性別、出身地など) データ同士を区別するためにつけたもの。性別で、男-1、女-2 などとしているが、男女を入れ替えても問題ない。 ⅱ)順序尺度(テストの順位、成績評価など) テストの順位や成績評価など、順番に意味があるものである。これ は、入れ替えることはできない。 出席番号 テストの点数 成績 1 60 可 2 90 優 3 80 優 4 50 不可 5 70 良 6 10 不可 7 60 可 8 80 優 9 20 不可 10 80 優 出席番号 成績 1 3 2 1 3 1 4 4 5 2 6 4 テストの点数をもとに、成 7 3 績をつけ、優-1、良- 8 1 2、可-3、不可-4とす 9 4 る。 10 1 順序尺度 この数値が少ない方が成績が良いことはわかる が、等間隔ではなく、算術平均をとる意味はない。 ⅲ)間隔尺度(テストの点数、日付など) テストの点数のように、順番に意味があり、さらにそれが等間隔に 並んでいるもの。比例尺度との違いは、ゼロが絶対的な意味を持つ かどうか。 ⅳ)比例尺度(身長、体重、家族の人数など) 比率尺度ともいう。体重40kgは20kgの2倍というように、比にも意 味がある。 ※ テストの点数 - ここでは、間隔尺度とした。その理由は、0点は「全 く能力がない」ということではなく、たまたまその問題に正解することが できなかった(易しい問題になれば、何点か取れる)からである。 間隔尺度も比例尺度も、それぞれ離散変量の場合と連続変量の場合 がある。この講義では、データをまとめる際に尺度の違いは意識し なくても構わない。
© Copyright 2024 ExpyDoc