2. データのまとめ方 保健統計 2011年度 Ⅰ データの種類 Ⅱ 1変量データのまとめ方 a) 表・グラフによる記述 1) 棒グラフと折れ線グラフ 2) 度数分布表とヒストグラム、度数折れ線 3) 円グラフ、帯グラフ b) 特性値による記述 1) 代表値(中心的傾向) 2) 散布度(散らばりの傾向) Ⅲ 2変量データのまとめ方 a) 表・グラフによる記述 1) 分割表(クロス集計表) 2) 散布図 b) 特性値による記述 1) 相関係数 Ⅰ データの種類 10人の学生について下の表のような情報がえられた。 出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数 1 2 男 山口県 170.3 61.2 1 60 2 3 女 山口県 155.4 48.6 4 90 3 4 男 広島県 168.2 54.2 5 80 4 2 男 福岡県 171.0 58.5 3 50 5 2 男 島根県 175.4 57.6 2 70 6 3 男 山口県 165.7 63.5 1 10 7 4 女 広島県 157.2 50.1 1 60 8 3 女 愛媛県 162.3 53.4 4 80 9 2 男 山口県 177.1 63.0 3 20 10 3 男 山口県 165.0 52.5 3 80 • 学年、性別、出身地、身長、体重、家族の人数、テストの点数 という7つの変量(変数)について、10個の観測値を持つデー タ。 • データを分析する場合、性別や出身地などの情報はなんら かの数値によって表されることが多い。 出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数 1 2 1 35 170.3 61.2 1 60 2 3 2 35 155.4 48.6 4 90 3 4 1 34 168.2 54.2 5 80 4 2 1 40 171.0 58.5 3 50 5 2 1 32 175.4 57.6 2 70 6 3 1 35 165.7 63.5 1 10 7 4 2 34 157.2 50.1 1 60 8 3 2 38 162.3 53.4 4 80 9 2 1 35 177.1 63.0 3 20 10 3 1 35 165.0 52.5 3 80 この例では出身地(都道府県コード)、性別(男-1、女-2)を 数値で表している。 この表にある変量は次のように分類することができる。 質的変量(質的変数) 量的変量(量的変数) 性別、学年、出身地など 離散変量(離散変数) 家族の人数、テストの点数など 連続変量(連続変数) 身長、体重など <質的変量と量的変量> • • • 数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的 変量という。 家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま た、学年は実際に大学に在学している年数とは異なり、分類のための数 値である。 質的変量か量的変量を見分けるには、「算術平均をとって意味がある か」を考えてみる方法がある。 <離散変量と連続変量> • • • 量的変量はさらに離散変量と連続変量に分類される。 離散変量は家族の人数やテストの点数など、とびとびの値しかとらない 変量である。 一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に なる。(身長171.2865...cm)このような変量は連続変量である。 テストの点数(離散変量) 50 51 52 53 身長(連続変量) 170 171 172 173 データの種類によって、まとめ方が異なる Ⅱ 1変量データのまとめ方 • データのまとめ方には 1. 表・グラフによる記述(視覚的表現) 2. 特性値による記述(数値的表現) がある。 • 表・グラフによる記述は、データの特徴を一目でとら えやすくするためにおこなわれる。 • 特性値による記述は、データの特徴をまとめ、それ を用いた分析をおこなうことが中心的な役割である。 a) 表・グラフによる記述 1) 棒グラフと折れ線グラフ (テキスト40ページも参照) • ともにさまざまなデータの表現に利用される。 • データを年次別や都道府県別に集計したものは、これらのグラフにより 記述されることが多い。(集計する項目はこの場合質的変量である) • 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ) に利用される。棒グラフは時系列データにもクロスセクションデータ(1時 点におけるデータを何らかの項目でまとめたもの)にも利用される。 完全失業率の推移(男女計・季節調整値) 3.5 3 度数 2.5 2 1.5 1 2007年01月 2007年03月 2007年05月 2007年07月 2007年09月 2007年11月 2008年01月 2008年03月 2008年05月 2008年07月 2008年09月 2008年11月 2009年01月 2009年03月 2009年05月 2009年07月 2009年09月 2009年11月 2010年01月 2010年03月 2010年05月 2010年07月 2010年09月 2010年11月 2011年01月 (%) 6.0 5.5 5.0 4.5 4.0 3.5 3.0 年・月 出典:総務省統計局『労働力調査』 0.5 0 1人 2人 3人 4人 家族の人数 10人の学生の例から作成 5人 • 単位の異なる2つの時系列データを1つのグラフであらわすと き、折れ線グラフと棒グラフを重ね合わせて表現することが よくおこなわれる。 出生数と合計特殊出生率の推移 出生数(千人) (厚生労働省『平成21年 人口動態統計』より作成) 3 000 合計特殊出生率 年間出生数 2 500 合計特殊出生率 2 000 1 500 1 000 1947 1950 1953 1956 1959 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 500 年次 5.00 4.50 4.00 3.50 3.00 2.50 2.00 1.50 1.00 0.50 0.00 2) 度数分布表とヒストグラム、度数折れ線 (テキスト36-38ページも参照) • 度数分布表は、データをいくつかの階級に分け、その度数を 表の形で表したものであり、主に連続変量に利用される。 i 1 2 : m 合計 階級 下限 上限 c1 c2 c2 c3 cm - cm +1 階級値 度数 相対度数 累積度数 累積相対度数 y1 y2 f1 f2 f1/n f2/n f1 f1+f2 f1/n (f1+f2)/n ym fm n fm /n 1 f1+f2+・ ・ ・ +fm (f1+f2+・ ・ ・ +fm )/n – 階級値 - その階級を代表する値。階級の上限と下限をたして2で 割った値が用いられることが多い – 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め る割合 – 累積度数 - 度数を下の階級からたし上げた(累積した)もの – 累積相対度数 - 相対度数を累積したもの <ヒストグラムと度数折れ線> • ヒストグラムは度数分布表を棒グラフであらわしたものであり、 それぞれの棒は間隔をつめて描かれる。これは階級と階級 の間が連続していることによる。 • 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ で結んだものである。 身長のヒストグラム(20歳男子、107人) 20 度数 15 10 5 0 158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5 階級値 3) 円グラフ、帯グラフ • 円グラフは相対的な割合を表現するときに用いられる。 • 帯グラフは相対的な割合が、時間とともにどのように変化し ていくかなどを表現するときに用いられる。 学年別の割合 年齢3階級別総人口の推移 年 1930 20% 1950 40% 2年 3年 4年 0-14歳 15-64歳 65歳- 1970 1990 2005 40% 0% 10人の学生の例から作成 20% 40% 60% 80% 100% 出典:総務省統計局『国勢調査』 (テキスト42 - 43ページも参照) b) 特性値による記述 1) 代表値(中心的傾向) • ある集団についてのデータ(例えば50人のクラスの身長な ど)があるとき、集団の特徴をあらわすには、その中心的傾 向を示す数値が必要となる。 • 中心的傾向をあらわす数値として、 – 算術平均 – メディアン(中央値) – モード(最頻値) の3種類がある。 <算術平均> • 算術平均 = データの合計 ÷ データ数 (例) 10人の数学のテストの点数 出席番号 点数 x 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 60 90 80 50 70 10 60 80 20 80 600 60 10 10 <メディアン(中央値)> • メディアン → データを大きさの順に並べたときに 真ん中にくる値。データ数が偶数のときは真ん中の 2つの値を足して2で割る。 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 点数の低い順に並べ替え 10 20 50 60 60 70 80 80 80 90 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン <モード(最頻値)> • モード - データの中で最も多く出てくる値。10 人のテストの点数の例では 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 80点が3人と最も多い。モードは80となる。 † データのとりうる値が多いとき、データの最も多く出てくるものではな く、度数分布表にしたときに、最も度数の多い階級の階級値をモード と考える。 • 下の図は貯蓄現在高階級別の世帯分布である。 • 貯蓄現在高が算術平 均(1657万円)より低い 世帯は全世帯の3分の 2におよぶ。ほとんどの 世帯はメディアンである 995万円ほどの貯蓄も なく、200万円未満の貯 蓄しかない(ここがモー ドである)。 • 少数の大金持ちと多数 の庶民がいるため、こ のようなことがおこる。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#f1) b) 特性値による記述 1) 散布度(散らばりの傾向) 教員A • チャイムの5分後に必ず教室 にくる。 教員B • チャイムと同時に教室にくるこ ともあれば、15分以上遅れる こともある。 • 2人の教員はともに平均してチャイムの5分後に教室にくる • 2人の教員の特徴を表現するために、平均だけでは不十分。 →散らばりの尺度の必要性 • 散らばりの傾向をあらわす尺度として – 分散、標準偏差 – レンジ(範囲)、四分位偏差 などがある。 <分散> • 分散=偏差2乗和÷(データ数-1) 偏差2乗和 - 個々のデータから算術平均を引いたもの(偏 差)を2乗して、すべて加えたもの。 n ( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2 s n 1 2 (x x) i 1 2 i n 1 10人のテストの点数の例では (60 60) 2 (90 60) 2 (80 60) 2 (50 60) 2 (70 60) 2 (10 60) 2 (60 60) 2 (80 60) 2 (20 60) 2 (80 60) 2 s 10 1 2 6400 711 .11 9 出席番号 点数 1 60 2 90 3 80 4 50 5 70 6 10 7 60 8 80 9 20 10 80 -40 20 400 1600 400 算術平均60を引く 偏差 0 30 20 -10 10 -50 0 20 2乗を求める 0 900 400 100 100 2500 0 合計を求める 6400 データ数-1(10-1)で割る 711.11 分散 <標準偏差> • 標準偏差 ⇒ 分散の平方根 n s s2 (x x) i 1 2 i n 1 10人のテストの点数の例では s 711.11 26.666 ※ 2人の教員が教室に来る時間の例 回 教員A 教員B 1 4.5 0 2 5.3 6 3 4.8 4 4 5 5 5 5.5 11 (単位:分) 6 4.7 4 7 5.2 8 8 4.8 5 9 4.9 1 10 5.3 6 教員A xA 4.5 5.3 4.8 5 5.5 4.7 5.2 4.8 4.9 5.3 50 5 10 10 (4.5 5) 2 (5.3 5) 2 (4.8 5) 2 (5 5) 2 (5.5 5) 2 (4.7 5) 2 (5.2 5) 2 (4.8 5) 2 (4.9 5) 2 (5.3 5) 2 s 10 1 2 2 2 2 2 2 (0.5) (0.3) (0.2) (0) (0.5) (0.3) (0.2) 2 (0.2) 2 (0.1) 2 (0.3) 2 10 1 0.25 0.09 0.04 0 0.25 0.09 0.04 0.04 0.01 0.09 10 1 0.9 0.1 10 1 2 A sA 0.1 0.316 教員B xB 0 6 4 5 11 4 8 5 1 6 50 5 10 10 (0 5) 2 (6 5) 2 (4 5) 2 (5 5) 2 (11 5) 2 (4 5) 2 (8 5) 2 (5 5) 2 (1 5) 2 (6 5) 2 s 10 1 (5) 2 (1) 2 (1) 2 (0) 2 (6) 2 (1) 2 (3) 2 (0) 2 (4) 2 (1) 2 10 1 25 1 1 0 36 1 9 0 16 1 10 1 90 10 10 1 2 B sB 10 3.162 s A2 sB2 となり、教員Bの分散の方が大きいことがわかる。 標準偏差についても、 s A sB と教員Bの方が大きくなる。 <レンジ(範囲)> • レンジ ⇒ データの取りうる範囲 レンジ = 最大値 - 最小値 • 10人のテストの点数の例では 90 - 10=80 <四分位偏差> • データを大きさの順(小さい順)に並べて、4分割す る点をq1,q2,q3とする。 • このとき、次式で定義されるQを四分位偏差という。 (q3 q1 ) Q 2 最小値 q1 q2 q3 最大値 (例)9人のテストの点数が次のようになってい たとする。 出席番号 点数 1 60 2 90 3 80 4 50 5 6 7 8 9 70 10 60 80 20 点数の低い順に並べ替え 10 20 50 60 60 最小値 q1 q2 70 80 q3 80 90 最大値 (メディアン) q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値 Q (80 50) 30 15 2 2 ※ 補足(パーセンタイルについて) • 四分位偏差はパーセンタイルという概念を用いて説明することもできる。 • 保健分野では、このパーセンタイルがよく用いられるようである。 • たとえば、データを小さい順に並べたときに、10%に当たる値のことを10 パーセンタイル値という。 10% 最小値 10パーセンタイル値 最大値 • 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75 パーセンタイル値である。 • 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と いえる。 最小値 q1 q2 q3 = = = 25パーセンタイル値 最大値 75パーセンタイル値 50パーセンタイル値 <参考> 第100回(2011年2月)国家試験問題 [午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。 1. 1か月前と比べ体重が10%増加した。 2. 同年齢で同性の児の平均体重よりも10%軽い。 3. 同年齢で同性の児の身長相応の体重よりも10%軽い。 4. 同年齢で同性の児100人中、10番目に軽い体重である。 正答 4 ※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。 [問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値 と評価された。 正しいのはどれか。 1. 同年齢女児の10%相当数がこの女児と同じ身長である。 2. 同年齢の女児の100人中10番目に低い身長である。 3. 女児の身長は体重相応の身長より10%低い。 4. 同年齢女児の平均身長より10%低い。 正答 2 Ⅲ 2変量データのまとめ方 • 2変量データ → 2つの対になったデータ (例)あるクラスの英語と数学のテストの点数 ※ A組の英語の点数とB組の数学の点数は2つのデー タであるが、対になっていない。 ※ 2変量データはその組合せを変えることはできない → イチロー君の英語とヒデキ君の数学を組み合わ せても、意味がない。 • 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述 a) 表・グラフによる記述 1) 分割表(クロス集計表) • 2つの項目でクロス集計したもの (テキスト38 - 39ページ参照) スープを 飲んだ 症状あり 症状なし 合計 45 5 50 スープを 飲まなかった 2 23 25 合計 47 28 75 • 連続変量の場合は、2変量の度数分布表となる。 なでしこジャパン ロンドン五輪予選ベンチ入りメンバー 氏名 福元 美穂 海堀 あゆみ 近賀 ゆかり 矢野 喬子 上尾野辺 めぐみ 岩清水 梓 鮫島 彩 田中 明日菜 熊谷 紗希 澤 穂希 宮間 あや 川澄 奈穂美 阪口 夢穂 宇津木 瑠美 安藤 梢 丸山 桂里奈 大野 忍 永里 優季 永里 亜紗乃 高瀬 愛実 身長(cm) 体重(kg) 165 66 170 64 161 53 164 55 157 54 162 54 162 53 164 52 171 59 164 55 157 50 157 50 165 58 168 63 164 57 163 56 154 50 168 60 165 58 165 59 体 重 48-51 51-54 54-57 57-60 60-63 63-66 66-69 計 150-155 155-160 1 2 0 0 0 1 0 0 0 0 0 0 0 0 1 3 身長 160-165 165-170 170-175 0 0 0 3 0 0 4 0 0 1 3 1 0 1 0 0 1 1 0 1 0 8 6 2 計 3 3 5 5 1 2 1 20 • 2次元のヒストグラムで表すことができる。 なでしこジャパンの身長と体重 4 度数 3 2 1 0 身長 体重 2) 散布図 • 横軸にX、縦軸にYをとった座標軸上に、個々のデータを あらわしたもの。 • 相関係数と密接な関係があり、相関係数が±1に近いほ ど、散布図は直線に近くなる。 正の相関(r>0) 負の相関(r<0) •Xが大きな値をとる ほど、Yも大きな値を とる。 •Xが大きな値をとる ほど、Yは小さな値を とる。 無相関(r=0) •Xの値とYの値に一 定の傾向がみられな い。 b) 数値による記述 1) 相関係数 r ( X X )(Y Y ) ( X X ) (Y Y ) 2 2 • 相関係数 r は2変量間の関連の強さを表す尺度 であり、-1と1の間の値をとる。 r>0 正の相関 1に近いほど関連度が強い r<0 負の相関 -1に近いほど関連度が強い r=0 無相関 (テキスト126 - 128ページ参照) 死亡率と65歳以上人口の割合 なでしこジャパンの身長と体重 (都道府県別、平成17年) 70 12.0 11.0 死亡率(‰) 体重(kg) 65 60 55 10.0 9.0 8.0 7.0 50 6.0 45 150 155 160 165 身長(cm) r=0.796 170 175 16.0 18.0 20.0 22.0 24.0 26.0 65歳以上人口の割合(%) r=0.977 28.0
© Copyright 2025 ExpyDoc