2015 年 4 月 13 日 第 2 回 1 変量データの整理(2) 村澤 康友 前回のキーワード 統計学,記述統計学,統計的推測,推測統計学,母集団,標 本,実験データ,調査データ,横断面データ,時系列デー タ,パネル・データ,全数調査,標本調査,1 変量データ, 多変量データ,質的変量,量的変量 1 目次 1 変量の尺度(p. 27) 3 2 度数分布(p. 18) 6 3 記述統計量(p. 28) 2 20 1 変量の尺度(p. 27) 変量の尺度によりデータ整理の方法が異なる. 4 種類の尺度 1. 2. 3. 4. 名義尺度 順序尺度 間隔尺度 比尺度 3 質的変量の尺度 定義 1. 順序がない類別を名義尺度という. 注: 「最大値」「最小値」「平均」は無意味. 例:婚姻状態(未婚・既婚・離別・死別) 定義 2. 順序がある類別を順序尺度という. 注: 「平均」は無意味. 例:学歴(中卒・高卒・大卒) 4 量的変量の尺度 定義 3. 間隔のみが意味をもつ量を間隔尺度という. 例:摂氏・華氏,時刻 定義 4. 比率が意味をもつ量を比尺度という. 例:身長,体重,時間,絶対温度 5 2 度数分布(p. 18) まず最初に観測値の範囲をいくつかの階級に分割する. 定義 5. ある階級に含まれる観測値の数を,その階級の度 数という. 定義 6. (度数)/(観測値の総数)を相対度数という. 6 例:試験の得点の度数分布表(p. 18) 階級 0∼10 10∼20 20∼30 30∼40 40∼50 50∼60 60∼70 70∼80 80∼90 90∼100 計 度数 相対度数 12 10 19 42 72 82 54 38 25 19 373 7 .032 .027 .051 .113 .193 .220 .145 .102 .067 .051 1.000 ヒストグラム(p. 19) 定義 7. 横軸に値をとり,各階級の(相対)度数を柱の面積 で表したグラフをヒストグラム(柱状グラフ)という. 注:柱の高さで表す棒グラフとは異なる.階級分けしない離 散変量は棒グラフでよい. 注:ヒストグラムの印象は階級の取り方により異なる.粗す ぎても細かすぎてもいけない. 8 15 10 5 0 Frequency 20 25 30 例:[0,1] 上の一様乱数(階級幅 0.2) 0.0 0.2 0.4 0.6 data 9 0.8 1.0 10 5 0 Frequency 15 例:[0,1] 上の一様乱数(階級幅 0.1) 0.0 0.2 0.4 0.6 data 10 0.8 1.0 6 4 2 0 Frequency 8 10 例:[0,1] 上の一様乱数(階級幅 0.05) 0.0 0.2 0.4 0.6 data 11 0.8 1.0 累積(相対)度数(p. 19) 定義 8. ある階級以下の度数の和を,その階級までの累積度 数という. 注:名義尺度なら無意味. 定義 9. (累積度数)/(観測値の総数)を累積相対度数と いう. 12 例:試験の得点の累積度数分布表 階級 0∼10 10∼20 20∼30 30∼40 40∼50 50∼60 60∼70 70∼80 80∼90 90∼100 累積度数 累積相対度数 12 22 41 83 155 237 291 329 354 373 .032 .059 .110 .223 .416 .635 .780 .882 .949 1.000 13 累積(相対)度数グラフ(p. 26) 定義 10. 累積(相対)度数の折れ線グラフを累積(相対) 度数グラフという. 注:階級を細かくしたほうが良い. 14 60 40 20 0 cumfreq 80 100 例:[0,1] 上の一様乱数(階級幅 0.2) 0.0 0.2 0.4 0.6 class 15 0.8 1.0 60 40 20 0 cumfreq 80 100 例:[0,1] 上の一様乱数(階級幅 0.1) 0.0 0.2 0.4 0.6 class 16 0.8 1.0 60 40 20 0 cumfreq 80 100 例:[0,1] 上の一様乱数(階級幅 0.05) 0.0 0.2 0.4 0.6 class 17 0.8 1.0 ローレンツ曲線(p. 26) 定義 11. 横軸に累積相対度数,縦軸に(その階級以下の観 測値の総和)/(全観測値の総和)をとった折れ線グラフ をローレンツ曲線という. 注:全観測値が等しければ 45 度線に一致.下に行くほど 「不平等」な分布. 18 例:45 度線とローレンツ曲線 vsat 1 Lorenz curve 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 19 0.6 0.7 0.8 0.9 1 3 記述統計量(p. 28) 1. 位置 (算術)平均,中位数,最頻値 2. 散らばり 分散,標準偏差,変動係数 20 (算術)平均(p. 28) 定義 12. (観測値の総和)/(観測値の総数)を(算術)平 均という. 注:質的変量なら無意味. 注:観測値を (x1 , . . . , xn ) として式で表すと x1 + · · · + xn µ := n 21 中位数(p. 32) 定義 13. 観測値を小さい方から順に並べたときの中央の値 を中位数という. 注:データの総数が偶数で中央の値が存在しない場合は両隣 の間をとる. 注:順序尺度でも意味をもつ. 注:対称な分布なら平均=中位数. 22 分位点(p. 33) 定義 14. 観測値を小さい方から順に並べたときの αn 番目の 値を α 分位点という. 注:αn 番目の値が存在しない場合は両隣の間をとる. 例:0.5 分位点(中位数),四・五・十分位点,百分位(パー セント)点. 23 最頻値(p. 33) 定義 15. 度数が最大となる値を最頻値という. 注:階級の取り方に依存する. 注:名義尺度でも意味をもつ. 注:対称で単峰な分布なら平均=中位数=最頻値. 24 分散・標準偏差・変動係数(pp. 37–38) 定義 16. 平均からの偏差の 2 乗の平均を分散という. 注:式で表すと 2 2 (x − µ) + · · · + (x − µ) 1 n 2 σ := n 定義 17. 分散の平方根を標準偏差という. 定義 18. (標準偏差)/(平均)を変動係数という. 注:変動係数は測定単位の影響を受けない. 25 ジニ係数(p. 39) 定義 19. (ローレンツ曲線と 45 度線の間の面積)/(45 度 線の下の面積)をジニ係数という. 注:45 度線の下の面積は 1/2 注:不平等度(格差)を表す 26 今日のキーワード 名義尺度,順序尺度,間隔尺度,比尺度,度数,相対度数, ヒストグラム(柱状グラフ),累積度数,累積相対度数,累 積(相対)度数グラフ,ローレンツ曲線, (算術)平均,中位 数,分位点,最頻値,分散,標準偏差,変動係数,ジニ係数 27
© Copyright 2024 ExpyDoc