データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量 平均,最頻値,中央値 分布のばらつきを表す統計量 分散,標準偏差 1 統計データの構造-1 データ解析の目的・・・ 具体的な対象(母集団)についての調査結果(標 本をどう加工・処理し,有益な情報を引き出すか である. 加工・処理するための調査結果として,データ(観 測データ)というものがある. 母集団から無作為抽出された個体のことを標本と いい,その個数を標本の大きさまたは標本サイズ と呼ぶ. “標本=観測データ”と読み替えても良い 2 統計データの構造-2 データ解析では調査項目のことを変量と呼ぶ. 質的変量 名義尺度:名前,性別 順序尺度:好きなもの順位など 量的変量(連続的変量) 間隔尺度:温度,成績など 比例尺度:距離,重量,金額など 3 統計データの構造-3:名義尺度 対象者特性を便宜的に数字で表現 性別:男性=1,女性=2 好きな動物:犬=1,猫=2,ウサギ=3 統計的処理 度数のカウント 例)男性100人,女性85人 名義尺度の数字は,加減乗除算ができない 4 統計データの構造-4:順位尺度 順位やベスト3,ワースト3などで表現 行きたい国から順に3つ書いてください. 次のタレントを好きな順に3名書いてください. 統計的処理 例)順位別の度数 1位 ドイツ20名 2位 中国10名 3位 オランダ8名 5 統計データの構造-5:間隔尺度 評価などの質問(等間隔の順序尺度)で使われる 満足度の調査 非常に満足 やや満足 どちらでもない やや不満 非常に不満 統計的処理 度数のカウント 得点化し,換算 平均などの統計量を計算 6 統計データの構造-6:比例尺度 数や量などを質問 年収,年齢 年間売上高,来場者数 統計的処理 カテゴリー化して度数を計算 平均などの統計量の計算 7 度数分布表1:質的データ例 ID 1 2 3 4 5 6 7 8 ・・・ 793 頭部損傷 ヘルメット着用 有り 着用 無し 着用 無し 非着用 有り 着用 無し 着用 有り 非着用 有り 非着用 無し 着用 ・・・ ・・・・ 有り 非着用 応答パターン 頭部損傷:(有り,無し) ヘルメット着用: (着用,非着用) 8 度数分布表1:質的な観測データの要約 データで各々の値の個数(度数)を求める. 度数を表形式にしたものが度数分布表である 頭部損傷 有 無 計 ヘルッメ着用の有無 着用 非着用 17 218 130 428 147 646 計 235 558 793 9 度数分布表2:量的な観測データの要約 データ集計 ⇔ 度数分布表の作成 ID 1 2 3 4 5 ・・・ 56 57 58 59 AGE 53 43 33 45 46 ・・・ 48 52 62 48 SAL 145 621 262 208 362 ・・・ 388 250 396 572 度数分布表(区間数10) 区間(以上-未満) - 100 100 - 200 200 - 300 300 - 400 400 - 500 500 - 600 600 - 700 700 - 800 800 - 900 900 - 頻度 2 5 18 13 4 6 3 4 3 1 10 度数分布表3:度数分布表の作成 度数分布表作成手順 1. データ項目を適当な階級に分ける 2. 各階級に入る度数を数える 更に必要ならば, 3. 相対度数,累積度数,累積相対度数を計算 相対度数は,データの大きさが異なる複数の データの分布の比較に有効 11 度数分布表4:用語の復習 階級: 標本値が取り得る値を適当な区間に分けたもの 階級値: 階級を代表する値.通常階級の上限と下限の中間値 度数: 階級に入る標本値の個数 相対度数: 度数を全標本値の個数で割って,比率にしたもの 累積度数,累積相対度数: 度数,相対度数を下の階級から順に足したもの 12 度数分布表5:ヒストグラムの作成 ヒストグラム: グラフの分布の形を見るために,度数分布表をグ ラフにしたもの 度数分布表を作成して,ヒストグラムを描くことに よってデータの分布を知ることが出来る. ↓ データ解析のはじめの一歩!! 13 度数分布表6:度数分布表の読み方 区間(以上-未満) - 100 100 - 200 200 - 300 300 - 400 400 - 500 500 - 600 600 - 700 700 - 800 800 - 900 900 - 度数 2 5 18 13 4 6 3 4 3 1 相対度数 累積度数 累積相対度数 0.03 2 0.03 0.08 7 0.12 0.31 25 0.42 0.22 38 0.64 0.07 42 0.71 0.10 48 0.81 0.05 51 0.86 0.07 55 0.93 0.05 58 0.98 0.02 59 1.00 データ区間: 300以上400未満 階級値: 350=(300+400)/2 度数: データ区間に13人 相対度数: 9人は全体の22% 累積度数: 最初から数えてこの データ区間までに38人 累積相対度数: 最初から数えてこの データ区間までの人数は 全体の64% 14 度数分布表7:ヒストグラムの作成 ヒストグラム 度数分布表 区間(以上-未満) - 100 100 - 200 200 - 300 300 - 400 400 - 500 500 - 600 600 - 700 700 - 800 800 - 900 900 - 頻度 2 5 18 13 4 6 3 4 3 1 20 18 16 14 12 10 8 6 4 2 0 - 100 - 200 - 300 - 400 - 500 - 600 - 700 - 800 - 900 100 200 300 400 500 600 700 800 900 15 例題:得点データ 学籍番号 I05V001 I05V002 I05V003 I05V004 I05V005 I05V006 I05V007 I05V008 I05V009 I05V010 I05V011 I05V012 I05V013 I05V014 I05V015 I05V016 I05V017 I05V018 I05V019 I05V020 I05V021 I05V022 I05V023 I05V024 I05V025 得点 67 56 44 51 42 41 62 48 50 40 49 61 79 60 46 66 68 68 72 48 62 48 57 42 40 性別 女子 男子 男子 男子 男子 男子 女子 女子 男子 女子 女子 男子 女子 女子 男子 女子 女子 女子 女子 女子 女子 男子 男子 男子 男子 学籍番号 I05V026 I05V027 I05V028 I05V029 I05V030 I05V031 I05V032 I05V033 I05V034 I05V035 I05V036 I05V037 I05V038 I05V039 I05V040 I05V041 I05V042 I05V043 I05V044 I05V045 I05V046 I05V047 I05V048 I05V049 I05V050 得点 64 49 56 77 61 54 57 62 65 55 55 42 51 47 48 52 60 64 45 40 60 62 36 60 39 性別 女子 男子 男子 男子 女子 男子 男子 女子 女子 男子 男子 女子 男子 男子 男子 女子 男子 男子 男子 男子 女子 女子 男子 女子 男子 学籍番号 I05V061 I05V062 I05V063 I05V064 I05V065 I05V066 I05V067 I05V068 I05V069 I05V070 I05V071 I05V072 I05V073 I05V074 得点 54 31 51 59 58 57 51 71 60 62 58 42 58 52 性別 女子 男子 女子 女子 女子 男子 女子 女子 男子 女子 男子 男子 女子 男子 16 例題:度数分布表 度数分布表(全体) 区間 度数 相対頻度 6 0.08 31~40 0.31 41~50 23 0.35 51~60 26 0.20 61~70 15 4 0.05 71~80 度数分布表(男子) 区間 度数 相対頻度 5 0.12 31~40 0.41 41~50 17 0.37 51~60 15 3 0.07 61~70 1 0.02 71~80 度数分布表(女子) 区間 度数 相対頻度 1 0.03 31~40 6 0.18 41~50 0.33 51~60 11 0.36 61~70 12 3 0.09 71~80 17 例題:ヒストグラム ヒストグラム:男子 データのまとめ方によって,異なる解釈ができ る場合がある. 18 16 14 12 10 8 ヒストグラム:全体 6 30 4 2 25 0 31~40 20 41~50 51~60 61~70 71~80 15 ヒストグラム:女子 14 10 12 5 10 0 8 31~40 41~50 51~60 61~70 71~80 6 4 2 0 31~40 41~50 51~60 61~70 71~80 18 分布の特性値 度数分布やヒストグラムを見ることで分布の形 状を知るができる. 数値で分布の概要を把握するための指標として, 代表値:データの中心の位置 散布度:データの散らばり具合 がある. 2つの指標を総称して「分布の特性値」という. 19 分布の特性値:代表値 データの分布がどのような値を中心に散らばっ ているか明らかにする. 平均: データのすべての値を足し合わせて,データ数で 割ったもの 最頻値: 分布の最も高い場所 中央値(メジアン): データの中央にくる値のこと 20 分布の特性値:代表値 2 1 0 density 3 中央値 0.0 0.2 最頻値 0.4 0.6 x 平均値 0.8 1.0 最頻値 21 日本全国の平均世帯収入は? 渡辺久哲「調査データにだまされない法」創元社より 総務庁の統計局の家計調査によると,平成8年度 の全国平均の世帯年収は743万円であった. 全国の一般世帯およそ8000標本について収入と支 出についての調査 この743万円という世帯年収を聞いての感想は, 「ふつうの家はそんなに稼いでいるのか!!」 例えば,ボーナスを年間3ヶ月分支給すると仮定そ れば,1ヶ月の収入は約50万円となる. 22 日本全国の平均世帯収入は? 90 平均年収が743万円となった理由 1000万円以上稼ぐ高所得者が その平均を引き上げていたため 80 70 60 50 40 30 20 10 0 -200 200 300 300 400 400 500 500 600 600 700 700 800 800 900 900 - 1000 1000 単位:万円 23 分布の特性値:散布度 散布度:分散(標準偏差) 次の2つのデータの平均を考える. 平均値は同じである データのもつ意味が全く違う データを要約する値としては不十分? データの散らばりを表す量も表示する 24 分布の特性値:散布度 例)散布度:分散(標準偏差) 3クラスで,統計学の試験をし,各クラスで30人ずつ選び 平均点を計算すると50点であった.このデータから,ヒスト グラムを作成したところ以下のような結果であった.この 平均点だけで,データを解釈しても良いか. クラスCのヒストグラム クラスBのヒストグラム クラスAのヒストグラム 4.5 8 8 7 7 4 6 6 3.5 5 5 3 2.5 4 4 3 3 2 2 1 1 1 0.5 0 0 11 ‐ 21 ‐ 31 ‐ 41 ‐ 51 ‐ 61 ‐ 71 ‐ 81 ‐ 20 30 40 50 60 70 80 90 2 1.5 0 11 ‐ 21 ‐ 31 ‐ 41 ‐ 51 ‐ 61 ‐ 71 ‐ 81 ‐ 20 30 40 50 60 70 80 90 11 ‐ 21 ‐ 31 ‐ 41 ‐ 51 ‐ 61 ‐ 71 ‐ 81 ‐ 20 30 40 50 60 70 80 90 25 データの散らばりを表す量 散布度:分散(標準偏差) 分散: データの散らばりを表現する量 データの散らばり具合が大きいほど,分散の値 は大きくなる. 3つのクラスの分散の大きさは, クラスA<クラスB<クラスC 標準偏差:分散を平方根したもの 26 データの散らばりを表す量 0.4 散布度:分散(標準偏差) 分布1 0.2 0.1 分布2 0.0 density 0.3 分布1の平均 = 分布2の平均 分布1の分散 < 分布2の分散 -4 -2 0 2 4 x 27 平均,分散の計算式 n個の観測データx ( x1 , x2 ,..., xn )が得られたする. このとき,この観測データから標本平均と標本分散 は以下の式で計算される. 1 標本平均 x n n xi i 1 n 1 標本分散 s n 2 1 ( xi x ) n i 1 2 n xi2 x 2 i 1 28 平均値の意味1 以下の10人の学生の得点を表した図 100 90 得点と平均点との距離 80 70 平均点 60 点 50 数 40 30 20 10 0 0 1 2 3 4 5 番号 6 7 8 9 10 番号 1 2 3 4 5 6 7 8 9 10 得点 80 60 20 50 100 40 70 30 75 60 29 平均値の意味2 10人の得点をx ( x1 ,..., x10 ) と書く.このとき,ある値 と得点の距離を di ( xi ) 2 (i 1,...,10) で定義すると,その距離の総和 y は 1 y di ( xi ) 10 10 i 1 i 1 10 10 2 このとき,y の最小値は, 1 10 10 xi x xi i 1 10 2 この項が0のとき, yは最小になる 1 10 10 10 i 1 xi2 1 10 2 xi i 1 10 x の標本分散 i 1 であるので,平均値は観測値との距離を最小にする値となる. 30 例題1:平均値の意味 次の度数分布表とヒストグラムはあるテスト結果をまとめた ものである.わかることを述べなさい. 度数分布表 区間 0 - 10 11 - 20 21 - 30 31 - 40 41 - 50 51 - 60 61 - 70 71 - 80 81 - 90 91 - 100 度数 1 12 28 26 14 5 21 42 24 7 ヒストグラム 45 40 35 30 25 20 15 10 5 0 0 - 11 - 21 - 31 - 41 - 51 - 61 - 71 - 81 - 91 10 20 30 40 50 60 70 80 90 100 31 例題2:基本統計量 以下のデータは,10日間にわたる2つのストアの1日 の売り上げ高(単位:万円)である.どちらのお店がよ り安定しているか答えなさい. 日 平野ストア 松原マート 1 50 30 2 55 90 3 60 50 4 65 70 5 70 35 6 55 85 7 60 30 8 60 60 9 60 80 10 60 75 32 例題2:折れ線グラフ 100 平野ストア 90 松原マート 80 70 60 50 40 30 平野ストア 松原マート 20 10 平均 分散 59.5 30.28 60.5 530.28 標準偏差 5.50 23.03 0 1 2 3 4 5 6 7 8 9 10 (日) 33 例題3:基本統計量 以下のデータは,同じ科目を講義中心と演習中心と いう2つの異なる講義方法でおこない,クラスA(講義 中心)とクラスB(実習中心)からそれぞれ20名を選び, 試験をおこなった結果である.2つのクラスを比較しな さい. No 講義中心A 実習中心B No 講義中心A 実習中心B 1 66 40 11 50 39 2 55 23 12 52 50 3 48 72 13 50 38 4 30 55 14 47 42 5 52 33 15 57 85 6 61 77 16 47 68 7 56 32 17 56 45 8 75 15 18 51 98 9 50 51 19 40 64 10 35 29 20 30 36 34 例題3:基本統計量 基本統計量 講義中心A 実習中心B 平均 50.4 49.6 分散 121.09 470.67 標準偏差 11.0 21.7 度数分布表 区間 0 - 20 21 - 30 31 - 40 41 - 50 51 - 60 61 - 70 71 - 80 81 - 90 91 - 100 A 0 2 2 6 7 2 1 0 0 B 1 2 6 3 2 2 2 1 1 35 例題3:基本統計量 8 A 7 B 6 5 4 3 2 1 0 0 - 20 21 - 30 31 - 40 41 - 50 51 - 60 61 - 70 71 - 80 81 - 90 91 - 100 36 まとめ データからの情報抽出: データの要約 度数分布表,ヒストグラム 分布の中心を表す特性値 代表値:平均,最頻値,中央値 分布のばらつきを表す特性値 散布度:分散,標準偏差 37
© Copyright 2024 ExpyDoc