統計学1 統計の種類 統計分析の流れ 調査方法を検討する! データの入力

2015/04/17
統計の種類
• 記述統計
母集団(調査対象の集団)をすべて調査
でき、その調査結果に基づき、データをま
とめる統計
• 推測統計
母集団(調査対象の集団)をすべて調査
できないが、一部のデータから母集団の
状況を推測する統計
統計学1
データの種類と
データのグラフ化
調査方法を検討する!
統計分析の流れ
データ解析結果の考察
データ解析
データの入力
実際に調査する。
調査方法を検討する。
調査・
研究のための仮説を立てる。
データの入力

統計を用いる調査ではデータが得られな
ければデータ解析も何もできません。そこ
で実験・観測、アンケート調査などによって
データを集めることが必要になります。

統計を用いる場合にはデータの取り方に注
意が必要です!適当にデータを集めて
データ解析を行っても、その結果には再現
性がなく調査(分析結果)の意味がなくなり
ます。
データ入力専門会社
データ解析の中でも最も大変な作業が
データ入力です。現在は計算機を用いて
集計や解析を行うのでデータ入力が必要
です。
人間による入力ですのでミスが必ずありま
す。このミスをできるだけ減らし、万一ミス
があった場合には、そのデータの訂正が
必要となります。
比較
データの訂正
1
2015/04/17
個人
個人
比較
入力したデータの特性値を求めてみる!
データの特性値
最大値・最小値・平均・分散など
一人で全データを2度入力するのは大変!!
百貨店の売上高
度数分布表を作ってみる!
百貨店の売上高
年月
売上高(億円)
1995年1月
1755
1995年2月
1581
1995年3月
2010
1995年4月
1811
1995年5月
1845
1995年6月
1943
1995年7月
2403
1995年8月
1479
1995年9月
1620
1995年10月
1948
1995年11月
2092
1995年12月
2972
1996年1月
1846
1996年2月
1645
年月
売上高(億円)
1996年3月
2166
1996年4月
1871
1996年5月
1881
1996年6月
1994
1996年7月
2371
1996年8月
153.4
1996年9月
1708
1996年10月
2095
1996年11月
2171
1996年12月
2987
1997年1月
1883
1997年2月
1663
1997年3月
2719
1997年4月
1661
年月
売上高(億円)
1995年1月
1755
1995年2月
1581
1995年3月
2010
1995年4月
1811
1995年5月
1845
1995年6月
1943
1995年7月
2403
1995年8月
1479
1995年9月
1620
1995年10月
1948
1995年11月
2092
1995年12月
2972
1996年1月
1846
1996年2月
1645
年月
売上高(億円)
1996年3月
2166
1996年4月
1871
1996年5月
1881
1996年6月
1994
1996年7月
2371
1996年8月
153.4
1996年9月
1708
1996年10月
2095
1996年11月
2171
1996年12月
2987
1997年1月
1883
1997年2月
1663
1997年3月
2719
1997年4月
1661
平均売上高:1938.3(億円)
平均売上高:1987.6(億円)
最大売上高:2987(億円)
最大売上高:2987(億円)
最小売上高:153.47(億円)
最小売上高:1479(億円)
外れ値
• データの中には、他の観測値に比べ
て著しく離れた値が含まれている場合
があります(入力ミスではなく)。このよ
うな値のことを外れ値といいます。
• 外れ値は測定の誤り、測定対象の異
常、記録時のミスなどによって起こり、
データ解析の結果に影響を与える場
合もあります。
欠損値
• またデータの中には、観測対象により
一部のデータが取れない場合があり
ます。このような値のことを欠損値と
いいます。
• 欠損値は単純に除いて分析を行うこ
ともありますが、推測統計においては
単純に除くことは注意が必要です。
2
2015/04/17
標本(データ)の種類
名義尺度
質的データ
順序尺度
間隔尺度
名義尺度
• 性別や所属などを表すデータ。また、それ
らに数値を対応させる場合もある。
Aさん
Bさん
Cさん
Dさん
Eさん
男
女
男
男
女
2
1
2
2
1
量的データ
比 尺度
順序尺度
• 数値で表された名義尺度の場合、数値間
の演算や差には何の意味もありません!
• 単純の2つのデータが等しい(=)か等しく
ない(≠)という情報しか得られません。
• 好感度や好きな食べ物の順番など順位が
つけられているデータ。
データ間の順序性(<,>)があるため、データ値の順に
データを並び変えたりできます。
<例>次の食べ物の中で好きな順に順位をつけて下さい。
りんご、いちご、みかん、ブルーベリー
Aさん:1.ブルーベリー、2.いちご、3.りんご、4.みかん
間隔尺度
比尺度
• 順序性だけではなく数値自身が意味を持
ち、数値の間隔が等しくはないデータ。統
計の本に最も良く現れるデータ。
• データの数値同士を掛けたり、割ったりし
ても意味のあるデータ。このデータは、足し
たり引いたりしても意味のある数値が得ら
れる。
• 数値の加減法(足す、引く)ができ、その数
値に意味があるデータ。
<例> 気温
昨日の気温は15℃で、今日の気温は19℃です。
今日の気温は昨日の気温より4℃(= 19℃ - 15℃ )
暖かい。
名義尺度
順序尺度
間隔尺度
量的データ
比尺度
質的データ
同一性
順序性
加法性
等比性
(=,≠) (<,>) (+,-) (×,÷)
○
○
○
○
○
○
○
○
○
○
3
2015/04/17
間隔尺度と比尺度
間隔尺度のデータと比尺度のデータはどちらも
数値であり、等比性の有無だけが異なる。
データの種類によって、使える集計法は異なります。
名義尺度・・・度数分布表、最頻値
質的データ
より分かりやすい見分け方は、各データにおけ
る0(零、ゼロ)の意味を考えるとよい。間隔尺度
の0は“基準としての0“であり、比尺度の0は”
無としての0”である。
順序尺度・・・度数分布表、最頻値、中央値
間隔尺度
量的データ
比 尺度
・・・度数分布表、最頻値、
中央値、平均、
標準偏差、分散・・・
2つの変数間の関係
質的データ
・・・クロス集計(棒グラフ)
量的データ
・・・相関係数、散布図(棒グラフ)
データのグラフ化
棒グラフ
新車販売台数(平成25年7月)
(名義尺度)
H/標準
H/標準
H/標準
H/標準
H/標準
H/標準
H/標準
S/標準
M/標準
4
2015/04/17
新車販売台数(平成25年7月)
棒グラフ
(順序尺度)
160,000
140,000
新車販売台数
120,000
100,000
80,000
60,000
40,000
20,000
0
メーカー
昇順や降順に並び替えると、グラフは見やすくなる。
順序尺度の場合、昇順・降順に並べる必要はない。
棒グラフ
折れ線グラフ
(経時データ)
(経時データ)
円グラフ
ドーナツグラフ
5
2015/04/17
学食でよく食べる昼食
帯グラフ
ラーメン系
女性(100人)
カレーライス
25.4%
うどん・そば
20.1%
パスタ系
28.4%
洋食系
14.9%
11.2%
ラーメン系は女性・男性で同人数くらいの人が食べている
うどん・そばは男性よりも女性の方が多くの人が食べている
男性の2倍の女性がパスタ系を食べている
男性(262人)
25.8%
23.6%
17.3%
7.4%
25.8%
学食でよく食べる昼食
ラーメン系
女性(100人)
カレーライス
34
うどん・そば
27
パスタ系
38
20
15
ラーメン系は女性・男性で同人数くらいの人が食べている
うどん・そばは男性よりも女性の方が多くの人が食べている
男性の2倍の女性がパスタ系を食べている
男性(262人)
70
64
47
ヒストグラム(1)
20
幹葉図
洋食系
51.5, 51.5, 51.6, 51.7, 51.9
という5個のデータをまとめた。
この数字を棒状に塗りつぶした
ものがヒストグラムである。
70
ヒストグラム(2)
区間幅によって、データ傾向
の印象が異なることが分か
る。
6
2015/04/17
箱ひげ図
ヒストグラム(3)
後述するデータの縮約値を用いた図である。
スタージェスの式
このデータではスタージェス
の式に依る区間幅は7.7cm
である。
数種類のデータをグラフ化
バブルチャート
散布図、相関図
レーダーチャート
星座グラフ(4次元データ)
0
1
iris data
-1
0
1
(http://aoki2.si.gunma‐u.ac.jp/R/Constellation.html参照)
7
2015/04/17
まとめ
顔グラフ(18次元データ)
• データを視覚的に分かり易くするものとして統
計グラフがある。
• データの種類によって、使用するグラフを選
ぶ必要がある。
• グラフの描き方により、データ傾向の印象が
異なる場合もあるため、注意しながら使用す
る必要がある。
(http://aoki2.si.gunma‐u.ac.jp/R/face.html参照)
演習問題
次のグラフは小学5年生に好きな運動について答えてもらった
結果である。次の3つの考察が正しいかをそれぞれ答えよ。
小学生5年生の好きな運動
野球
A市(126人)
B市(352人)
サッカー
19.0%
ドッジボール
34.9%
43.2%
その他
37.3%
35.2%
8.7%
13.4% 8.2%
考察1:野球が好きな子はB市の方が多い
考察2:ドッジボールが好きな子はA市の方が多い
考察3サッカーが好きな子はA市もB市も同人数である
8