データの主要な性質 (1)量的データと質的データ

データの主要な性質
(1)信頼性と妥当性
●信頼性:同じ対象を繰り返し測定した際に常に同じような値が得られるかどうか、
得られたデータにどの程度の誤差が含まれているかに関わる特性。
誤差が小さい →
信頼性の高いデータが得られている
●妥当性:測定しようとしていた内容がその測定結果(データ)にどの程度正確に
反映されているかに関わる特性。
例)身長を測定する
*巻き尺を用いる
巻き尺は長さを測るもの →
妥当性という面では問題なし
計測するたびにその結果に違いが出る →
信頼性は低い
*極めて正確な体重計で計る
「極めて正確な」体重計 →
信頼性は高い
身長を体重計で測るのはおかしい →
*身長計ではかる
妥当性は低い
信頼性も妥当性も高い
●心を測る 心理学的測定
抽象的な概念であるため、測定道具(調査項目等)が一意に定まらない
妥当性は低い
測定値が抽象的概念を正しく測定しているとの錯覚
例)知能指数
概念の一人歩き
人の知能の高さを表現するもの (と考えられている)
知能テストと呼ばれる測定道具によって得られた数値で、
人の知能の側面の1つを取り出し、数値化したもの
但し、測定値、指標の限界を踏まえれば、十分に利活用できる
*どのように測るか(ビールのブランドに対する好意度)
直接的な行動の観察
→ 行動が心的状態と対応しているか?(妥当
性?)
行動の報告 → 報告は正確か?(信頼性?)
心的状態
心的状態の報告 → 報告は正確か?(信頼
性?)
*信頼性の高い測定値を得るためには?(ビールの好み)
①
②
③
嫌いを0、好きを100とする100点スケール上で評定
〃
1、
〃
5とする5点スケールで評定
嫌い、好きのみを報告
データの主要な性質
(2)量的データと質的データ
測定の際にどのような物差しを使うか → スティーブンスの4分類
①名義尺度(nominal scale)
単なる分類であって、対象に付与される数値の大きさには全く意味はない。
《例》性別(男:1、女:2)、出身地(東北・北海道:1、関東:2、中部:3、
等)
②順序尺度(ordinal scale)
分類ではあるが、その分類に順序が与えられているもの。
《例》地震の震度(震度1,2・・)
アンケート調査での解答カテゴリー
(賛成:1、どちらかと言えば賛成:2、どちらかと言えば反対:3、反対:4)
③間隔尺度(interval scale)
数値(連続量)として与えられるものであるが、原点(0)に絶対的な意味は無く、
従って、数値間の差(間隔)のみに意味がある
《例》摂氏で表現された温度、学力テストでの偏差値
④比尺度(ratio scale)
数値(連続量)として与えられるもので、原点に絶対的な意味が付与されている
《例》体重、身長、収入
質
的
デ
ー
タ
量
的
デ
ー
タ
実際の場面では
●信頼性と妥当性がともに高いデータを得る必要はあるが・・・
データを用いる目的に沿った測定方法を用いる必要がある
例)ジェットコースター乗り場での身長計測
目視で十分
●より情報量の多い尺度で測定する必要はあるが・・・
信頼性を高めるためには尺度水準を下げることも必要
例)アンケート調査での年収
比尺度で測定
一般には、年収を細かい値まで覚えていない
信頼性の点で問題のあるデータとなる
順序尺度で測定
尺度水準は下がるが信頼性は上がる
●データ解析の流れ
目的
解析の内容
得られたデータの意味を
評価し、現状を正確に把
握すること
分布を調べる
現状に関連する要因
を調べる
変数間の関連を調
べる
現状を改革するため
の方策を探る
要因分析の精緻化と
将来予測
解析の方法
分布の図表示と、様々な指標に
よる要約(平均値、分散)
2変量間の関連の分析
相関係数、相関比、クロス表の
分析等
多変量解析、様々なシミュレー
ション
1変数の分布の要約(量的変数)
①分布はどの辺りを中心にして散布してい
るか
分布2
分布1
(A)
(分布の位置:代表値) 図(A)
②分布はどの程度の広がりをもっているか
(分布の散布度) 図(B)
③分布は左右対称であるか、歪んでいる
か
(分布の歪度)
(B)
分布2
分布3
分布1
分布1
図(C)
④分布は尖っているか、扁平か(分布の
尖度)
分布1
分布特性を議論するためには単峰
性の分布であることが必要 図(D)
(C)
分布2
(D)
分布の位置の要約値(代表値)
x  x  x
2
n
*平均値(算術平均)(山分けの論
x 1
n
理)
*中央値 : n個の値を大きい(小さい)順に並べた時、ちょうど真ん中にくる値
n 1
番目
2
データ数nが奇数
n
n
番目と
 1番目の平均値
2
2
*最頻値 : 分布の中で頻度が最も高い(分布の頂点)値
データ数nが偶数
合計
データ 80 60 90 50 70 40 60 60 80 70
660
データ数 合計÷データ数 平均値
10
66
小さい順に並び替え
順位
1 2 3 4 5 6 7 8 9 10
データ 40 50 60 60 60 70 70 80 80 90
5番目
60
6番目
70
平均値
中央値
65
集計
値
頻度
40 50 60 70 80 90
1 2 3 2 2 1
最頻値
60
平均値と中央値の比較
①代表値偏差(観測値-代表値)からみた平均値と中央値の比較
平均値:平均値より大きいデータの偏差総和=-(中央値より小さいデータの偏差総
和)
中央値:中央値より大きいデータの数=中央値より小さいデータの数
●
●
●
●
●
●
△
●
●
●
中央値秤
●
●
●
△
平均値秤
②代表値偏差の大きさ
代表値が文字通り多くのデータを代表するためには、各観測値と代表値とのずれ
が小さい(符号を除いた値)ことが必要。それを2つの方法で評価する。
( x
i
 a )2  最小
i
 a  最小
平均値
i
x
i
中央値
③外れ値の影響
外れ値:他のデータとは異なって際だって大きな、あるいは小さな値。
一般的には、他のデータと性質が異なるため、データセットから除いて分析する
ことも必要。
平均値:外れ値の影響を強く受け、平均値は外れ値の方向に引きずられる
中央値:外れ値の影響を受けにくい
データ1
データ2
頑健性が高い(ロバスト)
22 25 27 29 31 32 34 -
22 25 27 29 31 32 34 100
順位
1 2 3 4 5 6 7
8
データ1 22 25 27 29 31 32 34 -
データ2 22 25 27 29 31 32 34 100
合計
200
300
データ数 平均値
7
28.6
8
37.5
中央値の順位 中央値
4位
29
4位と5位の平均
30
分布の散布度の要約値
●平均値と各値との差(平均からの偏差)を基準とした散布度
偏差が大きくなればなるほど各観測値は平均値から遠く離れ、従って分
布の広がりは大きくなる。
ケース1
x1
x2
x3
x4
x
x5
▲
ケース2
x1 x 2 x 3
x4
x
x5
▲
偏差の大きさの評価
xi  x
①偏差の絶対値で評価
x
平均偏差
i
i
②偏差の2乗で評価
分散
( xi  x )2
s 2   ( xi  x )2 / n
i
標準偏差
 x /n
分散
●平均偏差、分散、標準偏差の計算例
合計
データ
平均からの偏差
偏差の絶対値
偏差の2乗
55
8
8
64
40
-7
7
49
18 63 77 35 24 56 44 53 46 53
-29 16 30 -12 -23 9 -3 6 -1 6
29 16 30 12 23 9 3 6 1 6 合計
841 256 900 144 529 81 9 36 1 36
平均
564
150 平均
2946
47 平均値
12.5 平均偏差
245.5 分散
平方根
15.7 標準偏差
●データの大きさの順位に基づく散布度
*パーセンタイル順位
・ある値以下に全データの何%が含まれているか
を表す指標
・最小値からの順位をパーセントで表現したもの
データ数の異なるデータセット間で順位を比較することができる
*順位に基づく散布度指標
① 範囲(レンジ) : 最大値と最小値との差
②四分位範囲 : 75パーセンタイル値と25パーセンタイル値との差
参考) 四分位値 : データの分布を4つに等分する値
→ 25パーセンタイル値(第1四分位)、50パーセンタイル値(第2四分位)、
75パーセンタイル値(第3四分位)
③四分位偏差 : 四分位範囲の半分
●四分位値を用いた分布の図表示(箱ヒゲ図)
第2四分位(中央値)
2
第1四分位
第3四分位
25%
25%
25%
25%
下隣接地
下ヒンジ
中央値
上ヒンジ
上隣接地
外れ値
ヒンジ散布度
(四分位範囲)
上ヒンジ
下ヒンジ
ヒンジ散布度
上隣接地
下隣接地
外れ値
第3四分位(75パーセンタイルの値)
第1四分位(25パーセンタイルの値)
上ヒンジと下ヒンジとの差(四分位範囲)
(上ヒンジ+1.5×ヒンジ散布度)以内の最大値
(下ヒンジ-1.5×ヒンジ散布度)以上の最小値
上隣接以上、又は下隣接値以下の値
●分布特性と箱ヒゲ図による表現
①分布の歪み
②分布の広がり(散布度)