データの主要な性質（１）信頼性と妥当性 ●信頼性：同じ対象を繰り返し測定した際に常に同じような値が得られるかどうか、得られたデータにどの程度の誤差が含まれているかに関わる特性。誤差が小さい → 信頼性の高いデータが得られている ●妥当性：測定しようとしていた内容がその測定結果（データ）にどの程度正確に反映されているかに関わる特性。例）身長を測定する＊巻き尺を用いる巻き尺は長さを測るもの → 妥当性という面では問題なし計測するたびにその結果に違いが出る → 信頼性は低い＊極めて正確な体重計で計る「極めて正確な」体重計 → 信頼性は高い身長を体重計で測るのはおかしい → ＊身長計ではかる妥当性は低い信頼性も妥当性も高い ●心を測る心理学的測定抽象的な概念であるため、測定道具（調査項目等）が一意に定まらない妥当性は低い測定値が抽象的概念を正しく測定しているとの錯覚例）知能指数概念の一人歩き人の知能の高さを表現するもの（と考えられている）知能テストと呼ばれる測定道具によって得られた数値で、人の知能の側面の１つを取り出し、数値化したもの但し、測定値、指標の限界を踏まえれば、十分に利活用できる＊どのように測るか（ビールのブランドに対する好意度）直接的な行動の観察 → 行動が心的状態と対応しているか？（妥当性？）行動の報告 → 報告は正確か？（信頼性？）心的状態心的状態の報告 → 報告は正確か？（信頼性？）＊信頼性の高い測定値を得るためには？（ビールの好み） ① ② ③ 嫌いを０、好きを100とする100点スケール上で評定〃１、〃５とする５点スケールで評定嫌い、好きのみを報告データの主要な性質（２）量的データと質的データ測定の際にどのような物差しを使うか → スティーブンスの４分類 ①名義尺度(nominal scale) 単なる分類であって、対象に付与される数値の大きさには全く意味はない。《例》性別（男：１、女：２）、出身地（東北・北海道：１、関東：２、中部：３、等） ②順序尺度(ordinal scale) 分類ではあるが、その分類に順序が与えられているもの。《例》地震の震度（震度1,2・・）アンケート調査での解答カテゴリー（賛成：１、どちらかと言えば賛成：２、どちらかと言えば反対：３、反対：４） ③間隔尺度(interval scale) 数値（連続量）として与えられるものであるが、原点（０）に絶対的な意味は無く、従って、数値間の差（間隔）のみに意味がある《例》摂氏で表現された温度、学力テストでの偏差値 ④比尺度(ratio scale) 数値（連続量）として与えられるもので、原点に絶対的な意味が付与されている《例》体重、身長、収入質的データ量的データ実際の場面では ●信頼性と妥当性がともに高いデータを得る必要はあるが・・・データを用いる目的に沿った測定方法を用いる必要がある例）ジェットコースター乗り場での身長計測目視で十分 ●より情報量の多い尺度で測定する必要はあるが・・・信頼性を高めるためには尺度水準を下げることも必要例）アンケート調査での年収比尺度で測定一般には、年収を細かい値まで覚えていない信頼性の点で問題のあるデータとなる順序尺度で測定尺度水準は下がるが信頼性は上がる ●データ解析の流れ目的解析の内容得られたデータの意味を評価し、現状を正確に把握すること分布を調べる現状に関連する要因を調べる変数間の関連を調べる現状を改革するための方策を探る要因分析の精緻化と将来予測解析の方法分布の図表示と、様々な指標による要約（平均値、分散）２変量間の関連の分析相関係数、相関比、クロス表の分析等多変量解析、様々なシミュレーション１変数の分布の要約（量的変数） ①分布はどの辺りを中心にして散布しているか分布２分布１（A）（分布の位置：代表値）図(A) ②分布はどの程度の広がりをもっているか（分布の散布度）図（Ｂ） ③分布は左右対称であるか、歪んでいるか（分布の歪度）（Ｂ）分布２分布3 分布１分布１図（Ｃ） ④分布は尖っているか、扁平か（分布の尖度）分布１分布特性を議論するためには単峰性の分布であることが必要図（Ｄ）（Ｃ）分布２（Ｄ）分布の位置の要約値（代表値） x  x  x 2 n ＊平均値（算術平均）（山分けの論 x 1 n 理）＊中央値：ｎ個の値を大きい（小さい）順に並べた時、ちょうど真ん中にくる値 n 1 番目 2 データ数ｎが奇数 n n 番目と  1番目の平均値 2 2 ＊最頻値：分布の中で頻度が最も高い（分布の頂点）値データ数ｎが偶数合計データ 80 60 90 50 70 40 60 60 80 70 660 データ数合計÷データ数平均値 10 66 小さい順に並び替え順位 1 2 3 4 5 6 7 8 9 10 データ 40 50 60 60 60 70 70 80 80 90 5番目 60 ６番目 70 平均値中央値 65 集計値頻度 40 50 60 70 80 90 1 2 3 2 2 1 最頻値 60 平均値と中央値の比較 ①代表値偏差（観測値－代表値）からみた平均値と中央値の比較平均値：平均値より大きいデータの偏差総和＝－（中央値より小さいデータの偏差総和）中央値：中央値より大きいデータの数＝中央値より小さいデータの数 ● ● ● ● ● ● △ ● ● ● 中央値秤 ● ● ● △ 平均値秤 ②代表値偏差の大きさ代表値が文字通り多くのデータを代表するためには、各観測値と代表値とのずれが小さい（符号を除いた値）ことが必要。それを２つの方法で評価する。 ( x i  a )2  最小 i  a  最小平均値 i x i 中央値 ③外れ値の影響外れ値：他のデータとは異なって際だって大きな、あるいは小さな値。一般的には、他のデータと性質が異なるため、データセットから除いて分析することも必要。平均値：外れ値の影響を強く受け、平均値は外れ値の方向に引きずられる中央値：外れ値の影響を受けにくいデータ１データ２頑健性が高い（ロバスト） 22 25 27 29 31 32 34 － 22 25 27 29 31 32 34 100 順位 1 2 3 4 5 6 7 8 データ１ 22 25 27 29 31 32 34 －データ２ 22 25 27 29 31 32 34 100 合計 200 300 データ数平均値 7 28.6 8 37.5 中央値の順位中央値 4位 29 4位と５位の平均 30 分布の散布度の要約値 ●平均値と各値との差（平均からの偏差）を基準とした散布度偏差が大きくなればなるほど各観測値は平均値から遠く離れ、従って分布の広がりは大きくなる。ケース１ x1 x2 x3 x4 x x5 ▲ ケース２ x1 x 2 x 3 x4 x x5 ▲ 偏差の大きさの評価 xi  x ①偏差の絶対値で評価 x 平均偏差 i i ②偏差の２乗で評価分散 ( xi  x )2 s 2   ( xi  x )2 / n i 標準偏差  x /n 分散 ●平均偏差、分散、標準偏差の計算例合計データ平均からの偏差偏差の絶対値偏差の２乗 55 8 8 64 40 -7 7 49 18 63 77 35 24 56 44 53 46 53 -29 16 30 -12 -23 9 -3 6 -1 6 29 16 30 12 23 9 3 6 1 6 合計 841 256 900 144 529 81 9 36 1 36 平均 564 150 平均 2946 47 平均値 12.5 平均偏差 245.5 分散平方根 15.7 標準偏差 ●データの大きさの順位に基づく散布度＊パーセンタイル順位・ある値以下に全データの何％が含まれているかを表す指標・最小値からの順位をパーセントで表現したものデータ数の異なるデータセット間で順位を比較することができる＊順位に基づく散布度指標 ① 範囲（レンジ）：最大値と最小値との差 ②四分位範囲： 75パーセンタイル値と25パーセンタイル値との差参考）四分位値：データの分布を４つに等分する値 → 25パーセンタイル値（第１四分位）、50パーセンタイル値（第２四分位）、 75パーセンタイル値（第３四分位） ③四分位偏差：四分位範囲の半分 ●四分位値を用いた分布の図表示（箱ヒゲ図）第２四分位（中央値） 2 第１四分位第３四分位 25% 25% 25% 25% 下隣接地下ヒンジ中央値上ヒンジ上隣接地外れ値ヒンジ散布度（四分位範囲）上ヒンジ下ヒンジヒンジ散布度上隣接地下隣接地外れ値第３四分位（75パーセンタイルの値）第１四分位（25パーセンタイルの値）上ヒンジと下ヒンジとの差（四分位範囲）（上ヒンジ＋1.5×ヒンジ散布度）以内の最大値（下ヒンジ－1.5×ヒンジ散布度）以上の最小値上隣接以上、又は下隣接値以下の値 ●分布特性と箱ヒゲ図による表現 ①分布の歪み ②分布の広がり（散布度）