スライド 1

MHB研究会
リサーチ・メソッド学習会 (Nov 6, 2010)
「測定(measurement)について」
京都ノートルダム女子大学
小山哲春
[email protected]
Topics to be covered
1. 心理測定法(psychometrics)
◦
◦
◦
◦
データと測定値
測定値と誤差(error)
変数(variable)
構成概念(construct)、観測変数(observed variable)、潜
在変数(latent variable)
◦ 計測のプロセス
2. 尺度(scale)の水準と種類
◦ 尺度の水準
◦ 尺度の種類
3. 信頼性(reliability)と妥当性(validity)
◦ 信頼性の定義、種類、確認法
◦ 信頼性の定義、種類、確認法
近代科学の方法論
データ
帰納
法則
演繹
データ
観察
検証
（反証）
データ
分析
（統計）
仮説生成型(探索的）研究
理論
仮説
仮説検証型(実験的）研究
データ(を集める）とは？
観察とは？
検証
（統計）
1. 心理測定法(psychometrics)
1.1 データとは？
datum ← ラテン語で「所与のもの」
（dare = to give; datum = the given）
data = 客観的事実？
data = 観測（測定）値
1.2 測定値と誤差

心理的「何か」を計測するとき、測定値を構成
するのは以下のような要素である：
測定値
真の値
神様にしか見えない！！
誤差
(error)
系統誤差
(systematic error)
無作為誤差
(random error)

真の値
◦ 本来計測したいもの
◦ 実際に得られた値（観測値）ができるだけ真
の値に近いものであるのが理想的

無作為誤差(random error)
◦ 偶発的／予想不可能／不可避
◦ サンプルサイズが十分に大きければ相殺さ
れる(cancel out)

系統誤差
(Systematic error / Measurement error)
◦ 計測に規則的に影響する要因によって生じ
る誤差
◦ バイアスであり、相殺されない
◦ 例：
 I.Q.テストにおける文化バイアス
 暑さで伸びた鉄製の定規
 担当教員が手渡して目の前で回答させる授業評
価アンケート
Systematic Errors

反応効果(Reactive Measurement Effect)
◦ 計測のプロセスが回答者の反応に英旧王を及
ぼす
 調査環境 (私的／公的調査、無償／有償、等）
 調査者（性別等の特性、調査への認識、等）

社会的望ましさの効果(Social Desirability Effect)
◦ 調査の対象となっていることを意識し、「社会的
に望ましい」と考えられる回答をしたり、「良い
／適切な」行動をとったりする
1.3 変数
では、何を計測するのか？
 変数：

◦ 対象によって値が変化するもの(吉田1998, p.7)
◦ 複数の値が属する入れ物(浦上・脇田、2008, p.34)
値
変数
男
：性別：
35歳
：年齢：
176cm
：身長：
日本語
：母語：
760点：TOEIC：
活発
：性格：
2点：議論能力：
Unit of Analysis
値
女
29歳
162cm
英語
985点
温厚
5点
Unit of Analysis
1.4 構成概念と観測変数
全ての変数が観察可能か？
 社会科学で対象となる多くの変数（概念）は直
接には観察不可能：

◦ 語学その他の能力
◦ 心理概念（信念、態度、動機、指向性、等）
理論的に概念化する：構成概念(construct)
 観察はできないので「潜在変数(latent variable)」
と呼ぶ（vs. 観察変数(observed variable）

「構成概念」（潜在変数）は計測不可能なの
か？
 特別にあつらえた「モノサシ」を用いて（間接
的に）測定することは可能

心理測定法(psychometrics)
 実際に計測可能な「観測変数」を用いて測定

数学の能力
問題１
計算能力
問題２
問題３
問題１
文章題能力
問題２
問題３
問題１
証明能力
問題２
問題３
構成概念
（潜在変数）
観測変数
（小塩・西口(2007), p.6 より）
計測したい概念
項目１
下位概念１
項目２
下位尺度１
項目３
項目１
下位概念２
項目２
下位尺度２
項目３
項目１
下位概念３
項目２
下位尺度３
項目３
構成概念
質問紙（尺度）
（小塩・西口(2007), p.7 より）
1.5. 心理測定のプロセス
(1)
(2)
(3)
(4)
概念化 (Conceptualization)
操作化 (Operationalization)
尺度作成 (Compose measures)
測定 (Measure)
操作化(Operationalization)

Verbal report / Self-report / Questionnaire
◦ In survey research

Observational measurement
◦ In field research

Combination of both
◦ In experimental research

Archival record
◦ In available data research
2. 尺度の水準と種類

尺度の水準
◦ 名義、順序、間隔、比率

尺度の種類
◦ 評定尺度法




リカート法(Likert Scale)
SD法 (Semantic Differential Scale)
多肢選択法
順位法
◦ 自由記述法
(1) 名義尺度
質的データ / カテゴリ－データ
 同種のものに同じ数値を割り当てる
 数値は等価性を表すだけであり、大小関係を意
味しない。計算不能。

◦ 性別 (1 Female, 2 Male)
◦ 支持政党 (1 Democrat, 2 Republican, 3 Independent, 4 Other, etc.)
◦ 人種、文化、母語、等々
(2) 順序尺度
量的出た
 各対象に割り当てられた数値が測定値間の大
小関係のみを表す
 順位
 加減乗除の演算はできない

◦ 1st, 2nd, and 3rd place in a race
◦ ESPN/USA Today Top 25 Coaches Poll
(4) 比率尺度 (Ratio Scale)
 量的データ
 等間隔性
 原点０が一義的に定まっている
 加減乗除の演算が可能
 例：
◦ 尺度：体重計、ストップウォッチ、物差し
◦ データ：収入、年齢、時間（日数等）
(3) 間隔尺度
量的データ
 測定対象における何らかの量の差の大きさを、測定
値間の数値の大きさとして表す。
 原点は任意に定められ、絶対0は存在しない。

◦ マイナス値も可能： 1～5 ／‐2 ～ ‐4

厳密には測定値間の倍数関係を問題にすることは
できない
◦ 乗除の演算は不可
◦ 平均点の計算は可

例：
◦ 摂氏、華氏の温度計
◦ ほとんどの心理尺度

尺度の単位（間隔）が一定であることが保証されてい
なければ、順位尺度／名義尺度としてしか扱えな
い！！！
厳密には間隔尺度でない例
以下の最も当てはまる選択肢を選んで下さい。
ま
っ
た
く
あ
て
は
ま
ら
な
い
あ
ま
り
あ
て
は
ま
ら
な
い
ど
ち
ら
と
も
い
え
な
い
と
て
も
よ
く
あ
て
は
ま
る
や
や
あ
て
は
ま
る
１．湯川先生のことを尊敬している。
(
)
(
)
(
)
(
)
(
)
２．湯川先生はとても厳しい。
(
)
(
)
(
)
(
)
(
)
３．湯川先生は今日もお綺麗だ。
(
)
(
)
(
)
(
)
(
)
間隔尺度（と見なせる）例
以下の項目に１～５で回答して下さい。
ま
っ
た
く
あ
て
は
ま
ら
な
い
あ
ま
り
あ
て
は
ま
ら
な
い
ど
ち
ら
と
も
い
え
な
い
や
や
あ
て
は
ま
る
と
て
も
よ
く
あ
て
は
ま
る
１．湯川先生のことを尊敬している。
1
2
3
4
5
２．湯川先生はとても厳しい。
1
2
3
4
5
３．湯川先生は今日もお綺麗だ。
1
2
3
4
5
間隔尺度ではない例
以下の項目に１～５で回答して下さい。
間隔
間隔
？
全
く
そ
う
思
わ
な
い
そ
う
は
思
わ
な
い
分
か
ら
な
い
そ
う
思
う
強
く
そ
う
思
う
１．湯川先生のことを尊敬している。
1
2
3
4
5
２．湯川先生はとても厳しい。
1
2
3
4
5
３．湯川先生は今日もお綺麗だ。
1
2
3
4
5
Levels of Measurement
Identity
Order
Equal
Distance
Nominal
○
Ordinal
○
○
Interval
○
○
○
Ratio
○
○
○
True
Zero
○
2.2 尺度の種類

もっとも一般的な間隔尺度
◦ リカート法（Likert Scale）
 ある構成概念（潜在変数）を測定していると考
えられる項目（観測変数）を複数提示し、同じ
選択肢を用いて回答を求める。
◦ SD法（Semantic Differential Scale）
 主にあるものの印象やイメージを測定する方法
で、複数の形容詞対（良い‐悪い／明るい‐暗
い）を提示して、その対象がどちらに近いかを
回答してもらう。
Likert Scale
湯川先生に関して、以下の項目に１～５で回答して下さい。
ま
っ
た
く
あ
て
は
ま
ら
な
い
あ
ま
り
あ
て
は
ま
ら
な
い
ど
ち
ら
と
も
い
え
な
い
や
や
あ
て
は
ま
る
と
て
も
よ
く
あ
て
は
ま
る
１．湯川先生のことを尊敬している。
1
2
3
4
5
２．湯川先生にならどこまでも
ついていく。
1
2
3
4
5
３．湯川先生の仰ることに従っていれば
間違いはない。
1
2
3
4
5
（湯川先生への「傾倒度」）
SD Scale
「湯川先生」のイメージを思い浮かべ、以下の形容詞対がどれくらい当ては
まるかを１から７の中から１つ選んで○をつけて下さい:
優しい
1 2 3 4 5 6 7
冷たい
重厚である
1 2 3 4 5 6 7
軽薄である
明るい
1 2 3 4 5 6 7
暗い
厳格である
1 2 3 4 5 6 7
いい加減だ
◦ 多肢選択法 →
◦ 順位法
→
◦ 自由記述法
名義尺度（カテゴリー）
順位尺度（順序づけ）
3. 信頼性(reliability)と
妥当性(validity)
測定で最も重要なこと：
測定したい対象を、
①安定して誤差なく測れているのか？
信頼性(reliability)
②(真の値を)的確に正しく測れているのか？
妥当性(validity)
Reliability and Validity
Objective ways to evaluate the quality of
measurement (operational definitions).
 Reliability:

◦ Stability and Consistency of the measurement
◦ The extent to which it is free from random
error

Validity:
◦ Accuracy: Extent of matching, congruence, or
“goodness of fit” b/w an operational definition
& the concept being measured.
(Stangor, 1998)
信頼性あり
妥当性なし
信頼性なし
妥当性なし
信頼性あり
妥当性なし
信頼性あり
妥当性あり
信頼性

測定の無作為誤差(random error)が少ないこと
◦ 短時間で（回答が）変化しないこと
◦ 誤差を招く要因：
 曖昧な語句等は無作為誤差を招く
 誘導的な語句、文化的／社会的な価値観を表す語句、感
情的な語句などは系統誤差を招く→妥当性の問題
 長さ：鉄製の定規 vs. 布製の定規
 温度：温度計 vs. 人間の感覚

尺度の内的整合性があること
◦ １つの尺度に含まれる項目が同じ方向性を示して
いること：全ての質問項目が基本的には同じ対象
を計測していること
 異質な質問項目→（尺度全体の値に）無作為誤差を招く
信頼性の評価

無作為誤差の評価
◦ 再検査法 (Test-retest Reliability)
 Test-retest
 Equivalent Forms

内的整合性の評価
◦ 折半法(Split half method)
◦ 信頼性係数クロンバックα (Coefficient Alpha)
◦ Item-to-Total Correlations

評価者内／評価者間信頼性(Intercoder
(Interrater) Reliability)
◦ Coefficient Alpha: quantitative variables
◦ Kappa (k): qualitative variables
妥当性
「本当に見たいものを観測できているか
どうか」
 潜在変数を測定する場合「直接観察はで
きないので」慎重な検討が必要

◦ 「愛情」の計測：




「花をあげる回数」
「愛していますか？」という質問への回答
SD法による質問項目への回答
Likert法による質問項目への回答
 3項目の場合 vs. 5項目の場合

妥当性の種類
◦ 表面妥当性 (face validity)
◦ 内容妥当性 (content validity)
◦ 構成概念妥当性 (construct validity)
 収束妥当性 (Convergent Validity)
 弁別妥当性 (Discriminant Validity)
◦ 基準関連妥当性 (criterion validity)
 予測可能性 (Predictive Validity)
 並存的妥当性 (Concurrent Validity)

妥当性の種類
◦ 表面妥当性 (face validity)
 何を測定しているように見えるか?
および一般の人間としての判断
専門家、
◦ 内容妥当性 (content validity)
 操作化に際し、当該の概念が及ぶ全ての面が網
羅されているかの判断
 下位尺度の数
 3項目尺度 vs. 7項目尺度

妥当性の種類
◦ 構成概念妥当性 (construct validity)
 収束妥当性 (Convergent Validity)：
 同じ概念の計測結果は相関するはず
 弁別妥当性 (Discriminant Validity)：
 別の概念の計測結果は相関しないはず
 Differences among known groups
 同じ特性を持っている別集団の計測結果は相関するはず
◦ 基準関連妥当性 (criterion validity)
 予測可能性 (Predictive Validity)
 並存的妥当性 (Concurrent Validity)
多特性・多方法
(Maultitraits-Multimethods: MTMM)
Campbell & Fiske (1959)
計測の方法が異なっても同一概念を測
定する場合には相関が高くなる
 別の概念を測定する場合には相関が高
くなってはならない

(Maultitraits-Multimethods: MTMM)
方法１
方法２
特性
A
B
A
B
A
(1)
(3)
(2)
(4)
(1)
(4)
(2)
(1)
(3)
方法１
B
A
方法２
B
(1)
(1) 信頼性係数（アルファ）
(3) 弁別妥当性（同一方法・異特性）
(2) 収束妥当性（異方法・同一特性）
(4) 異方法・異特性測定
妥当性：
(1) > (2) > (3) > (4)
まとめ？
質問紙調査は必ずしも「真の世界」の
観測ではない
 「構成概念」は理論的概念である
 「構成概念」は観察が難しい
 信頼性と妥当性を高めることで、より
正確でより安定した「構成概念」の観
察を心がける必要あり

参考文献
Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by
the multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105.
Stangor, C. (1998). Research Methods for the Behavioral Sciences. Boston, MA:
Houghton Mifflin.
[参考図書]
浦上昌則・脇田貴文. (2008). 『心理学・社会科学研究のための調査系論文の読
み方』. 東京図書.
三浦省吾（監修）.(2004). 『英語教師のための教育データ分析入門』. 大修館書
店．
小塩真司. (2004).『SPSSとAMOSによる心理･調査データ解析』. 東京図書．
小塩真司・西口利文. (2007). 『質問紙調査の手順』. ナカニシヤ出版.
小野寺孝義・菱村豊. (2005). 『文科系学生のための新統計学』. ナカニシヤ出版.
吉田寿夫. (1998). 『本当にわかりやすいすごく大切なことが書いてあるごく初歩の
統計の本』. 北大路書房.
森敏昭・吉田寿夫. (1990). 『心理学のためのデータ解析テクニカルブック』.

Download Report