平成20年度「教育統計」 の学習内容-1

第1日目第1時限の学習目標
 平成22年度「教育統計」の学習内容の
概要を知る。
 尺度の4水準の例とそれらの特色の概要
を学ぶ。
 1変量データを手にした時の、分布の特
徴の記述の方法を学ぶ。
 基本的な一変量統計量(その1)につい
て学ぶ
平成22年度「教育統計」
の学習内容-1
 尺度の水準
 代表値とばらつきの各種指標
 度数分布表及び散布図
 連関と相関の各種指標
 順列、組み合わせ、確率
 確率分布とその期待値・分散
 母集団と標本
 点推定と区間推定
平成22年度「教育統計」
の学習内容-2
 検定と2種類の過誤
 平均値の差の検定
 ピアソンの相関係数とその検定
 分割表の検定
 3つ以上の平均値の差の検定(分散分
析)
 検査の信頼性と妥当性
 まとめと小テスト
教育や心理の分野での統計における
尺度水準の識別の必要性とそのルーツ-1
 教育や心理など主として社会行動科学の分野が扱う
現象には、多種多様なものがあり、それらの統計を
取るためには、データがどのような性質を持ってい
るのかを分析に先立ちチェックしておく必要がある。
 データは、一旦コード化されコンピュータに入力さ
れると、便利な統計ソフトを用いれば、簡単に結果
を出すことができるが、統計ソフトのそれぞれの分
析方法にはそれぞれ前提が幾つか存在する。
 とりわけ、データがどのレベルの情報を持っている
のかは、それらの前提のうちで、基本的なものの1
つである。
教育や心理の分野での統計における
尺度水準の識別の必要性とそのルーツ-2
 心理学のみならず、物理学等における「測定」に関す
る議論は、歴史的には20世紀の前半から中頃までに
盛んになされた(例えば、千野、有斐閣、p.537)。
 例えば、キャンベルら (Campbell, N. R. & Jeffreys, H.,
1938) は、測定を「測定対象システムの(数以上の)
特性を表すように、特性を支配している法則により数
字を割り当てること」と定義した。
 一方、スティーブンス (Stevens, S. S., 1951) は、「測定
とは規則に従って対象もしくは事象に数字を割り当て
ること」と定義した。
教育や心理の分野での統計における
尺度水準の識別の必要性とそのルーツ-3
 いずれにせよ、測定では一般に対象や事象に対
して数字を割り当てるので、個々の測定が数字
の持つ基本的な特徴である順序 (order)、距離
(distance)、及び原点 (origin)、の情報を持ってい
るかどうかの検討が不可欠である。
 とりわけ、スティーブンス (1958) は、尺度を名
義尺度 (nominal scale)、順序尺度 (ordinal scale)、
間隔尺度 (interval scale)、比率尺度 (ratio scale)
に分類した。
尺度の4水準の例と
それらの特色の概要
 名義尺度
(例)男を1、女を2とコーディン
グ。
(特色)コード値には順序情報さえ
ない。
 順序尺度
(例)一番よく遊ぶ友達を1、その
次によく
遊ぶ友達を2、とコーディン
グ。
尺度の4水準の例と
それらの特色の概要-2
 間隔尺度
(例)非常に賛成に1、賛成に2、どちら
でもな
いに3、反対に4、全く反対に5、
とコーディ
ングする。
(特色)コード値間の差に意味がある。
 比率尺度
(例)身長。
尺度の4水準の例と
それらの特色の概要-3
 尺度の4水準のより
詳細な定義について
は、例えば千野の
ホームページの「講
義ノート」の中の
「心理統計学」の第
1章「少数データの
平均と標準偏差の求
め方」の 1.1 節
を、を参照のこと。
なお、
尺度の4水準の例と
それらの特色の概要-3
 千野のホームページの URL は、
http://www.agu.ac.jp/~chino
である。あるいは、Yahoo か Google で
「千野研究室」
と入力して検索してもよい。
1変量データを手にした時の
分布の特徴の記述-1
 我々が、何らかの目的で N 個のデータ
x1 , x2 ,, xN
を手にしたとする。
 データがどの尺度レベルを満たしていようとも、
サンプル数 N がある程度以上大きい場合、簡
単にデータの全体像をつかむためには、度数分
布を描いたりヒストグラム(棒グラフ)を描け
ばよい。
1変量データを手にした時の
分布の特徴の記述-2
 そのためには、もしデータが名義尺度レベ
ルであるとすれば、例えば、1.男、2.
女、の各々の度数を数えればよい。
 一方、順序尺度以上のレベルであれば、小
さい順から大きい順次並べ、階級を設定し、
各階級に落ちる度数を数えればよい。
 千野のホームページの講義ノートの中の
「データ解析/基礎と応用」の1.2.1節
の「定量変数の分布特性」のページの例は、
その2例を示す。
1変量データを手にした時の
分布の特徴の記述-3
 この例に見るように、教育や心理の分野の
データの分布には多様なものがある。
 これらの多様な分布の特徴としては、
(1)分布の中心的な値(代表値)の指標
(2)分布のばらつき(裾野の広さ)の指
標
(3)分布のとんがりの程度の指標
(4)分布の(対称性からの)歪みの指標、
などがある。
1変量データを手にした時の
分布の特徴の記述-4
 これらの指標は、数理統計学の分野では一般
に統計量 (statistic) と呼ばれる。
 これらの指標は、より一般的には、数理統計
学では(理論)分布の積率 (moment)、確率
母関数 (probability generating function)、積
率母関数 (moment generating function)、特性
関数 (characteristic function)、キュミュラン
ト (cumu- lants) を用いて検討される。
 この授業では、これらの詳細については省略
する。
基本的な1変量統計量ー1
(a) (標本)平均と分散
平均
分散
x1  x2    xN 1 N
x
  xi
N
N i 1


1
vx  ( x1  x) 2  ( x2  x) 2    ( xN  x) 2 ,
N
1 N
  ( xi  x ) 2
N i 1
基本的な1変量統計量ー1
(b) 平均値の計算例
 データは、サンプル数、すなわち N=5
で、
15, 67, 31, 89, 44
とする。
 この時、
15  67  31  89  44 246
x

 49.2
5
5
基本的な1変量統計量ー1
(c) 定義式による分散の計算例
 データは、サンプル数、すなわち N=5 で、
15, 67, 31, 89, 44 で、平均は 49.2 なので、
定義式による分散 vx は、つぎのように計算で
きる:

1
2
2
2
vx  (15  49.2)  (67  49.2)    (44  49.2)
5

基本的な1変量統計量ー1
(d)計算ミスの少ない分散の計算法
 データは、サンプル数、すなわち N=5 で、
15, 67, 31, 89, 44 で、平均は 49.2 なので、
手計算による分散 vx は、つぎのように計算でき
る:


1 2
2
2
2
2
2
vx  15  67  31  89  44  49.2
5
15532

 2420.64  3106.4  2420.64
5
 685.76
基本的な1変量統計量ー1
(e) 不偏分散
 不偏分散の定
義
N ではなく、N-1
で割ることに注意
1 N
2
ux 
( xi  x)

N  1 i 1
N

vx 実際の計算はこちら
N 1
基本的な1変量統計量-1
(f) 不偏分散の計算の具体例
 定義より、不偏分散は、うえの具体例で
は、
N=5, vx=685.76 なので、
5
5
u x
 v x   685.76
5 1
4
3428.75

 857.19
4
基本的な1変量統計量ー1
(g) 標準偏差の定義と計算例
 標準偏差の定義と計算例
分散の開平(平方根)
の計算が必要
sx  vx  685.76  26.19
演習(1)
 つぎの5個から成るデータセットの1つを用
いて、その平均、分散、不偏分散、及び標準
偏差を計算せよ:
(データセット1): 94、18、6
8、65、31
(データセット2): 81、5、73
、6、63
(データセット3): 23、46、1
6、52、77
基本的な1変量統計量ー1
(h) 平均値の性質(参考)
 平均値は、代表値の1つで、データの
中心的な値を示す。
 平均値は、個々の値の原点を定数 a だ
けずらすと、a だけずれる。ただし、も
との値のままでも代表値としての性質
は持っている。
yi  xi  a, なる変換に対して
y x  a.
基本的な1変量統計量ー1
(i) 分散の性質(参考)
 分散は、データのばらつきの1つの指標で
ある。
 分散は、原点を a だけ移動させても変わら
ない(原点移動に対する不変性)。
yi  xi  a なる変換に対して
、
N
1 N
1
v y   ( yi  y ) 2   ( xi  x) 2 .
N i 1
N i 1