第2章 一つの変数の記述統計

第2章 一つの変数の記述統計
山田、杉澤、村井(2008)
「R」によるやさしい統計学
2.1 一つの変数の要約
• この章での説明は一つの変数をどのように記
述するかということ。
• 数値要約:データの持つ特徴を一つの数値に
まとめるということ
平均や中央値など。。。
2.3 変数の種類
• 質的変数
データを構成する物を分類)する変数
その値をカテゴリと呼ぶ
二値変数:値の選択肢が2つだけの質的変数
例:p.39
「性別」変数:値は「男」か「女」
「数学」「統計」変数:値は「好き」か「嫌い」
変数の種類(2)
• 量的変数
数値を値とする変数
種類ではなく、大小が問題になるということ
2.4 度数分布
• 度数:同じカテゴリに含まれるデータの個数
• 度数分布:すべてのカテゴリについて度数を
求めたもの
• それを表にしたものを度数分布表
• ヒストグラム:図にしたもの
例:(p.41)
指導法 <- c("C","B","B","A","B","C","A","D","D","D","A","A",
"A","C","B","D","C","C","B","D")
table(指導法)
指導法
A B C D
5 5 5 5
ヒストグラムの例
2
Frequency
元データの分布は:
> table(心理学テスト)
心理学テスト
3
4
Histogram of 心理学テスト
0
1 1 2 1 3 1 2 4 1 2 2
1
4 5 6 7 8 9 10 12 13 14 15
4
6
8
10
心理学テスト
12
14
16
2.5-2.6 代表値
• 代表値:データを代表する値のこと
代表値をもって数値要約をする
• 平均
データの合計をデータの個数(n)で割った値
1番目のデータ+2番目 のデータ+ +n番目のデータ
平均 
n
・中央値
データを大きさの順に並べた場合の真ん中に
位置するもの。
Rの練習(平均値、中央値)
> テストa <- c(10,13,8,15,8)
> table(テストa)
テストa
8 10 13 15
2 1 1 1
> sum(テストa) / length(テストa)
10.8
> mean(テストa)
10.8
> median(テストa)
10
代表値(2)
• 最頻値
最も頻繁に観測される値
最頻値は必ずしも分布の中心であるとは限
らない
質的変数の場合はこれが代表値となる
例題
テストa <- c(10,13,8,15,8)
量的変数の場合: 。。。(各自補う)
外れ値:他のデータから極端に離れた値
2.7 散布度
• 散布度:変数の値の散らばり
• 散布度を調べるために分散を求める(nは
データの個数)
(データ1  平均) 2  (データ2  平均) 2    (データ n  平均) 2
分散 
n
• 標準偏差:分散の(正の)平方根
この値が大きいほどそのデータの散らばりが
大きいことを意味
Rの練習(分散、標準偏差)
テストa <- c(10,13,8,15,8)
テストa平均<- mean(テストa)
テストa平均
10.8
平均からの偏差 <- テストa - テストa平均
平均からの偏差
-0.8 2.2 -2.8 4.2 -2.8
平均からの偏差の二乗 <- 平均からの偏差^2
平均からの偏差の二乗
0.64 4.84 7.84 17.64 7.84
平均からの偏差の二乗和 <- sum(平均からの偏差の二乗)
平均からの偏差の二乗和
38.8
データ数 <- length(テストa)
分散 <- 平均からの偏差の二乗和 / データ数
分散
7.76
sqrt(分散)
2.785678
標本分散と不偏分散
• Rに用意されている『分散』関数var
> var(テストa)
[1] 9.7
今求めた『分散』の値は 7.76
• 今求めた分散は標本分散
• varで求められた分散は不偏分散
不偏分散*(データ数  1)
標本分散 
データ数
• 『不偏』標準偏差を求めるR関数: sd
標本分散と不偏分散(2)
• どちらの分散がよいか?
• 標本分散は『手元のデータから求めた分散』
• 不偏分散は「手元のデータは、その後ろにあ
る大規模なデータ(母集団)から抽出されたも
のと考えた時の、母集団の分散の推測値」
その他の散布度
平均偏差:「平均からの偏差」の絶対値の平均
mean(abs(テスト結果 – mean(テスト結果)))
平均からどの程度ずれているか
範囲(レンジ):データの最大値 - 最小値
データの値の変化の大きさ
2.10 標準化
• 標準化: 平均と標準偏差がある特定の値に
なるように、すべてのデータの値を変換する
こと
• 標準得点:標準化によって変換された得点
• z得点:平均が0、標準偏差が1になるよう変
換した標準得点
データの値  平均
z得点 
標準偏差
2.11 偏差値
• 偏差値:平均が50、偏差値が10になるよう変
換した標準得点
偏差値= z得点*10+50
2章で出てきた関数
目的
関数名と書式
使い方
データの値の結合
c(データ)
c(“C”, “B”, “B”)
関数分布(表)の作成
table(データ)
table(指導法)
ヒストグラムの描画
hist(データ)
hist(心理学テスト)
合計
sum(データ)
sum(10,13,8,15,9)
データの個数
length(データ)
length(テストa)
平均を求める
mean(データ)
mean(テストa)
中央値を求める
median(データ)
median(テストa)
平方根を求める
sqrt(データ)
sqrt(テストa)
不偏分散を求める
var(データ)
var(テストa)
標準偏差を求める
sd(データ)
sd(テストa)
絶対値を求める
abs(データ)
abs(テストa)
最大値を求める
max(データ)
max(テストa)
最小値を求める
min(データ)
min(テストa)
練習問題
• 2章の演習問題をやってみる
• 3章の「まとめ」を作る
• 3章の演習問題をやってみる