R で統計学を学ぶ(1)

R で統計学を学ぶ(1)の課題の解答
課題 1-1
質的変数と量的変数の違いについてなるべく自分の言葉で説明してください。 また、値が 0 と 1 の 2 つ
だけを取る変数は二値変数と言いますが、これは 質的変数でしょうか、量的変数でしょうか。二値変数
の具体的な例をあげて、それが質的変数なのか量的変数なのかの理由を含めて答えてください。
答:
男か女か、
「はい」か「いいえ」か、
「正解」か「不正解」かというような分類のために二値変数が使わ
れます。この場合、分類として 1 と 0 を割り当てているだけで、この 1 と 0 には(m とか kg のような)
単位は考えられません。したがって、このような場合は「質的変数」とみなせます。
(そうでない場合もあるかもしれませんが、私はあいにく、そのようなケースを知りません)
課題 1-2
以下のような数学のテストの素点がある。ヒストグラムを表示せよ。 また、10 点未満は"D", 10 点以上
12 点以下は"C", 13 点以上 15 点以下は"B"、16 点以上は"A"と分類するものとし、度数分布表を作れ。
Math <- c(17,13,14,7,12,10,6,8,15,4,14,9,6,10,12,5,12,8,8,12,15,18)
答:
ヒストグラム:
hist(Math)
hist(Math,
もしくは、 ヒントにしたがって、
breaks=c(min(Math),10,13,16,max(Math)),
right=FALSE,
include.lowest=TRUE,
freq=TRUE, xlim=c(min(Math),max(Math)),ylim=c(0,10))
度数分布表: 「[素点を成績分類するには(Seiseki から Buturi への変換方法」ヒントに従い、
MathBumpu <- rep("", length(Math))
# 空のベクトルを用意
for(i in 1:length(Math) ) {
# 値で分類
if (Math[i] < 10) MathBumpu[i] <- "D" else
if (Math[i] <= 12) MathBumpu[i] <- "C" else
if (Math[i] <= 15) MathBumpu[i] <- "B" else
MathBumpu[i] <- "A" }
table(MathBumpu)
結果は:
MathBumpu
ABCD
2569
課題 1-3
教科書を読み、平均、中央値、最頻値、それぞれの定義を簡潔に説明しなさい。 また、代表値として(平
均値や中央値ではなく)最頻値を用いる場合はどのような場合かも答えなさい。
答は省略---ヒントを読むこと
課題 1-4
次を実行して得られた data の値に対し、平均、中央値、最頻値、それぞれの値を求めなさい。 また、求
めるために用いた R のコードもあわせて答えなさい。
set.seed(k)
# k は学籍番号の下 3 桁
data <- ceiling(runif(100,0,100))
答:
平均値: mean(data)
中央値: median(data)
最頻値: td <- table(data)
for (i in 1:length(td)) { if (td[i]==max(td)) cat(row.names(td)[i],"¥n") }
課題 1-5
課題 1-4 で用いた data の値を使って、標本分散、その正の平方根、不偏分散、その正の平方根(標準偏
差)をそれぞれ求めよ。また、その計算に用いた R のコードを答えよ。 さらに、標本分散と不偏分散の大
きさを比較して、不偏分散の方が大きいことを確かめよ。
答:
標本分散: md <- mean(data) ; vd<- sum( (data-md)^2 )/length(data)
もしくは vd <- var(data)*(length(data)-1)/length(data)
その正の平方根: sqrt(vd)
不偏分散: var(data)
その正の平方根(標準偏差): sd(data)
課題 1-6
課題 1-4 で用いた data の値を使って、次を計算せよ(計算に用いた R のコードも示すこと)。そしてこ
れが標本分散の値と一致することを確かめよ。
答:
sum(data^2)/length(data)-(mean(data)^2)
これは確かに一致する
課題 1-7
1.. 以下に示す変数「心理学テスト」の値を用いて、平均、標本分散、(標本分散の平方根としての)
標準偏差をそれぞれ求めよ。
心理学テスト <- c(13, 14, 7, 12, 10, 6, 8, 15, 4, 14, 9, 6, 10, 12, 5, 12, 8,
2.
3.
8, 12, 15)
「心理学テスト」のデータをすべて z 得点に変換せよ。
z 得点に変換したデータの平均が 0、標準偏差が 1 であることを確認せよ。
4. どのようなデータでも、そのデータを z 得点に変換すると、平均が 0、標準偏差 が 1 となること
の理由を数学的に説明せよ。
5. 「心理学テスト」のデータをすべて偏差値に変換せよ。
6. 偏差値に変換したデータの平均が 50、標準偏差が 10 であることを確認せよ。
答:
1. 平均: 10
標本分散: 11.1
有効数字 2 桁として 11
標本分散の平方根: 3.331666
有効数字 2 桁として 3.3
2. 注意: ここで使う標準偏差は「標本分散の平方根」)
svd <- sqrt(var(心理学テスト)*(length(心理学テスト)-1)/length(心理学テスト) )
z <- (心理学テスト-mean(心理学テスト))/svd
3. mean(z) が 0 もしくは限りなく 0 に近い値になることを示す
標本分散の平方根としての標準偏差が 1 もしくは限りなく 1 に近いことを示す
4. (省略--- 数式から明らか )
5. z 値にもとづいて計算する: hensati <- z*10+50
6. z の場合と同様に hensati に対して計算する
注釈:
課題 1-7 で示されたように、z値や偏差値には「標本分散」と「その平方根としての標準偏差」を用い
る。これは z 値(や偏差値)が、与えられたデータだけを対象に、そのデータを変換するからである。
それに対し、
(後で学ぶように)不偏分散は、与えられたデータが、それより大きなデータ(母集団)か
らのサンプルであると考え、母集団の分散を求めようとする。
その違いが不偏分散と標本分散の違いである。
具体的に数値でいえば、
標本分散*データのサイズ = 不偏分散*(データのサイズ - 1)
の関係にある