情報処理実習 I 到達度確認テスト回答

情報処理実習 I 到達度確認テスト回答
第 6 回・到達度確認テスト
高校生の属性や学業成績に関するデータについて,SAS による分析をおこなって,問題に回答しなさい.
データとプログラムはこのページ中にあるものを参考にし,適宜コピーして利用してもかまわない
サンプルプログラム
DATA checkt;
INFILE checktest.dat';
INPUT id sex gaku taiju sincho kyodai syussin club tv fsin msin ei suu koku junni hyotei;
LABEL id = 'ID' sex='性別' gaku='学年' taiju='体重'
sincho='身長' kyodai='兄弟数' syussin='出身地'
club='所属クラブ' tv='テレビ視聴時間' fsin='父親の身長'
msin='母親の身長' ei='英語' suu='数学' koku='国語'
junni='入学順位' hyotei='評定平均値' ;
PROC FORMAT;
VALUE sexf 1='男性' 2='女性';
VALUE gakuf 1='1年' 2='2年' 3='3年';
VALUE syussinf 1='京都' 2='大阪' 3='神戸';
VALUE clubf 1='バレー部' 2='バスケ部' 3='サッカー部' 4='ESS' 5='演劇部';
RUN;
1. 母親の身長(msin)が 155cm 以上の人の人数を答えなさい
もっとも単純な方法は,msin の度数分布表を出力して,(総数−母親の身長が 155cm 未満の数)を計算
することである
proc freq; table msin;
右出力から,msin=155 未満の度数は 6 で
あると分かるので,答は 30-6=24 である
累積
累積
msin
度数
パーセント
度数
パーセント
-------------------------------------------------------149
1
3.33
1
3.33
150
1
3.33
2
6.67
152
1
3.33
3
10.00
153
2
6.67
5
16.67
154
1
3.33
6
20.00
155
2
6.67
8
26.67
156
3
10.00
11
36.67
158
3
10.00
14
46.67
159
3
10.00
17
56.67
160
3
10.00
20
66.67
161
1
3.33
21
70.00
162
1
3.33
22
73.33
163
1
3.33
23
76.67
164
3
10.00
26
86.67
165
1
3.33
27
90.00
166
2
6.67
29
96.67
168
1
3.33
30
100.00
2. 国語の点数(koku)が英語の点数(ei)より高い人の人数を答えなさい
if あるいは select-when 文を用いて,koku>ei なデータに新たな変数を割り当て,その変数の度数分布
表を出力すればよい
if koku>ei then goodkoku=1;
else goodkoku=0;
proc freq; table goodkoku;
累積
累積
goodkoku
度数
パーセント
度数
パーセント
------------------------------------------------------------
答は 15 人
0
15
50.00
15
50.00
1
15
50.00
30
100.00
3. 評定平均(hyotei)の値を 3.5 未満は'低',4.2 以上は'高',それ以外を'中'に分類する変数「bunrui」を作り,
各群の男女人数を答えなさい
if あるいは select-when 文を用いて,hyoutei の値によってサンプルを 3 群に分類する変数 bunrui を作
り,性別 sex とのクロス集計表を出力すればよい
select;
when (3.5>hyotei) bunrui="L";
when (3.5<=hyotei<4.2) bunrui="M";
when (4.2<=hyotei) bunrui="H";
end;
proc freq; tables sex*bunrui;
答は右出力のとおり(ただし H-L-M の順になって
いることに注意せよ)
sex(性別)
bunrui
度数
¦
パーセント
¦
行のパーセント¦
列のパーセント¦H
¦L
¦M
¦
合計
--------------+--------+--------+--------+
1 ¦
3 ¦
5 ¦
9 ¦
17
¦ 10.00 ¦ 16.67 ¦ 30.00 ¦ 56.67
¦ 17.65 ¦ 29.41 ¦ 52.94 ¦
¦ 75.00 ¦ 35.71 ¦ 75.00 ¦
--------------+--------+--------+--------+
2 ¦
1 ¦
9 ¦
3 ¦
13
¦
3.33 ¦ 30.00 ¦ 10.00 ¦ 43.33
¦
7.69 ¦ 69.23 ¦ 23.08 ¦
¦ 25.00 ¦ 64.29 ¦ 25.00 ¦
--------------+--------+--------+--------+
合計
4
14
12
30
13.33
46.67
40.00
100.00
4. 本人の身長(sincho)と父親の身長(fsin)の差を求め,それ(絶対値)がもっとも大きい&もっとも小さ
い回答者の ID とその差の値を答えなさい
sincho-fsin の演算結果を示す新たな変数 diff を作り,度数分布表を出力すると,差の最大値と最小値
が判明する.その後,ID と新たな変数 diff を出力し,どの ID で最大値/最小値が得られているかを見れば
よい
diff=sincho-fsin;
proc freq; table diff;
proc print; var id diff;
*なお,絶対値を求める関数 abs を用いれば,なお簡単になる.2つの結果を比べてみよ
diff2=abs(sincho-fsin);
答:
最大値 18
最小値 1
回答者 ID 1004, 1021, 1022
回答者 ID 1013, 1024
5. 性別(sex)と学年(gaku)間のクロス集計をおこないなさい
特に説明の必要はないだろう
proc freq; tables sex*gaku;
答は右出力のとおり
sex(性別)
gaku(学年)
度数
¦
パーセント
¦
行のパーセント¦
列のパーセント¦
1¦
2¦
3¦
合計
--------------+--------+--------+--------+
1 ¦
5 ¦
5 ¦
7 ¦
17
¦ 16.67 ¦ 16.67 ¦ 23.33 ¦ 56.67
¦ 29.41 ¦ 29.41 ¦ 41.18 ¦
¦ 55.56 ¦ 50.00 ¦ 63.64 ¦
--------------+--------+--------+--------+
2 ¦
4 ¦
5 ¦
4 ¦
13
¦ 13.33 ¦ 16.67 ¦ 13.33 ¦ 43.33
¦ 30.77 ¦ 38.46 ¦ 30.77 ¦
¦ 44.44 ¦ 50.00 ¦ 36.36 ¦
--------------+--------+--------+--------+
合計
9
10
11
30
30.00
33.33
36.67
100.00
6. 一人っ子(kyodai=1)ときょうだいあり(kyodai が 1 ではない)を識別する新しい変数を作り,きょうだい
がいる割合が男女によって異なるかどうかを適切な方法で検討せよ
適切な方法とは比率に関するχ2 検定である.ただしこの問題の場合度数が 5 以下のセルが含まれてい
るため「連続性補正」をおこなったχ2 値を見て,有意水準を検討する必要がある(イエーツの補正).た
だし,今回は通常のχ2 値を見て有意水準を検討している場合も,正しい解釈がおこなわれていれば正
解とした
if kyodai=1 then bros=0;
else bros=1;
proc freq; tables sex*bros / chisq;
答:クロス表は右のとおり.検定結果は,
1) 連続性補正値の場合
χ2(1)=3.06, p<.10 なので,比率に差が
あるというのに近い傾向(あるいは,
p>.05 なので比率に差はないとしてもよ
い).(有意傾向をとるなら)男性の方が
女性より一人っ子率が少ない傾向がある
2) 通常のχ2 値の場合
χ2(1)=4.89, p<.05 なので,比率に差が
あるといってよい.男性の方が女性よりも
一人っ子率が少ない
*統計的検定の結果を報告する場合,
「有意であった」「差があった」といった事
実だけを報告するだけでは不十分である.
かならず解析の結果得られた「統計値」
(と多くの場合は検定の際に用いる分布
の「自由度」)とその有意性判定の基準と
なる「p 値」,そして検定の対象となってい
た「数値」を報告しなければならない
sex(性別)
bros
度数
¦
パーセント
¦
行のパーセント¦
列のパーセント¦
0¦
1¦
合計
--------------+--------+--------+
1 ¦
1 ¦
16 ¦
17
¦
3.33 ¦ 53.33 ¦ 56.67
¦
5.88 ¦ 94.12 ¦
¦ 16.67 ¦ 66.67 ¦
--------------+--------+--------+
2 ¦
5 ¦
8 ¦
13
¦ 16.67 ¦ 26.67 ¦ 43.33
¦ 38.46 ¦ 61.54 ¦
¦ 83.33 ¦ 33.33 ¦
--------------+--------+--------+
合計
6
24
30
20.00
80.00
100.00
sex と bros の統計量
統計量
自由度
値
p 値
---------------------------------------------------------χ 2 乗値
1
4.8869
0.0271
尤度比χ 2 乗値
1
5.0945
0.0240
連続性補正χ 2 乗値
1
3.0628
0.0801
Mantel-Haenszel のχ 2 乗値
1
4.7240
0.0297
φ係数
-0.4036
不確実性係数
0.3743
Cramer の V 統計量
-0.4036
WARNING: セルの 50% において、期待度数が 5 より小さく
なっています。χ 2 乗検定は妥当な検定で
ないと思われます。
Fisher の正確検定
----------------------------セル (1,1) 度数 (F)
1
左側 Pr <= F
0.0397
右側 Pr >= F
0.9971
表の確率 (P)
両側 Pr <= P
0.0368
0.0606
7. テレビ視聴時間(tv),入学順位(junni),評定平均(hyotei)の間に有意な相関があるかどうかを調べな
さい
Pearson の相関係数
帰無仮説 Rho=0 に対する Prob > ¦r¦
標本数 (N)
特に説明の必要はないだろう
proc corr; var tv junni hyotei;
tv
テレビ視聴時間
tv
junni
hyotei
1.00000
0.01618
0.9336
29
0.10269
0.5961
29
0.01618
0.9336
29
1.00000
-0.74040
<.0001
30
0.10269
0.5961
29
-0.74040
<.0001
30
29
テレビ視聴時間−入学順位:r=0.02, n.s.
入学順位−評定平均値:r=-0.74, p<.0001
テレビ視聴時間−評定平均値:r=0.10, n.s.
junni
入学順位
hyotei
評定平均値
30
1.00000
30
*相関係数が「有意であるかどうか」と「絶対的に高いか低いか」は必ずしも完全に対応していないことは
以前述べたとおりである.この問題の場合は「有意かどうか」を調べよということであるから,前者について
報告するのが正解であり,後者について言及することに特に意味はない
8. 男性と女性ではテレビ視聴時間に差があるかどうかを検定しなさい
男性と女性の間で平均値の差の検定をおこなうのであるから,「対応のない」t 検定をおこなえばよい
proc ttest;
class sex;
var tv;
The TTEST Procedure
Variable
tv
tv
tv
sex
N
1
2
Lower CL
Mean
Mean
1.3595
1.0655
-0.562
1.9813
1.6923
0.2889
16
13
Diff (1-2)
Statistics
Upper CL
Lower CL
Mean
Std Dev
2.603
2.3191
1.1402
0.862
0.7438
0.8785
Std Dev
Upper CL
Std Dev
Std Err
Minimum
Maximum
1.1669
1.0372
1.1111
1.806
1.7121
1.5124
0.2917
0.2877
0.4149
0.1
0.2
3.8
3.8
T-Tests
Variable
tv
tv
Method
Pooled
Satterthwaite
Variances
Equal
Unequal
DF
27
26.7
t Value
0.70
0.71
Pr > ¦t¦
0.4921
0.4867
Equality of Variances
Variable
tv
Method
Folded F
Num DF
15
Den DF
12
F Value
1.27
Pr > F
0.6895
等分散性の検定の結果,両群の分散は等しいと仮定してよい(F=1.27, p=0.6895)ことがわかったので,
Variances=Equal の方の検定結果を見る(ここまでは通常レポートに書く必要はない)
男女によるテレビ視聴時間の平均値の差の検定をおこなったところ,t(27)=0.70 であり,有意ではなかった.
よって,テレビ視聴時間に性別による有意差は見られないことがわかった