情報処理実習 I 到達度確認テスト回答 第 6 回・到達度確認テスト 高校生の属性や学業成績に関するデータについて,SAS による分析をおこなって,問題に回答しなさい. データとプログラムはこのページ中にあるものを参考にし,適宜コピーして利用してもかまわない サンプルプログラム DATA checkt; INFILE checktest.dat'; INPUT id sex gaku taiju sincho kyodai syussin club tv fsin msin ei suu koku junni hyotei; LABEL id = 'ID' sex='性別' gaku='学年' taiju='体重' sincho='身長' kyodai='兄弟数' syussin='出身地' club='所属クラブ' tv='テレビ視聴時間' fsin='父親の身長' msin='母親の身長' ei='英語' suu='数学' koku='国語' junni='入学順位' hyotei='評定平均値' ; PROC FORMAT; VALUE sexf 1='男性' 2='女性'; VALUE gakuf 1='1年' 2='2年' 3='3年'; VALUE syussinf 1='京都' 2='大阪' 3='神戸'; VALUE clubf 1='バレー部' 2='バスケ部' 3='サッカー部' 4='ESS' 5='演劇部'; RUN; 1. 母親の身長(msin)が 155cm 以上の人の人数を答えなさい もっとも単純な方法は,msin の度数分布表を出力して,(総数−母親の身長が 155cm 未満の数)を計算 することである proc freq; table msin; 右出力から,msin=155 未満の度数は 6 で あると分かるので,答は 30-6=24 である 累積 累積 msin 度数 パーセント 度数 パーセント -------------------------------------------------------149 1 3.33 1 3.33 150 1 3.33 2 6.67 152 1 3.33 3 10.00 153 2 6.67 5 16.67 154 1 3.33 6 20.00 155 2 6.67 8 26.67 156 3 10.00 11 36.67 158 3 10.00 14 46.67 159 3 10.00 17 56.67 160 3 10.00 20 66.67 161 1 3.33 21 70.00 162 1 3.33 22 73.33 163 1 3.33 23 76.67 164 3 10.00 26 86.67 165 1 3.33 27 90.00 166 2 6.67 29 96.67 168 1 3.33 30 100.00 2. 国語の点数(koku)が英語の点数(ei)より高い人の人数を答えなさい if あるいは select-when 文を用いて,koku>ei なデータに新たな変数を割り当て,その変数の度数分布 表を出力すればよい if koku>ei then goodkoku=1; else goodkoku=0; proc freq; table goodkoku; 累積 累積 goodkoku 度数 パーセント 度数 パーセント ------------------------------------------------------------ 答は 15 人 0 15 50.00 15 50.00 1 15 50.00 30 100.00 3. 評定平均(hyotei)の値を 3.5 未満は'低',4.2 以上は'高',それ以外を'中'に分類する変数「bunrui」を作り, 各群の男女人数を答えなさい if あるいは select-when 文を用いて,hyoutei の値によってサンプルを 3 群に分類する変数 bunrui を作 り,性別 sex とのクロス集計表を出力すればよい select; when (3.5>hyotei) bunrui="L"; when (3.5<=hyotei<4.2) bunrui="M"; when (4.2<=hyotei) bunrui="H"; end; proc freq; tables sex*bunrui; 答は右出力のとおり(ただし H-L-M の順になって いることに注意せよ) sex(性別) bunrui 度数 ¦ パーセント ¦ 行のパーセント¦ 列のパーセント¦H ¦L ¦M ¦ 合計 --------------+--------+--------+--------+ 1 ¦ 3 ¦ 5 ¦ 9 ¦ 17 ¦ 10.00 ¦ 16.67 ¦ 30.00 ¦ 56.67 ¦ 17.65 ¦ 29.41 ¦ 52.94 ¦ ¦ 75.00 ¦ 35.71 ¦ 75.00 ¦ --------------+--------+--------+--------+ 2 ¦ 1 ¦ 9 ¦ 3 ¦ 13 ¦ 3.33 ¦ 30.00 ¦ 10.00 ¦ 43.33 ¦ 7.69 ¦ 69.23 ¦ 23.08 ¦ ¦ 25.00 ¦ 64.29 ¦ 25.00 ¦ --------------+--------+--------+--------+ 合計 4 14 12 30 13.33 46.67 40.00 100.00 4. 本人の身長(sincho)と父親の身長(fsin)の差を求め,それ(絶対値)がもっとも大きい&もっとも小さ い回答者の ID とその差の値を答えなさい sincho-fsin の演算結果を示す新たな変数 diff を作り,度数分布表を出力すると,差の最大値と最小値 が判明する.その後,ID と新たな変数 diff を出力し,どの ID で最大値/最小値が得られているかを見れば よい diff=sincho-fsin; proc freq; table diff; proc print; var id diff; *なお,絶対値を求める関数 abs を用いれば,なお簡単になる.2つの結果を比べてみよ diff2=abs(sincho-fsin); 答: 最大値 18 最小値 1 回答者 ID 1004, 1021, 1022 回答者 ID 1013, 1024 5. 性別(sex)と学年(gaku)間のクロス集計をおこないなさい 特に説明の必要はないだろう proc freq; tables sex*gaku; 答は右出力のとおり sex(性別) gaku(学年) 度数 ¦ パーセント ¦ 行のパーセント¦ 列のパーセント¦ 1¦ 2¦ 3¦ 合計 --------------+--------+--------+--------+ 1 ¦ 5 ¦ 5 ¦ 7 ¦ 17 ¦ 16.67 ¦ 16.67 ¦ 23.33 ¦ 56.67 ¦ 29.41 ¦ 29.41 ¦ 41.18 ¦ ¦ 55.56 ¦ 50.00 ¦ 63.64 ¦ --------------+--------+--------+--------+ 2 ¦ 4 ¦ 5 ¦ 4 ¦ 13 ¦ 13.33 ¦ 16.67 ¦ 13.33 ¦ 43.33 ¦ 30.77 ¦ 38.46 ¦ 30.77 ¦ ¦ 44.44 ¦ 50.00 ¦ 36.36 ¦ --------------+--------+--------+--------+ 合計 9 10 11 30 30.00 33.33 36.67 100.00 6. 一人っ子(kyodai=1)ときょうだいあり(kyodai が 1 ではない)を識別する新しい変数を作り,きょうだい がいる割合が男女によって異なるかどうかを適切な方法で検討せよ 適切な方法とは比率に関するχ2 検定である.ただしこの問題の場合度数が 5 以下のセルが含まれてい るため「連続性補正」をおこなったχ2 値を見て,有意水準を検討する必要がある(イエーツの補正).た だし,今回は通常のχ2 値を見て有意水準を検討している場合も,正しい解釈がおこなわれていれば正 解とした if kyodai=1 then bros=0; else bros=1; proc freq; tables sex*bros / chisq; 答:クロス表は右のとおり.検定結果は, 1) 連続性補正値の場合 χ2(1)=3.06, p<.10 なので,比率に差が あるというのに近い傾向(あるいは, p>.05 なので比率に差はないとしてもよ い).(有意傾向をとるなら)男性の方が 女性より一人っ子率が少ない傾向がある 2) 通常のχ2 値の場合 χ2(1)=4.89, p<.05 なので,比率に差が あるといってよい.男性の方が女性よりも 一人っ子率が少ない *統計的検定の結果を報告する場合, 「有意であった」「差があった」といった事 実だけを報告するだけでは不十分である. かならず解析の結果得られた「統計値」 (と多くの場合は検定の際に用いる分布 の「自由度」)とその有意性判定の基準と なる「p 値」,そして検定の対象となってい た「数値」を報告しなければならない sex(性別) bros 度数 ¦ パーセント ¦ 行のパーセント¦ 列のパーセント¦ 0¦ 1¦ 合計 --------------+--------+--------+ 1 ¦ 1 ¦ 16 ¦ 17 ¦ 3.33 ¦ 53.33 ¦ 56.67 ¦ 5.88 ¦ 94.12 ¦ ¦ 16.67 ¦ 66.67 ¦ --------------+--------+--------+ 2 ¦ 5 ¦ 8 ¦ 13 ¦ 16.67 ¦ 26.67 ¦ 43.33 ¦ 38.46 ¦ 61.54 ¦ ¦ 83.33 ¦ 33.33 ¦ --------------+--------+--------+ 合計 6 24 30 20.00 80.00 100.00 sex と bros の統計量 統計量 自由度 値 p 値 ---------------------------------------------------------χ 2 乗値 1 4.8869 0.0271 尤度比χ 2 乗値 1 5.0945 0.0240 連続性補正χ 2 乗値 1 3.0628 0.0801 Mantel-Haenszel のχ 2 乗値 1 4.7240 0.0297 φ係数 -0.4036 不確実性係数 0.3743 Cramer の V 統計量 -0.4036 WARNING: セルの 50% において、期待度数が 5 より小さく なっています。χ 2 乗検定は妥当な検定で ないと思われます。 Fisher の正確検定 ----------------------------セル (1,1) 度数 (F) 1 左側 Pr <= F 0.0397 右側 Pr >= F 0.9971 表の確率 (P) 両側 Pr <= P 0.0368 0.0606 7. テレビ視聴時間(tv),入学順位(junni),評定平均(hyotei)の間に有意な相関があるかどうかを調べな さい Pearson の相関係数 帰無仮説 Rho=0 に対する Prob > ¦r¦ 標本数 (N) 特に説明の必要はないだろう proc corr; var tv junni hyotei; tv テレビ視聴時間 tv junni hyotei 1.00000 0.01618 0.9336 29 0.10269 0.5961 29 0.01618 0.9336 29 1.00000 -0.74040 <.0001 30 0.10269 0.5961 29 -0.74040 <.0001 30 29 テレビ視聴時間−入学順位:r=0.02, n.s. 入学順位−評定平均値:r=-0.74, p<.0001 テレビ視聴時間−評定平均値:r=0.10, n.s. junni 入学順位 hyotei 評定平均値 30 1.00000 30 *相関係数が「有意であるかどうか」と「絶対的に高いか低いか」は必ずしも完全に対応していないことは 以前述べたとおりである.この問題の場合は「有意かどうか」を調べよということであるから,前者について 報告するのが正解であり,後者について言及することに特に意味はない 8. 男性と女性ではテレビ視聴時間に差があるかどうかを検定しなさい 男性と女性の間で平均値の差の検定をおこなうのであるから,「対応のない」t 検定をおこなえばよい proc ttest; class sex; var tv; The TTEST Procedure Variable tv tv tv sex N 1 2 Lower CL Mean Mean 1.3595 1.0655 -0.562 1.9813 1.6923 0.2889 16 13 Diff (1-2) Statistics Upper CL Lower CL Mean Std Dev 2.603 2.3191 1.1402 0.862 0.7438 0.8785 Std Dev Upper CL Std Dev Std Err Minimum Maximum 1.1669 1.0372 1.1111 1.806 1.7121 1.5124 0.2917 0.2877 0.4149 0.1 0.2 3.8 3.8 T-Tests Variable tv tv Method Pooled Satterthwaite Variances Equal Unequal DF 27 26.7 t Value 0.70 0.71 Pr > ¦t¦ 0.4921 0.4867 Equality of Variances Variable tv Method Folded F Num DF 15 Den DF 12 F Value 1.27 Pr > F 0.6895 等分散性の検定の結果,両群の分散は等しいと仮定してよい(F=1.27, p=0.6895)ことがわかったので, Variances=Equal の方の検定結果を見る(ここまでは通常レポートに書く必要はない) 男女によるテレビ視聴時間の平均値の差の検定をおこなったところ,t(27)=0.70 であり,有意ではなかった. よって,テレビ視聴時間に性別による有意差は見られないことがわかった
© Copyright 2024 ExpyDoc