確率・統計学の基礎 データの特性を表すパラメータとは? 2つのデータの関係性を表す式の導出方法 データとは データとは,ある事項についてその値を 集めたものである. 都道府県別65歳以上の 人口の割合(総務庁 1988) % GNPの実質成長率 (経済企画庁 1988) % 北海道 10.5 東京 9.6 青森 11.1 神奈川 8.0 岩手 12.7 新潟 13.7 宮城 10.6 富山 13.6 秋田 13.6 石川 12.7 年度 53 54 55 56 成長率 5.5 5.3 4.0 3.3 (%) データの特性値 生のデータそのままでは数値の羅列で,データの 特徴が掴み難い データの特徴を表す値 代表値:平均値 x 散布度:範囲, メディアン(中央値),モード(最頻値) 2 平均偏差,d 分散, 標準偏差, 変動係数 CV など など データを評価するには? 次のデータを比較してみよう.どのような点が異なるだろうか? C 14 14 12 12 10 10 人数 人数 B 8 6 8 6 4 4 2 2 0 0 0 100 200 300 400 500 0 100 200 300 400 500 点数 点数 例) ある学校で,2つのクラス(一クラス50人)に500満点の試験を受けてもらった. 各クラスの点数に対する人数をグラフにした.その特徴を説明しなさい 平均値 代表値で最も使われる値. 変量の和を総度数nで割った値 1 1 n 1 x x0 x1 x2 .... xn 1 xi n n i 0 Excelでは,=average(セル:セル)で計算することができる. 「グラフ表示」のページのデータにおいて,各項目ごとに平均値を 求めよ. または=sum(セル:セル)/セル数でも可 平均偏差 偏差:観測値 xi と平均値 x との差 xi x 平均偏差:偏差の絶対値を平均したもの 1 n 1 d xi ~ x n i 0 散らばりの程度を表す値.平均値から離れた値がたくさんあると, dの値は大きくなる. ただし絶対値の取り扱いが面倒である. 分散 偏差の絶対値の代わりに平方を平均したもの 平均値からどれくらい散らばっているかを評価するために 使われる n 1 1 表現の違い 2 2 xi x n i 0 n 1 n 1 1 n 1 2 1 1 xi 2 x xi x 2 xi2 2 x xi x 2 n i 0 n i 0 n i 0 1 n 1 2 xi x 2 表現の違い n i 0 標準偏差 分散値は偏差を2乗しているため,データの単位が 異なる. 分散値の正の平方根を取る 1 n 1 2 ~ xi x n i 0 1 n 1 2 ~ 2 xi x n i 0 分散と標準偏差は,最も重要な散布度である 練習問題1 データ1,データ2をダウンロードしなさい. Excelにデータを取り込みなさい. Frequency(セル:セル,セル:セル)を使用して度 数分布表を作成しなさい 散布図を作成しなさい. VARP(セル:セル)を使って分散値を求めよ. STDEVP(セル:セル)を使って標準偏差を求めよ 手順 1. 2. 3. 指定されたデータをダウンロードする.テキストファイル中に数字 のデータが入力されているのを確認する. テキストデータを開いてすべての数字を選択.コピー&貼り付け でエクセルにデータを移す.または,エクセルより,「データ→外 部データの取り込み→データの取り込み」の手順でデータを取り 込む Frequencyの使い方.まず度数分布を作成するにあたり,区間 配列を縦に記入する.0,10,20などと.そのすぐ横のセルをす べて選択した後,「=frequency(データがある範囲, 区間配列が ある範囲」と入力し,その後, [Shift+Ctrl+Enter]を押す. 手順2 1. 区間と度数を選択後,「挿入→グラフ→散布図」を選択する. VARP(データの範囲を指定)を使って分散値を求める. STDEVP(データの範囲を指定)を使って標準偏差を求める 二つのデータの関係を調べる 例) 身長と体重の関係 基本的に身長が高いほど体重が重い 例) 勉強時間と成績の関係 勉強時間が長いほど成績が高い 例) 販売価格と利益の関係 販売価格を安くすると利益が小さくなる 二つのデータには密接な関係があると予想される 相関と回帰直線 正の相関 負の相関 などのグラフ 140 120 120 100 100 80 Y label y label 80 60 60 40 40 20 20 0 0 0 5 10 15 X label 正の相関 20 0 5 10 15 X label 負の相関 20 例 例えば,慎重が高い人ほど体重が重い といった傾向が読み取れる 110 100 90 体重[kg] 80 70 60 50 40 145 150 155 160 165 170 身長[cm] 175 180 185 190 回帰直線 二つのデータの関係を直線で表すことが出来ないか? 相関図よりデータの各点が一つの直線の周りに集まって いる場合に,その直線を回帰直線という. とりあえず,y=ax+bとおこう.図より,各点と直線の距離dが最も小さ くなるようにa,bを決定する. 80 d i 0 n 1 2 i 60 yi axi b i 0 2 40 d y n 1 data y=ax+b 20 正と負があるので2乗和で評価する 0 0 2 4 6 x 8 10 回帰直線の続き n 1 d i 0 2 i nb y ax 2 y ny 2 i xi yi nx y x nx a 2 2 xi nx 2 i 2 x y nx y x nx 2 2 i i 2 i 2 その結果,上記の値が最も小さくなる条件は x y nx y a x nx i i 2 i b y ax 2 2 回帰直線の続き2 1 2 2 2 x n x x x n x x ns i x n 1 1 s xy xi x yi y xi yi nx y 共分散 n n 2 i a 2 s xy s 2 x 2 i 2 , b y ax となり 求める直線の式は s xy s xy y 2 x y ax y y 2 x x sx sx 回帰直線の続き3 2 sx と sxyの関係 sx 2 1 2 2 x x 1 i n xi x yi y s xy n 2 1 xi x 1 n xi yi nx y 1 n 2 2 x 2 x x x i i n 1 2 2 x 2 x x n x i i n 1 2 2 x 2 n x x n x i n 1 2 2 x n x 第2項をシグマの中に入れると一行目の式と同じになる i n 宿題 回帰直線の係数aとbの導出を証明せよ n 1 d i 0 n 1 2 i yi axi b より yy 2 i 0 s xy s 2 x x x を導出すること (ちゃんと過程を書くこと) 練習問題2 データ3をダウンロードしなさい 身長と体重の回帰直線を求めなさい (手順) ①平均を求める ②身長と平均の差,体重と平均の差を求める ③ ②の合計をデータ数で割る ④ ③より回帰直線の傾き,y切片を求める ⑤ ④で求めた値を用いて,回帰直線のyの値を求める. 元のデータと回帰直線のグラフを作成してみましょう ⑥ エクセルにある関数LINESTを用いて回帰直線の傾き,y切片を求める 相関について 2種類の相関 収入と支出。これは互いに非常に影響を与えあう変数で ある。収入が増えれば増えるほど支出額も増加する。また、 年齢と体力。これは逆に年齢が増えれば増えるほど、体 力は減るという関係にある。 このように、2変数の関係には次の2つの種類がある。 ①. 「Aが増えればBも増え、Aが減るとBも減る。」 ②. 「Aが増えるとBは減り、Aが減るとBは増える。」 今回の例なら、「収入と支出」は①の関係、「年齢と体力」は ②の関係になる 正の相関 負の相関 ②の傾向 ①の傾向 140 120 120 100 100 80 Y label y label 80 60 60 40 40 20 20 0 0 0 5 10 15 X label 正の相関 20 0 5 10 15 X label 負の相関 20 相関係数 直線的な傾向を示す2変量のデータに対して, その直線的傾向の度合いの「強さ」を数量的に 表現したい 先の計算で出てきた共分散を使えばよい 1 s xy xi x yi y n 直線に近ければ sxy の値は単調に増加するか減少する 直線から離れると sxy の値は0に近づく 負正 正正 sxy i 0 sxy i 0 sxy i 0 sxy i 0 負負 正負 先ほどのsxyでは,測定の単位に関係す るので,これをなくすため標準偏差sx,sy で割った値を用いる 相関係数 1 xi x yi y r sx s y n sx sy sxy 範囲は 1 r 1 1に近くなるほど,右上がりの直線に -1に近くなるほど,右下がりの直線に 0の場合無相関な分布となる この2つの関係は相関係数の符号に依って表現される。相関係数は -1・・0・・+1の間のいずれかになる。+は①の関係、-は②の関係であ る。また、相関係数の数値はその傾向の度合いを表している。絶対 値が1に近づくほどはっきりした傾向であることを示しているのである。 0は関係が全くないことを表している。 今上げた二つの例、「収入と支出」、「年齢と体力」はかなりはっきり した関係があるだろうから、+1や-1に近い値が出るだろう。 相関係数=1であるというのはどういうことを示しているか考察せよ.
© Copyright 2024 ExpyDoc