確率・統計学の基礎

確率・統計学の基礎
データの特性を表すパラメータとは?
2つのデータの関係性を表す式の導出方法
データとは

データとは,ある事項についてその値を
集めたものである.
都道府県別65歳以上の
人口の割合(総務庁 1988)
%
GNPの実質成長率
(経済企画庁 1988)
%
北海道
10.5 東京
9.6
青森
11.1 神奈川
8.0
岩手
12.7 新潟
13.7
宮城
10.6 富山
13.6
秋田
13.6 石川
12.7
年度
53 54
55
56
成長率 5.5 5.3 4.0 3.3
(%)
データの特性値
生のデータそのままでは数値の羅列で,データの
特徴が掴み難い
 データの特徴を表す値

代表値:平均値 x
散布度:範囲,
メディアン(中央値),モード(最頻値)
2

平均偏差,d 分散,
標準偏差,
変動係数 CV など
など
データを評価するには?

次のデータを比較してみよう.どのような点が異なるだろうか?
C
14
14
12
12
10
10
人数
人数
B
8
6
8
6
4
4
2
2
0
0
0
100
200
300
400
500
0
100
200
300
400
500
点数
点数
例) ある学校で,2つのクラス(一クラス50人)に500満点の試験を受けてもらった.
各クラスの点数に対する人数をグラフにした.その特徴を説明しなさい
平均値
代表値で最も使われる値.
 変量の和を総度数nで割った値

1
1 n 1
x  x0  x1  x2 .... xn 1    xi
n
n i 0
Excelでは,=average(セル:セル)で計算することができる.
「グラフ表示」のページのデータにおいて,各項目ごとに平均値を
求めよ.
または=sum(セル:セル)/セル数でも可
平均偏差
偏差:観測値 xi と平均値 x との差 xi  x
 平均偏差:偏差の絶対値を平均したもの

1 n 1
d   xi  ~
x
n i 0
散らばりの程度を表す値.平均値から離れた値がたくさんあると,
dの値は大きくなる.
ただし絶対値の取り扱いが面倒である.
分散

偏差の絶対値の代わりに平方を平均したもの

平均値からどれくらい散らばっているかを評価するために
使われる
n 1
1
表現の違い
2
2
   xi  x 
n i 0
n 1
n 1
1 n 1 2
1
1
  xi  2 x xi  x 2   xi2  2 x  xi  x 2
n i 0
n i 0
n i 0
1 n 1 2
  xi  x 2
表現の違い
n i 0




標準偏差
分散値は偏差を2乗しているため,データの単位が
異なる.
 分散値の正の平方根を取る

1 n 1
2
~
xi  x 


n i 0

1 n 1 2 ~ 2

xi  x

n i 0

分散と標準偏差は,最も重要な散布度である
練習問題1
データ1,データ2をダウンロードしなさい.
 Excelにデータを取り込みなさい.
 Frequency(セル:セル,セル:セル)を使用して度
数分布表を作成しなさい
 散布図を作成しなさい.
 VARP(セル:セル)を使って分散値を求めよ.
 STDEVP(セル:セル)を使って標準偏差を求めよ

手順
1.
2.
3.
指定されたデータをダウンロードする.テキストファイル中に数字
のデータが入力されているのを確認する.
テキストデータを開いてすべての数字を選択.コピー&貼り付け
でエクセルにデータを移す.または,エクセルより,「データ→外
部データの取り込み→データの取り込み」の手順でデータを取り
込む
Frequencyの使い方.まず度数分布を作成するにあたり,区間
配列を縦に記入する.0,10,20などと.そのすぐ横のセルをす
べて選択した後,「=frequency(データがある範囲, 区間配列が
ある範囲」と入力し,その後, [Shift+Ctrl+Enter]を押す.
手順2
1.


区間と度数を選択後,「挿入→グラフ→散布図」を選択する.
VARP(データの範囲を指定)を使って分散値を求める.
STDEVP(データの範囲を指定)を使って標準偏差を求める
二つのデータの関係を調べる
例) 身長と体重の関係
基本的に身長が高いほど体重が重い
例) 勉強時間と成績の関係
勉強時間が長いほど成績が高い
例) 販売価格と利益の関係
販売価格を安くすると利益が小さくなる
二つのデータには密接な関係があると予想される
相関と回帰直線

正の相関 負の相関 などのグラフ
140
120
120
100
100
80
Y label
y label
80
60
60
40
40
20
20
0
0
0
5
10
15
X label
正の相関
20
0
5
10
15
X label
負の相関
20
例
例えば,慎重が高い人ほど体重が重い
といった傾向が読み取れる
110
100
90
体重[kg]

80
70
60
50
40
145 150
155 160
165 170
身長[cm]
175 180 185
190
回帰直線


二つのデータの関係を直線で表すことが出来ないか?
相関図よりデータの各点が一つの直線の周りに集まって
いる場合に,その直線を回帰直線という.
とりあえず,y=ax+bとおこう.図より,各点と直線の距離dが最も小さ
くなるようにa,bを決定する.
80
d
i 0
n 1
2
i
60
  yi  axi  b 
i 0
2
40
d
y
n 1
data
y=ax+b
20
正と負があるので2乗和で評価する
0
0
2
4
6
x
8
10
回帰直線の続き
n 1
d
i 0
2
i
 nb   y  ax 
2
  y  ny
2
i
  xi yi  nx y 
  x  nx a 
2
2 

 xi  nx 

2
i
2


x y  nx y 


 x  nx
2
2
i
i
2
i
2
その結果,上記の値が最も小さくなる条件は
x y  nx y

a
 x  nx
i
i
2
i
b  y  ax
2
2
回帰直線の続き2




1
2
2
2
x

n
x

x

x

n
x

x

ns



i
x
n
1
1
s xy   xi  x  yi  y    xi yi  nx y
共分散
n
n
2
i
a
2
s xy
s
2
x
2
i
2
, b  y  ax となり
求める直線の式は
s xy
s xy
y  2 x  y  ax  y  y  2  x  x 
sx
sx
回帰直線の続き3
2
sx と sxyの関係
sx 
2







1
2
2
x

x
1

i
n
xi  x  yi  y 
s xy 
n
2
1
xi  x

1
n

xi yi  nx y
1
n
2
2
x

2
x
x

x

i
i
n
1
2
2
x


2
x
x

n
x
 i
 i
n
1
2
2
x


2
n
x
x

n
x
 i
n
1
2
2
x

n
x
第2項をシグマの中に入れると一行目の式と同じになる

i
n












宿題

回帰直線の係数aとbの導出を証明せよ
n 1
d
i 0
n 1
2
i
  yi  axi  b  より
yy
2
i 0
s xy
s
2
x
x  x 
を導出すること
(ちゃんと過程を書くこと)
練習問題2


データ3をダウンロードしなさい
身長と体重の回帰直線を求めなさい
(手順)
①平均を求める
②身長と平均の差,体重と平均の差を求める
③ ②の合計をデータ数で割る
④ ③より回帰直線の傾き,y切片を求める
⑤ ④で求めた値を用いて,回帰直線のyの値を求める.
元のデータと回帰直線のグラフを作成してみましょう
⑥ エクセルにある関数LINESTを用いて回帰直線の傾き,y切片を求める
相関について

2種類の相関
収入と支出。これは互いに非常に影響を与えあう変数で
ある。収入が増えれば増えるほど支出額も増加する。また、
年齢と体力。これは逆に年齢が増えれば増えるほど、体
力は減るという関係にある。
このように、2変数の関係には次の2つの種類がある。
①. 「Aが増えればBも増え、Aが減るとBも減る。」
②. 「Aが増えるとBは減り、Aが減るとBは増える。」
今回の例なら、「収入と支出」は①の関係、「年齢と体力」は
②の関係になる
正の相関 負の相関
②の傾向
①の傾向
140
120
120
100
100
80
Y label
y label
80
60
60
40
40
20
20
0
0
0
5
10
15
X label
正の相関
20
0
5
10
15
X label
負の相関
20
相関係数

直線的な傾向を示す2変量のデータに対して,
その直線的傾向の度合いの「強さ」を数量的に
表現したい
先の計算で出てきた共分散を使えばよい
1
s xy    xi  x  yi  y 
n
直線に近ければ
sxy の値は単調に増加するか減少する
直線から離れると
sxy の値は0に近づく
負正
正正
sxy i  0 sxy i  0
sxy i  0 sxy i  0
負負
正負
先ほどのsxyでは,測定の単位に関係す
るので,これをなくすため標準偏差sx,sy
で割った値を用いる
 相関係数

1 xi  x   yi  y 
r
 
sx s y n
sx
sy
sxy
範囲は  1  r  1
1に近くなるほど,右上がりの直線に
-1に近くなるほど,右下がりの直線に 0の場合無相関な分布となる
この2つの関係は相関係数の符号に依って表現される。相関係数は
-1・・0・・+1の間のいずれかになる。+は①の関係、-は②の関係であ
る。また、相関係数の数値はその傾向の度合いを表している。絶対
値が1に近づくほどはっきりした傾向であることを示しているのである。
0は関係が全くないことを表している。
今上げた二つの例、「収入と支出」、「年齢と体力」はかなりはっきり
した関係があるだろうから、+1や-1に近い値が出るだろう。

相関係数=1であるというのはどういうことを示しているか考察せよ.