1 数列の和 数列 {xi }n i=1 を考える. この総和を n ∑ xi i=1 と表記する. たとえば数列 {1, 0, 4, 3} は n = 4 での総和は 1 + 0 + 4 + 3 = 8 である. 自乗和を ∑n i=1 x2i と表記する. 自乗和は和の自乗と必ずしも等しくない. たとえば数列 {1, 0, 4, 3} の自乗 和は 1 + 0 + 16 + 9 = 26 であり, 和の自乗は 82 = 64 と等しくない. 和の自乗は { n ∑ }2 xi = i=1 = n ∑ n ∑ xi xj i=1 j=1 n ∑ x2i + i=1 2 n n ∑ ∑ xi xj i=1 j=i+1 である. n = 3 のとき { 3 ∑ }2 xi = x21 + x22 + x23 + 2(x1 x2 + x2 x3 + x1 x3 ) = 3 ∑ 3 ∑ i=1 xi xj i=1 j=1 である. 定数 a, b を考える. 一次変換 a + bxi の和は n n ∑ ∑ (a + bxi ) = na + b xi i=1 i=1 となり, 一次変換の自乗和は n n n ∑ ∑ ∑ (a + bxi )2 = na2 + 2ab xi + b2 x2i i=1 i=1 i=1 である. たとえば数列 {1, 0, 4, 3} の一次変換 1 + 2xi は {3, 1, 9, 7} であり, その和は 20 である. {1, 0, 4, 3} の 和 8 を 4 × 1 + 2 × 8 = 20 である. 一次変換の自乗和は 4 × 12 + 2 × 2 × 8 + 22 × 26 = 140 もうひとつの数列 {yi }n i=1 を考える. {xi + yi } の和は n n n ∑ ∑ ∑ (xi + yi ) = xi + yi i=1 i=1 i=1 である. それぞれの 2 つ数列を足しあわせた数列の総和は, それぞれの数列の総和を足しあわせたものと等し い. たとえば {xi } = {1, 0, 4, 3} と {yi } = {2, 2, 0, 1} の総和はそれぞれ ∑ ∑ yi = 5 である. また ∑ ∑ ∑ 数列 {xi + yi } = {3, 2, 4, 4} であり, (xi + yi ) = 13 であり, xi と yi の和と同じである. ∑n 積和を i=1 xi yi と表記する. 積和は必ずしも和の積と等しくない. たとえば {xi } = {1, 0, 4, 3} と ∑ {yi } = {2, 2, 0, 1} の積和は xi yi = 2 + 0 + 0 + 3 = 5 であり, それぞの和の積 8 × 5 = 40 と等しくない. 和の積は n ∑ i=1 xi n ∑ yi = i=1 n ∑ n ∑ i=1 j=1 1 xi yj xi = 8 と である. n = 2 のとき 2 ∑ i=1 xi 2 ∑ yi = x1 y1 + x1 y2 + x2 y1 + x2 y2 = i=1 2 ∑ 2 ∑ xi yj i=1 j=1 である. {xi + yi } の自乗和は n n n n ∑ ∑ ∑ ∑ xi yi + yi2 (xi + yi )2 = x2i + 2 i=1 i=1 i=1 i=1 である. 自乗和は和の自乗と等しくない. 和の自乗は { n ∑ (xi + yi ) }2 = i=1 = n ∑ n ∑ i=1 j=1 n ∑ n ∑ (xi + yi )(xj + yj ) xi xj + 2 i=1 j=1 n n ∑ ∑ xi yj + i=1 j=1 n n ∑ ∑ yi yj i=1 j=1 である. 2 1 変数の特性値 1 変数について n 個のデータ {xi }ni=1 を考える. n のことを標本サイズもしくは観測値数という. データの 分布としてヒストグラムで表すことが多いが, 図の場合, 人によって判断が「ずれる」ことがある. ある人にと っては大きいと感じたり, 別のひとには小さいと思ったりする. そうした主観の判断を避けるため客観的に数 値で縮約する必要がある. 数値データの特性を数値であらわしたものを特性値という. 位置についての特性値として (標本) 平均が代表的である. 平均は 1∑ xi n i=1 n x ¯= で定義される.*1 a, b を定数として, n 個のデータ {xi }ni=1 の一次変換 {a + bxi }ni=1 を考える. このデータの平均は 1∑ (a + bxi ) = a + b¯ x n である. つまり一次変換の平均は平均の一次変換である. ばらつきについての特性値として分散およびその平方根である標準偏差が代表的である. 平均からの差 xi − x ¯ を偏差という. 偏差の総和はあきらかにゼロである. n n ∑ ∑ (xi − x ¯) = xi − n¯ x=0 i=1 i=1 偏差の自乗平均を (標本) 分散といい, 1∑ (xi − x ¯)2 n i=1 n s2x = *1 EXCEL で平均を計算するために AVERAGE 関数を使えばよい. 2 で表す. 分散は系列が定数のときゼロで, それ以外は正である. またテキストによっては n で除さず n − 1 で 除していることがある. ここでは n で除したものを標本分散といい, n − 1 で除したものを (あとでしめすが) 不偏分散という.*2 分散の平方根を標準偏差という. 分散は 1∑ 2 1∑ 2 (xi − 2¯ xxi + x ¯2 ) = x −x ¯2 n i=1 n i=1 i n s2x = n という性質がなりたつ. これを分散公式という. 分散公式の応用として 1∑ (xi − x ¯)xi n i=1 n s2x = も成り立つ. a, b を 定 数 と し て, n 個 の デ ー タ {xi }ni=1 の 一 次 変 換 {a + bxi }ni=1 を 考 え る. こ の デ ー タ の 平 均 は ∑ n 1 x で, 分散は i=1 (a + bxi ) = a + b¯ n 1∑ 2 {a + bxi − (a + b¯ x)} = b2 s2x n i=1 n である. つまり分散は平行移動しても値は変わらない. また標準偏差は |b|sx である. 一次変換として a = −¯ x/sx , b = 1/sx を考える. このとき平均は 0 であり, 分散は 1 である. このような変 換を標準化もしくは z 変換という. つまり xi の標準化は zi = xi − x ¯ sx である. 標準偏差を標本分散の平方根でなく, 不偏分散の平方根にすれば, 値が変わることに注意されたい. 1 変数についての n 個のデータ {xi }ni=1 を考える. このとき r 次モーメントは 1∑ r x n i=1 i n m′r = で定義する. 平均は 1 次のモーメントである. 偏差もしくは平均周りの r 次モーメントは 1∑ (xi − x ¯ )r n i=1 n mr = である. 分散は平均周りの 2 次のモーメントである. 分布の偏りを表す特性値として (標本) 歪度を考える. 歪度は標準化されたデータの 3 次モーメントで定 義し, 1∑ n i=1 n ( xi − x ¯ sx )3 ∑n (xi − x ¯ )3 m3 = ( ∑ i=1 )3/2 = 3/2 n 1 2 m2 ¯) i=1 (xi − x n 1 n である. 歪度が 0 のとき歪みがないといい, 正のとき右に偏っているという. 標準化のときの標準偏差を標本 分散の平方根でなく, 不偏分散の平方根にすれば, 値が変わることに注意されたい.*3 *2 *3 EXCEL で標本分散を計算するために VAR.P 関数が存在し, 不偏分散を計算するために VAR.S 関数が存在する. EXCEL では SKEW 関数が存在し, n (n − 1)(n − 2) ∑n ( i=1 1 n−1 ∑n 3 (xi − x ¯)3 i=1 (xi − x ¯)2 )3/2 分布の尖り程度を表す特性値として (標本) 尖度を考える. 尖度は標準化されたデータの 4 次のモーメント で定義し, 1∑ n i=1 n ( xi − x ¯ sx )4 = ∑n 1 ¯ )4 i=1 (xi − x n ( 1 ∑n )2 ¯)2 i=1 (xi − x n = m4 m22 である. 尖度が 3 より大きいとき, 尖っているという. 標準化のときの標準偏差を標本分散の平方根でなく, 不 偏分散の平方根にすれば, 値が変わることに注意されたい. また 3 を差し引いた値を尖度とする場合もある.*4 3 2 変数の特性値 2 変数についての n 個のデータ {xi , yi }ni=1 を考える. データの分布として散布図で表すことが多い. 2 つの変数の関連の特性値として共分散や相関係数がある. それぞれの変数について平均 x ¯, y¯ や分散 s2x , s2y などが定義できる. (標本) 共分散は 2 つの変数の偏差の積平均で定義し, 1∑ (xi − x ¯)(yi − y¯) n i=1 n sxy = である.*5 また共分散 sxy がゼロのとき無相関という. 共分散は 1∑ 1∑ (xi yi − y¯xi − x ¯ yi − x ¯y¯) = xi yi − x ¯y¯ n i=1 n i=1 n sxy = n という性質がなりたつ. これを共分散公式という. 共分散公式の応用として 1∑ 1∑ (xi − x ¯)yi = (yi − y¯)xi n i=1 n i=1 n sxy = n も成り立つ. xi = yi のき共分散が分散になることに注意されたい. 次に a, b を定数として, {xi }ni=1 とその一次変換 yi = a + bxi を考える. 平均は x ¯ と y¯ = a + b¯ x なので, 共分散は 1∑ xi (a + bxi − (¯ a + b¯ x)) = bs2x n i=1 n n である. さらに c, d を定数として, 2 変数 {xi , yi }n i=1 の一次変換 {a + bxi , c + dyi }i=1 を考える. このデータ の平均は a + b¯ x と c + d¯ y で, 共分散は 1∑ (a + bxi − (a + b¯ x))(c + dxi − (c + d¯ x)) = bdsxy n i=1 n *4 で定義されている. EXCEL では KURT 関数が存在し, n(n + 1) (n − 1)(n − 2)(n − 3) *5 ∑n ( ∑n i=1 1 n−1 (xi − x ¯)4 i=1 (xi − x ¯)2 )2 − 3(n − 1)2 (n − 2)(n − 3) で定義されている. EXCEL で標本共分散を計算するために COVARIANCE.P 関数が存在し, n で除さず n − 1 で除している不偏分散を計算するため に COVARIANCE.S 関数が存在する. 4 である. つまり共分散は平行移動しても値は変わらない. 2 つの系列が無相関のとき, それらの一次変換もまた 無相関である. n 個のデータ {xi , yi }ni=1 の標準化した系列の共分散を (標本) 相関係数といい, rxy で表記する. つまり 1 ∑ (xi − x ¯) (yi − y¯) sxy = n i=1 sx sy sx sy n rxy = である.*6 ∑n rxy = √∑n i=1 (xi −x ¯)(yi − y¯) √∑n ¯)2 i=1 (yi − y ¯)2 i=1 (xi − x とも表記できる. なお無相関のとき相関係数はゼロである. xi = yi のき共分散が分散となるので, 相関係数は 1 である. つぎに a, b を定数として, {xi }ni=1 とその一次 変換 yi = a + bxi を考える. 共分散は bs2x となるので相関係数は (b/|b|) となる. つまり b の符号が正なら 1 n に, 負なら −1 になる. さらに c, d を定数として, 2 変数 {xi , yi }n i=1 の一次変換 {a + bxi , c + dyi }i=1 を考え る. 共分散は bdsxy であるので相関係数は bd rxy |b||d| となる. つまり b と d の符号が同じなら rxy に, 同じでないならなら −rxy になる. 相関係数は −1 以上, 1 以下であり, −1 もしくは 1 のとき完全な線形関係が成立している. 証明は以下の通 n りである. n 個のデータ {xi , yi }n i=1 の標準化した系列を {ui , vi }i=1 とする. その差の自乗平均は 1∑ 2 2∑ 1∑ 2 1∑ (ui − vi )2 = ui − ui vi + v n i=1 n i=1 n i=1 n i=1 i n n n n = 2(1 − rxy ) ≥ 0 である. つまり rxy ≤ 1 であり, rxy = 1 のとき ui = vi , つまり xi − x ¯ yi − y¯ = sx sy である. 一方, その和の自乗平均は 1∑ 1∑ 2 2∑ 1∑ 2 (ui + vi )2 = ui + ui vi + v n i=1 n i=1 n i=1 n i=1 i n n n = 2(1 + rxy ) ≥ 0 である. つまり rxy ≥ −1 であり, rxy = −1 のとき ui = −vi , つまり xi − x ¯ yi − y¯ =− sx sy である. *6 EXCEL で平均を計算するために CORREL 関数を使えばよい. 5 n 計算例 4 以下のデータを考える. i xi yi 1 10 6 2 12 9 3 14 10 4 16 10 それぞれの和を計算する. i xi yi 1 10 6 2 12 9 3 14 10 4 16 10 52 35 よって平均はそれぞれ x ¯ = 52/4 = 13 と y¯ = 35/4 = 8.75 となる. 次に偏差を計算する. i xi yi xi − x ¯ yi − y¯ 1 10 6 -3 -2.75 2 12 9 -1 0.25 3 14 10 1 1.25 4 16 10 3 1.25 52 35 0 0 偏差の和はゼロである. 次に偏差の自乗和を計算する. i xi yi xi − x ¯ yi − y¯ (xi − x ¯ )2 (yi − y¯)2 1 10 6 -3 -2.75 9 7.5625 2 12 9 -1 0.25 1 0.0625 3 14 10 1 1.25 1 1.5625 4 16 10 3 1.25 9 1.5625 52 35 0 0 20 10.75 よって分散はそれぞれ s2x = 20/4 = 5 と s2y = 10.75/4 = 2.6875 となる. 標準偏差は sx = sy = √ 2.6875 = 1.639 となる. 次に偏差の積和を計算する. 6 √ 5 = 2.236 と i xi yi xi − x ¯ yi − y¯ (xi − x ¯ )2 (yi − y¯)2 (xi − x ¯)(yi − y¯) 1 10 6 -3 -2.75 9 7.5625 8.25 2 12 9 -1 0.25 1 0.0625 -0.25 3 14 10 1 1.25 1 1.5625 1.25 4 16 10 3 1.25 9 1.5625 3.75 52 35 0 0 20 10.75 13 よって共分散は sxy = 3.25 となる. 相関係数は rxy = 3.25/(2.236 × 1.639) = 0.887 である. 偏差を使わないやり方は以下の通りである. それぞれの自乗和と積和を求める. i xi yi x2i yi2 xi yi 1 10 6 100 36 60 2 12 9 144 81 108 3 14 10 196 100 140 4 16 10 256 100 160 52 35 696 317 468 分散公式と共分散公式より 696 1∑ 2 xi − x ¯2 = − n i=1 4 n s2x = 52 4 )2 =5 )2 35 = 2.6875 4 ( )( ) n 1∑ 468 52 35 = xi yi − x ¯y¯ = − = 3.25 n i=1 4 4 4 1∑ 2 317 y − y¯2 = − n i=1 i 4 n s2y = sxy ( ( となる. これより標準偏差や相関係数が求められる. 平均値が割り切れないことが多いので, 偏差を使わないやり方のほうが計算の誤差が少ない. 7
© Copyright 2024 ExpyDoc