基本統計量 - 金沢学院大学

基本統計量
経営統計の補足資料
2015年6月15日
金沢学院大学経営情報学部
藤本祥二
量的データの分析(P.78~119)
• 分布全体の様子を知るのが目的(P.99のまとめ)
1.単峰性,2.ピークの位置と散らばり具合,
3.左右対称性,4.外れ値の存在
• 度数分布,ヒストグラムを描き形状を見る
(P.78~P.91)
• 数値で分布を要約する(P.99~P.117)
基本統計量:分布の特徴を表す数値
– 代表値(分布の中心を表す数値)
例)平均値,中央値,最頻値
– 散布度(分布のばらつき具合を表す数値)
例)範囲(レンジ),四分位範囲,分散,標準偏差
§3.3(教科書P.99)
数値による分布の要約
代表値
• 分布の中心を表す基本統計量
• 何をもって中心と考えるかで何種類かある
• 次の3つ(スリーM)は必須
– 平均値(mean)
•
•
•
•
算術平均(相加平均,arithmetic mean, average)
幾何平均(相乗平均,geometric mean)
調和平均(harmonic mean)
加重平均(weighted mean)
– 中央値(median)
– 最頻値(mode)
文字記号について
• 数値の代わりに文字記号を使うと便利
– 文字記号は「数値が入っている入れ物」と考えれ
ば良い
– 数学ではラテンアルファベット(𝑎, 𝑏, 𝑐, ⋯)やギリ
シャアルファベット(𝛼, 𝛽, 𝛾, ⋯)の1文字を使う
(プログラミング等では1文字ではなく2文字以上
の単語にしたものを変数として使っても良い)
– 数の基本法則(結合則・交換則・分配則・等々)を
壊さなければ文字式の変形は自由
どの文字を使うか(慣習)
• 𝑥, 𝑦, 𝑧などのアルファベットの後ろの方の文字
中身の値が変わるもの(変数という),中身の値が定まって
いないもの(未知数という)を表す場合に用いることが多い
(あくまでも慣習であり,絶対的なルールではない)
• 𝑎, 𝑏, 𝑐などのアルファベットの前の方の文字
中身の値が定まってるもの(定数,既知数)を表す場合に用
いることが多い
• 英単語のイニシャル
速度(velocity) には文字記号𝑣を,加速度(acceleration)に
は文字記号𝑎を使う,というように,文字記号の表す意味が
推測できる文字を使うことも多々ある
添え字について
• 𝑖, 𝑗, 𝑘, 𝑙, 𝑚, 𝑛の文字記号
整数(integer),自然数(natural number)のような飛び
飛びの値を表す場合に用いることが多い
• 添え字(index)
似通った性質の沢山の文字記号を扱う場合に便利
𝑥, 𝑦, 𝑧, 𝑠, 𝑡, 𝑢, 𝑣, 𝑤, ⋯ 文字が足りない
𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 , 𝑥5 , 𝑥6 , 𝑥7 , 𝑥8 , ⋯ 添え字で解決
𝑥1 や𝑥2 は何らかの数値が入ってる文字記号と考えれば良い
• 添え字を整数変数で表すことも多い
𝑥𝑖 , 𝑥𝑗 ,
𝑖 や 𝑗 には1,2,3,等の
自然数が入る
平均値(算術平均)
• 𝑛個のデータ 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 の平均を,記号
𝑥
で
エックス・バー
表現する
(本によっては,𝑚や𝜇の記号で平均を表してる)
1
𝑥 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑛
データ数𝑛で
等分する
合計を
• 和の記号Σを用いた書き方
1
𝑥=
𝑛
𝑛
𝑥𝑖
𝑖=1
和の記号Σは後期にやる予定だが
興味のある人はこのスライドの
最後の方をチェック
平均のイメージ1
• 平らに均す(ならす)イメージ
例)𝑛 = 4, 𝑥1 = 5, 𝑥2 = 2, 𝑥3 = 8, 𝑥4 = 9
𝑥=
1
1
24
𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 5 + 2 + 8 + 9 =
=6
4
4
4
9
8
6
6
5
2
0
ばらばらな
4個のデータは
平らに均すと
6が4個
0
平均のイメージ2
• 数直線で見ると,平均値の左右で釣り合う
例)𝑛 = 4, 𝑥1 = 5, 𝑥2 = 2, 𝑥3 = 8, 𝑥4 = 9
𝑥=
0
1
1
24
𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 5 + 2 + 7 + 9 =
=6
4
4
4
𝑥2
2
𝑥1
5
𝑥
6
𝑥3
8
𝑥4
9
実際に𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 の位置に同じ重さの重りを置いて,𝑥 の位置を支点にすると,
釣り合いが取れる.この理由はてこの原理によって分かる
トルク(てこの原理の準備)
• 軸の周りに物を回転させる作用をトルクという
(「トルク」は別名「力のモーメント」ともいう)
• トルクは支点からの距離𝑑[m(メートル)]と回転半径
に垂直にかかる力𝐹[N(ニュートン)]の積(掛け算)で
表される.
力𝐹
回転軸
距離d
自転車を漕ぐときの力の入れ方をイメージしてみよう
時計回りに
回転させよう
とするトルク
𝑑×𝐹
トルクと釣り合い
• 時計回りに回転させようとする右側トルクと
反時計回りに回転させようとする左側トルク
が同じ大きさならば,回転せずに釣り合う
反時計回りに
回転させよう
とするトルク
𝑑 × 3𝐹 = 3𝑑𝐹
力3𝐹
力𝐹
回転軸
距離d
距離3d
時計回りに
回転させよう
とするトルク
3𝑑 × 𝐹 = 3𝑑𝐹
梃(てこ, laver)の原理
• (質量)×(重力加速度𝑔)が重さを表す力
反時計回りに
回転させよう
とするトルク
3𝑑𝑚𝑔
力3𝑚𝑔
力𝑚𝑔
質量
3𝑚
作用点
𝑚
支点
距離d
力点
距離3d
3倍の重さの物でも
支点から3倍離れた所に力を入れれば
1/3の力で持ち上げることができる
時計回りに
回転させよう
とするトルク
3𝑑𝑚𝑔
同じ重さの重りの釣り合い
• 支点からの±の向きを持った距離の合計が0
になれば釣り合う
𝑑
4
𝑑2
𝑑1
𝑑3
𝑥2
𝑥1
𝑥3 𝑥4
2
5
8
9
𝑥
6
𝑑1 = 𝑥1 − 𝑥 = 5 − 6 = −1
𝑑2 = 𝑥2 − 𝑥 = 2 − 6 = −4
重りの質量𝑚とする
𝑑3 = 𝑥3 − 𝑥 = 8 − 6 = 2
左側のトルク:
−𝑑1 𝑚𝑔 − 𝑑2 𝑚𝑔 = 5𝑚𝑔
𝑑4 = 𝑥4 − 𝑥 = 9 − 6 = 3
𝑑1 + 𝑑2 + 𝑑3 + 𝑑4 = 0
右側のトルク:
𝑑3 𝑚𝑔 + 𝑑4 𝑚𝑔 = 5𝑚𝑔
𝑑の合計が0は釣り合いを意味する
0
どんなデータでも平均は必ず釣り合い
の位置になる
• 𝑛 = 4のとき
両辺4倍すると
𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 4𝑥
1
𝑥 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4
4
• データと平均の差𝑑𝑖 = 𝑥𝑖 − 𝑥 を偏差という
• 偏差の合計は必ず0になる
𝑑1 + 𝑑2 + 𝑑3 + 𝑑4
= 𝑥1 − 𝑥 + 𝑥2 − 𝑥 + 𝑥3 − 𝑥 + 𝑥4 − 𝑥
= 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 − 4𝑥
足し算の順番変える
= 4𝑥 − 4𝑥 = 0
𝑑の合計が0になる事が平均が釣り合いの位置であることを意味する
平均と釣り合い(一般の場合)
• 一般の𝑛の時
両辺𝑛倍すると
1
𝑥=
𝑛
𝑛
𝑛
𝑥𝑖 = 𝑛𝑥
𝑥𝑖
𝑖=1
𝑛
𝑖=1
• 偏差𝑑𝑖 の合計は必ず0になる
𝑛
𝑛
𝑑𝑖 =
𝑖=1
和の記号Σの公式
𝑛
𝑥𝑖 − 𝑥 =
𝑖=1
= 𝑛𝑥 − 𝑥𝑛 = 0
1=𝑛
𝑖=1
𝑛
𝑥𝑖 − 𝑥
𝑖=1
1
𝑖=1
和の記号Σの公式は後期にやる予定だが
興味のある人はこのスライドの最後の方をチェック
中央値
• 𝑛個の大きさ順に並べ替えたデータを
𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 で表し,中央値を𝑥で表す
エックス・チルダ
• データの順番(個数)で見た時の,真ん中の
位置が中央値に対応する
(相対累積度数で50%の位置と考えてもよい)
• データ数が奇数の場合と偶数の場合で求め
方が違う
中央値(奇数個データ)
• データ数𝑛 = 5の時
2個
2個
𝑥1
𝑥2
𝑥3
𝑥4
𝑥5
中央値𝑥 = 𝑥3
• データ数𝑛 = 7の時
3個
3個
𝑥1
𝑥2
𝑥3
𝑥4
𝑥5
𝑥6
𝑥7
中央値𝑥 = 𝑥4
𝑛+1
データ数𝑛個の時は 番目のデータの値が中央値
2
中央値(偶数個データ)
• データ数𝑛 = 4の時
2個
2個
𝑥1
𝑥2
𝑥3
𝑥4
中央値𝑥 = 𝑥2 + 𝑥3 /2
• データ数𝑛 = 6の時
3個
3個
𝑥1
𝑥2
𝑥3
𝑥4
𝑥5
𝑥6
中央値𝑥 = 𝑥3 + 𝑥4 /2
𝑛
𝑛
データ数𝑛個の時は 番目のデータの値と
2
2
真ん中の値が中央値
+ 1番目のデータの値の
平均値と中央値の比較
• 平均値は数値のバランス
• 中央値は個数(又は割合)のバランス
• 平均値は外れ値の影響を受けやすい
中央値
平均値
教科書図2.3.14
端の値が大きな外れ値だったとしても中央値は変わらないが平均値は変わる
平均値と中央値が大きく違ってる時は注意が必要
最頻値
• 頻度が最も高いデータが最頻値(最も頻繁に出現す
るデータ)
• 例)𝑥1 = 1, 𝑥2 = 2, 𝑥3 = 2, 𝑥4 = 3, 𝑥5 = 3,
𝑥6 = 4, 𝑥7 = 7, 𝑥8 = 9, 𝑥9 = 2
の9個のデータで,2は3回出現していて他のデータは
2回以下しか出現してないので最頻値は2である.
1
2
最頻値
3
4
7
9
• 最頻値は1つに定まらずに2つ以上の複数の値にな
ることがある
分布の歪(ひずみ)と代表値の関係
教科書,図2.3.15
単峰性の場合
3つの代表値
・平均値(平)
・中央値(中)
・最頻値(頻)
で分布の歪が
ある程度分かる
平中頻は殆ど同じ
頻<中<平 の順
平<中<頻 の順
表2.3.8の平均
月前半のデータ
𝑖
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
𝑥𝑖
93
71
70
71
67
72
64
92
69
70
71
68
69
70
70
1
1
1087
𝑥=
𝑥 + 𝑥2 + ⋯ + 𝑥15 =
93 + 71 + ⋯ + 70 =
= 72.46 ≒ 72.5
15 1
15
15
月後半のデータ
𝑖
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
𝑥𝑖
68
90
64
67
69
68
70
68
89
67
68
67
68
12
15
20
1
1
970
𝑥=
𝑥 + 𝑥2 + ⋯ + 𝑥16 =
68 + 90 + ⋯ + 20 =
= 60.625 ≒ 60.6
16 1
16
16
表2.3.8の中央値
月前半のデータを大きさ順に並べ替えたもの
𝑖
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
𝑥𝑖
64
67
68
69
69
70
70
70
70
71
71
71
72
92
93
データ数は𝑛 = 15で奇数,
𝑛+1
2
= 8なので8番目のデータが中央値.
𝑥 = 𝑥8 = 70
月後半のデータを大きさ順に並べ替えたもの
𝑖
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
𝑥𝑖
12
15
20
64
67
67
67
68
68
68
68
68
69
70
89
90
𝑛
データ数は𝑛 = 16で偶数,2 = 8なので8番目と9番目の中間が中央値.
𝑥=
𝑥8 + 𝑥9 68 + 68
=
= 68
2
2
表2.3.8の最頻値
月前半のデータを大きさ順に並べ替えたもの
𝑖
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
𝑥𝑖
64
67
68
69
69
70
70
70
70
71
71
71
72
92
93
頻度
1
1
1
1
1
1
2
4
3
最頻値は70
月後半のデータを大きさ順に並べ替えたもの
𝑖
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
𝑥𝑖
12
15
20
64
67
67
67
68
68
68
68
68
69
70
89
90
頻度
1
1
1
1
1
1
1
1
5
3
最頻値は68
和の記号∑(シグマ)の復習
和の記号に関しては後期にやります
興味のある人は今のうちに復習
• 𝑖は和を取るための形式的な変数(ダミー変数)
以下の例は𝑖を3から6に1ずつ変身させたものを足しあ
げるという意味
6
𝐴𝑖 = 𝐴3 + 𝐴4 + 𝐴5 + 𝐴 6
𝑖=3
↑
𝑖=3
↑
𝑖=4
↑
𝑖=5
↑
𝑖=6
• ダミー変数には好きな文字が使える
6
𝐴𝑘 = 𝐴3 + 𝐴4 + 𝐴5 + 𝐴 6
𝑘=3
整数には𝑖, 𝑗, 𝑘, 𝑙, 𝑚, 𝑛の文字を使う慣習がある
(integer 整数, natural number 自然数)
∑の公式1
• 分配則のような公式
𝑁
𝑁
𝐴𝑖 + 𝐵𝑖 =
𝑖=𝑛
𝑁
𝐴𝑖 +
𝑖=𝑛
• 𝑛 = 3, 𝑁 = 5で確認してみる
𝐵𝑖
𝑖=𝑛
5
𝐴𝑖 + 𝐵𝑖 = 𝐴3 + 𝐵3 + 𝐴4 + 𝐵4 + 𝐴5 + 𝐵5
𝑖=3
= 𝐴3 + 𝐴4 + 𝐴5 + 𝐵3 + 𝐵4 + 𝐵5
5
=
5
𝐴𝑖 +
𝑖=3
𝐵𝑖
𝑖=3
∑の公式2
• 定数倍は∑をすり抜ける(交換する)ことができる
𝑁
𝑁
𝑎𝐵𝑖 = 𝑎
𝑖=𝑛
𝐵𝑖
𝑖=𝑛
• 𝑛 = 2, 𝑁 = 4 で確かめてみる
4
𝑎𝐵𝑖 = 𝑎𝐵2 + 𝑎𝐵3 + 𝑎𝐵4
𝑖=2
4
= 𝑎 𝐵2 + 𝐵3 + 𝐵4 = 𝑎
𝐵𝑖
𝑖=2
∑の公式3
• 定数の合計
𝑁
𝑎 = 𝑁−𝑛+1 𝑎
𝑖=𝑛
• 𝑁 = 7 𝑛 = 3で確かめてみる
7
𝑎 = 𝑎 + 𝑎 + 𝑎 + 𝑎 + 𝑎 = 5𝑎 = 7 − 3 + 1 𝑎
𝑖=3
↑
↑
↑
↑
↑
𝑖=3 𝑖=4 𝑖=5 𝑖=6 𝑖=7
例題)以下の式を公式を組み合わせて考える
𝑁
𝑎𝑏𝑋𝑖 𝑌𝑖 + 𝑐𝑍𝑖 2 + 𝑑
𝑖=𝑛
• 𝐷𝑖 = 𝑎𝑏𝑋𝑖 𝑌𝑖 , 𝐸𝑖 = 𝑐𝑍𝑖 2 𝐹𝑖 = 𝑑 として公式1を
適用
𝑁
=
𝑁
𝐷𝑖 + 𝐸𝑖 + 𝐹𝑖 =
𝑖=𝑛
𝑁
𝐷𝑖 +
𝑖=𝑛
𝑁
𝐸𝑖 +
𝑖=𝑛
𝑁
=
𝑁
𝑑
𝑖=𝑛
𝑖=𝑛
𝑁
𝑁
• 公式2を適用して定数倍を外に出す
𝑁
= 𝑎𝑏
𝑍𝑖 2 + 𝑑
𝑋𝑖 𝑌𝑖 + 𝑐
𝑖=𝑛
𝑖=𝑛
𝐹𝑖
𝑖=𝑛
𝑐𝑍𝑖 2 +
𝑎𝑏𝑋𝑖 𝑌𝑖 +
𝑖=𝑛
𝑁
1
𝑖=𝑛