基本統計量 経営統計の補足資料 2015年6月15日 金沢学院大学経営情報学部 藤本祥二 量的データの分析(P.78~119) • 分布全体の様子を知るのが目的(P.99のまとめ) 1.単峰性,2.ピークの位置と散らばり具合, 3.左右対称性,4.外れ値の存在 • 度数分布,ヒストグラムを描き形状を見る (P.78~P.91) • 数値で分布を要約する(P.99~P.117) 基本統計量:分布の特徴を表す数値 – 代表値(分布の中心を表す数値) 例)平均値,中央値,最頻値 – 散布度(分布のばらつき具合を表す数値) 例)範囲(レンジ),四分位範囲,分散,標準偏差 §3.3(教科書P.99) 数値による分布の要約 代表値 • 分布の中心を表す基本統計量 • 何をもって中心と考えるかで何種類かある • 次の3つ(スリーM)は必須 – 平均値(mean) • • • • 算術平均(相加平均,arithmetic mean, average) 幾何平均(相乗平均,geometric mean) 調和平均(harmonic mean) 加重平均(weighted mean) – 中央値(median) – 最頻値(mode) 文字記号について • 数値の代わりに文字記号を使うと便利 – 文字記号は「数値が入っている入れ物」と考えれ ば良い – 数学ではラテンアルファベット(𝑎, 𝑏, 𝑐, ⋯)やギリ シャアルファベット(𝛼, 𝛽, 𝛾, ⋯)の1文字を使う (プログラミング等では1文字ではなく2文字以上 の単語にしたものを変数として使っても良い) – 数の基本法則(結合則・交換則・分配則・等々)を 壊さなければ文字式の変形は自由 どの文字を使うか(慣習) • 𝑥, 𝑦, 𝑧などのアルファベットの後ろの方の文字 中身の値が変わるもの(変数という),中身の値が定まって いないもの(未知数という)を表す場合に用いることが多い (あくまでも慣習であり,絶対的なルールではない) • 𝑎, 𝑏, 𝑐などのアルファベットの前の方の文字 中身の値が定まってるもの(定数,既知数)を表す場合に用 いることが多い • 英単語のイニシャル 速度(velocity) には文字記号𝑣を,加速度(acceleration)に は文字記号𝑎を使う,というように,文字記号の表す意味が 推測できる文字を使うことも多々ある 添え字について • 𝑖, 𝑗, 𝑘, 𝑙, 𝑚, 𝑛の文字記号 整数(integer),自然数(natural number)のような飛び 飛びの値を表す場合に用いることが多い • 添え字(index) 似通った性質の沢山の文字記号を扱う場合に便利 𝑥, 𝑦, 𝑧, 𝑠, 𝑡, 𝑢, 𝑣, 𝑤, ⋯ 文字が足りない 𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 , 𝑥5 , 𝑥6 , 𝑥7 , 𝑥8 , ⋯ 添え字で解決 𝑥1 や𝑥2 は何らかの数値が入ってる文字記号と考えれば良い • 添え字を整数変数で表すことも多い 𝑥𝑖 , 𝑥𝑗 , 𝑖 や 𝑗 には1,2,3,等の 自然数が入る 平均値(算術平均) • 𝑛個のデータ 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 の平均を,記号 𝑥 で エックス・バー 表現する (本によっては,𝑚や𝜇の記号で平均を表してる) 1 𝑥 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑛 データ数𝑛で 等分する 合計を • 和の記号Σを用いた書き方 1 𝑥= 𝑛 𝑛 𝑥𝑖 𝑖=1 和の記号Σは後期にやる予定だが 興味のある人はこのスライドの 最後の方をチェック 平均のイメージ1 • 平らに均す(ならす)イメージ 例)𝑛 = 4, 𝑥1 = 5, 𝑥2 = 2, 𝑥3 = 8, 𝑥4 = 9 𝑥= 1 1 24 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 5 + 2 + 8 + 9 = =6 4 4 4 9 8 6 6 5 2 0 ばらばらな 4個のデータは 平らに均すと 6が4個 0 平均のイメージ2 • 数直線で見ると,平均値の左右で釣り合う 例)𝑛 = 4, 𝑥1 = 5, 𝑥2 = 2, 𝑥3 = 8, 𝑥4 = 9 𝑥= 0 1 1 24 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 5 + 2 + 7 + 9 = =6 4 4 4 𝑥2 2 𝑥1 5 𝑥 6 𝑥3 8 𝑥4 9 実際に𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 の位置に同じ重さの重りを置いて,𝑥 の位置を支点にすると, 釣り合いが取れる.この理由はてこの原理によって分かる トルク(てこの原理の準備) • 軸の周りに物を回転させる作用をトルクという (「トルク」は別名「力のモーメント」ともいう) • トルクは支点からの距離𝑑[m(メートル)]と回転半径 に垂直にかかる力𝐹[N(ニュートン)]の積(掛け算)で 表される. 力𝐹 回転軸 距離d 自転車を漕ぐときの力の入れ方をイメージしてみよう 時計回りに 回転させよう とするトルク 𝑑×𝐹 トルクと釣り合い • 時計回りに回転させようとする右側トルクと 反時計回りに回転させようとする左側トルク が同じ大きさならば,回転せずに釣り合う 反時計回りに 回転させよう とするトルク 𝑑 × 3𝐹 = 3𝑑𝐹 力3𝐹 力𝐹 回転軸 距離d 距離3d 時計回りに 回転させよう とするトルク 3𝑑 × 𝐹 = 3𝑑𝐹 梃(てこ, laver)の原理 • (質量)×(重力加速度𝑔)が重さを表す力 反時計回りに 回転させよう とするトルク 3𝑑𝑚𝑔 力3𝑚𝑔 力𝑚𝑔 質量 3𝑚 作用点 𝑚 支点 距離d 力点 距離3d 3倍の重さの物でも 支点から3倍離れた所に力を入れれば 1/3の力で持ち上げることができる 時計回りに 回転させよう とするトルク 3𝑑𝑚𝑔 同じ重さの重りの釣り合い • 支点からの±の向きを持った距離の合計が0 になれば釣り合う 𝑑 4 𝑑2 𝑑1 𝑑3 𝑥2 𝑥1 𝑥3 𝑥4 2 5 8 9 𝑥 6 𝑑1 = 𝑥1 − 𝑥 = 5 − 6 = −1 𝑑2 = 𝑥2 − 𝑥 = 2 − 6 = −4 重りの質量𝑚とする 𝑑3 = 𝑥3 − 𝑥 = 8 − 6 = 2 左側のトルク: −𝑑1 𝑚𝑔 − 𝑑2 𝑚𝑔 = 5𝑚𝑔 𝑑4 = 𝑥4 − 𝑥 = 9 − 6 = 3 𝑑1 + 𝑑2 + 𝑑3 + 𝑑4 = 0 右側のトルク: 𝑑3 𝑚𝑔 + 𝑑4 𝑚𝑔 = 5𝑚𝑔 𝑑の合計が0は釣り合いを意味する 0 どんなデータでも平均は必ず釣り合い の位置になる • 𝑛 = 4のとき 両辺4倍すると 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 4𝑥 1 𝑥 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 4 • データと平均の差𝑑𝑖 = 𝑥𝑖 − 𝑥 を偏差という • 偏差の合計は必ず0になる 𝑑1 + 𝑑2 + 𝑑3 + 𝑑4 = 𝑥1 − 𝑥 + 𝑥2 − 𝑥 + 𝑥3 − 𝑥 + 𝑥4 − 𝑥 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 − 4𝑥 足し算の順番変える = 4𝑥 − 4𝑥 = 0 𝑑の合計が0になる事が平均が釣り合いの位置であることを意味する 平均と釣り合い(一般の場合) • 一般の𝑛の時 両辺𝑛倍すると 1 𝑥= 𝑛 𝑛 𝑛 𝑥𝑖 = 𝑛𝑥 𝑥𝑖 𝑖=1 𝑛 𝑖=1 • 偏差𝑑𝑖 の合計は必ず0になる 𝑛 𝑛 𝑑𝑖 = 𝑖=1 和の記号Σの公式 𝑛 𝑥𝑖 − 𝑥 = 𝑖=1 = 𝑛𝑥 − 𝑥𝑛 = 0 1=𝑛 𝑖=1 𝑛 𝑥𝑖 − 𝑥 𝑖=1 1 𝑖=1 和の記号Σの公式は後期にやる予定だが 興味のある人はこのスライドの最後の方をチェック 中央値 • 𝑛個の大きさ順に並べ替えたデータを 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 で表し,中央値を𝑥で表す エックス・チルダ • データの順番(個数)で見た時の,真ん中の 位置が中央値に対応する (相対累積度数で50%の位置と考えてもよい) • データ数が奇数の場合と偶数の場合で求め 方が違う 中央値(奇数個データ) • データ数𝑛 = 5の時 2個 2個 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 中央値𝑥 = 𝑥3 • データ数𝑛 = 7の時 3個 3個 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 中央値𝑥 = 𝑥4 𝑛+1 データ数𝑛個の時は 番目のデータの値が中央値 2 中央値(偶数個データ) • データ数𝑛 = 4の時 2個 2個 𝑥1 𝑥2 𝑥3 𝑥4 中央値𝑥 = 𝑥2 + 𝑥3 /2 • データ数𝑛 = 6の時 3個 3個 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 中央値𝑥 = 𝑥3 + 𝑥4 /2 𝑛 𝑛 データ数𝑛個の時は 番目のデータの値と 2 2 真ん中の値が中央値 + 1番目のデータの値の 平均値と中央値の比較 • 平均値は数値のバランス • 中央値は個数(又は割合)のバランス • 平均値は外れ値の影響を受けやすい 中央値 平均値 教科書図2.3.14 端の値が大きな外れ値だったとしても中央値は変わらないが平均値は変わる 平均値と中央値が大きく違ってる時は注意が必要 最頻値 • 頻度が最も高いデータが最頻値(最も頻繁に出現す るデータ) • 例)𝑥1 = 1, 𝑥2 = 2, 𝑥3 = 2, 𝑥4 = 3, 𝑥5 = 3, 𝑥6 = 4, 𝑥7 = 7, 𝑥8 = 9, 𝑥9 = 2 の9個のデータで,2は3回出現していて他のデータは 2回以下しか出現してないので最頻値は2である. 1 2 最頻値 3 4 7 9 • 最頻値は1つに定まらずに2つ以上の複数の値にな ることがある 分布の歪(ひずみ)と代表値の関係 教科書,図2.3.15 単峰性の場合 3つの代表値 ・平均値(平) ・中央値(中) ・最頻値(頻) で分布の歪が ある程度分かる 平中頻は殆ど同じ 頻<中<平 の順 平<中<頻 の順 表2.3.8の平均 月前半のデータ 𝑖 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 𝑥𝑖 93 71 70 71 67 72 64 92 69 70 71 68 69 70 70 1 1 1087 𝑥= 𝑥 + 𝑥2 + ⋯ + 𝑥15 = 93 + 71 + ⋯ + 70 = = 72.46 ≒ 72.5 15 1 15 15 月後半のデータ 𝑖 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 𝑥𝑖 68 90 64 67 69 68 70 68 89 67 68 67 68 12 15 20 1 1 970 𝑥= 𝑥 + 𝑥2 + ⋯ + 𝑥16 = 68 + 90 + ⋯ + 20 = = 60.625 ≒ 60.6 16 1 16 16 表2.3.8の中央値 月前半のデータを大きさ順に並べ替えたもの 𝑖 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 𝑥𝑖 64 67 68 69 69 70 70 70 70 71 71 71 72 92 93 データ数は𝑛 = 15で奇数, 𝑛+1 2 = 8なので8番目のデータが中央値. 𝑥 = 𝑥8 = 70 月後半のデータを大きさ順に並べ替えたもの 𝑖 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 𝑥𝑖 12 15 20 64 67 67 67 68 68 68 68 68 69 70 89 90 𝑛 データ数は𝑛 = 16で偶数,2 = 8なので8番目と9番目の中間が中央値. 𝑥= 𝑥8 + 𝑥9 68 + 68 = = 68 2 2 表2.3.8の最頻値 月前半のデータを大きさ順に並べ替えたもの 𝑖 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 𝑥𝑖 64 67 68 69 69 70 70 70 70 71 71 71 72 92 93 頻度 1 1 1 1 1 1 2 4 3 最頻値は70 月後半のデータを大きさ順に並べ替えたもの 𝑖 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 𝑥𝑖 12 15 20 64 67 67 67 68 68 68 68 68 69 70 89 90 頻度 1 1 1 1 1 1 1 1 5 3 最頻値は68 和の記号∑(シグマ)の復習 和の記号に関しては後期にやります 興味のある人は今のうちに復習 • 𝑖は和を取るための形式的な変数(ダミー変数) 以下の例は𝑖を3から6に1ずつ変身させたものを足しあ げるという意味 6 𝐴𝑖 = 𝐴3 + 𝐴4 + 𝐴5 + 𝐴 6 𝑖=3 ↑ 𝑖=3 ↑ 𝑖=4 ↑ 𝑖=5 ↑ 𝑖=6 • ダミー変数には好きな文字が使える 6 𝐴𝑘 = 𝐴3 + 𝐴4 + 𝐴5 + 𝐴 6 𝑘=3 整数には𝑖, 𝑗, 𝑘, 𝑙, 𝑚, 𝑛の文字を使う慣習がある (integer 整数, natural number 自然数) ∑の公式1 • 分配則のような公式 𝑁 𝑁 𝐴𝑖 + 𝐵𝑖 = 𝑖=𝑛 𝑁 𝐴𝑖 + 𝑖=𝑛 • 𝑛 = 3, 𝑁 = 5で確認してみる 𝐵𝑖 𝑖=𝑛 5 𝐴𝑖 + 𝐵𝑖 = 𝐴3 + 𝐵3 + 𝐴4 + 𝐵4 + 𝐴5 + 𝐵5 𝑖=3 = 𝐴3 + 𝐴4 + 𝐴5 + 𝐵3 + 𝐵4 + 𝐵5 5 = 5 𝐴𝑖 + 𝑖=3 𝐵𝑖 𝑖=3 ∑の公式2 • 定数倍は∑をすり抜ける(交換する)ことができる 𝑁 𝑁 𝑎𝐵𝑖 = 𝑎 𝑖=𝑛 𝐵𝑖 𝑖=𝑛 • 𝑛 = 2, 𝑁 = 4 で確かめてみる 4 𝑎𝐵𝑖 = 𝑎𝐵2 + 𝑎𝐵3 + 𝑎𝐵4 𝑖=2 4 = 𝑎 𝐵2 + 𝐵3 + 𝐵4 = 𝑎 𝐵𝑖 𝑖=2 ∑の公式3 • 定数の合計 𝑁 𝑎 = 𝑁−𝑛+1 𝑎 𝑖=𝑛 • 𝑁 = 7 𝑛 = 3で確かめてみる 7 𝑎 = 𝑎 + 𝑎 + 𝑎 + 𝑎 + 𝑎 = 5𝑎 = 7 − 3 + 1 𝑎 𝑖=3 ↑ ↑ ↑ ↑ ↑ 𝑖=3 𝑖=4 𝑖=5 𝑖=6 𝑖=7 例題)以下の式を公式を組み合わせて考える 𝑁 𝑎𝑏𝑋𝑖 𝑌𝑖 + 𝑐𝑍𝑖 2 + 𝑑 𝑖=𝑛 • 𝐷𝑖 = 𝑎𝑏𝑋𝑖 𝑌𝑖 , 𝐸𝑖 = 𝑐𝑍𝑖 2 𝐹𝑖 = 𝑑 として公式1を 適用 𝑁 = 𝑁 𝐷𝑖 + 𝐸𝑖 + 𝐹𝑖 = 𝑖=𝑛 𝑁 𝐷𝑖 + 𝑖=𝑛 𝑁 𝐸𝑖 + 𝑖=𝑛 𝑁 = 𝑁 𝑑 𝑖=𝑛 𝑖=𝑛 𝑁 𝑁 • 公式2を適用して定数倍を外に出す 𝑁 = 𝑎𝑏 𝑍𝑖 2 + 𝑑 𝑋𝑖 𝑌𝑖 + 𝑐 𝑖=𝑛 𝑖=𝑛 𝐹𝑖 𝑖=𝑛 𝑐𝑍𝑖 2 + 𝑎𝑏𝑋𝑖 𝑌𝑖 + 𝑖=𝑛 𝑁 1 𝑖=𝑛
© Copyright 2024 ExpyDoc