統計学 第3回 10/11 担当:鈴木智也 1 前回のポイント • 「記述統計」と「推測統計」。 • データ自体の規則性を記述するのが「記 述統計」、データを生み出した背景を推測 するのが「推測統計」である。 • 推測統計は記述統計に基づくので、まず は記述統計から学ぶ。 • 以下、データの観測値をX1、X2・・・と表す。 2 講義の流れ 第1部:記述統計 ← 今はここ 第2部:確率論 第3部:推測統計 • 第1部の構成 一変数の規則性を記述する ← こ こ! 規則性を視覚化する 二変数の関係を記述する 3 今日のトピック 一変数ついて、規則性を数量的に把握。 三つの基本的な指標 • 平均 ← データの代表値(の一つ) • 分散 ← 標準偏差を出すために導出 • 標準偏差 ← データの散らばり具合 4 平均(Mean) ☆平均(小学校の算数で履修済み) X1 X 2 X m X m m 1 {X i } m i 1 X のデータから、m 個の観測値について、 大体どれ位の値になるかの指標。 5 分散(Variance) ☆分散 2 2 ( X X ) ( X X ) 1 2 1 m s m m m ( X i X )2 i 1 Xi が概ね平均値からどのくらい離れている かを表す指標。(散らばり具合を記述) Q:なぜ二乗しているのかを考えてみよう。 6 標準偏差(Standard Deviation) ☆標準偏差 ← 誤差の平均 s 2 s (分散の平方根) これも散らばり具合を表す指標。 注:分散は二乗を取って計算しているので、 元々の単位とは異なる。 ⇒分散の平方根を取って「標準化」すること で、平均値と比較可能になる。 7 応用①:加重平均 • 単純平均 X1 X 2 X m X m m i 1 1 Xi m 全ての X i に対して、等しいウェ イト( 1 )。 m • 加重平均(次の例題を参照のこと) X m w X , i i 1 i m ただし、 w 1 である。 i i 1 X i の重要性に応じて、ウ ェイトを変える。 8 例題(加重平均の使い方) • 食堂が二つの定食を出しており、価格と一 日あたりの売上げは以下の通りである。 Aセット 500円 70食/一日 Bセット 600円 30食/一日 一食あたりの平均売上げはいくらになるの か計算せよ。 9 誤った解答の代表例 • AセットとBセットの価格の単純平均 500 600 550円これは誤り。 2 ⇒単純平均では、売上げ全体について、 Aセットの貢献度:過小評価 Bセットの貢献度:過大評価 (AセットとBセットの売上げ比率は7:3。) 10 正しい解答 • AセットとBセットの売上比率が70%、30% なので、ウェイトを0.7、0.3に設定。 加重平均: 0.7 500 0.3 600 530円 。 ウェイトの合計は1に する。 • 別解としては、全食の売上金額を合計し、 売上件数100で割る方法もある。 500 70 600 30 単純平均: 530円。 100 11 加重平均の適用例 • TOPIX(東証平均株価) ⇒上場株式数でウェイトづけ。 (注)日経平均株価は単純平均 • 消費者物価指数 ⇒物価を品目別にウェイトづけして算出。 • ファイナンス理論:期待収益率の計算 ⇒収益率を確率でウェイトづけする。 12 加重平均した場合の分散 • もしも平均を加重平均で算出するなら、分 散も同じようにウェイトづけをして算出。 X m w X i i i 1 s2 m wi ( X i X ) 2 s s 2 . i 1 • これはファイナンスで「リスク」を計算する 際に多用する(詳細は『金融論』等で)。 13 応用②:変動係数 • 例:先進国Aと途上国B、どちらが貧富の 差が激しいのか? • 貧富の差は所得の散らばり具合を二国で 比べればよい。 ⇒分散や標準偏差をそのまま比較すれば、 平均所得の高い先進国の方が、単位が大 きい分、所得のちらばりが大になる。 14 変動係数(続き) ⇒平均所得から概ねどのくらいの範囲に散ら ばっているかを比較可能にしたい。 ⇒標準偏差を平均値で割ってやる。 s CV , CVは Coefficien t Variation の略。 X 15 応用③:標準化変量 • ある観測値がデータ全体の中でどのくらい の位置にあるのかは、平均値と標準偏差 を用いて、「標準化」した「変量」で測る。 • 標準化変量 Xi X zi . s (注)「標準化」の手順は統計学では頻出! 16 標準化変量の適用 • 学力テストの偏差値は、平均点を50にし て、標準化変量を10倍して算出している。 Xi X 偏差値 50 10 s 50 10 z. • 異なるデータ間で学力を比較できる方法の 一つ。 17 付論 • 平均値以外の代表値の指標としては、次 の二つがよく用いられる。 (1)中位数(Median) データを大きさの順に並べたとき、ちょうど 中央に位置する値。 (2)最頻値(Mode) 最も多くのデータが集中している値。 18
© Copyright 2025 ExpyDoc