統計学第２週 10/01（月）担当：鈴木智也 1 前回のポイント • 「記述統計」と「推測統計」。 • データ自体の規則性を記述するのが「記述統計」、データを生み出した背景を推測するのが「推測統計」である。 • 推測統計は記述統計に基づくので、まずは記述統計から学ぶ。 • 以下、データの観測値をＸ１、Ｘ２・・・と表す。 2 講義の流れ第１部：記述統計 ← 今はここ第２部：確率論第３部：推測統計 • 第１部の構成一変数の規則性を記述する← ここ！規則性を視覚化する二変数の関係を記述する 3 今日のトピック一変数ついて、規則性を数量的に把握。三つの基本的な指標 • 平均 ← データの代表値（の一つ） • 分散 ← 標準偏差を出すために導出 • 標準偏差 ← データの散らばり具合 4 平均（Ｍｅａｎ） ☆平均（小学校の算数で履修済み） X1  X 2    X m X  m m  1 {X i  } m i 1 X のデータから、m 個の観測値について、大体どれ位の値になるかの指標。 5 分散（Ｖａｒｉａｎｃｅ） ☆分散 2 2 ( X  X )    ( X  X ) 1 2 1 m s   m m m  ( X i  X )2 i 1 Xi が概ね平均値からどのくらい離れているかを表す指標。（散らばり具合を記述）Ｑ：なぜ二乗しているのかを考えてみよう。 6 標準偏差（Standard Deviation） ☆標準偏差 ← 誤差の平均 s 2 s （分散の平方根）これも散らばり具合を表す指標。注：分散は二乗を取って計算しているので、元々の単位とは異なる。 ⇒分散の平方根を取って「標準化」することで、平均値と比較可能になる。 7 応用①：加重平均 • 単純平均 X1  X 2    X m X  m m  i 1 1 Xi m  全ての X i に対して、等しいウェイト（ 1 ）。 m • 加重平均（次の例題を参照のこと） X m w X , i i 1 i m ただし、　 w  1 である。 i i 1  X i の重要性に応じて、ウェイトを変える。 8 例題（加重平均の使い方） • 食堂が二つの定食を出しており、価格と一日あたりの売上げは以下の通りである。Ａ定食５００円７０食/一日Ｂ定食６００円３０食/一日一食あたりの平均売上げはいくらになるのか計算せよ。 9 誤った解答の代表例 • Ａ定食とＢ定食の価格の単純平均 500  600  550円これは誤り。 2 ⇒単純平均では、売上げ全体について、Ａ定食の貢献度：過小評価Ｂ定食の貢献度：過大評価（Ａ定食とＢ定食の売上げ比率は７：３。） 10 正しい解答 • Ａ定食とＢ定食の売上比率が70%、30%なので、ウェイトを0.7、0.3に設定。加重平均：　0.7  500  0.3  600  530円。 ウェイトの合計は１にする。 • 別解としては、全食の売上金額を合計し、売上件数100で割る方法もある。 500  70  600  30 単純平均：　 530円。 100 11 加重平均の適用例 • ＴＯＰＩＸ（東証平均株価） ⇒上場株式数で加重して平均を取る。（注）日経平均株価は単純平均 • 消費者物価指数 ⇒物価を品目別に加重して平均を取る。 • ファイナンス理論：期待収益率の計算 ⇒収益率を確率で加重して平均を取る。 12 加重平均した場合の分散 • もしも平均を加重平均で算出するなら、分散も同じように加重して算出。 X m w X i i i 1  s2  m  wi ( X i  X ) 2  s  s 2 . i 1 • これはファイナンスで「リスク」を計算する際に多用する（詳細は『金融論』等で）。 13 応用②：変動係数 • 例：先進国Ａと途上国Ｂ、どちらが貧富の差が激しいのか？ • 貧富の差は所得の散らばり具合を二国で比べればよい。 ⇒分散や標準偏差を比較すれば、平均所得の高い先進国の方が、単位が大きい分、所得のちらばりが大きくなってしまうので、修正が必要である。 14 変動係数（続き） ⇒平均所得から概ねどのくらいの範囲に散らばっているかを比較可能にしたい。 ⇒標準偏差を平均値で割ってやる。 s CV  , CVは Coefficien t Variation の略。 X 15 応用③：標準化変量 • ある観測値がデータ全体の中でどのくらいの位置にあるのかは、平均値と標準偏差を用いて、「標準化」した「変量」で測る。 • 標準化変量 Xi  X zi  . s （注）「標準化」の手順は統計学では頻出！ 16 標準化変量の適用 • 学力テストの偏差値は、平均点を５０にして、標準化変量を10倍して算出している。  Xi  X 偏差値  50  10  s    50  10 z.  • 異なるデータ間で学力を比較できる方法の一つ。 17 付論 • 平均値以外の代表値の指標としては、次の二つがよく用いられる。（１）中位数（Ｍｅｄｉａｎ）データを大きさの順に並べたとき、ちょうど中央に位置する値。（２）最頻値（Ｍｏｄｅ）最も多くのデータが集中している値。 18