経営統計学/統計の基礎 第1回 授業の進め方 第1講

統計の基礎
第1回
授業の進め方
第1講 統計への誘い
4月15日
統計に関する最近の話題(1)
統計に関する最近の話題(2)
• 乳がん
死亡者 約1万人/年
早期の治癒率90%以上
→ 乳がん検診を受けましょう
•
•
•
•
•
検診での発見率、セルフチェックでの発見率
セルフチェックによる発見でのタイミングと治癒可能性
症状自覚後の治癒可能性
乳がん放置での悪化・死亡の可能性
マンモグラフィーの危険率、検診コスト
1.はじめに
H.G.ウェールズ
• 「統計学的思考が読み書きと同じように
良き社会人としての必須の能力になる
日がくる。」 (1903年)
H.ヴァリン
Google チーフエコノミスト
• 「これから10年もっともセクシーな職業は
統計家である。 」(2009年)
2.統計の歴史
•
統計調査は、古くから、国家の経営のため
に行われてきている。
•
科学的社会調査・統計調査は、産業革命後
に始まっており、これまで多様な調査が行わ
れてきた。
◎国勢調査
土地、人口、家族の調査
エジプト ピラミッド建設 人口・富調査 B.C.2700~
ラメス二世 課税のための人口調査 B.C.1300
ギリシャ アテネ、スパルタ・・・ 壮丁調査
ローマ 人口調査
う王 戸口調査
春秋戦国、前漢、後漢 墾田戸口
人口調査
• 崇神天皇(11代) 調役のための人口調査
• 正倉院文書
律令制定時代 戸口調査
• 大化の改新 645 戸口調査 班田収受 造籍
• 豊臣秀吉 検地令1590 刀狩令1588
農民・武士の区分と身分調査
• 宗門改1614
各国での近代的国勢調査の実施
• 18c末 アメリカ
• 19c初~ イギリス、フランス、デンマーク、
ポルトガル・・・
フィリピン、インド、ビルマ・・・
• 1920 日本
日本の統計調査の改革
新統計法
• 2007年5月23日公布 2年以内全面施行
行政のための統計
→社会の情報基盤としての統計
①公的統計の
体系的・計画的整備の推進
•
•
•
「公的統計」
国、地方自治体
全ての調査統計、業務統計、加工統計
「基幹統計」 法での例示
「国勢調査」、「国民所得統計」
「一般統計調査」
報告義務規定
◎企業センサスの実施
②統計データの有効利用の促進
• オーダーメード利用のために
匿名データ統計の提供
◎政府統計の総合窓口
③統計調査の対象者の
秘密保護の強化
• 守秘義務規定違反者への罰則規定
• 受託事業者への罰則規定の適用
• かたり調査の禁止
④統計整備の「司令塔」機能の強化
•
内閣府に統計委員会
• 分散型統計収集体制 日本・アメリカなど
ニーズに迅速に的確に対応
相互比較・体系性の軽視
• 集中型統計収集体制 カナダ・ドイツなど
ニーズへの対応が不十分
統計の専門性の発揮・体系的整理
3.統計学の歴史
• 前史
H.コンリング
「国家に関する知識」(1660講義)
G.アッヘンヴァル
Statistik(国状学)
• 政治算術
J.グラント
死亡表(生命表)
W.ペティ (統計学の父)
経済統計への拡大 ペティ=クラークの法則
確率論
B.パスカル
三角数、信仰の利益計算、賭け中断の分け前
P.フェルマー
ベルカーブ
P.ラプラス
正規分布の意味
統計学の展開
• A.ケトレー (近代統計学の父)
社会事象の正規分布
• ナイチンゲール
戦場での死因(統計の有効活用)
• 19c末~20c初
F.ゴールトン 指紋の発見者
生物測定研究所 生物学に数学的厳密さを
回帰 平均への回帰 親子の身長
相関 計測の尺度
K.ピアソン
進化論の追跡 『科学概論』1880s
決定論的見方に追加すべきものを認識
フィッシャー
実験計画
ロザムステッド農事試験場のデータ解析
W.ゴセット
ステュデントのt検定
標本調査と統計学
マスコミの隆盛
新聞社の模擬投票 20cに入って盛んに
世論調査社の設立
アメリカ大統領選挙
ギャッラップの大成功(1936)と大失敗(1948)
センサス局等の活動 標本調査の価値
→ 標本調査の理論
⇒ 統計学の大成
ごく最近まで、統計学として
これらの内容を基礎としたものを伝えてきた。
4.統計の積極的活用
勘による対応から根拠のある対応へ
(Evidence-Based)
• 年毎の新たなワインの質
(オーリー・アッシェンフェルター)
=12.145+0.00117×冬の降雨
+0.00614×育成期平均気温
-0.00386×収穫期降雨
• 貢献出走塁
(ビル・ジェイムズ)
=(ヒット数+四球)
×総塁数
÷(死球以外の打席数+四球数)
EBM(Evidence-Based Medicine)
科学的根拠に基づく医療
(前史)
• イグナッツ・ゼンメルヘルツの発見(1840)
産院での女性の死亡率
12%⇒2%
手を洗うことの励行で産褥熱感染の回避
EBM宣言
ゴードン・ガイヤット、デヴィト・サケット
(1992)
• 治療法の選択は、最高の根拠に基づくべきで、
最高の根拠とはできれば統計からくるべきだ。
「10万人の命」宣言
• ドン・バーウック (2004)
• 回避可能な死の防止のために
6つの変化の導入
肺感染、静脈感染の防止など
治療方法の確認 ⇒ 根拠のある治療
日本での医療を巡る話題
• がん検診の評価
• メタボの評価
• サプリメントの評価
5.何が起こっているのか
• データの蓄積
• データ分析の容易化
• (情報の流布・・海外情報も容易に入手)
◎情報革命
データを共有し流通の効率化
(サプライチェーンマネジメント)
データ
データ
データ
データ
データ
蓄積されたデータを分析し
利益機会を発見
コンビニの経営 頻繁な配送
◎計算環境の激変
• 理論から実践へ (学術研究)
(手計算からパソコンへ (臨床研究))
• 解析解から探索解へ
高度経済成長末期の夢の実現?
(いろいろな問題が解けるようになってきた)
Excelの日常的活用
• ホームページ
“パソコン・ステップ・アップ”
閲覧
※テーブル
概要把握 ※アウトライン
• 区分毎集計
各種クロス集計 ※ピボットテーブル
各種分析ツール
• Excel組込
分析ツール、ソルバー
• 記述マクロ
• テンプレート化
• シミュレーション
• アドイン・ソフト
◎現在の変化
(1) クラウドコンピューティング
(2) ビッグデータ
• 自動販売機で新たな需要発見
• GPS等で建設機械の稼働状況を把握
• ツイッター情報から風邪の流行を予測
• リポーターの情報を集約から
ゲリラ雷雨の予測
3つのV
• Volume 大量
• Variety 多様
• Velocity 高速
観光産業での事例
• 案内のターゲッティング
どの施設から回ってくるか
携帯GPS(基地局)から回遊記録
環境問題での事例
• 地球温暖化の解明
蓋然性の理解
環境汚染の把握
経営での活用
• 日常業務の把握
隘路の発見
業務改革の可能性の把握
社会人への新たな要請
• 統計処理を日常的に行う
• 統計学を実践的に活かす
(2つの能力格差の回避を)
デジタル・デバイド
イングリッシュ・デバイド
6.学ぶべきこと
• 日常業務の中での統計処理ができるように
• 授業の内容も日々変革
• パソコンの活用と併行して学ぶ
統計の記述・推測・説明
• 収集データから直接整理できる事実の要約内容
変数の代表値・分布、変数間の相関
→記述
• 収集データから推論できる母集団の変数の内容
→推測
• 収集データから推論できる因果関係
→説明
パソコン・ステップアップの図 左;記述、右;説明
A.記述
説明に先行して不可欠
①データ整理
観察単位 事例に分割
観察変数 属性、変数、パターン等に分割
→観察値
• 作成方法、入手方法の明示が重要
②分析
体系的な差異と非体系的な差異の分離
実現変数と確率変数
確率論的世界観
決定論的世界観
③判定基準
バイアスのないデータ 平均値
妥当性、信頼性
有効性 一定範囲の分散
④事実の要約
• 単独の変数の記述
代表値の考察
平均値
分布(分散、歪度、尖度、最大・最小値、・・・)
B.推測
①母集団の変数の推論
比率・平均等の区間推計
相関係数の推計とその確からしさ
相関の強さと相関の有無の確かさは、
異なる問題である。
②複数の変数の相関の記述
相関関係の考察
多様な相関係数が工夫されている。
事例を構成する事象の共通点・相違点の列挙
③一般的事実を求める
個別的事実から一般的事実の抽出
比較事例研究
科学的推論の方法により類似した出来事の
中にある体系的なパターンを得る
C.説明
因果関係の推論
相関の存在がそのまま因果関係とはならない。
因果関係の証明で蓋然性を超えることは難しい。
調査で事例における事態の推移を直接観察。
また、事例を構成する事象の共通点・相違点的
から推論
①因果効果
=実現数値-反事実的数値
両方同時には観察できない
因果的推論の根本問題
ヒュームの懐疑
時間的・空間的接近、先行関係、論理的妥当
性から推測
②事例の蓄積
確率的因果効果=原因条件がある場合の
平均値-原因条件がない場合の平均値
実現した場合のみ認知できる
→いかに推測していくか
③因果メカニズム
作用機序の説明
A→B→C
一連のメカニズムとして把握する場合も個々
に分析が必要
④多様な因果関係
多数の原因
多数の結果
相互循環
時間により異なる結果
⑤因果関係の条件
必要条件
被説明変数(結果)の同じものを集め共通の
変数を探索する
十分条件
共通の変数を持つものを集め共通の結果を
確認する
⑥システム・モデルへ
◎授業の進め方
1.授業の趣旨
2.授業の構成
3.授業の具体的進め方
4.授業の受け方
5.成績評価
6.教科書等
1.授業の趣旨
• 「多様なデータの統計的処理に必要な基礎的
知識を得る。
• 併せて、実際に分析総合するためのExcelの
技法を習得する。」
2.授業の構成
• ホームページ表紙のとおり
• 統計の整理集計
• 母集団値の推測
• システム分析
3.授業の具体的進め方
• 授業は講義形式で進めます。
• 各時間末には、当日の復習として、理解度を
確認する簡単な計算等のミニ・レポートを出し
てもらいます。
• Excelの活用については、講義の中で説明し
ますが、皆さんが実際にパソコンを使って理
解するのは、時間外の復習で行ってください。
なお、別途、補習の時間を設け、Excelの使い
方の学習を支援します。
• また、回によっては、提出課題として復習問
題を準備しますので、各自、自宅やメディアセ
ンター等で学習してください。この課題は、友
人と相談しながら遂行するとしても、最後は
必ず自分独りで実践して、印刷して翌週の授
業時間に提出してください。
4.授業の受け方
• 内容は積み上げなら理解していく必要があり
ますので、予習復習を徹底し、授業の進捗に
取り残されないようにしてください。キャップ制
は予習復習の徹底を要求するための制度で
す。
• 復習のために、授業時間中にノートをしっかり
と取ってください。復習として、授業後、その
日のうちにノートをしっかりと再整理してくださ
い。ノートをしっかりと取れなかった部分は、
教科書、授業ホームページ、配布資料等で確
認してください。
エビングハウスの忘却曲線
自分の頭で考える↑
ノートを取る ↑
「大学生活のためのツールブック」より
• 理解できなかった部分は、時間末レポート、
あるいは補習の時間等に質問するようにし
てください。ちなみに、火曜の12:10~13:00
をオフィスアワーとしています。
• パソコンを利用した説明もありますので、教
室へ各自のパソコンを持ち込むことを勧め
ます。(コンピュータ室で演習としてやると時
間がかかりすぎるので講義室で行います。)
5 .成績評価
• 各授業での評価 各回4点満点*15回
時間末ミニ・レポート、受講姿勢(うち出席1点)等
で評価します
• 提出課題 各回5点満点*8回
• この積算方法に拘わらず、授業への出席回数が
少ない人については、「欠席」の評価といたしま
す。
6.教科書等
• 特定の教科書を指定しませんが、紹介した図書
等の中から各自に相応しいと思われるものを必
ず一冊以上入手し、キーワード(統計用語)、キー
コンセプト(中核的概念)の理解に活用してくださ
い。
時間末ミニ・レポート課題
H.ヴァリンが、
「これから10年もっともセクシーな職業は統計家
である。 」と言ったことについて、
時代的背景を踏まえて意味を説明しなさい。