Reasoning about The Normal Distribution

Reasoning about
The Normal Distribution
青葉学園短期大学
深澤 弘美
1
目 次
11.Reasoning about The Normal Distribution
11.1 概要
11.2 課題(教育の必要性)
11.3 文献と背景
11.3.1 これまでの研究
11.3.2 コンピュータを用いた授業での正規分布の意味と理解
11.4 主題と方法
11.4.1 サンプルと教育内容
11.4.2 学生の正規分布に関するReasoningを評価する
11.5 結果と分析
11.5.1 学生の正規性の理解
11.5.2 パラメータを調べる
11.5.3 理論分布のパーセンタイルの計算
11.5.4 正規分布に関する学生のReasoning
(1) 記号と表現
(2) 概念とプロパティ
(3) 議論
(4) 検討
11.6正規分布教育の実施
2
11.1 概要
257ページ
 正規分布の理解(Reasoning)を調査した結果
 大学レベルの統計入門の授業
 117名の学生を対象
 コンピュータ教室(1.5HR*3)と従来の教室(1.5HR*3)
 コンピュータを活用して実際のデータを分析
 講義の最後では、正規分布を正しく理解しているか
を調査する3つの自由課題(コンピュータ活用含む)
 正規分布を正しく理解している人としていない人の
いくつかのカテゴリに分かれた。
3
11.2 課題(教育の必要性)
257ページ
 正規分布は、統計を学ぶために重要なモデル
 身体測定の結果や、テストの得点、計測された誤差などのよ
うな、物理、生物、心理学的事象の多くは正規分布で無理な
くモデル化できる。
 正規分布は他の分布を、ある条件のもとでうまく近似できる。
たとえば、2項分布、ポアソン分布、t分布など。
 中心極限定理は、たとえサンプルが非正規の母集団からと
られていても、十分大きなサンプルであれば、サンプル平均
は正規分布に従うことを仮定している。
 多くの統計手法は正規分布からのランダムサンプルが条件
である。
4
11.3 文献と背景
11.3.1 これまでの研究
258ページ
 第一人者のPiaget and Inhelder (1951)
 砂が小さな穴に落ちるパターン
 穴に落ちていくすべての可能な砂の道筋が対称
 対称な軌道間の確率が等しいこと
 広がりと反復実験の役割
などを理解することが必要である。
 Huck etc.(1986)
 正規標準得点
 大学生が2つの間違った理解
 すべての標準得点は常に-3から3の間の値を取る
 他の学生はZスコアの最大値と最小値にはなんら制限が無い
 正規分布が有限ではないことに気がついていない
5
11.3.2 コンピュータを用いた授業での
正規分布の意味と理解
259ページ
正規分布他の概念の理解:
関連の問題を解決したときに生まれる
正規分布の意味と理解の要素
1.課題と状況
2.記号・言葉・グラフを使ってデータとそこに含まれる概念を表
現、あるいは処理する
3.問題を解決する手続きと戦略
4.定義とプロパティ
5.議論と証明
訳3ページ
6
11.4 主題と方法
11.4.1 サンプルと教育内容










260ページ
グラナダ大学の教育学部の科目
117名の学生 4クラスに分かれて受講
教育もしくはビジネスを専攻が多い
単純な統計概念のテスト(平均やサンプル)
サンプリング方法の違い、サンプルバイアス、関係の解釈、
平均への変則的な値の影響に関する認識の欠如
確率はよく理解
記述統計と確率の基本
1.5時間を6回(6セッション)かけて正規分布
半分(3セッション)がコンピュータ教室:データ分析(ペアー)
他の4時間でサンプリングと信頼区間
7
11.4.2
学生の正規分布の
Reasoningを評価する
261ページ
最終課題
タスク1:このデータファイルの中から、正規分布に
あてはめることのできる変数を1つ選択しなさい。そ
の変数を選んだ理由と結論を導くために用いた手
段と手順を説明しなさい。
タスク2:タスク1で選択した変数を正規分布にあて
はめる際のパラメータの近似値を計算しなさい。
タスク3:タスク2で考えた理論上の分布の中央値と
四分位点を計算しなさい。
データファイルの内容→表1(263ページ)
8
11.5 結果と分析
263ページ
11.5.1 学生の正規性の理解
(タスク1)
 実験データの分布とデータを当てはめた理論分布
を混同(264ページ:図1)
 理論的な正規曲線(実験データの平均と標準偏差か
ら計算した正規曲線)の形だけを調べた
 22%の学生が、尖度が高いという理由で変数(身長)
を選んだー>多峰性(264・265ページ)
例2(学生2):平均(156.1)と標準偏差(8.93)を計算し、図2に
グラフを示した。この図は、正規曲線によく似ている。平均の
値と中央値、最頻値はほぼ同じである。標準尖度は4.46で
ある。
9
11.5.2
パラメータを調べる (タスク2)
265ページ
必要の無いパラメータや、間違ったパラメータ
正しいパラメータ:51%(表2参照)
例3:分布の裾の領域をパラメータと混同
例4:パラメータ意味の不理解(全パラメータ)
理論分布と実験結果の分布のパラメータの
意味の理解の難しさ
10
11.5.3
理論分布のパーセンタイルの計算
(タスク3)266ページ
 約65%:正解もしくは部分的に正解(表3)
 理論分布の値から計算した学生の方が少ない
 ほとんどはもとのデータから計算
 17.1%:無回答
 例5:もとのデータから計算した例
中央値は50%タイルと関連付けることはできたが、四分位点
とパーセンタイルは関連付けられなかった。
 これらは年齢の理論分布の中央値と四分位点である。
中央値=13 1%=12.0 5%=12.0 10%=12.0
25%=13 50%=13 75%=14 95%=14 90%=14”
 理論分布と実験データの分布の区別難しい
11
11.5.4 正規分布に関する学生の
Reasoning and Understanding 266ページ
 Reasoningと理解のより深い状況を知るために学生の手順を
分析。4人の学生:タスク終了後インタビュー 。 (調査結果の
まとめ:表4)
 (1)記号と表現 267ページ
密度曲線とヒストグラムに密度曲線を書き加えたもの、両方
を正しく使った
これらのグラフから対称性や単峰性といった異なるプロパ
ティを見つけることができたことも正解の要因 (例6)
数値表現:パラメータ(平均と標準偏差)の使用が目立つ
グラフ表現:数値表現より直観的
数値情報の解釈には高いレベルの総合力が必要
12
(2)行動
267ページ
視覚的比較が最もよくおこなわれた
(264ページ:例2・図2、267ページ:例6・図3)
60%:実験データの密度分布と理論上の密度分布
を正しく比較した(例6)
40%:2つの曲線を混同
多くの学生がパラメータを正しく計算
コンピュータが全てを解決してくれるわけではない
学生が難しい→数値の総合的理解・解釈
13
(3)概念とプロパティ
269ページ
異なるプロパティを正しく使った
最も多い混乱
3つも異なる値だけの離散型変数(年齢)
標準偏差の何倍と%の関係 ←少ない
対称性・単峰性に尖度活用 ← 少し
尖度→間違い:これのみで正規性
平均・中央値・最頻値の相対的位置 ←できている
14
(4)議論
269ページ
議論において効果的視覚的表現が使われた
1つのプロパティ(対称性)しか見ていない
対称性プロットのみ(270ページ:例7)
連続型のみ(学生7のインタビュー)
複合的分析は少数
7%:最終的にまとめた(271ページ:例8・図5)
グラフ・四分位点ができたが、必要な情報を抜き出せない
(例9)
異なる結果とそこに隠れた概念を結びつける能力がない
異なる視覚表現の解釈ができない
15
11.5.5 検討
 多くの学生、モデルのアイデアをしっかり把握
 モデル、密度曲線、正規曲線の下の領域
 概念とプロパティの関連付け:対称性と歪度、中心
(例6・7・8)
 視覚表現と概念(例8)
 グラフや数値とソフトの操作
 正規分布の定義とプロパティを、実験データでチェッ
クする行動と関連付ける(例8)
 平均と標準偏差(例2)
 学生の理解と教員の不一致
16
学生の理解と教員の不一致
273ページ
1.
2.
3.
4.
5.
6.
実験データを記述するための、理論的モデルの有用性
ヒストグラムの領域(階級)と頻度の解釈 区間の変更
正規分布のもとでの確率の理解
実験データと数学的モデルの区別
離散的数値変数
歪度をまちがったり、中心が等しいことで十分

意思決定の際、これらを関連づけるための分析や総合力
の欠如
狭い見方から広い見方
第3レベルでの統計的Reasoning 必要
異なる要素を複合的に解釈
議論の能力がない(分析力・総合力)




17
11.6 正規分布教育の実施
274ページ








正規分布:非常に複合的
多くの異なる概念や考え方の関連性や統合が必要
計算の学習はもはや目的ではない
基礎概念の直観的理解は中程度の数学知識で可能
教員が適切なタスクを選択
コンピュータの活用→視覚的理解を促す、議論の一部
より多くの実際データにリンクした活動が必要
正規分布でデータのシミュレーション、実データとの比較(中
間ステップ)
 学習を評価:異なる要素の比較
18