データ分析について

大まかな統計分析の流れ 4段階
•
•
•
•
•
母集団(未知であり不可視)
標本(可視)
データの収集
アンケート調査
無作為抽出
•
•
•
集計
データ集計
推定・検定
統計解析
平均値やクロス表
基礎統計量や集計表
t検定やカイ2乗検定結果(有意かどうか)
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
母集団と標本
• 母集団:未知、 標本:既知
• 仮説の下で考える理想的な集団。標本はこ
の母集団から無作為に取り出された部分集
団
母集団:未知
無作為
抽出
標本・サンプル
既知:データ分析の対象
未知または既知
標本は分析できる
エクセル使いなら必需品A1
行側(ギョウソク)と列側(レツソク)
•
•
•
→列側(項目、変数、変量)
行側↓
(ケース)
統計分野はエクセルに似たり
でも言葉が違うケースと項目
•
•
•
•
•
ケースとは1件の標本を示す
ケースは個体を示す
時系列の場合時間変化
項目は列単位→1つの変数
1変数の集計や分析
– 1列ごとに処理するデータ
• 2変数の集計
– 2列ごとに処理
• 多変数の処理
– 3列以上をまとめて処理
入力したデータ
データ収集の時、気づかうこと
有効数字について
• 計算結果を小数点何桁まで取るべきか?
• 答え
• 測定値で影響されます。
– 身長160cmは「センチ単位」で測定されました。
– 160.1かも160.4かも知れません。
– 有効数字 小数点以下0桁 でした。
• そこで平均値など計算結果の表示は、ひと桁多くし
小数点以下1桁(2桁目を四捨五入して)で表示しま
しょう
• 教訓
• 計算結果の有効数字は測定値よりも1桁多く
収集データの欠席扱いとは
欠測値について
• 計測されなかった、計測できなかった値・回答
– 欠測値という
• 表ソフトで欠測値には0ゼロを入力しない
– エクセルの場合何も入力しない
– セル値の削除はdeleteキーで
– 0は計測値として計算してしまいます
• 99や0など特定値を入れることは
– 一部の統計ソフトでは除外可能だが、エクセルと
の互換性を考えると入力しない方が無難でしょう
最初のデータ分析
• 記述または基礎統計量
とは
–
–
–
–
–
平均値
標準偏差
最大、最小値
中央値
度数集計表
統計計算シートankstat
(アンクスタット)時間があれば紹介
• 田中研究室で開発されたエクセル(バージョ
ンは問わず)専用のシート
• 主に基礎集計や集計を行う。統計解析は実
施しない。
• http://www.osu.ac.jp/~tanaka/ankstat/
• 検索エンジンにて「ankstat」で検索する 。
• 最新は5.09版。
• 最大500ケース×200項目を集計可能
「最新版5.9版」でダウンロード
「ankstat」で検索
データ入力画面例
(エクセルに同じ)
基礎等計量もらくらく
度数も集計する