Statistics Toolbox 統計と機械学習を使用してデータを分析およびモデル化 Statistics Toolbox™ は、データの整理、解析およびモデル化に対し、統計および機械学習のアルゴリズム とツールを提供します。予測モデリングに分類や回帰を使用したり、モンテカルロ シミュレーション のために乱数を生成したりできるほか、探索的データ解析のために統計プロットを使用したり、仮説 検定を実行したりすることも可能です。 また、多次元データの解析のためのアルゴリズムでは、逐次特徴選択でモデルに影響を与える主な変 数の特定、主成分解析でのデータ変換、正則化や収縮の適用、部分最小二乗回帰の使用が可能です。 このツールボックスは、SVM (サポート ベクター マシン)、ブースティングされた決定木とバギングさ れた決定木、k 平均クラスター化と階層状クラスター化、k 近傍探索、ガウス混合、隠れマルコフ モデ ルを含む教師ありおよび教師なしの機械学習アルゴリズムを提供します。 主な機能 ▪ 線形、一般化線形、非線形、ロバスト、正則化、ANOVA、混合効果モデルを含む回帰手法 ▪ 被験者ごとに複数の測定が含まれるデータに対する反復測定モデリング ▪ コピュラやガウス混合を含む 1 変量および多変量確率分布 ▪ 乱数および準乱数生成器、マルコフ連鎖標本生成器 ▪ 分布、分散、位置の仮説検定および DOE (実験計画法) 手法 (最適計画法、要因計画法、応答曲面計 画法) ▪ SVM (サポート ベクター マシン)、ブースティングされた決定木とバギングされた決定木、k 近傍 法、単純ベイズ、判別分析を含む教師ありの機械学習アルゴリズム ▪ k 平均クラスター化と階層状クラスター化、ガウス混合、隠れマルコフ モデルを含む教師なしの機 械学習アルゴリズム 探索的データ解析 Statistics Toolbox にはデータ探索の方法が数多く用意されています。これには対話型グラフィックスに よる統計プロッティング、クラスター分析のためのアルゴリズム、大規模なデータセットのための記 述統計などがあります。 統計プロッティングと対話型グラフィックス Statistics Toolbox には、データを視覚的に探索するためのグラフやチャートが用意されています。 MATLAB® のプロット タイプに加え、確率プロット、ボックス プロット、ヒストグラム、散布ヒスト グラム、3 次元ヒストグラム、制御チャート、分位数-分位数プロットなどが用意されています。ま た、系統樹、バイプロット、平行座標チャート、アンドリュース プロットなどの、多変量解析のため の専用プロットも含まれています。 1 5 つの変数間の相互作用を示すグループ散布プロット行列。 多変量データの可視化 (例) さまざまな統計プロットを使用して多変量データを可視化する方法。 潜在的な年固有の固定効果を見つけるために応答を年ごとにグループ化した、ヒゲをもつコンパクトな箱ひげ図 2 同時相関を使用する固定効果のパネル モデル (例) 散布プロットとヒストグラムを組み合わせて変数間の関係を記述する散布ヒストグラム。 コピュラを使用した従属確率変数のシミュレーション (例) 3 極値分布からのサンプルの経験的累積分布関数 (CDF) を、サンプリング分布の CDF のプロットと比較するプロッ ト。 一般化極値分布によるデータのモデル化 (例) 最尤推定法を使用した一般化極値分布の近似方法。 記述統計 記述統計によって、大規模のデータ セットでもすばやく理解して、記述することができます。Statistics Toolbox には、次の計算のための関数が用意されています。 ▪ 平均値、中央値などのさまざまな平均を含む中心傾向の測定 (位置の測定) ▪ 範囲、分散、標準偏差、平均絶対偏差、中央絶対偏差を含む分散の測定 (広がりの測定) ▪ 線形および順位相関係数 (部分および全体) ▪ 欠損値を含むデータに基づく結果 ▪ 百分位数および四分位数推定値 ▪ カーネル平滑化関数を使用した密度の推定 上記の関数を使用して、高度に関連付けられた値でデータ サンプルの値を要約することができます。 再標本化手法 場合によっては、パラメトリック手法を使用して要約統計量を推定できないことがあります。このよ うな場合に備え、Statistics Toolbox には次のリサンプリング手法が用意されています。 ▪ データセットからの無作為標本抽出 (置き換えありまたはなし) 4 ▪ 再標本化を使用して標本の統計を推定するための、一般化されたブートストラップ関数 ▪ jackknife データのサブセットを使用して標本の統計を推定するための関数 ▪ bootci 信頼区間を推定するための関数 回帰および ANOVA 回帰 回帰では、連続応答変数を 1 つ以上の予測子の関数としてモデル化できます。 Statistics Toolbox には、 線形回帰、一般化線形モデル、非線形回帰、混合効果モデルなどの幅広い回帰アルゴリズムが含まれ ています。 線形回帰 線形回帰は、連続な応答変数を 1 つ以上の予測子変数の関数として記述するために使用される統計モ デリング手法です。 複雑なシステムの動作を理解および予測したり、実験、金融、生物学のデータを 解析したりするのに役立ちます。 このツールボックスには以下を含むさまざまな種類の線形回帰モデルおよび近似方法が用意されてい ます。 ▪ 単純 単純: 1 つの予測子のみをもつモデル ▪ 多重 多重: 複数の予測子をもつモデル ▪ 多変量 多変量: 複数の応答変数をもつモデル ▪ ロバスト ロバスト: 外れ値があるモデル ▪ ステップワイズ ステップワイズ: 自動的に変数を選択するモデル ▪ 正則化 正則化: 冗長な予測子を扱うことができるモデルであり、リッジ、lasso および elastic net アルゴリズ ムを使用して過剰適合を防止 計算の統計:MATLAB を使用した特徴選択、正則化、および収縮 36:51 相関性のあるデータがある場合に正確な近似を生成する方法を紹介します。 非線形回帰 非線形回帰は、実験データにおける非線形の関係を記述するのに役立つ統計モデリング手法です。非 線形回帰モデルは、モデルが非線形方程式で記述され、一般的にそれらはパラメトリックであると想 定されます。ノンパラメトリックな非線形回帰には、通常機械学習の方法が使用されます。 このツールボックスは、データ内の外れ値を扱うロバスト非線形近似も提供します。 MATLAB での近似: 統計、最適化、および曲線近似 38:37 MATLAB を使用した回帰アルゴリズムの適用。 5 一般化線形モデル 一般化線形モデルは非線形モデルの特殊なケースであり、線形手法を使用します。このモデルは応答 変数が非正規分布であっても使用でき、期待される応答の値が線形予測子とどのように関係するかを 記述するリンク関数をもつことができます。 Statistics Toolbox は次の応答分布をもつ一般化線形モデルの近似をサポートします。 ▪ 正規分布 (プロビット回帰) ▪ 二項分布 (ロジスティック回帰) ▪ ポアソン分布 ▪ ガンマ分布 ▪ 逆ガウス分布 一般化線形モデルによるデータの近似 (例) および を使用した一般線形化モデルの近似および評価方法。 混合効果モデル 線形および非線形混合効果モデルは、線形および非線形モデルをデータに関して一般化したモデルで あり、データはグループから収集され、グループにまとめられます。これらのモデルは、1 つ以上のグ ループ変数に応じて変化する係数をもつ応答変数と独立変数の関係を記述します。 Statistics Toolbox は、入れ子および交差変量効果をもつ多段モデルまたは階層モデルの近似をサポート します。これは次のようなさまざまな調査の実施に使用できます。 ▪ 縦断的解析/パネル解析 ▪ 反復測定モデリング ▪ 成長モデリング 6 多段混合効果モデル (左) と通常の最小二乗法 (右) を使用して近似した、3 つの州の州内総生産の比較プロット。 Statistics Toolbox の関数 は、データがグループから収集されグループにまとめられる場合に、より優れた予測精度 をもつモデルを作成できます。 モデルの評価 Statistics Toolbox では、次のような統計有意性の検定や適合性の尺度により、回帰アルゴリズムについ てのモデルの評価を実行できます。 ▪ F 統計量と t 統計量 ▪ R2 および調整済み R2 ▪ 交差検定平均平方根誤差 ▪ 赤池の情報量基準 (AIC) およびベイズ情報量基準 (BIC) 回帰係数と予測値の両方に対して、信頼区間を計算できます。 ノンパラメトリック回帰 また Statistics Toolbox では、予測子と応答間の関係を記述するモデルを指定しなくても正確な近似を生 成できるように、ノンパラメトリック回帰手法がサポートされています。ノンパラメトリック回帰手 法は、回帰の教師あり機械学習として広く分類される場合があり、決定木に加えブースティングされ た回帰木とバギングされた決定木が含まれます。 ノンパラメトリック近似 4:07 変数間の関係を記述する関数を指定できない場合に、予測モデルを開発します。 分散分析 分散分析 (ANOVA) では、標本分散を別のソースに割り当てて、集団グループ内または異なる集団グル ープ間で変動が生じるかどうかを決定します。Statistics Toolbox には、次の分散分析アルゴリズムと、 関連する手法が用意されています。 7 ▪ 1 元配置 ANOVA ▪ 釣り合い型 2 因子 ANOVA ▪ 釣り合い型および非釣り合い型多因子 ANOVA ▪ 多変量 ANOVA (MANOVA) ▪ ノンパラメトリック 1 因子 ANOVA および 2 因子 ANOVA (クラスカル・ワリスおよびフリードマ ン) ▪ 共分散分析 (ANOCOVA) ▪ 反復測定分散分析 (RANOVA) ▪ グループ平均、勾配および切片の多重比較 機械学習 機械学習アルゴリズムは、あらかじめ決められた方程式をモデルとして仮定せずに、データから直接 情報を "学習" する計算手法を使用します。学習に使用する標本の数が増えるにつれて、徐々にパフォ ーマンスが向上します。 MATLAB による機械学習 3:02 MATLAB® でデータを準備し機械学習モデルを学習する 分類 分類アルゴリズムでは、カテゴリカル応答変数を 1 つ以上の予測子の関数としてモデル化できます。 Statistics Toolbox には、次のようなさまざまなパラメトリックおよびノンパラメトリックの分類アルゴ リズムが用意されています。 ▪ ロジスティック回帰 ▪ AdaBoost、LogitBoost、GentleBoost、RobustBoost などの、ブースティングされた決定木とバギング された決定木 ▪ 単純ベイズ分類 ▪ k 近傍法 (kNN) 分類 ▪ 判別分析 (線形および 2 次バリアント) ▪ SVM (サポート ベクター マシン) 分類の概要 9:00 データ分類のための予測モデルを開発します。 次のような手法を使用して、結果として得られる分類モデルの近似の適合性を評価できます。 ▪ 交差検定損失 ▪ 混同行列 8 ▪ 性能曲線/受信者動作特性 (ROC) 曲線 クラスター分析 Statistics Toolbox には、k 平均、階層状クラスター化、ガウス混合モデルまたは隠れマルコフ モデルを 使用してデータを解析するための複数のアルゴリズムが用意されています。クラスター数が未知の場 合は、クラスター評価手法により、指定したメトリックに基づいてデータ内にあるクラスター数を決 定できます。 パン屋のイースト菌から取得した遺伝子発現様式の自然なパターンを表すプロット。PCA (主成分分析) と k 平均ク ラスター化アルゴリズムを使用してプロファイル データ内のクラスターを検出。 k 平均を使用した遺伝子のクラスター化 (例) 遺伝子発現データの調査によって遺伝子発現様式内のパターンを検出する方法の説 明 9 2 成分ガウス混合モデルの、2 変量ガウス混合への近似 クラスタリング アルゴリズムを同じ例に適用した場合の出力。 10 4 つのクラスターをもつモデルを示す樹形図。 クラスター解析 (例) k 平均と階層状クラスター化を使用して、データ内の自然なグループを発見。 回帰 回帰アルゴリズムでは、連続な応答変数を 1 つ以上の予測子の関数としてモデル化できます。Statistics Toolbox には、次のようなさまざまなパラメトリックおよびノンパラメトリックの分類アルゴリズムが 用意されています。 ▪ 線形回帰 ▪ 非線形回帰 ▪ 正則化回帰 ▪ ブースティングされた回帰木およびバギングされた回帰木 計算の統計:MATLAB を使用した特徴選択、正則化、および収縮 36:51 相関性のあるデータがある場合に正確な近似を生成する方法を紹介します。 多変量統計 多変量統計では、複数の変数を解析するためのアルゴリズムと関数が用意されています。一般的な用 途には、特徴変換や特徴選択による次元数の削減、散布プロット行列や古典的多次元尺度構成法など の可視化手法を使用した変数間の関係の探索などがあります。 11 主成分分析を使用した直交回帰の近似 (例) デミング回帰 (全体最小二乗) の実行。 特徴変換 特徴変換 (特性抽出と呼ばれる場合もある) は、既存の特性を新しい特性 (予測子変数) に変換する次元 数削減手法です。より説明的ではない特性は失われる場合があります。このツールボックスでは、次 の特性変換手法が提供されています。 ▪ 非負行列因子分解 非負行列因子分解: モデルの項が物理量のような非負の量を表さなければならない場合に使用 ▪ 主成分分析 (PCA): 固有の直行基底に射影することによってデータをより少ない次元数に集約する ために使用 ▪ 因子分析 因子分析: データの相関を説明するモデルを作成するために使用 部分最小二乗回帰と主成分回帰 (例) 非常に相関の高い予測子がある場合に応答変数をモデル化。 特徴選択 特徴選択は、データのモデリングの際に最も予測力のある測定因子 (予測子変数) のサブセットのみを 選択する次元数削減手法です。 次元数の多いデータを扱う場合や、すべての特性についてデータを収 集することがコスト的にできない場合に役立ちます。 特徴選択手法には次のものがあります。 ▪ ステップワイズ回帰は予測の精度が向上しなくなるまで特性を順に追加または削除します。線形回 帰または一般化線形回帰アルゴリズムと共に使用できます。 ▪ 逐次特徴選択はステップワイズ回帰に似ており、任意の教師あり学習アルゴリズムおよびカスタム パフォーマンス尺度と共に使用できます。 ▪ 正則化 (lasso および elastic net) は重複する特徴を削除するために縮小推定器を使用します。これら の重み (係数) をゼロに減らします。 特徴選択は次の用途に使用できます。 ▪ 機械学習アルゴリズムの精度の向上 ▪ 非常に次元数の多いデータに対する性能の向上 ▪ モデルの可読性の向上 ▪ 過剰適合の防止 12 次元数の多いデータに対する分類のための特徴選択 (例) がんの検出のために重要な特徴を選択。 多変量可視化 Statistics Toolbox には、次のような、多変量データを視覚的に探索するためのグラフやチャートが用意 されています。 ▪ 散布プロット行列 ▪ 樹形図 ▪ バイプロット ▪ 平行座標チャート ▪ アンドリュース プロット ▪ グリフ プロット モデルの年がさまざまな変数に与える影響を示すグループ散布プロット行列。 13 主成分解析からの最初の 3 つの負荷量を示すバイプロット。 原産国が変数に与える影響を示すアンドリュース プロット。 確率分布 Statistics Toolbox には、パラメトリックとノンパラメトリックの確率分布を使って作業するための関数 とアプリが用意されています。 14 このツールボックスでは、次を含む 40 を超える異なる分布の計算、近似および標本の生成ができま す。 ▪ 離散分布 (標本は整数値) ▪ 連続分布 (標本は実数値) ▪ 多変量分布 (標本はベクトル値) サポートされている分布の一覧を参照してください。 これらのツールを使用すると、次のことが可能です。 ▪ 分布のデータへの近似 ▪ 統計プロットを使用した近似の適合度の評価 ▪ 確率密度関数や累積分布関数などの主要な関数の計算 ▪ 確率分布からの乱数ストリームおよび準乱数ストリームの生成 分布のデータへの近似 Distribution Fitting アプリでは、事前定義された一変量確率分布、ノンパラメトリック (カーネル平滑 化) 推定器またはユーザーが定義するカスタムの分布を使用して、データを近似できます。このアプリ は、完全なデータと打ち切り (信頼性) データの両方をサポートし、データの除外、セッションの保存 と読み込み、および MATLAB コードの生成が可能です。 分布データ (左) と要約統計量 (右) の視覚的プロット。Distribution Fitting アプリを使用すると、平均と分散の値 (こ の例では、それぞれ 16.9 と 8.7) をもつ正規分布を推定できます。 コマンド ラインで分布パラメーターを推定するか、基盤になるパラメーターに対応する確率分布を作 成できます。 また、ガウス混合分布、多変量正規分布、多変量 T 分布、Wishart 分布などの、多変量確率分布を作成 できます。さらに、コピュラを使用し、任意の周辺分布を相関構造を使って結合することで、多変量 分布を作成できます。 15 コピュラを使用した従属乱数のシミュレーション (例) 相関のある多変量データをモデル化した分布の作成。 このツールボックスでは、カスタム分布を指定し、最尤推定を使用してこれらの分布を近似できま す。 カスタム 1 変量分布の近似 (例) 切り詰められたデータ、重み付けされたデータ、バイモーダル データの最尤推定を 実行します。 近似の適合性の評価 Statistics Toolbox には、データセットが特定の分布にどの程度一致するかを評価するための、統計プロ ットが用意されています。正規分布、指数分布、極値分布、対数正規分布、レイリー分布、ワイブル 分布など、さまざまな標準的な分布に対する確率プロットが含まれます。確率プロットは、完全なデ ータセットおよび打ち切りデータセットから生成できます。また、分位数-分位数プロットを使用し て、与えられた分布が標準の正規分布にどの程度一致しているかを評価できます。 また Statistics Toolbox には、データセットが確率分布に一致するかどうかを決定する、仮説検定が用意 されています。次のような検定機能があります。 ▪ カイ二乗適合度検定 ▪ コルモゴルフ-スミルノフの片側検定と両側検定 ▪ リリーフォース検定 ▪ アンサリ-ブラッドリー検定 ▪ ジャック-ベラ検定 確率分布の解析 Statistics Toolbox では、次のような確率分布の解析のための関数が用意されています。 ▪ 確率密度関数 ▪ 累積密度関数 ▪ 累積密度逆関数 ▪ 負の対数尤度関数 乱数の生成 Statistics Toolbox では、確率関数から疑似乱数や準乱数のストリームを生成するための関数が用意され ています。乱数は、近似した確率分布または作成した確率分布に random メソッドを適用して生成でき ます。 16 特定の平均をもつポアソン分布を作成し、この分布に一致する乱数のベクトルを生成する MATLAB コード。 Statistics Toolbox には、次の操作のための関数も用意されています。 ▪ t 分布、正規分布、コピュラ分布、Wishart 分布などの多変量分布からのランダム サンプル生成 ▪ 有限の母集団からのサンプリング ▪ ラテン超方格サンプリングの実行 ▪ ピアソン システムまたはジョンソン システムの分布からのサンプル生成 また、準乱数ストリームを生成することもできます。準乱数ストリームは、単位超立方体からの非常 に一様な標本を生成します。準乱数ストリームは、完全なカバレッジを達成するために必要な標本数 が少なくすむため、多くの場合モンテカルロ シミュレーションを高速化できます。 コードの生成 MATLAB Coder は、確率分布や記述統計を含む 100 を超える Statistics Toolbox 関数の、移植と読み取り が可能な C コードを生成できます。生成したコードは次の目的に使用できます。 ▪ スタンドアロンの実行 ▪ 他のソフトウェアとの統合 ▪ 統計アルゴリズムの高速化 ▪ 組込み実装 17 並列計算を使用した統計計算の高速化 Statistics Toolbox を Parallel Computing Toolbox™ と併用すると、計算時間を短縮できます。このツールボ ックスは、交差検定、ブートストラッピングなどのアルゴリズムについて組み込みの並列計算がサポ ートされており、モンテカルロ シミュレーションや他の統計問題を高速化できます。 Statistics Toolbox の並列計算の組み込みサポート により統計計算を並列で実行できるため、作成したプ ログラムや関数を高速化でき、実行時間を短縮できます。 再現可能な並列計算 乱数発生を高速化できる一方で、並列化せずに生成した乱数と同じ統計の特性を維持できます。この ため、これらの乱数を使用した計算は完全に再現可能です。 仮説検定、実験計画法および統計的工程管理 仮説検定 不規則変動により、異なる条件下で取り出したサンプルが実際に異なるのかどうか、判断が難しい場 合があります。サンプルごとの差異が顕著でさらなる詳細な評価を要するのか、それとも予期範囲内 の不規則なデータ変動に沿ったものであるのかを分析する際に、仮説検定は重要な解析手法です。 Statistics Toolbox は、次のような、最も一般的に用いられているパラメトリックおよびノンパラメトリ ック仮説検定方法をサポートしています。 ▪ 1 標本および 2 標本 t 検定 ▪ 1 標本、対応のある 2 標本、独立した 2 標本のノンパラメトリック検定 ▪ 分布検定 (カイ 2 乗、Jarque-Bera、Lilliefors および Kolmogorov-Smirnov) ▪ 分布比較 (2 標本 Kolmogorov-Smirnov) ▪ 自己相関および乱数度テスト ▪ 回帰係数での線形仮説検定 サンプル 数の選択 (例) 仮説検定に必要なサンプル 数の計算。 実験計画法 実験計画法 (DOE: Design Of Experiments) のための関数により、統計的モデリングのためのデータを収 集するために、実際的な計画を作成してテストできます。これらの計画法により、どの実験条件が結 果に影響を与えるかを理解するために、データ入力を操作することができます。サポートされている 計画法の種類は次のとおりです。 ▪ 完全実施要因計画 ▪ 一部実施要因計画 ▪ 応答曲面計画 (中央複合および Box-Behnken) ▪ D-最適計画 18 ▪ ラテン超方格計画 Statistics Toolbox では、カスタマイズした DOE を定義、解析、可視化することができます。たとえ ば、ANOVA、線形回帰および応答曲面モデリングを使用して入力の影響や交互作用を推定し、その 後、主効果プロット、交互作用プロット、多変量管理図で結果を可視化することができます。 決定木をデータに適合させる例。Statistics Toolbox の近似機能を使用して、決定規則やグループの配置のダイアグ ラムを描画することにより、決定木を可視化することができます。 Statistics Toolbox の実験計画法 (DOE) と応答曲面近似機能を使用した、実験の化学反応のモデリング。 統計的工程管理 Statistics Toolbox には、SPC (統計的工程管理) をサポートする一連の関数が用意されています。これら の関数を使用してプロセスの可変性を評価することで、製品やプロセスを監視し、改良することがで きます。SPC の関数により、以下が可能です。 ▪ ゲージ反復性および再現性の評価 ▪ 工程能力の計算 ▪ 制御チャートの作成 ▪ 制御チャートデータへの Western Electric および Nelson 異常判定ルールの適用 19 工程データと Western Electric 異常判定ルールに対する違反を表す制御チャート。Statistics Toolbox には、製品やプ ロセスを監視し、評価するためのさまざまな制御チャートおよび異常判定ルールが用意されています。 リソース 製品詳細、例、および動作環境 www.mathworks.com/products/statistics オンライン ユーザー コミュニティ www.mathworks.com/matlabcentral 評価版ソフトウェア www.mathworks.com/trialrequest 技術トレーニング サービス www.mathworks.com/training 営業窓口 www.mathworks.com/contactsales サードパーティ製品とサービス www.mathworks.com/connections テクニカル サポート www.mathworks.com/support 世界各地のお問い合わせ先 www.mathworks.com/contact © 2014 The MathWorks, Inc. MATLAB and Simulink are registered trademarks of The MathWorks, Inc. See www.mathworks.com/trademarks for a list of additional trademarks. Other product or brand names may be trademarks or registered trademarks of their respective holders. 20
© Copyright 2024 ExpyDoc