1. - 東京大学

NUMEROS.docx
ver. 2015.1.25
言語研究のための
数値データ分析法
２０１５
これは 1 学期間の授業用テキストです。
随時更新します。
(c) 上田博人（東京大学） Hiroto Ueda (University of Tokyo)
0. はじめに
このテキストは後期課程 (情報学環・言語情報科学『
) 言語の変化・変異』、
『言語データ分析』および大学院（学際情報学環：言語情報科学専攻）『言
語情報解析』の授業のために作成しました。
内容は、言語の変化・変異を数量的に観察するときに有用だと思う方法
を取り上げました。数値が並ぶデータ行列を前にして、目視だけではよく
わからない状況を、さまざまな分析手法を用いて明らかにしていきます。
私たちは文系なので、この分野（行列とベクトル、線形代数）を高校の
数学で習っていないのですが、その基礎のはじめの部分だけでも学習して
おくと、数理の理解も、行列関数を使ったプログラミングの作業も容易に
なります。さらに、このテキストでは、一般に定義されていないような行
列演算をあえて導入しました。そのような演算を各所で活用しますので確
認してください。このテキストで扱う内容は基本的なことばかりで、難易
度はそれほど高くはありません。
学部・後期課程では .基礎的なことを中心に、そして大学院の授業のため
に作成してきたプログラムを応用します。大学院では基礎的の内容を確認
した後、主としてプログラム開発の練習をします。
ここで扱う方法は一般によく使われているものばかりですが、各所で私
たちが独自に開発してきた方法も紹介します。おおまかに「～とよばれま
す」という受動文であれば周知の方法を指します。一方、「～とよぶこと
にします」のような能動文で紹介する方法は、私たち独自の方法（または
呼称）だと思いますが、すでに開発されている方法であるかもしれません。
一応、各種の統計学書で確認しているのですが、すべてを見渡すことは不
可能なので、既存の同じ方法をご存じの方はぜひご教示ください。
授業で扱った内容について考察したこと、確認したこと、自分の言語数
量データに応用したことなどを書いたレポートを毎回提出してください。
それらをまとめて、最終レポートを提出してください。
質問があれば、授業中に発言するか、またはレポートの中に書いてくだ
さい。そのとき具体的なデータがあるとわかりやすいと思います。
学期期間中は、このテキストとプログラムのコードを毎週更新していま
す。常に最新のファイルをダウンロードしてください。
＊ダウンロードサイト：
http://lecture.ecc.u-tokyo.ac.jp/~cueda/gengo/index.html
2.3. NUMEROS: 数量データ分析用プログラム
NUMEROS para análisis de datos cuantitativos
1
1. 行列
はじめに行列のさまざまな演算について確認します。一般の行列・線形
代数で扱われる演算のほかに、このプリントで特別に定義する演算も含み
ます。これらを理解すると、数値データ処理の意味と利用法がわかり、応
用範囲が広がります。また、少ないコードでプログラムが書けるのでプロ
グラミング開発の能率が高まります。
手元の言語データから 1 つの数値、たとえば、ある地域に特有の語の出
現頻度が得られたとします。この 1 つの数字そのものが、異常に高い数値
であるのか、または、ほかの地域でも多く見つかるのか、調べなければな
りません。 L1, L2, L3, …という地域で比較すると、その分布の特徴がわか
ります。さらに関連するほかの語 w1, w2, … の頻度も調べるとよいでしょ
う。そうすると、地域と語からなる頻度分布表が出来上がります。
O.S. L1 L2 L3 L4 L5
w1
10
19
14
7
12
w2
11
7
10
0
1
w3
0
0
1
12
1
w4
0
1
2
3
3
以下では、このような頻度分布表の分析法を扱います。例としてあげた
分布表は小さなものばかりですが、実際は数千行 ×数十列のように大きな
行列を扱うこともあります。
1.1. 単位ベクトルと単位行列
下左表のように成分がすべて 1 の列ベクトルは「単位ベクトル」 Unit
vector とよばれます 1 。下右表は横に並んだ行ベクトルです。
U n1 1
1
1
2
1
U 1p 1 2 3
1
1 1 1
このプリントは上左表のような列ベクトルを n 行 1 列の行列 U n1 と見な
し、上右表のような行ベクトルを 1 行 p 列の行列 U 1p と見なします。数値
（スカラー）は M のように、添え字の n も p もつけません。
次のように「対角成分」（ U(1,1), U(2,2)のように行番と列番が同じ位置
1
「単位ベクトル」には他の定義もありますが、ここでは以下でよく使う
この定義（成分がすべて 1 のベクトル）を採用します。
2
の成分）がすべて 1 で、非対角成分がすべて 0 である正方行列（行数と列
数が同じ行列）は「単位行列」 (unit matrix, identity matrix)とよばれます。
以下では単位行列を U pp のように表記します。一般に、添え字の n, p は表
記されませんが、以下の演算ではこれを意識すると理解が深まるので付記
することにします。
U pp
1
2
3
1
1
0
0
2
0
1
0
3
0
0
1
1.2. 行列成分の演算
1.2.1. 行列と行列の演算
行列間で対応する成分について加減乗除の演算をします。
X np 1 2 + Y np 1
2
= Znp
1
2
1
1 4
1
7 10
1
8 14
2
2 5
2
8 11
2
10 16
3
3 6
3
9 12
3
12 18
X n p + Y np = Z np , Z n p = A(X n p , Y n p )
この加算の演算 X n p + Y np = Z np は一般の行列演算で定義されています。
上左式では、たとえば X np のように「大文字＋小文字＋小文字」で行列を
示し、普通体の n と p は行数と列数を示します。上右式 Z n p = X(X np , Y n p )
はプログラムのコードで X は引数 1 (=X n p )と引数 2 (=Y n p )の和を返す行列
のユーザー定義関数です。
次は行列成分間の乗算 (*)を示します。これは一般の行列演算では定義さ
れていませんが、この演算は以下の章で頻用するので、ここで定義してお
きます。M は対応する行列成分間の積を成分とする行列を返すユーザー定
義関数です。この行列成分間の乗算は後述する「行列積」(X)とは異なりま
すから注意してください。
X np 1 2 * Y np 1
2
= Znp
1
2
1
1 4
1
7 10
1
7 40
2
2 5
2
8 11
2
16 55
3
3 6
3
9 12
3
27 72
X n p * Y n p = Z n p , Z np = M(X n p , Y np )
3
このテキストではベクトルを行、または列が 1 である行列とみなします
ので、次のように演算とプログラミングの手続きを統一することができま
す。
X n1 1 * Y n1 1 = Zn1
1
1
1
1
4
1
4
2
2
2
5
2
10
3
3
3
6
3
18
X n 1 * Y n 1 = Z n 1 , Z n 1 = M(X n 1 , Y n1 )
1.2.2. 行列と数値の演算
行列（やベクトル）の成分全体に「スカラー」 (scalar)とよばれる数値を
足したり (行列関数 A)、引いたり (行列関数 S), 掛けたり (行列関数 M)、割
ったり (行列関数 D)することができます。
X np 1 2 * 5
= Znp
1
2
1
1 4
1
5 20
2
2 5
2
10 25
3
3 6
3
15 30
X n p * 5 = Z n p , Z n p = M(X n p , 5)
このような行列とスカラーの積算は一般に定義されています。一方、次
のような加算は一般に定義されていませんが、ここに定義します。
X np 1 2 + 5
= Znp 1
2
9
1
1 4
1
6
2
2 5
2
7 10
3
3 6
3
8 11
X n p + 5 = Z np , Z np = X(X n p , 5)
以下では加算 (+, X)や積算 (*, M)だけでなく、減算 (-, S)、除算 (/, D)、指
数 (^, E)・対数 (@, L)の演算も含めて統一的な行列成分の演算を定義するこ
とにします。次のようなベクトルを対象にした場合も同様です。
4
X n1 1 ＾ 2 = Z n 1 1
1
1
1
1
2
2
2
4
3
3
3
9
X n 1 ^ 2 = Z n 1 , Z n1 = E(X n 1 , 2)
先述のように、このテキストではベクトルを 1 列または 1 行の行列と見
なします。そして、数値（スカラー）も 1 行 1 列の行列と見なすことがで
きます。このように考えればさまざまな演算を、数値、ベクトル、行列と
いう異なったデータどうしを統一して計算できるようになります。
ここで「一様行列」 (homogeneous matrix)という概念を提案します。たと
えば、次のような行列＋数値の演算で、数値 (5)を下の Y np ような成分をも
つ行列（「全体一様行列」homogeneous matrix in all をよびます）とすれば、
一般に認められている行列の加算ができるようになります。
X np 1 2 + 5 = X np 1 2 + Y np 1 2 = Znp 1
2
1
1 4
1
1 4
1
5 5
1
6
9
2
2 5
2
2 5
2
5 5
2
7 10
3
3 6
3
3 6
3
5 5
3
8 11
そこで、行列成分演算では次のようにスカラーと全体一様行列は同等と
と見なします。
5 = Y np 1 2
1
5 5
2
5 5
3
5 5
1.2.3. 行列とベクトルの演算
行列成分とベクトル成分の演算をします。この演算は一般の行列の計算
で行われませんが、以下で多用するので次のように定義しておきます。
次のような縦ベクトルを用いた演算では、「 2 列一様行列」(homogeneous
matrix in 2columns)である Y n p を使えば、すべての演算が可能になります。
5
X np 1 2 + Y n1 1 = X np 1 2 + Y np 1 2 = Znp
1
2
1
1 4
1
7
1
1 4
1
7 7
1
8 11
2
2 5
2
8
2
2 5
2
8 8
2
10 13
3
3 6
3
9
3
3 6
3
9 9
3
12 15
同様にして、次のような横ベクトルを用いた演算では、それを「行一様
行列」(homogeneous matrix in row)にします。下の Y np は 3 行一様行列です。
X np 1 2 + Y 1p 1 2 = X np 1 2 + Y np 1 2 = Znp
1
1 4
2
3
1
7 8
1
2
1
1 4
1
7 8
1
8 12
2 5
2
2 5
2
7 8
2
9 13
3 6
3
3 6
3
7 8
3
10 14
このようにベクトルを一様行列に変換するのは、行列演算を可能にする
ための方法に過ぎません。元のベクトルとそれぞれの一様行列の間に数値
の本質的な変化はない、と見なすことができるでしょう。
Y n1 1 = Y np 1 2
1
7
1
7 7
2
8
2
8 8
3
9
3
9 9
Y 1p 1 2 = Y np 1 2
1
7 8
1
7 8
2
7 8
3
7 8
●四則演算の一般化
以上のように考えれば、たとえば、X * Y = Z ならば Y = Z / X である、
というような一般の四則演算の導出も可能になります。この導出は数値ど
うしの演算、ベクトルどうしの演算、行列どうしの演算では次のように可
能です。
2 *3 =6 → 3 =6 /2
X n1 1 * Y n1 1 = Zn1
1
→ Y n1 1 = Zn1
1
/ X n1 1
1
1
1
7
1
7
1
7
1
7
1
1
2
2
2
8
2
16
2
8
2
16
2
2
3
3
3
9
3
27
3
9
3
27
3
3
6
X n1
1
2
1
1
2
3
*
Y n1
1
2
4
1
7
2
5
2
3
6
3
=
Z n1
1
2
10
1
7
8
11
2
9
12
3
→
Y n1
1
2
40
1
7
16
55
2
27
72
3
=
Z n1
1
2
10
1
7
8
11
2
9
12
3
/
X n1
1
2
40
1
1
4
16
55
2
2
5
27
72
3
3
6
それでは、数値とベクトル、数値と行列、ベクトルと行列のような異種
のデータ間でも同じように演算の導出が可能になるか、試してみましょう。
X
1
2
1
1
2
*
5
=
Z
1
2
4
1
5
2
5
2
3
3
6
3
X
1
2
1
1
2
3
→
Z
1
2
20
1
5
10
25
2
15
30
3
Y 1 = Z
1
2
4
1
7
1
7
2
5
2
8
2
3
6
3
9
3
*
5
→
=
/
X
1
2
20
1
1
10
25
2
15
30
3
Y 1 = Z
1
2
28
1
7
1
7
16
40
2
8
2
27
54
3
9
3
A
1
2
4
1
5
5
2
5
2
5
5
3
6
3
5
5
/
=
=
B 1 2
X
1
2
28
1
1
4
1
7 7
16
40
2
2
5
2
8 8
27
54
3
3
6
3
9 9
上の最初の表の右端の行列 A は全体一様行列ですから、先述のように、
数値（スカラー） (=5)と見なすことができます。また、下の B は 2 列一様
行列なので、1 列行列（縦ベクトル）の Y と同じと見なすことができます。
よって、以上のすべての場合で X * Y = Z ならば、Y = Z / X であることが
確認できました。このことは、乗算と除算の演算だけでなく、加算と減算
の演算、指数と対数の演算でも基本的に同じです。
X の成分にゼロ (0)があると先の行列の割り算 Z / X ができなくなります。
しかし、上の演算で X の成分が 0 ならば Z の対応成分も 0 になるので、0 /
0 という計算が行われます。この計算は一般にできないことになっていま
すが、これを 0 / 0 = 0 と決めておけば、これも可能になります。
1.3. 行列積
「行列積」(matrix product)は先述の「行列成分の積」(multiplication of matrix
elements)とは異なります。一般に「行列の積」といえばこの「行列積」を
指します。この演算は「積和」sum product という少し複雑な計算をしなけ
ればなりません。そこで簡単な行ベクトルと列ベクトルの積からはじめて、
少しずつ複雑になる行列とベクトルの積、行列と行列の積という順番で進
みます。
7
1.3.1. ベクトルとベクトルの積
行ベクトルと列ベクトルの積は、それぞれ対応する成分の積の和になり
ます。たとえば次の例では、 X 1 3 Y 3 1 = 1*4 + 2*5 + 3 *6 = 32 になります。
下左の行列計算では行列間に +, -, *, …などの演算記号（算術演算子）をつ
けません。下右の行列関数では X という関数名を使うことにします。表と
表の行列積を示すときは、 2 つの表の間に ×をつけることにします。
X 1 3 Y 31 = Z, Z=X(X 1 3 , Y 31 )
X 13 1 2 3 × Y 31 x = Z11
1
1 2 3
1
4
2
5
3
6
1
x
32
逆に、列ベクトルと行ベクトルを掛け合わせると、それぞれの成分の積
からなる行列を作ります。たとえば、Y 3 1 X 13 の積の行列 Z 3 3 の Z1(第 1 行 ) [4,
8, 12]は Y 31 の Z1: 4 に X 13 の [1, 2, 3]を掛けたものです。 Z 33 の Z2(第 2 行 )
の [5, 10, 15]は Y 31 の 5 に X 13 の [1, 2, 3]を掛けたものです。
X 3 1 Y 13 = Z 3 3 , Z 3 3 = X(X 31 , Y 1 3 )
Y 31 x × X 13 1 2 3 = Y 31 X 13 1
1
4
2
3
1
1 2 3
2
3
1
4
8 12
5
2
5 10 15
6
3
6 12 18
1.3.2. 行列とベクトルの積
行列のそれぞれの行に列ベクトルを掛けます。この計算はデータ行列に
重みベクトルを掛けた合成ベクトルを作るときに使います。
X 3 2 Y 21 = Z 3 1 , Z 3 2 = X(X 32 , Y 2 1 )
8
X 32
1
2
1
1
2
3
×
Y 21
1
2
1
3
4
2
5
1
=
Z31
1
2
1
8
3
2
18
3
13
●行列と単位ベクトルの積
行列に単位ベクトル (U p 1 )を右から掛けると行和縦ベクトルが得られま
す。
X 32
1
2
1
1
2
3
×
U 21
1
2
1
3
4
2
5
1
=
Z31
1
1
1
3
1
2
7
3
6
逆に、次のような単位行ベクトルと行列の積では、列和横ベクトルが得
られます。
U 13 1 2 3 × X 32 1 2 =
1
1 1 1
1
1 4
2
2 5
3
3 6
Z12
1
1
2
6 15
ここで、行列積に関わる行列の行数と列数について確認します。次の 2
つの式を見てください。
X 3 2 U 21 = Z 3 1
U 1 3 X 32 = Z 1 2
どちらの式でも左の行列の列数と右の行数が同じです。これが異なると
行列積ができません。また、行列積の結果の行列 (Z)の行数は左の行列の行
数となり、行列積の結果の行列 (Z)の列数は右の行列の列数になります。
1.3.3. 行列と行列の積
行列と行列の積の成分の位置は左行列の行番号と右行列の列番号と同じ
です。たとえば、次の Z(1, 1)の成分は X の 1 行 (1, 2)と Y の 1 列 (7, 8)の積
和になります。
X 3 2 Y 23 = Z 3 3 , Z 3 3 = X(X 32 , Y 2 3 )
9
X 32 1 2 × Y 23 1 2 3
1
1 2
1
7 9 2
2
3 4
2
8 1 3
3
5 1
= Z33
1
2
3
= Z33
1
2
3
1
1x7+2x8 1x9 + 2x1 1x2 + 2x3
1
23 11
8
2
3x7+4x8
3x9+4x1
3x2+4x3
2
53 31 18
3
5x7+1x8
5x9+1x1
5x2+1x3
3
43 46 13
＊行列積の注意
行列積は第 1 行列の列数と第 2 行列の行数が同じでなければ計算できま
せん。行列積の結果の行列は第 1 行列の行数と第 2 行列の列数になります。
次の式のそれぞれの添え字に注意してください。
Xnp Ypm = Znm
＊行列積の交換
一般に行列積 X n n Y nn 行列積 Y n n X n n とは異なります。そこで、行列積の
演算では「 X nn に Y nn を右から掛ける (X n n Y n n )」や「 X nn に Y nn を左から掛け
る (Y n n X n n )」という表現を使います。以下では、それぞれ「右積する」「左
積する」という表現を使うことにします。
●単位行列の積
行列に単位行列 (U p p )を右積しても左積してもその結果は元の行列は変
わりません。
(a) A p p U pp = A p p
App x y z × U pp x y z = App x y z
1
1 2 3
1
1 0 0
1
1 2 3
2
4 5 6
2
0 1 0
2
4 5 6
3
7 8 9
3
0 0 1
3
7 8 9
(b) U p p A pp = A p p
U pp x y z × App x y z = App x y z
10
1
1 0 0
1
1 2 3
1
1 2 3
2
0 1 0
2
4 5 6
2
4 5 6
3
0 0 1
3
7 8 9
3
7 8 9
1.4. 転置行列
行列の「転置」 (transposition)とは、行列の成分 X(i,j)を X(j,i)と交換する
ことです。行列 X n p の転置行列 (transposed matrix)は X n p 'と表記されます。
An1 1
1
1
2
2
3
3
An1 ' 1 2 3
x
An p 1 2
1 2 3
An p ' 1 2 3
1
1 4
1
1 2 3
2
2 5
2
4 5 6
3
3 6
このプリントでは X np 逆行列 X n p 'を X pn と書くこともあります。
X n p ' = X pn
転置行列には次の性質があります。これらは行列演算でよく使う演算で
す。
(a) (X n p ')' = X n p
X np 1 2
X np ' 1 2 3
(X np ')' 1 2
1
1 4
x
1 2 3
1
1 4
2
2 5
y
4 5 6
2
2 5
3
3 6
3
3 6
(b) (X n p + Y n p )' = X np ' + Y n p '
X np 1 2 + Y np 1
2 = R np
1
2
R np '
1
2
3
1
1 4
1
7 10
1
8 14
1
8 10 12
2
2 5
2
8 11
2
10 16
2
14 16 18
3
3 6
3
9 12
3
12 18
11
X np ' 1 2 3 + Y np '
1
1 2 3
1
2
4 5 6
2
1
2
3 = R np
1
2
3
7
8
9
1
8 10 12
10 11 12
2
14 16 18
(c) (X n p Y n p )' = Y np ' X n p '
X np 1 2 × Yn x = Rn
x
1
1 4
1
1
a
9
2
2 5
2
2
b
12
3
3 6
c
15
Rn' 1
1
Yn' 1 2 × X np ' 1 2 3 = X 1
1
1 2
1
1 2 3
2
4 5 6
1
2
3
9 12 15
2
3
9 12 15
1.5. その他の関数
よく使う次の関数を用意しました。
Ms(X11): 行列 (1:1)をスカラーに変換
Sm(X): スカラー（数値）を行列 (1:1)に変換
SumR(X n p ): 行和縦ベクトル
SumC(X n p ): 列和横ベクトル
SumA(X n p ): 行列成分の総和（スカラー）
「行和縦ベクトル」 SumR(*)と「列和横ベクトル」 SumC(*)の導出には、
転置行列と行列積の行列関数を使っています。総和はスカラーなので、
「行
列をスカラーに変換」 Ms(*)を使います。
SumR = X n p U p 1
SumC = U n 1 ' X n p
＊線形代数の基礎（行列とベクトル）については次を参照しました：足立
(2005), 井上 (1998), 井上・広川 (2000), 三野 (2001), 奥村 (1986), 小林 (1967),
芝 (1975), 白井 (2009), 縄田 (1999), 長谷川 (2001)。「単位ベクトル」の定義
については芝 (1975)に従いました。
12
2. 統計量
行列演算を使ってデータ行列全体の性質を要約する「和」「平均」「分
散」「標準偏差」などの統計量 statistic measure を計算します。要約する対
象の行列を「列」「行」「全体」の中から選択します。
2.1. 和
データ行列 D np の横和、縦和、全体の和を計算します。データ行列 D n p
の横和（行和） Sn 1 は、次のような行列積で計算します。
S n 1 = D np U p 1
Up 1 は P 個の成分をもつ縦ベクトルです。
D
1
2
3 X Uv 1 = D Uv
1
1
6
8
5
1
1
1
19
2
7
10 6
2
1
2
23
3
8
4
8
3
1
3
20
4
9
7
2
4
18
5
10
9
4
5
23
縦和（列和） S1 p は、次のような行列積で計算します。
S 1 p = U n1 ' D n p = U 1 n D n p
ここで U n 1 'は単位ベクトル U n1 を転置させたものです (=U 1 n )。
Uv' 1 2 3 4 5 X D
1
1 1 1 1 1
1
2
3 = Uv' D
1
1
6
8
5
40 38 25
2
7
10 6
3
8
4
8
4
9
7
2
5
10
9
4
1
2
3
最後に行列全体の総和 S は、横和 S n 1 または縦和 S 1p 'の和になります。次
は、縦和 Sp'の総和 S を求める式です。
S = S1 p Up 1
13
Uv' D
1
1
2
3
40 38 25
Uv
1
Uv' D Uv
1
1
1
1
103
2
1
3
1
●群（グループ）の中の統計量
下左表のようなデータ列 (v1, v2, v3)＋群列 (Group)からなる入力行列を
群の分類内で各種の統計量を求めます。下右表は統計量として和を求めた
結果です。
D1
1
2
3
Group
和
1
2
3
1
5
2
7
a
a
5
2
7
2
3
3
2
b
b
5
3
4
3
2
2
b
c
7
14
12
4
4
2.000
2
c
5
2
4
3
c
6
1
8
7
c
2.2. 最大値・最小値・範囲・中間値
データ行列の「最大値」(maximum)、
「最小値」(minimum)、
「範囲」(range)、
「中間値」 (mid)を計算します。範囲は最大値から最小値を引いた値です。
中間値は範囲 / 2 の値です。中間値は「範囲中央」または「ミッドレンジ」
mid-range とよばれますが、ここでは簡単に「中間値」とよぶことにします。
D
1
2
3
縦軸
1
6
8
5
最小値
6
4
2
2
7
10 6
最大値
10
10
8
3
8
4
8
中間値
8
7
5
4
9
7
2
範囲
4
6
6
5
10
9
4
範囲：最小値 -最大値
1
2
3
4:6-10 6:4-10 6:2-8
2.3. 中央値
「中央値」median はデータを昇順または降順に並べ替えて、その順位の
ちょうど中央にあるデータの値です。データの個数が偶数のときは中央の
2 つのデータの平均をとります。
14
D
1
2
3
縦軸
1
6
8
5
中央値
2
7
10 6
3
8
4
8
4
9
7
2
5
10
9
4
1
2
3
8.000 8.000 5.000
中央値 -中間値
(中央値 -中間値 )/範囲
.000 1.000
.000
.000
.000
.167
2.4. 平均値
平均値 average, mean: Ave はデータの和をその個数で割った値です。
Ave = Sum(Dnp) / Num(Dnp)
D
1
2
3
縦軸
1
6
8
5
平均値
2
7
10 6
3
8
4
4
9
5
10
1
2
3
8.000 7.600 5.000
平均値 -中間値
.000
.600
.000
8
(平均値 -中間値 )/範囲
.000
.100
.000
7
2
平均値 -中央値
.000
-.400
.000
9
4
●調和平均値
速度、濃度、平均、比率など、割り算を使って算出された値の平均は、
そのまま合計して個数で割るとうまくいきません。たとえば、次のような
ケースの平均時速を計算してみましょう。あるグループがハイキングで一
定の行程を往復し、往路は時速 6 km/h、復路は時速 4 km/h だったとします。
このとき往復の平均時速を算術平均で出すと (6 + 4) / 2 = 5 になるからとい
って、平均時速を 5(km/h)としたのでは、不都合なことが起こります。往
復の距離を平均時速で割っても時間が正しく出てこないのです。たとえば
片道 12km だとすると、24(km) / 5(km/h) = 4.8(h)になってしまいますが、実
際の往路は 12 (km) / 6 (km/h) = 2(h) であり、復路は 12 (km) / 4 (km/h) = 3(h)
で、往路と復路を併せて 5(h)になります。
そこで、次のような「調和平均」 (Harmonic average: H. Ave.)が使われま
す 2 。片道の距離を a (km)とすると、 a(km) / 6(km/h)が往路の時間になりま
す。同様に、復路の時間は a (km) / 4(km/h)です。往路と復路の平均時間
(Ave.h)は
2
たとえば池田 (1976: 40-41)を参照。「調和平均」は Harmonic mean とよば
れていますが、ここでは Harmonic average とします。
「平均値」(mean), 「中
央値」 (median), 「中間値」 (mid)のイニシャルがすべて m となるので紛ら
わしいためです。
15
H.ave. = (a / 6 + a / 4) / 2
= [(1 / 6 + 1 / 4) / 2 ] a
= [(2 / 12 + 3 / 12) / 2] a
= [5 / (12 * 2) ] a
= (5 / 24) a
= (1 / 4.8) a
この第 2 式と最後の式を取り出すと、
[(1 / 6 + 1 / 4) / 2 ] a = (1 / 4.8) a
(1 / 6 + 1 / 4) / 2 = 1 / 4.8
1 / [(1 / 6 + 1 / 4) / 2] = 4.8
調和平均 H.ave.を一般式で書くと次のようになります 3 。
H.Ave.(x, y) = 1 / [(1 / x + 1 / y) / 2]
なお、この調和平均は次の「分数平均」(F.ave.: Fractional average)の特殊
なケースです（分母が同数）。分母が異なるときは次の分数平均 (F.Ave)
を使います。
●分数平均
比率 R 1 と R 2 のそれぞれの分子 (A 1 , B 1 )と分母 (A 2 , B 2 )がわかっていると
きは (R 1 = A 1 / B 1 , R 2 = A 2 / B 2 )、 R 1 と R 2 の分子の和 (A 1 + B 2 )を平均の分子と
し、R 1 と R 2 の分母 (B 1 + B 2 )の和を平均の分母とした分数を使うことも考え
られます。これを「分数平均」 (F.av: Fractional Average)とよぶことにしま
す 4。
F.av. = (A 1 + B 2 ) / (B 1 + B 2 )
それぞれの平均の結果は類似することがありますが、比率としての分数を
扱うとき、分数平均は 2 つの分数の元の数に遡って計算するので、他の平
均より正確です。また、結果の解釈もわかりやすいと思います。ちょうど
濃度と量の異なる食塩水を混ぜ合わせた食塩水の濃度のようなものになる
からです。たとえば 1/4 と 2/5 という比率の平均は簡単な算術平均 (A.av.)
ならば、
A.Ave. = (1/4 + 2/5) / 2 = 0.325,
3
ここでは 2 つの値の調和平均を説明しましたが、2 個以上でも同様です。
H.av. = 1 / {[Σ (1 / x i )] / n}, ここで x i はそれぞれの値を示し、n は x i の個数
を示します。
4
一般に「加重算術平均」 (Weighted arithmetic mean)とよばれています。
16
幾何平均 (G.av.)ならば
G.av. = ( 1 x 2 / 4 x 5) 1 /2 ≒ 0.316
調和平均 (H.av.)ならば、
H.av. = 1 / [(4 / 1 + 5 / 2) / 2] ≒ 0.308
になります。どちらも分子と分母の大きさに関わりなく一義的に計算され
ます。ここで提案した分数平均 (F.av.)を使うと、次のように計算されます。
F.av. = (1 + 2) / (4 + 5) ≒ 0.333
10/40 と 4/10 のそれぞれの平均を比べてみましょう。
平均
1/4, 2/5
10/40, 4/10
算術平均 A.Ave.
0.325
0.325
幾何平均 G.Ave.
0.316
0.316
調和平均 H.Ave.
0.308
0.308
分数平均 F.Ave.
0.333
0.280
このように、他の平均と比べて、分数平均では第一項の分子と分母を大
きくすると、全体的に薄まって数値が下降していることがわかります。
次の表は、調和平均の説明によく使われる往復（ハイキングなど）の平
均速度の計算を示すものです。この表が示すように、距離と時間のそれぞ
れの和から速度を計算すると、調和平均と分数平均は正しい平均値を出し
ます。
同距離
昨日今日和
算術平均調和平均分数平均
距離(km)
12
12
24
時間(h)
2
3
5
速度(km/h)
6
4 4.80
5.00
4.80
4.80
しかし往復ではなく、二日目は一日目の道を引き返すのではなく、さら
に先に進むような場合、次のように両日の距離が異なるのがふつうです。
異距離
昨日今日和
算術平均調和平均分数平均
距離(km)
12
15
27
時間(h)
2
3
5
速度(km/h)
6
5 5.40
5.50
5.45
5.40
このとき、調和平均は距離と時間の和から算定される速度を正しく示し
てはいません。分数平均は、そのまま距離と時間の和から算定されるので、
17
直感的に理解できると思います。
このように分数平均は、分子の値の和を分母の値の和で割る、という簡
単な操作で求められます。2 つの値だけでなく、次のように N 個のデータ
でも、同じ計算方法を使うことができます。
F.av. = (X 1 + X 2 + …, + X n ) / (Y 1 + Y 2 + …, +Y n ) = Sum(X n ) / Sum(Y n )
ここで Xi はそれぞれの分子の値、Yi はそれぞれの分母の値を示します。
そうすると、Y i がすべて 1 であるときが算術平均になることがわかります。
F.Ave. = (X 1 + X 2 + …, + X n ) / (1 + 1 + …, +1) = Sum(X n ) / N
●切除平均値
データの中に極端に大きな値や小さな値（「外れ値」 outlier とよばれま
す）があるとき、それが作用して平均値が代表値として役に立たないこと
があります。たとえば、 {1, 55, 5, 2, 4}のようなデータでは 55 があるため
に、全体の平均値が 13.4 になり、この平均値が対多数を占める {1, 2, 4, 5}
からは大きく外れた値になり、代表値として適していません。
そこで外れ値の影響を除くために中央値が使われます。そのためにデー
タを {1, 2, 4, 5, 55}のように大小順に並べ替え、その中央にある値 4 を選び
ます（データ数が偶数のときは中央にある 2 つの数の平均を使います）。
しかし、中央値には中央値以外のデータの大きさは考慮されていません。
たとえば、 {2, 3, 4, 6, 9}でも、 {2, 3, 4, 7, 12}でも、中央値は同じ 4 になり
ます。このような場合には中央値よりも平均値の方がデータの代表値とし
て適しているように思われます。
このように平均値と中央値には一長一短があり、データの代表値として
どちらを採用するか迷うことがあります。そこで、平均値と中央値の 2 つ
の考え方を総合した「切除平均値」 (trimmed mean [average])という数値が
使われています 5 。切除平均値を計算するためには、はじめにデータの平均
値を計算し、次にデータから最大値と最小値を除いたデータの平均値を計
算し、さらにデータがあれば、同様に最大値と最小値を除いたデータの平
均値を計算します。こうして、データがなくなるまで平均値を計算して、
集めた平均値の合計をその平均値の数で割ります。
実際の計算では、最大値と最小値を簡単に探すために、データを大小順
に並べ変えておくとよいでしょう。以下に先の例 {1, 55, 5, 2, 4}を使って具
体的にプロセスを示します。
(1)
(1 + 2 + 4 + 5 + 55} / 5 = 13.4
5
芝・渡部・石塚編『統計用語辞典』 (新曜社 1984)では「切除平均値」は
「調整平均値」と訳されています。
18
(2)
(2 + 4 + 5) / 3
= 3.67
(3)
(4) / 1 =4
(4)
(13.4 + 3.67 + 4) / 3 = 7.02
次は、ほかのデータ例を使ってそれぞれの平均値、切除平均値、中央値
を比べた結果です。
Inp
L1
L2
L3
L4
L5
Inp
Average Trim.ave.
Median
d1
10
19
14
7
12
d1
12.400
12.133
12.000
d2
11
7
10
0
1
d2
5.800
6.267
7.000
d3
0
0
1
12
1
d3
2.800
1.489
1.000
d4
0
1
2
3
3
d4
1.800
1.933
2.000
切除平均値 (T.ave.)の計算の過程で、最初は全体の平均値をとり、最後の
平均値は中央値になります。そして途中の平均値は外れ値である可能性が
ある最大値と最小値を徐々に取り除いて計算します。そうすると、外れ値
は切除平均値の計算に除外されませんが、考慮される回数が少なくなりま
す。逆に中央値に近い数値は考慮される回数が多くなります。
L = Int(
𝑁+1
2
)
T.ave. = [∑𝐿−1
𝑖=0
1
𝑁−2𝑖
∑𝑁−𝑖
𝑗=1+𝑖 𝑋(𝑗)] / L
ここで、 L は (N+1)/2 の整数部 (Int)、 N はデータ数、 X(j)はソートされた
データを示します。
●大数平均値
データの外れ値の影響を少なくする方法として前出の「切除平均値」が
考案されました。しかし、切除平均値を計算する過程で各段階の平均を算
出する際、徐々にデータ数が減少し、初めはデータ全体を含みますが、最
後は中央値だけになり、それぞれの平均の母数が異なるので、中央値（付
近）のデータの影響度が非常に大きくなります。
そこで、各段階で最小値と最大値をトリムするのではなく、データ数の
半数以上が含まれるグループを左から徐々に切り出しながら、各段階の平
均値を求め、その和の平均を求めた「大数平均値」 (Majority average)とい
う数値を考えてみましょう。以下に先の例 {1, 55, 5, 2, 4}をソートしたデー
タ (1 + 2 + 4 + 5 + 55}を使って具体的にプロセスを示します。データ数は 5
なので、過半数は 3 個になります。
(1)
(1 + 2 + 4} / 3 = 2.33
19
(2)
(2 + 4 + 5) / 3
= 3.67
(3)
(4 + 5 +55) / 3 = 21.33
(4)
(2.33 + 3.67 + 21.33) / 3 = 9.11
次は、ほかのデータ例を使ってそれぞれの平均値を比べた結果です。大
数平均値でも中央値付近のデータは重視されますが、それでも過半数の広
がりの中で平均を求めているので、より「平均性」が高い、と言えるでし
ょう。
Inp
L1
L2
L3
L4
L5
Row
Average Trim. ave.
Major ave.
d1
10
19
14
7
12
d1
12.400
12.133
12.222
d2
11
7
10
0
1
d2
5.800
6.267
6.000
d3
0
0
1
12
1
d3
2.800
1.489
1.889
d4
0
1
2
3
3
d4
1.800
1.933
1.889
次が大数平均値 (M.ave.)の算出式です。
L = Int(
𝑁+1
)
2
M = Int(
𝑁+2
2
)
𝑖+𝐿−1
M.ave. = [∑𝑀
𝑋(𝑗)] / (L * M)
𝑖=1 ∑𝑗=𝑖
ここで、L は過半数の幅、M は最後のデータセットの開始位置を示しま
す。
●歪度
平均値を中心にして、データの左右の偏りを計る指標として、「歪度」
（わいど） (skewness: Sk)が使われます（芝・渡部・石塚 1984: 282）。歪度
を算出するために、初めにデータを「標準得点」 (Standard score)に変換し
なければなりません（後述→「標準得点」）。標準得点はそれぞれの数値
から平均を引き、標準偏差で割った値です。歪度は、標準得点の 3 乗和を
データ数で割った値です。
Sk = Sum{E[(Dn – Ave(Dn)) / Sd(Dn), 3]} / Ctn(Dn)
ここで、 Sum(X n p )は行列 X np の成分の総和を示し、 E(X np , Y)は行列 X n p
の成分をそれぞれ Y 乗にした行列を示し、 Ave(Dn), Sd(Dn), Ctn(Dn)は、そ
れぞれ Dn の成分の平均、標準偏差、個数を示します。
データの標準測度は平均よりも大きければプラスになり、小さければマ
イナスになるので、その 3 乗もプラスとマイナスの符号は変わりません。
20
標準測度をそのまま使わずにそれを 3 乗にする理由は、標準測度の分子が
偏差（データ値 –平均）なので、そのまま総和を出すと、どのようなデータ
でもゼロになってしまうからです（後述→●「偏差の和はゼロ」）。
歪度は標準測度の 3 乗和の平均なので標準測度が正規化されていないた
め（ –1 ~ 1 の範囲にならない）、歪度も正規化されていないことを次のデ
ータで確認しておきましょう。
横軸平均値
歪度
A
L1 L2 L3 L4 L5
d1
10
19
14
7
12
d1
12.400
.367
d2
11
7
10
0
1
d2
5.800
-.192
d3
0
0
1
12
1
d3
2.800 1.465
d4
0
1
2
3
3
d4
1.800
縦軸
L1
L2
L3
L4
-.363
L5
平均値 5.250 6.750 6.750 5.500 4.250
歪度
.014
.775
.183
.263 1.049
●偏差の和はゼロ
偏差（データ –平均）の和 (SumDv)がゼロになることは感覚的に理解でき
ますが、数理で確認しておきましょう。
Ave(Dn) = Sum(Dn) / N
… Dn の平均 =Dn の和 / N
Dv = Dn – Ave(Dn)
…偏差ベクトル
Sum(Dv) = Sum[Dn – Ave(Dn)]
…偏差の和
= Sum(Dn) – N [Ave(Dn)]
…2 項の和を分離する
= Sum(Dn) – N [Sum(Dn) / N] …Ave(Dn)は Dn の平均
= Sum(Dn) – Sum(Dn) = 0
…2 項とも Dn の和
■言語データの L 字型分布
身長や学力などの「正規分布」とよばれる分布を示すデータの頻度とそ
の順位は下図（行：順位、列：頻度）のようになります。つまり、順位の
最下位と最上位の数は少なく、中央値が平均値にほぼ一致して高頻度とな
ります。一方、言語データ（文字、音韻、語彙、など）は、高順位のデー
タ（少数）の頻度がきわめて高く、低順位のデータ（多数）の頻度がきわ
めて低い、という特徴を示します。これは「L 字型分布」とよばれていま
す。以下で示すように、正規分布を示すデータと L 字型分布を示すデータ
は扱い方が異なります。
21
2.5. 最頻値
データの中で最も多く現れる数値は「最頻値」 (Mode)とよばれます。
横軸
最頻値
12
d1
No mode
No mode
0
1
d2
No mode
No mode
1
12
1
d3
No mode
No mode
2
3
3
d4
3
3: 2
D
L1 L2 L3 L4 L5
d1
10
19
14
7
d2
11
7
10
d3
0
0
d4
0
1
最頻値：頻度
このデータの d1 と d2 はどれも異なる数値なので最頻値がありません。
d3 は 0 と 1 がそれぞれ 2 回ずつ現れているので、最頻値が決定できません。
d4 では、 3 が 2 回現れているので、これが最頻値になります。
●大数最頻値
最頻値はそれぞれのデータが異なる数値を示しているときには役立ちま
せん。また、最頻値と 2, 3…番目に頻度が高い値が離れているときは、そ
の最頻値だけが「最頻性」を代表している、とは言えないでしょう。そこ
で数値が集中しているデータの探し方として、データの過半数ができるだ
け狭い範囲に集中しているデータセットの平均を、集中した数値として代
表させる方法を考えます。これを「大数最頻値」Majority mode とよぶこと
にします。ここで、「最も多く存在する同一の値」という「最頻値」とい
う概念を「最も多く存在する、近い値の中心」という概念に拡大します。
たとえば d1 = {10, 19, 14, 7, 12}をソートした {7, 10, 12, 14, 19}という行
について、次のように個数 =5 の過半数 3 個で一番小さい数値範囲のデータ
セット（下線）を探します。
1: {7, 10, 12, 14, 19} 範囲 : 12 – 7 = 5
2: {7, 10, 12, 14, 19} 範囲 : 14 – 10 = 4
3: {7, 10, 12, 14, 19} 範囲 : 19 – 12 = 7
22
ここで、2:の範囲 (14-10=4)が一番小さいので、このデータセットの 10, 12,
14 の平均 12 を大数最頻値とします。最小の範囲が複数あるときには、セ
ットの幅を 3, 4, 5 のように 1 つずつ増やして検索を続けます。極端な場合
として、 {3, 4, 5, 6, 7}のように連続するデータセットでは、どのような幅
のデータセットをとっても集約させることができません。そのときは最大
の幅としてデータの大きさ (5)を使うことになり、この場合は平均値と等し
くなります。
横軸大数最頻値大数最頻値：範囲
D
L1 L2 L3 L4 L5
d1
10
19
14
7
12
d1
12.000
10.000 - 14.000
d2
11
7
10
0
1
d2
9.333
7.000 - 11.000
d3
0
0
1
12
1
d3
.500
.000 - 1.000
d4
0
1
2
3
3
d4
2.667
2.000 - 3.000
2.6. 分散・標準偏差
分布の様子（散らばり方）を示す指標としての「分散」 (Variance: V)と
「標準偏差」 (Standard deviation: Sd)が使われます。分散 (V)はそれぞれのデ
ータ値 (Dn)から平均 (Ave)を引いた偏差の 2 乗和をデータの個数で割った
値です。標準偏差 (Sd)は分散の 2 乗根です。
Ave = Sum(Dn) / N
V = Sum(Dn – Ave) / N
Sd = V 1 /2
統計量
分散
a.効果がある b.楽しい
統計量
全体
分散
846.96
667.11
759.44
標準偏差
25.83
27.56
標準偏差
29.10
変動係数
0.37
0.59
変動係数
0.50
集中度
0.14
0.22
正規変動係数
0.13
拡散度
0.86
0.78
拡散度
0.87
●変動係数・正規変動係数・拡散度
標準偏差は個々のデータの規模（平均）が大きくなると、それに応じて
大きくなる性質があります。そこで、こうした規模の違いを超えて比較で
きるように標準偏差を平均で割った値が「変動係数」 (Coefficient of
variation: Cv)です 6 。標準偏差も平均もデータの規模を反映していますから、
標準偏差を平均で割った変動係数はデータの規模に左右されることなく、
6
芝他『統計用語辞典』（新曜社）
23
だいたいのばらつき具合がわかります。
次に、標準偏差を [0.0 ~ 1.0]の範囲をもつ値にしたものを「正規変動係数」
(Normal coeficient of variation: N.C.V.)とよぶことにします。標準変動係数
は標準偏差 (Sd.)をその最大値 Sd.max で割ることで求められます 7 。
N.C.V. = Sd. / Sd.max
先に見たように標準偏差 Sd.は次のように定義されています。
Sd = {[(x 1 –m) 2 + (x 2 – m) 2 + … + (x n – m) 2 ] / n} 1 /2
Sd = Sqr(V) = Sqr[Sum(Dn – Ave) / N]
ここで、たとえば {10, 0, 0, 0, 0}というような 1 つだけに数値があるデー
タを考えましょう。このようなときが変動係数が最大値になるときです。
ここで一般化して {K, 0, 0, …, 0}という N 個のデータを考えます。そうす
ると、上の式の分子の第 1 項だけが (K – Ave) 2 になり、残り N – 1 個はど
れも (0 – Ave) 2 = Av 2 になります。よって変動係数の最大値は、
Sd.max = {([(K – Ave) 2 + (N – 1)Av 2 ]} 1 /2
このとき K 以外にデータがないので K が総和になります。よって、
K = Sum(Dn) = N Ave
という関係がわかります。よって
Sd.max = {[(N Ave – Ave) 2 + Ave 2 (N – 1)] / N} 1 /2
= {[(Ave (N – 1)) 2 + Ave 2 (N – 1)] / N} 1 /2
= {[Ave 2 (N – 1) 2 + Ave 2 (N – 1)] / N} 1 /2
= {(Ave 2 (N – 1) [(N – 1) +1] / N} 1 /2
= {(Ave 2 (N – 1) N / N} 1 /2
= [(Ave 2 (N – 1)]
1 /2
= Ave (N – 1) 1 /2
よって、正規標準偏差 (N.S.D.)は、
N.C.V. = Sd. / Sd.max = Sd. / [Ave (N – 1) 1 /2 ]
正規変動係数 (N.C. V.)と変動係数 (C.V.)の違いは、正規標準偏差の分母に
(N – 1) 1 /2 を掛けていることです。データ行列は一般に N の数値が大きいの
で、正規標準偏差は小さくなります。そのような場合には正規標準偏差は
7
この正規化の方法は以下でもしばしば使います。
24
個体間の得点の変動ではなく、むしろ比較的少数の変数間の変動を見ると
きに使うべきです。
■語の使用度
A. Juilland and E. Chang and Rodríguez. Frequency dictionary of Spanish
words, (The Hague: Mouton, 1964)は 5 つの分野（演劇、小説、随筆、科学技
術文、報道文）の言語資料で使われるスペイン語単語の頻度辞典を作成し、
単語の「使用度」 (Usage: U)を示す数値として、
U =Fx D
という式を提案しました。ここで F は単語の頻度 (Frequency)を示し、 D は
分野間の「拡散度」 (Dispersion)を示します。つまり、単語の使用度を見る
ためには頻度 (F) だけでなく、各分野に均等に使用されている度合 ( 拡散
度： D)も勘案すべきだという考え方です。そして、次のような拡散度 (D)
の式が提示されました。
D = 1 – 標準偏差 / (2 x 平均値 )
分母にある 2 は (分野数 5 – 1) 1 /2 のことだと思います。よって次のような
関係になります。
拡散度 (D) = 1 – 正規変動係数 (N.C.V.)
2.7. 弁別度・対立度
たとえばある言語の古文献に i と j という文字が用いられ、どちらも
同じ条件で /i/ という音韻を示していたとします。それぞれの頻度 (F) が
F(i)=32 と F(j)=2 の間のように大きな差があれば、ほとんどのケースで j
が使われたことになるので、その弁別する力は強かったと判断できます。
一方、それが 32 と 28 のように僅差であれば、i ~ j はほとんど「自由変異」
(free variation)であった、つまり両者は弁別されていなかったと考えられま
す。そこで、「弁別度」 Distinction grade : Dg を次のように定義します。
Dg(i, j) = [F(i) – F(j)] / F(i)
ここで F(i)は i の頻度を示し、F(j)は j の頻度を示します。F(i)と F(j)が等
しいと弁別度はゼロになり、F(j)がゼロになると i の弁別度は 1 になります。
この弁別度はバリアントが 2 つの場合について計算しました。さらに i, j
だけでなく y が現れる文献では、次のように計算します。
Dg(i : j, y) = {F(i) – [F(j) + F(y)] } / F(i)
25
一般に Fn = F(1, 2, …, n)の中の F(1)の弁別度 Dg(1)は、
Dg(1) = {F(1) – [F(2) + F(3) + … F(n)] } / F(1)
= {F(1) – [Sum(Fn) – F(1)] } / F(1)
= [2 F(1) – Sum(Fn)] / F(1)
= 2 – Sum(Fn) / F(1)
F(1)を F(1, 2, …, n)の最大値 (Max(Fn))とすれば、
Dg(Max(Fn)) = 2 – Sum(Fn) / Max(Fn)
となります。この弁別度は、成分の最大値 F(1) = Max(Fn)が他の成分の和
( [F(2) + F(3) + … F(n)])よりも小さいとマイナスになり、その理論的最小値
が一定になりません。そこで、先の弁別度の分母を次のように対照型にし
て、新たに「対立度」 (Opposition grade: Og)を設定します。
Og(i, j) = [F(i) – F(j)] / [F(i) + F(j)]
= [F(i) – F(j)] / Sum(Fn)
一般に F(1, 2, …, n)の中の F(1)の対立度 (Og(1))は、
Og(1) = {F(1) – [F(2) + F(3) + … F(n)] } / {F(1) + [F(2) + F(3) + … F(n)] }
= {F(1) – [Sum(Fn) – F(1)] } / Sum(Fn)
= [2 F(1) – Sum(Fn)] / Sum(Fn)
= 2 F(1) / Sum(Fn) – 1
F(1)を F(1, 2, …, n)の最大値 Max(Fn)とすれば、
Og(Max(Fn)) = 2 Max(Fn) / Sum(Fn) – 1
となります。
一般に、成分の最大値が他の成分の和よりも大きいときには弁別度を使
用し、そうでないときは対立度を使用するとよいでしょう。
■ 16-17 世紀のスペイン語の u と v
従来の研究では 15-17 世紀スペインで発刊された書籍では u と v が弁別
せずに使われていた、と説明されています。次は 15-17 世紀にスペインで
発刊された 6 冊の本（初頭から 2 万字に限る）について、文字 u と v の頻
度と弁別度を計算したものです。
26
全体
1.Nb
2.Rj
3.Lz
4.Cv
5.Qv
6.Gc
Total
u
949
820
1.040
1250
1051
849
5959
v
165
139
191
194
209
402
1300
0.826
0.830
0.816
0.845
0.801
0.527
0.782
弁別度
このように全体を見るとたしかに比較的弁別度が低いことがわかります。
ところが、文字の現れる位置について、それぞれの弁別度を計算してみる
と、次のようになりました 8。
位置
1.Nb
2.Rj
3.Lz
4.Cv
5.Qv
6.Gc
Tot al
#_V
0.974
1.000
0.942
1.000
1.000
1.000
0.996
#_C
1.000
1.000
0.985
1.000
1.000
1.000
0.896
V_V
0.625
1.000
1.000
1.000
1.000
0.939
0.757
V_C
0.971
0.429
0.917
1.000
1.000
0.978
0.929
C_V
0.967
1.000
0.998
1.000
0.998
0.901
0.980
C_C
0.995
1.000
1.000
1.000
0.996
0.997
0.998
たしかに、複数の本を取り上げれば全体的に u-v の弁別がないように見
えます。しかし、それぞれの本の中では、下線のような弁別度が低い本も
ありますが、それを除けば文字の位置によって比較的統一されていたこと
がわかります。一般に、データの分布にさまざまな要因が隠れているにも
かかわらず、それを見ないで全体的な把握をすると、弁別や対立の真の姿
を見失うことがあります。
●検索
データ行列の特徴的な値を観察するために特定の条件に一致したセルの文
字色や背景色を変えます。たとえば、「 A 以上」という条件について「 A」
にあたる部分を「 A:」のコンボボックスから選択します。「平均」を選択
すると「平均以上」が条件になりまる。ここで「指定」を具体的な数値に
すると、その数値以上の値を持つセルを検索します。
データ
データ
v-1
v-2
v-3
v-4
v-5
d-1
10
40
70
50
20
d-2
20
40
60
50
20
d-3
100 400 700 500 200
8
ここでは最大値を示すバリアントの弁別値を計算したので、すべてプラ
スの値になりました。v が使われるほうがふつうの位置では、u の弁別値が
マイナスになります。
27
条件： A 以上、 A:平均
結果
データ
v-1
v-2
v-3
v-4
v-5
d-1
10
40
70
50
20
d-2
20
40
60
50
20
d-3
100 400 700 500 200
次は「文字色」と「背景色」を「不変」とし、「変換」の「一致」を「 v」、
「不一致」を空白とした場合の入力と出力です。
項目
a.役立つ b.楽しい
項目
a.役立つ b.楽しい
A.文法解説
86
29
A.文法解説
v
B.ビデオ
53
78
B.ビデオ
v
C.活動
48
53
C.活動
v
D.映画
43
96
D.映画
v
E.音読
110
42
E.音読
v
F.筆写
93
11
F.筆写
v
G.観察
37
50
G.観察
H.小テスト
89
15
H.小テスト
v
v
■異常値と欠測値
サンプルのデータ行列は小さなものですが、実際の言語データ分析では
行数も列数もかなり大きな行列を扱うことがあります。そのとき、それぞ
れのセルのデータは全体の中に紛れてしまい、貴重な情報が見失われます。
とくに「異常値」とよばれるデータに注目しなければなりません。そこ
に何か特別なことが生じているためです。一般にデータ分析では普通では
ないデータを異常値として退けるのではなく、むしろそのようなデータが
特別な「情報」をもっている、とも考えられます。逆に普通のことにはあ
まり情報がありません。そこで平均からの距離が大きな値や上位 N 番など
をマークして注目するのです。
データ行列の「欠測値」(missing value)も異常値の 1 つと考えられるでし
ょう。次のサンプルデータでは、10 点満点のテストで欠席のケース x でマ
ークしてありますが、「指定」「 N:x」でさらに背景色や文字色を変えてみ
ました。このようにデータを視覚化すると、欠測値を見失うことはありま
せん。欠測値については後述します。.
28
29
3. 変換
データ行列の成分全体を一定の規則で変換することがあります。変換す
るための規則にはデータ分析の目的によってさまざまなものがあります。
3.1. 得点
この節では、データを構成する個々のデータの「得点」(Score)に着目し、
データ内のそれぞれの値の特徴をデータ全体の中で観察します。以下で扱
う得点の中には「度数」という用語を使って「相対度数」「期待度数」の
ように一般によく使われるものもありますが、「加重得点」「限定得点」
「代表得点」「卓立得点」は一般に使われていません。「標準得点」は「標
準スコア」「標準測度」などとよばれますが、ここではデータの個々の数
値を変換した値を成分としてもつ行列をすべて「得点行列」という用語で
統一しました。
3.1.1. 修正得点
実測値に適当な数値を加減乗除したり、指数化したり、対数化したりす
ることがあります。とくに、言語数量データは指数関数のような頻度分布
を示すことが多いので、そのようなときは対数変換が有効です。このよう
に実測値に一定の修正を加えた得点を「修正得点」 (Modified Score: M.S.)
とよぶことにします。
下左図は実測値 Observed Score: O.S. 、下右図は実測値 .に 2 を加算した修
正得点行列です。
O.S. L1 L2 L3 L4 L5
w1
10
19
14
7
12
w2
11
7
10
0
1
w3
0
0
1
12
1
w4
0
1
2
3
3
M.S.Add L1 L2 L3 L4 L5
w1
w2
w3
w4
12 21 16 9 14
13
9 12 2
3
2
2
3 14 3
2
3
4
5
5
このように、データ行列 Dnp の個々の成分に一定の数値 (2)をスカラーと
して加える、という操作を行列演算式と行列関数で示すと次のようになり
ます。
D n p + 2 = R np , R n p = A(D n p , 2)
ここで、 Dnp が上左表 (O.S.)に対応し、 Rnp は上右表 (M.S.Add.)に対応し
ます。A は行列、ベクトル、数値の加算を示す行列関数です。この行列関
30
数は、この演算に必要な 2 つの引数 (argument)を受け取ると、その和とな
る 1 つの行列を返します (return)。このようなプログラムの作成法について
は、後述します。
下左図は実測値の対数（底 =2)を示す修正得点です。左図の #NUM!が示す
ように、ゼロ (0) の対数は定義されませんが、 NUMEROS では Log(0) が
Log(1)=0 よりも小さな数、という考え方で Log(0)=0 と定義してます。これ
は数学的には正しくありませんが、大きな数を含むデータ全体を見渡すと
きに、実測値 0 を外すわけにはいかない、という実際的な理由によるもの
です。
M.S.Log.
L1
L2
L3
L4
L5
M.S.Log.
L1
L2
L3
L4
L5
w1
3.32
4.25
3.81
2.81
3.58
w1
3.32
4.25
3.81
2.81
3.58
w2
3.46
2.81
3.32
#NUM!
.00
w2
3.46
2.81
3.32
.00
.00
w3
#NUM!
#NUM!
.00
3.58
.00
w3
.00
.00
.00
3.58
.00
w4
#NUM!
.00
1.00
1.58
1.58
w4
.00
.00
1.00
1.58
1.58
■語彙の文法カテゴリーと出現頻度
次はセルバンテス『ドン・キホーテ』(1605, 1615)の全出現語彙を文法カ
テゴリーと頻度のランクによって分類したものです。頻度のランクは出現
度数を対数に変換し、それに従って 1（最小頻度）から 10（最大頻度）に
分類しました（後述の「限定得点」による）。それぞれのセルには該当す
る異なり語数を示しています。
31
Grammatical category (Members) and Rank (1 – 10)
Category / Rank
Noun
1
2
3
4
5
6
7
8 9 10 Total
1656 973 579 349 171 70 10 2
4
Verb
631 399 271 183
93 41 16 9 2
Adjective
562 279 191 122
39 25
5 2
1
8 4
169
Adverb
55
36
20
17
18 11
Interjection
10
7
3
1
1
Numeral
7
8
8
8
Demonstrative pronoun
1
2
Indefinite pronoun
2
2
1
Interrogative
1
2
22
1
3
1
36
1
1
1
6
8
3
16
2
1
2
2
1
1
1
3
2
2 2
1
4
4
1 3 2
3
21
11 10
5 4 3
2
39
1
4 3
2
13
Unstressed personal pronoun
3
7
Relative
1
3
Personal pronoun tonic
1
Preposition
3
Determinant
Conjunction
4
1
1
1
8
12
3
13
1
5
語彙は冠詞や前置詞・接続詞などの「機能語」（一般に高頻度で小数メ
ンバー）と、名詞、形容詞、動詞などの「内容語」（一般に低頻度で多数
メンバー）に分類されます。しかし、上の表を見ると、機能語であっても
比較的低頻度の語があり、また、内容語であっても比較的頻度が高い語が
あります。そこで、二分される文法カテゴリーと段階的な頻度について、
次のような 4 分割をしてみました。
Lexicon type / Frequency
High Frequency
Low Frequency
Function Words
Grammatical Words Instrumental Words
Content Words
Common Words
Specific Words
一般に、高頻度語は短縮しやすく、また、高頻度の不規則変化形が保持
されやすい、と言われます。しかし、短縮化と語形の保持というのでは、
一見、反対方向の変化のように思われます。そこで、それぞれのメンバー
を調べると、傾向として、語彙の短縮化はむしろ高頻度の機能語
（ Grammatical Words：強勢アクセントがないため弱化）で起こりやすく、
一方、不規則変化の保持は高頻度の内容語（ Common Words：強勢がある
ので弱化しない）の特徴だということがわかりました。そこで、言語変化
の直接的な要因として頻度を考えるのではなく、むしろ、語の機能の違い
が、語彙の頻度や語形の（不）変化を引き起こしている、と考えたほうが
よいと思います。
32
3.1.2. 相対得点
先に見た実測値の問題点は、行と列ごとにスケールが異なるため、比較
が難しいということです。たとえば、w1 の 11 と w4 の 10 をそのまま比較
することができません。それぞれの和と平均が異なるからです。そこで有
効になるのが「相対得点」 (Relative Score: R.S.)（割合）です。それぞれの
得点 x を和 Sm で割ることで算出できます。 x = 0 のとき R.S.の最小値は 0
で、 x = Sm のとき最大値 1 になります 9 。
R.S. = x / Sm
R.S.: [0.0 (x = 0) ≦ 0.5 (x = Sm/2) ≦ 1.0 (x = Sm)]
データを相対化することによって、さまざまな性格をもつデータを一定
の範囲で比較することが可能になります。
はじめに Excel 関数 SUM を使って、行和 (Sm.r)、列和 (Sm.c)、総和 (Sm.a)
を用意します。
実測値
L1
L2
L3
L4
行和
L5
w1
10
19
14
7
12
62
w2
11
7
10
0
1
29
w3
0
0
1
12
1
14
w4
0
1
2
3
3
9
列和
21
27
27
22
17
114
(1) 行と列の相対得点
R.F.r.
L1
L2
L3
L4
L5
R.F.c
L1
L2
L3
L4
L5
w1
.16 .31 .23 .11 .19
w1
.48 .70 .52 .32 .71
w2
.38 .24 .34 .00 .03
w2
.52 .26 .37 .00 .06
w3
.00 .00 .07 .86 .07
w3
.00 .00 .04 .55 .06
w4
.00 .11 .22 .33 .33
w4
.00 .04 .07 .14 .18
相対得点は行についても (Relative Score in row: R.S.r.)、列についても
(Relative Score in column: R.S.c.)、それぞれ計算することができます。
行相対得点 (R.S.r.) = x / Sm.r
列相対得点 (R.S.c.) = x / Sm.c
ここで、 x はそれぞれのセルの値です。 Sm.r が行 (row)の和（行和）を示
し、Sm.c は列 (column)の和（列和）を示します。たとえば、相対得点（行）
9
この数値に 100 を掛けた値が「百分率」 (percent)です。
33
の w3 では x = 11 なので、それを Sm.r (= 29)で割ると 11
/
29
=
0.38
になります。
◆ Excel ではすべて参照を使います。相対得点（行）では、 = B18 / $G18 の
ように分母の列文字（ここでは G）を絶対参照します。分子は列も行も相
対参照します。それを全範囲にコピーします。次がその結果です。同様に
して相対得点（縦列）を作成します。このとき、分母 Sm.c.は最下行の和
のセルを参照します。相対得点（列）では、 = B18 / B$22 のように、分母
の行番号を絶対参照します。
(2) 行列と全体の相対得点
R.F.b
L1
L2
L3
L4
L5
R.F.a.
L1
L2
L3
L4
L5
w1
.24 .43 .31 .17 .30
w1
.09 .17 .12 .06 .11
w2
.44 .25 .36 .00 .04
w2
.10 .06 .09 .00 .01
w3
.00 .00 .05 .67 .06
w3
.00 .00 .01 .11 .01
w4
.00 .06 .11 .19 .23
w4
.00 .01 .02 .03 .03
行と列を総合した「行列相対得点」Relative Score in matrix: R.S.m. を次の
ように定義します。
R.S.m. = 2 Xnp / [NumR(Xnp) + NumC(Xnp)]
ここで行の相対得点と列の相対得点の「分数平均」 (→「統計量」「平均
値」）を使うことにします。つまり、行の相対得点 Xnp/ NumR(Xnp)と列
の相対得点 NumC(Xnp)のそれぞれの分子を足したものを分子とし（ここで
は分子は同じなので、それぞれもセルの値を 2 倍します）、それぞれの分
母を足したものを分母としたものです。たとえば w1:L1 の分数平均は行の
平均が 10/62、列の平均が 10/21 なので、 (10 + 10) / (62 + 21) = 0.24 になり
ます。◆ Excel では =2*B4/($G4+B$8)のように、それぞれの行和、列和を複
合参照し、分子を相対参照します。
「全体相対得点」 Relative Score in all: R.S.a. は、それぞれのセルの値を
全範囲の和 Sm.a で割ったものです。上右図のように数値が非常に小さく
なる傾向があります。◆ Excel では = B18 / $G$22 のように、分母を絶対参
照にして動かしません。
R.S.a. = x / Sm.a.
割合や百分率などの相対得点 (R.S.)の問題点は、データの規模が大きくな
ると分母が大きくなるので、 R.S.が小さな数値になりやすいことです。と
くに全体相対得点 (R.S.a.)が小さな数値になる傾向があります。
34
●相対値と対照値
数値 X と数値 Y を比較するには、「差」 (X – Y)と「比」 (X / Y)が使え
ます。さらに、 X / (X + Y), Y / (X + Y)という式も考えられます。これは、
分子の X や Y を全体 (X + Y)の中で相対化しています。これを「相対値」
(Relative value: R.v.)とよぶことにします。
相対値 (R.v.) = X / (X + Y)
相対値は [0.0 ~ 1.0]の範囲を持ちます。最小値 (0.0)は X = 0 のとき、最大
値 (1.0)は Y = 0 のときに発生します (X / X = 1)。中間値は X = Y のときに発
生します (X / (2 X) = 1/2)。
また、 (X – Y) / (X + Y)という計算もよく使われます。これを「対照値」
(Contrastive value: C.v.)とよぶことにします。
対照値 (C.v.) = (X – Y) / (X + Y)
次が先に扱ったデータの行相対得点 (R.F.r)を対照値 (R.F.r.+c)に変換した
結果です。ここで Y は横和から X の値を引いた値になります。
R.F.r. L1
w1
w2
w3
w4
.16
.38
.00
.00
L2
L3
L4
L5
R.F.r.+c
L1
L2
.31
.24
.00
.11
.23
.34
.07
.22
.11
.00
.86
.33
.19
.03
.07
.33
w1
w2
w3
w4
-0.68
-0.24
-1.00
-1.00
-0.39
-0.52
-1.00
-0.78
L3
L4
L5
-0.55 -0.77 -0.61
-0.31 -1.00 -0.93
-0.86 0.71 -0.86
-0.56 -0.33 -0.33
対照値の範囲は [-1.0 ~ 1.0]になります。0.0 を中心にして、正負が対照的
になります。最小値 (-1.0)は X = 0 のとき、そして最大値 (1.0)は Y = 0 のと
きに発生します。中間値は 0.0 ですが、やはり X = Y のときに発生します。
このように、対照値の最大値と最小値はそれぞれ「割合」と同じ条件で発
生しますが、その範囲が異なります。
相対値と対照値は次の関係があります。
相対値 ×2 – 1 ＝
対照値
2 [X / (X + Y)] – 1
= 2X / (X + Y) – 1
= [2X – (X + Y)] / (X + Y)
= (X – Y) / (X + Y)
この 2 つの値は便利なモデルなので、あえて「相対値」と「対照値」と
いう名前をつけておくことを提案しました。相対値は一般に「割合」(ratio)
ともよばれていますが、割合は「X / 全体」という式で示されます。ここ
35
で「相対値」とよぶ概念は本質的には割合と同じですが、分母の中を X と
Y, つまり、比較するものと比較されるものを分けて考えます。そのよう
に見ると、以下で扱うように、いろいろなことがわかるからです。割合で
は隠れて見えなかったことが、相対値にすると、自己を含めた全体と比べ
る、ということからわかることがあるからです。
一方、対照値は「自己と他者の差」 (X−Y)と「自己と他者の和」 (X+Y)
を比べるわけですから、それにどのような意味があるのか、一見しただけ
ではよくわかりません。そこで、相対値が数値をポジティブに評価するた
めのもの、対照値が数値をポジティブにもネガティブにも評価するための
もの、と考えます。対照値を直感的に納得するには、次のように式を変形
するとよいでしょう。
(X – Y) / (X + Y) = X / (X + Y) − Y / (X + Y)
つまり、対照値は X の相対得点と Y の相対得点の差を求めたことになり
ます。よって X と Y を対照的に評価することになります。
●卓立化
[1] 行と列の卓立化
「自分（セル）が他のメンバー（セル）たちと違う」ことを示す「卓立
得点」 Prominent score: P.S.という数値を提案します。ここでは 1 つのセル
の値 (x)、たとえば w1:L1=10 を取り出して説明しましょう 10 。
実測値
L1 L2 L3 L4 L5 和 Sm.r. 個数 Cn.r
w1
10
19
14
7
12
62
5
w2
11
7
10
0
1
29
5
w3
0
0
1
12
1
14
5
w4
0
1
2
3
3
9
5
和 Smc.
21
27
27
22
17
114
個数 Cn.c.
4
4
4
4
4
20
ここで、 x の実測値 (=10)を、横行の他の値全体の和 (Sm.r. – x = 62 - 10 =
52)と比較します。このとき、そのまま比較するのではなく、 X に行数 (p) 1 = 5 - 1 = 4 を掛けた値 (Cn.r. – 1) X と Sm.r. – X を比較します。これは X (1
個 )の大きさを、他のセル全部 (p - 1 個 )と比べると不利になるからです。そ
こで、セルの数を同じと見なしたときの X の値 (Cn.r. – 1) X を考えます。
(Cn.r. - 1) X を (Sm.r. – X)と相対化した値は (Cn.r – 1) X / [(Cn.r. – 1) X +
10
ここで扱う式は少し複雑なので、これまでのように Sm.r., Sm.c., Sm.a.,
Cn.r., Cn.c., Cn.a. ではなく、それぞれ s, t, N, p, n, pn を使います。
36
(Sm.r. – X)]です。これを行の「卓立相対得点」 (Prominent Relative Score in
row: P.R.S.r.)とします。卓立係数 (P.S.)は相対値 X / (X + Y)なので、 [0.0 ~
1.0]の範囲になります。
P.R.S.r. = (Cn.r. – 1) X / [(Cn.r. – 1) X + (Sm.r. – X)]
= (Cn.r. – 1) X / [(Cn.r. – 2) X + Sm.r.]
ここで、 P.S.は X と X 以外のメンバーの平均 (s – X) / (p – 1)を要素とす
る相対値 X / (X + Y)になっていることがわかります。そこで、最小値 (0.0)
は X = 0 のときなので x = 0 のときになります。最大値 (1.0)は Y = 0 のとき
なので s－ x = 0 のときです。そして、中間値 (0.5)は X = Y のときですから、
(p – 1)X = (p – 1) (s – X) / (p – 1)、よって X = (s – X) / (p – 1)のときです。
これは、 X が他のメンバー (s – X)の平均 (s – X) / (p – 1)のときです。つま
り、 P.S.は自身と他のメンバーの平均を比べた値です。それよりも小さけ
れば 0.5 以下になり、大きければ 0.5 以上になります。
P.S.: 0.0 (X = 0) ≦ 0.5 [(Cn – 1) X = (Sm – X)] ≦ 1.0 (X = Sm)
セルの数が多くなると、相対得点 (R.S.)は小さくなりがちですが、卓立得
点 (P.S.)ではセルの数 (Cn)の大小にあまり左右されない数値が得られます。
これは P.S.の式の分子にも分母にも Cn X があるためです。
同様に、行と列のそれぞれの卓立得点（ P.S.r.; P.S.c.）は
P.S.r.
= (Cn.r. – 1) X / [(Cn.r. – 2) X + Sm.r.]
P.S.c.
= (Cn.c. – 1) X / [(Cn.c. – 2) X + Sm.c.]
P.R.F.r.p
L1
L2
L3
L4
L5
w1
0.43
0.64
0.54
0.34
0.49
w2
0.71
0.56
0.68
0.00
w3
0.00
0.00
0.24
w4
0.00
0.33
0.53
P.R.F.c.
L1
L2
L3
L4
L5
w1
0.73
0.88
0.76
0.58
0.88
0.13
w2
0.77
0.51
0.64
0.00
0.16
0.96
0.24
w3
0.00
0.00
0.10
0.78
0.16
0.67
0.67
w4
0.00
0.10
0.19
0.32
0.39
[2] 行列と全体の卓立化
行と列の卓立得点の分数平均を求め、これを「卓立得点」
（両軸 : Prominent
score in matrix: P.S.M.と定義します。
P.R.S.m.
= [(Cn.r. – 1) X + (Cn.c. – 1) X]
/ {[(Cn.r. – 2) X + Sm.r.] + [(Cn.c. – 2) X + Sm.c.]}
= (Cn.r. + Cn.c. – 2) X / [(Cn.r. + Cn.c. – 4) X + Sm.r + Sm.c]
全体の卓立得点 Prominent Score in all: P.S.a は X を行列全体のその他のメ
37
ンバーと比較します。そのとき、X には行列全体の個数 Cn.a. – 1 を加重し
て不利にならないようにします。
P.S.a. = [Cn.a – 1) X / [(Cn.a. – 2) X + Sm.a.]
P.R.F.m.
L1
L2
L3
L4
L5
P.R.F.a.
L1
L2
L3
L4
L5
w1
0.53 0.72 0.62 0.41 0.60
w1
0.65 0.79 0.73 0.55 0.69
w2
0.73 0.54 0.66 0.00 0.14
w2
0.67 0.55 0.65 0.00 0.14
w3
0.00 0.00 0.15 0.88 0.19
w3
0.00 0.00 0.14 0.69 0.14
w4
0.00 0.17 0.30 0.46 0.51
w4
0.00 0.14 0.25 0.34 0.34
■相対頻度とパーミル比
次は中世スペイン語 (公証文書 )の鼻音と流音の 2 重文字を有する語の頻
度の実測値 (O.)です。
O.
1260
1280
1300
1320
1340
1360
1380
1400
1420
1440
1460
1480
1500
nn
550
66
143
57
1
2
2
4
4
1
0
2
30
ll
2310
1166
4524
1354
243
367
325
571
902
217
439
589
776
rr
625
327
1563
846
109
309
283
533
290
181
152
249
273
この 3 者 nn, ll, rr)だけを比較した列相対得点は次のようになります。
R..
1260
1280
1300
1320
1340
1360
1380
1400
1420
1440
1460
1480
1500
nn
0.158
0.042
0.023
0.025
0.003
0.003
0.003
0.004
0.003
0.003
0.000
0.002
0.028
ll
0.663
0.748
0.726
0.600
0.688
0.541
0.533
0.515
0.754
0.544
0.743
0.701
0.719
rr
0.179
0.210
0.251
0.375
0.309
0.456
0.464
0.481
0.242
0.454
0.257
0.296
0.253
次は年代ごとのすべての文書の総語数 (W.)を示します。
W
1260
1280
1300
1320
1340
1360
1380
1400
1420
1440
1460
1480
1500
&
62549
29396
114499
44040
6000
11732
10506
19276
27990
8131
15952
20792
27048
先の実測値 (O.)を総語数 (W.)で割り、 1000 を掛けるとと次のパーミル比
が得られます (M.)。この計算では本節の行列演算 (行列 (O.)のベクトル (W.)
による除算と、行列 (O./W.)の数値 1000 による積算 )を使いました。
M n p = O np * 1000 / Wp
M.
1260
1280
1300
1320
1340
1360
1380
1400
1420
1440
1460
1480
1500
nn
9
2
1
1
0
0
0
0
0
0
0
0
1
ll
37
40
40
31
41
31
31
30
32
27
28
28
29
srr
10
11
14
19
18
26
27
28
10
22
10
12
10
38
相対得点 (R.)では比較する相手が自分を除いた 2 者に限られますが、全
数を母数とするパーミル比 (M.)を使うと、全体の語数 (W.)の中でそれぞれ
の 2 重文字語の趨勢を見ることができます。 14 世紀に
nn
が急減したのは、
これが n の上に省略記号の～を付けた形に変わったためです。これがスペ
イン語特有の文字エニェ (ñ)の起源になりました。
■中世・近代スペイン語の前置詞
次は中世・近代スペイン語で起きた前置詞の形態変化 pora > para(「～の
ために」という意味：英語 for)を示す相対頻度と対照頻度の比較です。相
対頻度を使うと、それぞれの形に注目して変化を観察することができ、対
照頻度を使うと、両者を同時に対照させて変化を観察することができます。
相対頻度 : Pora
相対頻度 : Para
39
対照頻度 : Pora - Para
3.1.3. 加重得点
絶対頻度と相対頻度はそれぞれの特徴があるので、データを観察すると
きに併用されることがあります。それぞれの頻度を比較するときは、分母
を等しくするために相対頻度が使われます。そのとき、分母の規模が極端
に異なるとき比較が困難になることがあります。その 1 つの解決法を提案
します。
(1) 行と列の加重得点行列
たとえば、w1L2 の 19 は横和が 62 ですから、この相対得点は 19/62 = .31
になります。一方、w4L4 の 3 の相対得点は 3/9 = .33 になり、w1L2 よりも
大きな値になります。しかし、私たちの直感では前者の 19 のほうが後者の
3 よりも「重い」値だと感じられます。
実測値
L1
L2
L3
L4
行和
L5
w1
10
19
14
7
12
62
w2
11
7
10
0
1
29
w3
0
0
1
12
1
14
w4
0
1
2
3
3
9
列和
21
27
27
22
17
114
このように実測値の得点を比較するとき、その実測値 (O.S.)と相対得点
(R.S.)の積にすると、実態を表す数値として直感的に納得がいくことがあり
ます。実測値に相対得点という重みを与えたからです。たとえば、上表の
w1L1 の 10 には 10/62 という重みを与え、 w2L3 の 10 には 10/29 という重
みを与えます。そこで「加重得点」W.S.: Weighted Score として次の式を提
案します。加重得点は X=0 のときに最小値ゼロになり、X = 和 (Sm)のとき、
つまりデータの中に X 以外の数値がないときに最大値 X になります。
W.S. = O.S.×R.S. = X X / Sm = X 2 / Sm
W.S.: 0.0 (X=0) ≦ 0.5 (x 2 = Sm / 2) ≦ X (X = Sm)
次が行 (W.S.r.)、列 (W.S.c.)の加重得点です。
W.S.r.
L1
L2
L3
L4
L5
W.S.c.
L1
L2
L3
L4
L5
w1
1.61 5.82 3.16
0.79 2.32
w1
4.76 13.37 7.26 2.23 8.47
w2
4.17 1.69 3.45
0.00 0.03
w2
5.76
1.81 3.70 0.00 0.06
w3
0.00 0.00 0.07 10.29 0.07
w3
0.00
0.00 0.04 6.55 0.06
w4
0.00 0.11 0.44
w4
0.00
0.04 0.15 0.41 0.53
1.00 1.00
40
(2) 行列と全体の加重得点行列
W.S.m.
L1
L2
L3
L4
L5
W.S.a
L1
L2
L3
L4
L5
w1
2.41 8.11 4.40 1.17 3.65
w1
0.88 3.17 1.72 0.43 1.26
w2
4.84 1.75 3.57 0.00 0.04
w2
1.06 0.43 0.88 0.00 0.01
w3
0.00 0.00 0.05 8.00 0.06
w3
0.00 0.00 0.01 1.26 0.01
w4
0.00 0.06 0.22 0.58 0.69
w4
0.00 0.01 0.04 0.08 0.08
行列加重得点 (Weighted Score in matriX: W.S.m.)の式は行の加重得点と列
の加重得点の分数平均です。
W.S.m. = (X 2 + X 2 ) / (Sm.r + Sm.c.) = 2 X 2 / (Sm.r + Sm.c.)
全体加重得点 (Weighted Score in all: W.S.a.)を求めるには、分母に全体の
得点 (Sm.a.)を使います。表全体の総和 (N)で相対化されるために全体的に数
値低くなる傾向があります。
W.S.m. = X 2 / Sm.a.
■打率と安打数
たとえば、シーズンを通して 10 打数 3 安打という成績の野球選手と 100
打数 25 安打の選手の成績を比べるとき、打率だけを見ると 0.3 と 0.25 に
なり、前者のほうが優秀ということになります。しかし、安打数で比べる
ならば後者のほうが優秀です。これを加重得点で比べるならば、0.9 と 6.25
という数値になり、後者のほうが前者の 7 倍 (6.944)近い成績になります。
このように数値の評価をするときは、実測値や相対得点よりも加重得点の
ほうが直感に合う数値だと思います。
3.1.4. 限定得点
実測値の最小値を 0 とし、最大値を 1 として、範囲を [0.0 ~ 1.0]に限定し
て計算した値を「限定得点」 (Limited Score: L.S.)とよぶことにします。次
のように行、列、全体の、最小値と最大値を使います。
実測値 L1 L2 L3 L4 L5 最小値最大値
w1
10
19
14
7
12
7
19
w2
11
7
10
0
1
0
11
w3
0
0
1
12
1
0
12
w4
0
1
2
3
3
0
3
最小値
0
0
1
0
1
0
最大値
11
19
14
12
12
19
41
L.S. = (X – Min) / (Max - Min)
L.S.: 0.0 (X = Min) ≦ 0.5 (X = (Max - Min) / 2) ≦ 1.0 (X = MaX)
ここで Min がデータの最小値、 MaX がその最大値を示します。 X = Min
のとき、 L.S.は最小値 0.0 になり、 X = Max のとき、 L.S.は最大値 1.0 にな
ります。中点 (0.5)は X が Max と Min の中間にあるときです。
(1) 行と列の限定得点
L.S.r.
L1
L2
L3
L4
L5
L.S.c.
L1
L2
L3
L4
L5
w1
0.25 1.00 0.58 0.00 0.42
w1
0.91 1.00 1.00 0.58 1.00
w2
1.00 0.64 0.91 0.00 0.09
w2
1.00 0.37 0.69 0.00 0.00
w3
0.00 0.00 0.08 1.00 0.08
w3
0.00 0.00 0.00 1.00 0.00
w4
0.00 0.33 0.67 1.00 1.00
w4
0.00 0.05 0.08 0.25 0.18
行の限定得点 (L.S.r.)は次のようになります。
L.S.r. = (X – Min.r.) / (Max.r. – Min.r.)
ここで Min.r.は行の最小値を示し、 Max.r.は行の最大値を示します。
同様にして、次は列の限定得点 (L.S.c.)です。
L.S.c. = (X – Min.c.) / (Max.c. – Min.c.)
(2) 行列全体の限定得点
L.S.m.
L1
L2
L3
L4
L5
L.S.a.
L1
L2
L3
L4
L5
w1
0.57 1.00 0.80 0.29 0.70
w1
0.53 1.00 0.74 0.37 0.63
w2
1.00 0.47 0.79 0.00 0.05
w2
0.58 0.37 0.53 0.00 0.05
w3
0.00 0.00 0.04 1.00 0.04
w3
0.00 0.00 0.05 0.63 0.05
w4
0.00 0.09 0.19 0.40 0.36
w4
0.00 0.05 0.11 0.16 0.16
行の限定得点と列の限定得点の分数平均を「行列限定得点」Limited Score
in matriX: L.S.m.とします。
L.S.m. = [(X – Min.r.) + (X – Min.c.)] / [(Max .r. – Min.r.) + (Max.c. – Min.c.)]
= (2X – Min.r. – Min.c.) / (Max.r.+ Max.c – Min.r. – Min.c.)
「全体限定得点」 (Limited Score in all: L.S.a.)は行列全体の最小値 Min.a.
と最大値 Max.a.を使います。
L.S.a. = (X – Min.a.) / (Max.a. – Min.a.)
42
3.1.5. 比較得点
個々のセルの値（実測値）を平均値、中央値、中間値、最小値、最大値
というデータの「代表値」と比較したものを「比較得点」Comparative Score:
C.S. とよび、それぞれを「平均値比較得点」 Comparative Score. Average:
C.S.Ave., 「中央値比較得点」 Comparative Score. M edian: C.S.Med.,「中間
値比較得点」 Comparative Score. Mid: C.S.Mid, 「最小値比較得点」
(Comparative Sco re. Minimum: C.S.Min.), 「最大値比較得点」 Comparative
Score. Maximum: C.S.Max.)とよぶことにします。比較の仕方として「差」
Difference: D.、「比」 Ratio:R.、「差比」 Difference ratio:Dr. を考えます。
(1) 平均値比較得点
「平均値差比較得点」 (Comparative Score. Average Difference: C.S.Av. D.)
は、それぞれのセルの値 (x)の、平均値からの差を示します 11 。これは x が
ゼロのとき最小値の -Av となり、 x が和 (Sm)と同じとき、つまり、データ
の中で x 以外はすべてゼロのとき、最大値が Sm - Av = AvCn – Av = (Cn – 1)
Av になります（ Cn はデータ数）。0.0 は中点ではありませんが、中点と同
様に重要な「参照値」（ = 平均 Av）です。参照値というのは、これを境
に数値の方向が異なる、ということです。
C.S.Av.D.r.
L1
L2
L3
L4
L5
C.S.Av.D.c.
L1
L2
L3
L4
L5
w1
-2.40
6.60
1.60
-5.40
-0.40
w1
4.75
12.25
7.25
1.50
7.75
w2
5.20
1.20
4.20
-5.80
-4.80
w2
5.75
0.25
3.25
-5.50
-3.25
w3
-2.80
-2.80
-1.80
9.20
-1.80
w3
-5.25
-6.75
-5.75
6.50
-3.25
w4
-1.80
-0.80
0.20
1.20
1.20
w4
-5.25
-5.75
-4.75
-2.50
-1.25
C.S.Av.D. = x – Av
C.S.Av.D.: – Av (x = 0) ≦ 0.0 (x = Av) ≦ Sm – Av (x = Sm)
「列平均値差比較得点」 (Comparative Score, Average Difference in matrix:
C.S.Av.D.m.)は行と列の 2 つの平均値差得点の算術平均とします 12 。平均値
差 (全体： D.A.S. in all: D.A.S.a.)では行列全体の平均 (Av.a.)を使います。
C.S.Av.D.m. = [(D.A.S.r.) + (D.A.S.c.)] / 2
C.S.Av.D.a. = x – Av.a.
11
「平均値差」は「偏差」 (deviation)とよばれています。
ここで分数平均を使わない理由は、比較得点が相対値 X/(X+Y)でないか
らです。
12
43
C.S.Av.D.m.
L1
L2
L3
L4
L5
C.S.Av.D.a.
L1
L2
L3
L4
L5
w1
1.18
9.43
4.43
-1.95
3.68
w1
4.30
13.30
8.30
1.30
6.30
w2
5.48
0.73
3.73
-5.65
-4.03
w2
5.30
1.30
4.30
-5.70
-4.70
w3
-4.03
-4.78
-3.78
7.85
-2.53
w3
-5.70
-5.70
-4.70
6.30
-4.70
w4
-3.53
-3.28
-2.28
-0.65
-0.03
w4
-5.70
-4.70
-3.70
-2.70
-2.70
「平均値比比較得点」 (Comparative Score, Average Ratio: C.S.Av. R.)は実
測値を平均値で割った値（比）です。それぞれ行、列、全体の平均値比を
見ます。x = 0 のときに最小値 0.0 になり、x = 和 (Sm) のとき、和 (Sm) / 平
均 (Av) = 個数 (Cn)になります 13 。中点の 1.0 は x = Av のときです。
C.S.Av.R. = x / Av
C.S.Av.R.: 0.0 (x = 0) ≦ 1.0 (x = Av) ≦ Cn (x = Sm)
C .S. A v.R .r.
L1
L2
L3
L4
L5
C .S.A v.R . c.
L1
L2
L3
L4
L5
w1
0.81
1.53
1.13
0.56
0.97
w1
1.90
2.81
2.07
1.27
2.82
w2
1.90
1.21
1.72
0.00
0.17
w2
2.10
1.04
1.48
0.00
0.24
w3
0.00
0.00
0.36
4.29
0.36
w3
0.00
0.00
0.15
2.18
0.24
w4
0.00
0.56
1.11
1.67
1.67
w4
0.00
0.15
0.30
0.55
0.71
「行列比較平均値比得点」 (Comparative Score, Averag e Ratio in matrix:
C.S.Av.R.m.)は、「行比較平均値比得点」と「列比較平均値比得点」の分
数平均とします。「全体平均値比得点」(Comparative Score, Average Ratio in
all: C.S.Av.R.a.)は全体の平均値 (Av.a.)を使います。
C.S.Av.R.m. = 2 x / (Av.r. + Av.c.)
C.S.Av.R.a.. = x / Av.a.
C.S.Av.R.m.
L1
L2
L3
L4
L5
C.S.Av.R.a.
L1
L2
L3
L4
L5
w1
1.13
1.98
1.46
0.78
1.44
w1
1.75
3.33
2.46
1.23
2.11
w2
1.99
1.12
1.59
0.00
0.20
w2
1.93
1.23
1.75
0.00
0.18
w3
0.00
0.00
0.21
2.89
0.28
w3
0.00
0.00
0.18
2.11
0.18
w4
0.00
0.23
0.47
0.82
0.99
w4
0.00
0.18
0.35
0.53
0.53
「平均値差得点」はデータのスケールによって左右されるで、平均差得点
を平均値で割ってデータのスケールに合わせます（完全な正規化ではあり
ません）。これを「平均値差比得点」(Comparative Score. Average Difference
Ratio: C.S.Av.Dr.)と名づけることにします。 0.0 は参照値 (x = Av)です。
13
そこで、(R.A.S.) / Cn という数値で標準化させれば [0.0 ~ 1.0]のスケール
になりますが、これは (R.A.S.) / Cn = x / (Av Cn) = x / Sm になるので、相対
得点 (r.s)、つまり「割合」 [0.0 ~ 1.0]になります。
44
C.S.Av.Dr. = (d.a.s) / Av = (x. － Av) / Av
C.S.Av.Dr.: -1 (x=0) ≦ 0.0 (x = Av) ≦ Sm – Av) / Av (x=Sm)
C.S.Av.Dr.r.
L1
L2
L3
L4
L5
C.S.Av.Dr.c.
L1
L2
L3
L4
L5
w1
- .19
.53
.13
- .44
- .03
w1
.90
1.81
1.07
.27
1.82
w2
.90
.21
.72
- 1.00
- .83
w2
1.10
.04
.48
- 1.00
- .76
w3
- 1.00
- 1.00
- .64
3.29
- .64
w3
- 1.00
- 1.00
- .85
1.18
- .76
w4
- 1.00
- .44
.11
.67
.67
w4
- 1.00
- .85
- .70
- .45
- .29
L2
L3
L4
L5
L2
L3
L4
L5
C.S.Av.Dr.m.
L1
C.S.Av.Dr.a.
L1
w1
.13
.98
.46
- .22
.44
w1
.75
2.33
1.46
.23
1.11
w2
.99
.12
.59
- 1.00
- .80
w2
.93
.23
.75
- 1.00
- .82
w3
- 1.00
- 1.00
- .79
1.89
- .72
w3
- 1.00
- 1.00
- .82
1.11
- .82
w4
- 1.00
- .77
- .53
- .18
- .01
w4
- 1.00
- .82
- .65
- .47
- .47
差ではプラスとマイナスの値で実測値と期待値が比較されますが、比では、
実測値も期待値もプラスなので、すべてプラスの数値になり、実測値から
の（プラスとマイナスの）差がわかりません。
●差・比・差比
比較に用いるときの差の欠点は、実測値と比較値の差が絶対化されている
ことです。そこで、比を用いることよって、それぞれのケースの数値のス
ケール（相対的な大きさ）に合わせて、全体を見回した比較ができるよう
になります。しかし、比には相手との差がどの程度あるのか不明です。そ
こで、差（のスケール）を比較する相手（のスケール）で割れば、絶対的
な数値ではなく、その数値のスケールに合った差の相対的な数値が得られ
ます。それが「差比」 (Difference ratio)です 14 。差比は差と比を総合した値
です。プラスとマイナスの符号は差の場合と同じです。差比差は実測値と
比較値が同じになったときはゼロになります。
●差比の平均と「複合平均」
分子に比較項との差をとり、この差と比較項の比を求める「差比」の両
軸の計算をするために、はじめに、先に見た「差の平均」（算術平均 :
Arithmetic average: A.A.）を求めます。
A.A.= [(x –Av.r.) + (x – Av.c.)] / 2
14
東京大学教養学部統計学教室 (1991:247)は「差比」を「相対誤差」とよ
んでいます。
45
次にこれを分子として Av.r.との比の平均（分数平均 : F.A.）を求めます。
(A.A + A.A.) / (Av.r. + Av.c.)
= 2 A.A / (Av.r. + Av.c.)
= [(x –Av.r.) + (x – Av.c.)]
= (2 x – Av.r. – Av.c.) / (Av.r. + Av.c.)
この式は行と列のそれぞれの比較項を導入しているので「複合平均」
Complex average: C.a. とよぶことにします。
C.a. = (2 x – Av.r. – Av.c.) / (Av.r. + Av.c.)
(2) 中央値比較得点
比較する相手を平均値ではなく中央値にして、差、比、差比を計算した
ものが「中央値得点」 Median Score: M.S.です。
実測値
L1
L2
L3
L4
L5
中央値
w1
10
19
14
7
12
12.00
w2
11
7
10
0
1
7.00
w3
0
0
1
12
1
1.00
w4
0
1
2
3
3
2.00
中央値 5.00 4.00 6.00 5.00 2.00
3.00
(a) 差得点
C.S.Md.D.r.
L1
L2
L3
L4
L5
C.S.Md.D.c.
L1
L2
L3
L4
L5
w1
-2.00
7.00
2.00
-5.00
0.00
w1
5.00
15.00
8.00
2.00
10.00
w2
4.00
0.00
3.00
-7.00
-6.00
w2
6.00
3.00
4.00
-5.00
-1.00
w3
-1.00
-1.00
0.00
11.00
0.00
w3
-5.00
-4.00
-5.00
7.00
-1.00
w4
-2.00
-1.00
0.00
1.00
1.00
w4
-5.00
-3.00
-4.00
-2.00
1.00
C.S.Md.D.m.
L1
L2
L3
L4
L5
C.S.Md.D.a.
L1
L2
L3
L4
L5
w1
1.50
11.00
5.00
-1.50
5.00
w1
7.00
16.00
11.00
4.00
9.00
w2
5.00
1.50
3.50
-6.00
-3.50
w2
8.00
4.00
7.00
-3.00
-2.00
w3
-3.00
-2.50
-2.50
9.00
-0.50
w3
-3.00
-3.00
-2.00
9.00
-2.00
w4
-3.50
-2.00
-2.00
-0.50
1.00
w4
-3.00
-2.00
-1.00
0.00
0.00
(b) 比得点
比得点であるため、行列得点は行と列の分数平均とします。
46
C.S.Md.R.r.
L1
L2
L3
L4
L5
C.S.Md.R.c.
L1
L2
L3
L4
L5
w1
0.83
1.58
1.17
0.58
1.00
w1
2.00
4.75
2.33
1.40
6.00
w2
1.57
1.00
1.43
0.00
0.14
w2
2.20
1.75
1.67
0.00
0.50
w3
0.00
0.00
1.00
12.00
1.00
w3
0.00
0.00
0.17
2.40
0.50
w4
0.00
0.50
1.00
1.50
1.50
w4
0.00
0.25
0.33
0.60
1.50
C.S.Md.R.m.
L1
L2
L3
L4
L5
C.S.Md.R.a.
L1
L2
L3
L4
L5
w1
1.18
2.38
1.56
0.82
1.71
w1
3.33
6.33
4.67
2.33
4.00
w2
1.83
1.27
1.54
0.00
0.22
w2
3.67
2.33
3.33
0.00
0.33
w3
0.00
0.00
0.29
4.00
0.67
w3
0.00
0.00
0.33
4.00
0.33
w4
0.00
0.33
0.50
0.86
1.50
w4
0.00
0.33
0.67
1.00
1.00
(c) 差比得点
C.S.Md.Dr.r.
L1
L2
L3
L4
L5
C.S.Md.Dr.c.
L1
L2
L3
L4
L5
w1
-0.17
0.58
0.17
-0.42
0.00
w1
1.00
3.75
1.33
0.40
5.00
w2
0.57
0.00
0.43
-1.00
-0.86
w2
1.20
0.75
0.67
-1.00
-0.50
w3
-1.00
-1.00
0.00
11.00
0.00
w3
-1.00
-1.00
-0.83
1.40
-0.50
w4
-1.00
-0.50
0.00
0.50
0.50
w4
-1.00
-0.75
-0.67
-0.40
0.50
C.S.Md.Dr.m.
L1
L2
L3
L4
L5
C.S.Md.Dr.a.
L1
L2
L3
L4
L5
w1
0.18
1.38
0.56
-0.18
0.71
w1
2.33
5.33
3.67
1.33
3.00
w2
0.83
0.27
0.54
-1.00
-0.78
w2
2.67
1.33
2.33
-1.00
-0.67
w3
-1.00
-1.00
-0.71
3.00
-0.33
w3
-1.00
-1.00
-0.67
3.00
-0.67
w4
-1.00
-0.67
-0.50
-0.14
0.50
w4
-1.00
-0.67
-0.33
0.00
0.00
(3) 中間値比較得点
比較する相手を中間値（ Mid: C: 最大値と最小値の中間値）にして、差、
比、差比を計算したものが「中間値比較得点」です。
実測値
L1
L2
L3
L4
L5
中間値
w1
10
19
14
7
12
13.00
w2
11
7
10
0
1
5.50
w3
0
0
1
12
1
6.00
w4
0
1
2
3
3
1.50
中間値 5.50 9.50 7.50 6.00 6.50
9.50
(a) 差得点
C.S.Ct.D.r.
L1
L2
L3
L4
L5
C.S.Ct.D.c.
47
L1
L2
L3
L4
L5
w1
-3.00
6.00
1.00
-6.00
-1.00
w1
4.50
9.50
6.50
1.00
5.50
w2
5.50
1.50
4.50
-5.50
-4.50
w2
5.50
-2.50
2.50
-6.00
-5.50
w3
-6.00
-6.00
-5.00
6.00
-5.00
w3
-5.50
-9.50
-6.50
6.00
-5.50
w4
-1.50
-0.50
0.50
1.50
1.50
w4
-5.50
-8.50
-5.50
-3.00
-3.50
C.S.Ct.D.m.
L1
L2
L3
L4
L5
C.S.Ct.D.a.
L1
L2
L3
L4
L5
w1
0.75
7.75
3.75
-2.50
2.25
w1
0.50
9.50
4.50
-2.50
2.50
w2
5.50
-0.50
3.50
-5.75
-5.00
w2
1.50
-2.50
0.50
-9.50
-8.50
w3
-5.75
-7.75
-5.75
6.00
-5.25
w3
-9.50
-9.50
-8.50
2.50
-8.50
w4
-3.50
-4.50
-2.50
-0.75
-1.00
w4
-9.50
-8.50
-7.50
-6.50
-6.50
(b) 比得点
C.S.Ct.R.r.
L1
L2
L3
L4
L5
C.S.Ct.R.c.
L1
L2
L3
L4
L5
w1
0.77
1.46
1.08
0.54
0.92
w1
1.82
2.00
1.87
1.17
1.85
w2
2.00
1.27
1.82
0.00
0.18
w2
2.00
0.74
1.33
0.00
0.15
w3
0.00
0.00
0.17
2.00
0.17
w3
0.00
0.00
0.13
2.00
0.15
w4
0.00
0.67
1.33
2.00
2.00
w4
0.00
0.11
0.27
0.50
0.46
C.S.Ct.R.m.
L1
L2
L3
L4
L5
C.S.Ct.R.a.
L1
L2
L3
L4
L5
w1
1.08
1.69
1.37
0.74
1.23
w1
1.05
2.00
1.47
0.74
1.26
w2
2.00
0.93
1.54
0.00
0.17
w2
1.16
0.74
1.05
0.00
0.11
w3
0.00
0.00
0.15
2.00
0.16
w3
0.00
0.00
0.11
1.26
0.11
w4
0.00
0.18
0.44
0.80
0.75
w4
0.00
0.11
0.21
0.32
0.32
(c) 差比得点
C.S.Ct.Dr.r.
L1
L2
L3
L4
L5
C.S.Ct.Dr.c.
L1
L2
L3
L4
L5
w1
-0.23
0.46
0.08
-0.46
-0.08
w1
0.82
1.00
0.87
0.17
0.85
w2
1.00
0.27
0.82
-1.00
-0.82
w2
1.00
-0.26
0.33
-1.00
-0.85
w3
-1.00
-1.00
-0.83
1.00
-0.83
w3
-1.00
-1.00
-0.87
1.00
-0.85
w4
-1.00
-0.33
0.33
1.00
1.00
w4
-1.00
-0.89
-0.73
-0.50
-0.54
C.S.Ct.Dr.m.
L1
L2
L3
L4
L5
C.S.Ct.Dr.a.
L1
L2
L3
L4
L5
w1
0.08
0.69
0.37
-0.26
0.23
w1
0.05
1.00
0.47
-0.26
0.26
w2
1.00
-0.07
0.54
-1.00
-0.83
w2
0.16
-0.26
0.05
-1.00
-0.89
w3
-1.00
-1.00
-0.85
1.00
-0.84
w3
-1.00
-1.00
-0.89
0.26
-0.89
w4
-1.00
-0.82
-0.56
-0.20
-0.25
w4
-1.00
-0.89
-0.79
-0.68
-0.68
48
(4) 最小値比較得点
比較する相手を最小値（ Minimumr: Mn.）にして、差、比、差比を計算した
ものが「最小値」 (Minimumr Score: Mn.S.)です。
実測値
L1
L2
w1
10
19
14
7
12
7.00
w2
11
7
10
0
1
.00
w3
0
0
1
12
1
.00
w4
0
1
2
3
3
.00
最小値 .00 .00 1.00 .00 1.00
.00
L3
L4
最小値
L5
(a) 差得点
C. S .M n. D.r .
L1
L2
L3
L4
L5
C. S .M n. D. c.
L1
L2
L3
L4
L5
w1
3.00
12.00
7.00
0.00
5.00
w1
10.00
19.00
13.00
7.00
11.00
w2
11.00
7.00
10.00
0.00
1.00
w2
11.00
7.00
9.00
0.00
0.00
w3
0.00
0.00
1.00
12.00
1.00
w3
0.00
0.00
0.00
12.00
0.00
w4
0.00
1.00
2.00
3.00
3.00
w4
0.00
1.00
1.00
3.00
2.00
C. S .M n. D. m.
L1
L2
L3
L4
L4
L5
L5
C. S .M n. D.a .
L1
L2
L3
w1
6.50
15.50
10.00
3.50
8.00
w1
10.00
19.00
14.00
7.00
12.00
w2
11.00
7.00
9.50
0.00
0.50
w2
11.00
7.00
10.00
0.00
1.00
w3
0.00
0.00
0.50
12.00
0.50
w3
0.00
0.00
1.00
12.00
1.00
w4
0.00
1.00
1.50
3.00
2.50
w4
0.00
1.00
2.00
3.00
3.00
(b) 比得点
最小値がゼロである部分については、それを分母とする比を演算できない
ので、 D//0 が示されます。
C .S.M n.R .r.
L1
L2
L3
L4
L5
C .S.M n.R .c.
L1
L2
L3
L4
L5
w1
1.43
2.71
2.00
1.00
1.71
w1
D v/ 0
D v/ 0
14.00
D v/0
12.00
w2
D v/0
D v/0
D v/0
D v/ 0
D v/0
w2
D v/ 0
D v/ 0
10.00
D v/0
1.00
w3
D v/0
D v/0
D v/0
D v/ 0
D v/0
w3
D v/ 0
D v/ 0
1.00
D v/0
1.00
w4
D v/0
D v/0
D v/0
D v/ 0
D v/0
w4
D v/ 0
D v/ 0
2.00
D v/0
3.00
C .S.M n.R .m.
L1
L2
L3
L4
L5
C .S.M n.R .a .
L1
L2
L3
L4
L5
w1
2.86
5.43
3.50
2.00
3.00
w1
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
w2
D v/0
D v/0
20.00
D v/0
2.00
w2
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
w3
D v/0
D v/0
2.00
D v/0
2.00
w3
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
49
w4
D v/0
D v/0
4.00
D v/0
6.00
w4
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
(c) 差比得点
C .S.M n.D r.r.
L1
L2
L3
L4
L5
C .S.M n.D r.c.
L1
L2
L3
L4
L5
w1
0.43
1.71
1.00
0.00
0.71
w1
D v/ 0
D v/ 0
13.00
D v/0
11.00
w2
D v/0
D v/0
D v/0
D v/0
D v/ 0
w2
D v/ 0
D v/ 0
9.00
D v/0
0.00
w3
D v/0
D v/0
D v/0
D v/0
D v/ 0
w3
D v/ 0
D v/ 0
0.00
D v/0
0.00
w4
D v/0
D v/0
D v/0
D v/0
D v/ 0
w4
D v/ 0
D v/ 0
1.00
D v/0
2.00
C .S.M n.D r.m.
L1
L2
L3
L4
L5
C .S.M n.D r.a .
L1
L2
L3
L4
L5
w1
1.86
4.43
2.50
1.00
2.00
w1
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
w2
D v/0
D v/0
19.00
D v/ 0
1.00
w2
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
w3
D v/0
D v/0
1.00
D v/ 0
1.00
w3
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
w4
D v/0
D v/0
3.00
D v/ 0
5.00
w4
D v/0
D v/ 0
D v/ 0
D v/0
D v/0
(5) 最大値比較得点
比較する相手を最大値（ Maximum: Mx.）にして、差、比、差比を計算した
ものが「最大値得点」 (Maximum Score: Mx.S.)です。
実測値 L1 L2 L3 L4 L5 最大値
w1
10
19
14
7
12
19
w2
11
7
10
0
1
11
w3
0
0
1
12
1
12
w4
0
1
2
3
3
3
最大値
11
19
14
12
12
19
(a) 差得点
C.S.Mx.D.r.
L1
L2
L3
L4
L5
C.S.Mx.D.c.
L1
L2
L3
L4
L5
w1
-9.00
0.00
-5.00
-12.00
-7.00
w1
-1.00
0.00
0.00
-5.00
0.00
w2
0.00
-4.00
-1.00
-11.00
-10.00
w2
0.00
-12.00
-4.00
-12.00
-11.00
w3
-12.00
-12.00
-11.00
0.00
-11.00
w3
-11.00
-19.00
-13.00
0.00
-11.00
w4
-3.00
-2.00
-1.00
0.00
0.00
w4
-11.00
-18.00
-12.00
-9.00
-9.00
C.S.Mx.D.m.
L1
L2
L3
L4
L5
C.S.Mx.D.a.
L1
L2
L3
L4
L5
w1
-5.00
0.00
-2.50
-8.50
-3.50
w1
-9.00
0.00
-5.00
-12.00
-7.00
w2
0.00
-8.00
-2.50
-11.50
-10.50
w2
-8.00
-12.00
-9.00
-19.00
-18.00
w3
-11.50
-15.50
-12.00
0.00
-11.00
w3
-19.00
-19.00
-18.00
-7.00
-18.00
w4
-7.00
-10.00
-6.50
-4.50
-4.50
w4
-19.00
-18.00
-17.00
-16.00
-16.00
50
(b) 比得点
C.S.Mx.R.r.
L1
L2
L3
L4
L5
C.S.Mx.R.c.
L1
L2
L3
L4
L5
w1
0.53
1.00
0.74
0.37
0.63
w1
0.91
1.00
1.00
0.58
1.00
w2
1.00
0.64
0.91
0.00
0.09
w2
1.00
0.37
0.71
0.00
0.08
w3
0.00
0.00
0.08
1.00
0.08
w3
0.00
0.00
0.07
1.00
0.08
w4
0.00
0.33
0.67
1.00
1.00
w4
0.00
0.05
0.14
0.25
0.25
C.S.Mx.R.m.
L1
L2
L3
L4
L5
C.S.Mx.R.a.
L1
L2
L3
L4
L5
w1
0.67
1.00
0.85
0.45
0.77
w1
0.53
1.00
0.74
0.37
0.63
w2
1.00
0.47
0.80
0.00
0.09
w2
0.58
0.37
0.53
0.00
0.05
w3
0.00
0.00
0.08
1.00
0.08
w3
0.00
0.00
0.05
0.63
0.05
w4
0.00
0.09
0.24
0.40
0.40
w4
0.00
0.05
0.11
0.16
0.16
(c) 差比得点
C.S.Mx.Dr.r.
L1
L2
L3
L4
L5
C.S.Mx.Dr.c.
L1
L2
L3
L4
L5
w1
-0.47
0.00
-0.26
-0.63
-0.37
w1
-0.09
0.00
0.00
-0.42
0.00
w2
0.00
-0.36
-0.09
-1.00
-0.91
w2
0.00
-0.63
-0.29
-1.00
-0.92
w3
-1.00
-1.00
-0.92
0.00
-0.92
w3
-1.00
-1.00
-0.93
0.00
-0.92
w4
-1.00
-0.67
-0.33
0.00
0.00
w4
-1.00
-0.95
-0.86
-0.75
-0.75
C.S.Mx.Dr.m.
L1
L2
L3
L4
L5
C.S.Mx.Dr.a.
L1
L2
L3
L4
L5
w1
-0.33
0.00
-0.15
-0.55
-0.23
w1
-0.47
0.00
-0.26
-0.63
-0.37
w2
0.00
-0.53
-0.20
-1.00
-0.91
w2
-0.42
-0.63
-0.47
-1.00
-0.95
w3
-1.00
-1.00
-0.92
0.00
-0.92
w3
-1.00
-1.00
-0.95
-0.37
-0.95
w4
-1.00
-0.91
-0.76
-0.60
-0.60
w4
-1.00
-0.95
-0.89
-0.84
-0.84
3.1.6. 標準得点
それぞれの行、列または行列全体を同じスケールとばらつきで評価する
には、データの平均が 0 に、標準偏差が 1 になるようにする必要がありま
す。この操作は平均値差（偏差）を標準偏差で割ることで可能になります。
この値は「標準得点」 (Standard Score: S.S.とよばれます 15 。
実測値
L1
L2
L3
L4
w1
10
19
14
7
w2
11
7
10
0
L5
平均
12 12.40
1
5.80
15
標準偏差個数
4.03
5
4.53
5
「標準得点」は Standarized measure, Z-Score ともよばれています。池田央
(1975)『統計的方法 I 基礎』（新曜社）。
51
w3
0
0
1
12
1
2.80
4.62
5
w4
0
1
2
3
3
1.80
1.17
5
5.25 6.75 6.75 5.50 4.25
5.70
平均
標準偏差 5.26 7.56 5.45 4.50 4.55
個数
4
4
4
4
5.66
4
20
標準得点 (S.S.)の式は次のとおりです (→ 1.1.5.)。
S.S. = (x – Av) / SD
ここで、 x は実測値、 Av は平均値、 SD は標準偏差を示します。このよう
に標準得点はそれぞれ元の値から全体の平均値を引いて、さらにその値を
全体の標準偏差で割って得られた数値です。次は、このデータを行と列の
標準得点 (S.S.r., S.S.c.)に置き換えた結果です。
S.S.r.
L1
L2
L3
w1
-0.60
1.64
w2
1.15
0.26
L4
L5
S.S.c.
L1
L2
L3
L4
L5
0.40 -1.34 -0.10
w1
0.90
1.62
1.33
0.33
1.70
0.93 -1.28 -1.06
w2
1.09
0.03
0.60 -1.22 -0.71
w3
-0.61 -0.61 -0.39
1.99 -0.39
w3
-1.00 -0.89 -1.06
w4
-1.54 -0.69
1.03
w4
-1.00 -0.76 -0.87 -0.56 -0.27
0.17
1.03
1.44 -0.71
行列の標準得点 (S.S.m,)は、行の標準得点と列の標準得点の分数平均としま
す。全体の標準得点 (S.S.a.)は、全体の平均と標準偏差を使います。
S.S.b.
L1
L2
L3
L4
L5
S.S.a.
L1
L2
L3
L4
L5
w1
0.25
1.63
0.93 -0.46
0.86
w1
0.76
2.35
1.47
0.23
1.11
w2
1.12
0.12
0.75 -1.25 -0.89
w2
0.94
0.23
0.76 -1.01 -0.83
w3
-0.81 -0.78 -0.75
1.72 -0.55
w3
-1.01 -1.01 -0.83
1.11 -0.83
w4
-1.10 -0.75 -0.69 -0.23 -0.01
w4
-1.01 -0.83 -0.65 -0.48 -0.48
●標準得点の平均と標準偏差
標準得点 (SS)の平均は 0 になり、標準偏差が 1 になります。はじめに、標
準得点の平均 (M S S )がゼロになることを確かめます。
M S S = (SS 1 + SS 2 + .... + SS N ) / N
SS の定義にしたがって、
= [(X 1 - M)/SD + (X 2 - M)/SD + ... + (X N - M)/SD] / N
= [(X 1 - M) + (X 2 - M) + ... + (X N - M)] / (N SD)
= [(X 1 + X 2 + ... + X N ) – N M] / (N SD)
52
ここで、分子の (X 1 + X 2 + ... + X N )は総和を示します。 N M は平均の N 倍だ
から、これも総和となるので、分子はゼロになります。よって標準得点の
平均 (M S S )もゼロです。
次に標準得点の分散 (SD S S 2 )は、次のようになります。
SD S S 2 = [(SM 1 - M S S ) 2 + (SM 2 - M S S ) 2 + ... + (SM N - M S S ) 2 ] / N
先に標準得点の平均 (M S S ) がゼロであることを確かめたので、
= {(SM 1 - 0) 2 + (SM 2 - 0) 2 + ... + (SM N - 0) 2 } / N
それぞれの標準得点を定義の式に置き換えると、
= {[(X 1 - M)/SD] 2 + [(X 2 - M)/SD] 2 + ... + [(X N - M) / SD] 2 ]} / N
全体の SD 2 をくくって外側の分母に移します。
= [(X 1 - M) 2
+ (X 2 - M) 2
+ ... + (X N - M) 2 ]
/ (N SD 2 )
ここで、
[(X 1 - M) 2
+ (X 2 - M) 2
+ ... + (X N - M) 2 ] / N
は、 X 1 , X 2 , ...X N の分散 (SD 2 )ですから、先の式は次のようになります。
= SD 2 / SD 2 = 1
標準偏差 SD は分散の根（ルート）ですから、標準得点の標準偏差も 1 と
なります。
このようにして尺度を、平均が 0、標準偏差が 1 になるように標準化させ
た値が標準得点です。標準化前の数値をそのまま比較すると絶対的な尺度
になり、全データの中での相対的な価値が勘案されていないことになりま
す。一方、標準得点は平均がゼロ、標準偏差が 1 になるように標準化され
ているので、点数とか温度とか価格とか（キロ）メートルのような単位が
なくなります。これにより、異なる概念（単位）の数値の間の関係も標準
得点によって数値化できるようになります。
●偏差値
テストでよく使われる「偏差値」は標準得点を 10 倍し 50 を足して計算
します。
偏差値 = 標準得点 ×10 + 50
そうすると偏差値の平均は 50 になり、標準偏差は 10 になります。標準
53
得点によって、せっかく平均 0, 標準偏差 1 にして標準化したのに、偏差
値ではもう一度それを 10 倍して、さらに 50 を足しているのです。これは、
私たちが 100 点満点のテストに慣れているためで、そのほうがわかりやす
いからでしょう。
●正規標準得点
標準得点をよく観察すると絶対値が 1.00 を超える数値がしばしば現れ
ることがわかります。これは平均との差が標準偏差を超えたことを示して
います。偏差値で言えば 40 点以下のケースや 60 以上のケースなので、よ
く生じる現象です。そこで、標準得点の範囲を [-1.00 ~ 1.00]というスケー
ルで正規化した数値を求めれば、他の正規得点と同様に数値を正規化した
尺度で比較することができます (→ 「統計量」「正規変動係数」 )。これを
「正規標準得点」 (Normalized Standard Score: N.S.S.) と名付けることにしま
しょう。正規標準得点 (N.S.S.)は標準得点 (S.S.)を標準得点の理論的な最大
値 (S.S.max)で割った値とします。先の「正規変動係数」で見たように、標
準偏差の最大値は
SD.max = Ave (N – 1) 1 /2
そして、標準得点 (S.S.)の最大値 (S.S.max)は
S.S.max = (X – Ave) / SD.max
= (X – Ave) / (Ave (N -1) 1 /2 )
= (X – X / N) / X / N (N -1) 1 /2
= (N X – X) / N / X / N (N -1) 1 /2
= (N – 1) X / N / X / N (N -1) 1 /2
= (N – 1) / (N - 1) 1 /2
= (N－ 1) 1 /2
よって、正規標準得点 (N.S.S.)は
N.S.S. = S.S. / S.S.max = S.S. / (N - 1) 1 /2
N.S.S.r.
L1
L2
L3
L4
L5
N.S.S.c.
L1
L2
L3
L4
L5
w1
-0.30
0.82
0.20
-0.67
-0.05
w1
0.52
0.94
0.77
0.19
0.98
w2
0.57
0.13
0.46
-0.64
-0.53
w2
0.63
0.02
0.34
-0.71
-0.41
w3
-0.30
-0.30
-0.19
1.00
-0.19
w3
-0.58
-0.52
-0.61
0.83
-0.41
w4
-0.77
-0.34
0.09
0.51
0.51
w4
-0.58
-0.44
-0.50
-0.32
-0.16
54
N.S.S.m.
L1
L2
L3
L4
L5
N.S.S.a.
L1
L2
L3
L4
L5
w1
0.14
0.89
0.51
-0.25
0.46
w1
0.17
0.54
0.34
0.05
0.26
w2
0.60
0.07
0.40
-0.67
-0.48
w2
0.21
0.05
0.17
-0.23
-0.19
w3
-0.44
-0.43
-0.40
0.92
-0.29
w3
-0.23
-0.23
-0.19
0.26
-0.19
w4
-0.62
-0.42
-0.39
-0.13
0.00
w4
-0.23
-0.19
-0.15
-0.11
-0.11
3.1.7. 期待得点
ここで提案する「期待得点」(Expectation Score: E.S.)は、次に示す「期待
値」 (Expected Frequency: E.F.)を使います 16 。期待値はそれぞれのセルの値
が横の和と縦の和から見て、平均に分布しているとすればどのような値と
して期待されるかを示すものです。「期待される」というよりも「予想さ
れる」 (expected)と考えたほうがわかりやすいかも知れません。
実測値
L1
L2
L3
L4
和
L5
w1
10
19
14
7
12
62
w2
11
7
10
0
1
29
w3
0
0
1
12
1
14
w4
0
1
2
3
3
9
和
21
27
27
22
17 114
期待値は行と列の和の割合から計算されます。 w1 の行和が 62 となってい
ます。一方、列和の行に注目すると、 L1 の和は 21 です。総和は 114 です
から、 w1:L1 は、行和の 62 回のうち、 21 / 114 の割合で出てくると予想さ
れます。つまり、 62×(21 / 114) ≒ 11.42 となります。 ◆ Excel シートでは
行和 Sm.r.を列固定で参照し、列和 Sm.c.を行固定で参照します。分母の総
和 Sm.a.は列も行も固定します（絶対参照）。それぞれのセルについての
計算結果が次の表です。
E.F. = (Sm.r. Sm.c.) / Sm.a.
E.F.
w1
w2
w3
w4
L1
L2
L3
L4
L5
11.42 14.68 14.68 11.96 9.25
5.34 6.87 6.87 5.60 4.32
2.58 3.32 3.32 2.70 2.09
1.66 2.13 2.13 1.74 1.34
16
「期待値」(E.F.)は一般に「期待度数」とよばれることが多いのですが、
ここでは「実測値」と「期待値」を対等に比較する、という意図から両者
に「値」という訳語を使います。この訳語「期待値」も使われています。
「期待値得点」と、以下で扱う得点 (Score)は使われていません。
55
実測値と期待値を比較した得点を「期待得点」 (Expectation Score)とよぶ
ことにします。
実測値 (x)と期待値 (E.F.)の差 (Difference: D)、比 (Ratio: R)、差比 (Difference
ratio: Dr.)で比較したものを「比較期待得点」(Comparative Expectation Score:
C.E. S.)とよぶことにします。それぞれを次の式で導きます。
C.E. S.D. = x – E.F.
C.E. S.R. = x / E.F.
C.E. S.Dr.. = (x – E.F.) / E.F.
C.E.S.D.
L1
w1
-1.42
w2
5.66
L2
L3
L4
L5
C.E.S.R.
2.75
w1
0.88 1.29 0.95 0.59 1.30
3.13 -5.60 -3.32
w2
2.06 1.02 1.46 0.00 0.23
4.32 -0.68 -4.96
0.13
L1
L2
L3
L4
L5
w3
-2.58 -3.32 -2.32
9.30 -1.09
w3
0.00 0.00 0.30 4.44 0.48
w4
-1.66 -1.13 -0.13
1.26
w4
0.00 0.47 0.94 1.73 2.24
1.66
C.E.S.Dr.
L1
L2
L3
L4
L5
w1
-0.12
0.29
-0.05
-0.41
0.30
w2
1.06
0.02
0.46
-1.00 -0.77
w3
-1.00
-1.00
-0.70
3.44 -0.52
w4
-1.00
-0.53
-0.06
0.73
1.24
3.1.8. 順位得点
(1) 正順位得点
「正順位得点」 (Descendig Rank Score: D.R.S.) によって横、縦、全体の範
囲で降順の順位をつけます。◆ Excel 関数の RANK(c,R)を使います。c は対
象のセルを示し、R はその範囲を示します。
実測値
L1
L2
L3
L4
L5
w1
10
19
14
7
12
w2
11
7
10
0
1
w3
0
0
1
12
1
w4
0
1
2
3
3
D.R.S.a.
L1
L2
L3
L4
L5
w1
6
1
2
8
3
w2
5
8
6
17
w3
17
17
13
3
D.R.S.c.
L1
L2
L3
L4
L5
w1
2
1
1
2
1
13
w2
1
2
2
4
3
13
w3
3
4
4
1
3
56
w4
17
13
12
10
10
w4
3
3
3
3
2
行列の順位得点 (D.R.S.m.)は行の順位得点と列の順位得点の平均とします。
D.R.S.m.
L1
L2
L3
L4
L5
D.R.S.a.
L1
L2
L3
L4
L5
w1
3.0 1.0 1.5 3.5 2.0
w1
6
1
2
8
3
w2
1.0 2.5 2.0 4.5 3.5
w2
5
8
6
17
13
w3
3.5 4.0 3.0 1.0 2.5
w3
17
17
13
3
13
w4
4.0 3.5 3.0 2.0 1.5
w4
17
13
12
10
10
(2) 逆順位得点
逆順位得点は最小値を 1 とした昇順の順位を示します。 ◆ Excel 関数の
RANK(c,R, 1)を使います。c は対象のセルを示し、R はその範囲を示します。
3 番目の引数として 1 を使います。
A.R.S.r. L1 L2 L3 L4 L5
A.R.S.c. L1 L2 L3 L4 L5
w1
w2
w3
2
5
1
5
3
1
4
4
3
1
1
5
3
2
3
w1
w2
w3
3
4
1
4
3
1
4
3
1
3
1
4
4
1
1
w4
1
2
3
4
4
w4
1
2
2
2
3
L2
L3
A.R.S.m. L1
L4
L5
A.R.S.a. L1 L2 L3 L4 L5
w1
w2
w3
2.5 4.5 4.0 2.0 3.5
4.5 3.0 3.5 1.0 1.5
1.0 1.0 2.0 4.5 2.0
w1
w2
w3
w4
1.0 2.0 2.5 3.0 3.5
w4
14 20 19 12 17
16 12 14
1
5
1
1
5 17
5
1
5
9 10 10
3.1.9. 逸脱得点
確率的に見て異常な度数を検知する「逸脱得点」 (Divergent Score: D.S.)
を提案します。
ある事象が起こる確率にはさまざまなものがあります。たとえば、サイ
コロには {1, 2, 3, 4, 5, 6}という目があるので、 1 回サイコロを投げるとき
（「試行」と言います）、それぞれの目が出る確率はそれぞれ 1/6 ずつです。
これらの目の中の 1 つ、たとえば「 1」が出る確率は 1/6 なので、逆に「 1」
が出ない確率は 1 - 1/6 = 5/6 です。次の表の F (False)は「１」が出ないこ
とを示し、 T (True)は「１」が出ることを示しています。確率の総和が 1
になることを確認してください (5/6 + 1/6 = 1)。
「１」
T の数
確率
57
F
0
5/6≒ 0.833
T
1
1/6≒ 0.167
次にサイコロを 2 回投げる場合 (試行回数 =2)を考えましょう。たとえば 1
回目が F で 2 回目が T とすると、これを F, T と書きます。この場合も確率
の総和は 1 になります (25/36 + 5/36 + 5/36 + 1/36 = 1) 。
「１」
T の数
確率
F, F
0
(5/6) (5/6) = 25 /36≒ 0.694
F, T
1
(5/6) (1/6) = 5/36≒ 0.139
T, F
1
(1/6) (5/6) = 5/36≒ 0.139
T, T
2
(1/6) (1/6) = 1/36≒ 0.028
さらに、サイコロを 3 回投げる場合 (試行回数 =3)を考えます。この場合も
確率の総和は 1 になることを確かめてください。
「１」
T の数
確率
F, F, F
0
(5/6) (5/6) (5/6) = 125/216≒ 0.579
F, F, T
1
(5/6) (5/6) (1/6) = 25/216≒ 0.116
F, T, F
1
(5/6) (1/6) (5/6) = 25/216≒ 0.116
T, F, F
1
(1/6) (5/6) (5/6) = 25/216≒ 0.116
T, T, F
2
(1/6) (1/6) (5/6) = 5/216≒ 0.023
T, F, T
2
(1/6) (5/6) (1/6) = 5/216≒ 0.023
F, T, T
2
(5/6) (1/6) (1/6) = 5/216≒ 0.023
T, T, T
3
(1/6) (1/6) (1/6) = 1/216≒ 0.005
ここで、たとえばサイコロを 3 回投げて順番を問題にせずに、全部で 2 回
「１」が出る場合 (T の数 =2)の確率を求めると、上の表から、
「１」
T の数
確率
T, T, F
2
(1/6) (1/6) (5/6) = 5/216≒ 0.023
T, F, T
2
(1/6) (5/6) (1/6) = 5/216≒ 0.023
F, T, T
2
(5/6) (1/6) (1/6) = 5/216≒ 0.023
を合わせた確率、つまり、 5/216 + 5/216 + 5/216 = 15/216≒ 0.069 になるこ
とがわかります。これは「１」が 2 回出る場合の確率 (5/216)を 3 倍した数
です。それぞれの場合の確率 5/216 は (1/6) 2 (5/6)、つまり T の確率 1/6 の 2
回分と F の確率 5/6 の 1 回分の積になります。
次に、T, T, F だけでなく、他にも T,F,T と F,T,T があるので、この積 5/216
を 3 倍します。この倍数の 3 を求めるのは、このように少ない試行回数 (3
回 )ならばすぐ計算できますが、それが多くなると一般式を使わなければな
58
りません。 n 回の試行で T が r 回選ばれる場合の数は nCr という「組み合
わせ」 (Combination: nCr)の値になります 17 。ここでは、 T が 2 個で F が 1
個の組み合わせになるので 3C2 で計算します。そこで、 3 回の試行で T が
順番を問わずに 2 回出る確率は
3C2
(1/6) 2 (5/6) = (3 x 2) / (2 x 1) (1/6) 2 (5/6) = 15/216≒ 0.069
この確率を一般化した式で示すと、
nCr
(p) r (1 – p) n -r
になります。ここで n はサイコロを投げた総回数（試行数）、r は選ばれ
る回数（成功数）、 p は T の確率 (成功確率 :1/6)、 1 - p は F の確率 (失敗確
率： 5/6)を示します。この確率の分布は「二項分布」 (Binomial distribution)
とよばれています。◆ 二項分布の確率の計算は階乗を多く使うので、n や r
が大きくなると計算が複雑になります。そこで、Excel 関数の BINOMDIST(r,
n, p, 0)を使用します。
次は、試行回数 = 4 を固定し、成功率を 1/2, 1/3, …, 1/6 と変化させ、成
功回数 = 0, 1, 2, 3, 4 のそれぞれの確率を計算した結果です。
二項分布（実験）成功率
成功回数:y
1/2
x
1/3
1/4
試行回数
4
1/5
1/6
0
0.0625 0.1975 0.3164
0.4096 0.4823
1
0.2500 0.3951 0.4219
0.4096 0.3858
2
0.3750 0.2963 0.2109
0.1536 0.1157
3
0.2500 0.0988 0.0469
0.0256 0.0154
4
0.0625 0.0123 0.0039
0.0016 0.0008
たとえば、 BINOMDIST(0, 4, 1/2, 0)は 0.0625 を示しています。これはコ
インを投げて表を出す確率などで 4 回投げて一度も表にならない確率
(1/2)4 = 1/16 = 0.0625 を示しています。このように確率が 1/2 のときは、確
率の分布が 2 を最大値として、上下対称になります。サイコロの目（たと
えば「 1」）が出る確率は 1/6 ですが、そのときの成功回数 =0 の確率は、(5/6) 4
= 0.4823, 成功回数 =4 の確率は、(1/6) 4 = 0.0008 となって、上下対称ではあ
17
これは互いに区別のつく 3 個の物 {a, b, c}の中から任意の 2 個 (= T)を取
り出す場合の数と同じです。もし、取り出す順番を考えるならば、ab, ac, ba,
bc, ca, cb という 6 個の場合があります。これが「順列」 (Permutation: nPr)
で、n P r = n (n – 1)(n – 2) … (n – r + 1). ここで、順番を考慮しなければ（「組
み合わせ」 3 C 2 ）、ab と ba, ac と ca、bc と cb はそれぞれ同じなので場合の
数を 2 で割らなければなりません。この 2 は 2P2 の順列 (2! = 2 x 1)です。
よって 3 C 2 = (3 x 2) / (2 x 1). 一般式は
nCr
= n P r / r! = [n (n – 1) (n – 2) … (n – r + 1)] / r! = n! / [r! (n - r)!]
59
りません。
ところが次のように試行回数を 4, 5, 6, …, 20 のように増加させると、次
第に分布が上下対称に近づきます。その確率の最大値は、成功率 =1/2 のと
きのように試行回数の中央値ではなく、試行回数と確率の積に近似した成
功回数のときの確率になります。たとえば確率が 1/6 で 20 回の試行すれば、
成功回数が (1/6) x 20 ≒ 3 となりますから、成功数 =3 の確率が一番高い、
ということは直感的にも納得できます。
成功率
成功回数:y
4
0
0.4823
1
0.3858
2
0.1157
3
0.0154
4
0.0008
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1/6
5
0.4019
0.4019
0.1608
0.0322
0.0032
0.0001
6
0.3349
0.4019
0.2009
0.0536
0.0080
0.0006
0.0000
試行回数
10
0.1615
0.3230
0.2907
0.1550
0.0543
0.0130
0.0022
0.0002
0.0000
0.0000
0.0000
x
15
0.0649
0.1947
0.2726
0.2363
0.1418
0.0624
0.0208
0.0053
0.0011
0.0002
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
20
0.0261
0.1043
0.1982
0.2379
0.2022
0.1294
0.0647
0.0259
0.0084
0.0022
0.0005
0.0001
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
ここで提案する「逸脱得点」は二項分布の確率を利用して求めます。この
とき、r = 実測値、n = 母数、p = 全体の中での割合、を使います。
実測値
L1
L2
L3
L4
和
L5
w1
10
19
14
7
12
62
w2
11
7
10
0
1
29
w3
0
0
1
12
1
14
w4
0
1
2
3
3
9
和
21
27
27
22
17
114
上の実測値を使って、たとえば「行」の二項分布得点は、該当するセルの
行和 (Sm.r.)を n とし、列和／総和を p とします。w1:L1(=10)を例にすると、
62 回の試行で 10 回起こる確率（成功回数）を、 21/114 という全体の確率
の二項分布の中での確率を求め (Binomial Score: B.S)、 62 x 21 / 114 という
成功回数（期待値）での確率（二項分布のの最大値：B.S.max)で割ります。
これで得られた商は、最大確率と比較したときの当該確率を正規化した大
きさを示すので、「ふつうに起こりうる確率」 (0.00 ~ 1.00)を示します。こ
こでは逆に「ふつうには起こりえない逸脱した確率」(0.00 ~ 1.00)を求めた
60
いので、1 からこの数値を引いた数値にします。さらに、実測値が期待値
より小さいときは、それをマイナス値にして、評価しやすい形にします (sgn
= –1)。 ◆ Excel 関数の SGN(*)を使います。
D.S. = sgn * [1- B.S. / B.S. (max)]
D.S.r.
L1
L2
L3
w1
-0.06
0.58
0.00 -0.70
w2
0.96 -0.02
L4
L5
D.S.c.
L1
L2
L3
0.43
w1
-0.16
0.73
0.00 -0.88
0.61 -0.99 -0.77
w2
0.97 -0.02
L4
L5
0.57
0.61 -0.99 -0.82
w3
-0.78 -0.91 -0.60
1.00 -0.12
w3
-0.76 -0.88 -0.53
1.00 -0.11
w4
-0.51 -0.19
0.47
w4
-0.44 -0.10
0.49
0.00
0.71
0.00
0.71
B.D.S.を両軸で求めるときは、 B.D.S.R.と B.D.S.C.の分数平均とします。
D.S.m.
L1
L2
L3
w1
-0.12
0.66
0.00 -0.80
w2
0.97 -0.02
L4
L5
D.S.a.
L1
0.51
w1
-0.81
0.61 -0.99 -0.80
w2
0.91
L2
L3
L4
1.00 -0.99 -0.22
0.22
L5
0.96
0.81 -0.98 -0.90
w3
-0.77 -0.89 -0.57
1.00 -0.11
w3
-0.98 -0.98 -0.90
0.96 -0.90
w4
-0.48 -0.15
0.48
w4
-0.98 -0.90 -0.70
0.41
0.00
0.71
0.41
●相対値から対照値へ
相対得点、限定得点、期待得点、逸脱得点は [0.0 ~ 1.0]のスケール（範囲）
で正規化されています。その中間点は 0.5 です。このように [0.0 ~ 1.0]のス
ケール（範囲）で正規化された得点を [-1.0 ~ 1.0]のスケールにするには、
その得点を 2 倍して 1 を引きます。 [0.0 ~ 1.0]を 2 倍すると [0.0 ~ 2.0]にな
り、これから 1 を引くと [-1.0 ~ 1.0]になるからです。
一般に、相対値 X / (X + Y)を 2 倍して 1 を引いて、 [-1.0 ~ 1.0]のスケー
ルにすると、次のように (X – Y) / (X + Y)という対照値になります (→ 1.2.1.)。
これをモデルに使いましょう。
2X
X+Y
−1=
2X−X−Y
X+Y
=
X−Y
X+Y
そこで、相対得点 R.S.を次のように対照値にするために、はじめに相対値
X / (X + Y)にします。
R.S. =
X
=
Sm
X
X + (Sm−X)
0.0 (X=0) ≦ R.S. ≦ 1.0 (X=Sm)
これを対照値にした相対得点 (R.S.)を「対照相対得点」 (Relative Score in
contrast: R.S.+c)とよぶことにします。 R.S.+c は R.S.の X と Sm – X を、そ
61
れぞれ X, Y として、先の対照値 (X – Y) / (X + Y)にしたものです。
R.S.C. =
X − (Sm−X)
X + (Sm−X)
2X − Sm
=
Sm
-1 (X=0)≦ R.S.(c) ≦ 1 (X=Sm)
R.S.+c の左式のほうがわかりやすいですが、 EXcel で計算するときは右式
のほうが簡単です。または R.S.を計算してあれば、それを参照し 2 を掛け
て 1 を引きます。次がその結果です。
R.F.r.
L1
L2
L3
L4
L5
R.F.r.+c
L1
L2
L3
L4
L5
w1
.16 .31 .23 .11 .19
w1
-0.68 -0.39 -0.55 -0.77 -0.61
w2
.38 .24 .34 .00 .03
w2
-0.24 -0.52 -0.31 -1.00 -0.93
w3
.00 .00 .07 .86 .07
w3
-1.00 -1.00 -0.86
w4
.00 .11 .22 .33 .33
w4
-1.00 -0.78 -0.56 -0.33 -0.33
0.71 -0.86
相対頻度はデータの規模が大きくなると一般に全体の数値が下がり、 0.5
を超えることが少なくなります。その対照相対頻度は、上の図のように、
ほとんどが負になります。
卓立相対得点 (P.R.S.)は次のように相対値 X / (X + Y)で示されます。
P.S. =
(p – 1)X
(p – 1)X + (s – X)
0.0 (X=0) ≦ P.R.S. ≦ 1.0 (X = s)
よって、「対照卓立相対得点」 (Prominent Score (contrast): P.S.(c)) は次のよ
うになります。
P.S.C. =
(p – 1)X −(s – X)
(p – 1)X + (s – X)
次がその結果です。
P.R.F.r.
L1
L2
L3
L4
L5
P.R.F.r.+c
L1
L2
L3
L4
L5
w1
0.43
0.64
0.54
0.34
0.49
w1
-0.13
0.28
0.08
-0.33
-0.02
w2
0.71
0.56
0.68
0.00
0.13
w2
0.42
0.12
0.36
-1.00
-0.75
w3
0.00
0.00
0.24
0.96
0.24
w3
-1.00
-1.00
-0.53
0.92
-0.53
w4
0.00
0.33
0.53
0.67
0.67
w4
-1.00
-0.33
0.07
0.33
0.33
次に限定得点（ L.S.)を対照化します。はじめに、 L.S.を次のように相対値
(X – Y) / (X + Y)にします。 Mn が X を含むデータの最小値、 MX がその最
大値を示します。
L.S. =
X−Mn
=
MX−Mn
X−Mn
(X−Mn)+(MX−X)
62
0.0 (X=Mn) ≦ L.S. ≦ 1.0 (X=MX)
上の右式は相対値 X / (X + Y)なので、それを対照値 (X – Y) / (X + Y)にし
たものが「対照限定得点」 (Limited Score (contrast): L.S.C.)です。
L.S.+c. =
(X−Mn)−(MX−X)
=
=
(X−Mn)+(MX−X)
- 1.0 (X=Mn)
2X− MX−Mn
MX−Mn
≦ L.S.c. ≦ 1.0 (X=MX)
この L.S.+c.を最初から計算するには上の右式を使います。 L.S.がすでに
計算されているならば、それを参照して L.S.C. = (L.S.) × 2 – 1 の計算を
します。次がその結果です。
L.S.r.
L1
L2
L3
L4
L5
L.S.r.+c
L1
L2
L3
L4
L5
w1
0.25 1.00 0.58 0.00 0.42
w1
-0.50
1.00
0.17 -1.00 -0.17
w2
1.00 0.64 0.91 0.00 0.09
w2
1.00
0.27
0.82 -1.00 -0.82
w3
0.00 0.00 0.08 1.00 0.08
w3
-1.00 -1.00 -0.83
1.00 -0.83
w4
0.00 0.33 0.67 1.00 1.00
w4
-1.00 -0.33
1.00
0.33
1.00
3.1.10. 類似得点
後述する各種の「類似係数」を応用して、行と列の関連性を示す得点を
「類似得点」(Association Score: A.S.) とよぶことにします。この節は、1.3.11.
を学習してから確認してください。
たとえば、 w1L1 の 10 を、 w1(+):L1(+) の回数 (A:+/+) とみなします。
w1(+):L1(–)の回数 (B:+/–)は、行和 (Sm.r.) – x (10) = 62 – 10 = 52 になります。
また、w1(–):L1(+)の回数 (C:–/+)は、列和 (Sm.c.) – x(10) = 21 – 10 + 11 です。
そして w1(–):L1(–) の回数 (D:–/–) は、総和 (Sm.a.) – 行和 (Sm.r.) – 列和
(Sm.c.) + x(10) = 104 となります。 ◆ このような A, B, C, D は Excel の複合
参照を使ってすべてのセルで計算します。結果は次のようになります。
実測値(A) L1 L2 L3 L4 L5 Sm.r
B
L1 L2 L3 L4 L5
w1
10
19
14
7
12
62
w1
52
43
48
55
50
w2
11
7
10
0
1
29
w2
18
22
19
29
28
w3
0
0
1
12
1
14
w3
14
14
13
2
13
w4
0
1
2
3
3
9
w4
9
8
7
6
6
Sm.c
21
27
27
22
17
114
63
C
L1 L2 L3 L4 L5
D
L1 L2 L3 L4 L5
w1
11
8
13
15
5
w1
41
44
39
37
47
w2
10
20
17
22
16
w2
75
65
68
63
69
w3
21
27
26
10
16
w3
79
73
74
90
84
w4
21
26
25
19
14
w4
84
79
80
86
91
これらの A, B, C, D を各セルで参照して、たとえば「単純一致係数得点」
(Simple matching Scpre: S.m.S.) を計算すると結果は下左図になります。 ◆
Excel では相対参照を使います。なお、各種の類似得点は、それぞれのセ
ルを同じ行と列の他のセル全体と比較するので、行数や列数が大きくなる
と、全体に数値が小さくなる傾向があります。そこで、相対得点と同様に
して、卓立化のオプションを選択すると下右図の結果になります。
S.m.S. = (A + D) / (A + B + C + D)
S.m.S.
L1
L2
L3
L4
L5
P.S.m.S.
L1
L2
L3
L4
L5
w1
.45
.55
.46
.39
.52
w1
.66
.79
.71
.57
.72
w2
.75
.63
.68
.55
.61
w2
.85
.74
.80
.55
.64
w3
.69
.64
.66
.89
.75
w3
.69
.64
.68
.94
.76
w4
.74
.70
.72
.78
.82
w4
.74
.72
.75
.81
.85
他も同様です。以下は「 Jaccard 係数得点」 (Jc.S.), 「 Jaccard-2 係数得点」
(Js2.S.), 「 Russel and Rao 係数得点」(R-R.S.), 「 Russel and Rao-3 係数得点」
(R-R3.S.), 「 Hamann 係数得点」 (Hm.S.), 「 Yule 係数得点」 (Yl.S.), 「 Phi
係数得点」(Ph.S.), 「 Ochiai 係数得点」(Oc.S.), 「 Preference 係数得点」(Pr.S.)
の結果です。卓立化はそれぞれ右図の結果になります。
Jc.S.
L1
L2
L3
L4
L5
P.Jc.S.
L1
L2
L3
L4
L5
w1
.14
.27
.19
.09
.18
w1
.56
.75
.65
.44
.64
w2
.28
.14
.22
.00
.02
w2
.76
.57
.69
.00
.15
w3
.00
.00
.03
.50
.03
w3
.00
.00
.17
.89
.22
w4
.00
.03
.06
.11
.13
w4
.00
.19
.33
.49
.55
Jc2.S.
L1
L2
L3
L4
L5
P.Jc2.S.
L1
L2
L3
L4
L5
w1
.24
.43
.31
.17
.30
w1
.72
.86
.79
.62
.78
w2
.44
.25
.36
.00
.04
w2
.86
.73
.82
.00
.27
w3
.00
.00
.05
.67
.06
w3
.00
.00
.29
.94
.36
w4
.00
.06
.11
.19
.23
w4
.00
.32
.50
.66
.71
64
R-R.S
L1
L2
L3
L4
L5
P.R-R3.S
L1
L2
L3
L4
L5
w1
.09
.17
.12
.06
.11
w1
.70
.83
.77
.61
.74
w2
.10
.06
.09
.00
.01
w2
.72
.61
.70
.00
.18
w3
.00
.00
.01
.11
.01
w3
.00
.00
.18
.74
.18
w4
.00
.01
.02
.03
.03
w4
.00
.18
.30
.39
.39
R-R3.S
L1
L2
L3
L4
L5
P.R-R3.S
L1
L2
L3
L4
L5
w1
.22
.38
.30
.16
.26
w1
.70
.83
.77
.61
.74
w2
.24
.16
.22
.00
.03
w2
.72
.61
.70
.00
.18
w3
.00
.00
.03
.26
.03
w3
.00
.00
.18
.74
.18
w4
.00
.03
.05
.08
.08
w4
.00
.18
.30
.39
.39
Hm.S.
L1
w1
- .11
w2
L5
P.Hm.S.
L1
L2
L3
L4
L5
.11 - .07 - .23
.04
w1
.32
.59
.42
.14
.44
.51
.26
.37
.11
.23
w2
.71
.48
.61
.11
.27
w3
.39
.28
.32
.79
.49
w3
.39
.28
.36
.88
.52
w4
.47
.40
.44
.56
.65
w4
.47
.44
.50
.63
.70
L2
L3
L4
L5
- .52
.39
w1
.70
.90
.75
.43
.90
.36 - 1.00 - .73
w2
.95
.78
.89 - 1.00
.10
Yl.S.
L1
w1
- .16
w2
.64
L2
L3
.42 - .07
.02
L4
P.Yl.S.
L1
L2
L3
L4
L5
w3
- 1.00 - 1.00 - .64
.96 - .42
w3
- 1.00 - 1.00
.27
1.00
.53
w4
- 1.00
.39
w4
- 1.00
.76
.90
.93
Ph.s.
L1
w1
- .06
w2
.29
- .45 - .04
L2
L3
L4
.18 - .03 - .22
.01
.53
L5
P.Ph.s.
.50
L1
L2
L3
L4
L5
.14
w1
.36
.53
.39
.20
.49
.15 - .29 - .19
w2
.71
.48
.61 - .29
.04
w3
- .18 - .21 - .15
.63 - .08
w3
- .18 - .21
.10
.88
.21
w4
- .14 - .09 - .01
.10
w4
- .14
.38
.55
.62
.15
.19
Oc.S.
L1
L2
L3
L4
L5
P.Oc.S.
L1
L2
L3
L4
L5
w1
.28
.46
.34
.19
.37
w1
.73
.86
.79
.63
.79
w2
.45
.25
.36
.00
.05
w2
.86
.73
.82
.00
.27
w3
.00
.00
.05
.68
.06
w3
.00
.00
.30
.94
.36
w4
.00
.06
.13
.21
.24
w4
.00
.34
.52
.67
.71
65
Pr.s.
L1
L2
L3
L4
w1
- .52
- .15 - .37
- .67 - .39
w1
.43
.71
.57
w2
- .12
- .50 - .29 - 1.00 - .91
w2
.73
.45
.63 - 1.00 - .47
w3
- 1.00 - 1.00 - .90
w4
- 1.00
- .89 - .78
L5
P.Pr.s.
L1
L2
L3
L4
.23
L5
.55
.33 - .87
w3
- 1.00 - 1.00 - .42
.88 - .29
- .61 - .54
w4
- 1.00
.32
- .36
.00
.41
●行列演算による類似係数得点
下左表 (A)は実測値の得点例です。ここで、 w1:L1 の 10 を「 w1 と L1 が
共に選択された回数」 (A: +/+)とみなします。 B は「 w1 は選択され、 L1 が
選択されていない回数」(B:+/−)です。B(1,1)の 52 は、A の w1 列の L1 以外
の得点の和 (19+14+7+12 = 52)になります。
A
L1 L2 L3 L4 L5
w1 10 19 14
w2 11
w3
0
w4
0
7 12
7 10
0
0
1 12
1
2
3
1
1
3
B
L1 L2 L3 L4 L5
w1
52
43
48
55
50
w2
18
22
19
29
28
w3
14
14
13
2
13
w4
9
8
7
6
6
同様にして、下の C は「 w1 が選択されず、 L1 が選択されている回数」
(C:−/+)であり、D は「 w1 と L1 が共に選択されいない回数」(D: −/−)を示し
ます。
C
L1 L2 L3 L4 L5
D
L1 L2 L3 L4 L5
w1
11
8
13
15
5
w1
41
44
39
37
47
w2
10
20
17
22
16
w2
75
65
68
63
69
w3
21
27
26
10
16
w3
79
73
74
90
84
w4
21
26
25
19
14
w4
84
79
80
86
91
この A, B, C, D という行列を用いて、それぞれのセルに該当する類似係
数を求め、これを「類似係数得点」 (Similarity coefficient score: Scs)とよぶ
ことにします。
A n p = X np [実測値行列 ]
B n p = S n 1 [行和ベクトル ] – X n p
C n p = T 1 p [列和ベクトル ] – X n p
D n p = S [総和スカラー ] − A n p – B np − C n p
たとえば、次は「単純一致係数」 Simple matching coefficient を使った単
純一致係数得点」 Simple matching score: S.m.s.を示します。 S.m.s.は D 値を
重視するため、全体に数値が高くなる傾向があります。
66
Sms. = (A n p + D n p ) / (A n p + B n p + C np + D n p )
Sms.
L1
L2
L3
L4
L5
w1
0.447 0.553 0.465 0.386 0.518
w2
0.754 0.632 0.684 0.553 0.614
w3
0.693 0.640 0.658 0.895 0.746
w4
0.737 0.702 0.719 0.781 0.825
次は Jaccard 係数得点 (J.s.)と Jaccard-2 係数得点 (J.2.s.)です。
J.s. = A n p / (A n p + B np + C n p )
J.2.s. = A n p *2 / (A n p *2 + B n p + C n p )
J.s.
L1
L2
L3
L4
L5
J.2.s.
L1
L2
L3
L4
L5
w1
0.137 0.271 0.187 0.091 0.179
w1
0.241 0.427 0.315 0.167 0.304
w2
0.282 0.143 0.217 0.000 0.022
w2
0.440 0.250 0.357 0.000 0.043
w3
0.000 0.000 0.025 0.500 0.033
w3
0.000 0.000 0.049 0.667 0.065
w4
0.000 0.029 0.059 0.107 0.130
w4
0.000 0.056 0.111 0.194 0.231
次は Russel & Rao 係数得点 R.r.s.と Russel & Rao-3 係数得点 R.r.3.s.です。
R.r.s. = A n p / (A n p + B n p + C n p + D np )
R.r.3.s = A n p *3 / (A n p *3 + B np + C n p + D n p )
R.r.s.
L1
L2
L3
L4
L5
R.r.3.s.
L1
L2
L3
L4
L5
w1
0.088
0.167
0.123
0.061
0.105
w1
0.224
0.375
0.296
0.164
0.261
w2
0.096
0.061
0.088
0.000
0.009
w2
0.243
0.164
0.224
0.000
0.026
w3
0.000
0.000
0.009
0.105
0.009
w3
0.000
0.000
0.026
0.261
0.026
w4
0.000
0.009
0.018
0.026
0.026
w4
0.000
0.026
0.051
0.075
0.075
次は Hama nn 係数得点 H.s.と Yule 係数得点 Y.s.です。
H.s. = [(A n p + D np ) – (B n p + C n p )] / [(A n p + D np ) + (B n p + C n p )]
Y.s. = [(A n p * D n p ) – (B np * C np )] / [(A n p * D np ) + (B np * C np )]
H.s.
L1
L2
L3
L4
L5
Y.s.
L1
L2
L3
L4
L5
w1
-0.105
0.105
-0.070
-0.228
0.035
w1
-0.165
0.417
-0.067
-0.522
0.386
w2
0.509
0.263
0.368
0.105
0.228
w2
0.642
0.017
0.356
-1.000
-0.733
w3
0.386
0.281
0.316
0.789
0.491
w3
-1.000
-1.000
-0.641
0.964
-0.425
w4
0.474
0.404
0.439
0.561
0.649
w4
-1.000
-0.449
-0.045
0.387
0.529
次は Phi 係数得点 Ph.s.と Ochiai 係数得点 O.s.です。
67
Ph.s. = [(A n p * D n p ) – (B n p * C np )]
/ [(A n p + B n p )*(C n p +D n p )*(A n p +C n p )*(B n p +D n p )] 1 /2
O.s. = S n p / [(A n p + B n p )*(A n p +C n p )] 1 /2
Phs.
L1
L2
L3
L4
L5
O.s.
L1
L2
L3
L4
L5
w1
-0.065
0.179
-0.028
-0.222
0.136
w1
0.277
0.464
0.342
0.190
0.370
w2
0.294
0.006
0.148
-0.286
-0.188
w2
0.446
0.250
0.357
0.000
0.045
w3
-0.178
-0.208
-0.146
0.630
-0.082
w3
0.000
0.000
0.051
0.684
0.065
w4
-0.139
-0.087
-0.010
0.104
0.151
w4
0.000
0.064
0.128
0.213
0.243
次は優先係数得点 (Pr.s.)です。
Pr.s. = [A n p * 2 – (B np + C n p )] / [A n p * 2 + (B np + C n p )]
Pr.s.
L1
L2
L3
L4
L5
w1
-0.518 -0.146 -0.371 -0.667 -0.392
w2
-0.120 -0.500 -0.286 -1.000 -0.913
w3
-1.000 -1.000 -0.902
w4
-1.000 -0.889 -0.778 -0.613 -0.538
0.333 -0.871
これらの類似係数得点は、いずれも得点分布を行と列の係数間の類似度
を占めるものとみなして、それを標準化して示したものです。それぞれ算
式によって示される特徴があります。
3.1.11. 識別得点
すべての絶対頻度 (1)について識別度を計算し (2)、負値（マイナスの値）と
ゼロ商値（分数の分母がゼロになる値）をゼロにした得点を「識別得点」
を名付けます。
(1)
A
L1
L2
L3
L4
w1
10
19
14
w2
w3
w4
11
7
21
L5
7
12
62
12
3
1
1
3
29
1
10
1
2
27
27
22
17
114
(2)
Dis.s.
L1
L2
L3
w1
- .100
.579
.071
w2
.091
- 1.857
- .700
L4
- 1.143
L5
.583
Dv/0 - 15.000
68
14
9
w3
Dv/0
Dv/0 - 25.000
w4
Dv/0 - 25.000 - 11.500
.167 - 15.000
- 5.333
- 3.667
(3)
Dis.s.
L1
w1
w2
L2
L3
.579
.071
L4
L5
.583
.091
w3
.167
w4
上の (3)の得点は縦列について「識別得点」を計算した結果です。
3.2. 正規化得点
データ行列全体の総和を 1 として、それぞれのセルの値を相対化する方
法を「正規化得点」 Normalized score とよぶことにします。
3.2.1. 総和による正規化得点
それぞれのセルの値を総和で割ります。たとえば、d1:L1 のセルでは 10 /
114 = 0.088 となります。
O n p = I n p / Sum(I n p )
A
L1 L2 L3 L4 L5 和
d1
10
19
14
7
12
62
d1
.088 .167 .123 .061 .105
.544
d2
11
7
10
0
1
29
d2
.096 .061 .088 .000 .009
.254
d3
0
0
1
12
1
14
d3
.000 .000 .009 .105 .009
.123
d4
0
1
2
3
3
9
d4
.000 .009 .018 .026 .026
.079
和
21
27
27
22
17 114
和
.184 .237 .237 .193 .149 1.000
Nml. sum
L1
L2
L3
L4
L5
和
＊池田（ 1976: 121-123）の「総和を基礎にした相対度数」を参照しました。
3.2.2. 比率の分数平均による正規化得点
A という条件で Y ではなく X となる相対頻度だけでなく、X となった
とき、条件が A であった相対頻度も考慮に入れた正規化得点を考えます。
それぞれのセルの値の横和による比率と縦和による比率の分数平均を求め
ます。
O n p = I n p x 2 / [ SumR(I n p ) + SumC(I n p ) ]
次に、この演算で得られた行列全体をその総和で割ることにより、総和
69
を 1 にします。
O n p = O np / Sum(O n p )
A
L1 L2 L3 L4 L5 和
d1
10
19
14
7
12
62
d1
.062 .109 .080 .043 .078
.371
d2
11
7
10
0
1
29
d2
.112 .064 .091 .000 .011
.279
d3
0
0
1
12
1
14
d3
.000 .000 .012 .170 .016
.199
d4
0
1
2
3
3
9
d4
.000 .014 .028 .049 .059
.151
和
21
27
27
22
17 114
和
.174 .187 .212 .262 .164 1.000
Nml. fr.av.
L1
L2
L3
L4
L5
和
3.2.3. 比率の幾何平均による正規化得点
ここでは、分数平均ではなく、幾何平均を使います。
O n p = {I n p ^2 / [SumR(i n p ) * SumC(I n p )]}^(1/2)
O n p = O np / Sum(O n p )
A
L1 L2 L3 L4 L5 和
d1
10
19
14
7
12
62
d1
.066 .111 .082 .045 .088
.392
d2
11
7
10
0
1
29
d2
.106 .060 .085 .000 .011
.262
d3
0
0
1
12
1
14
d3
.000 .000 .012 .163 .015
.191
d4
0
1
2
3
3
9
d4
.000 .015 .031 .051 .058
.155
和
21
27
27
22
17 114
和
.173 .186 .210 .259 .172 1.000
Nml. ge.av.
L1
L2
L3
L4
L5
和
3.2.4. モステラーの正規化得点
下左表のようなデータ行列のそれぞれのセルに一定の値を掛けて、縦和と
横和が同一になるように変換すると、全体の中で値を相対的に見ることが
できます（下右表）。この例では総和を 1 にしています。
A
L1 L2 L3 L4 L5 和
d1
10
19
14
7
12
62
d1
.068 .091 .043 .007 .041
.250
d2
11
7
10
0
1
29
d2
.132 .059 .053 .000 .006
.250
d3
0
0
1
12
1
14
d3
.000 .000 .041 .162 .047
.250
d4
0
1
2
3
3
9
d4
.000 .050 .063 .031 .106
.250
和
21
27
27
22
17 114
和
.200 .200 .200 .200 .200 1.000
Mosteller
L1
L2
L3
L4
L5
和
このように和を一定に揃えるためには、行和または列和だけならば、その
和でそれぞれのセルの値を割ればできるのですが、この場合、列和 (4)と行
和 (5)の条件を同時に満たす値を探さなければなりません。そこで、はじめ
にそれぞれの行和で割った行列成分を、次にその列和で割ります。このと
70
き、行和が変化しますから、再び行和で割り、列和で割る、という演算を
します。それをセルの値の変化がほとんでなくなるまで繰り返します。こ
の方法は「モステラー (Mosteller) の標準化」とよばれます。＊池田 (1976:
123-124)
次がデータ行列を行和 *個数と列和 *列数で割る行列演算式です。
Sn = SumR(F n p ), F n p = F n p / (Sn * N)
Tp = SumC(F n p ), F n p = F n p / (Tp * P)
■ 音素 /s/に対応する 2 つの文字と正規化の理由
中世・近代スペイン語では、短い s と縦長の ſ のどちらも音素 /s/を表し
ていました。その分布の特徴は語末に短い s が使われる傾向があった、と
いうことが観察されています。しかし、確かに語末では短い s が多く使わ
れているのですが、それは語頭・語中でもやはり使われています（下左表：
『アレクサンダー大王物語』 Libro de Alexandre (1300)の冒頭から 2 万字ま
で）。下右表は総和による正規化の結果です。
/s/ 語頭語中語末
和
Nml. sum 語頭語中語末
和
s
62
2
593
657
s
.042
.001
.397
.440
ſ
314
412
109
835
ſ
.210
.276
.073
.560
和
376
414
702 1492
和
.252
.277
.471 1.000
短い s が語末に出現する傾向は、このような小さな規模（2 行 3 列の大
きさの表）で頻度が低いデータ（総数 1492）ならばとくに正規化しなくて
も大体様子がわかるのですが、それらがさらに大きくなると、分布の傾向
を見ることが難しくなります。そこで、よく行われるのは次のような横軸、
または縦軸の和で割った相対頻度の表示です。
横軸
語頭語中
語末
和
縦軸
語頭
語中
語末
和
s
.094
.003
.903 1.000
s
.165
.005
.845 1.014
ſ
.376
.493
.131 1.000
ſ
.835
.995
.155 1.986
和
.470
.496 1.033 2.000
和
1.000 1.000 1.000 3.000
ここで気づくことは、横軸を相対化すると、観点は横軸に集中し、たと
えば、短い s が語頭・語中よりも語末に集中していることがわかり、一方、
縦軸を相対化すると、たしかに語末では短い s が多く現れているのですが
(.845)、語頭での長い ſ もそれに続くように高い比率 (.835)を占めているこ
とです。そのことならば、横軸相対化得点（上左表）で見れば、語頭の位
置の短い s と縦長の ſ の割合が同じになるのではないか、と思われるかも
しれませんが、実は、 .094 / .470 = .200, .376 / .470 = .800 になるので、上
71
右表の .165, .835 とは異なり、必ずしも正確には両者の比率が正しく比較で
きません。
次の２つの表は、横比率と縦比率の分数平均（下左表）と、両者の幾何
平均（下右表）を示しています。
Nml. frac.av. 語頭語中語末
和
Nml. geo.av. 語頭語中語末
和
s
.052
.002
.377
.430
s
.052
.002
.363
.416
ſ
.224
.285
.061
.570
ſ
.233
.291
.059
.584
和
.276
.286
.438 1.000
和
.285
.293
.422 1.000
上左表では、語頭の s の頻度を横和で割った値 62/657 と、縦和で割った
値 62/314 のそれぞれの分子と分母を足して割り算をしています（ (62 x 2) /
(657+314) = .052）。このとき、単に短い s の頻度の語頭位置の割合だけで
なく、語頭の位置での s の割合も考慮に入れています。両者の幾何平均を
使う、上右表でも同様です。
たとえば、コレラ流行時の同じ川の流域にある 2 市（ A, B）の感染死亡
者数を比較する資料があると仮定しましょう（下左表）。下右表はその縦
軸の割合です。それぞれの市の死亡者の割合（ .032, .012）が算出されるの
で、ここから、 A 市 (.032)は B 市 (.012)と比べて、 2.6 倍にもなる、と言え
るでしょうか？それならば、生存者を比較すると (.968, .988)、比を計算す
ると .979 なので、ほとんど同じになってしまいます。
コレラ
R.S.c.
A市
B市
1550
死亡者
.032
.012
生存者 39000 20000 59000
生存者
.968
.988 1.955
和
和
死亡者
A市
1300
B市
250
和
40300 20250 60550
和
.045
1.000 1.000 2.000
実は、先の文字の出現位置の比較でも見たように、母数の異なる集団の
中の割合（率、％など）で、集団を比較することは本質的にできないはず
なのです。そこでデータを正規化する必要が生まれますが、そうすると次
のような結果になります。
Nml. sum A 市 B 市和
Nml. frac.av. A 市
B市和
死亡者
.021
.004
.026
死亡者
.045
.017
.062
生存者
.644
.330
.974
生存者
.571
.367
.938
.666
.334 1.000
.616
.384 1.000
和
和
上左表は、単純な総和による正規化の結果です。それぞれの 4 つの数値
は同じ共通の総和（ 60550）で割っているので、一応は比較できます。これ
で、もとのデータ行列では見にくかった割合の内訳がわかるようになりま
した。しかし、この方法では、たとえば、B 市の死亡者の割合 (.004)を計算
72
するとき、直接関係のない、A 市の多数の生存者も含めています。そのた
め非常に小さな数値になっています。むしろ、死亡者全体の中の B 市の割
合と B 市全体の中の死亡者の割合を共に計算に入れた両軸の割合の分数平
均や（上左表）、幾何平均を使ったほうが、納得できる数値になるでしょ
う。
言語研究に限らず、さまざまな分野の研究で母数の異なる集団の数量的
比較が行われますが、そのとき、そもそも母数が異なれば絶対頻度（数え
た素数）では比較できません。そこで、割合やパーセント、パーミル、パ
ーミリオンなどの相対頻度が使われることが多いのですが、これらの率は、
厳密に言えば、比較ができないはずです。極端な例では、250/1000=25%と、
3/10=30%を比較してもほとんど意味がないでしょう。それならば、母数が
近いとき、たとえば、25/400, 25/450 ならばそれほど問題にならない、とい
うことも考えられます。しかし、どのような母数の隔たりまで比較が許さ
れるのでしょうか？ 1.5 倍や 2 倍ならば問題がないのでしょうか？厳密に
数値を相対化して比較するためには、データ行列全体に適切な正規化を適
用してみる価値があると思います。
3.3. 質的データ
量的データを質的データに変換したり、質的データの表示形式を変えた
りするための操作です。
(1) データの 50 以上の数値 (A)を 1 に変換します。 50 未満を 0 とします。
項目
a.効果 b.楽しい
項目
a.効果 b.楽しい
1.文法解説
86
29
1.文法解説
1
0
2.ビデオ
53
78
2.ビデオ
1
1
3.活動
48
53
3.活動
0
1
4.映画
43
96
4.映画
0
1
(2) 上右表の 1/0 を v/(空白 )に変換します（下左）。また、 v/(空白 )を 1/0
に戻します（下右）。
項目
a.効果 b.楽しい
1.文法解説
v
2.ビデオ
v
項目
a.効果 b.楽しい
1.文法解説
1
0
v
2.ビデオ
1
1
3.活動
v
3.活動
0
1
4.映画
v
4.映画
0
1
73
3.4. 名義行列
下左表のような名義を成分とする行列を「名義行列」 (Nominal Matrix)
とよぶことにします。 Lt.Oc.のように名義の出現を示す名義行列を「名義
出現行列」 (Nominal occurrence matrix）とよび、 Lt.Fq.のように名義ごとの
頻度を示す名義行列を「名義頻度行列」(Nominal frequency matrix）とよび、
Lt.Dt.のように、カテゴリー (d1, d2, …, dn)ごとの分布を示す名義行列を「名
義分布行列」(Nominal distribution matrix)とよぶことにします。これらを用
いて、後述するさまざまな分析をします。
Lt.Oc.
d1
v1
A
v2
v3
v4
Lt.Oc. > Lt.Dt. v1 v2 v3 v4
A,B
B
C
d1:A
v
d2
B,D B,C,D
C
D
d1:B
d3
A,B
C
B
C
d1:C
d4
C
C,D
C
A
d2:B
v
v
d5
B
C B,C B,C,D
d2:D
v
v
v
v1
v2
v3
v4
v
d3:A
v
1
d3:B
v
A
2
1
B
3
2
3
1
d3:C
C
1
4
3
3
d4:C
D
1
2
2
d4:D
v
v
d2:C
Lt.Oc. > Lt.Fq.
v
v
v
v
v
v
v
v
v
v
d4:A
d5:B
d5:C
d5:D
v
v
v
v
v
v
v
v
3.5. 欠測値の補充
(1) 隣接値による欠損値補充
データ行列に欠測値があるとき、隣接の値を参照することが可能であると
判断したときに使用します。これはとくに集中化されたデータ行列で有効
です（ → 「 3.9 集中」）。隣接値の平均値を使ってデータ行列（下左表）
の欠測値を補充します（下右表）。
74
P2
v-1
v-2
d-1
1
d-2
2
d-3
1
d-4
3
d-5
2
v-3
1
v-4
2
3
3
3
P2
4
2
v-1
v-2
v-3
v-4
d-1
1
1
2
1
d-2
2
2
3
4
d-3
1
3
2
1
2
4
d-4
3
2
2
4
2
4
d-5
2
3
2
4
欠測値のある欠測値を含めてセルの上下左右の値の平均値で補充します。
上下左右のセルに値があれば、4 つの値を足して 5 で割りますが、行列の
端に位置するセルの場合は隣接する値の数 +1 で割ります。結果は他のセル
を揃えるために四捨五入して整数部だけを出力します。補充は 1 回だけで
なく可能な限り繰り返します。隣接値として列、行、両軸の選択ができま
す。
(2) 期待値による欠損値補充
期待値（ → 1.4.2.）を使ってデータ行列の欠測値を補充します。次の例では
「 3.活動」の「 a.効果」の値 48 を x とします。これを期待値で補充すると、
47.52 という近似値を得ます。
項目
a.効果 b.楽しい
項目
a.効果 b.楽しい
1.文法解説
86
29
1.文法解説
86.00
29.00
2.ビデオ
53
78
2.ビデオ
53.00
78.00
3.活動
x
53
3.活動
47.52
53.00
4.映画
43
96
4.映画
43.00
96.00
＊この例では、次の期待値の方程式から x を直接求めることができます。
E n p [期待値 ]＝ Sn [行和 ] * Tp [列和 ]／ T [総和 ]
x = (86 + 53 + x + 43)(x + 53) / (86 + 53 + x + 43 + 29 + 78 + 53 + 96)
x = (182 + x) (53 + x) / (438 + x)
438x + x 2 = 9646 + 235x + x 2
203x = 9646
x = 47.52
複数の欠測値があるときは、このような簡単な計算ができないので、次の
プログラムで収束するまで繰り返します。
75
4. 関係
3 以上の変数（多変数）をもつデータ行列の変数間の関係を各種の相関係
数行列や類似度係数行列を使って示します。そして、データ行列の個体間
の関係を各種の距離行列を使って測ります。また、一般に行列の成分は連
続変数や 1-0 という二値変数（または「 v」など１文字の表示）になります
が、言語データ分析に欠かせない文字行列を分析する方法を試みます。
4.1. 相関
前節までの内容は、1 つのデータを代表する値や個々のデータを置き換え
る数値を扱いました。本節では 2 つの種類のデータを扱い、それらの関係
性を見ます。2 つのデータが関わってきますので、数字の裏にある数式は
すこし複雑になりますが、一度理解してしまえば、数値の本質がわかり、
その使い方や応用の方法がわかるようになります。はじめには簡単な例や
図を使って、統計的な数値を直感的に納得できるようにします。納得でき
た後でその数学的な根拠を探ります。数学的な根拠がわかったら、自分で
手を動かしてそれを実験して確かめましょう。ここまですれば確実にその
統計手法が身につきます。
数値の意味がわかったならば、それをたくさん使ってみましょう。そう
すれば感覚がだんだんと養われていき、理論的な知識が経験的なスキルに
よって裏づけられるようになります。知識は使うことで生かされてきます。
Excel のようなアプリケーションは、こうした実験をするのにとても便利
です。
4.1.1. 量的なデータの相関
4.1.2. データ
まず頻度やアンケートの結果など、数えたりスケールを測ったりできる量
的な数値について扱います。次のデータを見てください。これは西語（ス
ペイン語）の文 1 (Madrid)と文 2(Sevilla)に関して主要な前置詞の頻度を集
計したものです。
鍵語
1 Madrid
2 Sevilla
151
163
con
38
45
de
202
195
a
76
en
105
81
por
54
45
ここには「文 1」と「文 2」という 2 つのデータがあります。この 2 つの文
は前置詞の観点からみると、どの程度類似しているのでしょうか。本節で
はこのような 2 つのデータの関連の強度を計算する方法を見ていきます。
4.1.3. データ間の関係
はじめに 2 つのデータの関係性を捉えるために散布図にして視覚化してみ
ましょう。 ◆ Excel では、英文 1 英文 2 の 2 列を選択し、「挿入」 → 「グ
ラフ」→「散布図」とします。軸ラベルがあるレイアウトに変更し、それ
ぞれ軸ラベルを編集しておきます。
一見したところ、文 1 と文 2 は比例関係があるようです。この事実を確か
めるために行の原点（ゼロの位置）を英文 1 の平均までずらし、列の原点
を英文 2 の平均までずらして散布図を描き直してみましょう。そのために
は、前章で見た標準得点が使われます。これは次のように定義されます。
標準得点 (SM) ＝
x－Ｘの平均値
Ｘの標準偏差
このように標準得点（ SM i ）はそれぞれ元の値（ x i ）から全体の平均値（ m ）
を引いて、さらにその値を全体の標準偏差（ σ）で割って得られた数値で
す。
次は、このデータを標準得点に置き換えた結果です。つまり全体の平均が
0、標準偏差が 1 になるようにしたものです。
77
v-1(sm)
v-2(sm)
v-1(sm)
0.674
0.922
0.674
-1.184
-0.980
-1.184
1.513
1.438
1.513
-0.082
-0.400
-0.082
-0.921
-0.980
-0.921
この標準得点に変換したデータで、もう一度散布図を作成すると次のよう
になります。
この図を見れば、文 1 と文 2 のデータがすべて A と C の領域に入っている
ことがはっきりと分かります。A と C の領域は、x 軸の値と y 軸の値の標
準得点を掛け合わせると、その 2 つとも正（＋）、または 2 つとも負（－）
であるので、その積は正になります。一方、B と D の領域は 2 つの正負が
異なるため積は負となることがわかります。
4.1.4. 相関係数
Ｘの標準得点とＹの標準得点を掛けた値の総和を求めればＸとＹの関連
する度合いが数値化できます。共に正（＋）、または共に負（－）であれ
ば、それらの積は正になりますから、この積の数が多ければ多いほど相関
が強くなります。そしてすべてのデータが図の斜めの線に近づけば相関の
程度はますます高くなり、全部が斜めの線に完全に一致すれば相関は最大
になります。
逆に、 B と D の領域にあるデータは正の相関を減少させます。それが多
くなればなるほど相関の程度は弱まります。それらのデータは X と Y の値
の積が負になるからです。もし、負ばかりのデータであれば、逆の相関が
78
強くなります 18 。また、 A, B, C, D に平均して分布しているとＸとＹの間
には相関関係がない、と考えられるでしょう。
このような積の合計（積和）はデータの量に左右されます。つまり、デ
ータ量が多くなればなるほど値はどんどん大きくなり、スケールが一定に
なりません。そこで、積和を全体の個数で割って積和の平均を出したもの
が「相関係数」 (coefficient of correlation) です。相関係数の求め方を一般化
した公式に変えましょう。
ＸとＹの相関係数（ r）
= { [(x 1 - m x ) / σ x ] [(y 1 - m y ) / σ y ]
+ [(x 2 - m x ) / σ x ] [(y 2 - m y ) / σ y ]
(...)
+ [(x n - m x ) / σ x ] [(y n - m y ) / σ y ] } / n
という計算をします。 σx と σy を分母に移すと、
r = [ (x 1 - m x )(y 1 - m y )
+ (x 2 - m x ) (y 2 - m y )
+ (...)
+ (x n - m x ) (y n - m y ) ] / (nσ x σ y )
ここで、
[ (x 1 - m x )(y 1 - m y )
+ (x 2 - m x ) (y 2 - m y )
+ (...)
+ (x n - m x ) (y n - m y ) ] / n
を「共分散」 (covariance)とよび、 S xy と書きます。すると先の式は、
ＸとＹの相関係数（ r） =
Sxy
σ x *σ y
となります。ＸとＹの相関係数 (r) は最終的に
相関係数 (r) =
Xと Yの共分散
Xの標準偏差 * Yの標準偏差
となります。
18
中心の点 (0, 0)に近い位置のデータは、相関にあまり影響しません。逆に
中心から離れた位置のデータは相関に強く影響します。
79
● 相関係数 (r)が -1 ≦ r ≦ 1 になる理由
相関係数は -1 ≦ r ≦ 1 という範囲に入る標準的な値です。このことを高
校数学までに習った判別式を使って確かめてみましょう。
原理的に、相関係数はすべてのデータが一直線に並ぶときに最大になり
ますから、そのような直線の式を
(y - m y ) = a (x - m x )
で表します。ここで、 mx と my はそれぞれ x と y の平均値を示します。こ
の直線は X と Y の平均値の座標 (m x , m y )を通り、傾きは a となります。直
線ならば、上の式から、
a (x - m x ) - (y - m y ) = 0
となりますが、実際のデータでは、(x, y)のそれぞれの値、つまり、(x 1 , y 1 ),
(x 2 , y 2 ), ... (x n , y n )が直線上に並ぶことはふつうありません。その値を (x i , y i )
として、上の式に当てはめると、a (x i - m x ) - (y i - m y ) はゼロ (0)ではなくて、
プラスになったり、マイナスになったり、さまざまな値をとります。その
全体の変動を見るために、その自乗和を計算しましょう。
f(a) = Σ [a (x i - m x ) - (y i - m y )] 2
これは平方和なので負（マイナス）になることはありません。つまり、
f(a) ≧ 0 です。 f(a)を展開しましょう。
f(a) = Σ [a 2 (x i - m x ) 2 - 2a(x i - m x )(y i - m y ) + (y i - m y ) 2 ]
= Σ a 2 (x i - m x ) 2 - Σ 2a(x i - m x )(y i - m y ) + Σ (y i - m y ) 2
= a 2 Σ (x i - m x ) 2 - 2aΣ (x i - m x )(y i - m y ) + Σ (y i - m y ) 2
このように f(a)は a の 2 次式になりますが、先に見たように f(a)≧ 0 なの
で、2 次式の放物線の頂点が行に接するか、またはその上方にあることに
なります 19 。 a を行に、 f(a)を列にしたグラフを描いてみましょう。
19
ここで「行」と言い x 軸と言わないのは、上の 2 次式は x についての 2
次式というよりも、a についての 2 次式を考えているからです。よって「行」
は「a 軸」のことです。
80
【図 6.1e】
【図 6.1f】
f(a)の放物線の頂点がちょうどを行上にあるときは（【図 6.1e】）、次
の判別式がゼロとなって、解が 1 つになります。放物線の頂点が行よりも
上にあるときは（【図 6.1f】）解がないので（行とぶつからないので）判
別式はマイナスになります 20 。
判別式 (D) ≦ 0
これを f(a)の式に当てはめます。
[2Σ (x i - m x )(y i - m ｙ )] 2
[Σ (x i - m x )(y i - m ｙ )] 2
- 4Σ (x i - m x ) 2 Σ (y i - m ｙ ) 2 ≦ 0
- Σ (x i - m x ) 2 Σ (y i - m ｙ ) 2 ≦ 0
上の式のそれぞれの要素は、相関係数で使われた要素と同じであること
に気づきます。そこで第 2 項を右辺に移動します。
[Σ (x i - m x )(y i - m ｙ )] 2 ≦ Σ (x i - m x ) 2 Σ (y i - m ｙ ) 2
さらに両辺を右辺で割ります。
[Σ (x i - m x )(y i - m ｙ )] 2
Σ (x i - m x ) 2 Σ (y i - m ｙ ) 2
≦ 1
この左辺は、相関係数 (r)を自乗したものですから、 r 2 ≦ 1 となり、よっ
て
-1 ≦ r ≦ 1
となります。
20
2 次方程式 ax 2 + bx + c = 0 の判別式 (D)は b 2 – 4ac です。
81
4.1.5. 相関係数の意味
出力された数値について経験的に次のような解釈できます 21 。
|r| = 0.0
ＸとＹの間に相関がない
0.0 < |r| ≦ 0.2
ＸとＹの間にほとんど相関がない
0.2 < |r| ≦ 0.4
ＸとＹの間に弱い相関がある
0.4 < |r| ≦ 0.7
ＸとＹの間にやや強い相関がある
0.7 < |r| ≦ 1.0
ＸとＹの間に強い相関がある
4.1.6. 相関係数についての注意
相関係数を計算することによってあらゆる数値データの間の相関関係
が一応わかります。しかし、これはデータの本質については何も知らない
コンピュータが、入力された数値だけをもとに出した結果にすぎないので
注意が必要です。いろいろなケースが考えられますが、たとえば次のよう
な場合に単に相関係数だけを求めて、それを現象の解釈の結論にしてしま
うのは危険です。
(0) そもそも 2 つが同じデータの場合。たとえば、値とその百分率（ %）
はまったく同じデータです。
(1) データの数が極端に少ない場合。たとえば次のように 5 つのデータだ
けで相関係数を出してもあまり意味はないでしょう。このような分布は偶
然に生まれたのかも知れません。
(2) 異質なデータが混在している場合。全く異なるデータを寄せ集めて相
関係数を求めると、現象の正しい解釈ができないことがあります。
21
相関係数の範囲は -1≦ r≦ 1 になるので、ここではマイナスとなる逆相関
も含めて絶対値 |r|で示します。
82
上左図は異質のグループを総合して判断したために、個々のグループの中
では強い相関がありながら、全体としてはそれが弱くなるケースです 22 。
上右図は異質のグループの間には相関がないのに総合させると、相関らし
きものが見えてしまうケースです。
(3) 大きな偏りを持つデータの場合。データの分布に大きな偏りがあると
きは注意が必要です。一般に下左図のように平均のそばに多く分布してい
て、周辺に少なくなるタイプのデータが適しています。
ところが、たとえば大量のテキスト内の語彙の分布は上右図のようになる
ので一般に高い相関係数を示します。
このようなさまざまなケースについて正しく分析するするためには散布
図をしっかり観察することが大切です。また、相関関係が必ずしも因果関
係を示しているわけではないことに注意しましょう。たとえば勉強時間と
試験の成績の間に相関関係があったとても、それが必ずしも、勉強時間を
増やせば試験の成績向上につながる、という「原因→結果」の関係を示し
ていることにはならないでしょう。そこには、たとえば「教科への関心・
興味」のような隠れた要素があって、それが勉強時間と試験成績のどちら
にも影響していることが考えられます 23 。
相関係数の算出はあくまでも数学的な操作に過ぎません。資料の本質を
知らずに計算すると意味のない分析結果を示すことにもなりかねないので
す。分析者が散布図を提示せず結果だけを示すときはとくに注意すべきで
22
先のスペイン語教材のアンケート調査結果がこれと似ています。
勉強時間と試験成績というように、単位が異なっていても、また、実技
テストと筆記試験のように規模（満点）が異なっていても、どちらも、標
準化された値（標準得点）を比べるので、そのまま相関係数を計算するこ
とができます。
23
83
す。私たちは言語データを扱うとき、ただやみくもにデータを分析するの
ではなく、そのデータをしっかりと見つめること、できれば全部読むこと
が必要です。そうすれば、自然とデータについての理解が深まるので、変
な分析結果が出てきたときには直感で気がつくはずです。しっかりとデー
タを読みこんでおくと、そのデータについて自分がよくわかっている、と
いう自信につながります。自分の経験に基づいた直感と、数学的に得られ
たデータ分析の結果を比較しながら、一致しているかどうか、一致してい
ないときは何の要因がありうるか考えてみる必要があるでしょう。
■一人称的な研究
私たちは、言語を単なる言語分析用のデータと見ているのではなく、言
語作品を鑑賞したり、ことばの伝え合いや共有を経験したり、未知の外国
語を学んだりして、言語を生活の中で経験しています。そのとき、感じた
り気づいたりすることがあるはずです。言語の現実に触れたときに私たち
の内面に生じる直感や気づきがとても大切です。
言語データ分析は、そのような直感や気づきの「理由」や「姿」を具体
的なデータで調べてみるときに役立ちます。このとき言語の経験が最初で、
分析はその後になります。自分が経験していることを対象にして分析する
ときは、何か直感的にぴんと来ることが多いと思います。そこで、なるべ
く自分で経験した（読んだ、集めた、調べた、実験した、使った、感動し
た、興味を持った…）言語データから出発して、自分が理解し納得できた
方法を適用して、自分の個人的な直感を検証してみることを勧めます。
実際に自分の研究を自分で計画し、試行錯誤をしながら自分の道具を開
発し、自分で納得し、自分が個人的に感じたことの理由に接近できれば発
展性があるし、何よりもやりがいがあって楽しいことだと思います。この
ようば研究は「一人称的」であるといえるでしょう。私たちは他者の（本
当の）一人称的世界に関心がありますから、そのような他者の関心と研究
にも共感します。
●量的データと質的データ
先に見たように、単語の頻得点は非常に偏った分布を示すので相関係数に
よる分析には適しません。次の散布図には一応「線形近似曲線」が描かれ
ていますが、データは左下に固まっていて、右上になるとほとんどデータ
がありません。頻度の高い単語の数は少なく、一方あまり使われない単語
の数は非常に多いのです。
84
ここではすべてを単語使用の「有無」に変えて分析する方法を採ります。
そうすれば、すべてのデータの分布は「有」と「無」の 2 種類の値になり
ます。次の図の「語」の列に続く 2 列が頻度を示しますが、その後の 2 列
では 1 が「有」を示し、0 が「無」を示します。頻得点などのような連続
的なデータを「量的なデータ」とよび、このように単に有・無を示すよう
なデータを「質的なデータ」とよびます。
言語研究では、たった一度だけ出現するデータを特別に扱うことが一般的
です。偶然に現れたケースかもしれないからです。2 度の偶然は、ほとん
どあり得ないので、 2 以上を「有」 (1)のデータとして基準化する場合が多
いです。データが巨大になったときは、さらにこの基準を上げることがあ
ります。いずれにしても、結果はこの基準値に左右されますから、それを
しっかりと認識しておくことが必要です。
85
●尺度水準
これまでの説明で、質的データ、量的データという２つのタイプに大別し
ました。２つのデータの大きな特徴は、量的データは質的データに変換可
能であるのに対し、質的データは量的データに戻すことは出来ないという
点です。こうした質的データと量的データの特徴は、スタンレー 24 によっ
て考案された、「尺度水準」25 という考え方におおよそ準拠したものです。
尺度水準という考え方に基づけば、すべての数量データは「名義尺度」
「順序尺度」「間隔尺度」「比率尺度」という 4 つのタイプのいずれかに分
類できます。名義尺度に使用される値は、名前をそのまま数字に置き換え
たものであり、そのデータが、別のデータと同じか、違うかを区別するた
めに割り当てられた数値です。例えば、電話番号は名義尺度であるため、
ある番号が、他の番号と同じ番号か、違う番号かを区別するために使用し
ます。
順序尺度の値は、データが大きいか、小さいかを区別するための数値で
す。例えば、アンケート調査の「好き」「まあまあ好き」「どちらとも言
えない」「あまり好きではない」「好きではない」という項目に対し、5, 4,
3, 2, 1 という数値を割り振る場合が順序尺度です。つまり、このとき、数
値の中で、４の方が１よりも好きの度合いが優位だとわかります。
間隔尺度の値は、比較できる数値で、一般的には単位を持った値です。
例えば、摂氏の温度において、20℃ と 18℃ を比較したとき、2℃ 高かった、
２℃低かったという間隔を持った値であるため、間隔尺度です。間隔尺度
の特徴としては、ゼロという値が本来的な全く存在しないものという意味
ではないという点です。たとえば、0℃ という値でも、摂氏という温度自体
が消えてなくなるわけではなく、 0℃ が 5℃ よりも 5℃ 低いという便宜上の
値です。
比率尺度の値は、比較可能な数値であり、単位を持つという点は間隔尺
度の値と同じですが、ゼロになってしまうとそのデータ自体が全く意味を
持たなくなるものです。例えば、質量は何グラム増えた、減ったというこ
とを判断できますが、これが、0 グラムになると質量というもの自体がな
くなります。
このような 4 つの尺度に分けるメリットのひとつは、数値分析できる幅
がそれぞれ異なるという点です。名義尺度、順序尺度、間隔尺度、比率尺
度の順に、データとして求められた値の数値分析可能な幅が広がっていき
ます。数値分析が限られたものにしか適応出来ないものを「低水準」、幅
24
Stevens, S. S. 1946. “On the Theory of Scales of Measurement”. Science. Vol.
103, No. 2684, pp. 677–680.
25
尺度水準という考え方は、言語分析に限らず、その他の分野でも広く使
われる考え方です。
86
広く適応できるものを「高水準」とよぶこともあります。そうすると名義
尺度は低水準なのに対して、比率尺度は高水準であるということになりま
す。例えば、得点（頻度）は非常に幅広い尺度に適応でき、名義尺度、順
序尺度、間隔尺度、比率尺度のいずれにも適応可能です。中央値、最大値、
最小値は、順序尺度、間隔尺度、比率尺度に適応できます。和、平均、標
準偏差、相関係数は、間隔尺度、比率尺度に対して適応されます。それ以
外の複雑な数値分析であっても、比率尺度であれば適応可能である、とい
うことになります。
また、このような尺度を設けるメリットとしては、それぞれの変換可能
な方向性があるということです。つまり、高水準なものは低水準なものと
して扱うことができますが、低水準なものは高水準なものとして扱うこと
はできません。
ここで、４つの尺度と、言語分析における質的・量的データの関係性を
整理しておきましょう。一般には、名義尺度と順序尺度は「質的データ」
であり、間隔尺度と比率尺度は「量的データ」であるとされます。それは、
質的データと量的データの変換方向性によるものからも明らかです。ただ
し、数値分析可能な範囲が、質的データと量的データのどこまでできるか
については、きれいに対応関係は成立していない場合もあるので注意が必
要です。実際に分析するときに、質的データと量的データで数値データを
扱い、その関係性が明らかでないときには、上記の 4 つの尺度水準に立ち
返ることでそれが何の分析まで行っていいかの方針を決めることができる
でしょう。
TIPS 尺度水準と代表値の関係をまとめると次のようになります。 ×のと
ころは、該当の代表値がその尺度では使えないことを示します。
尺度と代表値
質的データ
量的データ
得点
中央値
平均
標準偏差
名義尺度
○
×
×
×
順序尺度
○
○
×
×
間隔尺度
○
○
○
○
比率尺度
○
○
○
○
4.1.7. 相関係数行列
ピアソンの相関係数 (Pearson's coefficient of correlation) は標準得点の積和
の平均で求めます (→ 『基礎』 )。ここでは 3 変数以上（多変数）のケース
を一度に示すために「相関係数行列」 (R pp ：下右表 )を出力します。
87
D
E
L
S
S.S.c.
E
L
a 45 48
66
a
-.980
-.323
b 56 59
54
b
.068
c 58 51
78
c
.259
d 77 72
20
d
2.068
1.850 -1.569
e 43 44
32
e
-1.170
-.686 -1.130
f
90
f
g 50 53 100
g
58 34
S
Correl
E
L
S
.115
E
1.000
.643
-.335
.673
-.324
L
.643 1.000
-.545
-.052
.554
S
.259 -1.591
-.504
.129
-.335
-.545 1.000
.994
1.360
そのための準備としてデータ行列 (D n p ：下左表 )から標準測度行列 (Z n p ：下
中表 )を作成します。
Z n p = (D n p – Mp') / Sp'
ここで、Mp'は D np の縦列の平均 (横ベクトル )を示し、Sp は D np の縦列の標
準偏差 (横ベクトル )を示します。この標準測度行列 (Z n p )を掛け合わせて積
和の正方対照行列を作り、個数 (n)で割って平均を出したものが相関行列
(R p p )です。
Rp p = Zn p ' Zn p / N
この式は重要なので上の例で行列の成分を確かめておきましょう。
Zn p ' Zn p
−0.98 0.07 …
= [−0.32 0.67 …
0.12 −0.32 …
𝑟11
𝑟
= [ 21
𝑟31
𝑟12
𝑟22
𝑟32
−0.98 −0.32
−0.50
0.07
0.67
0.13 ] [
…
…
1.36
−0.50 0.13
0.12
−0.32
]
…
1.36
𝑟13
𝑟23 ]
𝑟33
行列積の演算により、
r 1 1 = -0.98*-0.98 + 0.07*0.07 + ⋯ +
-0.50*0.50 = 7.00
r 1 2 = -0.98*-0.32 + 0.07*0.67 + ⋯ +
-0.50*0.13 = 4.50
r 1 3 = -0.98*0.12 + 0.07*-0.32 + ⋯ +
-0.50*1.36 = -2.34
r 2 1 = -0.32*-0.98 + 0.67*0.07 + ⋯ +
0.13*0.50 = 4.50
r 2 2 = -0.32*-0.32 + 0.67*0.67 + ⋯ +
0.13*0.13 = 7.00
r 2 3 = -0.32*0.12 + 0.67*-0.32 + ⋯ +
0.13*1.36 = -3.82
r 3 1 = 0.12*-0.98 + -0.32*0.07 + ⋯ +
1.36*0.50 = -2.34
r 3 2 = 0.12*-0.32 + -0.32*0.67 + ⋯ +
1.36*0.13 = -3.82
r 3 3 = 0.12*0.12 + -0.32*-0.32 + ⋯ +
1.36*1.36 = 7.00
このように Rpp がすべての成分が積の和になること、対角成分がそれぞれ
88
の列の 2 乗和になること、非対角成分が該当する 2 つの列の成分の積の和
になること、対照成分の成分がすべて同値になること、全体の行列の形が
正方行列であること、そして行列の大きさが [3 行 7 列 ]x[7 行 3 列 ]の積なの
で [3 行 3 列 ]になることを確認しましょう。
●平均ベクトル
はじめに、縦列の平均を示す横ベクトル Tp を作ります。
Tp' = Un' D np
D
Tr(Uv(7)) 1 2 3 4 5 6 7
1
1 1 1 1 1 1 1
E
L
S
a 45 48
66
b 56 59
54
c 58 51
78
d 77 72
20
e 43 44
32
f
90
58 34
g 50 53 100
(Tr(Uv(7)))(D)
1
E
L
387
S
361
440
次に、これをデータ数 (N=7)で割った値が縦列平均横ベクトル (AV p)です。
AVp = Un' D np / N
((Tr(Uv(7)))(D))/(7)
1
E
L
S
55.286 51.571 62.857
●標準偏差ベクトル
データ行列 D n p から平均横ベクトル AVp を引いて偏差行列を作り、その成
分の 2 乗和を N で割って、標準偏差横ベクトル SDp を作ります。
SDp = {SumC[(X n p – AVp) 2 ] / N} 1 /2
SDp = E(D(SumC(E(S(X n p , AVp), 2)), N), 0.5)
89
4.2. 類似係数
4.2.1. 類似係数の種類
2 つのデータの間の関係を見るときに目安になるのが共通して「有」(=1)
が起きる回数です。たとえば、先の図では「手紙」と「演劇」で共にプラ
スになっている語は abajo, abandonar, abeja, abogado の 4 語です。これを
「共起回数」とよびます。共起回数はデータの規模に左右されるので、これ
を標準的な値にするためにいろいろな方法が提案されてきました。ここで
は、2 つのデータ（たとえば、「手紙」と「演劇」）が類似している度合
いを数値化するための 7 つの係数を紹介します。
単純に共起回数だけでは相対化できないので、次のような 2 × 2 の表を
作り、それぞれ a, b, c, d の 4 つを考慮します。 a, b, c, d のそれぞれは、高
校数学までに習った四象限（ quadrants）で示せば、順に第 Ⅰ 象限 (+/+)、第
Ⅱ 象限 (+/-)、第 Ⅲ 象限 (-/+)、第 Ⅳ 象限 (-/-)に相当する値です。a は x も y も
「有」 (=1)の個数です。 b は x が「有」 (=1)かつ y が「無」 (=0)のとき、 c は
x が「無」 (=0)かつ y が「有」 (=1)のとき、そして d は x も y も「無」 (=0)
の個数です。たとえば先の図のデータでは a=4 {abajo, abandonar, abeja,
abogado}, b=3 {abarcar, abastecimiento, abonar}, c=2 {abatir, aborrecer},
d=6 {abandono, abertura, abismo, abnegación, abono, abordar}となります。
x /y
y (x)
y (-)
x (+)
a (x+, y+) 4
b (x+, y-) 3
x (-)
c (x-, y+) 2
d (x-, y-) 6
類似係数はこれらの数値 (a, b, c, d)を利用します。 d を使わない係数もあり
ます。類似度係数全体についてほぼ共通していることは、どちらにも共通
する肯定的要素 (a)と、どちらにも共通している否定的要素 (d)の数が多けれ
ば多いほど、類似係数は大きくなる、ということです。逆に一方だけにあ
る要素の数 (b, c)が大きくなればなるほど、類似係数は小さくなります。以
下の７つは、その類似度を正規化した数値として求めるために考案された
係数です。
(1) はじめに単純一致係数 (simple matching coefficie nt : s.m. )をみましょう。
単純一致係数 (s.m.) = (a + d) / (a + b + c + d)
0.0 ≦ s.m. ≦ 1.0
これは、対象 X と対象 Y に共通して「 +」がある回数 (a)と、それが共に存
在しない回数 (d)の和を全体の数で割ります。a = d = 0 のとき最小値 0 にな
り、b = c = 0 のとき最大値 1 になります。
(2) Jaccard 係数は分子にも分母にも d を使いません。a = 0 のとき最小値 0
90
になり、 b = c = 0 のとき最大値 1.0 になります。
Jaccard 係数 (j.) = a / (a + b + c)
0.0 ≦ j. ≦ 1.0
Dice-Sorenson (Jaccard -2)は Jaccard の A を 2 倍しています。 A の対値 B, C
が 2 つなので、それにつり合わせた数値になります。
Jaccard-2 係数 (j2.) = 2a / (2a + b + c)
0.0 ≦ j2. ≦ 1.0
(3) Russel and Rao 係数は分子の d を考慮しません 26 。対象 X, Y でともに「＋」
である回数だけをカウントします。分母は (1)と同じです。 a = 0 のとき最
小値 0 になり、b = c = d = 0 のとき最大値 1 になります。
Russel and Rao 係数 (r.r.) = a / (a + b + c + d)
0.0 ≦ r.r. ≦ 1.0
そこで、 Russel-Rao の A も対値 B, C, D につり合わせて Russel-Rao-3 を作
ることにします。
Russel and Rao-3 係数 (r-r3) = a / (a + b + c + d)
0.0 ≦ r-r3. ≦ 1.0
(4) Dice 係数は Jaccard 係数の a を 2 倍にしたものです。a = 0 のとき最小値
0 になり、 b = c = 0 のとき最大値 1.0 になります。 (→ 後述 )
Dice 係数 (d.) =
2a / (2a + b + c)
0.0 ≦ d. ≦ 1.0
(5) Yule 係数は ad と bc の差を問題にします。 (1)の単純一致係数では a と
d を足していますが、 Yule 係数では掛けることになります。それから分子
は ad と bc の差なので、それがマイナスになることもあります。 ad = 0 の
とき最小値 -1 になり、 bc = 0 のとき最大値 1 になります。 ad = bc のとき
は最小値と最大値の中間 0 になります。 a, b, c, d のいずれかが 0 のとき、
結果に大きく影響します。
Yule 係数 (y.) = (ad – bc) / (ad + bc)
-1.0 ≦ y. ≦ 1.0
(6) Hamann 係数は a + d と b + c の差を問題にします。 Yule 係数では a と
d, b と c の関係を積で示しますが、Hamann 係数ではそれを和で示していま
す。 a = d = 0 のとき最小値 -1 になり、 b = c = 0 のとき最大値 1 になりま
す。a + d = b + c のときは最小値と最大値の中間 0 になります。
Hamann 係数 (h.) = [(a+d) – (b+c)] / [(a+d) + (b+c)]
-1.0 ≦ h. ≦ 1.0
(7) Phi 係数は少し複雑な式です。これは積率相関係数と関係します。 (→
26
d の数値の扱い方については、この後説明します。
91
後述)
Phi 係数 (ph.) =
ad - bc
(a + b)(a + c)(b + d)(c + d)
-1.0 ≦ Phi ≦ 1.0
(8) Ochiai 係数は、 a / (a + b)と a / (a + c) の幾何平均です。それぞれの a
の比率に注目しています。
Ochiai 係数 (o.) =
a
(a + b)(a + c)
0.0 ≦ o. ≦ 1.0
● 積率相関係数と Phi 係数
Phi 係数は「有 (＋ )」を 1,「無 (-)」をゼロ (0)とすれば、一般の連続量を扱
う相関係数 (ピアソンの積率相関係数 )から導出できます。
X/Y
y(1)
y(0)
和
x(1)
a (1,1)
b (1,0)
a+b
x(0)
c (0,1)
d (0,0)
c+d
和
a+c
b +d
a+b +c+d
はじめに総データ数を n とします。
n=a+b +c+d
先に見たように相関係数（標準得点の積和の平均）の式は次の通りです。
{ [(x 1 - m x ) / σ x ][(y 1 - m y ) / σ y ]
r=
+ [(x 2 - m x ) / σ x ][(y 2 - m y ) / σ y ]
(...)
+ [(x n - m x ) / σ x ][(y n - m y ) / σ y ] } / n
σx と σy を分母に移すと
r
= [ (x 1 - m x )(y 1 - m y )
+ (x 2 - m x )(y 2 - m y )
+ (...)
+ (x n - m x )(y n - m y ) ] / (σ x σ y n) … ①
先に①の分子だけを取り上げましょう。
r
分子
= (x 1 - m x )(y 1 - m y )
+ (x 2 - m x )(y 2 - m y )
+ (...)
+ (x n - m x )(y n - m y )
92
それぞれ展開して
r
分子
= (x 1 y 1
- x1my
- mxy1
+ mxmy)
+ (x 2 y 2
- x2my
- mxy2
+ mxmy)
+ (x n y n
- xnmy
- mxyn
+ mxmy)
：
：
：
：
(1)
(2)
(3)
(4)
+ (...)
縦の列をまとめて、
r
分子
= (x 1 y 1 + x 2 y 2 + ... + x n y n ) ...(1)
- m y (x 1 + x 2 + ... + x n )
...(2)
- m x (y 1 + y 2 + ... + y n )
...(3)
+ nm x m y
...(4)
ここで、 (1) x 1 y 1 + x 2 y 2 + ... + x n y n のうち、 b(1, 0), c(0, 1), d(0, 0)にあたる部
分ではＸとＹの少なくとも１つがゼロなので、その積もゼロになります。
それで結局は
x 1 y 1 + x 2 y 2 + ... + x n y n =
a
となります。また
x 1 + x 2 + ... + x n = a + b ... Ｘの総和
y 1 + y 2 + ... + y n = a + c ... Ｙの総和
m x = (a + b) / n
... Ｘの平均
m y = (a + c) / n
... Ｙの平均
となるので分子は
r
分子
= a
...(1)
- (a + b)(a + c) / n
...(2)
- (a + b)(a + c) / n
...(3)
+ (a + b)(a + c) / n
...(4)
= a - (a + b)(a + c) / n
= [na - (a + b)(a + c)] / n
n = a + b + c + d なので
r
分子
= [(a + b + c + d)a - (aa + ac + ba + bc)] / n
= (aa + ab + ac + ad - aa - ac - ab - bc) / n
= (ad - bc) / n …②
93
となります。この分子の式はＸとＹに共にある場合の数 (a)と、共にない場
合の数 (d)の積から、片方にしかない 2 つの場合の数 (b と c)の積を引いたも
のです。a も d もＸとＹのプラス・マイナスが同じ場合です。逆に、b と c
はＸとＹのプラス・マイナスが反対になる場合だから、ad - bc がＸとＹの
相関を示すのに合理的な数値に関わることが直感的に納得できます。
次に①の分母を r
r
r
分母
分母
分母
とします。
= σxσyn
のうちのＸの標準偏差 σ x を取り上げましょう。ルート（根）があると
ややこしくなるので、とりあえず２乗したもの（つまり、σ x 2 なので分散値）
で計算し、後でその根を計算します。
σx2
= [ (x 1 - m x ) 2
+ (x 2 - m x ) 2
+ ...
+ (x n - m x ) 2 ] / n
それぞれの項を展開して、
σx2
= [(x 1 2
- 2x 1 m x
+ mx2)
+ (x 2 2
- 2x 2 m x
+ mx2)
+ (x n 2
- 2x n m x
+ m x 2 )] / n
：
：
：
(1)
(2)
(3)
+ ...
縦の列をまとめて、
σx2
= [(x 1 2 + x 2 2 + ... + x n 2 )
... (1)
- 2m x (x 1 + x 2 + ... + x n )
... (2)
+ (m x 2 + m x 2 + ... +m x 2 ] / n
... (3)
= [(x 1 2 + x 2 2 + ... + x n 2 )
... (1)
- 2m x (x 1 + x 2 + ... + x n )
... (2)
+ nm x 2 ] / n
... (3)
x 1 , x 2 , ... x n はすべて 1 または 0 です。そこで X の総数は a + b となるので
（【図 3.3d】）、次のようになります。
x 1 + x 2 + ... + x n = a + b
x 1 2 + x 2 2 + ... + x n 2 = a + b
m x = (a + b) / n
94
これを先の式に代入すると、
σx2
= [(a + b)
...(1)
- 2(a + b) 2 / n
2
...(2)
2
+ n(a + b) / n ] / n
...(3)
= {(a + b) – [2(a + b) 2 +(a + b) 2 ] / n} / n
= [a + b – (a + b) 2 / n] / n
= [(a + b)n - (a + b) 2 ] / n 2
= [(a + b)(a + b + c + d) - (a + b) 2 ] / n 2
= (a + b)(c + d) / n 2
ここで、 σ x 2 から σ x に戻します 27 。
Ｘの標準偏差 σx =
同様にして、r
σy2
分母
(a + b)(c + d) / n …③
の σy を求めます。
= [ (y 1 - m y ) 2 + (y 2 - m y ) 2 + ... + (y n - m y ) 2 ] / n
= [(y 1 2 - 2y 1 m y + m y 2 ) + (y 2 2 - 2y 2 m y + m y 2 ) + ...+ (y n 2 - 2y n m y + m y 2 )] / n
= [(y 1 2 + y 2 2 + ... + y n 2 ) - 2m y (y 1 + y 2 + ... + y n ) + nm y 2 ] / n
= [(a + c) - 2(a + c) 2 / n + n(a + c) 2 / n 2 ] / n
= (a + c)(b + d) / n 2
σy2 も σy に戻します。
Ｙの標準偏差 σy=
(a + c)(b + d) / n …④
上記①に、②と③④を代入すれば、こうして数値が 0 と 1 だけのデータの
相関係数（ Phi 係数： Phi）は全体で次のようになります。
Phi
=
(ad - bc) / n
n (a + b)(c + d) / n * (a + c)(b + d) / n
=
ad - bc
(a + b)(a + c)(c + d)(b + d)
分母は (a, d)と (b, c)をそれぞれ組み合わせて和としたものを全部掛け合わ
せています。
● Phi 係数と Ochiai 係数
理論的に導き出された Phi 係数を実際に適用してみると不都合なときがあ
ります。次のデータを比べてみましょう。
27
つまり、分散値を標準偏差に戻します。
95
データ (1)
データ (2)
ここでそれぞれの phi 係数を求めてみます。 Phi (1)はデータ (1)、 Phi (2)は
データ (2)の Phi 係数です。
Phi (1)
100×2 - 10×20
=
(100 + 10) ×(100 + 20)×(20 + 2) ×(10 + 2)
0
=
=0
(100 + 10) ×(100 + 20)×(20 + 2) ×(10 + 2)
Phi (2)
=
=
4×50 - 10×20
(4 + 10) ×(4 + 20)×(20 + 50) ×(10 + 50)
0
(4 + 10) ×(4 + 20)×(20 + 50) ×(10 + 50)
=0
どちらも Phi 係数の分子の ad－ bc がゼロとなるので、 Phi 係数もゼロにな
ります。しかし、データ (1)とデータ (2)を比べれば (1)のほうがずっと類似
度が高いように思えます。プラス (+)を共有するケースが 100 もあるからで
す。これは全体 132 の 75.8%にあたります。それに対して (2)はどうでしょ
うか。わずか 4 回の共起回数で計算すると 4.8%になります。
この原因は d(0-0)の数値の扱い方にあります。ＸにもＹにもない要素は
与えられたデータに限れば有限ですが、Ｘ、Ｙ以外のデータに存在して、
ＸにもＹにもなかったものです。そうした d の値は、ＸとＹの内容にかか
わらず、一般にいくらでも増やすことができます。つまり、理論的には d
の数は無限 (∞)であると考えられます。たとえば、Ｘと Y という二人が読
んだことがある本を数えるとき、どちらも読んだことのない本の数は無限
（本が無限に出版されるとして）だと考えられます。
そこで、先の式で d が無限になると仮定してみましょう。 phi 係数で d
が無限大になるものを phi’とします。
Phi’. = d lim
→ ∞
ad - bc
(a + b)(c + d)(a + c)(b + d)
分母と分子を d で割ります。
Phi’ = d lim
→ ∞
a - bc/d
(a + b)(a + c)(b/d + 1)(c/d + 1)
96
それぞれの分母になる d を無限大にすると、分子に何があってもゼロとな
ります。
Phi’ =
a
(a + b)(a + c)
これが Phi 係数の修正版（ Ochiai 係数 : ochi.）です。とてもシンプルになり
ました。先のデータ (1), (2)で計算してみましょう。
Phi’ (1) =
100
= 0.870
(100+10)(100+20)
Phi’. (2) =
4
= 0.218
(4+10)(4+20)
このように、Phi 係数で区別できなかった両者も Ochiai 係数 (Phi')を利用す
ればデータ (1)の方がデータ (2)よりも類似性が高いという直感を裏付ける
ことができます。
● 相互情報量と Dice 係数
言語研究ではたとえば 2 つの語の結合度を調べるために、相互情報量とい
う数値を使います。これあｈ、共起得点 (a)をデータ全体で理論的に期待で
きる共起得点（期待値）で割った値の対数（底 =2）です。
相互情報量 =
log 2 (
共起度数・全度数
)
度数 X・度数 Y
たとえば、あるスペイン語の資料で muy (='very')という語の得点が 120, bien
(='well')の得点が 167, 全語数が 26578 でした。そうすると、 muy と bien
が共起得点が理論的に期待できる値は (120/26578) x (167 / 26578)となりま
す。これは、それぞれが出現する確率の積です。そして、実際の資料では
muy + bien が 47 出現しました。これは 47/26578 という確率です。そこで
相互情報量を計算するために、はじめに共起得点をデータ全体で理論的に
期待できる共起得点（期待値）で割った値を求めましょう。
(47/26578) / [(120/26578) x (167 / 26578)]
= (47 x 26578) / (120 x 167) = 62.334
これの対数（底 =2）は 5.962 となります。これが相互情報量です。底を 2
とする対数は一般に情報量を示します。たとえば、16 の可能性がある事象
の情報量は 16 = 2 4 なので、 4 (=log 2 16)となります。
Dice 係数は共起得点を得点 (x)と得点 (y)の平均で割った値です。ここで
は相互情報量のように全語数を計算に含めることはしません。
97
Dice 係数 (d.) =
共起度数
0.0 ≦ d. ≦ 1.0
(度数(x)  度数 (y) ) / 2
分子の共起得点は上の表の a にあたります。得点 (x)は a + b にあたります。
これは x が y と共起するケース数と y と共起しないケース数の合計になり
ます。同様に得点 (y)は a + c です。よって、
Dice 係数 (d.) =
a
2a
=
(2a + b + c) / 2
(2a + b + c)
b = c = 0 のとき最大値 1 になり、 a = 0 のときに最小値 0 になります。 Dice
係数は Jaccard の a を 2 倍にしたものです。a と b+c を対照化する、と考え
れば、 a が 2 数 (b, c)と対照化しているので、 Dice 係数のほうがつり合いが
とれていると思います。
●両者に存在しない特徴
かつて印欧言語学の分野では Phi 係数を使った Kroeber (1937, 1969) と
Ochiai 係数を使った Ellegard (1959)の間に論争がありました。これを安本
(1995)が簡単に解説しています。この問題は、一般に類似係数のどちらか
が正しいということではなくて、データの種類や性格によって係数の選択
を考えるべきでしょう。たとえば、アンケート調査などで「賛成」と「反
対」という回答があるとすれば、単に両者が一致して「賛成」と答えた場
合の数 (a)だけでなく、一致して「反対」と答えた場合の数 (d)も同時に考慮
されるべきです。
2 つのデータだけでなく、多数のデータ間の類似度を見る場合には、問
題の両者に存在しない特徴であっても他のデータに存在する特徴であるな
らば、どちらもその特徴を持たないという否定的な一致はそれなりの意味
をもつと考えられます。
4.2.2. 優先係数
以上がよく使われている代表的な類似度係数ですが、そのほかにも次のよ
うな類似度係数が考えられます。ここでは、 X/(X+Y) という相対値 (r:
relative)、または (X – Y) / (X + Y)という対照値 (c: contrast)によって分類し、
さらに d 値の有無、積算 (mult.)の有無を明記しました 28 。
28
これらの中にはすでに取り上げたものもありますが、全体を整理するた
めに含めました。
98
考えられる類似度係数
X
Y
r:c
d
mult.
1. [a - (b + c)]/[a + (b + c)]
a
b +c
c
-
-
2. 2a / [2a + (b + c)]
2a
b +c
r
-
-
3. [2a - (b + c)] / [2a + (b + c)]
2a
b +c
c
-
-
2
bc
r
-
+
a2
bc
c
-
+
a
√ (bc)
r
-
+
a
√ (bc)
c
-
+
8. (a + d) / [(a + d) + (b + c)]
a+d
b +c
r
+
-
9. [(a + d) - (b + c)]/[(a + d) + (b + c)]
a+d
b +c
c
+
-
ad
bc
r
+
+
ad
bc
c
+
+
√ (ad)
√ (bc)
r
+
+
√ (ad)
√ (bc)
c
+
+
2
2
4. a / (a + bc)
2
a
2
5. (a - bc)/ (a + bc)
6. a / [a + (bc) 1 /2 ]
7. [a - (bc)
1 /2
] / [a + (bc)
1 /2
]
10. ad / (ad + bc)
11. (ad - bc) / (ad + bc)
12. (ad)
1 /2
13. [(ad)
1 /2
/ [(ad)
1 /2
- (bc)
1 /2
+ (bc)
1 /2
] / [(ad)
]
1 /2
+(bc)
1 /2
]
さらに、4 と 10 は次数が 2 になっているので、次の式で次数を 1 に下げ
ることも考えられます 29 。
4’. a / (a 2 + bc) 1 /2
10’. [ad / (ad + bc)] 1 /2
ここで上の 3.を「優先係数」 ( coefficient of preference)と名付けて活用し
たいと思います。「優先係数」は後述するように他の係数と比較して利点
が多いからです。 2a が b + c と比べてどの程度優先されているのかを示し
ます。優先係数 (p.)は 2.Dice 係数の 2a と (b+c)を対照化させた係数です。
Preference 係数 (p.) =
2a - b - c
2a + b + c
p.: -1.0 (a=0) ≦ 0.0 (2a = b+c) ≦ 1.0 (b=c=0)
4.2.3. 類似度係数の比較
Phi 係数と Ochiai 係数の選択に限らず、実際の分析でこれらの類似度係
数のうちどれを使えばよいのか迷うことがあります。そのとき、いくつか
の選択の方法が考えられるでしょう。その選択の基準もさまざまです。た
とえば、これらの係数を利用して誰かの前で発表することを考えてみまし
ょう。発表がそうした係数の数値自体による裏付ける根拠よりも、その先
にある類似性を主張することが大きな目標であり、他の根拠に十分裏付け
られているのであれば、単純一致係数や Russel and Rao 係数や Jacard 係数
29
10 と 16 は分子が負になることがあるので、根を使うことができません。
99
のように係数の説明に多くの時間を割かずに済む、わかりやすい係数を選
択するという決定も考えられます。類似度係数が、強い裏付けの根拠とし
て重要な意味を持つならば、 Yule 係数や Hamann 係数を選択し、その数値
の性質について丁寧な説明が必要になります。そして、統計に慣れている
人に発表するならば、よく知られている Phi 係数を使えばその説明は必要
なくなります。 Phi 係数にわずかな説明を加えることで Ochiai 係数を使う
こともできるでしょう。1 つだけでなく複数の係数を選択して、それぞれ
を比較し、考察することも考えられます。
しかし、このような決定は本質的ではなく、実際的な条件に従っていま
す。本質を追究するには、それぞれの係数の性質と分析対象のデータの性
質をよく理解して、本質的な条件と実際的な条件のどちらも考慮に入れた
上で決定しなくてはいけません。そうすれば、自分でも納得ができますし、
自信をもって説明できます。
それぞれの係数の性質を比べると、共通する性質があることがわかりま
す。先に見た「両者に存在しない特徴 (d)」の扱いのほかに、逆方向を検知
するかどうか（マイナスになるか）、完全に等質な分布のときゼロになる
かどうか、などについて、しっかり理解しておく必要があります。次の表
はそれぞれの特徴の分布を比較したものです。ここで d 値 (0:0)を扱わない
(-)、逆方向を検知する (v)、積算がない (-)、という条件をつけるならば優先
係数 (Preference: p.)を選択するとよいでしょう。
性質
s.m.
r.r.
j.
d.
y.
h.
ph
o.
p
d (0:0)を扱う
v
-
-
-
v
v
v
-
-
逆方向 (-)を検知
-
-
-
-
v
v
v
-
v
積算がある
-
-
-
-
v
-
v
v
-
逆方向を検知する係数は完全に等質な分布のときゼロになります。これ
は、次のような実験をするとわかります。
ここで、-1 から 1 の間をとる係数ならばゼロになりますが、他の係数は 0.5
(s.; o.), 0.25 (r.r.), 0.33 (j.) になる、ということを心得ておかなければなり
100
ません。たとえば、相関係数が 0.5 ならば「中度の相関がある」と判断し
ますが、それが s.や o.の値ならばまったく相関がないことを示しています。
次の表と図は b=2, c=4, d=8 で固定し、共起回数 (a)を 0 から 10 に上げて
いったときのそれぞれの係数の変化を示しています。
C o - o c c ur r e nc e ( a + / + )
0
1
2
3
4
5
6
7
8
9
10
b (+/-)
2
2
2
2
2
2
2
2
2
2
2
c (-/+)
4
4
4
4
4
4
4
4
4
4
4
d (-/-)
8
8
8
8
8
8
8
8
8
8
8
.57
.60
.00
.07
.00
.14
.00
.22
-1.00
.00
.14
.20
-.26
.00
.00
.26
- 1.00 - .50
.63
.13
.25
.33
.33
.25
.15
.41
- .20
.65
.18
.33
.40
.50
.29
.25
.51
.00
.67
.22
.40
.44
.60
.33
.32
.58
.14
.68
.26
.45
.48
.67
.37
.37
.63
.25
.70
.30
.50
.50
.71
.40
.41
.67
.33
.71
.33
.54
.52
.75
.43
.44
.70
.40
.73
.36
.57
.53
.78
.45
.47
.73
.45
.74
.39
.60
.55
.80
.48
.49
.75
.50
.75
.42
.63
.56
.82
.50
.51
.77
.54
Simple match
Russel and Rao
Jaccard
Dice
Yule
Hamann
Phi
Ochiai
P r e fe r e nc e
これを見ると、逆方向を検知しない Simple match, Russel and Rao, Jaccard,
Dice の振幅が小さく、とくに Simple match の振幅が小さいことが確認でき
ます。そして、 Phi や Ochiai の振幅は小さく、同じ程度の幅であることも
わかります。それらに対して Yule と Preference の振幅が大きいことが特徴
的です。Yule の上昇は急ですが、Preference は比較的緩やかに上昇します。
このことは a[++]の値が高い場合の弁別性を保証します。
ほかにもいろいろな実験をしてそれぞれの係数の性質を調べておく必
要があるでしょう。データ分析ではさまざまなデータを扱ったことのある
101
人であれば経験が生かして係数を選択できます。私たちはデータ分析を始
めたばかりなのであまり経験はありませんが、何度でも実験で確かめるこ
とはできます。実際のデータには数の限りがありますが、実験はいくらで
も可能です。また、私たちが経験する実際のデータはかなり偏りがあるの
が普通ですが、実験するときは全部自分でコントロールできますから、納
得がいくまで確かめることができます。
数値を積算している係数は、それぞれの項目の増減がそれを構成する要
素の増減に比例しているので、考えてみると納得できますが、問題点とし
て積算の片方がゼロになると他方にどのような数値があっても、ゼロにな
ってしまうことがあげられます。また、分母で積算されているとそれがゼ
ロになったとき計算できなくなります。たとえば Ochiai で (a+b)がゼロにな
った場合です。このとき c に値があっても計算されません。一方、数値を
積算していない係数は、結局「割合」に過ぎないので、ほとんど考えなく
てもわかります。これが実際的な選択の条件となることもあるかもしれま
せん。
データの性質として、方向性があるものならば、逆方向を探知する係数
を選択すべきです。たとえば「賛成」と「反対」で回答したアンケート調
査などは、「賛成」の数だけでなく、「反対」の数も考慮に入れるべきで
す。一方、2 つの文献の語彙比較調査などは、ある単語が使われている、
と、使われていない、という数値を同等に扱うよりも、使われているケー
スだけで計算したほうがよいと思われます。どちらにも使われていない、
という語彙は無限に存在するからです。しかし、一定の語彙範疇（たとえ
ば「指示詞」「関係代名詞」など）で複数の文献を調査するときは、否定
的な反応も考慮に入れるべきでしょう。
分析の手順としては、完全に理解して経験を積む前は、とりあえず全部
の係数を比較し、大きく異なる結果を出した係数について、その原因を探
り、次にデータと照合して、データの性質を一番よく示している、と思わ
れる係数を選択するとよいでしょう。そのためには、データの性質をよく
知っていることと、係数の性質をよく理解していることが必要です。何度
でも実験をして確かめてください。
■外国語学習・獲得と「価値」の優先度
語彙学習、さらに外国語学習一般において、学習者が認識する「価値」
の優先度が高い、という仮説を立てたいと思います。語彙についていうと、
単語の意味に学習者が「価値」を見出すと、それが優先的に獲得される、
という仮説です。これは、いわゆる「重要単語」のことではありません。
なぜなら、重要単語で示されている「重要性」は学習者の認める価値とは
異なる場合があるからです。
この仮説を検証するために次のような実験をしてみました。一定の量の
102
単語リストについて、はじめに「自分にとって価値の優先度の高い」単語
にマークし、その後全体の記憶練習をして、その結果をそれぞれの単語数
について集計します。この実験に 12 人が参加しました。
(a) +/+:
「比較的価値が高い単語 (+)」 /「学習成功 (+)」
(b) +/-:
「比較的価値が高い単語 (+)」 /「学習失敗 (-)」
(c) -/+:
「比較的価値が低い単語 (-)」 /「学習成功 (+)」
(d) -/-:
「比較的価値が低い単語 (-)」 /「学習失敗 (-)」
参加した 12 人の結果は Yule も Hamann もプラスになっていますからこ
の仮説に沿うものです。
かなり敷衍して考えてみると、はたして私たちは外国語をくりかえし練
習して獲得するのでしょうか？もしかしたら「価値」の優先度が強く働い
た要素は瞬間的に獲得しているのかもしれません。とくにがんばって記憶
練習した覚えもないのに獲得してしまった語があるとすれば、それは「価
値」のある単語だった可能性が高いと思われます。そうだとすると、外国
語（やその他の科目）を、がんばって学習するよりも、価値を見出して獲
得してしまうほうが効果的ではないでしょうか。
価値を見出すためには、「形式 → 意味」という流れの教育・学習よりも、
「意味 → 形式」という流れのほうが効果があると考えられます。私たちは（外
国語の）形式を見て価値を見出すことはあまりありませんが、意味につい
ては、その価値の有無・程度を瞬間的に判断することができるからです。
4.2.4. 類似係数行列
各種の四分点相関係数（→『基礎』）の類似係数行列を作るために、1 ま
たは 0 からなるデータ行列 (Q n p )の各変数（列）について、 2 つずつの変数
(x i , x j )の組み合わせで、 x i =1, x j =1 のケース数 (A p p )、 x i =1, x j =0 のケース数
(B p p )、x i =0, x j =1 のケース数 (C p p )、x i =0, x j =0 のケース数 (D p p )の行列を作り
ます。そのために初めにデータ行列のすべての成分について、0 と 1 を変
換した Wn p = 1 - Qn p という行列を用意します。
103
Q np
v1
v2
v3
v4
W np
v1 v2 v3 v4
d1
1
1
0
0
d1
0
0
1
1
d2
0
0
1
0
d2
1
1
0
1
d3
0
1
0
0
d3
1
0
1
1
d4
0
0
1
1
d4
1
1
0
0
d5
1
1
1
0
d5
0
0
0
1
この 2 つの行列を使って (A p p , B pp , C pp , D p p )を算出します。
A p p = Q np ' Q n p
B p p = Q np ' W n p
C p p = W np ' Q n p
D p p = W np ' W n p
Ap p は共起回数を示します。「行列」の転置と積の機能を使ってその成分
を確認しましょう。
Ap p = Q np ' Q n p
Q'
d-1
d-2
d-3
d-4
d-5
v-1
1
0
0
0
v-2
1
0
1
v-3
0
1
v-4
0
0
*
Q
v-1
v-2
v-3
v-4
1
d-1
1
1
0
0
1
d-2
0
0
0
1
1
d-3
0
0
1
0
d-4
d-5
=
Q'Q
v-1
v-2
v-3
v-4
0
v-1
2
2
1
0
1
0
v-2
2
3
1
0
1
0
0
v-3
1
1
3
1
0
0
1
1
v-4
0
0
1
1
1
1
1
0
他の対照行列の成分も確かめましょう。
B p p = Q np ' W n p
Q'
d-1 d-2 d-3 d-4 d-5
W
v-1 v-2 v-3 v-4
Q'W
v-1 v-2 v-3 v-4
v-1
1
0
0
0
1
d-1
0
0
1
1
v-1
0
0
1
2
v-2
1
0
1
0
1
d-2
1
1
0
1
v-2
1
0
2
3
v-3
0
1
0
1
1
d-3
1
0
1
1
v-3
2
2
0
2
v-4
0
0
0
1
0
d-4
1
1
0
0
v-4
1
1
0
0
d-5
0
0
0
1
104
C p p = W np ' Q n p
W'
d-1 d-2 d-3 d-4 d-5
Q
v-1 v-2 v-3 v-4
W'Q v-1 v-2 v-3 v-4
v-1
0
1
1
1
0
d-1
1
1
0
0
v-1
0
1
2
1
v-2
0
1
0
1
0
d-2
0
0
1
0
v-2
0
0
2
1
v-3
1
0
1
0
0
d-3
0
1
0
0
v-3
1
2
0
0
v-4
1
1
1
0
1
d-4
0
0
1
1
v-4
2
3
2
0
d-5
1
1
1
0
D n p = W np ' W n p
W'
d-1 d-2 d-3 d-4 d-5
W
v-1 v-2 v-3 v-4
W’W v-1 v-2 v-3 v-4
v-1
0
1
1
1
0
d-1
0
0
1
1
v-1
3
2
1
2
v-2
0
1
0
1
0
d-2
1
1
0
1
v-2
2
2
0
1
v-3
1
0
1
0
0
d-3
1
0
1
1
v-3
1
0
2
2
v-4
1
1
1
0
1
d-4
1
1
0
0
v-4
2
1
2
4
d-5
0
0
0
1
この 4 つの行列から次の式で各種の係数行列を求めます。以下では
np
を
省いて、たとえば An p を A とします。
単純一致 = (A + D) / (A + B + C + D)
Jaccard = A / (A + B + C)
Dice-Sorenson (Jaccard-2) = 2A / (2A + B + C)
Russel-Rao= A / (A + B + C + D)
Russel-Rao-3 = 3A / (3A + B + C + D)
Hama n n = [(A + D) - (B + C)] / [(A + D) + (B + C)]
Yule = (A*D – B*C) / (A*D + B*C)
Phi = (A*D – B*C) / [(A + B)(C + D)(A + C)(B + D)] 1 /2
Ochiai = A / [(A + B)(A + C)] 1 /2
Preference = (2 A – B – C) / (2A + B + C)
Root = A / [A + √ (BC)]
＊類似度係数については Anderberg (1973:93-126),
Romesburg (1989:
177-209)を参照しました。 Preference, Root, Greater は、ここで定義します。
類似係数行列の A, B, C, D 行列の算出法は河口 (1978: II, 30-31)を参照しま
した。
105
●占有度
次のようなサンプル（下左表）を使って「占有度」(Degree of possession)
と名付けるオプションを説明します。積和共起回数を計算すると下右表の
対照行列になります。
Q np
v1
v2
v3
v4
Q np '
v1
v2
v3
v4
d1
1
1
0
0
v1
2
2
1
0
d2
0
0
1
0
v2
2
3
1
0
d3
0
1
0
0
v3
1
1
3
1
d4
0
0
1
1
v4
0
0
1
1
d5
1
1
1
0
v1, v2 の間の共起回数は 2 と計算されますが、ここで注目したいのは d1
における v1, v2 の間の共起の様子と、 d5 におけるその様子との違いです。
左表を見ると d1 は唯一 v1, v2 だけを共有していますが、d5 では他に v3 で
も共有されています。ここで d1 のようなケースのほうが d5 のようなケー
スよりも重い価値があると解釈し、それを数量的に表現したいと思います。
次は、先の A, B, C, D のそれぞれの対照行列を作成するために用意した
Q n p と W np です (W n p = 1 – Q n p )。
Q np
v1
v2
v3
v4
W np
v1 v2 v3 v4
d1
1
1
0
0
d1
0
0
1
1
d2
0
0
1
0
d2
1
1
0
1
d3
0
1
0
0
d3
1
0
1
1
d4
0
0
1
1
d4
1
1
0
0
d5
1
1
1
0
d5
0
0
0
1
これをそれぞれ次のように変換します。
Q np *
v1
v2
v3
v4
W np *
v1
v2
v3
v4
d1
0.500 0.500 0.000 0.000
d1
0.000 0.000 0.500 0.500
d2
0.000 0.000 1.000 0.000
d2
0.333 0.333 0.000 0.333
d3
0.000 1.000 0.000 0.000
d3
0.333 0.000 0.333 0.333
d4
0.000 0.000 0.500 0.500
d4
0.500 0.500 0.000 0.000
d5
0.333 0.333 0.333 0.000
d5
0.000 0.000 0.000 1.000
たとえば、 d1 行には 1 が 2 個出現しているので、それぞれ 0.5 の価値が
ある、という考え方です。 d5 では 1 が 3 個なので、すべて 0.333 という数
値を与えます。 W np についても同様です。このようにして用意した Q np *と
W n p *を使って、それぞれの占有度指数を加味した類似係数を算出します。
106
最後にこの占有度指数を使わない四分点相関係数（下左）と、使った場合
（下右）を比較します（単純一致係数）。以下に見るように大小関係の傾向
は似ていますが、かなり大きな数値の差が観察されます。
Simple m.
v1
v2
v3
v4
Simple m.*
v1
v2
v3
v4
v1
1.000 0.800 0.400 0.400
v1
1.000 0.684 0.211 0.211
v2
0.800 1.000 0.200 0.200
v2
0.684 1.000 0.087 0.087
v3
0.400 0.200 1.000 0.600
v3
0.211 0.087 1.000 0.478
v4
0.400 0.200 0.600 1.000
v4
0.211 0.087 0.478 1.000
4.3. 距離係数
4.3.1. ユークリッド距離
個体間の相違を数理的に定めた距離によって表現します。データ行列の
それぞれの変数の分散が異なることを考慮して、はじめにデータ行列を標
準得点に変換します。
X n p = STD n p (D n p )
データ行列の中の 2 つの行 (x1, x2)の間の距離は一般に「ユークリッド距
離」(Euclid distance: E)とよばれる次の式を使います。それぞれの対の差を
2 乗して次々に足していき全部足して根をとり、変数の個数で割ります。
E 1 2 = {[(x 1 1 – x 1 2 ) 2 + (x 2 1 – x 2 2 ) 2 + … + (x n 1 – x n2 ) 2 ] 1 /2 } / p
E ij = {[Σ (k) (X k i – X k j ) 2 ] 1 /2 } / p
Ep = [(Xp – Yp)' (Xp – Yp)] 1 /2 / P
距離は数値が大きくなると両者間の関係が薄くなるので相関係数や類似
度係数と大小の方向が異なります。また、必ず正の数になることや最大値
が定まらないこも相関係数や類似度係数と異なります。
4.3.2. ミンコフスキー距離
ユークリッド距離の式の乗数 2 を 3 以上にしたり、また 1 にしたりする
こ
ともあります。1 にするときは単に Xp と Yp の差の総和を求めること
になりますが正負の値が相殺されてしまうので各項に絶対値を使います。
3, 5, …などの奇数の乗数を使うときも負の値になることがあるので、絶対
値にしなければなりません。E は乗数です。
M(1) = (|X 1 – Y 1 | + |X 2 – Y 2 | + … + |X p – Y p |) / p
107
M(2) = (|X 1 – Y 1 | 2 + |X 2 – Y 2 | 2 + … + |X p – Y p | 2 ) 1 /2 / p
(...)
M(E) = (|X 1 – Y 1 | E + |X 2 – Y 2 | E + … + |X p – Y p | E ) 1 /E / p
以上を一般化した乗和平均距離は「ミンコフスキー距離」 (Minkowski
distance: M)とよばれ、次のように定義されます。
Mp = [Σ (|Xp – Yp | E ] 1 /E / P
次は E=2 乗の場合です。
Result1.
English
Latin
Fisics
Minkowski d.
A
B
C
D
E
F
G
A
45
48
66
A
0.000
0.872
0.775
2.370
0.756
1.142
0.813
B
56
59
54
B
0.872
0.000
0.667
1.521
1.159
1.516
1.074
C
58
51
78
C
0.775
0.667
0.000
1.949
1.327
0.924
0.649
D
77
72
20
D
2.370
1.521
1.949
0.000
2.388
2.688
2.460
E
43
44
32
E
0.756
1.159
1.327
2.388
0.000
1.567
1.561
F
58
34
90
F
1.142
1.516
0.924
2.688
1.567
0.000
1.107
G
50
53
100
G
0.813
1.074
0.649
2.460
1.561
1.107
0.000
4.3.3. マハラノビス距離
データ行列の変数の分散と共分散をそれぞれ 1 と 0 に変換した後で、ユ
ークリッド距離を計算すれば、その距離は分散だけでなく共分散にも影響
されない数値になります。はじめにデータ行列を主成分分析（後述）をし
て変数間の共分散を 0 にします。さらにその得点を標準化して変数の分散
を 1 にします。こうした得点は中心（平均）からの等距離の範囲内に分布
することになります。一般に「マハラノビス距離」 (Mahalanobis distance)
はこの得点にユークリッド距離を使って測定しますが、ここでは一般化さ
せてミンコフスキー距離の乗数を使うことにします。
はじめに主成分分析の得点を出します。共分散が 0 になります。
Score
1
2
A
- .823
- .544
B
.635
C
Covariance
1
2
3
.325
1
2.026
.000
.000
- .149
.369
2
.000
.672
.000
- .176
.588
.007
3
.000
.000
.303
D
3.171
.218
- .239
E
- .510 - 1.668
- .270
F
- 1.383
G
- .916
3
.789 - 1.025
.766
.834
108
次は上左表を標準化した結果です。分散が 1 になります。
Std. S.: Col
1
2
3
Covariance
1
A
- .578
- .663
B
.446
C
2
3
.591
1
1.000
.000
.000
- .182
.671
2
.000
1.000
.000
- .124
.718
.013
3
.000
.000
1.000
D
2.228
.266
- .435
E
- .358 - 2.035
- .491
F
- .972
.963 - 1.864
G
- .643
.934
1.515
上左表の個体の距離をミンコフスキー (乗数 =2)距離で計算したものが、
マハラノビス距離です。
Mahalanobis d.
A
B
C
D
E
F
G
A
0.000 0.655 0.903 1.807
1.017 1.715 1.066
B
0.655 0.000 0.723 1.238
1.346 1.803 1.024
C
0.903 0.723 0.000 1.406
1.621 1.197 0.927
D
1.807 1.238 1.406 0.000
1.999 2.063 2.041
E
1.017 1.346 1.621 1.999
0.000 1.936 2.076
F
1.715 1.803 1.197 2.063
1.936 0.000 1.960
G
1.066 1.024 0.927 2.041
2.076 1.960 0.000
マハラノビス距離は固有行列を使うので、個体の数が変数の数より多い
ときでないと計算できません。
＊マハラノビス距離については奥村 (1986)を参照しました。
4.4. 順序連関行列
データ行列の数値そのものの相関ではなく、大小関係の順序の連関から
相互の関係を見るために、グッドマンとクラスカルの順序連関係数を使い
ます（ → 後述「分析」）。たとえば、次のデータの L1 と L2 の順序連関係
数 (Gk)を計算しましょう。
A
L1 L2 L3 L4 L5
G&K
L1
L2
L3
L4
L5
d1
10
19
14
7
12
L1
1.000
-.393
.028
.607
-.168
d2
11
7
10
0
1
L2
-.393 1.000
.371
.703
.113
d3
0
0
1
12
1
L3
.028
.371 1.000
.519
-.175
d4
0
1
2
3
3
L4
.607
.703
.519 1.000
-.472
L5
-.168
.113
109
-.175
-.472 1.000
はじめに、その肯定値 (Positive: P)と否定値 (Negative: N)を次のように計算
します。
P(L1, L2) = 10 x (7+1) + 11 x 1 = 91
N((L1, L2) = 11 x 19 = 209
よって
G & K (L1, L2) = (91 – 209) / (91 + 209) = -.393
4.5. 名義類似行列
行列の成分が数値ではなく名義のデータ行列を扱います。 A, B, C…は任
意の名義 (A, B, …など )、または名義列 (bueno, malo, regular, …など )としま
す。このような名義行列の変数の類似行列を「名義類似行列」 (Nominal
Association Matrix)とよぶことにします。たとえば、 v1-4 を地方名、 d1-5
はそれぞれの地方で発行された文書、 A, B, C, … を言語特徴、というよう
な資料を想定しましょう。
Lt-1 v1 v2 v3 v4
Lt-1
v1
v2
1.000
.600
d1
A
A
B
C
v1
d2
A
A
C
C
v2
d3
A
C
B
C
v3
-.600
d4
C
C
C
A
v4
-1.000
d5
B
B
C
C
.600 1.000
v3
v4
-.600 -1.000
-.600
-.600
-.600 1.000
-.200
-.600
1.000
-.200
たとえば、 v1 と v2 の相関 (0.600)は次のように計算します。両列に同じ
文字が使われている回数 (a:++)は 4, ある文字が v1 にあって v2 にない場合
の数 (b: +-)は 1, 逆にそれが v1 になくて v2 にある場合の数も 1 になるので、
先の優先係数の式 [2a – (b+c)] / [2a – (b+c)]を適用して、 [4x2 – (1+1)] / [4x2
+ (1+1)] = .600 となります。
この名義類似行列は次のような、1 つの成分の中に、複数の名義がある
場合にも計算できます。
110
Lt.Oc.
d1
v1
A
v2
v3
A,B
v4
14.Letter corr el.
v1
v2
v3
v4
B
C
v1
1.000
.500
.067
- .200
d2
B,D B,C,D B,C
D
v2
.500
1.000
.333
- .467
d3
A,B
B
B
C
v3
.067
.333
1.000
- .143
d4
C
C
A
A
v4
- .200
- .467
- .143
1.000
d5
B,C
C B,C B,C,D
たとえば、 v1 と v2 の相関 (0.520)は次のように計算します。 d1 では、 v1
の A と v2 の A,B を比べて、両者にある名義数 1 を a(++)とします。 v1 に
あって v2 にない名義数 0 を b(+-)とします。v2 にあって v1 にない名義数 1
を c(-+)b とします。この a, b, c を他の行 d2, …, d5 でも加算して計算した
優先係数の値が名義相関係数 (v1, v2) = 0.520 になります。すべての組み合
わせ (v1, …, v4)の名義相関係数を計算すると名義相関行列ができます。
111
5. 分析
「分析」では、データ行列全体をさまざまな視点から分析します。
5.1. 統計量の分析
5.1.1. 範囲の分析
データの範囲の状態を示す「最小値」「中間値」「最大値」「範囲」（最
大値－最小値）を調べます。
最小値中間値最大値
範囲
A
L1 L2 L3 L4 L5
A
d1
10
19
14
7
12
d1
7.00
13.00
19.00 12.00
d2
11
7
10
0
1
d2
.00
5.50
11.00 11.00
d3
0
0
1
12
1
d3
.00
6.00
12.00 12.00
d4
0
1
2
3
3
d4
.00
1.50
3.00
3.00
5.1.2. 中心の分析
データの中心である平均値、中央値、最頻値と、中央値・中間値との関
係を調べます。対照値については → 前述。たとえば平均値の「範囲内位置」
は次のようにして求めます。
範囲内位置（平均値）＝（平均値－最小値）／範囲
A
平均値中央値
d1
12.40
d2
対照値中間値
差(-)
対照範囲内位置
.40
.02
13.00
-.60
-.02
.45
5.80
7.00 -1.20
-.09
5.50
.30
.03
.53
d3
2.80
1.00
1.80
.47
6.00 -3.20
-.36
.23
d4
1.80
2.00
-.20
-.05
.09
.60
中央値平均値
差(-)
A
12.00
差(-)
1.50
.30
対照値中間値
差(-)
d1
12.00
12.40
-.40
-.02
d2
7.00
5.80
1.20
.09
d3
1.00
2.80 -1.80
-.47
d4
2.00
1.80
.20
.05
13.00 -1.00
対照範囲内位置
-.04
.42
1.50
.12
.64
6.00 -5.00
-.71
.08
.14
.67
5.50
1.50
112
.50
A
大数平均値平均値
d1
12.22
d2
差(-)
対照範囲内位置
.22
.01
13.00
-.78
-.03
.44
6.00
7.00 -1.00
-.08
5.50
.50
.04
.55
d3
1.89
1.00
.89
.31
6.00 -4.11
-.52
.16
d4
1.89
2.00
-.11
-.03
.11
.63
A
12.00
差(-) 対照値中間値
1.50
.39
切除平均値平均値差(-) 対照値中間値
差(-) 対照範囲内位置
d1
12.13
12.00
.13
.01
13.00
-.87
-.03
.43
d2
6.27
7.00
-.73
-.06
5.50
.77
.07
.57
d3
1.49
1.00
.49
.20
6.00 -4.51
-.60
.12
d4
1.93
2.00
-.07
-.02
.13
.64
A
1.50
.43
最頻値：頻度平均値差(-) 対照値中間値
d1
12.00
12.00
.00
.00
d2
9.33
7.00
2.33
.14
d3
.50
1.00
-.50
-.33
d4
2.67
2.00
.67
.14
差(-)
13.00 -1.00
対照範囲内位置
-.04
.42
3.83
.26
.85
6.00 -5.50
-.85
.04
.28
.89
5.50
1.50
1.17
5.1.3. 偏差の分析
平均を中心とした偏差を示す各種の統計量（ →「統計量」）を比較します。
A
L1
L2
L3
L4
L5
A
分散
標準偏差
変動係数
正規変動係数
拡散度
d1
10
19
14
7
12
d1
16.240
4.030
.325
.162
.838
d2
11
7
10
0
1
d2
20.560
4.534
.782
.391
.609
d3
0
0
1
12
1
d3
21.360
4.622
1.651
.825
.175
d4
0
1
2
3
3
d4
1.360
1.166
.648
.324
.676
5.1.4. 平衡の分析
データ行またはデータ列の中での数値の偏りを示す指標として、以下の
ような「対照数」 (Contrastive count) を考えます。
113
A
L1
L2
L3
L4
L5
A
中間値
中間値正数
中間値負数
中間値対照数
d1
10
19
14
7
12
d1
13.000
2
3
-.200
d2
11
7
10
0
1
d2
5.500
3
2
.200
d3
0
0
1
12
1
d3
6.000
1
4
-.600
d4
0
1
2
3
3
d4
1.500
3
2
.200
たとえば、d1 {10, 19, 14, 7, 12)の中間値 [（最大値 +最小値）/2]は 13 です
が、この中間値より大きな数値 (Positive: P)は 19, 14 の 2 数です。また、中
間値より小さな数値 (Negative: N)は 10, 7, 12 の 3 数です。そこで、「中間
値対照数」 (Contrastive count by mid): Ccm は
Ccm = (P – N) / (P + N) = (2 – 3) / (2 + 3) = -.200
となり、ややデータ数が中間値より下にあることがわかります。
次に、データの数ではなく、次のような数値を計算し、その結果を「中
間値対照値」(Contrastive value by mid: Cvm)とします。たとえば、d1 {10, 19,
14, 7, 12)のなかで中間値 13 より大きな数値 19, 14 の差は、6, 1 なので、P=6
+ 1 = 7 になります。また、中間値 13 より小さな数値 10, 7, 12 の差は、3, 6,
1 なので、 P=3 + 6 + 1 = 10 になります。そこで、
Cvm = (P – N) / (P + N) = (7 – 10) / (7 + 10) = -.176
となります。
A
中間値
中間値正値
中間値負値
中間値対照値
d1
13.000
7.000
10.000
-.176
d2
5.500
11.500
10.000
.070
d3
6.000
6.000
22.000
-.571
d4
1.500
3.500
2.000
.273
対照数も対照値も、 P と N が同じ数値であればゼロになり、 P>N のとき
は正値になり、P<N のときは負値になります。どちらもは –1 < Ccm / Cvm<
+1 の両端を含まない範囲をとります。
このようにそれぞれのデータと比較する参照値は、中間値だけでなく、
平均値や中央値を使うことができます。平均値を使うと「対照値」がかな
らずゼロ (0)になるので対照数を使います。逆に、中央値を使うと「対照数」
がかならずゼロ (0)になるので、対照値を使います。
114
平均値
平均値正数
平均値負数
平均値対照数
d1 12.400
2
3
-.200
d2 5.800
3
2
.200
d3 2.800
1
4
-.600
d4 1.800
3
2
.200
A
A
中央値
中央値正値
中央値負値
中央値対照値
d1
12.000
9.000
7.000
.125
d2
7.000
7.000
13.000
-.300
d3
1.000
11.000
2.000
.692
d4
2.000
2.000
3.000
-.200
5.1.5. 階級による変動分析
下の表 (D.var)は、データ行列と、その各列の和、平均値、分散、標準偏
差を示します。
値
D.var v1 v2 v3
d1
38 18
5
和
d2
35 10
6
平均値
d3
28 44 48
分散
d4
22 30 62
標準偏差
d5
24 29 89
v1
v2
147.000 131.000
29.400
26.200
v3
210.000
42.000
38.240 133.760 1062.000
6.184
11.565
32.588
一方、下左表 (D.var.C)には先のデータ行列に加えて、階級値 (Class)の列
があります。この列の値を各変数に積算して、同じ統計量を取り直したも
のが下右表です。これを「階級による変動分析」 (Analysis of variance by
class)とよぶことにします。
D.var.C v1 v2 v3 Class
D.var.C
v1
v2
v3
d1
38 18
5
1
和
d2
35 10
6
2
平均値
2.721
3.321
4.067
d3
28 44 48
3
分散
1.997
1.638
.977
d4
22 30 62
4
標準偏差
1.413
1.280
.988
d5
24 29 89
5
400.000 435.000 854.000
M 1 p = SumC(M(F n p , X n 1 )) '和行
M 1 p = D(M 1 p , SumC(F n p )) '平均行
V 1 p = D(SumC(M(E(S(X n 1 , M 1 p ), 2), F n p )), SumC(F n p )) '分散行
V 1 p = E(V 1p , 0.5) '標準偏差行
115
上の Fn p はデータ行列、 Xn 1 は階級値の列を示します。ここでの目的は、
階級を外的基準として利用し、それに基づいた変動を比較することです。
D.var の単純な分析では中心点（平均値）が全体で一様に共通して計算さ
れますが、D.var.C の階級を外部基準とした変動分析では個別の階級値を使
って平均値を出します。たとえば D.var の v1 の平均値はデータの尺度の
29.4 ですが、 D.var.C の平均値は階級値の尺度の 2.72 になります。
両者の分散・標準偏差を比較すると、D.var では v1 < v2 < v3 という大小
関係を示しますが、 D.var.C では、逆に v1 > v3 > v3 という順番です。デー
タ行列を見ると、たしかに v3 のデータが d3, d4, d5 に集中していることが
わかります。その中心点（階級平均値）は 4.07 です。分散・標準偏差はた
しかにデータの散らばり具合を示し v3 が全体的に見れば拡散しているよ
うですが、一方、大きな値に焦点を当てて見れば集中しているように思わ
れます。たとえば、 D.var の v3 の中心（平均値） 42 は d2-d3 間にあります
が、 D.var.C の中心（平均値） 4.067 は d4-d5 間になります。
次のように階級値を逆転させると和と平均値は当然変わりますが、分
散・標準偏差は変化しません。
D.var.C v1 v2 v3 Class
D.var.C
v1
v2
v3
d1
38 18
5
5
和
d2
35 10
6
4
平均値
3.279
2.679
1.933
d3
28 44 48
3
分散
1.997
1.638
.977
d4
22 30 62
2
標準偏差
1.413
1.280
.988
d5
24 29 89
1
482.000 351.000 406.000
このようにデータ行列だけの変動と、階級を考慮した変動の様子は異な
りますが、どちらを採用するかは分析の目的によります。この階級による
変動分析は、外的な基準に従ってデータが集中する度合いを調べるときに
役立ちます。
5.2. 振動分析
データの並びの上下動の様子を、「振動数」(Oscillation count: Oc)と「振
動値」 (Oscillation value: Ov) によって数量化します。振動数を計算するた
めに、上昇数と下降数を次のように計算します。d1 {10, 19, 14, 7, 12}では、
10 > 19 と 7 > 12 の間で 2 回上昇しているので、上昇数 (Rising count: Rc)は
2 にします。また、19 > 14, 14 > 7 で 2 回下降しているので、下降数 (Falling
count: Fc)は 2 になります。このように Rc と Fc が同じ場合は振動数は 0 と
します。 d3 {0, 0, 1, 12, 1}の場合は Rc=2., Fc=1 です。この 2 つの数値を使
って、振動数 (Fc)を次のように定義します。
116
Oc = (Rc – Fc) / (Rc + Fc)
次に、上下動の幅を考慮した「振動値」 (Oscillation value: Ov)を計算しま
す。 d3 {0, 0, 1, 12, 1}の場合は、上昇値 (Rising value: Rv)は Uv(10 > 19) = 9,
Uv(7>12) = 5 で、合わせて 14 となり、下降値 (Falling value: Fv)は Fv(19>14)
= 5, Fv(14>7) = 7 で合わせて 12 になります。振動値 (Ov)を次のように定義
します。
Ov = (Rv – Fv) / (Rv + Fv)
上昇数下降数振動数
上昇値下降値振動値
A
L1 L2 L3 L4 L5
A
d1
10
19
14
7
12
d1
2
2
.000
14
12
.077
d2
11
7
10
0
1
d2
2
2
.000
4
14
-.556
d3
0
0
1
12
1
d3
2
1
.333
12
11
.043
d4
0
1
2
3
3
d4
3
0
1.000
3
0
1.000
d2 が下降する傾向があり、 d4 は完全に上昇していることがわかります。
5.3. 順序連関係数
下左表は、スペイン語で ¿Adónde vas? 「どこに行くの」という表現を、
Niño(子供 ), Joven (若者 ), Mayuor (大人 ), Anciano (老人 )に対して使うとき
の、それぞれ、 No (使わない ), A veces (ときどき ), Siempre (いつも )の使用
頻度を調べて集計したものです。
Vas?
Niño Joven Mayor Anciano
G. & K. (2)
Vas?
No
1
5
192
92
Positive v.=
10600
A veces
3
22
58
20
Negative v.= 101941
Siempre
56
153
110
8
G. & K.=
- .812
次は、同じことを敬語を使った ¿Adónde va usted?「どちらにいらっしゃ
るのですか？」という表現の使用頻度の集計です。
Va Ud.? Niño Joven Mayor Anciano
G. & K. (2)
Va Ud.?
No
55
147
142
18
Positive v.=
93267
A veces
5
24
99
33
Negative v.= 15854
Siempre
0
9
119
69
G. & K.=
.709
このように、横の分類も縦の分類も一定の順序を持った変数であるとき、
全体の分布が横と縦の順序にどの程度従っているかを示す係数として、
「グ
ッドマンとクラスカルの順序連関係数」(Goodman-Kruskal's rank measure of
association: GK)が使われます。GK を算出するために、クロス表で、1 つの
117
マス目にあるデータとそれよりも横と縦が上になるマス目のデータの対の
総数である「肯定対総数」(Positive pairs: P)を、次のようにして計算します。
P(Vas?) = 1 x (22+58+20+153+110+8) + 5 x (58+20+110+8) + 192 x (20+8) + 3
x (153+110+8) + 22 x (110+8) + 58 x 8 = 10600
一方、1 つのマス目にあるデータとそれよりも横と縦が「下」になるマス
目のデータの対の総数である「否定対総数」 (Negative pairs: N)を、次のよ
うにして計算します。
N(Vas?) = 5 x (3+56) + 192 x (3+22+56+153) + 92 x (3+22+58+56+153+110) +
22 x 56 + 58 x (56+153) + 20 x (56+153+110) = 101941
次のように、順序連関係数 GK は、 P と N の対照値になります。
GK(Vas?) = (P - N) / (P + N) = (10600 – 101941) / (10600 + 101941)
同様にして
P(Va Ud.?) = 93267
N(Va Ud.?) = 15854
GK(Va Ud.?) = (93267 - 15854) / (93267 + 15854) = .709
このように、 GK を使うことによって、スペイン語の普通体は対話者の年
代層と逆連関し、丁寧体はそれと正連関していることがわかります。
＊池田・芝 (1976: 130-132)を参照しました。
5.4. 多重関連分析
5.4.1. 多重条件リスト
Ｍ ultiple condition
c1 c2 c3
c4
R
d1
A
C
F
I
X
d2
A
D
F
J
X
d3
A
D
G
K
Y
d4
B
D
H
L
Z
d5
B
E
H
M
Z
「多重関連分析」 (Multiple Association Analysis)とよぶ方法によって、たと
えば上の表の条件 c1, c2, c3, c4 と結果の E の間の関連について分析し、単
一の条件や多重に結合する条件の影響度を計測します。はじめに、条件と
結果の該当するセルにタイトル列のデータに出力します。これにより、ど
118
のようなデータが該当するかが表形式でわかります。
Single Cond. 1
1:A
1:A
1:B
1:B
X Y Z
d1 d3
d2
d4
d5
Single Cond. 2
2:C
2:D
2:E
X Y Z
d1
d2 d3 d4
d5
Single Cond. 3
3:F
3:F
3:G
3:H
3:H
X Y Z
d1
d2
d3
d4
d5
Single Cond. 4
4:I
4:J
4:K
4:L
4:M
X Y Z
d1
d2
d3
d4
d5
5.4.2. 多重条件頻度
次に該当するデータの頻度を計算しましょう。
(1) 単一条件
Single Cond. 1
1:A
1:B
Single Cond. 3
3:F
3:G
3:H
X Y Z
2 1
2
Single Cond. 2
2:C
2:D
2:E
X Y Z
1
1 1 1
1
X Y Z
2
1
2
Single Cond. 4
4:I
4:J
4:K
4:L
4:M
X Y Z
1
1
1
1
1
出力の X, Y, Z 列は結果列 (E)の各成分の絶対頻度です。
(2) 二重条件
すべての条件の中から 2 つの組合せについて頻度を計算します。
Double Cond. 1+2
1:A + 2:C
1:A + 2:D
1:B + 2:D
1:B + 2:E
X Y Z
1
1 1
1
1
Double Cond. 1+3
1:A + 3:F
1:A + 3:G
1:B + 3:H
119
X Y Z
2
1
2
さらに、Double Cnd. 1-4, Double Cnd. 2-3,
Double Cnd. 2 -4, Double Cnd. 3-4
も同様にして計算します。
(3) 三重条件
すべての条件の中から 3 つの組合せについて頻度を計算します。
Triple Cond. 1+2+3
1:A + 2:C + 3:F
1:A + 2:D + 3:F
1:A + 2:D + 3:G
1:B + 2:D + 3:H
1:B + 2:E + 3:H
X Y Z
1
1
1
1
1
Triple Cond. 1+2+4
1:A + 2:C + 4:I
1:A + 2:D + 4:J
1:A + 2:D + 4:K
1:B + 2:D + 4:L
1:B + 2:E + 4:M
X Y Z
1
1
1
1
1
さらに Triple Cnd.1-3-4, Triple Cnd. 2-3-4 も同様にして計算します。これら
はすべて絶対頻度を示すので、各種の得点計算をして相対化した値も考慮
すべきです。
■ 10-13 世紀スペイン語 i, j, y の文字
次は、10-13 世紀のスペイン北部で記された文献中の i, j, y の文字について
多重条件分析をした結果と相対卓立得点を両軸で計算した結果を示します。
Double Cnd. 1-2
1:#_# + 2:i
1:#_C + 2:i
1:#_V + 2:j
1:#_V + 2:y
1:C_# + 2:i
1:C_C + 2:i
1:C_V + 2:i
1:V_# + 2:i
1:V_C + 2:i
1:V_V + 2:i
1:V_V + 2:j
1:V_V + 2:y
I
J
Y
602 142 2
3 71
3
4 10
1
13
6
9
12
1
1
9
i
111
2005
38
12
2453
9257
5084
330
1458
238
92
28
j
y
41
22
5
18
1 180
342 41
41
4
154 18
343 76
116 163
20
131
2
4 182
P.R.S.b.
1:#_# + 2:i
1:#_C + 2:i
1:#_V + 2:j
1:#_V + 2:y
1:C_# + 2:i
1:C_C + 2:i
1:C_V + 2:i
1:V_# + 2:i
1:V_C + 2:i
1:V_V + 2:i
1:V_V + 2:j
1:V_V + 2:y
I
J
Y
i
0.078
0.812 0.456 0.011 0.617
0.058 0.846
0.028
0.053 0.132 0.441 0.009
0.005
0.673
0.020
0.926
0.016
0.834
0.093
0.199
0.075
0.009 0.539
0.154
0.018
0.065
0.143
0.021
j
y
0.451
0.020 0.092
0.185
0.011 0.833
0.622 0.158
0.059 0.006
0.287 0.046
0.815 0.477
0.408 0.548
0.187
0.648 0.033
0.044 0.832
語頭で母音が後続する環境 (#_V)の J は絶対頻度ではとくに大きな値を示
しませんが、相対卓立得点では最大値 (.846)を示しています。
5.4.3. 多重関連係数
多重の条件と結果との関連度を調べるために次のような「多重関連係数」
を考えてみましょう。単一の条件の関連係数 (coefficient of Multiple
Associatin: M.A.) から始め、二重条件、三重条件、そして多重条件にまで
一般化します。
120
(1) 単一条件
条件 (c)
結果 (e)
ウェイト (p)
頻度 (f), [例 ]
+1 (有 )
+1 (有 )
(+1)(+1) = +1
f (1), [例 . 8]
+1 (有 )
−1 (無 )
(+1)(−1) = −1
f (2), [例 . 3]
−1 (無 )
+1 (有 )
(−1)(+1) = −1
f (3), [例 . 4]
−1 (無 )
−1 (無 )
(−1)(−1) = +1
f (4), [例 . 6]
M.A. ( 1 ) =
𝑓(1) – 𝑓(2) – 𝑓(3)+ 𝑓(4)
[𝑓(1)+ 𝑓(4)] –[𝑓(2)+ 𝑓(3)]
(* =
) (*=Hama n n )
[𝑓(1)+ 𝑓(4)]+[𝑓(2)+ 𝑓 (3)]
𝑓(1)+ 𝑓(2)+ 𝑓(3)+ 𝑓(4)
=
𝑝(1)𝑓(1)+𝑝(2)𝑓(2)+𝑝(3)𝑓 (3)+ 𝑝(4)𝑓(4)
∑2^2
𝑖=1 𝑓 (𝑖 )
=
∑2^2
∑2^2
𝑖=1 [𝑝(𝑖 )𝑓(𝑖 )]
𝑖=1 [𝑓(𝑖 )𝑒(𝑖 )𝑐(𝑖 )]
=
(* 2^2 = 2 2 = 4)
2^2
∑𝑖=1 𝑓 (𝑖 )
∑2^2
(
)
𝑓
𝑖
𝑖=1
[* p(i ) = ウェイト (+1 / −1)]
例 : M.A. ( 1) =
8−3−4+6
8+3+4+6
(8+6)−(3+4)
[= (8+6)+(3+4)𝑙]
= 0.333
(−1≤ A ≤ +1)
(2) 二重条件
c(1)
c(2)
結果 (e)
ウェイト
頻度 (f)
+1
+1
+1
(+1+1)(+1) = +2
f (1)
+1
+1
−1
(+1+1)(−1) = −2
f (2)
+1
−1
+1
(+1−1)(+1) = 0
f (3)
+1
−1
−1
(+1−1)(−1) = 0
f (4)
−1
+1
+1
(−1+1)(+1) = 0
f (5)
−1
+1
−1
(−1+1)(−1) = 0
f (6)
−1
−1
+1
(−1−1)(+1) = −2
f (7)
−1
−1
−1
(−1−1)(−1) = +2
f (8)
M.A. ( 2 ) =
=
∑2^3
𝑖=1 [𝑝(𝑖 )𝑓(𝑖 )]
2 ∑2^3
𝑖=1 𝑓(𝑖 )
2
∑2^3
𝑖=1[ 𝑓(𝑖 ) 𝑒(𝑖 ) ∑𝑗=1 𝑐(𝑖,𝑗)]
2 ∑2^3
𝑖=1 𝑓 (𝑖 )
[* p(i) = ウェイト (+2 … −2)]
[* e(i) = 結果 (+1 / −1), c(j) = 条件 (+1/−1)]
このように分子にあるウェイト (p)は c(i, j)の和と e(i)を掛けたものです。
分母はすべての f(i)にウェイト 2 を掛けます。これは、分子で条件の数 (=2)
だけ頻度を加算・減算をしていたので、分母はこれらすべての頻度を加算
121
して母数にするためです。
(3) 三重条件
c(1)
c(2)
c(3)
結果 (e)
+1
+1
+1
+1
(+1+1+1)(+1) = +3
f (1)
+1
+1
+1
−1
(+1+1+1)(−1) = −3
f (2)
+1
+1
−1
+1
(+1+1−1)(+1) = +1
f (3)
+1
+1
−1
−1
(+1+1−1)(−1) = −1
f (4)
+1
−1
+1
+1
(+1−1+1)(+1) = +1
f (5)
+1
−1
+1
−1
(+1−1+1)(−1) = −1
f (6)
+1
−1
−1
+1
(+1−1−1)(+1) = −1
f (7)
+1
−1
−1
−1
(+1−1−1)(−1) = +1
f (8)
−1
+1
+1
+1
(−1+1+1)(+1) = +1
f (9)
−1
+1
+1
−1
(−1+1+1)(−1) = +1
f (10)
−1
+1
−1
+1
(−1+1−1)(+1) = −1
f (11)
−1
+1
−1
−1
(−1+1−1)(−1) = +1
f (12)
−1
−1
+1
+1
(−1−1+1)(+1) = −1
f (13)
−1
−1
+1
−1
(−1−1+1)(−1) = +1
f (14)
−1
−1
−1
+1
(−1−1−1)(+1) = −3
f (15)
−1
−1
−1
−1
(−1−1−1)(−1) = +3
f (16)
M.A. ( 3 ) =
ウェイト (p)
頻度 (f)
3
∑2^4
∑2^4
𝑖=1 [ 𝑓(𝑖 ) 𝑒(𝑖 ) ∑𝑗=1 𝑐(𝑖,𝑗)]
𝑖=1 [𝑝(𝑖 )𝑓(𝑖 )]
=
3 ∑2^4
3 ∑2^4
𝑖=1 𝑓(𝑖 )
𝑖=1 𝑓(𝑖 )
三重条件では条件の数が 3 になります。
(4) 多重条件
以上を一般化すると多重関連係数 M.A. ( m ) は次の式になります。
M.A.
(m)
=
∑2^(𝑚+1)
[ 𝑝(𝑖 )𝑓(𝑖 )]
𝑖=1
2^(𝑚+1)
𝑚 ∑𝑖=1
𝑓 (𝑖 )
=
∑2^(𝑚+1)
[ 𝑓(𝑖 ) 𝑒(𝑖 ) ∑𝑚
𝑗=1 𝑐(𝑖,𝑗)]
𝑖=1
2^(𝑚+1)
𝑚 ∑𝑖=1
𝑓 (𝑖 )
このように算出した多重関連係数を比較することにより、関係する条件の
働きの強さを調べることができます。次は、データ例を使って、多重条件
と結果の関係を見るために、
「類似係数行列」
（優先係数 : Pref. S.: Preference
= (2A – B – C) / (2A + B + C)）と「多重関連係数行列」を比較したものです。
後者の数値の弁別力が強いことが分かります。
122
P r e f . 1+2+3 X
Y
Z
A + C + F . 333
A + D + F . 333
A + D + G
1. 000
B + D + H
. 333
B + E + H
. 333
T o t . M . A . 1 + 2 + 3X
Y
Z
A + C + F
. 733
A + D + F
. 467
A + D + G
. 467
B + D + H
. 600
B + E + H
. 867
優先係数はデータ行列（上左表）の両軸を使って相対化しますが、多重関
連係数は条件の構成まで考慮に入れて計算します。たとえば、 [A+C+H]と
[A+D+F]は、優先係数では単にそれぞれを個別の名称とするだけですが、
多重関連係数では、A と F が共通であることも考慮に入れます。
●否定的証拠
プログラムでは、はじめに条件・結果のクロス集計表を作り（下左表）、
それをもとにして多重関連係数のクロス表を作ります（下右表）。
Freq.1+2
X
A+C
1
A+D
1
Y
Z
1
Tot.M.A.1+2
X
Y
A+C
.600
A+D
.200
Z
.200
B +D
1
B +D
.400
B +E
1
B +E
.800
たとえば、 [A+D+F]という条件と X という結果の間の多重関連係数は .733
ですが、これを計算するために次のような条件と結果のウェイトを求めま
す。
Freq.1+2
X: +1
A + C: 1+1=2
1x(+2)x(+1)=2
A + D: 1–1=0
1x(0)x(+1)=0
Y: –1
Z: –1
1x(0)x(–1)=0
B + D: –1–1=–2
1x(–2)x(–1)=+2
B + E: –1–1=–2
1x(–2)x((–1)=+2
これらの総和 (2+0+0+2+2 = 6)を、該当データの個数 (5) x 条件の数 (2) = 10
で割り、その結果 .600 になります。この計算過程を見ると、条件と結果が
ともにプラス (+)であるケースの数値 (=2)よりも、どちらもマイナス (−)にな
るケースの数値の和 (=4)のほうが多いことがわかります。どちらもマイナ
スというケースは、条件（例：曇りの日）がなければ結果（例：傘の携帯）
もなかった、というケース（曇りでない日に傘を携帯しない）ですから、
確かにこの場合も両者が互いに関連していること（曇りの日→傘の携帯）
を示します。しかし、条件・結果ともに「有り」（肯定的証拠）と比べて、
123
ともに「無し」（否定的証拠）のほうが非常に多いというときには、その
結果、関連係数が高くなりますので注意が必要です。たとえば、A という
本を読む人の数と B という本を読む人の数の関連を調べると、どちらも読
んでいない人の数が非常に多いので確かに関連係数は高くなりますが、そ
うであっても、A を読むという条件から B を読むという結果が高く予想さ
れる、というわけではありません。
次の左表は否定的事例の全体に対する割合を示します。ここでは .600 を
示す [B+E]と Z の関連度では、否定的証拠が強く働いていることがわかり
ます。そこで、すべて負の条件と結果が負であるケースを除外して計算し
た関連係数を下右表に示します。これを「正多重関連係数」(Positive Multiple
Association)とよぶことにします。これと区別して先の関連係数を「全多重
関連係数」(Total Multiple Association)と呼びます。両者を比較すると、「正
多重関連係数」の数値が全体的に低くなっています。
R.Neg.C.1+2
X
Y
A+C
.400
A+D
.200
Z
Pos.M.A.1+2
.200
X
A+C
.333
A+D
.000
Y
Z
.000
B+D
.200
B+D
.250
B+E
.600
B+E
.500
5.5. 多変量解析
5.5.1. 重回帰分析
「重回帰分析」 (Multiple regression)とよばれる方法は、次のような複数
の説明変数 (x 1 , x 2 , …)と目的変数 (y: Yn)をもつデータから、未知の目的変数
を予想する重回帰式を求める方法です。各説明変数に重み（ウェイト）Wp
掛けて重回帰式を作りますが、実際の結果 Yn と重回帰式で求めた予測値
ベクトル En の差が小さければ小さいほどその式が高く評価されます。そ
こで、実測値ベクトル Yn と予測値ベクトル En の平方和が最小になるよう
にします。
たとえば、次のような成績表で、Read, Write, Vocab(ulary)の小テストと、
最終成績 (POINT)の関係を見ます。
English
Read
Write Vocab. POINT
d1
6
8
5
12
d2
7
10
6
11
d3
8
4
8
13
d4
9
7
2
7
d5
10
9
4
14
124
次のように予測値 En を、切片 (W0)と各変数 (X)に重みとしての係数 (Wp)
を掛けたものを加算して作った式で作ります。 [i = 1, 2, …, N]
E(i) = W(0) + W(1) X(i, 1) + W(2) X(i, 2) + ... + W(p) X(i, p)
この式の第 1 項 W(0)は回帰式の切片 (intercept)を示します。この切片は
すべての個体に共通に加えます。したがって、この列には単位ベクトル
1p
を左積します。
E(i) =
1p
W(0) + X(i, 1) W(1) + X(i, 2) W(2) + ... + X(i, p) W(p)
[i=1…n]
行列で示すと、
En = X n p Wp
[X n p の第 1 列は単位ベクトル ]
この式で求められた値と実測値 Yn の間の残差のベクトルを Rn とします。
Rn = Yn – En = Yn – X np Wp
この残差 Rn の平方和 S を求めます。
S
= Rn' Rn = (Yn – X n p Wp)' (Yn – X n p Wp)
= [Yn' – (X n p Wp)'] (Yn – X n p Wp)
= Yn' Yn – Yn' X n p Wp – (X np Wp)' Yn + (X n p Wp)' X n p Wp
= Yn' Yn – Yn' X n p Wp – Yn' (X n p Wp) + Wp' X n p ' X np Wp
= Yn' Yn – 2 Yn' X n p Wp + Wp' X np ' X n p Wp
S を最小化するために（多変数空間中の変数が形成する「曲面」の最小
値の位置をイメージしてください）、S を変数のベクトル Wp で微分し（後
述）、その値がゼロベクトルになるときの Wp を求めます。
Df(S, Wp) = -2 Yn' X n p + 2 X np ' X n p Wp = 0p'
ここで、 S = Yn' Yn – 2 Yn' X n p Wp + Wp' X n p ' X n p Wp の第 1 項 Yn' Yn に
は、Wp がないので、Wp で微分するとゼロになります。第 2 項の –2 Yn' X np
Wp と第 3 項の Wp' X np ' X n p Wp の微分については後述します。第 3 項の中
の X n p ' X np は対照行列です。よって、上式から
X n p ' X np Wp = Yn' X n p
Wp を求めるためには Wp の係数を Um（単位行列）にする必要があるの
で、両辺に (X np ' X n p ) ^ を左積します。
(X n p ' X n p ) ^ (X np ' X n p ) Wp = (X np ' X n p ) ^ Yn' X n p
Um Wp = (X n p ' X np ) ^ Yn' X n p
Wp = (X np ' X n p ) ^ Yn' X n p
125
Wp = (X np ' X n p ) ^ X np ' Yn
このようにして求めたベクトル Wp が下に示す「係数」 (Value)の列です。
Weight
P: Intercept
Value
Read
-3.819
Write
.740
Vocab.
.462
Std res.
1.157
1.545
「予測値」 ( 𝑦̂ ) は前述の式 (1) で求めます。残差ベクトル (Rn) と標準残差
(standard residual: Std.R.)は、それぞれ次の式で求めます。
Rn = Yn – En
Std.R. = (Rn' Rn / N) 1 /2
English
POINT
Expected Residual
d1
12.000
10.104
1.896
d2
11.000
12.926
-1.926
d3
13.000
13.207
-.207
d4
7.000
8.392
-1.392
d5
14.000
12.371
1.629
●逆行列
(1) 逆行列の定義
正方行列 (X pp )について、
X p p Y pp = U pp (単位行列 )
となる正方行列 (Y p p )は X pp の「逆行列」(inverse matrix: X p p -1 )とよばれます。
逆行列が関係する次の演算は統計の計算によく使われます。ここでは、逆
行列を X p p -1 ではなくて、 X p p ^のように表記します。
(a) X p p X pp ^ = U p p
X pp 1
2
× Xpp^
1
2
4
=
1
7
8
1
-5
2
9 10
2
4.5 -3.5
(b)
Xpp^
I
1 2
1 1 0
2 0 1
X p p ^ X pp = U p p
1
2 × X pp 1
2 = U pp 1 2
1
-5.0
4.0
1
7
8
1
1 0
2
4.5
-3.5
2
9 10
2
0 1
126
(2) 逆行列の性質
(a) (X p p ^)^ = X pp
2 → Xpp^
X pp 1
2 → (X p p ^)^ 1
1
2
1
7
8
1
-5.0
4.0
1
7
8
2
9 10
2
4.5
-3.5
2
9 10
(b) (X p p Y p p )^ = Y pp ^ X p p ^
X pp 1 2 × Y pp 1 2 = X pp Ypp
1
→ (X p p Y p p )^
2
1
2
1
1 3
1
7 8
1
34 11
1
0.154
-0.085
2
2 4
2
9 1
2
50 20
2
-0.385
0.262
1
2
× Xpp^
Ypp^
1
2
1
-2.00
1.500
2
1.00
-0.500
1
2
= Y p p ^ X pp ^
1
-0.015
0.123
1
0.154
-0.085
2
0.136
-0.108
2
-0.385
0.262
(c) (X p p ')^ = (X p p ^)'
X pp 1
2
→ X pp ' 1
2
→
(X pp ')^
1
2
1
7
8
1
7
9
1
-5.0
4.5
2
9 10
2
8 10
2
4.0
-3.5
X pp 1
2
→ X pp ^
1
2
→ (X pp ^)'
1
2
1
7
8
1
-5.0
4.0
1
-5.0
4.5
2
9 10
2
4.5
-3.5
2
4.0
-3.5
(3) 逆行列の求め方
与えられた行列 (X p p )と、初期値が単位行列である行列 (Z p p =U pp )を同時に
変形していきます。 X p p が単位行列 (U p p )になるように、 X p p と Z p p に左から
Tp p を繰り返して掛けていきます。そのために、
(i) 1 つの行全体に実数倍し、他の行の実数倍を加算する
(ii) 2 つの行を交換する
という 2 つの変換を使います。これらの変換を可能にする変形行列 T pp を
次々に左積すると、Z p p が A pp の逆行列になることを次の演算で確認しまし
ょう (「 Gauss の消去法」 Gauss reduction)。
0.
X ( 0 ) , Z ( 0 ) = U [X, Z の初期状態 (0) ]
127
1.
X ( 1 ) = T ( 1 ) X (0 ) , Z (1 ) = T ( 1) U
[X (0) と Z ( 0 ) =U に T (1 ) を左積 ]
2.
X ( 2 ) = T ( 2 ) T ( 1 ) X ( 0) , Z ( 2) = T ( 2 ) T ( 1 ) U
[さらに T ( 2 ) を左積 ]
[さらに T ( 3 ) , …,T ( k) を順次左積 ]
(…)
3.
U = T ( k ) … T ( 2 ) T (1 ) X ( 0 ) [X ( 0) に T を順次左積し U に至る ]
4.
Z ( k) = T ( k ) … T ( 2 ) T ( 1 ) U [Z ( 0 ) =U に T を順次左積し Z ( k ) を得る ]
5.
U X (0 ) ^ = T ( k ) … T (2 ) T ( 1) X (0 ) X ( 0) ^
6.
X ( 0 ) ^ = T ( k) … T ( 2 ) T ( 1 ) U
7.
Z
( k)
=X
(0)
^
[3 の両辺に X (0 ) ^を右積 ]
[← 5. U A = A; A A^ =U]
[4.右辺 = 6.右辺、よって Z ( k) は X (0 ) の逆行列になる ]
たとえば次の行列 X (0 ) の逆行列を求めることを考えましょう。以下の演
算のために、作業用の行列 T ( 1) と出力用の単位行列 Z ( 1 ) = U を用意します。
目的は T ( 1) , T ( 2 ) , …, T ( k) の左積を繰り返して、 X (k ) を単位行列にすることで
す。。
X(0)
1
2
3
Z(0)
1
2
3
1
0
2
1
1
1
0
0
2
2
1
2
2
0
1
0
3
2
1
1
3
0
0
1
はじめに、 X(1, 1)を 0 にするために次の演算をします。
R1 = R1 / X(1, 1)
これは、R1 を X(1, 1)で割って新たな R1 にする、ということです。ここ
では、 X(1, 1)=0 なので割り算ができません。そのときは、 C1 が 0 でない
行と交換します。その結果 X (1 ) となります。
R1 = R2, R2 = R1
X(1)
1
2
3
Z(1 )
1
2
3
1
2
1
2
2
0
1
0
2
0
2
1
1
1
0
0
3
2
1
1
3
0
0
1
こうして、新たな X(1, 1)=2 で先の除算をします。
R1 = R1 / X(1, 1) = R1 / 2
X(2)
1
2
3
Z(2 )
1
2
3
1
2/2=1
1/2
2/2=1
1
0/2=0
1/2
0/2=0
2
0
2
1
2
1
0
0
3
2
1
1
3
0
0
1
128
次に、R2 と R3 を R1 を使って、それぞれの C1 の値を 0 にします。ここ
では R2 の X(2, 1)=0 なので、 R3 だけを次のようにして変えます。
R3 = R3 – X(3, 1) R1 = R3 – 2 R1
X(3)
1
2
3
Z(3 )
1
2
3
1
1
1/2
1
1
0
1/2
0
2
0
2
1
2
1
0
0
3
2-2x1=0
1-2x(1/2)=0
1-2x1=-1
3
0-2x0=0
0-2x1/2=-1
1-2x0=1
これで C1 は完成です。次に同様なことを C2 で行います。
X(4)
1
2
3
Z(4 )
1
2
3
1
1
1/2
1
1
0
1/2
0
2
0
2
1
2
1
0
0
3
0
0
-1
3
０
-1
1
今度は、 X(2,2)=2 は 0 でないので、そのまま R2 を 2 で割ります。
R2 = R2 / X(2,2) = R2 / 2
X(5)
1
2
3
Z(5 )
1
2
3
1
1
1/2
1
1
0
1/2
0
2
0/2=0
2/2=1
1/2
2
1/2
0/2
0/2
3
0
0
-1
3
0
-1
1
そして、 R1 と R2 の C2 を次の演算で、 0 にします。
R1 = R1 – X(1, 2) R2 = R1 – 1/2 R2
R3 = R3 – X(3, 2) R2 = R3 – 0 R2
X(6)
1
2
3
Z(6 )
1
2
3
1
1 -(1/2)x0
1 /2-(1/2)x1
1 -(1/2)x(1/2
1
0-(1/2)x(1/2)
1/2-(1/2)x0
0 -(1/2)x0
=1
=0
)=3/4
=1/4
=1/2
=0
2
0
1
1 /2
2
1/2
0
0
3
0 -0x0=0
0 -0x1=0
-1 -0x(1/2)= -1
3
0 -0x(1/2)=0
-1 -0x0= -1
1-0x0=1
これで C1 は完成です。次に同様なことを C3 で行います。
X(7)
1
2
3
Z(7 )
1
2
3
1
1
0
3/4
1
1/4
1/2
0
2
0
1
1/2
2
1/2
0
0
3
0
0
-1
3
0
-1
1
129
R3 = R3 / X(3, 3) = R3 / -1
X(8)
1
2
3
Z(8 )
1
2
3
1
1
0
3/4
1
1/4
1/2
0
2
0
1
1/2
2
1/2
0
0
3
0/-1=0
0/-1=0
-1/-1=1
3
0/-1=0
-1/-1=1
1/-1=-1
R1 = R1 – X(1, 3) R3 = R1 – 3/4 R3
R2 = R1 – X(2, 3) R3 = R1 – 1/2 R3
X(9)
1
2
3
Z(9 )
1
2
3
1
1 -(3/4)x0
0-(3/4)x0
3 /4-(3/4)x1
1
1/4-(3/4)x0
1/2 -(3/4)x1
0 -(3/4)－ 1
=1
=0
=0
=-1/4
=-1/4
=3/4
0 -(1/2)x0
1-(1/2)x0
1 /2-(1/2)x1
1 /2-(1/2)x9
0 -(1/2)x1
0 -(1/2)x -1
=0
=1
=0
=1/2
=-1/2
=1/2
0
0
1
0
1
-1
2
3
2
3
これらの演算の結果、次のように X は単位行列になり、Z に X の逆行列
が得られました。
X(k)
1
2
3
Z(k )
1
2
3
1
1
0
0
1
-1/4
-1/4
3/4
2
0
1
0
2
1/2
-1/2
1/2
3
0
0
1
3
0
1
-1
プログラムで実行すると、確かに X の逆行列 X^が得られ、 X と X^の行
列積を計算すると確かに単位行列が得られます。
X 1 2 3
X^
1
2
3
X X^ 1 2 3
1
0 2 1
1
-.250
-.250
.750
1
1 0 0
2
2 1 2
2
.500
-.500
.500
2
0 1 0
3
2 1 1
3
.000 1.000 -1.000
3
0 0 1
＊長谷川 (2000:129-136)を参照しました。プログラムは縄田 (1999:58-80)を参
照しました。
(4) 逆行列演算の証明
次の演算はしばしば使われます。しっかりと理解しておくために証明を
しておきましょう。
[1]
U p p ^ = U pp
130
U p p U pp ^ = U p p [逆行列の定義 : X X^ = U, ここで X = U p p ]
U p p ^ = U pp
[2]
[U X = X, X=U]
(A p p ^)^ = A p p
A p p ^ (A p p ^)^ = U p p
[逆行列の定義 : A A^ = U]
[両辺に A p p を左積 ]
A p p A p p ^ (A p p ^)^ = A p p U pp
U p p (A p p ^)^ = A p p U p p
(A p p ^)^ = A p p
[3]
[逆行列の定義 : A A^ = U]
[X U = X; U X = X]
(A p p B p p )^ = B pp ^ A p p ^
(A p p B p p ) (A p p B pp )^ = U p p
[X X^ = U, X = A pp B pp ]
(A p p B p p ) (A p p B pp )^ = A p p A p p ^ [A A^ = U]
(A p p B p p ) (A p p B pp )^ = A p p U p p A p p ^
[A = A U]
(A p p B p p ) (A p p B pp )^ = A p p B p p B pp ^ A p p ^ [U = B B^]
(A p p B p p )^ = B pp ^ A p p ^ [両辺から A pp B pp を削除 ]
[4]
Ap p Ap p ^ = Ap p^ Ap p
A p p A p p ^ = U p p [逆行列の定義 : A A^ = U]
(A p p ^ A p p ) (A p p A p p ^) = (A p p ^ A p p ) U p p
A p p ^ A p p A p p A pp ^ = A p p ^ A p p
[両辺に A^ A を左積 ]
[X U = X, X=A p p ^ A p p ]
U p p A pp A p p ^ = A p p ^ A p p [X U = X, X=A p p ^ A p p ]
Ap p Ap p ^ = Ap p^ Ap p
[U A = A]
＊ [2, 3]は足立 (2005:110-111)を参照しました。
●変形行列
単位行列の一部を変更した行変形用行列を作成し、これをある行列に左
積すると、一定の行変形ができます。ここではそのような行列を「変形行
列」 Ttransformation matrix とよぶことにします。これらを後述する逆行列
の計算に使います。
(a) R1 = 0
Tpp x y z × App x y z = R pp x y z
1
0 0 0
1
1 2 3
1
0 0 0
2
0 1 0
2
4 5 6
2
4 5 6
3
0 0 1
3
7 8 9
3
7 8 9
(b) R1 = R2
131
Tpp x y z × App x y z = R pp x y z
1
0 1 0
1
1 2 3
1
4 5 6
2
0 1 0
2
4 5 6
2
4 5 6
3
0 0 1
3
7 8 9
3
7 8 9
(c) R1 ~ R2 (交換 )
Tpp x y z × App x y z = R pp x y z
1
0 1 0
1
1 2 3
1
4 5 6
2
1 0 0
2
4 5 6
2
1 2 3
3
0 0 1
3
7 8 9
3
7 8 9
(d) R1 = 3 R1 (倍数 )
Tpp x y z × App x y z = R pp x y z
1
3 0 0
1
1 2 3
1
3 6 9
2
0 1 0
2
4 5 6
2
4 5 6
3
0 0 1
3
7 8 9
3
7 8 9
(e) R2 = R2 + R1
Tpp x y z ×
App
x y z = R pp x y z
1
1 0 0
1
1 2 3
1
1 2 3
2
1 1 0
2
4 5 6
2
5 7 9
3
0 0 1
3
7 8 9
3
7 8 9
(f) R2 = R2 + 2 R1
Tpp x y z × App x y z = R pp x y
z
1
1 0 0
1
1 2 3
1
1 2
3
2
2 1 0
2
4 5 6
2
6 9 12
3
0 0 1
3
7 8 9
3
7 8
Tpp x y z × App x y z
R pp
x
y
z
1
2
3
9
(g) R2 = 3 R2 + 2 R1
1
1 0 0
1
1 2 3
1
2
2 3 0
2
4 5 6
2
3
0 0 1
3
7 8 9
3
14 19 24
7
8
9
最後の演算を見ると、変形行列の対角成分で自分の行を積算し、非対角
成分でその列番にあたる行を積算していることがわかります。行のゼロ化
[1]や行の移動 [2, 3]も同様です。
132
●行列の微分
行列をベクトルで微分する、という演算をします。行列の積の成分を展
開すればベクトルで微分した結果が行列とベクトルの積になることがわか
ります。
[1] はじめに、次のような行列の微分について見ましょう。
T p p = Yp’ X np
𝑥11
𝑥21
Wp = [y 1 , y 2 , ..., y p ] [ …
𝑥𝑛1
𝑤1
𝑤2
を，ベクトル Wp = [ … ]
𝑤𝑝
𝑥12
𝑥22
…
𝑥𝑛2
…
…
…
…
𝑥1𝑝
𝑤1
𝑥2𝑝
𝑤2
… ] […]
𝑥𝑛𝑝
𝑤𝑝
で微分する、という意味を理解するために Tp p
を展開します。
T p p = [y 1 x 11 + y 1 x 12 + ... + y 1 x 1 p ,
y 1 x 2 1 + y 2 x 2 2 + ... + y 2 x 2 p ,
...,
y 1 x n 1 + y 2 x n 2 w 2 + ... + y p x n p
𝑤1
𝑤2
] […]
𝑤𝑝
= y 1 x 11 w 1 + y 1 x 12 w 2 + ... + y 1 x 1p w 1
+ y 1 x 21 w 1 + y 2 x 22 w 2 + ... + y 2 x 2p w 2
+ ...
+ y 1 x n1 w 1 + y p x n2 w 2 + ... + y p x np w p
偏微分の記号
𝜕𝑆
𝜕𝑎
を Df(S, w)で示すと（ S を w で微分する、という意味）、
Df(T p p , w 1 ) = y 1 x 1 1 + y 2 x 21
+
Df(T p p , w 2 ) = y 1 x 1 2 + y 2 x 22
+
... + y 1 x n 1
... + y 2 x n 2
…
(上式の縦 1 列目 )
…
(上式の縦 2 列目 )
…
(上式の縦 p 列目 )
...
Df(T p p , w p )= y 1 x 1 p + y 2 x 2 p + ... + y p x n p
これらをまとめて示すと次のようになります。
Df(T p p , Yp)= Df(Yp’ X p p Wp, Wp) = Yp' X p p
[← 縦ベクトル ]
高等学校で既習の次の微分を思い出して、比べてみてください。
133
Df(yxw, w) = yx
[2] 次は、微分する項 (Wp)が 2 乗されている場合です。たとえば、
T p p = Wp’ X p p
𝑥11
𝑥12
Wp = [w 1 , w 2 , ..., w p ] [ …
𝑥1𝑝
𝑥12
𝑥22
…
𝑥2𝑝
…
…
…
…
𝑥1𝑝
𝑤1
𝑥2𝑝 𝑤2
… ] […]
𝑥𝑝𝑝 𝑤𝑝
𝑤1
𝑤2
をベクトル Wp = [ … ]で微分します。ここでは X p p を対照行列とします。
𝑤𝑝
T p p = [w 1 x 11 + w 1 x 12 + ... + w 1 x 1 p ,
w 1 x 21 + w 2 x 22 + ... + w 2 x 2 p ,
...,
w 1 x n1 + w 2 x n2 w 2 + ... + w p x n p
𝑤1
𝑤2
] […]
𝑤𝑝
= w 1 x 11 w 1 + w 1 x 1 2 w 2 + ... + w 1 x 1 p w p
+ w 2 x 12 w 1 + w 2 x 2 2 w 2 + ... + w 2 x 2 p w p
+ ...
+ w p x 1p w 1 + w p x 2 p w 2 + ... + w p x pp w p
= x 11 w 1 2 + w 1 x 12 w 2 + ... + w 1 x 1p w p
+ w 2 x 12 w 1 + x 2 2 w 2 2 + ... + w 2 x 2p w p
+ ...
+ w p x 1p w 1 + w p x 2 p w 2 + ... + x p p w p 2
はじめに、 w1 を含む成分は 1 行と 1 列の成分です。よって、
Df(T p p , w 1 ) = 2w 1 x 11 + 2(w 2 x 12 + ... + w p x 1p ) = 2(w 1 x 1 1 + w 2 x 12 + ... + w p x 1 p )
同様に、 w2 を含む成分は 2 行と 2 列の成分です。よって、
Df(T p p , w 2 ) = 2w 2 x 12 + 2(w 2 x 22 + ... + 2w p x 2 p ) = 2(w 2 x 12 + w 2 x 22 + ... + w p x 2p )
...
同様にして、
Df(T p p , w p ) = 2w p x 1p + 2(w 2 x 2p + ... + w p x pp ) = 2(w p x 1 p +
以上をまとめて示すと次のようになります。
134
2
x 2p + ... + w p x p p )
Df(T p p , Wp) = Diff. (Wp’ X pp Wp, Wp) = 2 X p p Wp
次の微分と比べてみてください。
Df(wxw, w) = 2xw
■文字頻度の変遷と年代
下左表は、 13~19 世紀の文字母数を揃えたスペイン語文献 (LEMI Corpus)の
特定の文字の頻度と文献の成立年代 (Y)を示します。下右表は重回帰分析の
結果です。
Obra
>
ñ
è
á
τ
Y
Obra
Y
Expected
Residual
Cid
836
144
1207
Cid
1207
1396
-189
Fazienda
902
157
1220
Fazienda
1220
1382
-162
Alcalá
921
444
1230
Alcalá
1230
1249
-19
1,349
301
1270
GE
1270
1266
4
877
78
1300
Alexandre
1300
1421
-121
Lucanor
1,877
227
1330
Lucanor
1330
1241
89
Troyana
1,105
399
1350
Troyana
1350
1249
101
LBA
1,366
146
1389
LBA
1389
1335
54
Alba
464
156
543
1433
Alba
1433
1485
-52
1,024
52
215
1450
Especulo
1450
1419
31
Gramática
577
51
192
1492
Gramática
1492
1482
10
Celestina
573
41
131
1499
Celestina
1499
1491
8
Sumario
329
70
322
1514
Sumario
1514
1474
40
Diálogo
561
1535
Diálogo
1535
1492
43
Lazarillo
297
33
1554
Lazarillo
1554
1505
49
Casada
139
40
1583
Casada
1583
1598
-15
Quijote
165
57
3
2
1605
Quijote
1605
1621
-16
Buscón
93
47
7
1
1626
Buscón
1626
1617
9
Criticón
147
45
20
1651
Criticón
1651
1616
35
Instante
4
21
94
1677
Instante
1677
1641
36
Austria
7
60
39
1704
Austria
1704
1665
39
27
3
1726
Autoridades
1726
1780
-54
123
108
1747
Picarillo
1747
1798
-51
GE
Alexandre
Especulo
Autoridades
Picarillo
4
4
142
2
196
Delincuente
42
229
1787
Delincuente
1787
1831
-44
Ortografía
35
93
1815
Ortografía
1815
1694
121
Diablo
55
223
1841
Diablo
1841
1845
-4
Sombrero
89
222
1874
Sombrero
1874
1894
-20
135
Perfecta
63
184
1899
Perfecta
1899
1820
79
次は、切片と変数の係数を示します。
Intercept
>
1554.853
ñ
- .112
è
1.475
τ
á
.572
.936
Std res.
- .457
70.948
●数量化１類
次のように、説明変数が数量ではなく、質的なデータ (v)を扱うとき、これ
を 0-1 に変換して、同様に重回帰分析をすることができます。この方法は
「数量化１類」 Quantification method of first type とよばれます。
English Read Write Vocab. POINT
d1
v
v
English POINT Expected Residual
12
d1
12.000
12.000
.000
v
11
d2
11.000
11.000
.000
v
13
d3
13.000
13.000
.000
d2
v
d3
v
d4
v
v
7
d4
7.000
10.500
-3.500
d5
v
v
14
d5
14.000
10.500
3.500
Weight P: Intercept
Value
Read
Write
Vocab. Std res.
14.000 -1.500 -2.000
.500
2.214
この方法を使用するにあたって、注意しなければならないのは、次のよ
うなケースです。
English Read Write Vocab. POINT
d1
v
v
d2
v
v
d3
v
d4
v
d5
v
English Read White Vocab. POINT
12
d1
v
12
v
11
d2
v
v
11
v
13
d3
v
v
7
d4
v
v
7
v
14
d5
v
v
14
v
13
上左表では、 Read がすべて選択されていますので、この Read には弁別
する情報がありません。また、右表では Write と Vocab. が相補分布
complementary distribution をしています。この場合は、どちらかを選択す
れば、他方が決まっているので、どちらか 1 つにしか弁別する情報がない
ことになります。このような行列ではすべて逆行列が存在せず分析ができ
ないので、データから該当する行を取捨選択しなければなりません。
136
5.5.2. 主成分分析
Pearson の「主成分分析」 (Principal component analysis)を使って、データ
の各変数に適当な重み（ウェイト）を共通に掛け、データの変数の分散を
最大にし、かつ変数間の相関係数がゼロになるようにすると、そのような
重みは新たに総合的な意味をもつ変数となります。そのような重みを掛け
られた個体の数値にもその新しい意味が与えられます。たとえば生徒の外
国語文解釈テストと外国語語彙解釈テストの結果を総合して、新しく外国
語解釈能力を示すような数値が得られます。
はじめにデータ行列 (X n p )を標準化（ → 3.5.2）します。これに適当な重みベ
クトル (Wp)を掛けると Zn という合成された変数ベクトルができます。
[1]
Zn = X n p Wp
この標準化合成変数ベクトル Zn の分散 (V)を求めます。
[2]
(● 後述「標準化合成変数ベクトルの
V = (Zn' Zn) / N
平均と分散」)
= (X n p Wp)' (X n p Wp) / N
[1]
= Wp' X n p ' X np Wp / N
[(A B)' = B' A]
= Wp' (X n p ' X n p / N) Wp [N はスカラーなので移動可 ]
= Wp' R p p Wp
[R p p = X n p ' X n p / N]
このような重みベクトル Wp の条件としてその長さ（成分の 2 乗和）を 1
とします。（このような条件をつけないと重みベクトルは無数に存在する
ことになります。）
[3]
Wp' Wp = 1
この条件 [3]のもとで [2]分散 V の最大値を求めるには、
F = Wp' R p p Wp – L (Wp' Wp – 1)
という式 F を Wp で偏微分した値を 0 とします。 L はラグランジュ乗数で
す（●後述「ラグランジュの未定乗数法」）。
[4a]
Df(F, Wp) = 2 R pp Wp – 2 L Wp = 0
[4b]
R p p Wp = L Wp
[4a の中項の左辺の L Wp を右辺に移項 ]
この式（固有方程式）から固有値 (L)と固有ベクトル (Wp)を求めます。（ →
後述）
137
固有値も固有ベクトルも変数の数だけ存在します。それらを新しい合成変
数（「成分」component）として、固有値の大きさによって順に成分番号を
つけます。固有値が大きい順にデータの分散を強く反映しています。次が
その分析例です。
3 subject s
English
Lat in
Physics
#2
#3
A
56
59
54
A
- .104
1.197
- .078
B
28
88
20
B
- 2.696
- .657
.195
C
43
64
32
C
- 1.220
.253
- .368
D
50
16
100
D
2.056
- .228
- .090
E
58
51
78
E
.783
1.113
.293
F
45
48
66
F
.141
- .006
.027
G
32
22
90
G
1.041
- 1.672
.020
PCA.Vr.
English
Latin
1
.349
- .651
Physics
2
3
.930 - .113
.327
.685
.674 - .166
.719
PCA.Id.
#1
P.C.A.
1
2
3
E.value
2.102
.859
.039
●固有方程式
下左表はデータ行列、下右表はその相関係数行列です。
Result
English
Latin
Science
R pp
A
45
48
66
E
B
56
59
54
L
C
58
51
78
S
D
77
72
20
E
43
44
32
F
58
34
90
G
50
53
100
English
Latin
Science
1.000
.643
-.335
.643 1.000
-.545
-.335
-.545
1.000
このような正方行列 Rp p において、
R p p Ap = L Ap
の等式（「固有方程式」 eigen equation とよばれます）が成り立つとき、こ
の式の中の数値 L は「固有値」 eigen value とよばれ、ベクトル Ap は「固
有ベクトル」 eigen vector とよばれます。固有値 (L)と固有ベクトル (Ap)は
R p p の列（ =行）の数だけあるので、ここではそれらの集合を「固有値ベク
138
トル」 eigen value vector: Lp と「固有行列」 eigen matrix: E p p とよぶことに
します。よって、先の式は次のようになります。
R p p E pp = Lp E pp
下左表が相関行列 (R p p )、下中表がその固有行列 (E pp )、下右表が両者の行
列積 (R p p E p p )です。
R pp
E
L
S
Em[M1]
1
2
3
M1 M2
1
2
3
E
1.000
.643
-.335
E
.569
.616
-.545
E
1.152
.414
-.165
L
.643
1.000
-.545
L
.635
.093
.767
L
1.286
.062
.232
S
-.335
-.545
1.000
S
-.523
.782
.338
S
-1.060
.526
.102
次の左表が上の相関行列の固有値ベクトル (Lp) 、中表がその固有行列
(E p p )、右表が両者の積 (Lp E p p )です。ここで上と下のそれぞれの右表が同じ
になることを確認してください (R p p E p p = Lp E p p )。
Ev[M1]
1
2
3
Em[M1]
1
2
3
M1^M2
1
2
3
E. value
2.026
.672
.303
E
.569
.616
-.545
E
1.152
.414
-.165
L
.635
.093
.767
L
1.286
.062
.232
S
-.523
.782
.338
S
-1.059
.526
.102
次のように固有行列の中のそれぞれの固有ベクトルは長さが 1 になり,
内積がゼロになることを確認します。 (E pp ' E pp = U p p [単位行列 ])。
E pp'
E
L
S
1
.569
.635
2
.616
3
-.545
X
E pp
1
2
3
-.523
E
.569
.616
.093
.782
L
.635
.767
.338
S
-.523
=
X
1
2
3
-.545
1
1.000
.000
.000
.093
.767
2
.000
1.000
.000
.782
.338
3
.000
.000
1.000
●冪乗法
R p p の固有値ベクトルと固有行列を求めるために「冪乗法」（べきじょう
ほう : Power method）を使います。この方法は最大固有値を求め、その残差
行列を使って次のステップで残差行列の最大固有値を求める、というステ
ップを次々に列の数だけ行います。
R p p E pp = Lp E pp
この式の Ep p は、それを倍数にしても成立するので無数に存在します。
そこで E pp 内のそれぞれのベクトル (Ap)の長さ（ 2 乗和）を 1 とする条件を
つけます。 E p p のそれぞれの列ベクトルを Ap(1), Ap(2), …, Ap(p)とすると
139
Ap(i)' Ap(i) = 1
[i = 1, 2, …, p]
そして Ap(i)と Ap(j) [i<>j]が直交する、という条件を加えます。
Ap(i)' Ap(j) = 0
[i, j = 1, 2, …, p; i <> j]
よって、
E p p ' E pp = U pp (単位行列 )
はじめに E pp のそれぞれの列ベクトルを Ap(1), Ap(2), …, Ap(p)とすると、
それらの和 (Sp)の初期状態 Sp (0 ) を次にようにします。
Sp ( 0 ) = Ap(1) + Ap(2) + … + Ap(p)
この両辺に Rp p を次々に左積していきます。
Sp (1 ) = R p p Sp ( 0) = R p p Ap(1) + R pp Ap(2) + … + R pp Ap(p)
[両辺に R pp を左積 ]
= L(1) Ap(1) + L(2) Ap(2) + … + L(p) Ap(p)
[← R p p Ap = L Ap]
Sp (2 ) = R p p 2 Sp (0 ) = L(1) 2 Ap(1) + L(2) 2 Ap(2) + … + L(p) 2 Ap(p)
[さらに両辺に R pp を左積 ]
(…) [順次両辺に R pp を左積 ]
Sp (k ) = R p p k Sp (0 ) = L(1) k Ap(1) + L(2) k Ap(2) + … + L(p) k Ap(p)
ここで右辺の L(1), L(2), …, L(p)の中の最大のものを L(m)とします。
Lm > L(1), L(2), …, L(p)
先の式は、
Sp (k ) = L(1) k Ap(1) + … + L(m) k Ap(m) + … + L(p) k Ap(p) [L(m)が最大 L]
= Lm k [L(1) k /L(m) k A(p)1 + … + Ap(m) + … + L(p) k /L(m) k Ap(p)]
[Lm k を外に出す ]
ｋを十分に大きくすると […]の中の Ap(m)以外は、その係数の分数がゼ
ロに近づくので無視できるほど小さくなります。よって、
Sp (k ) ≒ L(m) k Ap(m)
[k → ∞ ,
L(p) k /L(m) k → 0]
最初の（最大の）固有値 L(1)と固有ベクトル Ap(1)を次の式で求めます。
L(1) = [Sp ( k ) ' Sp ( k ) ] 1 /2
[L の長さは 1]
140
Ap(1) = Sp ( k ) / L(1)
[Sp ( k) ≒ L(m) k Ap(m)]
次に大きな固有値 L(2)と固有ベクトル Ap(2)を求めるための R pp (2)は、最
初の R p p (1)から一定の行列を引いた残差行列になります。そのために R p p
を次のようにスペクトル分解 (Spectral decomposition：後述）します。
R p p = Lp * E pp E p p '
この式を展開すると次のようなスペクトル分解の式になります（後述）。
R p p = L1 A p 1 A p 1 ' + L2 Ap2 Ap2' + … + Lp E pp E p p '
そこで、上式から L1 A p 1 A p 1 'を除いた残差行列を次のステップの R pp (2)と
します。
R p p (2) = R pp (1) – L(1) Ap(1) Ap(1)'
この新たな R pp (2)を使って、先のプロセスを繰り返します。同じプロセ
スを、R p p (3), R pp (4), …, R pp (p)までのうち、望む固有値の数だけ繰り返して
終了します。
●固有行列の直交性
固有行列内の 2 つの固有ベクトル Ap(i), Ap(j)を次のように掛け合わせる
と、その行列積は 0 になります。これは行列が直交していることを示しま
す。
Ap(i)' Ap(j) = 0
[i<>j]
このことを次のようにして導きます。
[固有方程式の定義 ]
1.
R p p Ap = L Ap
2.
Ap(i)' R p p Ap(j) = Ap(i)' L(j) Ap(j)
3.
= L(j) Ap(i)' Ap(j)
4.
[1.の両辺に Ap(i)'を左積 ]
[L(j)はスカラーなので移動可 ]
Ap(i)' R p p Ap(j) = Ap(i)' R p p ' Ap(j) [R は対照行列なので R = R']
5.
= [R p p Ap(i)]' Ap(j)
[A' B' = (BA)']
6.
= [Ap(j)' R p p ' Ap(i)]'
[id.]
7.
= [Ap(j)' L(i) Ap(i)]'
[R p p Ap(i) = L(i) Ap(i)]
8.
= L(i) [Ap(j)' Ap(i)]'
[L(i)はスカラー ]
9.
= L(i) Ap(i)' Ap(j)
[A' B' = (BA)']
[2.左辺 = 9.左辺 ]
10.
L(j) Ap(i)' Ap(j) = L(i) Ap(i)' Ap(j)
11.
[L(i) – L(j)] Ap(i)' Ap(j) = 0
[左辺を右辺に移項 ]
12.
Ap(i)' Ap(j) = 0
[L(i) <> L(j)]
141
ベクトル成分の 2 乗和が 0 であることは、それらのベクトルが直交して
いることを示します。また、前提として固有ベクトルの長さは 1 とします。
13.
Ap(i)' Ap(i) = 1
12.と 13.をすべての固有ベクトルについてみると、次の式になります。
14.
[A p p は単位行列 ]
Ap p ' Ap p = U p p
●スペクトル分解
次の式は Rp p のスペクトル分解を示したものです。
a.
R p p = L1 A p 1 A p 1 ' + L2 Ap2 Ap2' + … + Lp A p p A p p '
この式を導くために次を準備します。
[先述の固有行列の直交性を示す 14.]
b1.
Ap p ' Ap p = U p p
b2.
A p p ^ A p p = U p p [逆行列の定義 : A^ A = U]
b3.
Ap p ' = Ap p ^
b4.
(A p p ')^ A p p ' = U p p
[逆行列の定義 : A^ A = U]
b5
(A p p ^)' A p p ' = U p p
[逆行列の規則 : (A')^ = (A^)']
b6
(A p p ')' A p p ' = U p p
[b3]
b7
Ap p Ap p ' = U p p
b8
Ap p ' Ap p = Ap p Ap p ' = U p p
[b1, b2]
[(A')' = A]
[b1, b7]
これで準備ができたので固有方程式から始めます。
[固有方程式 ]
c1.
R p p A pp = Lp A p p
c2.
R p p A pp A p p ' = Lp A p p A p p '
[両辺に A p p 'を右積 ]
c3.
R p p A pp ' A p p = Lp A p p A p p '
[b8: A p p ' A p p = A p p A p p ']
c4.
R p p A pp ^ A p p = Lp A p p A p p '
[b3: A p p ' = A p p ^]
c5.
R p p U pp = Lp A p p A p p '
[c4, b2: A p p ^ A p p = U p p ]
c6.
R p p = Lp A p p A p p '
[R U = R]
この c6 を展開すると a.の式になります。a の右辺のそれぞれの項 Lp(i) Ap(i)
Ap(i)' を展開すると次のようになります。
d
𝐴𝑝(1, 𝑖)
Lp(i) Ap(i) Ap(i)' = Lp [𝐴𝑝(…2, 𝑖 )] [Ap(i,1), Ap(i,2), … Ap(i,p)]
𝐴(𝑝, 𝑖)
＊冪乗法については白井 (2009)を参照しました。固有ベクトルの直交性に
142
ついては足立 (2005)を参照し、スペクトル分解については足立 (2005)と岩
崎・吉田 (2006)を参照しました。
固有値ベクトルと固有行列を導出するプログラムの手順は、 R pp Ap = L
Ap から、 Ap ← (R p p Ap) / L を導き、これを Ap に変化がなくなるまで繰
り返します。はじめに Ap を単位ベクトル (U p1 )とします。
Ap ← U p1
次の 3 つのプロセスを Ap に変化がなくなるまで繰り返します。
Ap ← R pp Ap
L ← (Ap' Ap) 1 /2
Ap ← Ap / L
これで、最初の（最大の）固有値と固有ベクトルが求められました。次に、
R p p = L1 A p 1 A p 1 ' + L2 Ap2 Ap2' + … + Lp A p p A p p '
から、
R p p (2) = R pp ( 1) – L1 A p 1 A p 1 '
を計算し、R pp (2)の最大の固有値と固有ベクトルを求めます。以下同様に、
R p p (p)までを求めて、最終的な固有値の集合である固有値ベクトル (Lp)と固
有ベクトルの集合である固有行列 (A p p )を完成します。
●ラグランジュの未定乗数法
「ラグランジュの未定乗数法」 (Lagrange multiplier method)を使った微分を
します。次の関数
Y = f (x 1 , x 2 , …, x n )
(1)
の極値を求めるために、 Y の (x1, x2, …, xn)による偏微分
Df(Y, x1)=0, Df(Y, x2)=0, …, Df(Y, xn)=0
から x 1 , x 2 , …, x n を求めます。このとき、
G = g(x 1 , x 2 , …, x n ) = 0
(2)
というような別の条件がついていることがあります。このように条件付き
の関数を微分するときには Lagrange の未定乗数 L をつけて、
143
W
=Y −LG
= f (x 1 , x 2 , …, x n ) – L g(x 1 , x 2 , …, x n )
(3)
この W を次のように x 1 , x 2 , …, x n , L で微分し W の極値を求めます。
Df(W, x 1 ) = 0, Df(W, x 2 ) = 0, …, Df(W, x p ) = 0, Df(W, L) = 0
(3)の W= Y – L G を代入すると、それぞれ次のようになります。
Df(W, x 1 ) = Df(Y, x 1 ) – L Df(G, x 1 ) = 0
Df(W, x 2 ) = Df(Y, x 2 ) – L Df(G, x 2 ) = 0
(…)
Df(W, x n ) = Df(Y, x n ) – L Df(G, x n ) = 0
そして、最後の式（下線）は次のようになります。
Df(W, L) = Df(Y – L G, L) = – G = 0
[Y はゼロ ]
よって
G =0
このように W をそれぞれの未知数で微分すると、たしかに (2)の条件が満
たされることがわかります。この理由から条件付き関数を微分するときは
その条件に L という乗数をつけた式 (3)を使って x 1 , x 2 , …, x n , L を求める、
という方法をとります。（＊小林 (1967:89-90)を参照しました。）
●重みと得点のグラフ
「項目散布図」の「行」(Row)（ → 2.1.5.）を使って、ウェイトとスコアの散
布図を描きます。ここでは第 1 成分と第 2 成分をそれぞれ x 軸と y 軸とし
ます。
2.000
1.500
1.000
A
E
.500
C
.000
#2
- 3.000
- 2.000
B
- 1.000
- .500
F
.000
1.000
2.000D
- 1.000
- 1.500
- 2.000
G
#1
144
3.000
1.000
English
.800
.600
.400
#2
Latin
.200
- .700
- .500
- .300
.000
- .100
- .200
.100
.300
.500
.700
Physics
#1
■集中分析
変数の重みと個体の得点を昇順でソートし、得点を並び替えると次のよう
な集中化した得点になります。
PCA.Cct
B
C
A
F
E
G
D
Latin
English Physics
88
28
20
64
43
32
59
56
54
48
45
66
51
58
78
22
32
90
16
50
100
■地域変異語彙の主成分分析
次の図は現代スペイン語の地域変異語彙 841 語を 20 か国で調査した結果を
主成分分析し、第 1 主成分を行に、第 2 主成分を列にして各国をプロット
したものです。第 1 主成分（行）はスペイン (ES)とラテンアメリカ諸国を
分けています。右上の ○ で囲んだ国々はメキシコ (MX)・中米諸国 (HO, EL,
GU, PN)・カリブ海諸国 (PR, CU, RD)・コロンビア (CO)・ベネズエラ (VE)
です。その下にアンデス諸国 (EC, BO, PE)、チリ (CH)、ラプラタ諸国 (PA, UR,
AR)が続きます。このようにラテンアメリカ諸国は第 2 主成分（列）によ
っておよそ南北に配置されます。このように地域変異語彙はバラバラに分
布するのではなく、一定の地理的な連続性 continuum を示しています。
145
■中世・近代スペイン語文字使用頻度の主成分分析
13 世紀から 19 世紀までのスペイン語史の中に位置づけられる 28 作品をサン
プルにし、使用されているすべての文字の頻度からなる行列を作成しました。
それを主成分分析にかけると、第一成分はとくにデータを特徴づけることが
ありませんが、第二成分（中世と近代）と第三成分（ 17-18 世紀と 19 世紀）
の特徴が明らかに示されています。文字の変異に関しては、とくに s, d, r の
バリアントが重要です。
146
.300
1815
1841
1874
1207
1787
1350
1899
.200
1492
1433
.100
1499
1535
1270
#3
- .300
1514
.000
- .200
- .100
1300
1450
.000
.100
1220
.200
1330
.300
- .100
1230
1554
1726
1626
1704
- .200
1389
1651
1747 1677
1583
1605
- .300
#2
5.5.3. 判別分析
次のようなデータの説明変数行列に、適当な重みベクトルを与え、最終
列の質的目的変数を予想する方法は、「判別分析」 Discriminant Anal ysis
とよばれます。そのとき求められた重みベクトルは、それぞれの変数の重
みの意味を探るのに役立ちます。また、その重みベクトルを使えば未知の
データの目的変数を一定の精度で予想することもできます。
147
English
Read
Write
Vocab.
d1
6
8
5
d2
7
10
6
d3
8
4
8
d4
9
7
2
d5
10
9
4
POINT
v
v
この例では d1, d2, ..., d5 という生徒の小テスト (x1:Read, x2:Write,
x3:Vocab[ulary])の得点と、最終試験の評価 (v:優 )が示されているとします。
はじめに説明変数行列を次のように標準化します。
X n p = Std(X n p ) …標準化 : (Xij – 列平均 ) / 列標準偏差
Std.s.
Read
Write
Vocab.
d1
-1.414
.194
.000
d2
-.707
1.166
.500
d3
.000 -1.748
1.500
d4
.707
-.291
-1.500
d5
1.414
.680
-.500
… (1)
この X np に適当な重みベクトル Wp を右積した合成ベクトルを Zn としま
す。
… (2)
Zn = X n p Wp
重みベクトル Wp が求められれば、上の式で Zn が求められます。 Zn の
平均 MT は、次のようにゼロ (0)になります。
MT
= (Σ ( i: N ) Zn) / N
← 平均の定義
= Σ ( i: N ) (X n p Wp) / N
← (2)
= Σ ( i: N ) (X i1 W 1 + X i2 W 2 + … + X ip Wp) / N
← 行列積の成分
= (Σ ( i: N ) X i1 W 1 + Σ ( i:N ) X i2 W 2 + … + Σ ( i:N ) X ip Wp) / N ← Σ を分配
= (W 1 Σ ( i:N ) X i1 + W 2 Σ ( i:N ) X i2 + … + WpΣ ( i:N ) X ip ) / N
←定数を前に
ここで Xn p は標準化されているので、それぞれの列和は 0 です
Σ ( i:N ) X i1 = Σ ( i:N ) X i2 = …
= Σ ( i:N ) X i p = 0
よって、 Zn の分子の項がすべて 0 になるので、 Zn の平均 MT は、
MT = 0
… (3)
←
Zn の全変動 St は、
St
= Σ ( i:N ) (Zi – MT) 2
← 変動の定義
148
= Σ ( i:N ) Zi 2
← (3) MT = 0
合成ベクトル Zn 全体を、優をとった学生群 Zv と、そうでない学生群
Zc に分けて考え、それぞれの群の個数（人数）を NV, NC、群内の平均を
MV, MC とします。
Zv 内の変動と Zc 内の変動の和は「群内変動」(Within-groups sum of
squares: SW)とよばれます。
SW
= Σ ( i:N V ) (Zv i － MV) 2 + Σ ( i:N C ) (Zc i － MC) 2
MT は 0 ですが、MV と MC は 0 になるとは限りません。列全体を標準化
しているので MT=0 になるのですが、 Zv, Zc はそれぞれの群内で標準化し
ているわけではないからです。
それぞれの群の成分がすべて同じだと仮定して、それと全体の平均 MT
(= 0)との編差の 2 乗和は「群間変動」 (Between-groups sum of squares: SB)
とよばれます。群間変動はそれぞれの群が全体（平均は MT=0）の中でど
のように変動するかを示します。群間変動は次のような式になります。
SB
= Σ ( i:N V ) (MV － MT) 2 + Σ ( i:N C ) (MC － MT) 2
= Σ ( i:N V ) MV 2 + Σ ( i:N C ) MC 2
← (3) MT = 0
= NV MV 2 + NC MC 2
← 定数の倍数
… (4)
このとき、全変動が群内変動と群間変動の和 ST = SW + SB であること
が、次のようにして確かめられます。
SW
= Σ ( i:N V ) (Zv i － MV) 2 + Σ ( i:N C ) (Zc i － MC) 2
= Σ ( i:N V ) (Zv i 2 － 2 Zv i MV + MV 2 )
← 展開
+ Σ ( i:N C ) ) (Zc i 2 － 2 Zc i MC + MC 2 )
← 展開
= Σ ( i:N V ) Zv i 2 － Σ ( i:N V ) 2Zv i MV + Σ ( i: N V ) MV 2
2
+ Σ ( i:N C ) ) Zc i － Σ ( i:N V ) 2Zc i MC + Σ ( i:N V ) MC
2
← Σを分配
← Σを分配
= Σ ( i:N V ) Zv i 2 － 2 MVΣ ( i:N V ) Zv i + NV MV 2
←定数を前に
+ Σ ( i:N V ) Zc i 2 － 2 MCΣ ( i:N V ) Zc i + NC MC 2
←定数を前に
= Σ ( i:N V ) Zv i 2 － 2 MV NV MV + NV MV 2
2
+ Σ ( i:N V ) Zc i － 2 MC NC MC + NC MC
2
← Σ ( i:N V ) Zv i = NV MV
← Σ ( i:N V ) Zv i = NV MC
← ＊和＝個数 c 平均
= Σ ( i:N V ) Zv i 2 － 2 NV MV 2 + NV MV 2 ← MV を合体
+ Σ ( i:N V ) Zc i 2 － 2 NC MC 2 + NC MC 2 ← MC を合体
149
= Σ ( i:N V ) Zv i 2 － NV MV 2 + Σ ( i:N V ) Zc i 2 － NC MC 2 ← -2* + * = -*
よって、
SW + SB = Σ ( i:N V ) Zv i 2 － NV MV 2 + Σ ( i:N C ) Zc i 2 － NC MC 2 ← SW
+
NV MV 2 + NC MC 2
← SB
= Σ ( i:N V ) Zv i 2 + Σ ( i:N C ) Zc i 2 = ST
次に、群間変動 (SB)が全変動 (ST)の中で占める割合を問題にします。こ
の割合は「相関比」 (Correlation ratio: Cr)とよばれます。
Cr
= 群間変動 (SB) / 全変動 (ST)
= 群間変動 (SB) / (群内変動 (SW) + 群間変動 (SB))
… (5)
たとえば、すべての成分が群内の平均と等しいときは（ Zv = MV, Zc = MC
のとき）、群内変動 (SW)はゼロになり、すべての成分が１点に集中し群を
完全に判別でき、上の式 (5)から相関比は最大の 1 になります。また、それ
ぞれの群内の平均（ Zv の平均と Zc の平均）が全体の平均と同じときは (MV
= MT, MC = MT), 群間変動 SW はゼロになるので（群を判別できないので）、
相関比は最小のゼロ (0)になります。
次に、相関比 Cr の式を構成する Zn の全変動 (ST)と、群間変動 (SB)を、
求めている Wp を含む行列で表します。
相関比 Cr の分母の Zn の全変動 ST を Wp を含む式にします。
ST
= Zn’ Zn
= (X n p Wp)’ (X n p Wp)
← (2) Zn = X n p Wp
= Wp’ X np ’ X np Wp
← 行列演算
S pp = X n p ’ X n p
= Wp’ S p p Wp,
相関比 Cr の分子の Zn の群間変動 SB を Wp を含む式にします。
SB
= NV MV 2 + NC MC 2
← (4)
2
← SVp: X np の v 群列和ベクトル
+ NC (SCp’/NC Wp) 2
← SCp: X np の c 群列和ベクトル
= NV (SVp’/NV Wp)
= NV (SVp’ Wp) 2 / NV 2
2
+ NC (SCp’ Wp) / NC
2
← NV はスカラー
← NC はスカラー
= (SVp’ Wp) 2 / NV
← NV はスカラー
+ (SCp’ Wp) 2 / NC
← NC はスカラー
= (SVp’ Wp)’ (SVp’ Wp) / NV ← 行列演算
150
+ (SCp’ Wp)’ (SCp’ Wp) / NC
← 行列演算
= Wp’ SVp SVp’ Wp / NV
← 行列演算
+ Wp’ SCp SCp’ Wp / NC
← 行列演算
= Wp’ (SVp SVp’ / NV + SCp SCp ’ / NC) Wp
← B pp は以下の式
= Wp’ B pp Wp
B p p = SVp SVp’ / NV + SCp SCp’ / NC
よって、先の (5)の相関比 Cr = SB / ST は次のようになります。
Cr = SB / ST = Wp’ B p p Wp / Wp’ S pp Wp
S p p = X np ’ X n p
B p p = SVp SVp’ / NV + SCp SCp’ / NC
この相関比が最大になるときのベクトル Wp を求めるのが判別分析の目
的です。つまり、もっとも良く 2 群を判別するときの Wp を探すことにな
ります。そこで、相関比の式を未知数の Wp で微分しますが、このような
分数の微分については、分母 (ST: Wp’ S p p Wp)を 1 とする条件をつけて、相
関比が最大化する値を求めます。そこで、ラグランジュの未定乗数 L と、
全変動 ST = 1 → ST－ 1 = 0 という条件をつけた関数 F (Wp)を考えます。
F (Wp) = SB – L (ST – 1)
←ラグランジュの未定乗数法
= Wp’ B pp Wp － L (Wp’ S p p Wp － 1)
この F を Wp で微分し、これがゼロ (0)であるときの Wp を求めます。
Diff.(F, Wp) = 2 B p p Wp － 2L S p p Wp = 0
←行列の微分
よって、
(B p p － L S p p ) Wp = 0
… (6)
S p p ^ (B pp － L S p p ) Wp = S pp ^ 0
← S pp の逆行列 S p p ^を左積
(S p p ^ B pp － S p p ^ L S p p ) Wp = 0
← S pp ^ をそれぞれの項に
(S p p ^ B pp － L S p p ^ S p p ) Wp = 0
← スカラーL を移動
(S p p ^ B pp － L Um) Wp = 0
← S pp ^ S p p = Um (単位行列 )
S p p ^ B pp Wp － L Um Wp = 0
← Wp をそれぞれの項に
S p p ^ B pp Wp － L Wp = 0
← Um Wp = Wp
となり、これが固有方程式の形 (R pp Ap－ L Ap = 0)になります。ここで、S p p ^
151
B p p から固有値 L と固有ベクトル Wp を求めることができます。
また、先の式 (6)から、次のようにして固有値が相関比であることがわか
ります。
(B p p － L S p p ) Wp = 0
← (6)
Wp’ (B p p － L S p p ) Wp = Wp’ 0
← 両辺に Wp’を左積
Wp’ B pp Wp － Wp’ L S p p Wp = 0
←展開
Wp’ B pp Wp － L Wp’ S pp Wp = 0
← スカラーL を移動
SB － L ST = 0
← Wp’ B p p Wp = SB, Wp’ S p p Wp = ST
SB = L ST
← L ST を右辺に移動
L = SB / ST
← SB / ST = 相関比
相関比は分母も分子も変動を使い 2 次関数になるので、その根をとった
ほうがわかりやすく、それが使われることもあります。それを「根相関比」
(Root Correlation Ratio: R.C.R.)とよぶことにします。
根相関比 (R. C. R..) = (Sb / St) 1 /2
Std.s.
Read
Write
Vocab.
d1
-1.414
.194
d2
-.707
POINT
Expect.
Score
Eval.
.000
-1.090
Ok
1.166
.500
-.297
Ok
d3
.000 -1.748
1.500
1.088
Ok
d4
.707
-.291
-1.500
-.408
Ok
d5
1.414
.680
-.500
.707
Ok
v
v
v
v
上表（標準得点 Standard score: Std. s.）の得点列 (Score)は、 (2)の合成ベ
クトル Zn です。
Zn = X n p Wp
← (2)
期待値 (Expect[ed value])の列では Zn の成分が正であれば v を出力します。
実測値（ここでは POINT）と期待値が一致したときに評価列 (Eval[uation])
に Ok を出力します。
次の変数表 (Var[iable]) の重み (Weight)は、求められた固有ベクトル Wp
であり、その下にそれぞれの変数の和 (Sum) 、平均 (Ave.) 、標準偏差
(St[andard] dev[iation])を出力します。
152
Var.
Read
Weight
Write
Vocab.
.761
-.070
.644
Sum
40.000
38.000
25.000
Ave.
8.000
7.600
5.000
St.dev.
1.414
2.059
2.000
最後の表、総合評価 (T[otal] eval[uation])には、正答率 (Ac[curacy] R[atio])
と根相関比 (Root Correlation Ratio: R.C.R.)を出力します。正答率は上の評価
の Ok の数を行数で割った値です。
T. eval. Ac. R. R.C.R.
Value
1.000
.927
＊三野 (157-161)、石井 (2014: 140-149)を参照しました。
■未知の判別値
既知のデータ (X np )で得られた重みベクトルを、判別値が未知のデータ
(D n p )に適用するときは、先に得られた平均 Av(X n p )と標準偏差 Sd(X np )を使
って、判別値が未知のデータ行列を標準化し、これに重みベクトルを左積
します。
Y n p = [D n p － Ave(X n p )] / Sd(X n p )
En = Y n p Wp
■数量化２類分析
次のような説明変数が質的データの場合は、チェック (v)を 1 に変換して
数量化し、同じ判別分析をします。この方法は「数量化２類分析」とよば
れます。
English-5
Read
d1
Write
Vocab.
POINT
v
d2
v
v
d3
v
d4
v
v
d5
v
v
v
v
v
v
153
5.5.4. 対応分析
「対応分析」 Correspondence Analysis はフランスの Jean-Paul Benzécri が
開発した多変数解析法です 30 。次のような分割表から個体（ X n 1 : Ana, Juan,
Meryl, Ken)と変数 (Y 1 p : Japanese, English, Math)に適当な負荷値を与えて変
数と個体の間の相関数係数を最大化させ、そのときの個体と変数の数値に
よってそれぞれの意味を探る、という方法です。
Test: D np
Y 1 : English Y 2 : Latin Y 3 : Science
Sn1
X 1 : Ana
9
14
18
41
X 2 : Juan
17
7
11
35
X 3 : Mary
15
13
14
42
X 4 : Ken
5
18
8
31
T1p
46
52
51 149
対応分析の目的は、上の個体 (X 1 , X 2 , X 3 , X 4 ) = X n1 と変数 (Y 1 , Y 2 , Y 3 ) = Y p 1
という未知の 2 つのベクトルを求めることです。
個体ベクトル X n 1 と変数ベクトル Y p 1 の平均 (MX, MY)をそれぞれ 0 とし
ます。
S n 1 = SumR(D n p ); T 1 p = SumC(D n p ); N=Sum(D n p )
[1a]
MX = (41X 1 + 35X 2 + 42X 3 + 31X 4 ) / 149 = S n 1 ' X n 1 / N = 0
[1b]
MY = (46Y 1 + 52Y 2 + 51Y 3 ) / 149 = T p1 ’ Y p1 / N = 0
個体 (X n1 )と変数 (Y p 1 )の分散 (VX, VY)をそれぞれ 1 とします。
S n n = dg(S n 1 ); T p p = dg(T 1 p ) [dg: 対角行列 ]
[2]
[2a] VX = [(41X 1 – MX) 2 + (35X 2 – MX) 2 + (42X 3 – MX) 2 + (31X 4 – MX) 2 / 149
= (41X 1 2 + 35X 2 2 + 42X 3 2 + 31X 4 2 ) / 149
← 1a. MX = 0
= X n 1 ' Sn n Xn 1 / N = 1
[2b] VY = [(46Y 1 – MY) 2 + (52Y 2 – MY) 2 + (51Y 3 – MY) 2 ] / 149
= (46Y 1 2 + 52Y 2 2 + 51Y 3 2 ) / 149
← 1b. MY = 0
= Y p 1 ' Tp p Yp 1 / N = 1
D n p を散布図と見なし、その X 軸： X n 1 と Y 軸： Y p 1 の間の相関係数 (R)
は,
30
[D n p :データ行列 ]
日本の林知己夫が独自に開発した数量化Ⅲ類と同じアルゴリズムです。
154
[3]
R = [9(X 1 –MX)(Y 1 –MY)
+ 14(X 1 –MX)(Y 2 –MY)
+ 18(X 1 –MX)(Y 3 –MY)
+ 17(X 2 –MX)(Y 1 –MY)
+...
+ 8(X 4 –MX)(Y 3 −MY)] / 149
← MX = MY = 0
= (9X 1 Y 1 + 14X 1 Y 2 +... + 8X 4 Y 3 ) / 149
= X n 1 ' D np Y p 1 / N
この R を最大化するためには、それぞれの分散 VX = VY = 1 という条件
を加えた次の式の S を X n1 と Y p1 で微分し (Df(S, X n 1 ), Df(S,Y p1 ))、その結果
をゼロベクトル (O n 1 , O p 1 )とします。 L 1 , L 2 はラグランジュ乗数です。
S
= (X n 1 ' D np Y p1 ) / N
– L 1 [(X n 1 ' S n n X n 1 ) / N - 1]
– L 2 [(Y p 1 ' T p p Y p 1 ) / N - 1]
[4a]
Df(S, X n1 ) = D np Y p 1 / N – 2 L 1 S nn X n 1 / N = O n1 (ゼロ )
Df(S, L) = (X n 1 ' S n n X n1 ) / N - 1 = 0 (ゼロ :はじめの条件 )
[4b]
Df(S, Y p1 ) = D np ' X n 1 / N – 2 L 2 T pp Y p 1 / N = O p 1 (ゼロ )
Df(S, L) = [(Y p 1 ' T p p Y p 1 ) / N - 1 = 0 (ゼロ :はじめの条件 )
[5a]
← 4a.の第 2 項を移項
D n p Y p1 / N = 2 L 1 S nn X n1 / N
X n 1 ' D np Y p 1 / N = 2 L 1 X n1 ' S n n X n1 / N ← 両辺に X n 1 'を左積
R = 2 L1
[5b]
← 2a. X n1 ' S n n X n1 / N = 1; 3. R = X n1 ' D n p Y p1 / N
D n p ' X n1 / N = 2 L 2 T pp Y p 1 / N
← 4b.の第 2 項を移項
X n 1 ' D np / N = 2 L 2 Y p 1 ' T p p / N ← 行列移動； T p p 対角行列
X n 1 ' D np Y p 1 / N = 2 L 2 Y p1 ' T p p Y p1 / N ← 両辺に Y p 1 を右積
R = 2 L2
← 2b. Y p1 ' T p p Y p1 / N = 1; 3. R = X n1 ' D n p Y p1 / N
5a, 5b から
[6]
R = 2 L1 = 2 L2
[7a]
D n p Y p1 = R S n n X n 1
← 5a. D np Y p 1 / N = 2 L 1 S n n X n 1 / N; 6. R = 2 L 1
R S n n X n 1 = D np Y p 1
←両辺交換
S n n X n1 = D n p Y p1 / R
←スカラーR 移動
S n n ^ S n n X n 1 = S n n ^ D np Y p 1 / R ← 両辺に S n n ^を左積
155
[7b]
X n 1 = S n n ^ D np Y p1 / R
← S n n ^ S n n = U nn
D n p ' X n1 = R T p p Y p 1
← 5b. D n p ' X n1 / N = 2 L 2 T p p Y p 1 / N; 6. R= 2 L 2
7a を 7b の X n 1 に代入して
[8]
D n p ' 1/R S n n ^ D n p Y p1 = R T pp Y p 1
D n p ' S n n ^ D n p Y p1 = R 2 T p p Y p1
←スカラーR 移動
D n p ' Sn^ D n p (T p p 1 /2 )^ T p p 1 /2 Y p 1 = R 2 (T p p ) 1 /2 (T p p ) 1 /2 Y p 1
← (T p p 1 /2 )^ T p p1 /2 = U p p ; (T p p ) 1 /2 (T p p ) 1 /2 = T p p
ここで
[9]
(T p p ) 1 /2 Y p 1 = A p 1
とすると
D n p ' S n n ^ D n p (T p p 1 /2 )^ A p 1 = T p p 1 /2 R 2 A p 1
(T p p 1 /2 )^ D n p ' S n n ^ D np (T p p 1 /2 )^ A p 1 = (T p p 1 /2 )^ T p p 1 /2 R 2 A p 1
← 両辺に (T p p 1 /2 )^を左積
(T p p 1 /2 )^ D n p ' S n n ^ D np (T p p 1 /2 )^ A p 1 = R 2 A p 1
← (T p p 1 /2 )^ T p p 1 /2 = Um
ここで、 (T p p 1 /2 )^ D n p ' S n n ^ D n p (T p p 1 /2 )^ = A p p とすれば
Ap p Ap 1 = R2 Ap 1
という固有方程式になります。プログラムはこの固有方程式の R 2 と A p 1 を
同時に求めます。 Y p1 は [9]より、
Y p 1 = [T p p 1 /2 ]^ A p 1
ここで、ベクトル Y p1 は行和ベクトルとの積和の平均が 0、分散が 1 と
なるような小さな値です（ ← [1a])。そこでデータ規模に合わせるために、
全体にデータの総和 Sum(D n p )を掛けます。また、成分に相関係数を掛ける
と相関係数の大きさを反映した座標になります 31 。
X n 1 は [7a]から求めます。
X n 1 = S n n ^ D np Y p1 / R
＊数理とプログラムは奥村 (1986), 高橋 (2005), 三野 (2005)を参照しました。
31
高橋 (2005: 127-129).
156
● 行列の 1/2 乗と -1/2 乗
正方行列 A p p について、X pp X p p = X p p 2 = A p p となる X p p は A p p の 1/2 乗 A p p1 /2
と定義されます。
X p p 2 = X p p X pp = A p p , X pp = A pp 1 /2
また、正方行列 A p p に逆行列 A p p ^が存在するとき、 Y pp Y p p = A p p ^となる
Y p p は A pp の -1/2 乗 A p p - 1 /2 と定義されます。
Y p p 2 = Y p p Y pp = A p p ^, Y p p = A p p -1 /2
T p p 1 /2 T p p 1 /2 = T pp となる T p p 1 /2 は、 T p p が対角行列のとき、 T p p 1 /2 の対角成
分は次のように Tp p の対角成分の根になります。
Tpp
1
2
Tpp1 /2
3
1
2
3
1 √A
1 A
2
B
3
2
C
√B
√C
3
●対角行列の逆行列
対角行列 T pp の逆行列 T pp ^は、T pp の成分の逆数を成分とした対角行列に
なります。上右表の (Tpp 1 /2 )^は Tpp 1 /2 の逆行列です。
(Tpp1 /2 )^
1
2
3
1 1/√A
2
1/√B
3
1/√C
●個体と変数の対応
下左表はデータ行列、下右表は個体の負荷値 Xn です。
Test
y1: English
y2: Physics
y3: Latin
CA.Id.
#1
#2
x1: Ana
9
14
18
x1: Ana
x2: Juan
17
7
11
x2: Juan
.400
.086
x3: Mary
15
13
14
x3: Mary
.108
.026
x4: Ken
5
18
8
x4: Ken
-.473
.146
-.094 -.211
下左表は相関係数 (Correl)を示し、下右表は変数の負荷値 (Yp)を示します。
Corresp.
1
2
CA.Vr.
#1
157
#2
Correl.
.300
.136
y1: English
.377
.110
y2: Physics
-.361
.087
y3: Latin
.028 -.189
Xn と Yp を連続させた項目名付散布図 (Item scatter)です。
.200
.150
x4: Ken
y2: Physics
y1: English
x2: Juan
.100
.050
-.500
#2
-.300
x3: Mary
.000
- . 1 -0.00 5 0
.100
.300
-.100
-.150
- .x210:0A n a y 3 : L a t i n
-.250
-.300
#1
この図を見ると、 Ken と Physics, Juan と English、 Ana と Latin がそれぞ
れ近い関係になることがわかります。1 軸が言語 (English, Latin)と Fisics を
分け、2 軸が English と Latin を分けています (Physics が中立 )。Mary が全体
の中で中立ですが、やや English に近づいています。
■集中分析
変数と個体の係数得点を昇順でソートし得点を並び替えると次のような
集中化した得点になります。対応分析は得点の集中化に最も適しています。
C r p. c c t
x4: K e n
x1: Ana
x3: Mary
x2: Juan
y 2 : L a t iny 3 : P h y s ic ys 1 : E n g lis h
18
8
5
14
18
9
13
14
15
7
11
17
5.5.5. 因子分析
「因子分析」(Factor analysis)は主成分分析と対照的な考え方をする分析法で
す。主成分分析ではデータ行列の全変数を説明するような軸を探しますが、
因子分析では、逆に、一定の変数と他の変数ができるだけ異なるような新
158
たな変数（因子 factor）を探します。成績データを例にすると、たとえば
英語と国語を説明するような変数（文系因子）が、数学と理科を説明する
ような変数（理系因子）と明確に異なるようにします。因子分析には多く
の手法がありますが、ここでは Kaiser の「直接バリマックス法」 (Direct
varimax method)を説明します。
因子 (A1, A2, …, Ap) ができるだけ互いに異なるようにするために、因子ベ
クトル (Ap)の分散 (V)を最大化することが目的です。以下は簡略化して分散
の分母 (N)を外します (V*)。 M は Ap の平均を示し、 P は Ap の成分の個数
です。
V*
= Σ (A i – M) 2
= Σ (A i 2 – 2MA i + M 2 )
= Σ A i 2 – 2MΣ A i + P M 2
= Σ A i 2 – 2 (Σ A i ) 2 / P + P (Σ A i ) 2 / P 2 [∵ M = (Σ A i ) / p]
= Σ A i 2 – (Σ A i ) 2 / P
これを行列で示すと次のようになります（後述：→●単位行列・単位ベク
トルの利用）。
V* = Ap' (U p p – U p 1 U p1 ' / P) Ap
ここで Σ A i の計算で負値が相殺されるのを防ぐため、A ではなく A 2 とした
「分散」 (V**)を求めます。 Ap ( 2 ) はベクトル Ap のすべての成分を 2 乗した
ベクトルを示します。
V** = Ap ( 2 ) ' (U p p – U p1 U p 1 ' / P) Ap ( 2)
… (1)
ここで次の対角行列、
𝐴1
Ap p =
𝐴2
[
…
𝐴𝑝 ]
を導入すると、先の式 (1)は、
V** = Ap' A p p (U p p – U p 1 U p 1 ' / P) A p p Ap
… (1b)
となります（後述：→●単位行列・単位ベクトルの利用）。
これから求めるベクトル Ap は相関行列 R p p に未知のベクトル Tp を右積し
たものとします。 Tp の長さを 1 と規定します。
Ap = R p p Tp
… (2)
159
… (2b)
Tp' Tp = 1
Tp' Tp = 1 (2b)という条件付きで V**の最大値を求めるために Lagrange 乗
数 L をつけた次の式を設定します。 (→ 3.7.3.)
W
= V** – L (Tp ' Tp -1)
= Ap' A p p (U p p – U p1 U p 1 ' / P) A p p Ap – L (Tp ' Tp – 1)
[← (1b)]
= Tp' R p p ' A p p (U p p – IpIp ' / P) A p p R p p Tp – L (Tp' Tp – 1)
[← (2)]
この W を Tp で微分した式 Df(W, Tp)を 0 とします。
Df(W, Tp) = 2 [R pp ' A p p (U p p – U p 1 U p1 ' / P) A p p R p p Tp – L Tp] = 0
R p p ' A p p (U pp – U p1 U p 1 ' / P) A p p R p p Tp = L Tp
左辺
= R p p ' A p p (U p p – U p 1 U p1 ' / P) A p p Ap
… (3)
[← (2)]
= R p p ' (A p p U p p A p p Ap – A p p U p1 U p 1 ' A p p Ap / P)
= R p p (A p p Ap
(2)
[R p p 'を外に ]
– Ap Ap' Ap / P)
[R p p は対照行列 ; A p p U p p = A p p ; A p p Ap = Ap ( 2 ) ; U p1 ' A p p = Ap']
= R p p (Ap ( 3 ) – Ap Ap' Ap / P)
[A p p Ap ( 2 ) = Ap (3 ) ]
よって (3)は次になります。この (3b)式が成り立つときに V は最大化します。
R p p (Ap (3 ) – Ap Ap' Ap / P) = L Tp
… (3b)
ここで、
Bp = Ap (3 ) – Ap Ap' Ap / P
… (4)
とおくと先の式 (3b)は次になります。
R p p Bp = L Tp, L Tp = R pp Bp, Tp = R pp Bp / L
上中式は相関行列 R p p にベクトル Bp を負荷させて合成された変数ベクトル
は Tp の L 倍になることを示しています。そのとき、 L として Z n p Bp の標
準偏差を使えば、標準化された合成変数ベクトル Tp (= R p p Bp / L：上右式 )
と相関係数行列の積が求める因子ベクトル Ap です [← (2)]。はじめに、標
準得点データ行列 (Z np ) にベクトル (Bp) を右積したベクトルの標準偏差
SD(zb)を求めます。
V(zb)
= (Z n p Bp)' (Z n p Bp) / N
[Z n p Bp の分散 ]
= Bp' Z n p ' Z n p Bp / N
[(A B)' = B' A']
= Bp' R p p Bp
[R p p = Z np ' Z n p / N→ 3.6.1]
SD(zb) = (Bp' R p p Bp) 1 /2
[SD = V 1 /2 → 3.3.4]
160
… (5)
R p p Bp を SD(zb)で割ったベクトルを新たな Ap とします。
… (6)
Ap = R p p Bp / SD(zb)
この Ap を使って再度 (4)で Bp を計算します。
Bp = Ap (3 ) – Ap Ap' Ap / P
… (4)
SD(Zb) = (Bp' R p p Bp) 1 /2
… (5)
Ap = R p p Bp / SD(Zb)
… (6)
このプロセス (4, 5, 6)を Ap に変化がなくなるまで繰り返します（ Ap が因子
ベクトルになる理由は後述：→●構造ベクトルの導出）。
1 つの因子が見つかった後は残差の相関行列 (R pp )から、順次同じプロセス
で因子を探します。最後の因子を得た後、標準化データ行列 (Z n p )に負荷ベ
クトル (Bp)を掛けると因子得点行列 (S n p )ができます。
S n p = D np Bp
＊ Horst (1965), 芝 (1975), 浅野 (1971), 竹内・柳井 (1972)を参照しました。
●単位行列・単位ベクトルの利用
行列の演算は、その成分を展開すると理解できます。
[1]
V* = Σ A i 2 – (Σ A i ) 2 / P = Ap' (U p p – U p 1 U p1 ' / P) Ap
この右辺の成分を確かめます。
Ap' (U p p – U p 1 U p 1 ' / P) Ap
1
= Ap' ( [
1
…
1
= Ap' ( [
1
…
1
1
] – [ ]
…
1
1
[1, 1, …, 1] / P) Ap
1
1
] – [
…
1
1
1
1
…
1
…
…
..
1
1
1
]
1
1
/ P) Ap
M = 1 / P とおくと、
1
V* = Ap' ( [
1
…
𝑀
𝑀
] – [
…
𝑀
1
𝑀
𝑀
…
𝑀
…
…
..
𝑀
161
𝑀
𝑀
])
𝑀
𝑀
Ap
= [A 1 , A 2 , …, A p ]
1−𝑀
−𝑀
[
…
−𝑀
−𝑀
1−𝑀
…
−𝑀
…
…
…
…
−𝑀
−𝑀
]
…
1−𝑀
Ap
= [A 1 (1 - M) + A 2 (-M) + … + Ap(-M),
A 1 (-M) + A 2 (1 - M) + … + Ap(-M),
…
A 1 (-M) + A 2 (-M) + …+ Ap(1 - M)]
𝐴1
𝐴
[ …2 ]
𝐴𝑝
= [A 1 (1 - M) + A 2 (-M) + … + Ap(-M)] A 1
+ [A 1 (-M) + A 2 (1 - M) + … + Ap(-M)] A 2
+…
+ [A 1 (-M) + A 2 (-M) + …+ Ap(1 - M)] A p
= A 1 2 + A 2 2 + … + Ap 2 – M (A 1 + A 2 + … + Ap) 2
= A 1 2 + A 2 2 + … + Ap 2 – (A 1 + A 2 + … + Ap) 2 / P
= Σ A i 2 – (Σ A i ) 2 / P
[2]
＝ V*
V** = Ap ( 2 ) ' (U p p – U p1 U p 1 ' / P) Ap ( 2)
= Ap' A p p (U p p – U p1 U p 1 ' / P) A p p Ap
… (1b)
上の等式が成立することを Ap' A p p と A p p Ap の成分で確認します。
𝐴1
Ap' A p p = [A 1 , A 2 , …, A p ]
𝐴2
…
[
𝐴1
A p p Ap =
= [A 1 2 , A 2 2 , …, A p 2 ] = Ap (2 ) '
𝐴𝑝 ]
2
𝐴2
[
…
𝐴1
𝐴1
𝐴2
𝐴22
[…] =
=
…
𝐴𝑝 ] 𝐴 𝑝
[𝐴2𝑝 ]
Ap (2 )
●構造ベクトルの導出
標準化されたデータ行列の Z np の相関行列は (N:データの個数 )、
Rp p = Zn p ' Zn p / N
…(1)
Z n p に重みベクトル Wp を右積して合成変数ベクトル Fn とします。
Fn = Z n p Wp
162
合成変数ベクトル Fn の分散 V(Fn)は、
V(Fn) = Fn' Fn / N = Wp' R p p Wp
合成変数ベクトル Fn を標準化したベクトル Gn は、
… (2)
Gn = Fn / V(Fn) = Z n p Wp / (Wp' R pp Wp) 1 /2
この合成変数ベクトル Fn と変数ベクトルとの相関係数ベクトルを An とす
ると、その成分 Aj は
Aj = (Σ [i=1, N] Zij Gi) / N
[j=1, P]
行列で表すと次の式になります。
Ap
= Z n p ' Gn / N
= Z n p ' Z n p Wp / (Wp' R pp Wp) 1 /2 / N
= R p p Wp / (Wp' R p p Wp) 1 /2
[(2)]
[(1)]
＊芝 (1975)を参照しました。同書は Ap を「構造ベクトル」とよび、その重
要性を強調しています。先述の因子ベクトルの導出では Bp が Wp に対応
します。
■音の感覚
下左図は 1 音節の音の個人的な感覚を 5 つの -3 ~ 3 の尺度で記入したもの
です。たとえば pa と聞いてとても clear という感じがすれば 3, 逆にとて
も dark という感じがあれば -3 とします。どちらでもなければ 0 でその間に
2, 1, 0, -1, -2 という段階をつけてみました（自分で実験したデータ例です）。
Sound symb. a. Big
1.pa
2.ba
3.ta
4.da
5.ka
6.ga
7.sa
8.za
9.ma
10.na
11.ra
b. Sharp
-1
2
-1
2
0
3
-2
2
0
0
1
c. Clear
2
-3
2
-1
3
-2
2
-1
-1
-1
-2
d. Hard
2
-3
1
-3
1
-3
2
-2
-1
0
2
e. Heavy
2
1
2
1
3
2
1
0
-2
-2
-3
-3
2
-2
2
-1
3
-2
3
0
0
0
Fct.Id.
1.pa
2.ba
3.ta
4.da
5.ka
6.ga
7.sa
8.za
9.ma
10.na
11.ra
上右図が因子得点行列、下図が因子行列です。
163
1
- 1.329
.989
- .946
1.134
- .400
1.535
- 1.355
1.203
- .127
- .286
- .419
2
.823
.246
.823
.274
1.390
.813
.305
- .221
- 1.328
- 1.311
- 1.815
3
- .733
- 2.171
- .057
.664
1.430
- .684
- .138
1.416
.601
.257
- .585
4
.196
- .667
- .463
- .761
.912
.708
- .397
.522
- 1.663
- .589
2.202
Fct.Vr.
a. Big
b. Sharp
c. Clear
d. Hard
e. Heavy
1
.960
- .728
- .940
.008
.979
2
- .063
.557
- .063
1.000
- .150
3
- .106
.399
.072
- .013
.016
4
.217
.004
.327
- .015
.048
第 1 因子は Big と Heavy に強く反応しているので「重厚さ」を示している
ようです。第 2 因子は Hard と Sharp に反応しているので「切れ味」のよう
なものを示していると思います。それぞれの因子は次の相関係数行列が示
すように無相関になります。このことは軸が直交していることを意味しま
す。
Correlation
1
2
3
4
1
1.000
.000
.000
.000
2
3
4
.000
1.000
.000
.000
.000
.000
1.000
.000
.000
.000
.000
1.000
それぞれの音節の得点とそのグラフ（ x 軸 =第 1 因子； y 軸 =第 2 因子；）
を示すと、第 1 因子では有声音と無声音が対立し、第 2 因子では、破裂音
（閉鎖音）と摩擦音・鼻音・流音の対立していることがわかります。
164
■集中分析
変数の重みと個体の得点を昇順でソートし、得点を並び替えると次のよう
な集中化した得点になります。
Fct.cct
7.sa
1.pa
3.ta
11.ra
5.ka
10.na
9.ma
2.ba
4.da
8.za
6.ga
c. Clear
2
2
1
2
1
0
-1
-3
-3
-2
-3
b. Sharp
2
2
2
-2
3
-1
-1
-3
-1
-1
-2
d. Hard
1
2
2
-3
3
-2
-2
1
1
0
2
a. Big
-2
-1
-1
1
0
0
0
2
2
2
3
e. Heavy
-2
-3
-2
0
-1
0
0
2
2
3
3
＊芝 (1975)を参照しました
5.6. 分散分析
次のようなデータから変数（国語、英語、数学）間の分散の差の有意性
を調べるときに分散分析 (Analysis of Variance: Anova)が使われます。
Teaching m. Method-1 Method-2 Method-3
A
44
34
33
B
39
29
32
C
42
33
35
D
45
36
32
E
48
30
31
この分析のために変数間の変動（ VB: 群間の偏差平方和）と、各変数の
中での変動（ V I : 郡内の偏差平方和）、そして全体の変動 (V T : 全体の偏差
平方和 )を求めます。目的は群間の偏差平方和と郡内の偏差平方和の比（「分
散比」）を計算し、それが有意であるかどうかを判定することです。
はじめに列（群）の平均横ベクトル (Mp)と全体の平均（ T）を求めます。
個数を N, 変数を P とします。 Tm(X n p )は行列 X np の成分の合計を計算する
ために作成した関数です。.
Mp = U p 1 ' X np / N
T = Tm(X n p ) / (N * P)
165
次にそれぞれの偏差を求めます。はじめは群間 (Among groups)の偏差平
方和ベクトル VB を計算します。
V B = N (Cp – T)' (Cp – T)
VB は各列の平均を成分とするベクトルから全体の平均を引いて群の偏
差を求め、それを 2 乗和して個数 N を掛けたものです。
次は郡内 (Within groups)の偏差平方和 (Variation)を示す式です。 E 関数を乗
数 2 で使用します。次の式によって、それぞれの群内の偏差を総計します。
V I = Tm(E((X n p – Mp), 2))
全体の偏差平方和 VT を求めるためには次の式を使います。
VT =
Tm(E(X – T, 2))
プログラムはこの 3 つの値を使って次の分散分析表を出力します。
ANOVA
Among groups
Within groups
All
Variation
410.800
87.600
498.400
D.frd.
2
12
14
Variance
205.400
7.300
35.600
F.ratio
5%:1%:Prob.
28.137
3.885
6.927
.000
全体の自由度 (Degree of freedom: D.frd.)はすべての成分数 -1 で計算され
ます (N * P - 1)。 1 を引くのは、総和と 1 つの成分を除く全成分が決定され
ていれば、その成分は自動的に決まるので自由がないからです。同様に群
間の自由度は P - 1 になります。郡内の自由度は同様にして求めた各群の自
由度 (N - 1)に群の数 (P)を掛けた値です。それぞれの分散 (Variance)は変動を
自由度で割って求めます。フィッシャー比率 (Fisher ratio: F. ratio)は群間の
分散を郡内の分散で割った値です。このフィッシャー比率があらかじめ決
めた基準 (5%, 1%)を超えていれば、群間の分散に差がない、という帰無仮
説を棄却できます。上図の最後の列は、 F の基準値 (5%, 1%)と、確率を示
します。
5.7. 予測の分析
この節では、データ行列の右に 1 列にそれぞれのデータ行と関連する 1
つの実測値が示されている行列（データ行列＋実測値）を入力行列として、
はじめにデータ行列と実測値の関係を分析します。続いて、実測値を持た
ないデータ行列について、先の実測値に対応する予測値を求めます。デー
タ行列と実測値には二値の名義尺度 (binominal) 、多値の名義尺度
166
(multinominal)、数値 (numerical)の 3 種が考えられます。
5.7.1. 共起回数による名義行列の名義判別
下左表の行列には v1-3 のデータ列と右端の判別列 (Discr[iminant])があり
ます。この行列と、下右表の各行について、その群 (a, b, c)する方法を考え
ます。
D.data
v1
v2
v3
Discr.
D.data
v1
v2
v3
d1
A
A
B
a
x1
B
A
A
d2
A
A
C
b
x2
A
C
C
d3
A
C
B
b
d4
A
B
B
c
d5
C
C
A
c
d6
C
C
C
c
簡単な方法は、データが一致する回数を数え、その平均をとることです。
この方法を「名義平均共起回数による多名義判別」 (Multinominal
discrimination by nominal mean cooccurrence とよぶことにします。たとえば、
x1 は d1 と v2:A を共起させているので、係数 1/3 となり、これが d1-d6 の
それぞれの係数と比較して最大となるので、判別は d1 の a とします。
Cooc.
Value
Discr.
x1
.333
d1: a
x2
.667
d2: b
v2:A は d2 とも共起しますが、 d2 は成員が 2 の群になるので、平均は
1/(2x3)になります。
比較を個体ではなく、群で行うほうが群全体の情報を生かすことになり
ます。そこでたとえば b 群の d2 の v1:A は d3 にもあるので、 1/2 の価値を
もつと考えます。x1 と a 群全体の共起回数は v2:A の 1 回なので、1/3≒ .333
となります。x2 と b 群全体の共起回数は、v1: A, A, v2:C, v3:C の 4 回です。
全体が 6 回ありますから、係数は 4/6≒ .667 になります。これらが他の群
と比べたときの最大値です。
Cooc.
Value
Discr.
x1
.333
a
x2
.667
b
167
5.7.2. 距離による数値行列の多名義判別
次の (1)のような多項の判別値 (Discr[iminated value]: a, b, c, …)が既知の
データから、ベクトル間の「距離」（ → 『関係』）によって、 (2)のような
判別値が未知のデータを分析し、 (1)の中の個体 (d-1, d-2, …)、または個体
群 (a, b, c)に近い行ベクトルを探し、その判別値を (2)に与えます。
D1
v1
v2
d1
5
2
d2
3
3
d3
2
d4
4
d5
d6
v3
Disc.
D1x
v1
v2
v3
7
a
x1
4
2
5
2
b
x2
3
7
6
2
b
2
2
c
2
4
3
c
1
8
7
c
たとえば、d1 と x1 の距離 (Distance: D)を次のように定義します。このよ
うに算出される距離は「ユークリッド距離」とよばれます。
D(d1, x1) = {Σ ( i: N ) [D n p (1, i) － X n p (1, i)] 2 } 1 /2
d1 の成分は (5, 2, 7), x1 の成分は (4, 2, 5)なので、両者間の距離は次のよ
うに計算されます。
D(d1, x1) = [(5 - 4) 2 + (2 – 2) 2 + (7 - 5) 2 ] 1 /2
= (1 2 + 0 2 + 2 2 ) 1 /2 = 5 1 /2 ≒ .236
このような計算を d2, d3, …, d6 で行い、これら 6 つの距離の最小値が得
られたときの (1)の行の判別値 (a, b, c)を x1 の判別値とします。x2 について
も同様です。その結果、以下のように x1 は d1 と一番近く、また、x2 は d6
に一番近い、ということがわかります。
D1x
Distance Discr.
x1
2.236
d1: a
x2
2.449
d6: c
●群平均値などによる多名義判別
次に、(1)のデータの個々の行ではなく、それぞれの判別群全体と比較し
ます。そのとき群の代表値としてここでは次のように平均値を使います。
168
D1
v1
v2
v3
a
4.000 3.667 6.000
b
3.000 3.000 3.750
c
2.800 4.600 4.600
上の 3 行と先の D1x の 2 行の間のそれぞれの距離を比較すると、結果は
次のようになります。
D1x
Distance
Discr.
x1
1.887
b
x2
2.786
c
群の代表値として、平均値のほかに、データの分散の状態によって、中
央値、中間値、大数平均値を使うことも考えられます。次は大数平均値を
使ったときの結果です。
D1x
Distance
Discr.
x1
1.601
a
x2
2.885
c
●標準化距離による判別
次の v3 のように平均・標準偏差が大きく異なるデータを使うときには注
意が必要です。
(1) 判別が既知のデータ .
D2
v1
v2
d1
5
2
d2
3
3
d3
2
d4
4
d5
d6
(2) 判別が未知のデータ
v3
Disc.
D2x
v1
v2
v3
56
a
x1
4
2
50
33
b
x2
3
7
60
21
b
2
22
c
2
4
45
c
1
8
72
c
上の v3 のような変数が判別に過大に影響することを防ぐために、データ
(1)と (2)を合体したデータ X np を標準得点に変換します。
X n p = [I n p – AveC(I n p )] / SdC(I n p )
169
D2
v1
v2
v3
D2x
v1
v2
v3
d1: a
1.633
-.588
.649
x1
.816
-.588
.299
d2: b
.000
-.196
-.693
x2
.000
1.373
.883
d3: b
-.816 -1.373 -1.393
d4: c
.816
-.588 -1.335
d5: c
-.816
.196
.007
d6: c
-1.633
1.765
1.583
次が判別の結果 (群平均 )です。
D2x
v1
v2
v3
D2x
Distance
Discr.
x1
.816
-.588
.299
x1
.724
a
x2
.000 1.373
.883
x2
1.126
c
●マハラノビスの距離による判別
主成分得点（→『関係』）を使って、各変数の標準偏差だけでなく、変
数間の相関もゼロになるように変換し、個体間の距離（「マハラノビスの
距離」→『関係』）を計算します。以下がその結果です。
D2
v1
v2
d1: a
-.493
d2: b
-.389
d3: b
-1.009
d4: c
-1.095
-.031
1.681
d5: c
.341
-.732
-.277
d6: c
2.010
-.485
-.454
D2x
Distance
v3
D2x
v1
v2
v3
1.811
-.907
x1
-.399
.866
-.397
.750
x2
1.036
.603 1.218
-.981
-1.636 -1.030
Discr.
x1
.908
a
x2
1.305
c
5.7.3. 確率による数値行列の多名義判別
判別値が既知のデータ行列の群内の列相対頻度を、それが該当する事象
が起きる「確率」と見なして、行全体の確率を計算し、これを判別値が未
知のデータ（横ベクトル）にあてはめて、一番大きな確率を示すデータの
判別値を示す群の判別値を得ます。
170
(1) 判別が既知のデータ .
(2) 判別が未知のデータ
D.data
v-1
v-2
v-3
Disc.
D.pred
v-1
v-2
v-3
d-1
5
2
7
a
x-1
4
2
5
d-2
3
3
4
b
x-2
3
7
6
d-3
2
2
b
d-4
4
2
2
c
d-5
2
4
3
c
d-6
1
8
7
c
2 つの事象 X と Y が同時に起こる確率 P(X, Y)を次のように計算します。
P(X, Y) = P(X) P(Y|X)
P(X, Y) = P(Y) P(X|Y)
上の最初の式は、同時確率 P(X, Y)が、 X が起こる確率 P(X)と、 X が起
きたとき Y が起こる確率 P(Y|X)の積になる、ということを示しています。
たとえば、X がトランプのスペード、Y がエースであるとすると、スペー
ドのエースが出る確率は (1/4) x (1/13) = 1/52 になります。 2 番目の式も同
様です。そこで、どちらも左辺が同じなので、1 つの式にまとめます。
P(X) P(Y|X) = P(Y) P(X|Y)
よって、次の式（「ベイズの定理」 Bayes’ theorem）が導かれます。
P(X|Y) = P(X) P(Y|X) / P(Y)
この定理は重要なので、簡単な例を使って説明します。次の表は、多数
の文書からなる資料を A 地方と B 地方の割合 P(X)と、それぞれの地方の
資料の中で観察される、ある言語現象（たとえば語末母音の脱落）がそれ
ぞれの文書に起こる割合 P(Y/X)を示しています。たとえば、A 地方の文書
は全体の 15 文書の中で 4 文書あり (P(X))、その A 地方 4 文書の中で、3 文
書で語末母音の脱落があった (P(Y|X))、ということを示します。
資料 (X)
P(X)
P(Y|X)
P(X) P(Y|X)
P(X) P(Y|X) / P(Y) = P(X|Y)
X=A
4/17
3/4
4/17 x 3/4 = 3/17
(3/17) / (8/17) = 3/8
X=B
13/17
5/13
13/17 x 5/13 = 5/17
(5/17) / (8/17) = 5/8
和
1
8/17 = P(Y)
1
上表の P(X)は、 P(Y)を考慮しないので「事前確率」 (prior probability)と
よばれ、 P(Y|X)は、それぞれの群内での確率を示すので「尤度 (ゆうど )」
(likelihood)とよばれます。事前確率と尤度の積 P(X) P(Y|X)は、先に見たよ
171
うに、X と Y の同時確率 (joint probability)です。たとえば A の同時確率 3/17
は資料全体の中での A 地方の該当文書（現象のある文書）の割合を示しま
す。 B の P(X) P(Y|X) = 5/17 も同様です。この同時確率の計算で、積の第 1
名義の分子が第 2 名義の分母と同じであることに注意してください。これ
は、群内で占める該当文書の割合（事前確率）を計算する分子が、尤度を
計算するときのベース（分母）になる、と考えるとわかりやすいと思いま
す。ここでそれぞれの確率を分数で示し、小数やパーセント表示にしなか
ったのは、それぞれの分母と分子がどのような意味を持っているのかを確
認したかったためです。
さて、 A と B の尤度の和 (3/17 + 5/17=8/17)になりますが、これが実はベ
イズの定理の分母 P(Y)にあたります。つまり、文書の全数 17 の中で現象
(Y)が起きている文書数 (8)の確率 (8/17)を示します。
最後に、上表の右端の列でベイズの定理にしたがって P(X|Y)を求めます。
これは、先に求めた地方 (X)と現象 (Y)のそれぞれの同時確率 P(X) P(Y|X)を、
その和である、文書全体で現象が起こる確率で割った割合を示します。
Y の事象が複数のときは条件付き確率（尤度）を次のように拡張します。
P(Y|X) = P(Y 1 |X) P(Y 2 | X) ... P(Y p |X)
(1) 量的確率による多名義判別
たとえば、上表の d-1, d-2, ..., d-6 が文書 -1, 2, ..., 6 であり、判別 -a, b, c
が A 地方、B 地方、C 地方で収集された古文書群である、とします。ここ
での課題は、 x-1, x-2 のように判別値がない文書をその文書のデータから
推測することです。そのとき、使われる変数として v-1, 2, 3 がそれぞれの
言語形式である、とします。よって、この課題をベイズの定理にあてはめ
ると、ある文書 (Y)がそれぞれの地方 (X)に属する確率 P(X|Y)を求めること
になります。
はじめに、P(X)を求めます。これは「事前確率」(prior probability)とよば
れるもので、A 群 , B 群 , C 群の文書の割合は 1/6, 2/6, 3/6 なので、これがそ
れぞれの事前確率になります。
P(X=a) = 1/6, P(X=b) = 2/6, P(X=c) = 3/6
次にそれぞれの群 (X)の中で、変数 (v1, 2, 3)が起こる確率を計算します。
たとえば、 a 群内で v1 が起こる確率は 5 / (5+2+7) = .357 であり、 b 群内で
v-1 が起こる確率は (3+2)/(3+3+4+2+2)=.357 です。すべてのケースを計算す
ると、次のようになります。これは「尤度」 (likelihood)とよばれ、ベイズ
の定理の条件付き確率 P(Y/X)にあたります。
QT.likel.
a
v1
.357
v2
v3
.143 .500
172
b
.357
.214 .429
c
.212
.424 .364
このそれぞれの確率横ベクトルは、先のベイズの定理の分子にある
P(Y 1 |X) P(Y 2 | X) ... P(Y p |X)
にあたります。分子内の最初の名義 P(X)は、それぞれの群の確率です。た
とえば、 X が a である確率 P(X=a)は 6 デタ中の 1 個になるので、 1/6 にな
ります。同様に P(X=b) = 2/6, P(X=c) = 3/6 です。
そこで、たとえば、 x1 (4, 2, 5)の確率は次のように計算されます。
P(X=a|Y=x1) = (1/6) x (. 357) 4 x (.143) 2 x (.500) 5
P(X=b|Y=x1) = (2/6) x (. 357) 4 x (.214) 2 x (.429) 5
P(X=c|Y=x1) = (3/6) x (. 212) 4 x (.424) 2 x (.364) 5
この計算は現象の頻度が指数になるので、頻度が大きいとゼロに近くな
って判別が困難になります。そこで次のように対数に変換した値を判別に
使います。
Log[P(X=a|Y=x1)] = (1/6) + 4 x (.357) + 2 x (.143) + 5 x (.500)
Log[P(X=b|Y=x1)] = (2/6) + 4 x (.357) + 2 x (.214) + 5 x (.429)
Log[P(X=c|Y=x1)] = (3/6) + 4 x (.212) + 2 x (.424) + 5 x (.364)
この 3 者を比較して最も大きな数値を示す b 値が x1 の判別値
(Discr[iminant])です。次の判別表の Ct(mx, mn)は算出された確率の最大値
と最小値の対照値です。
D.pred Ct(mx, mn) Discr.
x1
.492
b
x2
.953
c
なお、頻度がゼロのときは該当する確率もゼロになるので、先の式の積
算の結果がすべてゼロになってしまいます。そこで、横和で割るとき、分
母と分子に 1 を加える、という操作が行われています。
(2) 質的確率による多名義判別
次の左表のような質的デタの既知の判別値から、右のような未知の判別
値を確率を使って予測します。
173
D.data
v1
v2
d1
v
v
d2
v
d3
v
v3
v
D.pred
v1
v2
a
x1
v
v
a
x2
v3
v
a
d4
v
d5
Disc.
a
v
d6
v
v
b
v
b
次が各群の確率表です。ここでは、それぞれの v が群内の列の中で使用
された率を示します。
QL.likel.
v1
v2
v3
.250
a
.750
.500
b
.500
.500 1.000
ここで、たとえば、 x1 (v, v, x)の確率は
P(X=a|Y=x1) = (4/6) x (.750) x (500) x (1 － .250)
P(X=b|Y=x1) = (2/6) x (. 500) x (.500) x (11)
それぞれの最後の名義で (1 － .250)のように確率が逆転するのは、v3 が
選択されていないため、それが起きない場合の確率を示すためです。
D.pred Ct(mx, mn) Discr.
x1
.711
a
x2
.339
b
ここでも確率がゼロや 1 の場合、先と同様に積がすべてゼロになるため、
横和で割るとき、分母と分子に 1 を加える、という操作が行われています。
＊高村 (2000: 99-117), 加藤・羽室・矢田 (2008: 111-115)を参照しました。
174
6. 集中分析
行と列に適当な値を与えて、データ行列の反応点 (v)や数値を一定の箇所
に集中させることにより、行と列に新しい解釈をすることができるように
なります。この方法を「集中分析」(Concentration Analysis)とよぶことにし
ます。集中分析の典型的な方法として、前述の判別分析・数量化３類があ
げられますが（これを「両側分析」とよぶことにします）、どちらも行と
列に同時に重みを与え、データ行列の分布の相関係数を最大化させていま
す。ここでは、行と列のどちらかを固定し、これを外的基準として、残り
の列または行に数値を与えて集中化する方法を探ります。これを「片側分
析」とよぶことにします。
6.1. 対応集中分析
前述の対応分析では、個体と変量に与える未知のベクトルを求めました
が、ここでは、どちらかを既知のベクトルとし、残る法を未知のベクトル
とします。既知のベクトルとして、この成分の順番を固定するために、連
続数 1, 2, …, N（または P)の標準得点を与えます。これを外的基準として
固定し、未知の行、または列のベクトルを求めます。そのとき、ベクトル
の平均を 0 とし、分散を 1 として標準化します。目的は、対応分析と同様
に、データ行列の分布の相関係数を最大化することです。
はじめに、変数のベクトルを連続数の標準得点で固定し、個体のベクト
ルを未知として、これを求めます。
対応分析の説明で使ったデータを下に再掲します。
Test: D np
Y 1 : English Y 2 : Latin Y 3 : Science
Sn1
X 1 : Ana
9
14
18
41
X 2 : Juan
17
7
11
35
X 3 : Mary
15
13
14
42
X 4 : Ken
5
18
8
31
T1p
46
52
51 149
この「対応個体分析」の目的は、変数 (Y 1 , Y 2 , Y 3 ) = Y p 1 を既知として、
未知の個体 (X 1 , X 2 , X 3 , X 4 ) = X n1 のベクトルを求めることです。
個体ベクトル X n 1 と変数ベクトル Y p 1 の平均 (MX, MY)をそれぞれ 0 とし
ます。
S n 1 = SumR(D n p ); T 1 p = SumC(D n p ); N=Sum(D n p )
175
S n n = dg(S n 1 ); T p p = dg(T 1 p ) [dg: 対角行列 ]
[1a]
MX = (41X 1 + 35X 2 + 42X 3 + 31X 4 ) / 149 = S n1 ' X n 1 / N = 0
[1b]
MY = (46Y 1 + 52Y 2 + 51Y 3 ) / 149 = T p1 ’ Y p1 / N = 0
個体 (X n1 )と変数 (Y p 1 )の分散 (VX, VY)をそれぞれ 1 とします。
[2] VX = [(41X 1 – MX) 2 + (35X 2 – MX) 2 + (42X 3 – MX) 2 + (31X 4 – MX) 2 / 149
= (41X 1 2 + 35X 2 2 + 42X 3 2 + 31X 4 2 ) / 149
← 1a. MX = 0
= X n 1 ' Sn n Xn 1 / N = 1
D n p を散布図と見なし、その X 軸： X n 1 と Y 軸： Y p 1 の間の相関係数 (R)
は,
[3]
[D n p :データ行列 ]
R = [9(X 1 –MX)(Y 1 –MY)
+ 14(X 1 –MX)(Y 2 –MY)
+ 18(X 1 –MX)(Y 3 –MY)
+ 17(X 2 –MX)(Y 1 –MY)
+...
+ 8(X 4 –MX)(Y 3 −MY)] / 149
← MX = MY = 0
= (9X 1 Y 1 + 14X 1 Y 2 +... + 8X 4 Y 3 ) / 149
= X n 1 ' D np Y p 1 / N
この R を最大化するためには、分散 VX = 1 という条件を加えた次の式
の S を X n 1 で微分し (Df(S, X n 1 ))、その結果をゼロベクトル (O n 1 )とします。L
はラグランジュ乗数です。
S
= (X n 1 ' D np Y p1 ) / N – L [VX- 1]
= (X n 1 ' D np Y p1 ) / N – L [(X n 1 ' S n n X n 1 ) / N - 1]
[4]
Df(S, X n1 ) = D np Y p 1 / N – 2 L S n n X n1 / N = O n 1 (ゼロ )
Df(S, L) = (X n 1 ' S n n X n1 ) / N - 1 = 0 (ゼロ :はじめの条件 )
[5]
D n p Y p1 / N = 2 L S n n X n 1 / N
← 4.の第 2 項を移項
X n 1 ' D np Y p 1 / N = 2 L X n 1 ' S n n X n 1 / N
← 両辺に X n 1 'を左積
R =2 L
[6]
← 2. X n 1 ' S n n X n 1 / N = 1; 3. R = X n 1 ' D n p Y p 1 / N
D n p Y p1 = R S n n X n 1
← 5. D n p Y p 1 / N = 2 L 1 S n n X n1 / N; 6. R = 2 L 1
R S n n X n 1 = D np Y p 1
←両辺交換
S n n X n1 = D n p Y p1 / R
←スカラーR 移動
S n n ^ S n n X n 1 = S n n ^ D np Y p 1 / R ← 両辺に S n n ^を左積
176
X n 1 = S n n ^ D np Y p1 / R
← S n n ^ S n n = U nn
このようにして、 X n1 が求められましたが、右辺の R（相関係数）は既
知ではなりません。しかし、ここでは X n1 のベクトルを最終的に標準化し
ますので、R がどんな値であってもかまいません。そこで、 R を除いた次
の式を使います。
X n 1 ” = StdS(S n n ^ D np Y p 1 )
一方、個体のベクトルを固定して、変数のベクトルを求めるときは、 [2]
以下を次のようにします。
[2b] VY = [(46Y 1 – MY) 2 + (52Y 2 – MY) 2 + (51Y 3 – MY) 2 ] / 149
= (46Y 1 2 + 52Y 2 2 + 51Y 3 2 ) / 149
← 1b. MY = 0
= Y p 1 ' Tp p Yp 1 / N = 1
[3]
R = X n 1 ' D np Y p 1 / N
この R を最大化するためには、 VY = 1 という条件を加えた次の式の S
を Y p 1 で微分し Df(S,Y p 1 ))、その結果をゼロベクトル (O p 1 )とします。L はラ
グランジュ乗数です。
S
= (X n 1 ' D np Y p1 ) / N – L [VY - 1]
= (X n 1 ' D np Y p1 ) / N – L [(Y p 1 ' T p p Y p 1 ) / N - 1]
[4b]
Df(S, Y p1 ) = D np ' X n 1 / N – 2 L T p p Y p1 / N = O p1 (ゼロ )
Df(S, L) = [(Y p 1 ' T p p Y p 1 ) / N - 1 = 0 (ゼロ :はじめの条件 )
[5b]
D n p ' X n1 / N = 2 L T p p Y p1 / N
← 4b.の第 2 項を移項
X n 1 ' D np / N = 2 L Y p1 ' T p p / N
← 行列移動； Tp p 対角行列
X n 1 ' D np Y p 1 / N = 2 L Y p 1 ' T p p Y p 1 / N
← 両辺に Yp 1 を右積
R = 2 L ← 2b. Y p1 ' T p p Y p1 / N = 1; 3. R = X n1 ' D n p Y p1 / N
[6b]
D n p ' X n1 = R T p p Y p 1
← 5b. D n p ' X n1 / N = 2 L 2 T p p Y p 1 / N; 6. R= 2 L 2
R T p p Y p 1 = D np ' X n 1
←両辺交換
T p p Y p1 = D n p ' X n1 / R
←スカラーR 移動
← 両辺に T p p ^を左積
T p p ^ T p p Y p 1 = T p p ^ D np ' X n 1 / R
Y p 1 = T p p ^ D np ' X n 1 / R
← T p p ^ T p p = Um
ここでも先と同じ理由で R を無視し、標準化します。
Y p 1 ” = StdS(T p p ^ D np ' X n 1 )
最後に、個体と変数に与えるベクトルが共に未知であるときは、前述の
対応分析を行い、固有値・固有ベクトルを使って、同時に 2 つのベクトル
177
を求めます。
6.2. 距離集中分析
データ行列の列と行の数値情報を使って、拡散した行列の分布パタンを
再編成し、行列の対角部分に高い数値を集中化することによって、データ
全体の分布構造を探る技法を「集中分析」 Concentration analysis と名づけ
ます。原点からの距離の平均を測る方法と多変数解析を利用する方法を探
ります。集中化には列または行を外的基準として定める方法と、分類の外
的基準を定めないでデータ行列そのものを内的基準として分類する方法が
あります。集中化した状態を評価するために相関係数（ →『基礎』p.**: 3.6.2）、
距離係数（ → 3.6.4 ）、そして新たに定める「隣接係数」などを使います。
6.2.1. 外的基準による集中化
はじめに「外的基準による集中化」 Concentration with exterior criterion
を説明します。これは、たとえば下左表のようなデータ行列があり、これ
の行 (d-1, 2, …, 5)を並べ替えて v 印で示した反応の分布を近接させる（こ
の場合は対角線に近い位置に並べる）というのがねらいです。
Lv
d-1
v-1 v-2 v-3 v-4
v
v
d-2
d-5
d-5
v
v
v
v
v
 d-3
v
d-4
v-1 v-2 v-3 v-4
d-1
v
d-3
Lv
v
v
v
v
v
v
d-2
v
d-4
v
v
このように集中化すると行に関しては [d-1, 3, 5]と [d-2, 4]がそれぞれ集
中し、列に関しては [v-1, 2]と [v-3, 4]がそれぞれ集中化されていることがわ
かります。ここで「集中化」(concentration)とは反応の分布が互いに近接し、
全体で一定の傾向を示すことを意味します。(1)で説明した各行の数値を基
準にして昇順で並べ替えると上右表のようになります。
d-1: [(1 2 + 2 2 ) / 2]
d-2: [(3 2 ) / 1]
2
d-3: [(2 ) / 1]
= 1.581
(...1)
1 /2
= 3.000
(...4)
1 /2
= 2.000
(...2)
= 3.535
(...5)
= 2.160
(...3)
d-4: [(3 2 + 4 2 ) / 2]
2
2
1 /2
2
1 /2
d-5: [(1 + 2 + 3 ) / 3]
1 /2
178
列については縦方向で同様に距離の平均を計算します。
v-1: [(1 2 + 5 2 ) / 2]
= 3.606
v-2: [(1 2 + 3 2 + 5 2 ) / 3] = 3.416
v-3: [(2 2 + 4 2 + 5 2 ) / 3] = 3.873
v-4: [(4 2 ) / 1]
= 4.000
行和縦ベクトル DSTｖを行列で示すと、
DSTv = [SumR(X n p * SQp E X P ) / SumR(X n p )] 1 /E X P
ここで SumR は行列の行和縦ベクトルを返す関数です。
SumR = X n p U p 1
SQp は連番 [1, 2, …, p]を成分にする縦ベクトルです。 EXP は Minkowki
距離の指数部です。
●同距離異分布問題
原点からの距離の平均は等しいけれど分布のパタンが異なる 2 つのデー
タのあります。たとえば次のような例 (P2)です。
P2
v-1 v-2 v-3 v-4 v-5 v-6 v-7 v-8 v-9 v-10 v-11
d-1
d-2
v
v
v
v
v
v
P2
係数
d-1 7.594
d-2 7.594
これを先のように計算すると次のように結果が同じになります。
d-1 ... [(4 2 + 6 2 + 11 2 ) / 3] 1 /2
= 7.594
d-2 ... [(3 2 + 8 2 + 10 2 ) / 3] 1 /2
= 7.594
このとき Minkowsky の距離で 3 乗を選択すると、この同距離異分布問題
を解決できます。 → 3.6.4. (2)
P2
d-2
v-1 v-2 v-3 v-4 v-5 v-6 v-7 v-8 v-9 v-10 v-11
v
d-1
v
v
v
3
3
d-2 ... [(3 + 8 + 10 ) / 3]
1 /3
係数
d-2 8.005
v
d-1 ... [(4 3 + 6 3 + 11 3 ) / 3] 1 /3
3
v
P2
d-1 8.128
= 8.128
= 8.005
■地理的配列基準
次のデータ (p6)はラテンアメリカスペイン語の「農夫」を示す言語形式
179
とその地理的分布です (Cahuzac: 1980)。語形はアルファベット順に並べ、
国名は北から南に配置されています。(México, Cuba, República Dominicana,
Puerto Rico, Guatemala, El Salvador, Honduras, Nicaragua, Costa Rica, Panamá,
Venezuela, Colombia, Ecuador, Perú, Bolivia, Chile, Paraguay, Uruguay,
Argentina).
Use
1 cacahuero
2 cafetalista
3 camilucho
4 campero
5 camperuso
6 campirano
7 campiruso
8 campista
9 campusano
10 campuso
11 colono
12 comparsa
13 conuquero
14 coquero
15 chagrero
16 changador
17 chilero
18 chuncano
19 enmaniguado
20 estanciero
21 gaucho
22 guajiro
23 guanaco
24 guaso
25 huasicama
26 huertero
27 hulero
28 invernador
29 jíbaro
30 lampero
31 lanudo
32 llanero
33 macanero
34 manuto
35 montero
36 montubio
37 paisano
38 pajuerano
39 partidario
40 payazo
41 piona
42 ranchero
43 rondín
44 sabanero
45 veguero
46 viñatero
47 yanacón
CU RD PR MX GU EL HO NI CR PN VE CO EC PE BO CH PA
v v
v
v v
v
v
v v
v v v v v v v v
v v v v v v
v v v v v v v v v
v
v v v v v
v v
v
v v v
v v
v v v
v v
v
v v v v v v v
v
v v v
v
v
v
v v
v v v v v v
v
v v v v
v v
v
v
v
v v v v v v v
v
v v
v v
v v
v v v
v v
v
v
v
v
v v
v v
v v v
v
v v
v
v v
v
v v
v
v v
v
v
v
v v
v
v
v
v v
v v v
UR AR
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
このデータ行列の行を基準にして、原点平均距離 (N=2)によって行を並べ
替えると全体の分布は次のように集中化されます。
180
Dst.cct.
CU RD PR MX GU EL HO NI CR PN VE CO EC PE BO CH PA UR AR
22 guajiro
v
v
35 montero
v
v
19 enmaniguado
v
v
v
29 jíbaro
v
v
11 colono
v
v
2 cafetalista
v
v
v
42 ranchero
v
v
v
v
33 macanero
v
v
10 campuso
v
v
v
v
v
34 manuto
v
v
45 veguero
v
v
17 chilero
v
v
v
v
v
v
v
27 hulero
v
v
v
v
v
v
v
8 campista
v
v
v
v
v
v
v
v
v
13 conuquero
v
v
v
v
v
23 guanaco
v
v
v
v
v
v
7 campiruso
v
v
v
v
v
v
6 campirano
v
v
v
v
v
v
v
v
36 montubio
v
v
v
v
v
38 pajuerano
v
v
v
37 paisano
v
v
v
32 llanero
v
v
40 payazo
v
v
1 cacahuero
v
v
44 sabanero
v
v
5 camperuso
v
v
31 lanudo
v
v
v
15 chagrero
v
v
25 huasicama
v
v
14 coquero
v
v
v
24 guaso
v
v
v
v
v
v
26 huertero
v
v
v
v
43 rondín
v
47 yanacón
v
v
v
v
30 lampero
v
v
v
9 campusano
v
v
v
46 viñatero
v
v
v
v
v
28 invernador
v
v
v
v
v
21 gaucho
v
v
v
v
39 partidario
v
v
v
41 piona
v
v
v
4 campero
v
v
v
18 chuncano
v
v
v
3 camilucho
v
v
v
20 estanciero
v
v
v
12 comparsa
v
v
v
16 changador
v
v
v
このようにデータ行列全体の反応パタンが対角化されると、一定の地域
に集中する一定の語形の集まりを観察することができます。
6.2.2. 内的基準による集中化
先の外的基準による集中化では行を固定して（外的基準として選択して）、
181
列を原点平均距離という基準で並べ替えました。ここでは行も固定せずに、
つまり外的基準を設定しないで集中化する方法を考えます。
先のサンプルデータは、たとえば 5 つの地域 (d-1, 2, …, 5)について 4 つ
の言語特徴 (v-1, 2, 3, 4)がどのように反応しているかを示していることを
想定しましょう。ここでは言語地理区分をする上で外部的な基準がなく、
あるのは地域を共有する特徴の集合と特徴を共有する地域の集合だけです。
そこで、特徴がどの地域にあるかを調べ、該当するときに v 印をつけたの
が下左表です。このままでは地域についても特徴についてもどのような分
布パタンがあるのかわからないので、地域については特徴の選択が近いも
のを並べ、特徴については地域の選択の仕方が近いものを並べるという操
作をすると下右表が得られます。
Lv
d-1
v-1 v-2 v-3 v-4
v
v
d-2
v
d-3
v
v
v
v-2 v-1 v-3 v-4
d-3
v
 d-1
v
v
d-5
v
v
v
d-4
d-5
Lv
v
v
v
d-2
v
d-4
v
v
「内的基準による集中化」 Concenration with interior criterion とは上左表
のようなデータから上右表のようなパタンを得る方法です。「最良のパタ
ン」とは反応するデータ (v 印 )がなるべく対角線の近くに集まるようなパタ
ンであると決めて、このようなパタンを得る方法を考えましょう。
先と同様の計算を何度か繰り返しますが方法はとても簡単です。はじめ
に「外的基準のある集中化」と同様に横行の中で反応した v 印の原点から
の距離 (原点からの標準偏差 )を計算します。
d-1: [(1 2 + 2 2 ) / 2] 1 /2
= 1.581 (...1)
d-2: [(3 2 ) / 1] 1 /2
= 3.000 (...4)
2
= 2.000 (...2)
d-3: [(2 ) / 1]
1 /2
d-4: [(3 2 + 4 2 ) / 2] 1 /2
2
2
2
d-5: [(1 + 2 + 3 ) / 3]
= 3.535 (...5)
1 /2
= 2.160 (...3)
この数値を基準にして昇順 (上の計算式で ...で示しました )で並べ替える
と次のようになります。ここまでは前節の外的基準による分類と同じです。
182
Lv
d-1
v-1 v-2 v-3 v-4
v
d-3
d-5
v
係数
Lv
v
d-1 1.581
v
d-3 2.000
v
v
d-5 2.160
d-2
v
d-2 3.000
d-4
v
v
d-4 3.536
次にこの各縦列の原点からの距離を計算します。
v-1: [(1 2 + 3 2 ) / 2] 1 /2
2
2
2
v-2: [(1 + 2 + 3 ) / 3]
1 /2
v-3: [(3 2 +4 2 + 5 2 ) / 3] 1 /2
2
v-4: [(5 ) / 1]
1 /2
= 2.236
(...2)
= 2.160
(...1)
= 4.082
(...3)
= 5.000
(...4)
この数値によれば v-1 と v-2 が位置を交代しなければなりません。その
結果が次の表です。
Lv
v-2
v-1
d-1
v
v
d-3
v
d-5
v
v-3
v-4
Lv
係数
d-1 1.581
d-3 1.000
v
d-5 2.160
d-2
v
d-2 3.000
d-4
v
v
v-3
v-4
Lv
v-2
v
v-1
d-4 3.536
係数 2.160 2.236 4.082 5.000
これで第 1 回目の縦と横の並べ替えが終わりました。この段階で再び各横
行の原点からの平均距離を計算すると次のようになります。
d-1: [(1 2 + 2 2 ) / 2] 1 /2
d-3: [(1 2 ) / 1] 1 /2
2
2
2
d-5: [(1 + 2 + 3 ) / 3]
d-2: [(3 2 ) / 1] 1 /2
2
2
d-4: [(3 + 4 ) / 2]
1 /2
1 /2
= 1.581
(...2)
= 1.000
(...1)
= 2.160
(...3)
= 3.000
(...4)
= 3.535
(...5)
これを見ると、d-1 と d-3 を交替しなければならないことがわかります。そ
のように並べ替えたのが次の表です。
183
Lv
v-2
v-1
v-3
d-3
v
d-1
v
v
d-5
v
v
v-4
Lv
係数
d-3 1.000
d-1 1.581
v
d-5 2.160
d-2
v
d-2 3.000
d-4
v
Lv
v-2
v-1
v-3
v
d-4 3.536
v-4
係数 2.160 2.550 4.082 5.000
さらに各縦列の原点からの標準偏差を計算すると次のようになります。
v-2: [(1 2 + 2 2 + 3 2 ) / 3] 1 /2
2
2
v-1: [(2 + 3 ) / 2]
1 /2
v-3: [(3 2 +4 2 + 5 2 ) / 3] 1 /2
2
v-4: [(5 ) / 1]
1 /2
= 2.160
(...1)
= 2.550
(...2)
= 4.082
(...3)
=5
(...4)
これで横行も縦列も正しく昇順に並んだので分布パタンは集中したことに
なります。さらに大きなデータ行列では繰り返しの数が増えます。
■行列内的基準
先に行（南北の配置）を外的基準にした分析をしましたが、今回は外的
基準を設定しないでデータ行列 (Cahuzac: 1980)の内的基準にしたがって同
じデータ行列を分析してみましょう。次の表を見ると先の分析と比べて、
さらにつよく集中化されていることがわかります。
184
D s t . c c t . EL HO NI GU CR PR PN MX RD VE CU CO EC PE CH BO AR UR PA
10 campuso
v v v v v
23 guanaco
v v v v v
v
7 campiruso
v v v v v
v
17 chilero
v v v v v
v v
27 hulero
v v v v v
v v
8 campista
v v v v v v v v
v
6 campirano
v v v v v
v
v
v
33 macanero
v
v
29 jíbaro
v
v
11 colono
v
v
34 manuto
v
v
45 veguero
v
v
2 cafetalista
v
v
v
42 ranchero
v v v
v
19 enmaniguado
v
v
v
13 conuquero
v
v v v v
22 guajiro
v
v
35 montero
v
v
32 llanero
v
v
40 payazo
v
v
1 cacahuero
v
v
44 sabanero
v
v
5 camperuso
v
v
31 lanudo
v
v v
36 montubio
v
v v v v
37 paisano
v
v v
15 chagrero
v v
25 huasicama
v v
38 pajuerano
v
v v
26 huertero
v
v v
v
14 coquero
v v
v
24 guaso
v
v v v v v
9 campusano
v
v v
47 yanacón
v v v v
30 lampero
v
v v
43 rondín
v
46 viñatero
v v
v v v
28 invernador
v v
v v v
39 partidario
v v v
21 gaucho
v v v v
41 piona
v v v
4 campero
v v v
18 chuncano
v v v
3 camilucho
v v v
20 estanciero
v v v
12 comparsa
v v v
16 changador
v v v
一般にデータを扱うときは分析者が先に一定の基準を設けて、それにし
たがって分析をすることが多いのですが、それではデータの構造が本来有
185
している内的基準が考慮されていません。このような方法を「前範疇化」
(precategorization)とよぶことにします。本当はさらに良い結果が得られる
のに、分析者が先に基準に縛りをかけて、その結果に自らが縛られている
ことがあります。いつも先に決めた基準で同じような分析をするよりも、
より柔軟な方法をとるべきでしょう。そうすれば新しい発見に出会う可能
性が高まります。このような方法を「後範疇化」(postcategorization)とよぶ
ことにしたいと思います。どちらの方法も可能ですが、文系の研究で後者
はあまり行われていないようです。
6.2.3. 軸の解釈
横行と縦列の並べ替えの基準とした原点平均距離はパタン化が集中した
とき各個体と各属性それぞれの近さを示しています。そこで、平均距離ま
たはその標準測度を出力させ、それをグラフに示すことによって個体のグ
ルーピングと属性のグルーピングができます。サンプルデータ ( p 1 )が内的基
準によって集中したとき、それぞれの軸の原点からの平均距離は次のよう
になります。
次は先のサンプルデータの列と行の係数を標準化した結果です。
Lv
v-2
v-1
v-3
d-3
v
d-1
v
v
d-5
v
v
v-4
Lv
係数
d-3 -1.418
d-1 -0.709
v
d-5 -0.014
d-2
v
d-2
0.760
d-4
v
d-4
1.381
Lv
v-2
v-1
v-3
v
v-4
係数 -1.097 -0.821 0.582 1.336
それぞれの軸を折れ線グラフにしてみましょう。
列係数の直線は一様ですが、行係数は v-2, v-1 の傾斜が緩くなっていま
す。これは v-2, v-1 のデータの分布が近いことを示します。
186
■軸の傾き
次の図は「農夫」 (Cahuzac: 1980)の分析の行係数を標準化し、折線グラ
フにしたものです（ →『基礎』p.**.）。これを見ると、大きく中米諸国 (CR,
EL, HO, NI, GU)からメキシコ (MX)、カリブ海 (RD, VE, CU), アンデス諸国
(CO, EC, PE, CH, BO)、ラプラタ諸国 (AR, UR, PA)という連続があることが
わかります。そして、この図は中米諸国は横に一直線に並んでいるので、
分布パタンが変わらないことを示しています。このことは集中化されたデ
ータ行列の分布パタン (2)で確認することができます。
このようにグラフや係数は確かに全体の傾向をつかむのに役立ちますが、
一定の変形や抽象化を得ています。そこで、グラフや係数が示すことを、
データ行列で再確認すると分析結果がより納得できるものになります。数
字や図はそれを支援するものですが、最終的な判断をするときはデータ行
列に立ち返って確認すべきです。
■相関行列の集中化
次は優先係数の出力 (上図 )と、それを集中化した結果（下図）です。
Preference
CU
RD
PR
MX
GU
EL
HO
NI
CR
PN
VE
CO
EC
PE
BO
CH
PA
UR
AR
CU
1.000
0.200
-0.200
-0.500
-1.000
-1.000
-1.000
-1.000
-1.000
-0.789
-0.778
-0.600
-0.294
-0.368
-0.750
-0.714
-1.000
-1.000
-0.840
RD
0.200
1.000
-0.059
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-0.429
-0.800
-0.636
-0.579
-0.619
-1.000
-1.000
-1.000
-1.000
-1.000
PR
-0.200
-0.059
1.000
-0.385
-0.692
-0.692
-0.692
-0.692
-0.714
-0.750
-0.467
-0.765
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
MX
-0.500
-0.778
-0.385
1.000
-0.143
-0.143
-0.143
-0.143
0.067
-0.059
-0.750
-1.000
-1.000
-0.765
-1.000
-0.667
-1.000
-1.000
-0.826
GU
-1.000
-1.000
-0.692
-0.143
1.000
1.000
1.000
1.000
0.867
0.412
-0.500
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
EL
-1.000
-1.000
-0.692
-0.143
1.000
1.000
1.000
1.000
0.867
0.412
-0.500
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
HO
-1.000
-1.000
-0.692
-0.143
1.000
1.000
1.000
1.000
0.867
0.412
-0.500
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
NI
-1.000
-1.000
-0.692
-0.143
1.000
1.000
1.000
1.000
0.867
0.412
-0.500
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
CR
-1.000
-1.000
-0.714
0.067
0.867
0.867
0.867
0.867
1.000
0.333
-0.529
-0.789
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
187
PN
-0.789
-0.429
-0.750
-0.059
0.412
0.412
0.412
0.412
0.333
1.000
-0.579
-0.810
-1.000
-1.000
-1.000
-1.000
-1.000
-0.818
-0.846
VE
-0.778
-0.800
-0.467
-0.750
-0.500
-0.500
-0.500
-0.500
-0.529
-0.579
1.000
0.600
-0.765
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
CO
-0.600
-0.636
-0.765
-1.000
-0.778
-0.778
-0.778
-0.778
-0.789
-0.810
0.600
1.000
-0.158
-0.810
-1.000
-1.000
-1.000
-1.000
-1.000
EC
-0.294
-0.579
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.765
-0.158
1.000
0.111
-0.467
-0.692
-1.000
-1.000
-0.833
PE
-0.368
-0.619
-1.000
-0.765
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.810
0.111
1.000
-0.059
0.333
-0.600
-0.636
-0.077
BO
-0.750
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.467
-0.059
1.000
-0.333
-0.765
-0.579
-0.130
CH
-0.714
-1.000
-1.000
-0.667
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.692
0.333
-0.333
1.000
-0.467
-0.529
-0.048
PA
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.600
-0.765
-0.467
1.000
0.818
0.538
UR
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.818
-1.000
-1.000
-1.000
-0.636
-0.579
-0.529
0.818
1.000
0.714
AR
-0.840
-1.000
-1.000
-0.826
-1.000
-1.000
-1.000
-1.000
-1.000
-0.846
-1.000
-1.000
-0.833
-0.077
-0.130
-0.048
0.538
0.714
1.000
Dst.cct.
EL
HO
NI
GU
CR
PN
MX
VE
PR
CO
RD
CU
EC
PE
CH
BO
AR
UR
PA
EL
1.000
1.000
1.000
1.000
0.867
0.412
-0.143
-0.500
-0.692
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
HO
1.000
1.000
1.000
1.000
0.867
0.412
-0.143
-0.500
-0.692
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
NI
1.000
1.000
1.000
1.000
0.867
0.412
-0.143
-0.500
-0.692
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
GU
1.000
1.000
1.000
1.000
0.867
0.412
-0.143
-0.500
-0.692
-0.778
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
CR
0.867
0.867
0.867
0.867
1.000
0.333
0.067
-0.529
-0.714
-0.789
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
PN
0.412
0.412
0.412
0.412
0.333
1.000
-0.059
-0.579
-0.750
-0.810
-0.429
-0.789
-1.000
-1.000
-1.000
-1.000
-0.846
-0.818
-1.000
MX
-0.143
-0.143
-0.143
-0.143
0.067
-0.059
1.000
-0.750
-0.385
-1.000
-0.778
-0.500
-1.000
-0.765
-0.667
-1.000
-0.826
-1.000
-1.000
VE
-0.500
-0.500
-0.500
-0.500
-0.529
-0.579
-0.750
1.000
-0.467
0.600
-0.800
-0.778
-0.765
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
PR
-0.692
-0.692
-0.692
-0.692
-0.714
-0.750
-0.385
-0.467
1.000
-0.765
-0.059
-0.200
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
CO
-0.778
-0.778
-0.778
-0.778
-0.789
-0.810
-1.000
0.600
-0.765
1.000
-0.636
-0.600
-0.158
-0.810
-1.000
-1.000
-1.000
-1.000
-1.000
RD
-1.000
-1.000
-1.000
-1.000
-1.000
-0.429
-0.778
-0.800
-0.059
-0.636
1.000
0.200
-0.579
-0.619
-1.000
-1.000
-1.000
-1.000
-1.000
CU
-1.000
-1.000
-1.000
-1.000
-1.000
-0.789
-0.500
-0.778
-0.200
-0.600
0.200
1.000
-0.294
-0.368
-0.714
-0.750
-0.840
-1.000
-1.000
EC
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.765
-1.000
-0.158
-0.579
-0.294
1.000
0.111
-0.692
-0.467
-0.833
-1.000
-1.000
PE
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.765
-1.000
-1.000
-0.810
-0.619
-0.368
0.111
1.000
0.333
-0.059
-0.077
-0.636
-0.600
CH
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.667
-1.000
-1.000
-1.000
-1.000
-0.714
-0.692
0.333
1.000
-0.333
-0.048
-0.529
-0.467
BO
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.750
-0.467
-0.059
-0.333
1.000
-0.130
-0.579
-0.765
AR
-1.000
-1.000
-1.000
-1.000
-1.000
-0.846
-0.826
-1.000
-1.000
-1.000
-1.000
-0.840
-0.833
-0.077
-0.048
-0.130
1.000
0.714
0.538
UR
-1.000
-1.000
-1.000
-1.000
-1.000
-0.818
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.636
-0.529
-0.579
0.714
1.000
0.818
PA
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-1.000
-0.600
-0.467
-0.765
0.538
0.818
1.000
【関係】で出力した様々な相関行列を集中化し、その集中化した変数を
用いて得点全体を集中化する方法が考えられます。
次は本節で取り上げた原点距離法による集中化の主要部です。距離ベク
トルを Vn と Hp に確保し、配列の変化がなくなるまで繰り返します。集
中係数
6.2.4. 集中係数
データ行列が集中されると反応データが行列の対角線の近くに集まった
り、行列の特定の部分に集まったりします。対角線の近くに集まると行列
内の分布から計算される相関係数が高くなります。また行列の特定の部分
に集まると反応点の間の距離が近くなりします。また、集中化は一般に隣
接する反応の数を増やします。ここでは、そのような相関係数、距離、隣
接状態を測る係数「集中係数」(Coefficient of concentration) を設定し、集中
化の効果を示す指標とします。
(1) 連番平均距離
集中化されたデータ行列は、かりに集中相関値があまり高くなくても反
応点が特定の位置に集中していれば、その集中領域は注目に値します。た
とえば後で扱う「クラスター集中分析」では反応点の相関値よりもその集
中度を重視します。集中領域に列と行の強い関連を見ることができるから
です。
「連番平均距離」 Sequent Mean Distance: SMD はすべての反応点につい
て比較対をつくり、その X 座標と Y 座標の差を 2 乗し、その和の根をとり、
その対の数で割って平均をとり、さらにその根を求めます。数式で示すと
次のようになります。
SMD = Σ i Σ j Σ a Σ b {[(i – a) 2 + (j – b) 2 ] 1 /2 |x i j x a b | 1 /2 / n
188
ここで i, j は比較対の一方の X 座標と Y 座標を示し、 a, b は他方の X 座
標と Y 座標を示します。 n は比較対の総数です。このように差を 2 乗して
その和の根をとることはユークリッド距離を求めていることになります。
さらにそれぞれの値の積の絶対値の根をウェイトとして掛けます。この場
合 x ij , x a b はどれも 1 または 0 ですから、掛け合わせて 1 となるときだけが
距離としてカウントされます。
一方、次のような量的データでは距離だけでなく対のそれぞれの値をウ
ェイトとして考慮に入れることにします。同じ距離であってもウェイトが
異なれば、その評価が異なるからです。たとえば、 (d1, v1)と (d2, v1)の距
離は (1, 1) 1 : (2, 1) 2 = (1 2 + 0 2 ) 1 /2 (1 x 2) 1 /2 = 1.41 ですが、 (d1, v1)と (d1, v2)
の距離は (1, 1) 1 : (1, 2) 1 = (1 2 + 0 2 ) 1 /2 (1 x 1) 1 /2 = 1 になります。
P2
v1
v2
v3
v4
d1
1
1
2
3
d2
2
4
3
4
d3
1
3
2
3
d4
3
3
2
4
d5
2
3
2
4
(2) 参照平均距離
ここで単なる連番ではなく原点平均距離を使うとさらに精密な距離を測
ることができます。「集中参照平均距離」 Referential Mean Distance: RMD
の式は次のとおりです。
RMD = Σ i Σ j Σ a Σ b [(v i – h a ) 2 + (v j – h b ) 2 ] 1 /2 |x i j x a b | 1 /2 / n
ここで v と h はそれぞれ列と行の係数ベクトルを示します。
P1
d1
v1 v2 v3 v4
v
v
d2
v
d3
v
d4
d5
v
v
v
v
v
P1
v2 v1 v3 v4
d3
v
 d1
v
v
d5
v
v
v
d2
v
d4
v
v
原点距離集中行列集中前集中後差
連番相関係数
0.226
0.820 0.594
参照相関係数
0.563
0.835 0.273
連番平均距離
0.503
0.601 0.098
参照平均距離
0.174
0.471 0.297
189
この結果を見ると、集中化によって相関係数が上昇しても必ずしも平均
距離が小さくなるわけではないことがわかります。
(3) 連番相関係数
以下に先の表を再掲します。
Lv v1 v2 v3 v4
Lv v2 v1 v3 v4
d1
d3
v
 d1
v
v
d5
v
v
v
v
d2
v
d3
v
d4
d5
v
v
v
v
v
v
d2
v
d4
v
v
上左表と比べて上右表では反応点（v 印）の分布が列と行に沿ってより
強く相関しています。そこで、列の d3, d1, …, d4 にそれぞれ 1, 2, …, 5 と
いう数値を与え、行の v2, v1, v3, v4 に 1, 2, 3, 4 という数値を与えて、 v 点
の X 座標と Y 座標の相関を Pearson の積率相関係数を使って計算します。
X と Y の軸のデータ行列からなる表を散布図と見て、これから次のような
X と Y の軸のデータ行列を作り、そこから「連番相関値」Sequent Correlation
Coefficient: SCC を計算します。
データ：(X, Y) = (1, 1) (2, 1) (2, 2) (3, 1) (3, 2) (3, 3) (4, 3) (5, 3) (5, 4)
SCC = 0.82
(4) 参照相関係数
実は、それぞれの反応点は連番のように等間隔で並んでいるのではなく、
次のように列と行の係数が対応しているので、次にそれぞれの係数を参照
した数直線を軸にすべきでしょう。
Lv
v2
v1
v3
d3
v
d1
v
v
d5
v
v
Lv 係数
v4
d3
1.42
d1
0.71
v
d5
0.01
d2
v
d2
0.76
d4
v
d4
1.38
Lv
v2
v1
v3
v
v4
係数 1.10 0.82 0.58 1.34
次の「集中バブル図」（ → 3.9 OptionButton: optIntChart）はそれぞれの反
190
応点を X 軸と Y 軸の標準化された係数の位置によってプロットしています。
X 軸は 4 座標あり、Y 軸は 5 座標です。
「集中係数相関値」 Referential Correlation Coefficient: RCC はこの座標にも
とづいて計算した相関係数です。
データ： (X, Y) = (-1.10, -1.42) (-1.10, -0.71) … (1.34, 1.38)
RCC = 0.84
原点距離集中行列集中前集中後差
集中連番相関係数
0.226
0.820 0.594
集中参照相関係数
0.563
0.835 0.273
それぞれのセルにある値を反応の頻度と見なします。 (5) 平均隣接係数
下左表の d-1/v-1 と d-1/v2 は横方向で隣接しています。また、 d-4/v-3 と
d-5/v3 は縦方向で隣接しています。このような隣接点の数は全部で 5 つで
すが、集中化された下右表では 9 つになります。
P1
d-1
v-1 v-2 v-3 v-4
v
v
d-2
v
d-3
v
d-4
d-5
v
v
v
v
v
P1
v-2 v-1 v-3 v-4
d-3
v
 d-1
v
v
d-5
v
v
v
d-2
v
d-4
v
v
隣接度数は質的データ（ 1-0 データ）だけでなく、次のような量的データ
についても適用します。このとき、縦または横で隣接する対の積の絶対値
の根をそれぞれの値のウェイトをつけた距離と見なします。これはウェイ
トのあるデータの集中度を見るためです。
191
P2
v-1 v-2 v-3 v-4
d-1
1
1
2
3
d-2
2
4
3
4
d-3
1
3
2
3
d-4
3
3
2
4
d-5
2
3
2
4
このとき、それぞれの反応点を差異化するために、値がその全体の平均以
上のものを取り出して、そのすべての対についての隣接数の平均、つまり
全隣接数を反応数で割った値を「平均隣接指数」 (mean linkage index: MLI)
とよび、集中化の度合いを示す指標とします。
(6) 標準隣接係数
平均隣接係数は最大値が 1 になるとは限らないので標準化されていません。
そこで、隣接度数の理論的な最大値を求め、隣接度数の実測値をこの最大
値で割れば 0 ~ 1 の間を動く標準化された係数が求められます。これを「標
準結合係数」 (standard union coefficient: SUC) とします。 SUC では結合線の
数だけを求め、それぞれのセルの値は考慮しません。
結合線数の最大値 (U m a x )は反応点の数 (N)によって決まりす。たとえば、N=2
では U ma x は 1 です。これを U m a x (2) = 1 と表現します。N=3 では、次の図の
ように、どちらのケースでも U m a x (3) = 2 となります。
«N=3; U m a x = 2»
«N=3; U ma x =2»
N=4 のとき下左図では Ü3 ですが、下右図のようになると Ü4 になります。
よって正方形の分布で U m a x (4)=4 になります。
«N=4; Ü3»
«N=4; U m a x =4»
N=5, 6, 7, 8 については、それぞれ次のように正方形を含む分布で最大値を
示します。
192
«N=5; U m a x =5»
«N=6; U m a x =7»
«N=7; U m a x =8»
«N=8; U ma x =10»
N=8 のとき下左図でも下右図でも同じ最大値 (10)になります。どちらも長
方形に 2 つの反応点が結合したものなので同じ値になるからです。
«N=8; U m a x =10»
«N=8; U m a x =10»
N=9 のときは結合の仕方で結合線の数が異なります。
«N=9; Ü11»
«N=9; U m a x =12»
このように正方形の配列が最大結合線を作ります (U m a x = 3 2 = 9)。
N=14 のケースを見ましょう。次が最大結合線 (=20)を作る結合です。
«N=14; U m a x =20»
最初に可能な正方形の 1 辺の長さを探します。
R = Int(Sqr(N))
ここで関数 Sqr(14)は根 3.742 を返し、関数 Int(3.742...)は整数部 3 を返しま
す。そして、3 x 3 の正方形には次のように横方向の結合が 2 x 3 個、縦方
向の結合が 2 x 3 個になります。
193
«N=9; Ü12»
これを一般化すると、
U m a x (R) = 2 * R * (R - 1)
残りは次のように正方形に結合する部分と残余の部分に分けます。
N=5, Ü8
長方形になる部分については、その列数（ここでは 1）を次の式で求めま
す。
Int((N - R ^ 2) / R)
ここで N は反応数で、R は正方形の 1 辺の長さです。
Int((N - R ^ 2) / R) = Int((14 - 3 2 ) / 3) = 1
それぞれの列は次の結合線をもちます。
R + R - 1 = 2 * R -1
たとえば、R = 3 であれば、次のように結合線が 5 になります。
«N=3, Ü5»
最後に残余の反応数の結節点を計算します。ここで、割った余りを示す演
算子 Mod を使用します。たとえば、 14 Mod 3 = 2 となります。よって残余
部の接合点は次の式で求められます。
(N Mod R) + (N Mod R) - 1 = 2 * (N Mod R) - 1
194
残余の反応数が 2 であれば結合線は 3 になります。
«N=2, Ü3»
次がサンプルデータを原点平均距離法によって集中した結果です。
P1
d-1
v-1 v-2 v-3 v-4
v
v
d-2
v
d-3
v
d-4
d-5
v
v
v
v
v
P1
v-2 v-1 v-3 v-4
原点距離
値
連番相関係数
.820
参照相関係数
.835
v
連番平均距離
.601
d-2
v
参照平均距離
.471
d-4
v
d-3
v
d-1
v
v
d-5
v
v
v
平均隣接指数 1.000
標準結合係数
.750
(8) グッドマンとクラスカルの順序連関係数
反応点を示す記号 (v)を数値 1 に代えて計算した、「グッドマンとクラスカ
ルの順序連関係数」を集中係数として利用します（ → 分析「順序連関係数」）。
(7) クラメアの連関係数
クロス集計表の列と行の関連度の指数としてクラメア (Cramer)の連関係数
が使われます。 Cramer の連関係数は期待値（ → 『基礎』 p.**; → 3.5.6）か
ら計算されるχ2 乗値を計算し、その理論的な最大値で割ることによって
求められます。
次はデータ例（下左表）とその期待値（下右表）です。 A:国語の計算は、
=$E2*B$6/$E$6 によって計算します。
成績 1 1.国語 2.英語 3.数学和
期待値 1.国語 2.英語 3.数学
A
45
48
66
159
A
54.860 53.465 50.675
B
56
59
54
169
B
58.310 56.827 53.863
C
58
51
78
187
C
64.520 62.880 59.599
D
77
72
20
169
D
58.310 56.827 53.863
和
236
230
218 684
次は、その χ 2 乗値 (χ 2 )と Cramer の連関係数 (Cr)を示します。
χ 2 1.国語 2.英語
3.数学
A
4.634
1.772
0.559
Cr 0.185
195
B
0.092
0.083
0.000
C
0.659
2.245
5.681
D
5.991
4.051
21.289
A:国語の χ 2 乗値は =(B2-H2)^2/H2 で計算します。Cramer の連関係数 (Cr)の
式は、
Cr = [χ 2 / (m - 1)n] 1 /2
ここで、m は行数と列数のうち小さな数を示し、n はデータの総和を示し
ます。これは以下で示すように χ 2 の最大値が (m - 1)n になるためです。
はじめに、χ2 の式はその定義から次のようになります。
χ 2 = Σ i Σ j [(n i j – e i j ) 2 / e i j ]
ここで、 n ij はデータの実測値を示し、 e ij はその期待値を示します。期待値
を求めるために、横和 (n i .)と縦和 (n. j )と総和 (n)を使います。→『基礎』p.**.
eij
= n i .n. j / n
χ2
= Σ i Σ j [(n i j – n i .n. j / n) 2 / (n i .n. j / n)]
= Σ i Σ j [( n n ij – n i .n. j ) / n) 2 / (n i .n. j / n)]
= Σ i Σ j {[(n 2 n i j 2 – 2 nn ij n i .n. j + n i . 2 n. j 2 ) / n 2 ] (n / n i .n. j )}
= Σ i Σ j [(n 2 n i j 2 / n i .n. j – 2 n n ij + n i .n. j ) / n]
= Σ i Σ j ( n n ij 2 / n i .n. j ) – 2Σ i Σ j n i j + Σ i Σ j (n i .n. j / n)
ここで、第 2 項の Σ i Σ j n ij はすべての n ij の総和 (n)を示します。また、第 3
項の Σ i Σ j n i .n. j は総和 (n)の 2 乗 (n 2 )を示します。それぞれ For ... Next のプ
ログラムをイメージしてください。
よって、
χ2
= nΣ i Σ j (n i j 2 / n i .n. j ) – 2n + n
= n [Σ i Σ j (n i j 2 / n i .n. j ) – 1]
この式には期待値が表れていません。
さて、χ2 が最大となるのは、次のようにセルの縦和と横和がセルの値と
同じ、というケースです。このような状態は実測値と期待値の差の総和を
最大にするからです。
196
成績 1 1.国語 2.英語 3.数学和
期待値 1.国語 2.英語 3.数学
A
45
0
0
45
A
11.126 14.588 19.286
B
0
59
0
59
B
14.588 19.126 25.286
C
0
0
78
78
C
19.286 25.286 33.429
D
0
0
0
0
D
0.000
和
45
59
0.000
0.000
78 182
x^2
1.国語
A
103.126 14.588 19.286
B
14.588
83.126 25.286
C
19.286
25.286 59.429
D
0.000
0.000
2.英語 3.数学
Cr
1.000
0.000
一般に、次のような最大の関連度を示すデータ行列の χ2 を求めてみまし
ょう。
1
2 … p
1 x1
2
和
x1
x2
x2
…
:
…
m
x min(m, p) x min(m, p)
和 x1 x2
x min(m, p) n
ここで min(m, p)は m と p を比べて小さなほうの値を示します。先のサン
プルでは、D のデータがすべてゼロを示しています。このように長方形の
データ行列の場合、その中の最大の正方形の中で縦も横も他と共有しない、
というケースを考えているからです。この場合、先のχ2 式を使うと、次
のように計算されます。
χ2
= n [Σ i Σ j (n i j 2 / n i .n. j ) – 1]
= n (x 1 2 / x 1 x 1 + x 2 2 / x 2 x 2 + ... + x min(m, p) - 1)
= n [min(m, p) – ]
よって、クラメア (Cramer)連関係数 (Cr)は次の式になります。
Cr = [χ 2 / (m – 1)n] 1 /2
この式で根をとるのは、以上の計算で次数が 2 になっているためです。
なお、クラメア連関係数は、軸の順序を変えても全体の期待値は変化しな
いので、次のように集中化は影響しません。
197
v-1 v-2 v-3 v-4
P1
d-1
v
連番平均距離 .689
v
d-4
d-5
参照相関係数 .563
v
d-3
v
v
v
値
連番相関係数 .226
v
d-2
原点距離
v
参照平均距離 .286
平均隣接係数 .556
v
標準隣接係数 .417
クラメア係数 .616
v-2 v-1 v-3 v-4
P1
d-3
v
d-1
v
v
d-5
v
v
原点距離
値
連番相関係数
.820
参照相関係数
.835
v
連番平均距離 1.052
d-2
v
参照平均距離
d-4
v
v
.842
平均隣接係数 1.000
標準隣接係数
.750
クラメア係数
.616
Cramer の連関係数は集中化の有無にかかわらず、データ行列がもつ列と行
の関連度を示すものとして使用します。
■乗数と集中係数
次はラテンアメリカスペイン語「農夫」 (Cahuzac: 1980)のデータ行列の
言語形式と国名をどちらもアルファベット順に並べた行列です。この状態
（集中化前の初期状態）の集中係数は次のように計算されます。
連番相関係数 -0.064
参照相関係数 0.037
連番平均距離 0.575
参照平均距離 0.233
平均隣接指数 0.449
標準結合係数 0.244
198
このデータ行列から乗数 (N)を 1 ~ 4 まで変化させて実験し集中化された
データ分布パタンの変化を観察しましょう。
(N=1)
(N=2)
199
(N=3)
(N=4)
このように乗数の変化によって集中パタンの形状が異なります。また、同
じ乗数 (N=2)でも入力行列の軸の配列にしたがって集中した集中パタンの
形状が異なります。
次は乗数 (N)を 1 から 10 まで変化させて実験した集中効果係数の結果です。
200
この図を見ると、相関係数は N=1, 3, 4 で比較的高い値を示していますが、
平均距離についてもかなり高い値を示していることがわかります。 N=2 の
ときは相関係数の値を落としますが、平均距離かなり低くしています。隣
接指数と結合係数は逆に N=2 のときに高くなります。集中化された分布パ
タンでは相関係数が高いときは全体的に対角線付近に集まり、平均距離が
小さいときは反応が全体的に集結していることを示します。隣接指数と結
合係数は個々の反応点の結合状態を示します。それぞれに特徴があります
から、はじめから方法を 1 に固定しないで、データ行列の性質を見ながら
比較検討するとよいでしょう。
■多変数集中分析の比較
同じデータ (Cahuzac 1980)を使ってこれまでに見た集中化の 4 つの方法
の分析結果を比較します。次が集中化された分布パタンです。
201
(1) データ行列
202
(2) 原点距離集中分析 (N=3)
(3) 主成分集中分析
(5) 対応集中分析
(4) 因子集中分析
(6) クラスター集中分析
これらの図を見ると、 (2) 原点距離、 (4)主成分、 (6) 対応分析は分布の対
角化を示し、 (6)因子分析と (7)クラスター分析では分布の局在化を示して
いることがわかります。
主成分分析、因子分析、対応分析は両軸で分析しますが、原点距離とク
ラスター分析では列または行だけでも分析可能です。しかし、クラスター
分析では 1 軸（列または行）だけでは次のようにあまり良い局在化の結果
203
が得られません。
(8) クラスター分析：列
(9) クラスター分析：行
一方、原点距離による集中化は、たとえば行を外的基準として固定し、列
を集中化することができます。そのとき、行の状態によって結果が変わる
ので、対応分析など他の方法で適した配列を見つけ、それを外的基準にす
る、という方法が考えられます。次は、先の主成分分析と対応分析の結果
として得られた行（各国の地理的な配置）を固定し、列を集中化した結果
です。
(10) 主成分分析 → 原点距離：列
(11) 対応分析 → 原点距離：列
204
このように、主成分分析の結果を利用した原点距離法では相関係数と隣接
係数を上げています。一方、対応分析の結果と比べると少し成績が下がり
ます。数量化Ⅲ類は理論的に相関係数を最大化する目的で考案された方法
だからです。
一方、原点距離法は相関係数だけでなく探索的な分析に適した分布パタ
ンの集中化を目指します。たしかにこの方法は対応分析よりも少し成績を
下げているのですが、研究の目的によっては外的基準を変えられない場合
があるので、そのようなときは原点距離法が有効です。
次の研究（ Kawasaki 2012）は発行日が記されていない中世スペイン語公証
文書の年代を、発行日が記されている他の文書の言語特徴の集中化された
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
asta
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
v
この図では列に年代を入れ固定し、行（言語特徴）を集中化しています。
次に左上の部分を拡大しました。
この黄色の部分の横行が年代不詳の文献です。これを含めて全体を集中化
すると、この行が一定の年代に位置づけられるので、その年代を推定する
ことができます。そのためには適切な言語特徴（年代差を示す、頻度が高
い、地域差が少ない、など）を選択し、実験を繰り返さなければなりませ
ん。
205
ziudad
-azgo
xamas
hazer
hijo
ciudad2
algun2
hasta
segun
reyno
juzgar
ciudad
verdad
castilla
alcalde2
valladolid
asi
sellar
para
mente
conocida2
viere
tenido
fasta
algund
segund
cibdad2
merced
ningun
v
v
v
v
v
v
v
v
v
v
v
despues
assi
v
fijo2
fazer2
ciudad1
fasta
v
v
v
v
v
-adgo
judgar
regno
v
v
v
v
v
v
v
v
v
v
v
ciudat
alcalle
verdat
segunt
ssu
v
v
v
v
v
v
v
tenudo
miente
ffazer
valladolit
ffijo2
algun1
castiella
seellar
mercet
cibdad1
alcalde1
Conoçuda
fijo1
v
v
v
pora
fata
v
fazer1
mientre
uiere
v
depues
nengun
castella
conocida1
ffijo1
azer
1221-1240
1097-1200
1201-1220
1241-1260
1261-1280
1281-1300
1301-1320
1321-1340
X341(1326)
1341-1360
1361-1380
1381-1400
1401-1420
1441-1460
1421-1440
1461-1480
1481-1500
1501-1520
1521-1540
1541-1560
1581-1600
1561-1580
1601-1620
1621-1640
1641-1660
1661-1680
1681-1700
algunt
分布から推定しています。
v
v
v
6.3. クラスター分析
関係行列（相関行列、類似行列、距離行列、文字行列）や、多変数分析
の結果を見ると互いに関係の深い成分とそうでない成分があることがわか
ります。こうした関係にもとづいて全体がどのようなグループ（群）に分
類されるのかを見る手法の１つが「クラスター分析」(Cluster analysis)です。
「樹形図」 (Dendrogram)というグラフを出力します。
6.3.1. 最近隣法
クラスター分析には多くの方法があります。はじめに一番簡単な「最近
隣法」 (Nearest neighour method)を取り上げましょう。スペイン語圏の語彙
バリエーション研究から得られた相関係数行列を用いて説明します。デー
タの規模を小さくして 6 カ国だけにしたサンプルデータを使います。それ
ぞれ ES:スペイン , GE:赤道ギニア , CU:キューバ , RD:ドミニカ共和国 , PR:
プエルトリコ , MX:メキシコを示します。
6 か国 1. ES 2. GE 3. CU 4. RD 5. PR 6. MX
1. ES
1.00
2. GE
0.61
1.00
3. CU
0.51
0.45
1.00
4. RD
0.54
0.45
0.54
1.00
5. PR
0.58
0.49
0.56
0.68
1.00
6. MX
0.45
0.34
0.39
0.45
0.50
1.00
これを距離行列に変換します。 → 3.6.4.
6 か国 1. ES 2. GE 3. CU 4. RD 5. PR 6. MX
1. ES
0.00
0.20
0.25
0.23
0.21
0.28
2. GE
0.20
0.00
0.28
0.27
0.25
0.33
3. CU
0.25
0.28
0.00
0.23
0.22
0.30
4. RD
0.23
0.27
0.23
0.00
0.16
0.28
5. PR
0.21
0.25
0.22
0.16
0.00
0.25
6. MX
0.28
0.33
0.30
0.28
0.25
0.00
最初のクラスタリングで距離の最小値 (0.16)をもつ組み合わせである 4:RD
と 5:PR が合体します。
6 か国
1. ES 2. GE 3. CU 4. RD:5. PR 6. MX
1. ES
0.00
0.20
0.25
0.21
0.28
2. GE
0.20
0.00
0.28
0.25
0.33
206
3. CU
0.25
0.28
0.00
0.22
0.30
4. RD: PR
0.21
0.25
0.22
0.00
0.25
6. MX
0.28
0.33
0.30
0.25
0.00
2 番目のクラスタリングで次に距離が近い値 (.20)をもつ成分 1 と成分 2 が
合体します。
6 か国
1. ES: 2. GE 3. CU 4. RD: .16;5. PR 6. MX
1. ES: 2. GE
0.00
0.25
0.21
0.28
3. CU
0.25
0.00
0.22
0.30
4. RD: 5. PR
0.21
0.22
0.00
0.25
6. MX
0.28
0.30
0.25
0.00
3 番目のクラスタリングではすでに存在する (1+2)のグループと (4+5)のグ
ループが合体します。このとき、(1+2) と 3 の距離は、1-3, 2-3 の間のそれ
ぞれの距離のうち小さなほうの値とします。同様に (1+2)と (4+5)の距離は
1-4, 1-5, 2-4, 2-5 の中で一番小さな値をとります。以下同様にして最後の 5
番目のクラスタリングで成分 6 が全体に組み込まれます。
6 か国
1. ES: 2. GE:4. RD:5. PR 3. CU 6. MX
1. ES: 2. GE:4. RD:5. PR
0.00
0.22
0.25
3. CU
0.22
0.00
0.30
6. MX
0.25
0.30
0.00
6 か国
1. ES: 2. GE: 4. RD:5. PR: ;3. CU 6. MX
1. ES: 2. GE: 4. RD:5. PR: ;3. CU
0.00
0.25
6. MX
0.25
0.00
各国を空間に配置しそのグルーピングを行うと次のようになります。
207
Nearest R.
1. ES
-1.00
2. GE
0.61
4. RD
0.58
5. PR
0.68
3. CU
0.56
6. MX
0.50
Max. 1.00
+
Min. 0.00
＊この例では相関係数行列を一度距離に置き換えてからクラスター分析に
かけていますが、上の図（樹形図）にはクラスターの合流点として入力の
数値（相関係数）が出力されています。
6.3.2. 最遠隣法
最近隣法ではグループと１つの成分またはグループ間の距離をグループを
構成する成分のあらゆる組み合わせのペアで一番距離の近い数値を示すも
のとして定義しました。たとえば次の図で、
[A+B+C] というグループと [D+E]というグループの間の距離を A-D, A-E,
B-D, B-E, C-D, C-E というペアの中から一番近いものを選んで、この場合、
C-E によって、 2 つのグループ間の距離と見なしています。 F も含めた 3
つのグループの距離は、 C-E, C-F, E-F によって計測されます。
次に取り上げる「最遠隣法」 (Furthest neighbour method)はグループ間の最
も遠い成分の間の距離を採用します。つまり、上図の A-D, A-F, D-F の距
離で 3 つのグループの距離と見なすのです。最近隣法では近くにデータが
あれば、それを結びつけるという手法をとりますが、最遠隣法では一番遠
くにあるデータを見つけ、これの距離を 2 つのグループの距離とする点が
違います。グループ間の距離が決定されたならば、あとの操作は同じです。
208
Farthest R.
1. ES
-1.00
2. GE
0.61
3. CU
0.45
4. RD
0.54
5. PR
0.68
6. MX
0.34
Max. 1.00
+
Min. 0.00
6.3.3. 平均結合法
最近隣法と最遠隣法はグループ間の距離を決定するのに正反対の考え方を
しています。しかし、グループ間の距離を 1 つの代表値で計算しているこ
とではどちらも同じです。ここで取り上げる「平均結合法」(Average linkage
method)はグループ間の距離を前二者のように単純にそれぞれのグループ
の 1 成分に代表させず、すべての組み合わせのペアの距離の平均値をもっ
て 2 つのグループの距離と見なす手法です。たとえば、次の図で、
[A+B+C]というグループと [D+E]というグループ間の距離を A-D, A-E, B-D,
B-E, C-D, C-E というペアのすべての距離を足して、ペアの数 (6)で割った値
を 2 つのグループ間の距離と見なします。
先の距離行列の中で、すべての距離の中で最小値は 4:RD と 5:PR の間の .16
です。最初にこの 2 国を 1 つのグループをなすと見なすのは最近隣法や最
遠隣法と同じです。新しいグループ名を (4+5)と名付けて、新たに相関行列
を作成します。このときグループ (4+5)と 1, 2, 3, 6 との相関係数は、それ
ぞれの組み合わせの平均値とします。これが群間平均法の要点です。たと
えば、1 と (4+5)では、1-4 の .23 と 1-5 の .21 を足して 2 で割ります。以下、
2, 3, 6 についても同様に比較します。最後に次の図が得られます。
209
Average R.
1. ES
-1.00
2. GE
0.61
3. CU
0.50
4. RD
0.55
5. PR
0.68
6. MX
0.41
Max. 1.00
+
Min. 0.00
6.3.4. 過程平均結合法
クラスター分析法にはほかにも多くの手法があります。これまで扱ってき
た 3 つの手法は代表的なものですが、どれも原初の対照行列の成分をもと
に距離を測っています。ここで提案する「過程平均法」は平均結合法に類
似しますが、クラスタリングの各ステップで、原初の対照行列の成分に戻
るのではなく、ステップを踏むときの対照行列の状態をもとに、新しく距
離を平均して求めます。
次は「成績 1」のデータ行列（下左）からマハラノビス距離（下右）を計
算した結果です（平均化、最大値比： → 3.6.4 (3)）。
項目
a.役立つ
b.楽しい
S
A
B
C
D
E
F
G
H
A.文法解説
86
29
A
0.00
0.48
0.40
0.66
0.50
0.19
0.56
0.17
B.ビデオ
53
78
B
0.48
0.00
0.40
0.18
0.60
0.66
0.58
0.62
C.活動
48
53
C
0.40
0.40
0.00
0.54
0.81
0.48
0.19
0.44
D.映画
43
96
D
0.66
0.18
0.54
0.00
0.70
0.84
0.70
0.80
E.音読
110
42
E
0.50
0.60
0.81
0.70
0.00
0.63
1.00
0.63
F.筆写
93
11
F
0.19
0.66
0.48
0.84
0.63
0.00
0.59
0.04
G.観察
37
50
G
0.56
0.58
0.19
0.70
1.00
0.59
0.00
0.55
H.小テスト
89
15
H
0.17
0.62
0.44
0.80
0.63
0.04
0.55
0.00
はじめに F+H が全体の最短距離 (.04)によって結合します。
S
A
B
C
D
E
A
0.00 0.48 0.40 0.66 0.50
0.18 0.56
B
0.48 0.00 0.40 0.18 0.60
0.64 0.58
C
0.40 0.40 0.00 0.54 0.81
0.46 0.19
D
0.66 0.18 0.54 0.00 0.70
0.82 0.70
E
0.50 0.60 0.81 0.70 0.00
0.63 1.00
[F+H] 0.18 0.64 0.46 0.82 0.63
0.02 0.57
G
0.57 0.00
0.56 0.58 0.19 0.70 1.00
[F+H] G
結合した [F+H]と他の成分、たとえば A との距離 D ( [ F + H ] :A) は次のように計
210
算されています。
D ( [ F + H ] :A) = [D ( F : A) + D ( H : A) ] / 2 = (.19 + .17) / 2 = .18
他も同様です。これは平均結合法と同じです。次に上の表の中での最短距
離 (.18)をもつ [B+D]が結合します。
D
A
[B+D] C
E
[F+H] G
A
0.00
0.57 0.40 0.50
0.18 0.56
[B+D] 0.57
0.09 0.47 0.65
0.73 0.64
C
0.40
0.47 0.00 0.81
0.46 0.19
E
0.50
0.65 0.81 0.00
0.63 1.00
[F+H]
0.18
0.73 0.46 0.63
0.02 0.57
G
0.56
0.64 0.19 1.00
0.57 0.00
上と同様に [B+D] に関わる距離が再計算されています。次のステップで
[A+[F+H]]という群が形成されます（最短距離： .18）。
D
[A+[F+H]]
[B+D]
C
E
G
[A+[F+H]]
0.09
0.65 0.43 0.57 0.57
[B+D]
0.65
0.09 0.47 0.65 0.64
C
0.43
0.47 0.00 0.81 0.19
E
0.57
0.65 0.81 0.00 1.00
G
0.57
0.64 0.19 1.00 0.00
このとき過程平均法では、たとえば [A+[F+H]]と [B+D]の距離を次の式で計
算します。上の表ではなく直前のステップの表から D ( A:[ B + D ] ) と D ( [ F + H ] :[ B + D ] )
に該当する値を求めます。
D ( [ A+ [ F + H ] ] :[ B + D ] ) = [D ( A:[ B + D ] ) + D ( [ F + H ] :[ B + D ] ) ] / 2 = (.57 + .73) / 2 = .65
＊一方、群平均法では、この計算を原初の対照行列に戻って次の式を適用
しました。
D ( [ A+ F + H ] :[ B + D ] ) = [D ( A :B ) + D ( A : D ) + D ( F :B ) + D ( F :D ) + D ( H :B ) + D ( H :D ) ] / 6 = 67.7
過程平均法における距離の再計算法として幾何平均を使用する次を提案し
ます。先の最初のステップの例で示すと次のようになります。
D ( [ F + H ] :A) = [D ( F : A) D ( H : A) ] 1 /2 = (.19 x .17) 1 /2 = .18
この結果は先とほとんど変わりませんが、多くの計算では結果にかなりの
影響が出ます。先の算術平均をとる方法を「過程算術平均結合法」とよび、
211
今回の幾何平均をとる方法を「過程幾何結合平均法」とよぶことにします。
次は、これまで扱った 5 つの方法を同じデータに適用して比較した結果で
す。
(1) 最近隣法
Nearest
D.
A.文法解説 1.000
F.筆写
0.165
H.小テスト 0.044
B.ビデオ
0.402
D.映画
0.179
C.活動
0.400
G.観察
0.193
E.音読
0.496
Min. 0.000
+
Max. 1.000
Min. 0.000
+
Max. 1.000
Min. 0.000
+
Max. 1.000
(2) 最遠隣法
Furthest
D.
A.文法解説 1.000
F.筆写
0.190
H.小テスト 0.044
C.活動
0.587
G.観察
0.193
B.ビデオ
1.000
D.映画
0.179
E.音読
0.703
(3) 平均結合法
Average
D.
A.文法解説 1.000
F.筆写
0.178
H.小テスト 0.044
C.活動
0.503
G.観察
0.193
B.ビデオ
0.628
D.映画
0.179
E.音読
0.696
212
(4) 過程算術平均結合法
P . A . A v . D.
A.文法解説 1.000
F.筆写
0.178
H.小テスト 0.044
C.活動
0.497
G.観察
0.193
B.ビデオ
0.602
D.映画
0.179
E.音読
0.694
Min. 0.000
+
Max. 1.000
Min. 0.000
+
Max. 1.000
(5) 過程幾何平均結合法
P . G. A v . D.
A.文法解説 1.000
F.筆写
0.177
H.小テスト 0.044
C.活動
0.492
G.観察
0.193
B.ビデオ
0.590
D.映画
0.179
E.音読
0.680
5 つの方法を比較すると結果は類似していますが、最近隣法が他の方法に
比べて分類する力が弱いことがわかります。他の 4 つの方法ではそれぞれ
の結合点が異なっています。一般に結合点が最小値に近いほどクラスター
が原点に近い位置で形成されているので分類能力があると解釈できます。
上の例では過程幾何平均法が全体的に結合点が小さな値になっています。
■地域語彙変異によるクラスター分析
クラスター分析はさまざまな分野で使われています。その理由のひとつ
として他の多変数解析法と比べて理解しやすく、また結果も明示的でわか
りやすいことが挙げられるでしょう。
類似度係数として何を使うか、また、クラスタリングアルゴリズムをど
れにするかで、さまざまな組み合わせが可能です。それぞれの性質をよく
理解しデータの特徴や先行研究を踏まえたうえで納得できる結論を導くよ
うにしたいと思います。
コンピュータは一定の条件さえ与えれば、それなりの答えを出してくれ
ますが、これは可能な分析法の一つにすぎません。他の方法による結果と
比較しながら総合的に判断すべきです。
次は、スペイン語の語彙変異によるスペイン語圏地域をクラスター分類
したものです。全体はスペイン・アフリカ、カリブ海地域、メキシコ・中
213
米、南米北部、アンデス・ラプラタに分類されました。このような分類は、
異なる言語特徴を選択しても、しばしば同じ結果になります。
クラスター分析：スペイン語圏の語彙バリエーション
■大規模データのクラスター集中分析
次は、カタルニア語の動詞形態の地理分布を列（動詞形態）と行（地点）
でクラスター分析し、それぞれを集中化した結果です。大きな分布の塊の
他に、一定の語形と地点で収集した部分（赤い線で囲みました）が観察さ
れます。その部分についての語形の特徴を探ると、地理的な基準ではなく
言語的な基準から地域を確定することができます。また、逆に、そのよう
に確定された地域の言語特徴を抽出することができます。
214
＊プログラムは奥村 (1986:170-180)を参照しました。
6.4. 線状拡散度
データの性質を見るとき、その頻度と分散を調べることが重要です。デー
タが複数あるときの計算法は先に扱いました（ → 2.5）。ここでは次のよう
に、連続して続く 1 つの文字データの頻度と拡散度を計算します。
N
1
2
3
4
5
6
7
8
9
10
11
L e mma
L_ C
¡_B
SU_ T
COMIDA_ S
,_ B
SIN_ P
ADITIVO_ S
!_B
EL_ T
ADITIVO_S
DESACONSEJABLE_A
(…)
文字データの頻度は Excel のピボットテーブルを使って計算できます。一
215
方、同じデータが全体の中でどのように集中・拡散しているかを示す係数
を「線状拡散度」(linear dispersion: L.Disp .)とよび、次のように定義します。
L.Disp. = 1 – (Σ (d(i) – md) 2 / n) 1 /2 / ((n – 1) 1 /2 * Σ (d(i) / n)
ここで、d(i)は同じデータが繰り返されるときの、それぞれの間隔 (distance)
です。md はその平均、n は個数を示します。たとえば上のデータの ADITIVO
の 1 回目の位置と 2 回目の位置は、それぞれ 7 と 10 なので、その間隔は 3
になります。 md は平均距離 (mean distance)を示し、次のようにして計算し
ます。たとえば 5 つの単語が次のように d(1), d(2), …, d(5)の間隔で出現し
たとします。
d(0)
ｘ
d(1)
V
d(2)
d(3)
V
V
y
一方、この単語がテキスト内で、完全に等間隔で並んだときの間隔が md
です。
md(0)
x
md(1)
V
md(2)
V
md(3)
V
y
d(1)と md の差を計算します。同様に d(2)と md の差を計算します。最初の
d(0)と最後の d(3)を加算し、それと md(1)の差を計算します（ V の全体が左
右に移動しても逸脱度に影響しないためです md: md(1) = md(2) … = md(0)
+ md(n)）。その正規標準偏差（ → 1.1.6）は平均分布からの全体の逸脱度 (0 .0~
1.0)を示します。「線状拡散度」 (L.Disp)はその逆数になるので、 1 からこ
の値を引きます。結果は次のように出力されます。
Lemma
L_C
¡_B
SU_T
COMIDA_S
,_B
SIN_P
ADITIVO_S
!_B
EL_T
DESACONSEJABLE_A
O_C
SUSCEPTIBLE_A
DE_P
PROVOCAR_V
Freq.
F.Rank F.Permil L.Disp. L.D.Rank
1.000
1.000
.074
1.000
10.000
7.000
3.000
.516
.579
6.000
90.000
7.000
6.634
.866
9.000
38.000
6.000
2.801
.559
6.000
925.000 10.000
68.185
.965
10.000
17.000
5.000
1.253
.753
8.000
12.000
4.000
.885
.455
5.000
7.000
3.000
.516
.579
6.000
1148.000 10.000
84.623
.963
10.000
2.000
1.000
.147
.057
1.000
86.000
7.000
6.339
.888
9.000
1.000
1.000
.074
1.000
10.000
623.000 10.000
45.924
.958
10.000
5.000
3.000
.369
.682
7.000
216
Usage U.Rank
1.000
1.000
4.050
2.000
77.902
7.000
21.242
5.000
892.302 10.000
12.808
4.000
5.458
3.000
4.052
2.000
1105.631 10.000
.115
1.000
76.354
7.000
1.000
1.000
596.628 10.000
3.408
2.000
それぞれの単語の頻度数 (Freq.)、頻度数ランク (F.Rank)、線状拡散度 (L.Disp)、
線状拡散度ランク (L.D.Rank)、使用度 (Usage)、使用度ランク (U.Rank)が示
されています。使用度は頻度と線状拡散度を掛け合わせた値です。それぞ
れの値 (n)のランク (Rank: 1, 2, …, 10)は最大値 (m)が 10 となるように最大値
で割って 10 を掛けた結果です。 RndUp は小数点以下の繰り上げをする関
数です。これによってランクは 1 ~ 10 の範囲の整数になります。なお、頻
度の低い語の拡散度はあまり信頼できません。頻度が 1 の語の拡散度は必
ず 1 になります。
Rank
= RndUp (n / m * 10)
U.Rank = 5 の単語について、 F.Rank と L.D.Rank を使って多重条件リスト
を出力すると、頻度と拡散の分布リストが作成できます。
Single Cond. 1
Freq.6
Freq.6
Freq.6
Freq.6
Freq.6
Freq.6
Freq.6
Freq.6
Freq.6
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.5
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
Freq.4
L.Disp.3
822_ENSEÑAR_V
1118_LUEGO_C
1525_LONGITUD_S
2126_ALMOHADA_S
2457_INFLAR_V
2786_POTENCIAL_S
7629_IRA_S
7736_MOLUSCO_S
L.Disp.4
985_EN BUSCA DE_P
1107_MASTICAR_V
1273_EVENTUAL_A
1492_NIEVE_S
1772_REMOTO_A
1846_MACERACIÓN_S
1890_GENITAL_S
1981_LATA_S
2344_DE GOLPE_D
177_ANÓMALO_A
434_AUTOCONTROL_S
504_PESTICIDA_S
607_TENTEMPIÉ_S
755_HORNO_S
756_ATÚN_S
796_A LA PLANCHA_A
865_LIGHT_A
1162_PIMIENTA_S
1183_CORRELACIÓN_S
L.Disp.5
L.Disp.6
L.Disp.7
98_ITU_S
520_TAPIOCA_S
626_MERENDAR_V
632_CENAR_V
1440_BERRO_S
1444_SILVESTRE_A
1731_AVALAR_V
1774_CONSIGO_N
1796_SISTEMA NACIONAL DE SALUD_X
156_REINFECCIÓN_S
1153_MOSTAZA_S
2163_SONAR_V
407_RASGO_S
1190_PROPENSO_A
2316_COMPETER_V
426_SOBRELLEVAR_V 1195_KIWI_S
2834_NOTORIO_A
580_AGUANTAR_V
1227_POPULAR_A
2904_ÉL_P
616_600_T
1339_SUPLEMENTARIO_A3163_SUBIDA_S
979_DESEADO_A
1424_TRIMESTRE_S
3854_IDÓNEO_A
1122_DESCUIDO_S
1474_NEGATIVAMENTE_D
4143_CUANTO_T
1145_AROMA_S
2016_POLEN_S
4257_CUARTO_T
1212_MADURACIÓN_S 2036_A MÁS DE_P
4278_71_T
1225_CURADO_A
2484_HINCAPIÉ_S
4388_VAPOR_S
736_PERDURAR_V
1290_CITADO_A
3404_XX_T
1102_FRASE_S
2014_RINITIS_S
3418_INQUIETAR_V
1164_CONVULSIÓN_S
2210_BUCODENTAL_A 4001_NORMALIZAR_V
1470_VACUNO_A
2827_PROTAGONISTA_S 4442_ADECUACIÓN_S
1824_PRESTIGIO_S
3241_DESCUIDAR_V
4522_SUBSANAR_V
1973_COCINADO_A
3419_COMPULSIVO_A 4688_ALMENDRA_S
1986_TOXIINFECCIÓN_S 3441_AJUSTADO_A
5642_EN MEDIO DE_P
2020_GRACIAS_I
3452_CONO_S
2044_ALIADO_S
3479_MUSLO_S
2931_INTRAMUSCULAR_A
3550_PERTURBAR_V
2956_LÁCTICO_A
3834_TRÁQUEA_S
2990_QUIRÚRGICAMENTE_D
3926_COMENTARIO_S
L.Disp.8
L.Disp.9
3065_PROFUNDIZAR_V 4560_REPERCUTIR_V
4182_250_T
4511_CONTEMPLAR_V
4644_INEFICAZ_A
4418_BONITO_A
6.5. 検定
ここでは、クロス集計の表から関連度を数値化する方法を扱います 32 。次
の表を見て下さい。
and
全体
but
58
so
43
合計
28
129
単純集計表
32
＊参考：池田央． 1976.『統計的方法 I 基礎』新曜社． pp.121-132.
217
and
but
so
合計
文頭
12
7
11
30
文中
46
36
17
99
全体
58
43
28
129
クロス集計表
上の表は 1 つの指標（英語の等位接続詞）について数値（頻度）を表した
ものです。一方、下の表は (1)「英語の等位接続詞」と (2)「出現位置」とい
う 2 つの指標を基に集計したものです。このようなものをクロス集計表と
よびます。ここで問題となるのは、この 2 つの指標はお互いに関連してい
るかどうかということです。具体的に言うと、2 つが関係している場合、
「 (1)英語の等位接続詞の (2)出現位置は単語によって異なる」という結論に
なりますし、関係していない場合、「 (1)英語の等位接続詞の (2)出現位置は
単語に左右されない」（それぞれの現象は「独立」である）ということに
なります。この判定をする手法が、カイ二乗検定です。ここではカイ二乗
検定を理解するために、単純な例として 2-2 の表を用いて説明します。
6.5.1. 検定の方法
なぜカイ二乗検定が必要なのでしょうか。次のようなケースで考えてみま
しょう。ある現象を数えるにあたって、次のように、それが出現した場合
だけを数えるやり方があります。
「方法 A」 … 効果があったケース： 59
「方法 B」 … 効果があったケース： 49
「方法 A」に効果があった場合の数を 59、「方法 B」に効果があった場合
の数を 49 として単純に比較すると、確かに「方法 A」のほうが優れている、
という結論になるかもしれません。しかし、ここで「方法 A」（そして「方
法 B」）に効果があったことを確かめるには、「方法 A」（そして「方法
B」）に効果がなかったケースも調べることが必要です。その結果が次の
表です。
実測値１の結果を見ると、やはり「方法 A」のほうが「方法 B」より優れ
ているように見えますが、仮に次の実測値２ようなケースになったときは
判断が逆転してしまいます。
218
「方法 A」と「方法 B」はどちらも効果がある場合よりも効果がない場合の
方が上回り、それぞれの方法の差は６ですが、「方法 A」の「効果がない」
の数が大きくなっています。
さらに、次の実測値 3 のようなケースがあります。「方法 A」も「方法
B」もどちらも「効果がある」の数が「効果がない」の数よりも上回って
います。両者は「効果がある」と「効果がない」の差は 10 となっています。
はたして「方法 A」が「方法 B」に比べて効果があると言えるのでしょう
か。
これらは単に「効果がある」という肯定的な反応だけを数えていては見つ
からなかった問題を示しています。つまり、方法 A と方法 B の差を考える
には、効果があった場合と効果がなかった場合の両方を考える必要がある
ということです（「方法」と「効果の有無」という 2 つの指標でクロス集
計する必要があるということです）。
それでは実測値 1～ 3 の場合、方法 A と方法 B に差があるといえるのは
どれでしょうか。この数値を統計的に算出するのがカイ二乗検定です。こ
の方法を用いることで、差があるかどうかをはっきりと数値で示すことが
できます。
6.5.2. 期待値を計算する
カイ二乗検定の基になるデータは、(1)実測値と (2)期待値です。以下、例と
して実測値 1 を見ていきましょう 33 。
このデータをグラフにして視覚化しておきます。
33
比率は「効果がある」の値を「効果がない」の値で割った値です。1 よ
り大きいと「効果がある」ほうが多いことを示します。
219
期待値の計算方法に関しては 5 章（→）で見ましたが、ここでは少し違っ
た角度から算出方法を再度考えてみます。説明のために、観測値を次のよ
うによぶことにします。
次の表では各セルに「期待される」得点 (期待得点： expected score)が示さ
れています。期待得点は次のような式で計算されます。
期待値
効果がある
効果がない
方法 A
(a + b)×(a + c)
a+b +c+d
(a + b)×(b + d)
a+b +c+d
方法 B
(c + d)×(a + c)
a+b +c+d
(c + d)×(b + d)
a+b +c+d
たとえば、方法 A の効果がある期待値は、方法 A の総数 (a + b) 94 に「効
果がある」と期待できる率 (a + c) 108、掛けた数値を総数で割った値です。
総数 94 が 108:88 に分割されるときに 108 の側に当然期待できる数値、94 x
(108 / 196)を示します 34 。
34
ここで、これらの期待値のすべてが 5 以上であるかどうかを確かめてお
きます。いずれかが 5 以下だと誤差が大きくてカイ二乗検定には向いてい
220
「方法 A」・「効果がある」の期待得点 94 x 108 / 196 = 51.796
「方法 A」・「効果がない」の期待得点 94 x 88 / 196=42.204
「方法 B」・「効果がある」の期待得点 102 x 108 / 196=56.204
「方法 B」・「効果がない」の期待得点 102 x 88 / 196=45.796
もし実際に観察される値が当然予測される値（期待値）と近いならば、「偶
然でも起こるかもしれない分布」ということになります。逆に、もしそれ
が期待値から大きく外れるならば、観察されたデータは有意味な分布を示
していると考えられます。「偶然ではほとんどあり得ない」と考えるので
す。つまり、カイ二乗検定のポイントは、「実測値と期待値のズレを見る」
というところにあります。
6.5.3. カイ二乗値を求める
期待値と実測値のずれを総合的に判断するため、すべての升目 (a, b, c, d)
における実際の観測値と期待値の「相対的な差」の総和で求めます。相対
化するには、実測値から期待値を引いたものを期待値で割ります。また、
「相対的な差」の合計は、そのままでは 0 になってしまいますので、単純に
期待値からの距離を求めるために二乗しておきます（これがカイ「二乗」
という名前の由来です）。
標準化した値 =
(実測値 ―期待値 ) 2
期待値
このような操作を「標準化」とよびます。データには一定の単位がありま
すが、標準化すると単位がなくなります。単位がなくなると、どのような
データでも統計的に同じ処理ができるようになるのです 35 。次がそれぞれ
の相対的な差です。
ないデータと判断されます。
35
たとえば、データの絶対的な値を 3 メートルだとして、それが全体の 10
メートルの中での割合を見ると、 0.3 という単位（メートル）がなくなっ
た数値になり、この数値は他のケースの割合と同じ尺度で（標準化された
尺度で）比較できます。期待値を使った標準化もそれとよく似ています。
221
これらの値を合計した値が「カイ二乗の統計量」（ χ2）とよばれるもので
す。
χ 2 =1.002 + 1.230 + 0.923 + 1.133 = 4.288
式を一般化しましょう。実測値 a, b, c, d の期待値をそれぞれ、 a', b', c', d'
とし、標準化した値の総和は次のようになります。
χ2 =
(a - a') 2
(b - b') 2
(c - c') 2
(d - d') 2
+
+
+
a'
b'
c'
d'
カイ二乗の統計量は、期待値からのズレ（距離）の総和ということになり
ます。この値が大きいほど、期待値とのズレが大きいということが言えま
す。
6.5.4. 検定の考え方
値や差を推定する統計は確率に基づいています。確率は全くありえない
0％から、絶対そうである 100％までありますが、たとえば方法 A と方法 B
の間に「差が 100％ある」と言い切ることは難しいです。では、どうする
かというと「差がないとは言えない」という消極的な言い方をします。こ
の証明には、100％とは反対の 0％から出発します。つまり、「方法 A と方
法 B には（全く）差がない」という仮説からスタートするのです。この仮
説を帰無仮説 (H 0 )とよびます。無に帰したい（棄却したい）仮説なのでこ
のようによばれます。この逆の「差がある」という仮説を対立仮説 (H 1 )と
よびます。
H0: 方法 A と方法 B には差がない
H1: 方法 A と方法 B には差がある
推測統計が求める確率は H 0 が成立する確率です。たとえば検定の結果、3%
と出れば、これは「方法 A と方法 B には差がない可能性が 3%」というこ
とです。逆に言えば、 97%の確率で H 1 （差がある）が成立します。この場
合、H 1 が成立する可能性がかなり高いですので、H 0 は棄却できることにな
ります。
このように棄却する基準のことを「有意水準」とよびます。一般に 5％
と 1％が用いられます。たとえば「 5％の有意水準で H 0 が棄却できる」と
いう結論は、H 0 の成り立つ確率が 5％以下（ H 1 が成り立つ確率が 95％以上）
ということになります。
222
6.5.5. 検定の評価
カイ二乗統計量は、期待値とのズレであるということを見ました。それで
はこの値がどの程度大きければ差があるといえるのでしょうか。 2-2 の分
割表では次のように決まっています。
有意水準閾値
5%
3.841
1%
6.634
閾値とは、カイ二乗統計量の値がそれ以下であれば成り立たないというこ
とです。あらためて先ほどの値は 4.288 なので、5％の閾値よりも大きいこ
とになります。従って、この結果は「 5％水準で有意な差がある」と解釈で
きます。一方、 1％水準の閾値は 6.634 ですので、この水準では H 0 を棄却
することはできません。
さきほど「 2-2 の分割表では」という但し書きをつけましたが、この点
は重要ですので触れておきます。カイ二乗統計量は期待値からのズレの合
計であるということを見ましたが、マス目が増えれば増えるほど合計の値
が大きくなります。たとえば、 2-2 のマスと 4-4 のマスではマスの数は 4
マスと 16 マスですので、平等に扱うのはおかしいでしょう。つまり、有意
水準の閾値の値も、マス目の数によって大きくなっていくということにな
ります。
この基準は「自由度」 (degree of freedom, df)とよばれます。自由度とい
うのは自由に値を決めることができるマスの数のことです。たとえば、2-2
のマスでは、1 つのマスを決めると、縦と横の合計が同じならば他のすべ
てのマスの値は自動的に決まってしまうので自由度は 1 ということになり
ます。次の表で方法 A の「効果がある」を 10 とすると、方法 A の「効果
がない」は 84、方法 A の「効果がある」は 98、方法 B の「効果がない」
は 4 に決まります。
実測値 1 効果がある
効果がない
方法 A
10
94-10
94
方法 B
108-10
102－(108-10)
102
108
88
196
なお、n-p のクロス集計表の自由度は、(n-1)-(p-1)で求めることができます。
以上のことをまとめて次のように表します 36 。
χ 2 = 4.288 > χ 2 (df: 1, p: 0.05) = 3.841
36
df は自由度 (degree of freedom)、 p は確率 (probability)を示します。
223
これは「カイ二乗統計量は 4.288 で、自由で 1 の場合の 5％有意水準
の 3.841 よりも大きく統計的に有意である」という意味です。
6.5.6. イェイツの補正（ Yates’ correction）
2-2 の数値表ではカイ二乗の統計量が一般に大きくなる傾向があります。
そのため、先の χ2 の代わりに次の式を使って少し補正します。
n
n(|ad - bc| - ) 2
2
χ 2 (Yate's cor.) =
(a+b)(a+c)(c+d)(b+d)
そうすると、イェイツの補正をした結果 χ 2 (Yate’s cor.)は 3.714 となって、
先ほどの値よりも少し小さくなりました。この場合も有意水準 1%で帰無
仮説を棄却できないことになります。このようにイェイツの補正を利用す
ることでより慎重な評価ができます。
● カイ二乗・イェイツの補正・ Phi 係数
イェイツの補正は χ 二乗値の分子から n / 2 を引いた数値になります。この
ことを確かめておきましょう。
はじめに次が実測値です。
O
X(+)
X(-)
和
Y(+)
a
b
a+b =s
Y(-)
c
d
c+d =t
和
a+c=u
b +d=v
a + b + c + d =n
次に a, b, c, d それぞれの χ 二乗値を計算します。
χ 2 (a) = (a – su / n) 2 / (su / n) = [(an – su) 2 / n 2 ][n / su] = (an – su) 2 / nsu
χ 2 (b) = (b – sv / n) 2 / (sv / n) = [(bn – sv) 2 / n 2 ][n / sv] = (bn – sv) 2 / nsv
χ 2 (c) = (c – tu / n) 2 / (tu / n) = [(cn – tu) 2 / n 2 ][n / tu] = (cn – tu) 2 / ntu
χ 2 (d) = (d – tv / n) 2 / (tv / n) = [(dn – tv) 2 / n 2 ][n / tv] = (dn – tv) 2 / ntv
この和が χ 二乗 (χ 2 )です。
χ2
= [ tv(an – su) 2 + tu(bn – sv) 2 + sv(cn – tu) 2 + su(dn – tv) 2 ] / nstuv
= [ tv (a 2 n 2 – 2ansu + s 2 u 2 )
+ tu (b 2 n 2 – 2bnsv + s 2 v 2 )
+ sv (c 2 n 2 -2cntu + t 2 u 2 )
224
+ su (d 2 n 2 – 2dnvt + t 2 v 2 ) ] / nstuv
= (a 2 n 2 tv – 2ansutv + s 2 u 2 tv
+ b 2 n 2 tu – 2bnsvtu + s 2 vtu 2
+ c 2 n 2 sv -2cntusv + t 2 u 2 sv
+ d 2 n 2 su – 2dnvtsu + t 2 v 2 su) / nstuv
縦列で足します。
= [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su)
- 2stuvn (a + b + c + d)
+ stuv (su + sv + tu + tv) ] / nstuv
= [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su)
- 2stuvn 2
+ stuv (s + t)(u + v) ] / nstuv
= [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su) - 2n 2 stuv + n 2 stuv] / nstuv
= n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su - stuv) / nstuv
= n (a 2 tv + b 2 tu + c 2 sv + d 2 su - stuv) / stuv
s = a + b, t = c + d, u = a + c, v = b + d なので
= n [ a 2 (c + d)(b + d)
+ b 2 (c + d)(a + c)
+ c 2 (a + b)(b + d)
+ d 2 (a + b)(a + c)
- (a + b)(c + d)(a + c)(b + d) ] / stuv
= n [a 2 (bc + cd + bd + d 2 )
+ b 2 (ac + c 2 + ad + cd)
+ c 2 (ab + ad + b 2 + bd)
+ d 2 (a 2 + ac + ab + bc)
– (ac + ad + bc + bd)(ab + ad + bc + cd) ] / stuv
= n [ a 2 bc + a 2 cd + a 2 bd + a 2 d 2
+ ab 2 c + b 2 c 2 + ab 2 d + b 2 cd
+ abc 2 + ac 2 d + b 2 c 2 + bc 2 d
+ a 2 d 2 + acd 2 + abd 2 + bcd 2
- a 2 bc - a 2 cd – abc 2 – ac 2 d
- a 2 bd – a 2 d 2 – abcd – acd 2
225
- ab 2 c – abcd – b 2 c 2 – bc 2 d
- ab 2 d – abd 2 – b 2 cd – bcd 2 ] /stuv
= n (a 2 d 2 – 2abcd + b 2 c 2 ) / stuv
= n (ad – bc) 2 / [(a + b)(a + c)(c + d)(b + d)]
この式は先に見た χ 2 (Yate's cor.)とわずかに分子の一部が異なるだけです。
また、この式は先に見た Phi 係数を二乗して n(= a + b + c + d)を掛けた数値
になります。
χ 2 = n Phi 2
● Excel によるカイ二乗検定
それでは Excel でカイ二乗検定を行ってみましょう。カイ二乗検定では
実測値と期待値、そして標準化した値を基にして計算しますので、次のよ
うなカイ二乗検定をするためのシートを作成します。
実測値は横和と縦和の両方を求めておきます。
期待値
「実測値」の和を参照して「期待値」を計算します。 B7 に次の式を書き込
み、全体にコピーします。なお、表示はセルの書式設定から小数点以下 3
位までの設定にしました。
B7=$D2*B$4/$D$4
226
標準化
(1)「実測値」と「期待値」を参照して期待値との差を標準化した各値を計
算します。二乗には ^（キャレット）を使います。次の式を入力し、残りの
セルにコピーします。
B11 =(B2-B7)^2/B7
227
カイ二乗統計量
カイ二乗統計量は標準化した値の合計です。次の式を入力します。
B14＝ sum(B11:C12)=4.288
有意水準・自由度・限界値
Excel には CHIINV という関数が用意されており、
「有意水準」と「自由度」
を基に閾値を算出できます。引数は、CHIINV(確率 ,自由度 )です。ここでは
自由度 1 の場合の 5%と 1%の閾値を求めてみましょう。
B15=CHIINV(0.05,1)
B16=CHIINV(0.01,1)
以上の結果から、カイ二乗統計量は 5%水準の閾値よりも大きく、 1%水準
の閾値よりも小さいので、 5％水準で有意、 1％水準ではそうではないとい
うことがいえます。
Yates の補正
イェイツの補正を求める関数は残念ながら用意されていませんので、数式
を自分で入力します。絶対値に変換するには ABS 関数を利用します。次の
式を入力してみましょう。
228
B17 =(ABS(B2*C3-B3*C2)-D4/2)^2*D4/(B4*C4*D2*D3)=3.714
CHITEST 関数を使う
Excel には CHITEST 関数が用意されており、これを利用すると実測値と期
待値から H 0 が成り立つ確率を直接計算することができます。 CHITEST(実
測値 ,期待値 )という形で使います。
B18 =CHITEST(B2:C3,B7:C8)
この計算の結果、 0.038 と出ます。これは H 0 が成り立つ可能性が 3.8％で
229
あることを示しています。つまり、5％水準では十分に棄却できる値である
ということを示します。
この手法を使うと、標準化の手順が省略できるというメリットと、直接
確率を求めることができるというメリットがあります。先ほどまでの結果
では 5％水準では有意だが 1％水準では違うということでしたが、 3.8％は
ちょうどこの間に入ります。
実測値 2、実測値 3 について
実測値 2 と 3 について同じように計算するにはシートをコピーして実測値
の値を入れ替えればよいでしょう。次のような結果になりました。
230
カイ二乗統計量もイェイツもかなり小さい値になっています。このことか
ら、実測値 2 と 3 では方法 A と方法 B に差があるとは言えません（ H0 を
棄却できません）。
■カイ二乗分布
カイ二乗の「限界値」は「有意水準」と「自由度」によって決まります。
たとえば、自由度 =1、有意水準 =0.05 ならば、限界値は 3.841 になります。
この限界値は非常に複雑な数式によって導かれるもので、これを理解す
ることは私たちの「文系のデータ分析」の範囲を超えていると思います。
次に示すシートは、カイ二乗分布を示す関数を自由度 1, 2, 3 について求め
たものですが、セル [B2]の数式は、次のような関数を使います。このよう
に非常に複雑な式なのです。
B2==$A2^(B$1/2-1)*EXP(-1*$A2/2)/(2^(B$1/2)*EXP(GAMMALN(B$1/2)))
ここで、自由度 (F)=1 の線の 3.841 の値の右側の面積が全体の 5%になるこ
とを示しています。
私たちは実験をすることによってこれを実際に納得することができます。
次は、ランダムに 1000 ほどの偏りのないケースを発生させ、自由度 =1 の
カイ二乗値の頻度を計算した結果です。
231
それぞれ、先に示した理論的に導かれる連続線の形状に近似していること
がわかります。この実験は何度やっても、具体的な数値は変わりますが、
グラフの形はそれぞれ類似しています。
■ブラックボックス・リープ・ディスコネックション
書店には統計学の参考書が多く並んでいます。「 Excel を使ってこのよ
うにすればよい」と説明する手法の本もたくさんあります。実際に手にと
って見ると、簡単に統計処理ができるように書かれていて参考になる本も
ありますが、中には、手法だけを扱って、応用法についての注意などがな
く、数学的な背景については大まかに理解していればよい、という姿勢で
書かれているものも多いようです。
たしかに、書かれてあるとおりのテクニックを使えばそれなりの結果が
出るのですが、どうしてそのような結果が出るのか具体的にわからないこ
とがあります。これでは計算過程がブラックボックスになってしまい、自
分が出した結果を説明できません。
参考書の中には説明が「飛躍している」（リープ）と思われるケースも
あります。これは説明の段落がどのようにつながるのかわからないような
状態です。もしかしたら自分の数学的な知識が不足しているため、リープ
だと勝手に判断しているのかもしれません。
また、説明の中には「～ということが知られている」「～という公式を
使う」というような背景知識に対するリンクになっていることがあります。
しかし、私たちが「知られている」という事実や「公式」に疎いとき、背
景知識とのリンクは切れてしまっています（ディスコネクション）。
このような理論的な理解がない状態で手法だけを応用してしまうと、結
局自分が何をやっているのかわからないのに、自分の名前をつけたレポー
ト・論文・発表を生産してしまうことになりかねません。本人がわかって
いないのに、レポート・論文を読む人や発表を聞く人がいるというのは望
ましくありません。
232
そこで、自分にとって、ブラックボックス、リープ、ディスコネクショ
ンがあると思われる参考書の説明については、ぜひ自分で実際にいろいろ
な実験をして納得がいくまで確かめてください。 Excel はその実験道具と
して役立ちます。そして、実験をしながら感覚的に様子がわかったら、今
度は統計学や数学の本を読んで数式を理解してください。誰でも難しそう
な記号が並んだ数式を目にすると尻込みすることはよくあることですが、
そこでじっくり腰を据えて理解してみると案外身近なものであることはよ
くあることです。理論の理解と実験の順番は逆でも、同時でもよいでしょ
う。机上の書籍と Excel の往復作業です。いずれにしても自分で納得でき
た手法を使うことを勧めます。ちょっと面倒かもしれませんが、努力の結
果自分が納得できる成果を得たとき、その達成感が次のステップにつなが
ります。
233
7. 図表
変数の関係を示す図を描くためのプログラムです。 Excel の標準的なグラ
フにないものをマクロで作成しました。
7.1. 比率棒グラフ
入力データ「評価」は、スペイン語の授業についてのアンケートの結果で
す。たとえば、第 1 行の「文法解説」について、それがスペイン語の学習
上「効果がある」と思う人の総数は 86 名でした（総数 124 名）。また、同
じ項目が「楽しい」と思う人の総数は 29 名であることを示しています。
はじめに複数の棒グラフの間のパーセントの比較をします。
データと結果
項目
a.役立つ b.楽しい
項目
a.役立つ
b.楽しい
A.文法解説
86
29
A.文法解説
0.75
0.25
B.ビデオ
53
78
B.ビデオ
0.40
0.60
C.活動
48
53
C.活動
0.48
0.52
D.映画
43
96
D.映画
0.31
0.69
E.音読
110
42
E.音読
0.72
0.28
F.筆写
93
11
F.筆写
0.89
0.11
G.観察
37
50
G.観察
0.43
0.57
H.小テスト
89
15
H.小テスト
0.86
0.14
＊プログラムははじめに上右の表を作成し、これを参照して次のグラフを
表の上に出力します。グラフをドラッグして他の場所に移動すると、表の
内容を確認することができます。書式を「 0%」にすると次のようにパーセ
ント表示になります。
234
7.2. バブルチャート
データの値をバブルの大きさで表示した散布図を作成します。
はじめに行と列に連番をつけ、これを標準化した値を X と Y の座標として
使います。それぞれの座標に位置するデータの値を第 3 列に用意します。
項目
行
列
値
1
-1.00 -1.53 86.00
2
1.00
3
-1.00 -1.09 53.00
4
1.00
5
-1.00 -0.65 48.00
6
1.00
7
-1.00 -0.22 43.00
8
1.00
9
-1.00 0.22
110.00
10
1.00
0.22
42.00
11
-1.00 0.65
93.00
12
1.00
0.65
11.00
13
-1.00 1.09
37.00
14
1.00
1.09
50.00
15
-1.00 1.53
89.00
16
1.00
15.00
-1.53 29.00
-1.09 78.00
-0.65 53.00
-0.22 96.00
1.53
次にこれを参照してバブルチャートを出力します。
235
＊この図は Excel の「条件付き書式」の「データバー」（下図）とほとん
ど同じ情報を示しますが、列と行の参照値を座標としていることが異なり
ます。 → 『基礎』 p.**.
7.3. ボックスチャート
「 QT ボックスチャート」は最大値、最小値、第 1 四分点、第 3 四分点、中
央値を使ってデータの分布の様子を示します。四分点と中央値については
→『基礎』(p.**)。ボックスチャートはデータの分布の様子（拡がりと中央
値の位置）を観察するときに役立ちます。プログラムはデータ行列から次
の表を作成します。
236
結果
要約値
a.役立つ
b.楽しい
90.00
59.25
最大値
110.00
96.00
最小値
37.00
11.00
第 1 四分位数
46.75
25.50
中央値
69.50
46.00
第 3 四分位数
次にこれを参照してボックスチャートを出力します。
「 SD ボックスチャート」を選択すると要約値として平均と標準偏差 (SD)を
使います。
要約値
a.役立つ
b.楽しい
95.70
74.31
最大値
110.00
96.00
最小値
37.00
11.00
平均 - SD
44.05
19.19
平均
69.88
46.75
平均 + SD
237
7.4. 二変数対比図
棒グラフの一種である対比図は棒が左右に伸びていくので、それぞれの量
を比べながら観察するときに便利です。「最大値」は、セル内の最大値を
超える値で切りのよい数を設定をします。ここではセルの最大値が 110 な
ので、グラフの最大値を 120 とします。
プログラムははじめに次のような行を反転した表を作成します。
項目
a.役立つ
b.楽しい
H.小テスト
89
15
G.観察
37
50
F.筆写
93
11
E.音読
110
42
D.映画
43
96
C.活動
48
53
B.ビデオ
53
78
A.文法解説
86
29
次にこれを参照して次のような二変数対比図を出力します。
238
結果
7.5.
項目散布図
散布図は 2 つの変数をもつデータが 2 次元の平面上にどのような配置され
るのかを見るために使います（ → 『基礎』 p.**）。ここでは散布図の中に
データの項目名を表示する「項目散布図」を作ります。
プログラムははじめにデータ行列から次の表を作成します。
A.文法解説
86
53
48
43
B.ビデオ
C.活動
D.映画
E.音読
F.筆写
G .観察
H.小テスト
29
78
53
96
110
42
93
11
37
50
89
15
プログラムはこの表を参照して次のチャートを出力します。
239
結果
＊この図を見ると、それぞれの項目が「＋楽しい・－役立つ」のグループ
と、「－楽しい・＋役立つ」のグループに分類できることがわかるでしょ
う。
■グラフによる視覚化
データ行列には多くの情報が含まれていますが、縦と横に並んだ数値の連
続のままでは、その情報を読み取ることが困難です。そこで、さまざまな
グラフを使って数値の情報を視覚化します。
先に扱った項目散布図を下に再掲しましょう。ここでは「描画キャンパス」
を使ってそれぞれのグループを ○ で囲ってみました。 → 『基礎』 p.**.
240
8. Excel の操作
＊以下では、 Excel シートに直接関数を書き込むことはしないで、データ
行列全体を選択し、それを対象にして、プログラムを使って、様々な変換
や分析を行います。プログラムは Excel の VBA (Visual Basic for A p p lication)
を使います。
私たちが開発してきた NUMEROS のすべてのプログラムコードを解説す
ることはスペースの関係でできません。また、プログラムは随時改訂して
いるので、バージョンがすぐ古くなってしまいます。一定のコーディング
を習得した後では、全体のプログラムの解説は不要になると思います。そ
こで、★ プログラムでは NUMEROS の主要部だけを取り上げて簡単に説明
します。ここでは、行列を受け取って一定の演算をした行列を返す一連の
関数を「行列関数」とよぶことにします。行列関数の引数は Variant 型の
変数です。
このテキストでは、おもに言語の変化・変異を数量的に分析する方法を
説明しますので、プログラムで用いる様々な関数やコードの規則について
は、自分に適した難易度の本を選択して、各自自習しておいてください。
Excel の Help やウェブで提供されている多くの情報も役立ちます。
8.1. 相関係数
(1) 次のデータを使用します（前節と同じものです）。
鍵語
1 Madrid
2 Sevilla
151
163
con
38
45
de
202
195
en
105
81
por
54
45
a
(2) 次の計算をします。

B7 =SUM(B2:B6)

B8 =AVERAGE(B2:B6)

B9 =STDEVP(B2:B6)
241
(3) B7:B9 をコピーし、 C7 に貼付けます。
(4) D2 に標準得点の式を入れます。
D2 =(B2-B$8)/B$9
(5) D2 を D2:E6 にコピー。桁数が不統一だと比較しにくいので D, E 列の書
式を小数点以下 3 とします。
(6) B7:C9 をコピーして D7 に貼付けます。
これで正しく標準化されたことがわかります。次に、これらの数値をもと
に相関係数を求めてみましょう。まず、それぞれの項目の標準得点の積と
全体の積平均を求めます。
242
F2 = D2*E2
F2 を (F3:F6)にコピー
(B7:B8)を (F7:F8)にコピー
これで標準得点をもとに相関係数を求めることができました。
結果を確認するために、 Excel 関数を使って相関係数を算出し比較してみ
ましょう。 Excel には COREEL という関数が用意されており、対象となる
2 つのデータをコンマ区切りで選択します。
B10 =CORREL(B2:B6,C2:C6)
F8 と B10 の値が同じになることを確認しましょう。
<Tips> それぞれの特徴を見るために値を操作するのに「スピンボタン」を
使うと便利です。
(1) はじめにリボンに「開発」タブを設定します。 ◆ 「ファイル」 → 「オ
プション」→「リボンのユーザー設定」→ ]を選択し、「リボンのユーザー
243
設定」で「メインタブ」の「開発」のチェックボックスをオンにします。
Excel 2007：「 Office ボタン」 → 「 Excel のオプション」 → 「基本設定」 →
「 [開発 ]タブをリボンに表示する」をチェック
(2)「開発」 → 「コントロール」 → 「挿入」 → 「フォームコントロール」の
中のスピンボタンをクリック→シート内の適当な位置にドラッグして配置
します。
(3) シートに配置したスピボタンを右クリック → 「コントロールの書式設
定」
244
(4) 「コントロール」タブ → 「最小値」「最大値」「変化の増分」「リン
クするセル」を設定します。「リンクするセル」にスピンボタンによる入
力の結果が表示されます。
(5) スピンボタンなどのコントロールは右クリックすることにより、大き
さの変更、ドラッグ、コピー、などが可能になります。
スピンボタンは便利なのですが、たとえば 1 から 100 まで移動するときは
大変です。スピンボタンをつけたらそれでしか値が操作できなくなるとい
うわけではなく、直接セルに 100 と記入することもできます。
8.2. 類似係数
類似係数を使ってデータを比較するにはまず量的なデータを質的なデータ
に変換する必要があります。これには IF 関数を使えば便利です。例として
次のデータを使用します。
245
(1) はじめに、量的データの質化の基準を設定します。
A17 を質的データに変換するための基準値とします。この値よりも大きい
場合、「 1」に変換するというルールにします。 0 よりも大きいときに変換
する場合は F17=0 と記入しておきます。
(2) IF 関数を使って量的データ (B2)を質的データ (E2)に変換します。
E2=IF(B2>$F$17, 1, 0) 37
この式の意味は、E2 が基準値の値 (0)よりも大きい場合は、1 をそれ以
外は 0 を返す、ということです。
(3) E2 を E2:F16 にコピーします。これで 0 より大きい値を 1 と表示するこ
とができました。
次に、さきほどの変換の結果を基に、共通して使われているもの、一方だ
け使われているもの、どちらも使われていないものを集計しましょう。
37
ここでは基準値を動かすことができるように $F$17 としましたが、下記
のように $F$17 を使用しなくても同じ結果を得ることができます。
E2=IF(B2>0, 1, 0)
246
(5) はじめに E2 と F2 を対象としてデータを入力します。
H2 =IF(AND($E2=1, $F2=1), 1, 0)
この式の意味は、 E2（手紙）と F2（演劇）が共に 1 の場合、 1 を返し、そ
れ以外は 0 にする、ということです。AND を使って複数の条件を指定して
いることに注意してください。
H2 を I2:K2 にコピーして、一部を次のように修正します。
I2=IF(AND($E2=1, $F2=0), 1, 0)
J2=IF(AND($E2=0, $F2=1), 1, 0)
K2 IF(AND($E2=0, $F2=0), 1, 0)
(6) H2:K2 を H2:K16 にコピーします。
(7) G17 を書き込み、 SUM で H17:K17 を計算します。
H17 =SUM(H2:H16)
H17 を I17:K17 にコピーします。 I17 =SUM(I2:I16)
J17 =SUM(J2:J16)
K17 =SUM(K2:K16)
最終的には次のような値になります。
これで四象限での集計が完了です。
247
各種の類似係数
それでは各種の類似係数を計算してみましょう。
M19:M27 でそれぞれの係数を求めます。
(1) 共起回数： M19=H17
(2) Simple match 係数： M20=(H17+K17)/(H17+I17+J17+K17)
(3) Russel and Rao 係数： M21=H17/(H17+I17+J17+K17)
(4) Jaccard 係数： M22=H17/(H17+I17+J17)
(5) Yule 係数： M23=((H17*K17)-(I17*J17))/((H17*K17)+(I17*J17))
(6) Hamann 係数： M24=((H17+K17)-(I17+J17))/((H17+K17)+(I17+J17))
(7) Phi 係数：
M25=((H17*K17)-(I17*J17))
/SQRT((H17+I17)*(H17+J17)*(I17+K17)*(J17+K17))
(8) Ochiai 係数： M26=H17/SQRT((H17+I17)*(H17+J17))
(9) Prominence 係数： M27=(H17/(H17+I17)+H17/(H17+J17))/2
(10) Preference 係数： M30=(2*H17-I17-J17)/(2*H17+I17+J17)
8.3. マクロプログラム
Excel VBA によるマクロプログラム (NUMEROS.xlsm)を使って言語資料
の分析をします。そのときに用いる簡単な統計の概念についても説明しま
す。ここで扱う統計的手法の多くは一般の参考書（→参考書）で説明され
ているものですが、一部は私たちが提案する手法や計算法も含めます。
248
Excel ファイル NUMEROS.xlsm は Excel2010 で動作します。起動時にマ
クロを有効にしてください。
すべての演算の対象は次のような行列です。シート内の一定の範囲に展
開されているデータは条件として次のような構成にしなければなりません。
A
L1
L2
L3
L4
L5
w1
10
19
14
7
12
w2
11
7
10
0
1
w3
0
0
1
12
1
w4
0
1
2
3
3
この行列は「タイトルセル」 (A), 「タイトル行」 (L1, L2, …, L5),「タイ
トル列」(w1, w2, w3, w4),「データ」(10, 19, …, 3, 3)という構成になります。
この行列を「データ行列」 D np とよびます。 D n p (1,1)=10, D n p (1,2)=19, とい
う行列です。タイトルセルは D n p (0,0)に、タイトル行は D np (0,1), D np (0, 2), …
に、タイトル列は D n p (1, 0), D n p (2,0), …に格納されます。
シート内の上のようなデータの一部のセルを選択し、 NUMEROS の「入
力 1」ボタンを押すと、その行列全体が選択されます。その後、この行列
から離れたセルをクリックし、「出力」ボタンを押すと、選択されたセル
が出力の開始セルになります。ここが出力領域の上・左端になります。こ
のテキストで説明したさまざまな数値データ処理のメニューはタブを開い
て、選択してください。「始」以外のタブを開くと、「実行」ボタンがク
リックできる状態になります。
249
次が「行列入力」のコードの主要部です。これを適当なコマンドボタン
と連結させます。
Sub MATRIX_INPUT() '● 行列入力 ()
Inp = Selection: N = Ur(Inp ) - 1: P = Uc(I n p ) - 1
ReDim G n p (N, P)
For i = 0 To N: For j = 0 To P
D n p (i, j) = I n p (i + 1, j + 1) '入力行列
Next: Next
I n p =D n p
End Sub
Function Ur(Fnp): Ur = UBound(Fnp, 1): End Function ' 行数
Function Uc(Fnp): Uc = UBound(Fnp, 2): End Function ' 列数
バリアント型変数 Inp に選択範囲 (Selection)の内容を代入し、 N を行数、
P を列数とします。 Ur と Uc はそれぞれ行列の行数と列数を返すユーザー
定義関数です (Function … End Function)。 Ubound(*, *)は Excel 関数です。
概説書やウェブで確認してください。Inp にはシートに選択された内容が、
そのまま格納されてるので、Inp(1,1)="O.S"になります。行についても列に
ついても、番地を 1 つずつ減らして移動したものが Dnp です。 For … Next
を 0 から N, 0 から P まで繰り返して移動します。その結果 Dnp(0,0)="O.S.",
Dnp(1,1)=10, …, Dnp(4,5)=3 になります。この Dnp を改めて Inp に代入しま
す。この Inp が新たな入力行列になります。これに、以下で説明する一定
の処理をして、できあがった行列を次の「行列出力」に渡します。ユーザ
ーは、適当なコマンドボタンと連結した次の「出力位置」を実行しておき、
出力位置の情報を確保しておきます。
Sub OUTPUT_POSITION() '● 出力位置
OpSheet% = ActiveSheet.Index '出力シート番号
OpPosition$ = ActiveCell.Address(bF, bF) ' 出力位置のアドレス
OpRowNum& = ActiveCell.Row '出力位置の行番号
OpColNum& = ActiveCe ll.Column '出力位置の列番号
End Sub
これらを、「入力」「出力」ボタンに連動させます。
次が行列出力の主要部です。
250
Sub MATRIX_OUTPUT(Fnp, F1&, F2&) '● 行列出力
Sheets(OpSheet%).Select '出力シートを選択
Cells(OpRowNum&, OpColNum&).Offset(F1, F2).Select ' 出力セルを選択
Selection.Resize(Ur(Fnp) + 1, Uc(Fnp) + 1).Selec t '拡大リサイズ
Selection = Fnp '行列を代入
End Sub
「出力位置」で得た出力シート番号で出力シートを選択し、出力位置の
セルを選択し、F1, F2 で位置を移動し（複数の出力がある処理のためです）、
さらに、行列の行数と列数にそれぞれ 1 を加えた数だけ拡大リサイズした
選択位置に行列 Fnp を代入します。これで指定されたシート位置に行列が
出力されます。
これを、たとえば、次のように出力部から呼び出します。
Sub MATRIX()
Dim Xnp, Ynp: Xnp = Inp : Ynp = Dnp
Select Case fN.lstMat.ListIndex + 1 'ListBox
Case 1: Onp = Uv(fN.cboScalar1)
'0. 単位ベクトル _Uv
Case 2: Onp = Um(fN.cboScalar1)
'1. 単位行列 _Um
‘…
End Select
Call MATRIX_OUTPUT(Onp, 0, 0)
End Sub
ExcelVBA のプログラミングについては多くの書籍が出版されています。
また、ウェブサイトでも情報がたくさん得られます。以下では、
NUMEROS.xlsm の主要部のコードについて解説します。コード全体につい
ては VBA Editor を開いてください。
251
9. 参考書
基礎
池田央 (1976)『統計的方法 I 基礎』新曜社（記述統計について数理と具体
例で納得できる説明がなされています。）
石村貞夫 (1995)『グラフ統計のはなし』東京図書（やさしく説明してある
のでクラスター分析がどのようなものかがわかります。）
芝祐順・渡部洋・石塚智一 (1984)『統計用語辞典』新曜社 (一般的な統計学
の用語と英語を知るのに便利です。参考書目も充実しています。)
東京大学教養学部統計学教室 (1991)『統計学入門』（東京大学出版会） (理
論をしっかりと理解するために役立つ入門書です。)
渡辺美智子・神田智弘 (2008)『統計データ分析』秀和システム（ Excel を使
った記述統計学の分析法を具体的に説明しています。）
応用・開発
足立堅一 (2005)『多変数解析入門：線形代数から多変数解析へ』篠原出版
新社．（多変数解析に向けて線形代数の基本を語りかけるような文体
で丁寧に説明されています。）
Anderberg, Michael R. (1973) Cluster analysis for a p p lications. New York,
Academic Press. 西田英朗・佐藤嗣二他訳『クラスター分析とその応用』
内田老鶴圃 (1988).
（クラスター分析を知るための古典的な図書です。）
Ávila, R. Samper, J. A. y Ueda, H. (2003) Pautas y pistas en el análisis del
léxico hispano(americano). Iberoamericana Vervuert, 278 p p .（ Ueda は言語
統計分析の方法をスペイン語の語彙バリエーションの研究に応用しま
した。）
Bertin, Jacques. (1977) La graphique et le traitement graphique de l'information.
Paris: Flammarion. 森田喬訳『図の記号学』平凡社 , 1982. （ここで取
り上げた集中分析に類似したことを手作業で実行しています。）
Cahuzac, Phili p p e. (1980) "La D/isión del español de América en zonas
dialectales: Solución etnolingüística o semántico-dialectal." Lingüística
Española Actual, 10.（集中分析で資料を引用しました。）
Hartigan, J. A. (1975) Clustering Algorithms. New York. John Wiley & Sons.
Horst, Paul. (1965) Factor Analysis of Data Matrices. Holt, Rinehart and
Winston. 柏木繁男・芝祐順・池田央・柳井晴夫訳『コンピュータによ
る因子分析法』科学技術出版社 , 1978.（かなり難解です。）
井上勝雄 (1998)『パソコンで学ぶ多変数解析の考え方』筑波出版会（説明
がやさしくわかりやすいです。数量化 Ⅲ 類・対応分析のプログラムを
252
参考にしました。）
井上勝雄・広川美津雄 (2000)『エクセルで学ぶ多変数解析の作り方』筑波
出版会（ Excel VBA のプログラミング法の具体的な説明があります。）
石井俊全 (2014)『意味がわかる多変数解析』ベレ出版（数理の証明がわか
りやすく納得できます。）
岩崎学・吉田清隆 (2006)『統計的データ解析入門
線形代数』東京図書（線
形代数のエッセンスを簡潔に説明しています。）
加藤直樹・羽室行信 (2008)『データマイニングとその応用』朝倉書店（さ
らに高度な発展学習のための出発点です。）
河口至商 (1978)『多変数解析入門 I, II』森北出版 (類似係数行列の説明が参
考になります。)
小林竜一 (1967)『社会科学のための数学概説』共立出版 (私が 1 年生のとき
の数学の教科書でした。今でも参照しています。)
三野大來 (2001)『統計解析のための線形代数』共立出版（多変数解析にと
って重要な行列演算が簡潔にわかりやすく説明されています。）
奥村晴彦 (1986)『パソコンによるデータ解析入門．数理とプログラミング
実習』技術評論社 .（ BASIC 言語によるプログラムがあります。クラス
タリングとデンドログラムのマクロはこのプログラムを参考にしまし
た。）
Rosemburg, Ch. H.
(1989) Cluster analysis for researchers. Robert E. Krieger
Publishing Company, Inc. Malabar, Florida. 西田英朗・佐藤嗣二訳『実
例クラスター分析』内田老鶴圃 (1992).
芝祐順 (1975)『行動科学における相関分析法』東京大学出版会．（さまざ
まな相関分析法が簡潔に説明されています。巻末の FORTRAN プログ
ラムが参考になります。）
白井豊 (2009)『 Excel と VBA による実用数値解析入門』ゆたか創造舎．（固
有値と重回帰分析のプログラムを参考にしました。）
高村大也 (2010)『言語処理のための機械学習入門』コロナ社．（数式の意
味が例題の具体例でわかるように工夫されています。）
高橋信 (2005)『 Excel で学ぶコレスポンデンス分析』オーム社．（対応分析
の手順が具体的にわかりやすく説明されています。このテキストのプ
ログラムを作成するときに N>P の条件を統一しながら参考にしまし
た。）
竹内啓・柳井晴夫 (1972)『多変数解析の基礎』東洋経済新報社（ Horst では
わかりにくい Varimax 法の理論を詳しく論じています。）
縄田和満 (1999)『 Excel による線形代数入門』朝倉書店（ Excel の操作を通
して数理と具体的な方法が学べます。）
253
長谷川勝也 (2001)『はじめての行列とベクトル』技術評論社 (高校で数学 III
を履修していない人ははじめてに読んでおくとよいでしょう。)
安田三郎・海野道朗 (1977)『社会統計学』（改訂 2 版）丸善（クラスター
分析がわかりやすく具体的に解説されています。）
＊はじめて行列とベクトルについて勉強する人は、長谷川 (2001) → 縄田
(1999)→ 三野 (2001)→ 芝 (1975)→ 白井 (2009)の順で読み進めるとよいでしょ
う。
254

Download Report