遺伝統計学における 正単体の活用

遺伝統計学における
正単体の活用
KBS
2012/10/09
京大(医)統計遺伝学
山田 亮
今日の内容
• 正単体とは
• 正単体の利用例x3
– 2値型多型が作る組合せアレル(ハプロタイプ)
• 集団遺伝学・進化学
– 多次元分割表
• 代数統計
– 木型グラフの次元縮約
• グラフ理論
正単体
正単体のおもな特徴
• N次元空間にN+1個の頂点
• すべての頂点は相互に対等
– 1頂点ベクトルは残りの頂点ベクトルの和と相殺
する
• 角はcos(t) = -1/N
正単体の利用例x3
• 2値型多型が作る組合せアレル(ハプロタイ
プ)
• 多次元分割表
• 木型グラフの次元縮約
2値型多型が作る組合せアレル
(ハプロタイプ)
• DNA
• 塩基
• 4種類 A T G C
T
A
G
C
2値型多型が作る組合せアレル
(ハプロタイプ)
•
•
•
•
•
塩基
4種類 A T G C
多型
1塩基多型(SNP)
2種類の塩基
– (T/C),…
2値型多型が作る組合せアレル
(ハプロタイプ)
• 2SNPが作る組合せアレル(ハプロタイプ)
aB
AB
Ab
A
B
a
b
ab
4ハプロタイプの関係
A
B
a
b
A
b
a
B
4ハプロタイプの関係
A
B
a
b
A
b
a
B
AB
aB
Ab
ab
4ハプロタイプの関係
• 交叉・組換えが起きなければ
– (AB ab) だけのまま
• (AB,Ab,aB,ab)の4ハプロタイプの相互関係は
完全に対等ではない
V1
V1
V1
E5
E1
E5
E1
E3
V2
E3
E1
V4 V2
E4
E5
E3 E4
E6
E2
E2
V2
E6
E2
E4
V3
V3
E6
AB
AB
ab
Ab
V3
ab
Ab
aB
AB
ab
aB aB
V4
Ab
2SNP 4ハプロタイプの世界
~集団遺伝学~
• 4ハプロタイプの頻度
• H=(h(AB),h(Ab),h(aB),h(ab))
• Hの頻度の状態は四面体上
の1点に対応づけられる
• Hは進化・人類史において変
化(突然変異・適応・淘汰・
組換え)するので、四面体上
の動きとして表現される
– 頂点:遺伝的多様性がない
– 重心:遺伝的に最も多様
– 実際の位置:相対的な『辺境』
• k個のSNP: 2k 個の頂点を持
つ正単体
AB
aB
Ab
ab
たくさんの多型
2k個の頂点を持つ正単体
正単体の利用例x3
• 2値型多型が作る組合せアレル(ハプロタイ
プ)
• 多次元分割表
• 木型グラフの次元縮約
非負の空間
• N次元デカルト座標の「部分」
– (10,30,25) というデータに(10,30,25)という座標を
与える
– (10,30,26) というデータに(10,30,26)という座標を
与える
カテゴリ
• 『全部を併せて、T個』という制約
3次元空間にある
頂点数が3の正単体
(T,0,0)
(0,0,T)
(0,T,0)
この正単体は
2次元平面上にある
自由度のこと
• N-カテゴリ
→
N次元空間(非負部分)
• 「N個の値の和」という制約を与える
• N-カテゴリ
• N個の値のベクトル
• 次元を1つ落とす
→
→
N-1 正単体
N-1次元の点
(T,0,0)
(0,0,T)
(0,T,0)
x
x
1
3
(1,0,0)
,0
𝑥=
1
3
z
(0,0,1)
1
3
(0,1,0)
y
1
rotation
y
x
x
1
3
,0
𝑥=
(1,0,0)
1
3
z
(0,0,1)
1
3
(0,1,0)
y
1
rotation
y
Parallel to yz-plane
正単体とカテゴリ
•
•
•
•
Nカテゴリ
総数の制約があると
N次元空間上のN-1次元亜空間に納まる
回転すると 1 次元分は定数のN-1次元空間にN個の
頂点を持つ正単体の頂点座標ベクトルに対応づけ
られる
rotation
分割表
• N x M 分割表
– 2次元分割表
– N-カテゴリ
– M-カテゴリ
N x M 分割表
まったく制約がない場合
• N x M個の値に応じて(v(1),v(2),…,v(NxM))とい
う座標を対応づける
(N x M) x (N x M)
N x M 分割表
まったく制約がない場合
• N x M個の値に応じて(v(1),v(2),…,v(NxM))とい
う座標を対応づける
• Nカテゴリ・Mカテゴリに制約がないとき(回転
前)の正単体頂点座標
MxM
NxN
<組み合わせる>
NxN
MxM
<組み合わせる>
(N x M) x (N x M)
x
x
N x M 分割表
z
y
• N次元制約空間(正単体) x M次元制約空間
(正単体)
• 座標の表現
<組み合わせる>
→
rotation
rotation
<組み合わせる>
→
y
正単体の座標を都合よく決
めれば決まる
<組み合わせる>
→
rotation
rotation
<組み合わせる>
→
正単体の座標を都合よく決
めれば決まる
<組み合わせる>
クロネッカー積
→
rotation
rotation
<組み合わせる>
→
正単体の座標を都合よく決
めれば決まる
𝑗=1
𝑎𝑗𝑘 =
1
𝑛
𝑗>1
𝑎𝑗𝑘 = 0
𝑎𝑗𝑘 =
𝑎𝑗𝑘 = −
(𝑤ℎ𝑒𝑛 𝑘 ≦ 𝑗 − 2)
𝑛−𝑗+1
𝑛−𝑗+2
(𝑤ℎ𝑒𝑛 𝑘 = 𝑗 − 1)
1
𝑛−𝑗+1 𝑛−𝑗+2
(𝑤ℎ𝑒𝑛 𝑘 ≧ 𝑗)
多次元分割表に一般化
10
17
13
11
14
12
dimension
(k=) 2
(k=) 3
shape
2×3
2×3×4
shape vector
2
𝒓=
3
2
𝒓= 3
4
The number
of the cells
R= 6
R= 24
multi-way table
(k-dimensional table)
𝒓=
𝑟1
𝑟2
⋮
𝑟𝑘
R=
𝑘
𝑖=1
𝑟𝑖
多次元化
正単体の座標を都合よく決
めれば決まる
クロネッカー積
𝑋 = 𝑋𝑘 ⊗𝑋𝑘−1 ⊗ ⋯ ⋯ ⊗𝑋1
(⊗ is the Kronecker product)
X is 𝑅 =
𝑟𝑙 × 𝑅 matrix
利用
• 複数の遺伝的座位
• 複数の表現型
• 因子が寄与するモデルの設定
• 解析を幾何学的に取り扱うのが容易になる
Lectures on Algebraic Statics
ISBN-13: 978-3764389048
正単体の利用例x3
• 2値型多型が作る組合せアレル(ハプロタイ
プ)
• 多次元分割表
• 木型グラフの次元縮約
最小全域木を用いた
経路型データの線形空間化
経路型データ
• 例
– 個体の細胞の発生・分化
• 分岐木状
– 特に標本量が多い例として
• リンパ球の分化
経路型データ
• 発生・分化の段階に連れて、遺伝子発現パターンが
変化する
• マーカーは出現しては、消え、再出現したりする
(1,0,0) -> (1,0,0) -> (1,1,0) -> (1,1,1) -> (0,1,1) -> (0,1,0)
経路型データ
(1,0,0) -> (1,0,0) -> (1,1,0) -> (1,1,1) -> (0,1,1) -> (0,1,0)
フローサイトメトリー
(FACS: Fluorescence-activated cell sorting)
11 分子
10万個の細胞
発現量測定(蛍光)
300 人分
特徴付け
割合推定
http://en.wikipedia.org/wiki/Fluorescence-activated_cell_sorting
CD27
実験室では・・・目で見ながら『選んでいく』
Plasma cell?
CD138
木にしてみよう
木にしてみよう
• 最小全域木
観測点が作る多様体(様)
最小全域木で代用してみよう
Minimum spanning tree
全域木(すべてのノー
ドが連結であって、
『木』の形)
「辺の長さの和が最
小」であるもの
CD138
CD27
特定の分子の
多寡で色をつ
ければ…
CD138
CD27
特定の分子の
多寡で色をつ
ければ…
(1,0,0) -> (1,0,0) -> (1,1,0)
-> (1,1,1) -> (0,1,1) ->
(0,1,0)
経路型データ
• 木になぞらえるのは悪くない
経路型データ
• 木になぞらえるのは悪くない
• 木
– ノード(標本)の数(N) と
– N-1本のエッジの引き具合と
– その長さ
経路型データ
• 木になぞらえるのは悪くない
• 木
– ノード(標本)の数(N) と
– N-1本のエッジの引き具合と
– その長さ
• ずいぶんと情報が少なくできた
経路型データ
• 木になぞらえるのは悪くない
• 木
– ノード(標本)の数(N) と
– N-1本のエッジの引き具合と
– その長さ
• ずいぶんと情報が少なくできた
• 少なくした情報で、無理やりに絵にすれば・・・
– グラフ・レイアウト問題
• 高次元データの2次元平面への実現方法
このカーブは『グラフ・
レイアウト』アルゴリズ
ムの産物であって、
「木」の情報にはない
このカーブは『グラフ・
レイアウト』アルゴリズ
ムの産物であって、
「木」の情報にはない
木の情報だけを使うと・・・?
ノード(標本)の数(N) と
N-1本のエッジの引き具合と
その長さ
木
• 次元
• ノードの位置
木の情報だけを使うと・・・?
ノード(標本)の数(N) と
N-1本のエッジの引き具合と
その長さ
木の次元数
木の次元数
• 辺の数が1(次数が1)のノードが加わっても、
配置空間の次元は上がらない
木の次元数
• 辺の数が2(次数が2)のノードが加わっても、
配置空間の次元は上がらない
木の次元数
• 辺の数が3(次数が3)のノードが加わると次
元が1上がる
木の次元数
• 辺の数がk>=3(次数がk)のノードが加わると
次元がk-2上がる
木の次元数
どれも正単体
• 辺の数がk>=3(次数がk)のノードが加わると
次元がk-2上がる
ノードの座標
木の情報だけを使うと・・・?
ノード(標本)の数(N) と
N-1本のエッジの引き具合と
その長さ
• エッジの長さを加味すれば、「木の情報のみ」
でノードの座標が確定する
ノードの座標
木の情報だけを使うと・・・?
ノード(標本)の数(N) と
N-1本のエッジの引き具合と
その長さ
• エッジの長さを加味すれば、「木の情報のみ」
でノードの座標が確定する
• その座標は、
その座標は、
• 『経路』に沿った距離
を反映
• よけいな『のたくり』は
排除されている
その座標は、
• 『経路』に沿った距離
を反映
• よけいな『のたくり』は
排除されている
エッジが『生える』角度
は「正単体」が決めて
いるから
可能な限り『まっすぐ』
に伸びている
まっすぐになった
まっすぐ(線形)なことは
やはり、なにかにつけて便利
多様体学習の一種
• 非線形で次元縮約
今日の内容は・・・
• 正単体とは
• 正単体の利用例x3
– 2値型多型が作る組合せアレル(ハプロタイプ)
• 集団遺伝学・進化学
– 多次元分割表
• 代数統計
– 木型グラフの次元縮約
• グラフ理論
経路型のデータ