適応進化遺伝学2015確定版 - 人類進化システム分野

東京大学
大学院新領域創成科学研究科
先端生命科学専攻
2015 年度 A1/A2/W ターム
適応進化遺伝学
11 月 17 日(火) 第 2-5 限 10:25~18:35
11 月 18 日(水) 第 2-5 限 10:25~18:35
11 月 19 日(木) 第 2-4 限 10:25~16:40
新領域生命棟講義室
講師 河村正二
適応進化遺伝学
2015 年度 A1/A2/W ターム
11 月 17 日(火) 第 2-5 限
10:25~18:35
11 月 18 日(水) 第 2-5 限
10:25~18:35
11 月 19 日(木) 第 2-4 限
10:25~16:40
新領域生命棟講義室
講師
河村正二
講義日程
11 月 17 日
11 月 18 日
11 月 19 日
ページ
第 1 章 進化遺伝学序論
1
第 2 章 集団遺伝学 I(遺伝的変異と自然選択)
9
第 3 章 集団遺伝学 II(遺伝的浮動)
19
(52 ページ第 4 章 4.1 まで)
第 4 章 集団遺伝学 III(塩基配列の集団データ)
48
(53 ページ第 4 章 4.2 から)
第 5 章 分子進化学 I(塩基置換)
89
第 6 章 分子進化学 II(系統樹)
93
第 7 章 中立説
107
第 8 章 適応進化
113
第 9 章 進化遺伝学の今後
132
参考図書

A Primer of Population Genetics, 3rd ed., D.L. Hartl, Sinauer Publishers (2000)

Principle of Population Genetics, 4th ed., D.L. Hartl and A.G. Clark, Sinauer Publishers (2007)

Molecular Evolution and Phylogenetics, M. Nei and S. Kumar, Oxford University Press (2000)

Fundamentals of Molecular Evolution, 2nd ed., D. Graur and W.-H. Li, Sinauer Publishers (2000)

分子進化遺伝学、根井正利(五條堀孝・斎藤成也訳)
、培風館 (1990)

分子進化の中立説、木村資生(向井輝美・日下部真一訳)、紀伊国屋書店 (1986)

生物進化を考える、木村資生、岩波新書 (1988)

種の起源(上)(下)、ダーウィン(八杉龍一訳)、岩波文庫 (1990)
第1章
進化遺伝学序論
進化遺伝学及び本講義の目的
進化遺伝学(evolutionary genetics)とは種内の遺伝的多様性を定量・解析する集団遺伝学(population
genetics)と種間の遺伝的相違性を定量・解析する分子進化学(molecular evolution)の総称である。遺伝物質
(DNA)の変異(mutation)という観点から生物種内及び種間の変異性がどのようにして産み出されるのか(進
化の機構)
、そして種内や種間の系統関係はどのようにしたら明らかにできるか(進化の歴史)を研究するこ
とが進化遺伝学の目的である。本講義はその基本的な知の体系を解説しそれに基づきどのようにしたら適応
的進化を同定・検出することができるかを解説することを目的とする。
1.1. 「進化」とは
「進化」とは何?
現在いる生物種が過去の別の生物種に由来していること。
その特徴は
類縁関係(系統関係)の存在
⇨現在あるすべての生物種は様々な程度で共通の祖先種から由来している。
生息環境への多様な適応
⇨Charles Darwin 「種の起源」1859
本当の題:「自然選択、すなわち生存闘争において有利な品種が保存されることによる種の起源について」
(On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for
Life)
現在の生物が過去の生物種の変化により生じたことを示し、さらにその適応現象を説明する機構として自然
選択(自然淘汰とも訳す) (natural selection) の概念を初めて展開
「進化論」以前の生物の起源の説明
神による個々の生物の創造(創造説、Creationism)
(聖書の創世記:1 万年前に 6 日間で神が宇宙と地球と生物を創った)
未だに社会的政治的勢力をもつ
「進化」は常識?真実?仮説?科学?
進化は未だに万人の常識ではない。また、直接確かめることができないため真実とは言いきれない。
しかし進化は単なる仮説ではない。幾多の実験・観察結果に基づく検証・反証可能な諸理論により構築
されてきた“科学的真実”である。だから勉強しないとよく理解されず、勉強はときに宗教的信念に阻ま
れ、なかなか一般常識にならない。
1
1.2. 進化の証拠(あるいは進化から想定できること)
(1) 過去の生物の遺体である化石
人類の記録時代以前の長大な時間の存在とその中の生物の存在
生物の地層編年による時代変化(過去から次第に変化し現在に至る道筋)
現生生物の間の中間型の存在
(2) 様々な共有形質による様々な程度の類縁関係の存在(分類の自然的体系)
群が群に属する体系(種/属/科/目/綱/門/界)
(3) 生物の地理的分布と類縁度の相関
違う物理的条件(気候等)下での同じ大陸中の生物の類縁性
類似な物理的条件下での違う大陸の生物の非類縁性
生物の類縁性の地理的連続/不連続性と過去の気候変化/陸地準位等の変化との整合性
(4) 形態、生理、発生、行動等にみられる生物間の連続パターン
脊椎動物の初期胚の発生にあらわれる類似性
ヒトの脳の辺縁系と他の脊椎動物の脳構造の対応
(5) 遺伝物質 DNA の配列類似度と分類学的類縁度の比例関係
(6) pseudogene あるいは dead gene の種間での共有
(7) 進化機構の基本要素である DNA の突然変異、自然選択、遺伝的浮動の存在はそれぞれ検証できる
(8) DNA の人為的突然変異によって進化そのものをある程度実験室で再現することが可能
1.3. 進化学の概観 I
進化過程 = 世代を重ねた遺伝的変異の蓄積
生殖細胞の DNA に生じた変化のみが次世代に伝達可能であり、進化へ貢献
→ 遺伝しない一代限りの形質と区別
⇨生命の歴史全体を通した巨大な進化的変化と現存する莫大な生物多様性の源泉
古典的進化学:
(1) 進化の歴史の解明(正確な系統樹の復元) ⇨ 古生物学、比較発生学、分類学
種間関係を対象
長期の進化
問題点:化石記録の不完全さ、複雑な形態/生理学的諸特徴の解釈の曖昧さ
⇨進化系統樹の詳細はしばしば不合意
(2) 進化の機構の解明(変異遺伝子の集団での拡散/消滅の数理論) ⇨ 集団遺伝学
種内変異を対象
短期の進化 (長期は短期の連続過程)
基本プロセス:突然変異遺伝子の出現→集団への拡散→固定(頻度 100%)
集団への拡散機構として自然選択を数理論化
2
遺伝的浮動という chance effect の重要性の発見
集団サイズ、環境変化、生活環戦略、異種間相互作用、近縁・群淘汰等の役割の理解
問題点:現実データの不足
1.4. 進化学の概観 II
分子生物学の貢献
(1) DNA やアミノ酸配列として遺伝情報を直接容易大量に抽出可能にした
⇨「分子進化時計」の発見
⇨種間関係の精密な解析(進化の歴史の解明への貢献)
(2) 膨大な種内変異の存在が明らかになった(進化の機構の解明への貢献)
⇨集団遺伝学理論の精密化
⇨中立進化概念の誕生
⇨分子進化時計の理論的基盤
⇨「歴史」研究と「機構」研究の統合
(3) アミノ酸配列や DNA 配列は様々な機能領域に分類して扱う必要がある
⇨タンパク質の 3 次元構造形成に関わる部位、アミノ酸の親疎水性、タンパク質立体構造中の位置、
機能に重要な位置とそうでない位置など
⇨コドン中の場所による塩基置換の意味の違い、RNA の 2 次構造形成に必要な塩基ペア、コドン使
用頻度と tRNA 種の量の相関、RNA のプロセッシングに必要な配列、転写制御に必要な配列など
(4) 遺伝コードの非普遍性
(5) 染色法の革新による染色体進化の理解
(6) 多数の重複遺伝子 (多重遺伝子族 multigene family)の存在
(7) 多数の偽遺伝子 (pseudogene or dead gene)の存在
(8) 利己的遺伝子 (selfish gene)、転位因子 (transposon)、がらくた DNA (junk DNA)
1.5. 生命の進化史(資料 1, 2, 3 参照)
1.5.1. 無生代(~約 30 億年前)
地球の誕生:約 46 億年前
最古の生物化石:35 億年前、バクテリア様微化石
最初の生命は約 38 億年前と推定:それ以前に地殻、大洋すでに形成
大気中に遊離酸素無く、オゾン層無し:強い紫外線の直接照射→生命誕生前の化学進化の実験場
1.5.2. 始生代(太古代)(約 30~10 億年前)
最古のストロマトライト:29 億年前、ラン藻類 (cyanobacteria) と石灰付着物からなる堆積層
ラン藻類の光合成作用により次第に大気中に遊離酸素増加
3
約 20 億年前に大気中酸素量が安定
→嫌気性生物にとっては脅威
嫌気性細菌と光合成細菌(ラン藻類など)から好気性/両気性生物へ(ミトコンドリアの共生)
真核生物の起源:約 22 億年前
多細胞生物の起源:約 18 億年前
動物植物の分化:約 10 億年前、多細胞動物の基本的な遺伝子セット確立
1.5.3. 原生代(約 10~6 億年前)
全球凍結(約 8~6 億年)
、静かな進化
1.5.4. 古生代(約 6~2.5 億年前)
大型多細胞生物化石の爆発的増加:約 6—5 億年前(カンブリア紀)
エディアカラ生物群(約 5.6 億年前)
カンブリア爆発(Cambrian explosion)(約 5.4 億年前)
現存のほとんどの動植物門がこの時期に出そろう
超大陸分裂による浅瀬大陸棚、地球温暖化、酸素濃度上昇、オゾン層形成
このころの海は高等生物への進化のための一大実験場
脊椎動物の起源:無顎魚類、5—4 億年前、水底から吸引採食、甲冑、円口類(ヤツメウナギなど)の祖先
有顎魚類、約 4 億年前、採食方法の革新、新しい食料資源
デボン紀(4—3.5 億年前)—魚の時代(多種多様な魚類;硬骨、軟骨、板皮、etc)
陸への進出:まず植物(マツバランの類)(約 4 億年前)
つづいて動物(翼のない昆虫、両生類)
肉鰭類→両生類
石炭紀(約 3 億年前)にはシダ類と裸子植物の大森林
両生類→爬虫類(羊膜による完全陸上生活)
1.5.5. 中生代(約 2.5 億年前~6500 万年前)
恐竜の時代
シダ植物、マツ、イチョウ、ソテツなどの裸子植物、海ではアンモナイト
中生代後半に顕花植物が発達、並行して昆虫の目ざましい進化(授粉媒介;共進化の例)
哺乳類の起源—約 2 億年前、小型で夜行性?
鳥類の起源—約 2 億年前 [ただし始祖鳥の位置づけについて論争中:Nature 516, 18-19 (2014)参照]
1.5.6. 新生代(約 6500 万年前~現在)
哺乳類の時代
被子植物(顕花植物)の隆盛、鳥類の進出
人類の時代:新生代第 4 紀(約 200 万年前から現在)
4
資料 1
資料 2
5
1.6. 進化研究に重要な地質学的大事件
(1) 大陸移動(資料 4 参照)
ドイツのアルフレッド ウェーゲナーが 1912 年に初めて提唱 → 軽蔑と不審
1950 年代以降、古地磁気学の進歩により見直され、海洋底拡大説・プレートテクトニクスに発展
超大陸ロディニア
分裂
カンブリア紀(5.5 億年前)
:4 大陸、浅い大陸棚、温暖化、オゾン層出現
融合
デボン紀(3.75 億年前)
:2 大陸=ローラシアとゴンドワナ
(a)
魚の時代/陸地への進出(両生類)
石炭紀からジュラ紀(3—2 億年前):1 大陸=パンゲア
(b)~(e)
両生類→爬虫類→恐竜(パンゲアの王者)
、裸子植物森林、昆虫の繁栄、海にアンモナイト
分裂
1.75—1.25 億年前 (e)~(f)
インド/南極/オーストラリア VS アフリカ/南米
北米 VS ヨーロッパ
恐竜後期、被子植物の発達、昆虫の進化
1—0.75 億年前 (g)
インド VS 南極/オーストラリア
インドは北上しアジア南部に融合(0.5 億年前)
この境界がヒマラヤ山脈を形成
南米 VS アフリカ
南米は最終的に北米と再融合(400—500 万年前)
0.5 億年前 (h)
オーストラリア VS 南極
オーストラリアは北上しアジアの南へ
(2) 氷河期:気温の大変動、海水位の大変動による陸地の分断と接続
⇨生物の地理的分布の重大要因
例)オーストラリアと南米の原始的哺乳類(有袋類、単孔類)
⇨生物の分岐年代の推定に利用
6
資料 3
資料 4
7
1.7. 絶滅
通常の絶滅の原因
(1) 生物間競争での敗北
(2) 氷河期や火山の噴火、地震、津波等の環境変動
これらは頻繁に起こっていることである。しかし、これらでは大量絶滅 (mass extinction) がなぜ起こるの
か説明できない。
大量絶滅(これまでに主要なもので 5 回)
(1) 5 億年前(カンブリア紀の終り)
:三葉虫の大多数が死滅
(2) 4.4 億年前(オルドビス紀の終り):海産無脊椎動物の属の 57%が絶滅
(3) 3.7 億年前(デボン紀の終り)
(4) 2.4 億年前(古生代の終り):生物史上最大の絶滅、海産動物種の 96%が絶滅、三葉虫も完全に死滅
P-T extinction (Permian-Triassic)
(5) 6500 万年前(中生代の終り):恐竜をはじめとする多くの動植物、アンモナイトの絶滅
K-T extinction (Cretaceous-Tertiary) 最近では K-Pg extinction (Cretaceous-Paleogene) と呼ばれる
大量絶滅の原因はよくわかっていないが、大陸移動に伴うマントルプルームの上昇がもたらす大規模な地殻
変動と気候変動が有力視されている。大量絶滅は主要な生物群を除去し全生態系を大改編するため、その後
の生物進化に絶大な影響を与える
K-Pg extinction の原因として小惑星の衝突説が有力視されている
この時期の地層で地球に稀で隕石に豊富なイリジウムが急激に増加
この時期にできたと考えられる巨大クレーターの存在
直径 180 km (メキシコのユカタン半島)/直径 36 km (アイオワ)/ロシアにも
⇨直径約 10 km の隕石が衝突、大量のほこりが地上を数年間覆い、植物の光合成が低下し、食物連鎖
の根源が破壊され、巨大動物が絶滅
⇨小惑星の研究者によると直径 10 km の隕石が地球に衝突する確率は約1億年に1回
ただし、大陸分裂に関係したマントルプルームが遠因である可能性も指摘されている。
進化における偶然と必然
進化は 1 回きりの歴史事象であり、多くの偶然の産物ともいえる。もし K-Pg extinction の隕石が少し違うタ
イミングで飛んできたなら、地球に衝突することはなく、恐竜の絶滅はなく、哺乳類の大規模な適応放散も
なく、したがって今日の人類もいない。こんな極端な例を持ち出すまでもなく、通常の絶滅も、突然変異の
出現・集団への拡散過程という進化の主要要素も、大きく偶然に支配されている。その一方で自然選択は進
化に方向性・必然性を与えることができる。進化は偶然と時折の必然性の織りなす壮大なドラマである。
8
第2章
集団遺伝学 I (遺伝的変異と自然選択)
2.1. 遺伝的変異
遺伝子に種内や種間の違いがあることを遺伝的変異 (genetic variation) があるという。遺伝的変異を記述し
生成のメカニズムを理解することは、個体の特徴、集団の特徴、そして種の特徴の理解につながる。遺伝的
変異の理解は個人に応じた医薬品の開発や犯罪捜査等における個人の識別など実生活に関わる事柄であり、
集団間や生物種間の類縁関係や分化のメカニズムの解明といった進化に関する基礎科学の中心的課題である。
2.1.1. 遺伝子頻度と遺伝子型頻度
ある遺伝子に種内で変異があるとき、その遺伝子は多型「たけい」である (polymorphism がある) という。
この講義では種内変異(多型)の程度を遺伝的多様度 (diversity) といい、種間の変異の程度を遺伝的相違
度 (divergence) と呼んで区別する。それぞれのタイプを対立遺伝子 (allele: アリール) と呼ぶ。集団中の
allele の頻度 (allele frequency) を遺伝子頻度ともいう。2 倍体生物では 2 つの allele が同じ場合をホモ接合
(homozygote)、異なる場合をヘテロ接合 (heterozygote) という。2 つの allele の組合せを遺伝子型
(genotype) という。この組合せというステップが入るため、遺伝子型頻度の世代間変動は、遺伝子頻度の世
代間変動より複雑になる。後述の様々な要因が組合せにも影響を及ぼすため、複雑さは一層増幅される。し
たがって、遺伝子型頻度でなく、より基本的な遺伝子頻度の世代間変動を指標に様々なことを調べる。
allele は様々な観点で区別される。ABO 式血液型のような抗体に対する反応性の違いや、タンパク質の電気
泳動移動度の違いなどで区別される場合もあれば、DNA 制限酵素断片の長さの違い(RFLP)や PCR した時
の増幅断片の長さの違い(AFLP)、究極的には塩基配列レベルの違いなどである。
2.1.2. allele の種類数とヘテロ接合度
ある現象を記述する基本的な統計量を要約統計量 (summary statistics) と呼び、遺伝的多型性での最も根源
的な要約統計量に allele の種類数 (number of alleles) と広義のヘテロ接合度 (heterozygosity) がある。
狭義のヘテロ接合度は集団中のヘテロ接合個体の割合であるが、広義のヘテロ接合度は集団から無作為に選
んだ 2 つの遺伝子が異なる種類の allele である確率である。したがって広義のヘテロ接合度は allele の集団頻
度組成を反映する。広義のヘテロ接合度は一倍体生物(例:蜂や蟻などの膜翅目昆虫の雄)にも Y 染色体遺
伝子やミトコンドリア DNA のような半数性遺伝子にも適用される。広義のヘテロ接合度を遺伝子多様度
(gene diversity) ともいう。
2.1.3. Hardy-Weinberg principle
Hardy-Weinberg principle は遺伝子頻度と遺伝子型頻度の関係を与える簡潔な原理である。簡単な計算から
説明を始める。
ある世代での遺伝子型頻度の観察値が
9
AA:
P
Aa:
Q
aa:
R
(P + Q + R = 1)
であるとき、その世代の遺伝子は
A:
p
2 PN  QN
Q
 P
2N
2
a:
Q
2
q R
(N は個体数)
となる(これはただの計算で Hardy-Weinberg principle とは関係ない)。ここから逆に AA、Aa、aa の遺伝子
型頻度を Hardy-Weinberg principle に則り次のように推定する。
allele A と a の遺伝子頻度が p と q であるとき(p + q = 1)、遺伝子型頻度の期待値は
p2
AA:
Aa:
2pq
q2
aa:
で与えられる。
allele が n 個で、allele Ai の遺伝子頻度が pi のとき (
n
p
i 1
ホモ接合遺伝子型
i
 1) 、遺伝子型頻度の期待値は
AiAi:  pi2
ヘテロ接合遺伝子型 AiAj:  2 pi q j で与えられる。
次の条件の下で、遺伝子型頻度の観察値と推定値(期待値)は一致する。見方を変えると、現在の遺伝子型
観察値から前後 1 世代の遺伝子型頻度を推定したともいえ、次の条件の下で、遺伝子型頻度は世代から世代
へ一定に受け継がれる。この一定性を Hardy-Weinberg equilibrium (HWE) という。HWE の検証として、
通常、遺伝子型の観察値と期待値のずれを
2  
(obs  exp) 2
exp
頻度でなく実数で計算する。 
 2 テストで検定する。
(2.1)
2
の確率グラフ(資料 5 の Figure 1.11)で確率を求める。
自由度 (degrees of freedom: d.f.) はデータのクラスの数(この場合遺伝子型クラスの数 3)から 1 を引き、
データから推定するパラメータークラスの数(この場合遺伝子頻度 p ひとつ)を引くことで得られる。こ
の場合は d.f. = 3 - 1 - 1 = 1
q は 1-p で p が決まれば決まるため、データから推定するパラメータークラスの数に含めない。
2.1.4. HWE 成立の条件
(1) 2 倍体である。
(2) 有性生殖をする。
10
資料 5
(3) 世代の重なりがない(non-overlapping generations)。
(4) 遺伝子頻度に性差がない。
<自然選択関連>
(5) 遺伝子型間に生存率の違いがない(生存率に関する自然選択がない)。
(6) 遺伝子型間に交配率の違いがない(交配率に関する自然選択がない)。
(7) allele 間に配偶子形成率及び受精率の違いがない(配偶子レベルの自然選択がない)。
<任意交配関連>
(8) 遺伝子型に関して交配が非選択的である(=性選択がない)
(遺伝子型に関して任意交配である)。
(9) 集団分化していない(集団に関して任意交配である)
。
<偶然的変動関連>
(10) 集団が非常に大きい(=遺伝子頻度の偶然的変動が起こらない=遺伝的浮動が働かない)。
<新規変異関連>
(11) 移住者がいない。
(12) 突然変異が起こらない。
11
Hardy-Weinberg principle は 2 倍体、有性生殖を前提とするメンデル遺伝の分離法則(ヘテロ Aa 個体からは A
と a の配偶子が同数作られる)の拡張であるので条件 1 と 2 は当然の前提であり問題にならない。条件 3 は
数学的単純化のためのモデルであるが、実際の複雑な世代構造に対しても有効な近似を与えるため、これも
通常気にかける必要はない。条件 4 は通常成り立つので普通は気にしない。
しかし条件 5 以降はどれも実際にあてはまらなさそうな上、問題になりそうなことばかりである。5~7 は遺
伝形質に対する自然選択に関するもの、8 と 9 は任意交配に関するもの、10 は偶然的変動に関するもの、11
と 12 が新変異の導入に関するものである。生活史を (1) 接合子が成長して成体になるまで(集団の配偶子プ
ールを形成するまで)、(2) 配偶子プールから配偶子が選ばれ受精するまでの 2 段階に概念的に大別し、上の
条件の 5~12 がどちらに関わるかを考えると、条件 5、9、11、12 は (1) に関わり、条件 6、7、8、10 は (2)
に関わると考えることができる(資料 6)。
これらがすべて満たされることなどあり得ず、HWE の実効性には問題がありそうなものだが、実際には多く
の集団で HWE が観察される。これは HWE が事実上連続する 2 世代間での遺伝子型頻度の変動を問題にして
おり、HWE の検定に引っかかるほどの遺伝子型頻度の変動を 1 世代で起こさせるほどの効果を、各条件はも
たないことが普通だからである。
しかし、条件 9 の集団分化だけは例外である。例えば、もし集団が allele A に固定した集団と a に固定した
集団に分かれていたとしたら、Aa ヘテロ型は現れない。集団中のこのよう遺伝子頻度構成の分化した集団を
分集団 (subpopulation) と呼ぶ。複数の分集団をひとつの交配集団とみなすと、たとえ分集団内では任意交
配でも、事実上は任意交配からの大きな逸脱となる。近親交配も一種の集団分化であり、近親交配家系がい
くつか存在する集団を 1 つの均一集団として取り扱うと、同様に任意交配からの大きな逸脱となる。集団分
化は何世代もかけて生じる。HWE の他の要因は 1 世代の効果しかないが、集団分化は何世代もの蓄積が効い
てくるので、効果が大きいとも理解できる。したがって事実上、HWE はその集団が均一な任意交配集団であ
るかどうかの指標として使われる意味合いが強い。
地理障壁、物理距離などで生殖隔離があれば、集団分化は全ゲノム領域で同様に起こるが、地域特有に特定
形質への自然選択や性選択が働くと、集団分化はその原因遺伝子(とその周辺のゲノム領域)に顕在化する
(資料 7)。全ゲノム平均に比較して集団分化したゲノム領域を探すことで、地域特有の選択に関わる遺伝子
を推定することが行われている。
2.1.5 遺伝的変異の生成と運命
多型を生み出す源泉は突然変異 (mutation) である。突然変異には、ある塩基(あるいはアミノ酸)が別の
塩基(アミノ酸)に変化する点変異(point mutation)から、ある領域全体に及ぶ遺伝子重複・欠失、組換え、
遺伝子変換、転移など、様々な種類がある。多型は別の集団からの移住 (migration) (遺伝子流動;gene flow
12
ともいう)によってももたらされる。
突然変異や移住によりもたらされた allele が集団中で増えていくのか、減っていくのか、頻度を保つのか、そ
れらを決定するのが自然選択 (natural selection) と遺伝的浮動 (random genetic drift) である。この 2 つ
が進化遺伝学の主役といっても過言ではない。本章では自然選択について紹介する。
資料 6
資料 7
13
2.2. 自然選択
すべての種がなぜその生息環境に驚くほど適応するに至ったかを説明する理論
Darwin と Russell Wallace の共著論文として 1858 年に初めて英国リンネ学会で発表
⇨あまり注目されなかった
Darwin は翌年、ビーグル号の世界周航以来 22 年間にわたる研究の成果を「要約」の形で出版。進化の事実と
その機構としての自然選択を世界の科学者に初めて納得させ、その後の生物学さらには社会思想に絶大な影
響を与えた。
⇨「種の起源」
*自然状態に個体変異が存在する(事実)
*多くの場合生物は環境が許容できる以上の数の子を産む(事実)
*必然として競合(生存闘争:殺し合いを指しているのではない)が起こる(論理的事実)
*すこしでも多くの子を産む変異(有利な変異)はそうでない変異(不利な変異)に比べ高い増殖の可能
性をもつだろう(推論)
*有利な変異は「遺伝の強い法則」により子孫に伝えられ、毎代競争を繰り返すことにより、最後には不
利な変異を駆逐するだろう(推論)
このように「有利な変異が保存され、有害な変異が除去されること」あるいは「微小な変異でも有益な
ものなら保存されるという原理」を自然選択と呼ぶ。
長い地質時代にわたって絶えまなく行われる自然選択の作用により生物は環境に適するように改善され
ていく。
同一の広さの地面は均質な個体の集まりよりも構造、習性等において異なった個体をより多く養うこと
ができる。したがって、自然選択は他方、同一地域の生息生物に分化を促すことになり、多数の変種を
生じた種を有利に導く。これらが異なる種に発展していき、同時に競争に負けた種は絶滅していく。こ
の繰り返しにより生物の間に種、属、科、目、綱などの自然の分類体系が生じることが説明される。
その後のメンデルの遺伝の法則、さらには遺伝子本体の解明により、自然選択に遺伝学的根拠が与えられ、
現代の進化遺伝学が展開されることとなった。
2.3. 集団遺伝学
進化は変異体の集団中での固定過程及びその繰り返しとみることができる。集団の中に突然変異遺伝子(新
たな allele)が生じたとき、それがどのような過程で集団に広まり固定されるのか。自然選択をその中でどの
ように位置付けることができるのか。それらを問うのが集団遺伝学である。
14
2.3.1 適応度 (fitness)
自然選択を量的に表わす概念として「適応度」が考案された。適応度とは個体が次世代に子をどれだけ残せ
るかを表わす量。集団中に異なった遺伝子型をもった個体が存在し、それらの間に適応度の差があるとき、
自然選択が働いていると表現する。自然選択というと神がかった神秘的な力のように思う人がいるが、本質
は個体間に適応度の相違があることである。
集団遺伝学では 1 個体あたりの成熟に達する子の平均数を適応度と定義する。1 年生植物のように世代の不連
続な場合はそのままその値を用いる(W:淘汰値 selective value とも呼ぶ)。ヒトのように連続した世代構造
をもつ場合は個体数の指数的増減率 m を用いる(このためには各年齢における生存率や繁殖率を表わす関数
を用い面倒な計算が必要)
。普通母親あたりの成長した娘の数で適応度 m の概略を推定することができる。近
似的に m = lnW が成り立ち 2 つの場合は統一的に考えることができる。
2.3.2 正の選択と負の選択
出現した突然変異体が在来型に比べ生存力や妊性で勝り、集団全体に広がっていく場合の自然選択を正の自
然選択 (positive selection) と呼び、適応進化の基礎としてダーウィン進化論の根幹をなす。一方、突然変
異が有害でこれをもった個体の生存力や妊性が損なわれ、結果的に集団から除去される方向に働く自然選択
を負の自然選択 (negative selection) または浄化選択 (purifying selection) と呼び、正の自然選択と区別
される。「自然淘汰」という用語も負の自然選択の意味で使われることが多い。
本来、正か負かは集団に広げる方向に働くか集団から排除する方向に働くかという違いである。しかし一般
的には少数派の立場(新たな突然変異体の立場)で正負が言われる。少数派に対する正の選択は多数派に対
する負の選択である。少数派に対する負の選択は多数派に対する正の選択である。
少数派にかかる正の自然選択としては、ガの工業暗化における黒色型遺伝子の増加や、農薬の連続使用に伴
う抵抗性遺伝子の増加などが知られているが、実は実証例が少なく大部分は推測にすぎない。これに対し少
数派にかかる負の選択は致死遺伝子や遺伝病遺伝子の例にみられるように枚挙にいとまがない。少数派に正
の自然選択がかかることはその生物が変容していくことを物語るが、多数派に正の自然選択がかかることは
その生物が現状を維持することを意味する。その意味でも、生物の多様性を理解するために、少数派にかか
る正の自然選択の検出に多くの情熱が傾けられている。
2.4. 自然選択による遺伝子頻度の変動(決定論的モデル)
各遺伝子型の適応度を用い、allele の集団内での増減過程を計算する。たいていは適応度の絶対値は不要で、
それらの間の相対値さえわかれば十分。したがって 1 つの遺伝子型の適応度を 1 にとり、他がこれより s だ
け大きい (1+s) とか小さい (1−s) とかいうように設定するのが普通。s を選択係数 (selection coefficient)
と呼ぶ。隠れた仮定として、集団サイズが無限であり遺伝子頻度の確率的変動が起こらないことが挙げられ
15
る。このためこのようなモデルを決定論的モデルと呼ぶ。
2.4.1. 典型例 1 (半優勢選択 codominant selection)
A を野生型の allele、 a を突然変異により生じた allele とする。遺伝子型 AA、Aa、aa の適応度を 1、1+s、
1+2s とする。ここで s は非常に小さい正の数で s2 は s に対し無視できるとする。世代 t での変異遺伝子 a の
頻度を qt、A の遺伝子頻度を pt (pt + qt = 1) として qt の時間変化を計算する。
世代 t での遺伝子型頻度
AA
Aa
aa
2ptqt
qt2
AA
Aa
aa
p t2
w
2 pt qt (1  s )
w
q t2 (1  2 s )
w
pt
2
(Hardy-Weinberg principle)
世代 t+1 での遺伝子型頻度
w : average fitness in the population, w  p t2  2 p t q t (1  s )  q t2 (1  2 s )
q t  q t 1  q t

qt2 (1  2 s ) p t qt (1  s )
spt qt

 qt 
 spt qt (for small s)
w
w
1  2 sqt
(もう少し詳しくは資料 8 を参照)
資料 8
16
これを微分方程式
ln(
dqt
 spt qt に書き直して解くと
dt
q0
q
q
qt
q
)  ln( 0 )  st  t  0 e st  qt 
pt
p0
pt
p0
q 0  p 0 e  st
変異型の野生型に対する比の対数が時間に比例して増大する、つまり変異型の野生型に対する比が時間に対
して指数関数的に増大することがわかる。この結果は、確率的変動の可能性が除外されているとはいえ、集
団の大きさが非常に大きい場合は有利な突然変異がどれくらいの速度で集団中に広がっていくかを近似的に
理解するのに役立つ。
この式は例えば a が A に対し 0.1%有利なとき(s = 0.001)、a の頻度が 0.1%から 99.9%に増えるのに要す
る世代数が 13,813.5 となることを意味する。1 世代が 1 年とすれば、これはおよそ 14,000 年かかることにな
る。有利さが 10 倍の 1%なら要する時間は 1,400 年となる(資料 9 の Figure 2.1 参照)
。これは地質時代の尺
度からすればごく短い時間である。
資料 9
これからいえることは、はっきり有利な突然変異が現れれば、比較的短時間に既存遺伝子にとってかわりう
るということである。これが繰り返されれば、各遺伝子座で、起こりうる突然変異は次々に、いわば試験さ
れていき、最も適したものが残されていくことになる。
17
2.4.2. 典型例 2 (超優勢選択 overdominance selection)
2 つの相反する選択圧が存在することによって遺伝子頻度の平衡が成り立つ場合がある。このような自然選択
を総称して平衡選択(balancing selection)という。ヘテロ接合体が最高の適応度をもつ超優勢選択はその典
型である。遺伝子型 AA、Aa、aa の適応度を 1、1+s、1+ t (s > t ≧ 0) とし、A の頻度を p、a の遺伝子
頻度を q とすると
q 
pq (tq  s  2 sq )
1  2 spq  tq 2
(2.2)
となる。(2.2) を微分方程式に直して解き、a の初期頻度をいろいろにとった場合の q の時間変化を現したの
が資料 9 の Figure 2.2。平衡に達したときの a の頻度は (2.2) 式において、q = 0 として与えられ、
q
s
2s  t
となる。t = 0 のとき、平衡頻度は 50%になる。
2.4.3. 遺伝子型間の適応度の違いのより一般的な表現
AA
Aa
aa
1
1+s
1+t
(t ≧ 0 とする)
t > 0 で s = ht のとき
h>1
heterozygote superiority (overdominance)
h=1
a は dominant(A は recessive)
0<h<1
a は codominant
h=0
a は recessive(A は dominant)
h<0
heterozygote inferiority (分断化選択)
t = 0 で s > 0 のときも
heterozygote superiority
t = 0 で s < 0 のときも
heterozygote inferiority
t = 0 で s = 0 のとき
完全中立
18
第3章
集団遺伝学 II (遺伝的浮動)
3.1. 遺伝的浮動(確率論的モデル)
3.1.1. 有限集団
これまで取り上げてきた遺伝子頻度変化は集団の大きさが無限大という理想条件下での単純化されたモデル
である(決定論的モデルという)。決定論的モデルは集団サイズが非常に大きい場合や自然選択の効果が非常
に大きい場合にはよい近似を与え有用である。しかし、現実の集団は有限である。多くの場合集団サイズが
有限である効果は無視できないほど大きい。この場合遺伝子頻度変化は確率論的モデルで取り扱う。
3.1.2. 遺伝子頻度の偶然的変動
自然集団においては有性生殖に際し多数の配偶子が生産されるが、実際に次代を作るのに寄与するのはその
うちの比較的少数に限られる。このことによる遺伝子頻度の偶然的変動を遺伝的浮動 (random genetic drift)
または抽出効果 (sampling effect) という。遺伝的浮動は Sewall Wright (1931) と Ronald Aylmer Fisher (1930)
によりそれぞれ独立に発表されたため、遺伝的浮動に関する確率モデルは Wright-Fisher model と呼ばれる。
資料 10 は抽出効果を理解するための単純化した概念図である。
毎代一定数 N の個体からなる二倍体の集団を仮定する。無限個の配偶子からなる始めの配偶子プールはその
生産個体の遺伝子頻度を反映する。この中から N 個の雄性配偶子と N 個の雌性配偶子とが無作為に抽出され、
その結合によって次代の N 個の個体が形成される。抽出された配偶子中の遺伝子頻度は配偶子プール中の遺
伝子頻度からずれていることに注意しよう。偶然だけが原因である。この過程が繰り返されると allele の頻度
は偶然的に次第に変化していく。これは有限集団であることの必然であり、無限集団では生じない。
資料 10
19
例えばひとりの子供につき自分の allele の一方しか伝わらず、たとえ何人か子供を遺しても必ずしも特定の
allele が伝わるとは限らないことを思い浮かべれば容易に理解できると思う。
3.1.3. 遺伝子頻度の確率関数、期待値、分散
資料 11:コンピュータ中で仮想的に上述の有性生殖を繰り返させる。ある 1 種類の allele A に注目し、その
遺伝子頻度の変動を見る。遺伝子頻度が世代とともに変動していき 0(消失)か 1(固定)になったところで
終了する。これを何回も繰り返す。各試行が 1 つの集団でのその allele の運命に相当すると考えてよい。
資料 11
今、ひとつの集団に注目する。allele A の配偶子プール中の初期頻度を
の中に i 個の A が含まれる確率 P (
A を i 回選ぶ確率
とする。抽出した 2N 個の配偶子
i
) は、2N 個の中から i 個を選ぶ場合の数
2N
と、A でない allele を残りすべてで選ぶ確率 (1  p0 )
20
2 N i
2N
Ci 
2 N!
と、
i!(2 N  i)!
を掛け合わせて
P(
i
) 2 N C i p 0i (1  p 0 ) 2 N i
2N
(3.1)
という 2 項分布で与えられる。2 項とは A か A でないかの二者択一選択を繰り返すことと理解すればよい。
i 個の A を選ぶ確率は N が十分大きく
P(
i
m i m
)
e
2N
i!
とも書ける。m は期待値で 2
が十分小さい場合ポアソン分布に近似できるため、(3.1) は
(3.1)’
。
生じたばかりの突然変異が次の世代で早くも失われる確率など、具体的な例を考えることで、式(3.1)や(3.1)’
の意味を実感することができる(資料 12 参照)
。
資料 12
1 世代後の A の個数の期待値は 2
なので、遺伝子頻度の期待値
はそれを 2N で割って
E( p1 )  p0
つまり初期頻度と変わらない。1 世代後の A の個数の分散は
ずれの 2 乗の平均なので、遺伝子頻度の分散
V ( p1 ) 
2 Np0 (1  p0 ) である。分散とは期待値との
V ( p1 ) は個数の分散を(2N)2 で割って
p0 (1  p0 )
2N
である。つまり集団が小さいほど大きい。
21
これを拡張すると、t 世代後の A の遺伝子頻度の期待値
E ( pt ) は初期頻度と変わらず
E ( pt )  p 0
であるが、分散は
1 t

V ( pt )  p 0 (1  p 0 ) 1  (1 
)
2 N 

(3.2)
となる。(計算に興味がある人は根井「分子進化遺伝学」p315~316 を参照)。
t = 0 のとき V ( p )  0 、t → ∞で V ( pt )  p0 (1  p0 )
t
« 1(つまり
2N
≪ 2 )のときこれは
1 t
t

)   p 0 (1  p 0 )
V ( pt )  p 0 (1  p 0 ) 1  (1 
2N 
2N

と近似できる。近似については資料 13 を参照。
つまり遺伝子頻度の初期頻度からのずれは、初めは世代時間に比例して大きくなる。世代を経るごとに初期
頻度からの変動が増大し、集団が小さいほど変動が激しい(資料 11)。遺伝的浮動とは、このように世代を経
るにつれて、遺伝子頻度が偶然に変動していくことである。
資料 13
22
3.1.4. 拡散モデル
遺伝的浮動の継時変化はどう記述できるだろうか?資料 14 の Figure 2 のように分集団がいくつもあり、allele
A についてどの集団も同じ頻度から出発するとする。個々の集団でそれぞれに遺伝的浮動がおこり、世代を
経るにつれ、allele A は最終的にある集団では固定し、別の集団では消滅していくことになる。A が固定した
集団の割合は A の初期頻度
になると期待される。では途中経過はどのようになっているか?世代 t で集
団間での A の頻度の分布をグラフ化したのが資料 14 の Figure 7.5 である。
資料 14
このグラフを導く基本的な素過程は、ある世代の頻度 p から次の世代の p の確率分布を与える式 (3.1) であ
るが、ここから全世代、全集団に亘って p の分布を導くのは大変煩雑な作業となる。そこで集団間の遺伝子
頻度分布の時間変化過程を、熱が金属中を伝わって拡散していく過程になぞらえ、近似式としたのが拡散モ
デルである(資料 15)
。興味のある人は参考図書の A Primer of Population Genetics (p 93-94) などを参照のこと。
資料 15
拡散モデルそのものは難解であり、専門家でなければ完全に理解する必要はないが、そこから得られるいく
つかの知見には重要なものがあり、結果だけでも知っておく必要がある。それらは、突然変異遺伝子が集団
23
に固定する確率(固定確率)、逆に消失してしまう確率(消失確率)、固定した突然変異について固定までに
かかる世代数(条件付き固定時間)などである。これらについては第 5 章で触れる。
3.2. 集団分化
拡散モデルは難解だが、実は集団分化という観点から遺伝的浮動の進行度を簡便に評価できる。
3.2.1. 集団分化尺度としての遺伝子頻度の集団間分散
資料 11 のグラフの 1 本 1 本の線は注目した allele (allele A) についてのひとつひとつの集団の運命とみること
ができる。遺伝的浮動が進むと各集団の遺伝子頻度は偶然だけで変化していく。つまり、遺伝的浮動は遺伝
子頻度の集団分化をもたらす。したがって遺伝子頻度の集団間の分散を遺伝的浮動の程度とみなすことがで
き、さらには集団分化の尺度とみなすことができる。遺伝的浮動により、式(3.2)から遺伝子頻度の分散は
最小 0 (どの集団も同じ頻度構成)から最大
p0 (1  p0 ) ( p0 の割合の集団では A が固定、 (1  p0 ) の割
合の集団では A が消失)まで増加する。そこで、分散が最大値にどれだけ近づいているか表わす
V ( p)
1 t
 1  (1 
)  FST
p 0 (1  p 0 )
2N
(3.3)
を集団分化の尺度とし、FST と呼ぶことを Wright は提唱した。この値の最小値は 0、最大値は 1 となる。
3.2.2. ヘテロ接合度と集団分化
遺伝的浮動を集団の中でみると、固定・消失により集団から多様性が減少していく過程でもある。言い換え
るとヘテロ接合度が減少していく過程である。そこで(3.3)の FST をヘテロ接合度を使って書きなおしてみる。
統計学の教科書にあるように
V ( p)  E ( p 2 )  {E ( p)}2
である。ここで
(3.4)
2
E ( p ) は各分集団に対して allele A について HWE で推定したホモ接合度の分集団間平均
値を表す。 E ( p ) は allele A の遺伝子頻度の分集団間平均値であるが、すべての分集団を混合した仮想的な
2
総合集団 (total population) の遺伝子頻度でもある。したがって {E ( p)}
は総合集団に対して allele A に
ついて HWE で推定したホモ接合度を表す。このことから遺伝的浮動が進むと(集団分化が進むと)分集団
のホモ接合度は総合集団のホモ接合度より大きくなっていくことがわかる。これを Wahlund の法則という。
式 (3.4) は allele A に限らず、すべての allele に適用できるので、全 allele について式 (3.4) を書き、左辺同
士、右辺同士を足し合わせる。
V ( p)   E ( p
式 (3.5) の左辺
2
)  {E ( p)}2
(3.5)
V ( p) は、式 (3.3) から
24
V ( p)  F  p
ST
ここで
p
2
0
0
(1  p0 )  FST  ( p0  p02 ) FST ( p0   p02 )  FST (1  p02 )
は始原集団に対して HWE で推定したホモ接合度を意味する。22 ページで見たように総合集
団の遺伝子頻度は始原集団から変化しないため( E ( pt )
したがって、1 
式 (3.5) の右辺
p
2
0
 p0 )、 p 02 は総合集団のホモ接合度とみなせる。
は総合集団のヘテロ接合度 HT である。よって式 (3.5) の左辺は
 E( p
2
)   {E ( p)}2 において
均値であるので、ヘテロ接合度の分集団間平均値
 E( p
2
) は HWE で推定したホモ接合度の分集団間平
H S を使って 1  H S と書ける。また、{E ( p)}2 は
総合集団に対して HWE で推定したホモ接合度であるので、総合集団のヘテロ接合度
と書ける。よって式 (3.5) の右辺は
H T FST となる。
H T を使って 1  H T
H T  H S と書ける。
したがって式 (3.5) は
H T FST  H T  H S
(3.6)
と書き直すことができる。この式から
FST 
HT  H S
H
 1 S
HT
HT
(3.7)
が導かれる。FST の S は Subpopulation の S、T は Total population の T である。遺伝子頻度の集団間分散から
定義した集団分化指数 FST を、全体のヘテロ接合度のうち集団間のヘテロ接合度の割合としても表現できる
ことがわかる。むしろこのヘテロ接合度による式(3.7)が、FST の定義式として紹介されることが多いと思う。
式 (3.6) から
H S  H T (1  FST )
(3.8)
さらに式 (3.3) から
H S  H T (1 
1 t
)
2N
(3.9)
が導かれる。式 (3.9) は分集団のヘテロ接合度が総合集団(すなわち始原集団)のヘテロ接合度から毎代
25
1
2N
の率で減少し、次第に 0 に近づくことを意味する。
まとめると、遺伝的浮動の程度を集団分化という視点から表現することができ、それらは遺伝子頻度の分散
(3.3)やヘテロ接合度(3.7)を使って数量化できるのである。
3.3. 集団の階層構造(FIS , FST , FIT)
式 (3.7) からのアナロジーで、分集団内の実際のヘテロ接合度 HI (I は individual の i から)と HWE から
推定したヘテロ接合度 HS の違いの程度を
FIS 
HS  HI
HS
という指標で評価することができる。1 つの分集団が複数の近親婚家系から成っていると、分集団の中にさら
に分集団がある(集団に階層構造がある)のと同じになる。近親婚家系の中では allele が 1 種類に偏っていき、
ヘテロ接合個体が減少する(ただし、家系内では HWE は成り立っている)。一方、家系間で固定していく allele
は異なるので、分集団全体としては allele の種類は多様でありうる。したがって、分集団の HWE から計算さ
れるヘテロ接合度は実際のヘテロ接合度より高くなる。このように FIS により分集団内のさらなる分集団構
造と近親交配による HWE からのずれを定量することができる。統計的有意性は permutation 法で検定でき
る(実際の個体数と遺伝子頻度で任意交配の simulation を繰り返し、FIS 観察値が模擬 FIS 分布の外れ値にな
るか見る)。よって FIS は HWE の検証における、式 (2.1) のカイ二乗テストの別法ともいえる。
HI と HS をそれぞれ分集団間で平均して、
FIS 
HS  HI
HS
 1
HI
HS
(3.10)
と定義し直す。すると
1  FIS 
1  FST 
HI
HS
となる。一方、式 (3.7) から
HS
となる。よって
HT
(1  FIS )(1  FST ) 
FIT 
HI
となる。これを 1  FIT と定義する。つまり
HT
HT  H I
H
 1 I
HT
HT
(1  FIS )(1  FST )  1  FIT
(3.11)
(3.12)
となる。式 (3.11) は総合集団の HWE から推定したヘテロ接合度 HT とヘテロ接合度観察値の分集団平均
H I の違いを評価する指標となる。この場合の HWE からの逸脱は、総合集団が分集団からなるという階層
26
性と、分集団内に近親婚家系があるという階層性の二重の階層構造からもたらされる。
近親婚家系も分集団も交配範囲の規模が違うだけで交配範囲が限定されているという点で同じである。その
意味で分集団構造は広い意味での近親婚構造とみなすことができる。各個体はランダム交配しているつもり
でも交配範囲が限定されることで HWE から逸脱し、集団に階層性が出来上がっていくことは興味深い。
3.4. 固定指数 Ft
ここまで見てきたように、遺伝的浮動は集団が小さいほど強い。集団が小さいことは交配範囲が限られる(小
さい)こと、すなわち近親婚であることを意味する。ここでは近親婚に、収束する遺伝子系図 (coalescence)
という観点を与えることで、新たな視点で遺伝的浮動をとらえなおす。それが集団遺伝学に革新をもたらす。
サイズ一定の集団を仮定する。集団の成員が自分の持つ allele セットを 1 コピーずつ次世代に伝えれば遺伝子
頻度は変動しない。遺伝子頻度が次世代で変わるのは、親世代の遺伝子のどれかは次世代に伝わらず、代わ
りに遺伝子のどれかが複数コピー伝わったためである。すなわち、集団中に、1 世代前の 1 つの DNA 分子の
複製に由来する遺伝子(兄弟姉妹)が存在する。複数コピー伝えるか、1 コピー伝えるか、1 コピーも伝えず
消失するか、は偶然だけで決まる(資料 16 の Figure 3.14)。これが遺伝的浮動の別の見方である。
資料 16
27
集団から抽出した 2 つの遺伝子は、世代を遡れば必ず 1 つの分子の複製に由来(すなわち共通の祖先遺伝子
に由来)する。この 1 分子に由来する系譜関係を coalescence という。coalescence し、かつ配列が同一であ
る(すなわち突然変異が起こっていない)とき、それら 2 つの遺伝子の関係を由来により同一 [identical by
descent (IBD)] であるという。構成員の血縁関係が不明の任意交配集団から、無作為に抽出した 2 つの遺伝
子が、t 世代前までに IBD である確率、つまり coalescence し同一配列である確率を固定指数 (fixation index)
Ft という。t 世代前までに coalescence する確率を coalescence index (Ct) と呼ぶことにする。突然変異を無視
すれば、Ft は Ct と同じ意味になる。Ft が 1 であるとは、集団のすべての遺伝子が、t 世代前までに1つの
遺伝子に辿り着くコピー同士であり、その遺伝子が現在の集団に固定していることを意味する。このように
固定指数は、集団全体の近親度の指標とみることができる。
ついでながら、血縁関係がわかっている 2 個体のある遺伝子同士が IBD である確率は、近親係数 (coefficient
of consanguinity, coefficient of kinship,or coefficient of co-ancestry) と呼ばれ、集団全体の近親度であ
る固定指数とは全く異なる。例えば、両親が同じ兄弟の近親係数は
1
である。さらについでながら、血縁関
4
係のわかっている 2 個体で、一方の個体のある遺伝子の IBD となる遺伝子がもう一方の個体に存在する確率
を血縁度や近縁度 (coefficient/degree of relatedness/relationship or relatedness) という。両親が同じ兄
弟の血縁度は
1
である。1 つの個体の 2 つの allele が IBD である確率は、
近親婚係数 (inbreeding coefficient)
2
と呼ばれる。集団全体の近親度を意図する文脈では、近親婚係数はそれらの allele が由来した両親の遺伝子間
の固定指数と同じである。両親間の血縁関係がわかっているという文脈では、それらの allele が由来した両親
の遺伝子間の近親係数と同じである。
話を固定指数に戻して Ft を数式で表現する(資料 17)。より単純な突然変異が起こらないという場合で考え
る。集団サイズを一定とする(2N 個)
。まず集団から無作為に 1 つ遺伝子を選ぶと考える。これは世代 0 時
のどれかに必ず由来している。次にもう 1 つを無作為に選ぶ。2 つ目が 1 つ目と t 世代の間のどこかで
coalescence する時、それら 2 つは 1 世代前に coalescence するかそれ以前の t − 1 世代の間に coalescence する
かのどちらかである。1 世代前に coalescence する確率は、2 つ目が 2N 個の遺伝子のうち 1 つ目の親遺伝子
という特定の 1 つに由来する確率であるから
1
である。一方、それ以前の t − 1 世代の間に coalescence
2N
する確率は、
1 世代前に coalescence しなかった確率 1 
1
に t − 1 世代の間に coalescence する確率 Ft-1 を
2N
掛ければよい。よって Ft はこれら 2 つの場合を足し合わせて
Ft 
1
1
 (1 
) Ft 1
2N
2N
(3.13)
28
となる。これを書き換えると
1  Ft  (1 
1
)(1  Ft 1 )
2N
(3.14)
という等比関数型数列となる。よってこの漸化式を解くと
1  Ft  (1 
1 t
) (1  F0 )
2N
となる。世代 0 以降の複製による由来を見ているので、定義により F0 = 0 である。よって
Ft  1  (1 
1 t
)
2N
(3.15)
となる。Ft は遺伝子頻度の初期値とは独立で、t が増加するにつれて 0 から 1 まで増加する。
資料 17
1 世代で coalescence が起こらない確率は毎代 1 
が起こらない確率は (1 
1
なので t 世代の間のどの世代においても coalescence
2N
1 t
) となる。Ft とは t 世代の間のどこかで coalescence する確率なので 1 からど
2N
の世代でも起こらない確率を引くことでも求められるはずである。実際、式 (3.15) はそのようになっている。
資料 18 の Figure 9 は Ft が世代につれて増大し(つまり集団が均一化、あるいは近親化し)、それは集団が小
さいほど急速であることを示している。
29
資料 18
3.4.1. 固定指数 Ft と集団分化指数 FST とヘテロ接合度の関係
式 (3.15) と式 (3.2) を比べてみよう。分集団内での coalescence から定義された Ft が、分集団間の遺伝子頻
度の分散を表す式の中に現れている。さらに一歩進めると式 (3.3) から、集団分化の指標である FST と分集
団内での coalescence から定義された Ft が一致することがわかる。つまり、経過した時間の間に集団が分化
した分だけ、集団内は近親化したことになる。
ここから、ヘテロ接合度と Ft の関係が導ける。式 (3.8) の FST を Ft に書き換え、総合集団ヘテロ接合 H T を
始原集団ヘテロ接合 H 0 と読み替え、平均分集団ヘテロ接合度 H S をある分集団の世代 t におけるヘテロ接
合度 H t と読み替えると、ヘテロ接合度と集団近親度との関係や H t の時間変化を表す式になる。
H t  H 0 (1  Ft )  H 0 (1 
1 t
)
2N
(3.16)
t   のとき Ft  1 のため H t  0
Ft の意味を考えると、式(3.16)は大変理解しやすい(資料 19 参照)。分集団中の Ft の割合の遺伝子は始原
集団のある 1 分子からの複製に由来しており、突然変異もないと仮定しているためこの中でのヘテロ接合度
は 0 である。一方、分集団中の
1  Ft の割合の遺伝子は始原集団のある 1 分子からの複製に由来しておら
ず、始原集団中の互いに異なる分子に由来している。よって 1-Ft 部分は始原集団での遺伝子頻度構成を今
も残していることになる。よってこの中でのヘテロ接合度は H0 であることが期待される。したがって分集
団中のヘテロ接合体の割合は
1  Ft と H0 を掛け合わせることで得られる。
30
資料 19
分集団中の
1  Ft の割合の中には、 Ft で注目した(ことになる)1 分子以外の分子の複製に由来する遺伝
子群もあるが、多くの分集団を平均して考えると、 1  Ft の割合の遺伝子頻度構成は始原集団と同じとみな
せる。また、37 ページで説明するように、サンプルの間に他の coalescence が起こっている確率は無視できる
ほど小さい。
また、式(3.16)からヘテロ接合度が毎代
1 世代前に coalescence する確率が
により毎代
1
の率で減少することもわかり、それは集団中の 2 つの遺伝子が
2N
1
であることに由来すると考えると理解しやすい。つまり遺伝的浮動
2N
1
の率で複製が増え、その分だけ多様性が減ると理解できる。
2N
実は Ft = FST が成り立つのは、集団分化が資料 11 や資料 20(Figure 12.1 A)のように、1 つの始原集団か
ら同時に多数の同じサイズの集団が分化していくという理想状態のときのみである。資料 20(Figure 12.1 B)
のように一般に集団分化は系統関係性(歴史性)をもっている。理想状態のようには起こらない。それでも
HT  H S
は集団分化の指標として有用であり、実際の研究で非常によく使われている。
HT
31
資料 20
FST の F という記号はもともと Wright が固定指数 Ft との関連から用いたものなので、根井は集団分化だけ
の指標として
HT  H S
を GST と呼ぶことを提案している。また、集団分化が資料 20(Figure 12.1 B)の
HT
ようであっても、式 (3.12) の
(1  FIS )(1  FST )  1  FIT は成り立つし、式 (3.9) も集団のヘテロ接合度
が遺伝的浮動によってどのように変わっていくかを近似的に理解する上で極めて有用である。
FST (あるいは GST) を 2 集団間の遺伝距離 (genetic distance) としてよく使うが、それらは複数の(理想
的には無限にたくさんの)分集団間の全体としての分化の程度を表すのであり、わずか 2 集団間の集団分化
の指標としては適切ではない。2 集団程度では資料 11 のシミュレーションを 2 回しかやらないのと同じで、
確率的なゆらぎのため、総合集団の遺伝子頻度が始原集団の遺伝子頻度と同じとは限らず、式 (3.2) からし
て成り立つ可能性が低い。
遺伝子頻度構成に基づく 2 集団間の遺伝距離なら根井の標準遺伝距離など、そのために開発された方法を使
うべきである。集団間遺伝距離については

Molecular Evolution and Phylogenetics, M. Nei and S. Kumar, Oxford University Press (2000)

分子進化遺伝学、根井正利(五條堀孝・斎藤成也訳)
、培風館 (1990)
などを参照するとよい。
3.5. 有効集団サイズ
遺伝的多様性と進化に関わるのは繁殖に参加する個体数であり、集団個体数より一般に小さい。自己受精も
可能な無作為交配集団として繁殖参加個体数を一般化したのが有効集団サイズ (effective population size)
である。これは記号 Ne で表され、異なった繁殖構造をもつ集団に対しても、遺伝的変異の減少率が毎代
32
1
2N e
となるように(あるいは毎代の遺伝子頻度変化量の分散が
p (1  p )
となるように)式が考案されている。
2N e
例 1) 集団の大きさが世代とともに増減する場合
Ft は式 (3.14) を拡張して
1  Ft  (1 
1
1
1
1
1
1
)(1  Ft 1 )  (1 
)(1 
)(1  Ft  2 )  (1 
)(1 
)....(1 
)
2 N t 1
2 N t 1
2 N t 2
2 N t 1
2 N t 2
2N 0
とするのが正しい。これを式(3.15)から (1 
(1 
1 t
) と等しいとすることにより Ne を与える。すなわち、
2N e
1 t
1
1
1
)  (1 
)(1 
)....(1 
)
2N e
2 N t 1
2 N t 2
2N 0
左辺は (1 
t
t
1 t
« 1、すなわち t « 2Ne のとき)
)  (1 
) と近似できる。(
2N e
2N e
2N e
右辺は (1 
t 1
1
1
1
1
と近似できる。よって
)  1 
)....(1 
)(1 
2N 0
2 N t 2
2 N t 1
i 0 2 N i
1 1 1
1
1
1
)
 (


 .... 
N e t N1 N 2 N 3
Nt
(3.17)
となる。小さい N ほど Ne に大きく貢献する。つまりどんなに普段 N が大きくても1回でも急激な集団の縮
小が起これば集団中の変異性はそれに大きく影響される。これをビンの首(ボトルネック)効果とよぶ。
例 2) オスとメスの区別が必要な場合(例えばオスとメスで繁殖個体数に差がある場合)
ここまで仮想的な無作為交配システムを想定し、オスとメスの区別を考慮していない。自己受精も許容して
いる。ここで 1 個体の 2 つの allele が最も直近で coalecence する確率を考える。資料 21 参照。
仮想的な交配システムの場合、最も直近の coalescence 祖先遺伝子は 1 世代前(親世代)にいる。そして 1 世
代前に coalesce する確率は 29 ページにように
1
である。
2N e
オスとメスの区別のある場合、ある個体の 2 つの allele は 1 世代前の異なる個体(オスとメス)に由来する。
繁殖可能なオスとメスの個体数をそれぞれ Nm、Nf とする。最も直近の coalescence 祖先遺伝子は 2 世代前(祖
父母世代)にいる。親世代の一方の親遺伝子に注目する。これは祖父母世代のオス由来かメス由来のどちら
かである。オスに由来する場合(確率
1
1
)、2 つ目の親遺伝子もオスに由来し(確率 )、2Nm 個のオス遺伝
2
2
33
子のうちで 1 つ目と同じ遺伝子に由来する(確率
はこれら 3 つの確率の積で
1
1
となる。同様にメス側で最も直近で coalescence する確率は
となる。
8N m
8N f
仮想状態とオスメス区別状態を対応させると、
Ne 
1
)。よって、オス側で最も直近で coalescence する確率
2N m
4N m N f
Nm  N f
1
1
1
となり、


2 N e 8N m 8N f
(3.18)
が得られる。仮にオスが無限大に近いほどたくさんいても繁殖にあずかるメスが 1 個体であれば Ne は 4 にし
かならない。オスとメスとで繁殖個体数に差があるのはよくある状況で、(3.18)は性による繁殖戦略や移動性
の違いなど議論する文脈で重要な式となる。
このように、一般に有効集団サイズ Ne は見かけの集団サイズ N よりはるかに小さくなる。これ以降、集団
サイズは Ne と表記する。
資料 21
3.6. coalescence に要する時間の期待値
集団中からサンプルした n 個の遺伝子について、過去に遡ってそれらのどれかに coalescence が起こるまで
にどれくらいの時間がかかるのだろうか?これを考えることで集団に 1 個から始まった突然変異遺伝子が遺
伝的浮動で固定するまでの時間の期待値を求めることができる。
34
確率 P の出来事が初めて起こるまでの時間のことをこの出来事の待ち時間という。ここでは集団中の n 個
の遺伝子のどれかに t 世代前に初めて coalescence が起こる(coalescence が一段階進む)までの待ち時間 t と
その確率分布 P (t ) を考える [ t 世代前までのどこかで coalescence する確率である Ct (あるいは突然変異
がないときの Ft )とは異なることに注意]。t-1 世代の間は毎代 coalesceence せず、最後の 1 世代で初めて
coalescence するのであるから、1 世代で coalescence が起こる確率を C1 とおくと P (t ) は、
P(t )  C1 (1  C1 ) t 1 で与えられる(資料 22 参照)。
したがって、coalescence が起こるまでの待ち時間の期待値
t は

t   tC1 (1  C1 ) t 1 となる。
t 1
資料 22
1  C1  D と置くと
t  C1 (1  2D  3D 2  )
ここで
S n  1  2 D  3D 2    nD n 1 と置くと
DS n  D  2 D 2    (n  1) D n 1  nD n であるから辺々引いて
(1  D ) S n  1  D  D 2    D n 1  nD n
さらにここで
X  1  D  D 2    D n 1 と置くと
DX  D  D 2    D n 1  D n であるから辺々引いて
35
X 
1 Dn
1 D
(1  D) S n 
Sn 
よって
1 Dn
 nD n
1 D
1 Dn
C1

2
nD n
C1
すなわち
ここで
lim nD n  0 、 lim D n  0 であるから lim S n 
n
t 
n
1
C1
n
1
C1
2
したがって
(3.19)
すなわち coalescence が初めて起こるまでの待ち時間の期待値は 1 世代で coalescence する確率の逆数となる。
サンプルが 2 つの場合は 1 世代前に coalesce する確率 C1 は
C1 [n  2] 
待値
1
なので、集団中から無作為に選んだ 2 つの遺伝子が遡って coalescence する待ち時間の期
2N e
t2 は
t 2  2 N e 世代
(3.20)
となる(資料 23)
。
資料 23
次に集団中から n 個の遺伝子をサンプリングすることを想定する(資料 24)
。まず、1 世代前に n 個のサン
プルのどれかに coalescence が起こる確率
C1 (n) は、1 世代で coalescence が全く起こらない確率を 1 から引
きくことで得られる。
C1 (n)  1  (
2N e  1 2N e  2 2N e  3
2 N  (n  1)
1
2
3
n 1
)(
)(
) e
)(1 
)(1 
)  (1 
)
 1  (1 
2N e
2N e
2N e
2N e
2N e
2N e
2N e
2N e
Ne が十分大きく、n が Ne より十分小さければ近似を用いて


1
1 n( n  1) n(n  1)
C1 ( n)  1  1 
(1  2  3    n  1)  

2
4N e
 2N e
 2N e
36
となる。これは n 個のサンプルのどれか 2 つを選んでそれらが 1 世代前に coalescence する場合の確率と同じ
ある。言い換えると n 個の遺伝子が n-1 個に 1 世代で coalescence する確率である。さらに別に coalescence
のペアが存在したり、3 つ以上が 1 つに coalescence したりすることは起こりうる。しかし、Ne が十分大きく、
n が Ne より十分小さければ、それらの確率はどれか 2 つだけが coalescence する確率に比べると十分小さく
なり無視できる。
したがって n 個のサンプルに初めて coalescence が起こるまでの待ち時間の期待値
tn 
4N e
世代
n(n  1)
(3.21)
t n は式 (3.19) から
(資料 24)。
資料 24
さらに、n 個のサンプルがすべて 1 個に coalescence する待ち時間 [もっとも最近の共通祖先 (Most Recent
Comon Ancestor) までの時間 TMRCA とも言う] の期待値は、n 個が n-1 個になり、次に n-2 個になり、
最後に 2 個から 1 個になる待ち時間の期待値の合計であるから(資料 25 の Figure 3.15)
n
n
i 2
i 2
TMRCA   t i  
n
4N e
1
1
1
 4N e  (
 )  4 N e (1  ) 世代
i (i  1)
i
n
i 2 i  1
(3.22)
となる。
サンプル数を大きくしていくにつれこれは 4Ne に近づいていく。したがって集団の全遺伝子が coalescence
する待ち時間の期待値は 4Ne 世代となる。これは 22 ページで登場した固定時間のことであり、難解な拡散
モデルに依らなくても簡単に求まった訳である。
37
資料 25
3.7. 遺伝的浮動と突然変異
ここまでは単純化のために突然変異を無視してきた。遺伝的浮動により、集団のすべての遺伝子はいずれひ
とつの遺伝子の複製に由来してしまうため、集団は変異性を失って均一化してしまう。しかし現実には、新
しい変異が突然変異により供給される。集団は遺伝的浮動による変異の除去と突然変異による変異の供給の
平衡状態に落ち着く。したがって、平衡選択のような自然選択が働かなくても集団中に多様性が持続するこ
とになる。固定指数に突然変異を考慮することで、遺伝的浮動と突然変異の平衡状態を定式化することがで
きる。そこから平衡状態におけるヘテロ接合度や allele の種類数を予測することができる。
3.7.1 固定指数 Ft と突然変異
世代当り遺伝子当りの突然変異率を u、有効集団サイズを Ne とする。突然変異が起こるという前提のもとで
も、集団から無作為に抽出した 2 つの遺伝子が t 世代前までに coalescence する確率 Ct は式 (3.15) と同様に
C t  1  (1 
1 t
)
2N e
(3.23)
である。しかし、固定指数 Ft はもはやこの式では表せない。突然変異が起こると、複製に由来するもの同士
でも配列が異なるからである。Ft とは集団から無作為に選んだ 2 つの遺伝子が t 世代前までのどこかで複製
に由来し、かつ突然変異を免れ続けている確率である。式 (3.13) のときと同様に考えるのに加えて、2 つの
遺伝子とも 1 世代の間に突然変異しなかった確率
(1 − u)2 を掛ける必要がある(資料 26)。すなわち
Ft  [
1
1
 (1 
) Ft 1 ](1  u ) 2
2N e
2N e
(3.24)
となる。これは漸化式なので、t 世代のすべての世代で突然変異を免れたことを意味する。
38
資料 26
資料 18 の Figure 9 のように突然変異がなければ coalescence コピーは最初急激に増加し徐々に増加が小さくな
っていく。突然変異率がこれとどこかで拮抗する。その平衡状態では複製で同一コピーが増えた分だけ突然
変異がコピーに落書きをして、それ以上同一コピーが増えなくなると考えればよい(資料 27)
。
資料 27
39
平衡状態では Ft = Ft-1 なので、これを F̂ と書いて式 (3.24) を変形する。
1
1 ˆ
Fˆ  [
 (1 
) F ](1  u ) 2
2N e
2N e
Fˆ 
(1  u ) 2
1  2u
1
1



2
4 N e u  1  2u 4 N e u  1   1
2 N e  (2 N e  1)(1  u )
(3.25)(近似は u « 1 のため)
が得られる。4Neu は通常  と表記され、次章でも示すように集団の多様性を決定する要となるパラメータ
である。世代当りに集団に出現する突然変異遺伝子の数を反映する値でもあるので集団突然変異率
(population mutation rate) と呼ばれる。
3.7.2. 平衡状態でのヘテロ接合度
集団分化や種内変異レベルの時間スケールを考える上では、突然変異率は十分小さいため、まったく同一の
変異が起こることはないと考えてよく、常に新規の allele を作り出すと考えてよい。これを無限アリールモデ
ル (infinite allele model) という。突然変異と遺伝的浮動のもとでの集団内多様性は、(1) 集団中の複製に由
来しない 1-Ct の割合の遺伝子と (2) 複製に由来するが突然変異を受けた Ct -Ft の割合の遺伝子から
生じる。世代 t での集団のヘテロ接合度
H t を、式 (3.16) の時のように考えると、それは
H t  H 0 (1  Ct )  Ct  Ft
(3.26)
で与えられる。
平衡状態とはそれ以上時間が経過しても状況がかわらない状態なので、式 (3.23) の Ct も平衡状態まで達し
て Ct = 1 である。したがって平衡状態の Ĥ は式 (3.26) から
4N eu

Hˆ  1  Ft 

4N eu  1   1
Neu « 1、つまり u «
ができる。その場合は
Neu » 1、つまり u »
ができる。その場合は
(3.27)
1
の場合は突然変異の効果が遺伝的浮動の効果よりずっと小さい場合とみなすこと
Ne
Hˆ  0 となる。つまり突然変異を考慮しない場合と同じである。
1
の場合は突然変異の効果が遺伝的浮動の効果よりずっと大きい場合とみなすこと
Ne
Hˆ  1 となる。
資料 28 の Figure 12 は式 (3.27) をグラフ化したものである。4Neu » 1 では平衡選択の働きなしでも非常に
大きな変異を保有できることを表わしている。化石などから推定される種の分岐年代と第 5 章で後述する中
立進化速度からヒトの塩基当り年当りの突然変異率は約 1 x 10-9 であると考えられている。よって、遺伝子当
り(約 1000 bp)世代当り(約 25 年)の突然変異率 u は約 2.5 x 10-5 である。第 4 章で後述するように、ヒト
の Ne は約 1 x 104 である。よってヒト集団では遺伝子当りの 4Neu の値は約 1 であり、高い多様性を有する
40
ことがわかる。さらにゲノム当り(約 3 x 109 bp)で見ると u だけでも世代当り約 75 であるため 4Neu の値
は約 3 x 106 という膨大なものとなり、ゲノムレベルのヘテロ接合度は非常に大きな値(実質的に1)となる。
このことが第 7 章で取り上げる中立説提唱の論拠の1つになっている。
資料 28
3.7.3. 平衡状態での allele の種類数
遺伝的浮動と突然変異の平衡状態では、
集団から無作為抽出した n 個の遺伝子に何種類の allele があるかを、
 と n から予測できる。allele の数を k とすると、その期待値 E(k)は
E (k )  1 




 ... 
 1   2
  n 1
Ewens の式
(3.28)
 « 1、つまりは Neu « 1 の場合、すなわち突然変異の効果が遺伝的浮動の効果よりずっと小さい場合は
E (k )  1
 » 1、つまりは Neu » 1 の場合、すなわち突然変異の効果が遺伝的浮動の効果よりずっと大きい場合は
E ( k )  n となる。
3.7.4. 中立性・集団サイズ定常性(個体群動態)の検証 (Ewens-Watterson test)
遺伝的浮動と突然変異の平衡状態では、式 (3.28) で予測される種類数の allele が、(3.27) のヘテロ接合度を
満たして分布する。ここから低頻度と高頻度の allele がどれくらいの種類あり、中頻度の allele がどれくらい
の種類あるのか、という allele 頻度の分布(頻度スペクトル:frequency spectrum)が予測できる(資料 29)。
この分布は allele が k 種類あるとき n 個のサンプル中にそれぞれの allele が何個ずつあるかの確率
41
Prn1 , n2 , , nk , k  
n! k
k!n1 n2  nk S n ()
(3.29)
S n ()  (  1)(  2) (  n  1)
例えば、k = 3, n = 10 のサンプルで、
(3.30) から求められる(Ewens-Watterson の式)。
2,
3,
5 である確率は
10! 3
1
となる。   1 ならばこれは
である。
3!2  3  5  (  1)(  2)  (  9)
180
この allele 頻度スペクトルは集団サイズが世代間で一定という暗黙の条件のもとに導かれている。さらに allele
の間に適応度の差がない(自然選択が働かない)、すなわち allele の多型性は自然選択に対して中立的である
という前提がある。したがって、観察データが理論予測と異なるときは、これらの前提が成立していないこ
とを支持する。この検定を Ewens-Watterson test という。次の 2 つのケースが問題となる(資料 29)
。
資料 29
(1)
理論予測よりも低頻度と高頻度の allele の種類数が多く、中頻度 allele の種類数が少ない場合:すべ
ての変異は少数派として始まる。よって、ボトルネックや創始者効果によって、変異性が低下してか
ら時間が十分経っていないと、低頻度の新規変異と高頻度の在来 allele ばかりで中間の頻度の allele
がまだ登場しない(つまり平衡に達していない)ため、こうなることが期待される。集団サイズが拡
42
大中のときも新たな変異は皆少数派のため、このようになることが期待される。また、遺伝子頻度構
成の大きく異なる集団が少数移入して間もない場合もこのようなる。一方で、ある遺伝子のある allele
に強い正の自然選択が働くと比較的短い期間にその allele が固定され、その遺伝子と近傍から変異性
が失われる(selective sweep)。この場合は当該遺伝子領域にこのパターンが現れると期待される。
また、ある遺伝子に生じる突然変異のほとんどが弱有害で浄化選択が働く場合も、変異が低頻度に保
たれるため、当該遺伝子にこのようなパターンが期待される
(2)
理論予測よりも低頻度及び高頻度 allele の種類数が少なく、中頻度 allele の種類数が多い場合:集団
サイズが縮小している過程では低頻度 allele が優先的に消失するため、このようなパターンが期待さ
れる。遺伝子頻度構成の大きく異なる集団から多数移入してもこのようなパターンが期待される。あ
る遺伝子に平衡選択が生じる場合は当該遺伝子領域にこのようなパターンが期待される。
3.8. 遺伝的浮動と移住
遺伝的変異性は突然変異だけでなく移住によっても供給される。一般に移住率は突然変率よりずっと大きい
ため、移住による変異性の増大効果は突然変異より遥かに大きい。また、突然変異と違って集団分化を妨げ
る。移住と遺伝的浮動の平衡を考えることで移住率の推定が可能となる。
3.8.1. 固定指数 Ft と移住
様々な移住のパターンがあるが、ここでは最もシンプルな island model の場合を紹介する。資料 20 の Figure
12.1A のように分岐した多くの分集団があり、各集団から m の割合の遺伝子を無作為に抽出して拠出し、そ
れを混合して無作為に各集団に拠出数と同じ数だけ返却するというプロセスを考える(資料 30 の Figure 6.18)。
この場合移入遺伝子の遺伝子頻度構成は総合集団の遺伝子頻度構成と同じになる。
資料 30
43
m は集団中のその世代に移入してきた遺伝子の割合、すなわち世代当り遺伝子当りの移住率 (migration
rate) ということになる。有効集団サイズを Ne とする。移住が起こるという前提のもとでは、突然変異の場
合と違って、
集団から無作為に抽出した 2 つの遺伝子が t 世代前までに coalescence する確率 Ct は式 (3.23) で
はもはや表せない。移住はその集団の親世代からの複製に由来しないからである。Ct は式 (3.24)と同様に各
2
世代で両遺伝子とも移入遺伝子でない確率 (1 − m) を掛けて
Ct  [
1
1
 (1 
)Ct 1 ](1  m) 2
2N e
2Ne
(3.31)
で与えられる。突然変異を無視すれば、固定指数 Ft は Ct と同じであるので
Ft  [
1
1
 (1 
) Ft 1 ](1  m) 2
2N e
2N e
(3.32)
漸化式なので、t 世代のすべての世代で移住を免れて coalescence することを意味する(資料 31)。
資料 31
遺伝的浮動と移住が平衡状態にあるとは、遺伝的浮動によって同一コピーが増えた分それが外に移出し、入
れ替わりに外から移入が起こる状態と考えればよい(資料 32)。
平衡状態では Ct = Ct-1 なので、これを Ĉ と書いて式 (3.25) の時と同様に式 (3.31) を変形すると
Cˆ 
1
4N em  1
(近似は m « 1 のため)
(3.33)
が得られる。同様に
Fˆ 
1
4N em  1
(3.34)
44
資料 32
3.8.2. 平衡状態でのヘテロ接合度
突然変異を無視すれば移住と遺伝的浮動のもとでの集団内多様性は集団中の複製に由来しない 1-Ct の割
合の遺伝子から生じる。Island model では移入遺伝子の allele 頻度構成は総合集団(始原集団)の allele 頻度
構成と同じため、世代 t のヘテロ接合度
H t は式 (3.26) と同様に考え、また、突然変異を考慮しなければ
Ct  Ft であるため、
H t  H 0 (1  Ct )  Ct  Ft  H 0 (1  Ct )
となる。
よって平衡状態でのヘテロ接合度 Ĥ は式(3.33)から
Hˆ 
4N em
H0
4N em  1
(3.35) で与えられる。
Nem « 1、つまり m «
できる。その場合は
1
の場合は移住の効果が遺伝的浮動の効果よりずっと小さい場合とみなすことが
Ne
Hˆ  0 となる。つまり移住を考慮しない場合と同じである。
Nem » 1、つまり m »
1
の場合は移住の効果が遺伝的浮動の効果よりずっと大きい場合とみなすことが
Ne
できる。その場合は Hˆ  H 0 となる。つまりまったく集団分化しないのと同じになる。
移住に加え突然変異を仮定しても(資料 33)、Ct の漸化式は式 (3.31) で平衡値は式 (3.33) のままである。
しかし固定指数 Ft は変わる。ある遺伝子が移入遺伝子でなく、かつ突然変異遺伝子でもない確率は
(1  m)(1  u )  1  (m  u )  mu  1  (m  u ) (近似は mu « m+u « 1 のため)であるので
45
Ft の漸化式は
Ft  [
1
1
 (1 
) Ft 1 ][1  (m  u )] 2
2N e
2N e
(3.36)
平衡値は
Fˆ 
1
4 N e (m  u )  1
(3.37) となる。
資料 33
この場合の世代 t のヘテロ接合度
H t  H 0 (1  Ct )  Ct  Ft
Hˆ 
H t は式 (3.26) と同様に考え、
となり、平衡状態でのヘテロ接合度 Ĥ は式(3.33)と(3.37)から
4N e m
1
1
H0 

4N em  1
4 N e m  1 4 N e (m  u )  1
(3.38) となる。
しかし、通常は m » u であるため、m に対して u は無視でき、実質的に
Fˆ 
1
4N em  1
Hˆ 
4N e m
H 0 と考えてよい。
4N e m  1
Nem « 1、つまり m «
1
の場合は、ヘテロ接合度は 40 ページの突然変異だけの場合と同様に考える。
Ne
Nem » 1、つまり m »
1
の場合は、上述のように Hˆ  H 0 となるだけでなく、突然変異の効果が大き
Ne
く Neu » 1 であれば H 0 (総合集団の意)が突然変異のために
46
H 0  1 となり Hˆ  1 となる。
3.8.3. 移住率の推定
31 ページで説明したように、資料 20 の Figure 12.1A のように集団が分岐した場合、 FST 
HT  H S
で定
HT
義される集団分化指標 FST は固定指数 Ft と一致する。island model はそのような集団分岐パターンでの移
住であるので、移住と遺伝的浮動が平衡に達しているとき、FST
から FST 
Nem 
 Fˆ とみなすことができる。よって式(3.34)
1
とみなすことができ、ここから移住率が
4N e m  1
1 1
(
 1)
4 FST
(3.39)
と推定される。 N e m はその世代に移入してきた個体数を表す。したがって複数の集団の遺伝子頻度を測定
し、FST を計算することで、island model を仮定したときの世代当り移入個体数を推定できる。多くの仮定が
含まれているが移住率の有効な目安となる。
3.8.4. 常染色体性でない遺伝子の場合
ミトコンドリア DNA は母系遺伝で半数性のため、任意の 2 本の配列が 1 世代前に coalescence する確率は
でなく、メスの有効集団サイズ N f を用いて
1
2N e
1
である。したがって、式 (3.32)や(3.34) で 2 N e 部分を
Nf
N f と置き換え、 FST  Fˆ から、
FST 
1
となり、式 (3.39) に倣いメスの移住率を
2N f m  1
Nfm 
1 1
(
 1)
2 FST
と推定できる。Y 染色体遺伝子も同様に考え、オスの有効集団サイズ
Nmm 
N m を用いて、オスの移住率を
1 1
(
 1)
2 FST
と推定できる。
3.9. 実データでの注意
実データの場合はさらに集団の数、集団によるサンプル数の違い、標本であることに起因する不偏推定量に
よる補正など、一連の計算に組み込む必要がある。詳しくは Nei and Kumar (2000)、根井 (1990)などを参照の
こと。
47
第4章
集団遺伝学 III (塩基配列の集団データ)
4.1. 塩基配列レベルの多様性
2 本の塩基配列の間に 1 つの塩基の違いしかなくても、10 の違いがあっても、配列を 1 つの塊としてみた場
合は単に 2 つの allele という区別があるだけで、これまでの allele 数やヘテロ接合度だけでは十分に配列レベ
ルの多様性を記述することができない。
4.1.1. 多型サイト数と塩基多様度
配列データの多様性を表現する代表的な要約統計量として多型サイト数 (number of segregating sites, S;
あるいは配列長で割った s) と塩基多様度 (nucleotide diversity,  ; あるいは配列長で割った
)
がある。
例を挙げて説明する。今ある集団から 90 塩基からなる 8 本の配列データを採取したとする。
Segregating site
1
2
3
4
5
6
7
I
ggtactccgTttgctcagcaTaaacttgccccaAtggactggaCctgatgggagaaactCgacataatTagatctacgaGtcatcagctc
II
ggtactccgTttgctcagcaTaaacttgccccaAtggactggaCctgatgggagaaactCgacataatTagatctacgaGtcatcagctc
III
ggtactccgTttgctcagcaTaaacttgccccaAtggactggaCctgatgggagaaactCgacataatTagatctacgaGtcatcagctc
IV
ggtactccgTttgctcagcaCaaacttgccccaTtggactggaActgatgggagaaactCgacataatCagatctacgaGtcatcagctc
V
ggtactccgTttgctcagcaCaaacttgccccaTtggactggaActgatgggagaaactCgacataatCagatctacgaGtcatcagctc
VI
ggtactccgCttgctcagcaCaaacttgccccaCtggactggaCctgatgggagaaactCgacataatCagatctacgaGtcatcagctc
VII
ggtactccgCttgctcagcaCaaacttgccccaCtggactggaCctgatgggagaaactCgacataatCagatctacgaAtcatcagctc
VIII ggtactccgCttgctcagcaCaaacttgccccaCtggactggaCctgatgggagaaactTgacataatCagatctacgaGtcatcagctc
configuration
(3,5)
(3,5)
(2,3,3)
(2,6)
(1,7)
多型サイト数とは多型のあるサイトの数 S (例では大文字のサイトで S
(3,5)
(1,7)
 7 ) であり、昨今の言い方では
SNP (single nucleotide polymorphism) の数である。多型サイトの数を配列の長さ L で割った s の値は、この
例では
s  7  90  0.0778 。
塩基多様度とは n 本の標本から取り出した 2 本 (i と j) の塩基相違数 d ij をすべての組み合わせについて
求め平均した平均塩基相違数 (mean pariwaise difference)  
d
i j
n
の組み合わせの総数は
II
III
IV
V
VI
VII
VIII
I
0
0
4
4
4
5
5
であるので  
8
C2 
ij
C2
である。例では配列は 8 本なので 2 本
8 7
 28 となり、各 d ij は
2
II
III
IV
V
VI
VII
0
4
4
4
5
5
4
4
4
5
5
0
3
4
4
3
4
4
1
1
2
5  6  4  13  3  2  2  1  1  2 92

 3.3 、   3.3  90  0.037 となる。
28
28
48
塩基多様度にはもうひとつの重要な側面がある(資料 34 参照)。配列をサイト毎に見る。あるサイトの異な
る種類の塩基の個数を
、
とおくと、そのサイトにおける異なる塩基のペアの数は
n n
k l
えば前ページの多型サイト 1 なら T の個数が 5 で C の個数が 3 なので異なる塩基ペアの数は
ある。それを組合せ総数である n C 2 (この場合 8 C 2  28 ) で割った数 hi 
k
l
である。例
3  5  15 で
n n
k l
n
k
C2
l
はそのサイト (サイ
ト i) の相違塩基のペアの割合になる。これを全多型サイトに亘って合計すると平均塩基相違数と同じになる。
すなわち  
S
h
i 1

i
である。前ページの例では
(3  5)  (3  5)  (2  3  2  3  3  3)  (2  6)  (1  7)  (3  5)  (1  7) 92
で、上と同じである。

28
28
資料 34
ここで hi 
n n
k l
n
hi 
n n
k l
n
k
C2
l
k
C2
l
の意味をさらによく理解するために、この式を次のように変形してみる。
n n
1
1
2nk nl
2( k  l )n 2


n n
n
2
2
n n
 k l
 k l

2( k  l )

n(n  1)
n(n  1)
n  1 k l n n
2
2
49
nk
 2( n
ここで
k l

nl
n
は統計学でいう標本から母集団を推定
) はそのサイトのヘテロ接合度であり、
n
n 1
するときに用いる不偏推定量の係数である。よって、あるサイトの hi はそのサイトの母集団におけるヘテ
ロ接合度の推定値ということになる。これを全多型サイトに亘って合計した  は母集団における各サイト
のヘテロ接合度推定値の総和ということになり、  を配列の長さで割った

は母集団における各サイト
のヘテロ接合度推定値の平均という意味になる。

d
i j
n

C2
d
i j
n
ij
ij
C2
も配列型レベルのヘテロ接合度と関係づけて考えることができる(資料 35)
。
1
1 1
2(  )n 2 d ij

2 i j n n
n n
n

2( k  l )d kl


n(n  1)
n  1 k l n n
2
資料 35
すなわち、各配列型ペアの頻度(ヘテロ接合度)にそれぞれの塩基相違数(相違度)を掛けた値を全てのペ
アについて合計した値(の母集団推定値)である。
各サイトの塩基の度数を表示した
,
をそのサイトの塩基頻度組成(nucleitide configuration)という
50
n n
(度数の小さい順に表示:48 ページの例参照)。
k l
k
l
が大きい塩基頻度組成のサイトはヘテロ接合度が高
い。同じ多型サイト数の下でもヘテロ接合度が低い塩基頻度組成のサイトばかりだと[最低の(1,n−1)は
singleton site という]  は小さく、ヘテロ接合度が高い塩基頻度組成のサイトばかりだと  は大きくなる。
4.1.2. 塩基多様度の期待値
 は集団中から無作為に取り出した 2 本の配列の塩基相違数の期待値とも考えられる。2 本の配列が
coalescence するのに要する時間の期待値
然変異を考慮する時間の総数
t 2 は 36 ページの式 (3.20) のように 2Ne 世代である。よって突
T2 は T2  2  t 2  4N e 世代である。この期間に 2 本の配列に蓄積する突然
変異の数の期待値が  というわけである(資料 36 参照)
。
資料 36
塩基サイトは無数にあり、サイト当りの突然変異率は非常に小さいので、集団分化や種内変異レベルの時間
スケールでは、突然変異は常にそれまでに突然変異の生じていなかったサイトに生じると考えてよい。これ
を無限サイトモデル (infinite site model) という。また、同一 DNA 領域に同時に 2 つ以上の変異が生じる
確率も極めて低い。したがって突然変異ごとに新たな配列(allele)が生じる(40 ページで紹介した infinite allele
model に対応する)
。この前提のもとで、世代当り配列当りの突然変異率を u とおくと、時間の総数
T2 に
蓄積する突然変異数の期待値は 4Neu となる(資料 36)。よって  の期待値は
E()  4 N e u  
(4.1)
となる。世代当り塩基サイト当りの突然変異率を
E ( )  4 N e   

とおくと、サイト当りの塩基相違数

の期待値は
(4.2) となる。
40 ページで触れたように 4Neu は、式 (4.1) と式 (3.27) や (3.28) を通じて、
塩基サイトレベルの多様性と、
51
配列を1つの塊と見た遺伝子レベルの多様性を結びつける要となり、通常  と表記される。4Ne は通常

と表記される。配列の長さを L とすると  = L である。
4.1.3. 多型サイト数の期待値
infinite site model のもとでは、n 本のサンプルの多型サイト数とは、それらすべてが過去の 1 本に coalescence
する間に起こった突然変異の総数に他ならない。37 ページの式(3.21)のように、n 個のサンプルが n-1 個に
coalescence する待ち時間の期待値
tn は
4N e
世代である(資料 25 の Figure 3.15)。37 ページでは n 個
n(n  1)
のサンプルが 1 個に遡るまでの時間 (TMRCA) は
n
t
i 2
i
であることを導いた。ここでは系図の枝の長さの総
。まず i 個から i 1 個に coalescence する時間の総数を Ti とおくと、
計 T を考える(資料 37 参照)
Ti  iti  i
4Ne 4Ne

i(i 1) i 1
n
n
i2
i 2
T   Ti  4 N e 
次にすべてのステップでこれら総和することで
n 1
1
1
 4N e 
i 1
i 1 i
(4.3) が得られる。
資料 37
したがって、系図中に降りてくる突然変異の総数の期待値は式 (4.3) に世代当り配列当りの突然変異率 u を
掛ければよい。それが多型サイト数 S の期待値である。すなわち
52
n 1
n 1
1
1
E ( S )  uT  4 N e u   
i 1 i
i 1 i
(4.4)
である。多型サイト数の割合 s の期待値は、世代当りサイト当りの突然変異率を
n 1
n 1
1
1
E ( s )  T  4 N e μ   θ 
i 1 i
i 1 i

とおくと
(4.5) となる。
4.2. 多型サイト数の尤度関数
塩基多様度や多型サイト数の期待値は  により決定されることを示した。言い方を変えると、塩基多様度
ゆうど
や多型サイト数は  の下で確率的に与えられる。専門的な言い方をすると、 をパラメータとする尤度
もっと
[ 尤 もらしさの度合い] 関数として与えられる。本セクションでは、期待値ではなく、さらに一歩踏み込んで、
多型サイト数がとりうる値に対して、それぞれそうなる確率を考える。そうすることで多型サイト数はどう
いう値になるのがもっとも起こり易いのか、それは他の値よりどれくらい起こり易いのかという、期待値だ
けではわからないことがわかる。
第 3 章の 35 ページで、集団からサンプルした遺伝子のどれかに、時間を遡って初めて coalescence が起こる
(実質的には n 個のサンプルが n-1 個に coalescence
までの世代数
(待ち時間)の確率関数 P(t) を紹介した
するまでの世代数)
。35 ページのように P(t) は
P(t )  C1 (1  C1 ) t 1 で与えられる。これをもっと扱いやすい形に変形することから始める。ここで
C1 « 1 より 1  C1  e C1 と近似できる(資料 13)。よって確率関数 P(t) は
P(t )  C1e C1 (t 1)  C1e C1 e C1t  C1e C1t
(e
C1
 1 のため)
という、より取り扱い易い形の指数関数になる。
サンプル数 n = 2 の場合
まず最も単純な、サンプル数が 2 の場合を考える(資料 38)。n = 2 の場合、36 ページのように
C1 [n  2] 
1
なので
2N e
1
1  2 N e t2
P (t 2 ) 
e
2N e
となる。こういう式をパラメータ
次に、待ち時間
1
の指数分布、あるいは期待値 2Ne の指数分布という。
2N e
の間に起こる突然変異の数の確率分布を考える。2 つの配列からその共通祖先にそれぞれ
世代遡るので、突然変異を考える時間の総計は
の 2 倍の 2
53
世代である。2 が煩雑なため突然変異
を考える時間の総計 T2 で考える。T2 の期待値は 4Ne であるため、上式の考えをそのまま延長して、確率
分布 P(T2) は、期待値 4Ne の指数分布とみる。よって
1
1  4 N e T2
P(T2 ) 
e
4N e
(4.6)
資料 38
多型サイト数とは、この T2 世代の間に生じた突然変異の個数である。次に、T2 世代の間に生じる突然変異
の個数 S2(下付きの 2 は n = 2 の場合であることを明示するため)に対する確率関数を考える。
S2 回の突然変異は T2 世代のどこかで起こっている。遺伝子当りの突然変異率 u は十分小さいので 1 世代に
2 回以上起こらないと考える。よって、T2 世代のうち S2 世代で突然変異が生じる確率(T2 の下での S2 の
条件付き確率)と考える。それは生起確率 u の突然変異が生じた S2 世代を T2 世代の中から選ぶ二項分布
P( S 2 T2 ) T2 C S2 u S2 (1  u ) T2  S2
となる。
u « 1 で T2 » 1 であるため、 P( S 2 T2 ) は期待値 uT2 のポアソン分布
P( S 2 T2 ) 
(uT2 ) S 2 e uT2
S2!
(4.7) となる。
したがって、S2 の尤度関数 P (S ) は


0
0
P( S 2 )   P( S 2 T2 ) P(T2 )dT2  
1
(uT2 ) S 2 e uT2 1  4 N e T2
e
dT2
S2!
4Ne
となる。
これを解くと
P( S 2 ) 
1   


1  1  
S2
(  4 N e u)
(4.8)
となる [Watterson (1975) Theor. Popul. Biol. 7:256-276]。こういう式をパラメータ
54
1
の幾何分布という。
1 
式(4.8)は  の下での S2 の条件付き確率であるため
P ( S 2 ) 
1   


1  1  
S2
(4.9)
とも表記できる。
この確率分布の期待値は  である。 の期待値と同じである。n = 2 の場合に限り、式(4.8)は  の確率
関数でもある。ただし、 は n 本の配列中の、すべての 2 本ペアの相違度の平均値であるため、n が 3 以上
の場合は、 の確率関数は式(4.8)とは異なる。 の確率分布は、式(4.8)の分布から複数回取り出した S2 値
の平均値の分布であるため、n が十分大きければ、中心極限定理から、期待値 の正規分布に近づく。
S2 = 0 すなわち 2 つの配列が同一である確率は式(4.8)から
1
である。これは 40 ページの式(3.25)の F̂
1 
すなわち集団から無作為にサンプルした 2 つの遺伝子が突然変異を逃れ続けて由来により同一である確率と
同一であることがわかる。40 ページで触れたようにヒトの場合、約 1 kb の遺伝子当りの  は約 1 である。
よってヒトの集団から無作為にサンプルした 2 つの約 1 kb の遺伝子が同一配列である確率は約 1/2 であると
考えられる。ヒトのゲノム当りの は約 300 万なので、無作為にサンプルした 2 つのゲノム配列が同一であ
る確率は限りなく 0 に近いとわかる。
サンプル数 n ≧ 3 の場合
資料 39
サンプル数 n が 3 以上のときは、36 ページのように、i 個の遺伝子が i-1 個に 1 世代で coalescence する確
率が C1 (i ) 
i (i  1)
なので、i 個が i-1 個に初めて coalescence する(coalescence が一段階進む)までの
4N e
55
世代数 ti の確率分布 P(ti)は期待値
i ( i 1)
i (i  1)  4 N e
P(t i ) 
e
4N e
ti
4N e
の指数分布
i (i  1)
となる。
突然変異を考える時間の総計は ti の i 倍の iti 世代である。n = 2 の時と同様に突然変異を考える時間の総
計を Ti をおくと Ti の確率分布 P(Ti) は期待値
4N e
の指数分布となるため
i 1
i 1
i  1  4 N e Ti
P(Tn ) 
e
となる(資料 39)。
4N e
n = 2 の時と同様に、時間 Ti に起こる突然変異数 Si の確率分布 P( S i Ti ) は期待値 uTi のポアソン分布
P( S i Ti ) 
(uTi ) Si e  uTi
なので、Si の確率分布 P( S i ) は
Si !


0
0
P( S i )   P( S i Ti ) P(Ti )dTi  
i 1
(uTi ) Si e  uTi i  1  4 N e Ti
e
dTi
Si !
4N e
となる。
これを解くと

P( S i )  1

  

1 
1  1
 i  1  
 

1 

 i  1 
Si
(4.10)
となる [Watterson (1975) Theor. Popul. Biol. 7:256-276]。 の下での条件付き確率であることを明示すれば

P( S i )  1

  

1 
1  1
 i  1  
n
多型サイト数 S は
S
i 2
i
 

1 

 i  1 
Si
(4.11)
であるため、多型サイト数 S の確率関数 P ( S ) は i = 2 ~ n のすべての
coalescence 段階を通じて式(4.11)を総合したものとなり、煩雑でここでは示さない。
資料 40 は、式(4.9)と(4.11)に実際に値を入れて、Si の確率分布がどんな形をしているのか示した図である。
例として、 = 5 の場合を示した。これはヒト集団の約 5kb の遺伝子を考える場合に相当する。サンプル数
i が小さいほど分布が平坦である。 が大きいほどこの傾向は顕著となる。 の元になる i = 2 の場合が
最も平坦、すなわち分散が最大であることがわかる。一方、サンプル数 i が大きいほど Si の分布が狭いこ
とから、後述の の推定において、 より S に基づく方がより信頼性が高いことがうかがえる。
56
資料 40
4.3. 配列多型データからの基本パラメータの推定
多型サイト数や塩基多様度はパラメータ  の下で確率的に与えられる訳であるが、そもそも実測ができな
い の値はどうやって知るのだろう?
4.3.1.  のモーメント法推定量
式 (4.1)・(4.2) あるいは式 (4.4)・(4.5) から、実測した (あるいは

)あるいは S(あるいは s )を用
いて推定するのが最も簡便な方法である。すなわち
    (あるいは     )
S  S
n 1
1
(あるいは  s  s

i 1 i
(4.12)
n 1
1
i
(4.13)
)
i 1

これらの推定量をモーメント法推定量という。 と
 の関係は Tajima (1983 Genetics 105:437-460) により、
S と  の関係は Watterson (1975 Theor. Popul. Biol. 7:256-276) により見出されたので、  を  T (   を
 T )、  S
を  W (  S を  W )と呼ぶことがある。
それぞれの分散は
57
Θ
Θ
1
Θ
1
3
1
∑
1
Θ
3
2
9
∑
∑
1
Θ
1
1
3
1
1
Θ 9
∑
1
∑
3
2
1
∑
1
1
1
(L は配列の長さ)
で与えられる。
n が 2 のとき、各項の係数はすべて 1 である。n が大きくなるにつれ各係数は 1 より小さくなっていくため、
分散が縮小して信頼性が上がる。S(あるいは s )に基づく方がその縮小がより顕著であるため、推定の信
頼性がより高いことがわかる(前セクションの最後と同様)
。
4.3.2.  の最尤法推定
期待値と分散だけでは、推定の確からしさとしてはまだ不十分である。coalescence の考え方を活用して、尤
度関数 [例えば式(4.9)] を求めたりシミュレーションを行なうことで、最尤法により塩基配列の実測データか
ら  値や coalescence 待ち時間など重要なパラメータの推定値を信頼度付きで求めることができる。最尤法
とは、例えば S の尤度関数
P( S ) において S を観察値に固定し  を変化させていった時に P( S )
が最大になる  を最尤推定値とするやり方である。尤度関数による方法とシミュレーションによる方法を
説明する。
4.3.2.1. <尤度関数による  の推定>
資料 41A はサンプル数 n = 20、配列長 L = 1000 bp の仮想的なデータセットの例である(多型サイトのみ表
示)。多型サイト数は S = 8、塩基多様度は  = 2.9 なのでモーメント法推定値は、  s
   2.9  10 3
となる。n = 20 のときの尤度関数
 2.3  10 3 、
P( S  8  ) を 53-56 ページの考え方を基にして求め、
尤度曲線にしたのが資料 41 図 3B の実線である。最大尤度を与える最尤推定値が S によるモーメント推定値
の
2.3  10 3 と一致しているのがわかる。縦軸は最大値を 0 としたときの相対的な対数尤度にしてある。
最大対数尤度と対数尤度の差の 2 倍は
2
分布に従う。よって差が約 1.9 以内の範囲がおおよその 95%信頼
区間となる(資料 41 図 3B 横線)。このデータセットから得られた

推定値の 95%信頼区間はおよそ
1 ~ 6  10 3 と広く、20 回に 1 回はさらにその外の値になりうる訳である。このデータセットでは信頼性の
高い推定値を得ることができないことがわかる。
58
資料 41
4.3.2.2. <シミュレーションによる  の推定>
尤度関数は n = 2 のときの多型サイト数 S の場合 [ P ( S 2 ) ] は比較的簡単であるが、n が 3 以上の場合
の S や  の尤度関数などは専門家以外には難解となってくる。要約統計量は他にもいろいろあり、移住や
集団分化や集団サイズ変動などの条件を加えていくと、それらすべてについて尤度関数を求めることは困難
を極める。coalescence シミュレーションは尤度関数を使うことなく最尤推定値を求めることを可能にする。
資料 42 は集団サイズ変動なし、集団分化なし、移住なしの最もシンプルなシミュレーションの概要である。
(1) まず n 本の配列が最終的に1本に coalescence する系図をランダムにコンピューターに作成させる。その
際、そのうちの 2 本だけが 1 本に coalescence するとする。3 本以上が 1 本に coalescence したり、2 ペア
以上が同時に coalescence したりすることはないとする(それらの確率は非常に小さくて無視できる:36-37
ページ参照)
。
i ( i 1)
i (i  1)  4 N e
(2) 次に系図の分節間の長さ、つまり各 coalecesnce が起こるまでの待ち時間を確率 P (t i ) 
e
4N e
59
ti
(i = 2, 3, …, n)(56 ページ参照)に従って乱数により決める。
(3) (2)で得られた枝の全長(待ち時間の総計) T 
n
 it
i 2
(4) 突然変異数を期待値 uT のポアソン分布 P ( S T ) 
i
を計算する。
(uT ) S e uT
(54 ページ参照)に従って乱数により
S!
決める。
(5) 枝の長さに比例してランダムに各枝に突然変異を振り分ける。
(6) 配列データを得る。多型データの各種要約統計量 [多型サイト数や塩基多様度など]を算出する。
資料 42
資料 41 図 3B はサンプル数 n = 20、配列長 L = 1000 bp としてこのような手順の下で、ある
イズ Ne と突然変異率


(集団サ
に分けて与える)の値を与えて多数回(この図では 200,000 回)シミュレーション
を行ない、出てきた多型サイト数が S = 8 になるシミュレーションの割合を尤度としている(図中の□)。
の値を 10-4 ずつ変化させ、最も尤度が高くなる  を最尤推定値とする。尤度関数から求めた尤度曲線とき
れいに一致していることがわかる。つまり、尤度関数を知らなくても coalescence のプロセス(枝分け、待ち
時間の指数分布、突然変異数のポアソン分布)さえ理解していれば、 (あるいは
60

)の最尤法推定がで
きるのである。
要約統計量として塩基多様度  を用いる場合もシミュレーション手順は同じだが、負でない整数しかとら
ない多型サイト数と違って塩基多様度は大抵小数点以下がつくため(資料 41 図 3 での  の正確な値は
2.947368421…)、これとぴったり一致する  がシミュレーションで出てくることは滅多にない。そこで実デ
ータの値の~% 以内なら一致したとみなす近似法をとる(近似最尤法)。許容するずれの度合いを
 = 1%

と表す。
はかなり厳密な近似で真の尤度にかなり近いと考えられる。最尤推定値は の値を上げると計算時
間が減るが推定の精度は落ちる。資料 41 図 3C では = 10% でも = 1% とあまり違わない結果であるが、
100%では大きくずれることがわかる。この例では 10%でも良かったがどんなデータでもそうとは限らない。
さて、資料 41 図 3C の塩基多様度  による

の最尤推定値は
3.2  10 3 でモーメント法推定値の
2.9  10 3 とは微妙にずれている。95% 信頼区間もおよそ 1 ~ 9  10 3 と多型サイト数による  の推定
の場合よりかなり広い。58 ページで先述したように、一般に塩基多様度に基づく推定は多型サイト数に基づ
く推定より大きな分散を持ち、  の推定の精度が落ちる。
4.3.2.2.1. 棄却サンプリング法
coalescence シミュレーションによる  の最尤推定には他にも「棄却サンプリング:rejection sampling」とい
う方法がある。これはパラメータに予め何らかの確率分布情報(事前確率分布: prior probability distribution)
があるときに行ない、計算時間が節約できて便利である。事前分布は単に下限上限の範囲だけでもよいし何
らかの確率関数がわかっていればなおよい。事前分布からランダムに 1 つの  値を選び、その  値で上
記の(1)~(6)を試行し、生成された仮想データの要約統計量が実際の要約統計量と一致するかあるいはそれが
実際の要約統計量と設定のずれ以内であればその  値を採択する。そうでなければ棄却する。採択数が所
定の個数(10000 など)に達したところで終了する。 は重複を許してランダムに選んであるので、最も選
ばれた頻度の高かった値の  を最尤推定値とする。95%などの信用区間(credible interval)(ベイズ推定の
考え方が使われているので「信頼区間:confidence interval」ではなく信用区間と呼ばれる)は得られた分布の
中の位置から求まる。
4.3.2.3. < の推定精度の向上>
さて、資料 41 で示したように、長さ 1000 bp の配列 20 本を使っても推定した

はあまり当てにならない
という残念なものであることがわかった。どうすれば推定の精度を上げられるだろうか?資料 43 はサンプル
数、配列の長さ、調査遺伝子座位数を増やしていったとき、 の推定の分散を減らすのに最も効果があるの
はどれかを coalescence シミュレーションで調べた結果である。調べる遺伝子座位数を増やすことが最も効果
的であることがわかる。
61
資料 43
遺伝子座位数の効果の説明はこうである(資料 44 参照)。複数(l 個)の遺伝子座位それぞれで、多型サイ
ト数 S などから、シミュレーションなどで  の分布を推定するとする。次に、各遺伝子座から一つずつ  の
推定値を取り出して平均をとるということを何回も繰り返す。統計学から、それら平均値の分散は、各遺伝
子の  の分散の総和の 1/l になる。遺伝子座位間で  の分散はほぼ等しいと考えると、  の遺伝子間平
2
均値の分散は、1 遺伝子の  の分散の 1/l になる。つまり 10 遺伝子座それぞれで、多型サイト数 S などか
ら  の最尤あるいはモーメント推定値を得て、それらの平均値を用いれば、その背景にある理論上の分散は
1/10 になっていることを意味し、100 遺伝子座用いれば分散は 1/100 になっていることになる。つまり信頼性
が格段に上がる。
資料 44
実際の作業としては次のようにする方が効率がよい(資料 45 参照)
。ある 1 つの遺伝子座の要約統計量(例
えば多型サイト数 S )の観察値は、未知の  の下で自然が行った 1 試行の結果と考えることができる。複
62
数(l 個)の遺伝子座位で(例えば)多型サイト数 S を調べたとき、それらが同じ  の下で同じ確率に従
って生じたと考えれば、自然が行った複数回の試行と見ることができる。それらの平均値の分散は 1 試行の
分散の 1/l に縮小する。複数座位効果を反映させるには、棄却サンプリングにおいて、1 つの  値で、調べ
た遺伝子座の数だけ 59-60 ページの(1)~(6)を行ない、生成された仮想データの要約統計量の試行間平均をとる。
その分布は試行 1 回の場合の 1/l に縮小することになる。試行間平均値が実際の要約統計量の遺伝子座平均
値と一致するか所定のずれの範囲内のとき、その

値を採択する。そのすることで、  の推定の信頼性を
格段に向上させることができる。
資料 45
ミトコンドリア DNA によるヒトを含めた集団史の研究が行われてきている。しかし、どんなに配列を長く読
んでもミトコンドリア DNA は基本的に組換えがないため 1 遺伝子座にすぎず、様々な基本パラメーターの推
定には向いていない。むしろ、これだけに依拠して議論を構築するのは危険ともいえる。マイクロサテライ
トは複数座位を使うのが通常であるから遥かに意義が大きい。近年容易化してきている全ゲノム解析が究極
の有効策といえる。
4.3.2.4. <有効集団サイズの推定>
(あるいは  )の定義は   4 N e u (  4 N e  ) であり、有効集団サイズと突然変異率から構成される。
一般に突然変異率は化石などから推定される種の分岐年代と種間の塩基相違度から(相違が中立であれば第 5
章で後述する中立進化速度 = 突然変異率)から推定できる。また、最近では全ゲノム配列の親子比較から直
接に測定することも可能である。したがって、こうして求めた突然変異率と塩基多型データから推定した
から有効集団サイズ Ne が推定可能となる。
63

ヒト集団の塩基多様度

の実測値は約 0.1% である。よって塩基多様度に基づくヒトの
 (= 4Ne)
のモ
ーメント推定値は 0.1% となる。40 ページで前述したようにヒトの塩基当り年当りの突然変異率は約 1 x 10-9
-3
-9
であると考えられている。ヒトの世代時間を 25 年とすると 1 x 10 = 4 x Ne x 1 x 10 x 25 となるため、
Ne = 1 x 104 が導かれる。先述のようにこれは随分と簡略化した推定であるが、ヒトの有効集団サイズ約 1
万という数値が、実人口の約 70 億よりずっと小さいことがわかる。これは祖先の人口が小さかったことを反
映している(33 ページ参照)。
4.3.2.5. <2 つの配列の coalescence 待ち時間 (TMRCA) の推定>
第 3 章では coalescence 待ち時間の期待値を求めた。集団から取り出した 2 本の配列の間の塩基の違いは 0、1、
2、
・・・などいろいろなケースがある。2 本の配列の coalescence 待ち時間の期待値
t 2  2 N e はこういうい
ろいろなケースの待ち時間の平均値とも考えてよく、個々のケースに答えるものではない。54 ページの式(4.6)、
(4.7)、(4.8) により尤度関数 P(T2)、 P( S 2 T2 ) 、 P ( S 2 ) がわかっている。これらを使えばベイズの定理(資
料 46 参照)から S2 の下での待ち時間の総計 T2 の条件付き確率分布(すなわち S2 というデータが与えら
れたときの T2 の尤度関数) P (T2
P (T2 S 2 ) 
P ( S 2 T2 ) P (T2 )
P(S 2 )
S
S 2 ) が与えられる。
T 2
 2
S2!
1  


 4N e 
S 2 1
e

1 
T2
4 Ne
(4.14)
これは往復の時間であるので TMRCA は T2 の半分となる。
資料 46
例としてゲノム配列が公開されているある日本人男性(Fujimoto et al. 2010 Nat. Genet. 42:931-936)とヨーロ
ッパ系男性(Craig Venter)
(Levy et al. 2007 PLoS Biol. 5:3254)、そしてその日本人男性とある韓国人男性(Kim
et al. 2009 Nature 460:1011-1015)の Y 染色体の TMRCA の確率分布を求める(資料 47:間野修平氏 私信)
。
64
多型サイト(SNP)数 S2、配列長 L 、上述の有効集団サイズ Ne 及び突然変異率

を用いる。さらに Y
染色体は男性にしかなく、しかも半数性であるため、上式(4.14)で 4Ne を Ne に、 を NeuNeL) に
置き換えて推定する。その結果、その日本人男性と Craig Ventor の Y 染色体の TMRCA は約 7 千世代(約 17
万 5 千年)前、その日本人とその韓国人の Y 染色体の TMRCA は約 2 千世代(約 5 万年)前と推測できる。
1
図中の「Prior」とは TMRCA
1  N e T2
の事前確率分布である式(4.6)に相当する P (T2 ) 
e
であり(ただし
Ne
TMRCA は T2 の半分)、配列情報が何もないときの coalescence 待ち時間の確率分布である。配列情報が得ら
れたことでこのように非常に確度の高い確率分布(事後分布)に更新された。
資料 47
2 つの配列が同一(すなわち S2 = 0)であるとき、式(4.14)の尤度関数は
1 
1    4 N e T2
P (T2 S 2  0) 
e
4N e
すなわち期待値
(4.15)
4N e
の指数分布となる。
1 Θ
ヒトの集団から無作為にサンプルした 2 つの約 1 kb の配列が同一の場合、1 kb の遺伝子当りの  を約 1 と
考えると、それらの TMRCA の期待値は Ne 世代前、つまり約 10,000 世代前、約 25 万年前となる。100 kb
に亘って同一であれば TMRCA の期待値はこの約 1/100 で約 2500 年である。10 Mb 以上に亘って同一なら
65
TMRCA の期待値は 1 世代、すなわちその二人が兄弟であっても不思議ではない。分散を無視した期待値の話
であり、仮定も単純な限定的な議論ではあるが、同一配列の間にも分岐年代を考えることができることがわ
かる。分子時計の感覚しかないと同一配列の分岐年代はいつも 0 のように考えてしまうところである。
4.3.2.6. <複雑な個体群動態条件の下でのパラメータの推定>
集団のサイズ変動や分化、移住がある現実的な個体群動態の下でも配列データの様々な要約統計量(多型サ
イト数、塩基多様度、シングルトンサイト数、ハプロタイプ(用語 79 ページで後述)数、ハプロタイプヘテ
ロ接合度、最頻ハプロタイプ頻度など)が実現される様々なパラメータ(変動する有効集団サイズ、その変
動の時期、分集団の分岐の時期、分集団間の移住率など)の組み合わせを最尤推定することができる(資料
48 参照)。
資料 48
この場合でも coalescence の考え方の基本は同じである。2 つの遺伝子が 1 世代前に coalescence する確率 C1 を
(A) 集団サイズが変動する分岐前集団
(B) 集団分岐の直後
(C) 分岐後の各々サイズ変動し、かつ移住し合う 2 集団
の 3 つのケースでそれぞれ与えればよい。
66
選んだ 2 つの遺伝子は
(1) 同じ集団に属する
(2) 異なる集団に属する
の 2 通りしかない。どういうケースでも世代 i における C1 はその一つ前の世代 i + 1 での集団サイズを考
えればよい。
サンプル数を n としたとき
(A) のケースでは (1) の場合だけなので世代 i における C1 は先述のように
C1 
n( n  1)
4 N A,i 1
[NA,i+1 は祖先(Ancestral)集団での世代 i + 1 の有効集団サイズ]
なので、毎代の集団サイズ変動を考慮した場合の t 世代前に初めて coalescence する確率は
P (t ) 
n( n  1) t 1  n( n  1) 
 1  4 N 
4 N A,t i 1 
A ,i 
で与えられる。
(B) のケースでも分岐直前の世代への coalescence なので (A) と同様に考えればよい。
(C) のケースでは C1 は(1)と(2)の両方の場合を考える。
(1) では両方とも分集団 1 に属する場合と両方とも分集団 2 に属する場合を考える。
両方とも分集団 1 に属する場合は、両者とも移住者でなく分集団 1 で coalescence するか両者とも移住者で分
集団 2 で coalescence するので
C1  (1  m12 ,i ) 2
n( n  1)
n ( n  1)
(m12,i は分集団 1 における世代 i での移住率、すなわち分集団
 m122 ,i
4 N 1,i 1
4 N 2 ,i 1
2 からの移住遺伝子である確率、N1,i+1 は分集団 1 での世代 i + 1 の有効集団サイズ、N2,i+1 は分集団 2 で
の世代 i + 1 の有効集団サイズ)
両方とも分集団 2 に属する場合も同様に考えて
2
C1  m 21
,i
n( n  1)
n(n  1)
(m21,i は分集団 2 における世代 i での移住率、すなわち分集団
 (1  m21,i ) 2
4 N 1,i 1
4 N 2,i 1
2 に属し分集団 1 生まれの個体である確率)
(2) では分集団 1 で coalesce する(一方が分集団 1 からの移住遺伝子でもう一方が分集団 1 生まれ)か分集団
2 で coalesce する(一方が分集団 2 からの移住遺伝子でもう一方が分集団 2 生まれ)かどちらかなので
C1  m 21,i (1  m12,i )
n( n  1)
n( n  1)
 m12 ,i (1  m 21,i )
4 N 1,i 1
4 N 2,i 1
あとは (A)にならって P(t)を求める。
67
これらを 59 ページのシミュレーションステップの(1), (2)に組み込めばよい。また、集団サイズが変動する時
期やパターン、集団分岐の時期をこの中に組み込むことでシミュレーションを行なうことができる。
4.3.2.7. <複雑な個体群動態条件の下でのパラメータの推定精度の向上>
このような複雑なモデルでの諸パラメータの推定には、シミュレーションで複数の要約統計量を同時に満た
すパラメータ値の分布を調べることで推定の精度を上げることができる。
資料 49 はその例である。パラメーターとして現在の集団サイズ Np、集団サイズ減少の時期 te 世代前(4Np
世代の te 倍という単位で表現)
、祖先集団サイズ NA の現在集団サイズに対する割合 k (資料 48 図 4A)を
取りあげている。要約統計量としては多型サイト数 S、塩基多様度
、シングルトンサイト数 s、ハプロタ
イプ数 h、ハプロタイプのヘテロ接合度 H、最頻ハプロタイプの頻度 F の 6 種類が使われている。サンプ
ル数 n = 50、
調査遺伝子座位数 l = 50、
1 領域あたりの配列長 10 kb とする。パラメーター値を Np = 20,000、
te = 0.1、k = 0.1 とする。突然変異率を  = 10-8 とする。50 回のシミュレーション(50 座位のため)によ
り 50 個の仮想データセットを得る。、それぞれの要約統計量の 50 回の平均を算出する。
そして、これらの要約統計量を再現するパラメータ値を coalescence シミュレーションにより探索する。その
頻度分布(事後分布)と元の設定値を比較することで、推定の精度を評価する。
6 種類すべてを満たすという厳密な条件ではピーク(最尤推定値)がいずれのパラメーターでも設定値とよく
一致して高く、幅も狭い、つまり推定精度が非常には良い。しかし、計算時間が長い。逆に 1 種類だけ満足
させる場合は計算時間は短いが精度が非常に悪い。しかし、2 種類あるいは 3 種類の組み合わせで、精度が高
く計算時間が軽減できる組み合わせがあることがわかる(資料 49 図 4B)
。また、サンプル数の効果と調査遺
伝子座位数の効果も検証することができる(資料 49 図 4C)。
以上のように、coalescence シミュレーションによって、様々な複雑な個体群動態の下でも、比較的単純な原
理で、変動する有効集団サイズ、集団サイズ変動の時期、集団分化の時期、移住率などの基本パラメータを
推定することが可能なのである。
資料 49
68
4.4. Tajima’s D:多型サイト数と塩基多様度の関係
遺伝的浮動と突然変異の平衡状態のもとでは、allele 種類数とヘテロ接合度の間に一定の関係があったように
(41-43 ページ参照)、多型サイト数と塩基多様度の間にも一定の関係がある。その関係を説明するのが
Tajima's D である。突然変異を受けた DNA 分子が、コピーを残すまでの短期間に再び突然変異を受けるこ
とはほとんどない。よって多型サイト数が 1 つ増える毎に allele の種類は 1 つ増えると考えてよい。つまり多
型サイト数は allele の種類数を反映する。一方、上述のように塩基多様度はヘテロ接合度を反映する。
69
式(4.12)と(4.13)から多型サイト数と塩基多様度の間には
S
n 1
1
i 
(4.16)
i 1
s
n 1
1
i π
(4.17)
i 1
という関係が期待されることがわかる。
ヒト集団の塩基多様度
n 1
違がある。
1
i

は約 0.1% 、すなわちヒトにおいては任意の 2 本の配列の間で 1 kb に約 1 個の相
の値は n = 10 で 2.83、n = 100 で 5.18、n = 1000 で 7.48、n = 10,000 で 9.79 である。よっ
i 1
てヒトの配列を 10,000 本集めても、多型サイトの数(SNP の数)は 1 kb に 10 個程度であることが期待され
る。ここから桁違いに大きく逸脱する場合は、これから解説する自然選択や個体群動態の影響を考える前に、
エラーや大きなサンプリングバイアスの可能性も考える必要がある。ヒトの有効集団サイズは約 10,000 であ
るため、さらに多くのサンプルでの SNP の数の推定には別の理論的扱いが必要となる。
遺伝的浮動と突然変異の平衡状態では、集団塩基配列は、式(4.4)で予測される多型サイト数と式(4.2)で予測
される塩基多様度(へテロ接合度)の両方を満たすわけである。ここからヘテロ接合度の低いサイトが何個
くらいあり、ヘテロ接合度の高いサイトが何個くらいあるのかという塩基頻度組成の分布(塩基頻度スペク
トル)が予測できる。
4.4.1. 塩基頻度スペクトル
今 n 本のサンプル中の各多型サイトで、ある塩基が i 個、別の塩基が n − i 個とする(1 ≦
≦
1)。無
限サイトモデル下では、各多型サイトは 2 種類の塩基しかないと仮定して差し支えない。2 種類の塩基の一方
の数(すなわち塩基頻度)が i 個であるサイトの数の期待値は
1
1
Gn (i )  ( 
) (Tajima 1989 Genetics 123:585-595)。例えば Gn (1) は singleton site 数の期待値。
i ni
式(4.4)から
1
1
)
Gn (i )  S ( 
i ni
n 1
1
j
j 1
n 1
が得られる。例えば 5 本からなる配列データの場合
1
1
1
1
25
 j  1  2  3  4  12
なので
j 1
1 1 12 3
1 1 12 2
G5 (1)  S (  )
 S 、 G 5 ( 2)  S (  )
 S 、 G5 (1)  G5 (2)  S
1 4 25 5
2 3 25 5
となる。G5(3) は G5(2) と同じ意味であり、G5(4) は G5(1) と同じ意味である。
70
資料 50 の Figure 5 は実際のヒトのミトコンドリア配列データについて (n = 7、S = 45)、塩基頻度スペクト
ルの観察値と期待値
Gn (i) を示したグラフである。ヘテロ接合度の低い塩基頻度組成サイトが予測より多
く、ヘテロ接合度の高い塩基頻度組成サイトが少ないようにみえる。
資料 50
これは資料 29 で説明した allele 種類数とヘテロ接合度の関係に大変似ている。違うのは塩基レベルの場合は
多型サイト数と塩基多様度が式(4.16) (4.17)という単純な式で関係付けられる点である。
allele 種類数とヘテロ接合度の場合とまったく同様に、式(4.1) (4.2) (4.4) (4.5) の関係式が成り立つには、集団
サイズが世代間で一定で、塩基配列の多型性が自然選択に対して中立的であるという前提がある。塩基デー
タの場合は式(4.16) [または式(4.17)] が成り立っているかをテストすることでより簡単に、そしてより厳密に
これらの前提を検証することができる。このテストが Tajima’ D test である。
4.4.2. Tajima’s D test
Tajima’s D test は   S
n 1
1
あるいは   s

i 1 i
も本質的に同じことなので
 s
n 1
1
i
n 1
1
i
が正、0、負のいずれといえるかを検定する。どちら
i 1
について話を進める。資料 50 右側は Tajima's D の概念図である。
i 1
d  s
n 1
1
i
とおくと、 d
 0 (資料では D  0 :定義後述)とは塩基頻度スペクトルが、中立定常状
i 1
態で期待される分布に比べ、ヘテロ接合度の高いサイトの割合が高くなっている状態といえる。逆に
d 0
とは塩基頻度スペクトルが、中立定常状態に比べ、ヘテロ接合度の低いサイトの割合が高くなっている状態
といえる。
b
1
1
d の分散の推定値は Vˆ (d )  c1 s  c 2 s ( s  ) で与えられる。ここで L は配列の長さ、 c1  1  2 、
a1 a1
L
71
c2  (
n 1
n 1
2(n 2  n  3)
n  2 a2
1
n 1
1
1
b


)(
)
b

、
、
、
b

、
、n
a
a




2
2
1
1
2
2
9n(n  1)
a1 n a12
3(n  1)
a12  a 2
i 1 i
i 1 i
はサンプル数である (Tajima 1989 Genetics 123:585-595)。これらの変数は 58 ページで紹介した   (   )と
 S (  S )の分散に出てくる項の係数として登場している。
Tajima’s D というのは d を d の推定標準誤差で割った値すなわち
Tajima’s
d
Vˆ (d )
D
(4.18)
である。Tajima’s D が有意に正であるのか負であるのかは 59-60 ページで解説した coalescence シミュレーシ
ョンによって検定することができる。
coalescence シミュレーションを行うためには、(あるいは

)値を与えなければならない。原典の Tajima
1989 Genetics 123:585-595 では仮想的ないろんな  といろんな配列数 n で coalescence シミュレーションを行
い、Tajima’s D の分布が  によらず、統計学で言う 分布に近似できることを見出した。そこでいろんな
配列数 n に対して 分布に基づいた Tajima’s D の値の有意水準を表にして掲載している(Tajima 論文の Table
2)。(あるいは  )がわからなくてもこの表に基づいて自分のデータの Tajima’s D が有意かどうかを判定
することができる。しかし、 分布はあくまで近似であり、近似としても粗いという批判もあり、現在では
この表に基づいた検定は行われていない。
実際によく行なわれているのは、まず簡便な次の方法である。
(1) 単一遺伝子座位の配列データだけを使う。モーメント法推定値である多型サイト数から算出した  W の
S
n 1
1
i
を 値とする。シミュレーションを行なって仮想データを生成する。多数回のシミュレーショ
i 1
ンでの Tajima’s D 値の仮想分布を求め、実際のデータの Tajima’s D が分布の 95%信頼区間内にあるかを
みる方法。
しかし、先述のようにたとえ S 値も基づいてもモーメント法推定値は信頼性が低い。しかもここでは 1 遺伝
子座位しか使っていない。推定は広い分散を持ち当てにならない。しかも中立比較対照がないので、結果を
自然選択で解釈できるか個体群動態で解釈できるかわからない。したがって次のようにすべきである。
(2) 複数のゲノム領域での配列データを使う方法:62-63 ページで解説した棄却サンプリング法で例えば
10,000 個の合格  値の分布を求める。その 10,000 個の 値各々でシミュレーションを行ない、生成し
た 10,000 個の仮想配列データセットの Tajima’s D 値の分布を求める。実際のデータの Tajima’s D が分布
の 95%信用区間内にあるかをみる。
72
目的が個体群動態の定常性(集団サイズの一定性)の検証であれば、調べるゲノム領域はできるだけ偽遺伝
子や非遺伝子領域などの中立性の高い領域を選ぶことが望ましい。しかし、ゲノム中から無作為に多数領域
選べば大部分は中立と考えられる(第 7 章で後述の分子進化中立論)ので、それでも問題ない。それで上記
の(2)を行ない、それらの実際のデータでの Tajima’s D が分布からずれていれば、下記 (1) に従って解釈する。
アリール間には組換えがあるために、一般に自然選択(性選択も)の効果は問題としている遺伝子領域に限
定的である。一方、集団サイズ変動、集団混合といった個体群動態要因はゲノム全体に同様の効果をもたら
す。よって自然選択か個体群動態要因かを見分けるには、中立領域や数多くのゲノム領域を比較対照とする
必要がある。
検証の目的がある遺伝子領域の中立性の検証(つまりは自然選択の検証)であれば、まず複数の中立座位あ
るいは多数のゲノム領域で上記(2)を行ない、それら中立対照の観察 Tajima’s D 値の期待分布中の位置をみる。
定常状態からずれていれば、集団サイズ変動、集団分化、移住をシミュレーションに組み込み、観察値を満
たすこれらのパラメーターを推定するのが望ましい(セクション 4.3.2.6 を参照)
。そうすると、その条件下で
も問題とする遺伝子の値が外れ値なら、自然選択が原因と解釈できる。
4.4.3. Tajima’s D test の解釈
42-43 ページでの allele 種類数とヘテロ接合度の場合(資料 29)とまったく同様に、個体群動態要因と自然選
択への中立性について次のように解釈することができる。
Tajima’s
D  0 の場合
(1) 個体群動態要因の場合
集団サイズが急激に縮小すると、頻度の低い allele が優先的に消失していくため、allele の数が減るがヘテロ
接合度はそれほど減らない。言い換えれば、ヘテロ接合度の低い塩基頻度組成サイトほど少数派塩基を消失
しやすく、したがって多型サイト数 S は減少しやすい。一方、ヘテロ接合度の高い塩基頻度組成サイトはそ
れほど減らず、したがって塩基多様度 はそれほど減らない。この状態から十分時間が経っておらず新たな
平衡状態に達していないと Tajima’s
D  0 になる。もうひとつのケースは、遺伝子頻度構成の大きく異なる
集団を多数ずつ混合(自然状態においてもサンプリングにおいても)するとヘテロ接合度の高い塩基頻度組
成サイトが即座に発生することになりこのようなパターンが期待される。
(2) 自然選択の場合
ヘテロ接合度の高いサイトが多いことは、複数の allele を保存するような選択、すなわち平衡選択(balancing
selection)が働いていることを支持する。平衡選択にはヘテロ接合体の適応度が高い超優性選択(18 ページ
参照)や、頻度が低下すると適応度が増加する負の頻度依存性選択(捕食者と被食者の関係や自分と異なる
遺伝子型と好んで交配する性選択もこれにあたる)、ニッチにより選択の内容が異なるニッチ多様性選択、異
73
なる遺伝子型の共存がそれぞれの利益になる相互互恵などがある。
Tajima’s
D  0 の場合
(1) 個体群動態要因の場合
集団サイズが急激に増大すると新たな allele が生じてくるが最初はどれも低頻度から出発するので低頻度な
allele が増え、allele の種類数の割にはヘテロ接合度が低いという状況になる。言い換えると、突然変異が生
じたばかりだとそのサイトは singleton であり、そういうヘテロ接合度の低い塩基頻度組成サイトが多くなる。
つまり

が小さくなる。また、集団が何らかの原因で変異性 0 の状態から出発して間もない場合も同じ状況
になる。変異性 0 をもたらす原因として、非常に厳しい集団サイズの縮小(=ボトルネック)やごく少数の
血縁者が他者と隔絶(=創始者効果)などが考えられる。また、遺伝子頻度構成の大きく異なる集団が少数
流入(自然状態においてもサンプリングにおいても)するとヘテロ接合度の低い塩基頻度組成サイトが即座
に発生することになりこのようなる。
(2) 自然選択の場合
43 ページで説明したように、ある遺伝子に非常に有利な突然変異が生じ急速に頻度を増加させると、その突
然変異の周辺領域も組換えが生じるより速く頻度を増す。そのため比較的広い領域に亘って多様性が低い領
域が生じる(selective sweep)。その領域では (1) の変異性 0 からの出発と同様になる。また、ある遺伝子領域
のどこに突然変異が生じても弱有害な効果を及ぼす場合、即ち弱い浄化淘汰 (purifying selection)がその遺伝子
領域全体に働いている場合には、突然変異の生じた allele は頻度を増やすころができず、低頻度な allele の割
合が増えることになる。つまり allele の種類数のわりに遺伝子のヘテロ接合度が低い状態になっている。ただ
し、突然変異が非常に有害な効果(例えば優性致死変異)ばかりの領域では、突然変異遺伝子は直ちに除去
されるため多型として現れず、突然変異率そのものが低い状況と同じことになるので、 も S も低い値(極
端な場合 0)になっており(このような状況を background selection という)、両者はそれなりに平衡になって
いるため Tajima’s
D  0 にならず Tajima’s D  0 が期待される。、
Tajima’s D が正の場合も負の場合も、それがある遺伝子(ゲノム)領域に限定的なのかゲノム全体がそうな
のかによって、個体群動態要因か自然選択かを判別する。
4.4.4. Tajima’s D への集団サイズ効果を coalescence tree の枝長変化からを理解する
集団サイズ変動と Tajima’s D の関係は、資料 51 のように、coalesence tree の枝の長さの観点から考えると、
より理解しやすいかもしれない。coalescence が 1 段階進むのにかかる時間の期待値は、式(3.21)のように
ti 
4N e
であるため、集団サイズ一定の場合、tree の末端に向かって枝の長さは短くなっていく。
i(i  1)
74
資料 51
しかし、集団サイズ Ne が拡大していくと、この枝の縮みが緩くなる(定常状態に比べて末端に向かって枝
が伸びる)。そのため、全体の突然変異のうち、末端枝に近い方で起こった割合(若い突然変異の割合)が定
常状態より多くなる。それらの塩基サイトでは新しい突然変異は少数派であるため、ヘテロ接合度は低い。
そのため、S の大きさに対して  が小さい状態となり、Tajima's D が負になる。集団サイズが縮小してい
く場合は、この反対となるため、Tajima's D が正になる。
4.5. Tajima’s D の変法
集団突然変異率

を異なる方法で推定し、それらの方法による測定値の不一致から自然選択や個体群動態定
常性を評価する方法が Tajima’s D にならい発表されている。
4.5.1. Fu and Li’s G, F, D
遺伝子の系図の枝は末端の枝 (external branch) と内部の枝 (internal branch) に分類できる(資料 52)。
末端の枝に生じた突然変異の数を
e
、内部の枝に生じた突然変異の数を
とするとそれぞれの期待値は
ηe  4 N e μ  θ
1
η  s  4 N e μ   θa n
i
ηi  η  ηe  θ (an  1)
75
i
、枝全体で生じた突然変異を 、
で与えられる(Fu and Li 1993 Genetics 133:693-709)。外群の配列データがあれば
e
と
i
を推定すること
が可能である。
資料 52
集団が定常状態にあれば系図の末端に近いほど枝は短くなる
(資料 51)
。集団が拡大していくと末端の枝が定常状態の場合
に比べて長くなっていくため、e が相対的に大きくなってい
く。集団が縮小していくとその逆になる。こういう観点に立ち
ηe 
Fu and Li’s G 
ηi
(a n  1)
ηi
、 g  ηe 
( a n  1)
Vˆ ( g )
Fu and Li’s F 
π  ηe
、 f  π  ηe
ˆ
V( f )
Fu and Li’s D 
η  a n ηe
、 d  η  a n ηe
ˆ
V (d )
などの test が考案されている。
外群のデータがない場合は singleton site の数
Fu and Li’s F 
*
s
から
e
を ηe 
n 1
ηs と推定して
n
n 1
ηs
n 1
*
n
、 f π
ηs
*
n
Vˆ ( f )
π
n
η  a n ηs
n
*
*
n
1

Fu and Li’s D 
、d 
η  a n ηs
*
n 1
Vˆ ( d )
などの test が考案されている。
4.5.2. Fay and Wu’s H
外群の配列データがあると各多型サイトの塩基のどれが ancestral type でどちらが derived type かを推定できる。
i を各多型サイトの derived type の塩基の度数とし、Si を i 個の derived 塩基をもつ多型サイトの数とおき、
θH  2
2
2 i 2 S i
n
i
S

   i n(n  1)
n 1  n 
と定義する(Fay and Wu 2000 Genetics 155:1405-1413)
。すると
θH  4N e μ  θ
76
が導かれる。
つまり各サイトの derived 塩基のホモ接合度の母集団不偏推定量の総和の 2 倍が
Fay and Wu’s

の推定量となる。そこで
H  π  θH
と定義する。
ある多型サイトの derived 塩基に自然選択が働きその allele が急速に集団中に広がると、そのサイトに物理的
に近接したゲノム領域で当該の derived 塩基タイプに連鎖したハプロタイプも引きづられて集団中に広がる
(selective sweep)。するとその領域全体のホモ接合度が他のゲノム領域に比べ大きくなる。そのため Fay and
Wu’ H は大きく負の値をとる。Fay and Wu’ H test は selective sweep の検出によく用いられる。
4.6. 組換えの影響:塩基多様度、多型サイト数、Tajima’s D
ここまでの内容は組換えを無視してきた。組換えは点塩基変異と並びごく一般的な突然変異であり、基本的
な要約統計量である塩基多様度 ( ,  ) や多型サイト数 ( S, s )、それらの関係式である Tajima’s D への影
響を知っておくことは有用であろう。
組換えは塩基多様度にも多型サイト数にも期待値には影響を及ぼさない。よって Tajima’s D の期待値にも影
響しない。配列セットを想定して、それらに自由に組換えを起こさせても、多型サイトは多型サイトのまま
であって、増えも減りもしないことから、多型サイト数については想像しやすいと思う。塩基多様度につい
ても、50 ページで解説したように、それが各多型サイトのヘテロ接合度(の母集団推定値)の総和(  の
場合)あるいは平均(

の場合)でもあることを想起すると、想像しやすい。組換えによって特定の塩基が
どの配列に乗るかは変わっても、そのサイトの塩基頻度組成は変わらないからである。
ところがこれらの分散は変わるのである。組換えにより、これらはすべて分散が小さくなる。つまり期待値
周辺に実測値のばらつきが収束してくる。塩基多様度の分散が小さくなるとは、集団中の各配列ペアの塩基
相違度が似た値に揃ってくることを意味する。48 ページの例では、配列ペアの塩基相違度は 0 から 5 までば
らつきがあったが、それがどれも平均値の 3.3 付近に揃ってくるイメージである。組換えが集団中の配列をシ
ャッフルすることを想像するとなんとなくわかる気がする。
では多型サイト数はどう理解したらいいだろう?coalescence tree で考えるとわかりやすい。資料 53 を例に考
えてみよう。ある遺伝子の配列 (allele) を集団から 3 つ(A、B、C)サンプルしたとする。これらを過去に
遡っていく過程で、どこかの個体で一方の allele の前半ともう一方の allele の後半を繋げる組換えが起こると
想定する。遺伝子配列前半の系譜を青、後半の系譜を赤で示している。黒の遺伝子まで遡ったところで、系
譜が分かれている。これが組換えを受けた遺伝子である。遺伝子の前半は一方の親由来で、後半はもう一方
の親由来となる。これらは異なる経路を遡り、最終的に異なる祖先に coalesce している。
77
資料 53
青と赤では最終の coalescence time が違う。枝分かれのパターンも、青では A と B が近いが、赤では B と C
が近く、異なっている。これらの違いは確率的変動により偶然に起こる。多型サイト数は、青の系譜に起き
てきた突然変異と、赤の系譜に起きてきた突然変異の総数である。組換えがあると、複数の試行を経た平均
値の配列セットをもつのと同じになる。資料 44 と 45 のように、平均値の分布は元の分布より狭くなる。こ
れが多型サイト数の分散が小さくなる理由である。
塩基多様度への効果も coalescence tree で考えるとよりわかりやすい。青の系譜では A と B の塩基相違度が小
さく、赤の系譜では B と C の塩基相違度が小さい。総合すると、A、B、C 間の塩基相違度が青の系譜と赤
の系譜で平均化される。組換えが多いほど遺伝子間の塩基相違度は似たような値に近づくことがわかる。
別の角度の説明:塩基多様度は各サイトのヘテロ接合度の総和(あるいは平均)でもある。高ヘテロ接合度
サイトは系図の古いところで起きた突然変異のサイトであり、低ヘテロ接合度サイトは系図の末端側で起き
た突然変異のサイトである。突然変異の系図中の実際の分布は必ずしも枝の長さに厳密に比例するわけでは
なく偶然によりばらつく。つまり高ヘテロ接合度サイトの数や低ヘテロ接合度サイトの数は偶然によりばら
つく。これが塩基多様度の分散の高さの理由である。しかし、組換えがあると、複数の試行を繰り返すこと
に相当して、高ヘテロ接合度サイトの数や低ヘテロ接合度サイトの数の試行間平均はそれぞれ一定の値落ち
着いていく。つまり塩基多様度のばらつきが小さくなる。
塩基多様度も多型サイト数も分散が縮小するため、その差分を評価する Tajima’s D の分散も縮小する。
78
4.7. 連鎖不平衡解析
塩基配列は多型サイトの連鎖したデータでもある。連鎖不平衡と呼ばれる統計量を評価することにより、組
換えの起こりやすい箇所(組換えのホットスポット)や起こりにくい領域(連鎖ブロック)を同定すること
ができる。そこから特定の allele の組み合わせに対する自然選択を検出したり遺伝病に関係する変異に対する
連鎖マーカーを同定したりすることができる。ここでは連鎖不平衡の評価法について概説する。塩基配列デ
ータの場合は以下の説明で「遺伝子座」を「多型(SNP)サイト」、
「allele」を「allelic な塩基」と読みかえる。
4.7.1. 連鎖不平衡とは
2 つの遺伝子座にそれぞれ多型があるとき、配偶子中の 2 つの遺伝子座間の allele の組合せを gametic phase
という。もし 2 つの遺伝子座が互いに独立に遺伝するのであれば、ある組合せの gametic phase の集団中の頻
度は各 allele の頻度の積になると期待される。そうなっているとき、2 つの遺伝子座は連鎖平衡 (linkage
equilibrium) にあるという。そうなっていないとき、その 2 つの遺伝子座は連鎖不平衡 (linkage
disequilibrium: LD) にあるという。2 つの遺伝子が同じ染色体上にあり、さらに後述するようにそれらの間
の組換え率が 0.5 未満の場合、それら 2 つの遺伝子は連鎖している (linked genes) という。連鎖した遺伝子
座間の gametic phase をハプロタイプ (haplotype) という。
連鎖不平衡が連鎖した遺伝子座間に生じることは容易に想像できると思う。その場合連鎖不平衡は、組換え
により世代を経るごと解消されていく。解消されない場合、逆位など何らかの理由で組換えが阻害されてい
るか、特定のハプロタイプに対する自然選択が働いていることが考えられる。
実は連鎖不平衡は連鎖していない遺伝子間にも生じる。集団が集団分化し、それぞれの分集団で遺伝的浮動
により 2 つの遺伝子座それぞれで allele 頻度が異なる場合(極端な例ではそれぞれの集団が別々の allele に固
定している場合)も、それらの集団をひとまとめにして見た場合は、特定の組み合わせが偏って出現するか
らである(極端な例では特定の組み合わしか出現しない)。この場合は集団間の交配が起こらないかぎり連鎖
不平衡は解消されない。このように連鎖不平衡は集団から得られる情報である。したがって連鎖不平衡の研
究から集団構造や自然選択についての情報も得られるのである。
4.7.1.1. <連鎖解析との違い>
よく混同されるが、連鎖不平衡解析は「連鎖解析」とは異なる。連鎖解析では交配実験や家系情報を使って
多型座位間で allele の遺伝パターンに関連があるかを調べる。そこから多型座位間の連鎖の有無を知る。連鎖
があれば組換え率を求める。そして多型座位間の物理的距離を推定する。本来、連鎖解析ではアリールの組
み合わせである phase そのものには関心がない。一方、
連鎖不平衡解析は本来 phase そのものにも関心があり、
集団での phase 頻度と allele 頻度を問題にする。
組換え率の情報は本来連鎖解析からくる。gametic phase も交配実験や家系解析を通して、あるいは配偶子を
79
直接調べて得られる情報である。SNP のハプロタイプの場合は、DNA 断片をクローニング(単離)して塩基
配列決定する。最近では 1 分子配列決定もできる。しかし、連鎖不平衡解析では、gametic phase をこのよう
に「真っ当な」方法で求めることは現実的でない。扱うのは集団という多数サンプルである。SNP site 間の物
理距離は往々にして長く、簡単にクローニングと配列決定ができない(次世代シーケンサーはブレークスル
ーになるかもしれない)。それで gametic phase/ハプロタイプは多くの場合、集団の遺伝子頻度データから EM
アルゴリズムや PHASE などを用いて推定している。方法の原理と実際は煩雑なためここでは触れない。
連鎖解析と連鎖不平衡解析は今日相補的に使われている。2 つの多型座位間に連鎖不平衡があれば、有力な原
因としてそれらの物理的な近接が考えられる。よって十分な集団試料数と多数の多型マーカーがあれば、労
力と時間を要する交配実験や遺伝病などの希少家系を探して解析しなくても、連鎖不平衡解析によって病気
などの原因遺伝子のマーカーを探すことができる。全ゲノム多様性解析は今日どんどん容易化している。ゲ
ノム中で連鎖不平衡の強い領域を一単位のブロックとみなし、ひとつの SNP サイトをその領域のタグ SNP
として代表させて、様々な表現型と関連するタグ SNP をゲノムワイドに探索する Genome-Wide Association
Study(GWAS)が盛んに行なわれている。
4.7.1.2. <連鎖不平衡の尺度>
遺伝子座 A の allele を A1 と A2、遺伝子座 B の allele を B1 と B2 とする。ある個体の 2 つの遺伝子座が両方
ともヘテロ接合であるとき、その組合せには A1B1、A1B2、A2B1、A2B2 の 4 通りがある(言い換えれば遺
伝子座 A と B の間には 4 通りの gametic phase がありうる)。集団中のそれぞれの gametic phase 頻度を P11、
P12、P21、P22 とする。また、集団中の A1 と A2 の allele 頻度を p1 と p 2 、B1 と B2 の allele 頻度を q1 と q 2
とする。
A と B が連鎖していなければ P11  p1q1 となることが期待される(サンプルサイズが十分大きく、phase
頻度が偶然により変動しないという暗黙の前提がある)(資料 54 参照)。
資料 54
80
そこで P11 の期待頻度
p1q1 からのずれを連鎖不平衡の尺度とし D と表す。すなわち、
P11  p1q1  D
すると自動的に(資料 55 参照)
P11  p1q1  D
P12  p1q2   D
P21  p2 q1   D
(4.19)
P22  p2 q2  D
となる。
資料 55
ある個体が A 座位と B 座位の両方でヘテロ接合であるとき、その個体の 2 本の phase は A1B1 と A2B2 か A1B2
と A2B1 かのどちらかである。前者の出現頻度は P11P22、後者の出現頻度は P12P21 である。これらの出現率
の違いも D となる。すなわち
P11 P22  P12 P21  D
(4.20)(資料 56)
資料 56
81
連鎖不平衡がなければ P11 P22
 P12 P21  p1 p 2 q1 q 2 となり、D = 0 になるが、一番極端な連鎖不平衡では
P11 P22  0 か P12 P21  0 となり、 D  P11 P22 か D   P12 P21 になる。中間では D はこれらの間の値をとる。
また、P11、P12、P21、P22 はそれぞれ 0 以上なので式(4.19)から
≧
≦
≦
(4.21)
≧
となる。したがって
(−p1q1 と−p2q2 の大きい方=Dmin) ≦
≦ (p1q2 と p2q1 の小さい方=Dmax)
(4.22)
となる。
実際のデータから求めた D が式(4.22)の範囲のどこにあるかをみることによって、連鎖不平衡の程度を知るこ
とができる。そこで
D 
D
、if D > 0
Dmax
(4.23)
D 
D
、if D < 0
Dmin
とおくと、0 ≦
′ ≦ 1 となり、値の範囲が標準化できる。 D  は連鎖不平衡の代表的な尺度である。
実際のデータで連鎖不平衡が有意といえるかどうかは、実際の phase 出現数と、連鎖不平衡がないとした場
合(式(4.19)で D = 0 の場合)のそれぞれの期待値の差を
χ 2 検定する。サンプルした遺伝子数を n とする。
自由度は 1(データである phase 種類数が 4、データから allele の一方の数を 2 つの遺伝子座位それぞれに計
算、よって 4−1−1−1=1)である。すなわち
χ2 

n 2 ( P11  p1q1 ) 2 n 2 ( P12  p1q2 ) 2 n 2 ( P21  p2 q1 ) 2 n 2 ( P22  p2 q2 ) 2



np1q1
np1q2
np2 q1
np2 q2
p (q  q1 )  p1 (q 2  q1 )
p q  p 2 q1  p1 q 2  p1 q1
nD 2 nD 2 nD 2 nD 2



 2 2
nD 2  2 2
nD 2
p1 q1 p1 q 2 p 2 q1 p 2 q 2
p1 p 2 q1 q 2
p1 p 2 q1 q 2
82

nD 2
p1 p 2 q1 q 2

n( P11 P22  P12 P21 ) 2
p1 p 2 q1 q 2
(4.24)
である。これは 2 つの遺伝子座の allele 構成が独立かどうかの、通常の 2  2 の独立性の検定でもあり、相関
が高いほど大きくなる。
r2 
D2
p1 p2 q1q2
(4.25)
2
と定義すると、r は連鎖不平衡のもう一つの代表的な尺度となる。2 座位の allele 頻度の相関を反映し、連
鎖不平衡の統計的有意性を反映した尺度となる。
式(4.22)から
D > 0 のときは
0≦
≦
と
の小さい方 ≦
と
の小さい方 ≦
D < 0 のときは
0≦
≦
つまり、いずれにしろ
0≦
≦
(4.26)
である。よって式(4.25), (4.26)から
0≦
≦ 1 となる。
2
資料 57 は塩基配列データにおける多型サイト (SNP) 間の LD 計算の例。 D 、 D’ 、 r 、
83
χ 2 を求める。
資料 57
2
4.7.2. D’ と r の違い
資料 58
84
資料 58 参照。遺伝子座 A と遺伝子座 B を想定する。A 座位には A という allele、B 座位には B という allele
のみで、どちらも始めは多型がないとする。つまり gametic phase は A-B のみである。まず A 座位に a と
いう新たな allele が現れたとする。これにより phase は A-B と a-B の 2 種類になった。しばらくして、A
-B の B 座位に b という新たな allele が現れた。これにより phase は A-B、a-B、A-b の 3 種類になっ
た。第 4 の phase a-b は a-B と A-b の間で組換えが起こらない限り出現しない。a-b が存在しない限
り、必ず D’ = 1 である。つまり D’ は主として組換えが起こったかどうかの指標である。
2
この D’でみたときの最大の連鎖不平衡(D’ = 1)の下でも、突然変異 allele a と b の頻度次第で、r は小さ
いことがあり得る。それは a も b も低頻度の時期である。a-B も A-b も頻度が低いため同じ個体の中に
2
出会う確率が低く、a-b は生じにくい。式(4.24)のように、r はそもそも遺伝子座間での allele 頻度構成の
相関性の指標であり、連鎖不平衡の統計的有意性を反映した尺度である。生じにくいものが存在しないのは
2
不思議ではないので r が小さい(有意性が低い)と理解できる。
こういう説明もできる。a は B に連鎖して生じ、b は A に連鎖して生じた。よって a と B の頻度には相関
があり、b と A の頻度にも相関がある。しかし、a も b も低頻度の時期は、a に連鎖した B は B 全体の中で
わずかで、b に連鎖した A も A 全体の中でわずかしかいない。つまり相関の程度は低い。したがって、相関
2
性の指標である r は小さい。
それに対し、a が増えると a と B の頻度の相関が大きくなる。b が増えると b と A の頻度の相関が大きくな
2
2
る。よって r は大きくなる。a も b も増えれば、一層 r は大きくなる。A-B がたまたま消失すると、a
-B と A-b だけになるので、a と B の頻度は完全に相関し、b と A の頻度も完全に相関する(相関係数 1)。
2
2
つまり r は 1 となる。これらの場合、相関の程度が高い。したがって、相関性の指標である r は大きい。
こうとも言える。a-B と A-b のどちらか、あるいは両方の頻度が高ければ、両者の出会う確率は高く、a
-b は生じやすい。生じやすいのに存在しないのは不思議なので r2 が大きい(有意性が高い)。
4.7.3 連鎖不平衡の時間変化
ある個体が生殖細胞に持つ gametic phase のうち、両親から受け継いだ gametic phase と異なる割合、すなわち
1 世代で産生される組換え gametic pahse の割合を組換え率という。ここでは c と表記する。
遺伝子座 A に allele A1、A2、遺伝子座 B に allele B1、B2 があるとする。ある個体が父親から A1B1、母親か
ら A2B2 を受け継いだとする。もし遺伝子座 A と遺伝子座 B が連鎖していなければ、その個体の配偶子には
A1B1、A2B2、A1B2、A2B1 の 4 通りの組合せが均等に現れる。よってこの場合組換え率は 0.5 となる。これ
が組換え率の上限なので、0 ≦
≦ 0.5 である。
85
組換え率が 0.5 未満のとき、遺伝子座 A と遺伝子座 B は連鎖している(同一染色体上にあり減数分裂の度に
必ず組換えが起こるほどには遠く離れていない)とされる。
無作為に抽出したある配偶子が gametic phase A1B1 である確率を考える。それは組換えを経てそうなったか、
組換えを免れて元からそうかのどちらかである。
組換えによって生じた場合は、A1Bx と AxB1 の組換え産物ということになる。Bx は B1 でも B2 でもよく、
Ax も A1 でも A2 でもよい。A1Bx の頻度は A1 の遺伝子頻度 p1 、AxB1 の頻度は B1 の遺伝子頻度 q1 と
同じ。よって、A1B1 が組換え産物である確率は
p1 q1 に組換え率 c を掛けて cp1 q1 となる。
組換えを免れている場合は元も A1B1 なので、その gametic phase の親における頻度 P11 に組換えが起こら
'
なかった確率 1−c を掛けて (1−c)P11 となる。よってその配偶子が gametic phase A1B1 である確率 P11 は
'
P11  cp1q1  (1  c ) P11
となりこれを変形して
'
P11  p1q1  (1  c )( P11  p1q1 )
が得られる。
式(4.8)から P11 
p1q1  D であるので、世代 t での D を Dt とおくと、
Dt  Dt 1 (1  c) の等比数列になり、連鎖不平衡の時間変化を与えることになる。この漸化式を解くと
Dt  D0 (1  c ) t
(4.27)
となり、連鎖不平衡の度合い D は世代を経るごとに 0 に近づくことがわかる。そのスピードは組換え率 c が
0 に近いほど遅いことがわかる(資料 59 の Figure 3.9)。組換え率 c が 0 の場合は永遠に解消しない。最速
は組換え率の最大値 0.5 の場合(2 つの遺伝子が連鎖していない場合)で、毎代半分だけ連鎖不平衡が解消して
いく。式(4.27)は、任意交配で自然選択もない集団での、連鎖不平衡の程度のベースラインを与える。
実はしかしここまでの説明は遺伝的浮動による allele 頻度及び gamete phase 頻度の変動を無視していることに
は留意しておくべきである。つまり集団が十分大きく、組換えだけが phase 頻度を変えていくことを前提と
している。現実には組換えが起こらなくても allele 頻度及び phase 頻度が変動するので、それらを元に算出さ
れる連鎖不平衡値も当然変動する。集団サイズが小さい場合は浮動による変動はより顕著になる。
86
資料 59
4.7.4 連鎖不平衡を高低させる原因
最後に、連鎖不平衡を高低させる要因をまとめてみる。
(1) 2 つの遺伝子座(あるいは SNP)の物理的距離。一般に近いほど組換え率が低い。よって近いほど連鎖不
平衡が高い。約 100 kb 以内が一つの目安で、これくらいの物理距離の場合は、一般に連鎖不平衡が高い。
(2) 組換え率の局所的な上昇地点(組換えホットスポット)があると、近接サイト間でも連鎖不平衡が低下
する。
(3) 逆に、染色体逆位などにより組換えが阻害されると、物理距離が離れていても連鎖不平衡が生じる(シ
ョウジョウバエで知られている)
。
(4) 近親交配する交配単位で集団が形成されており、各交配単位で遺伝子頻度が異なる(極端にはそれぞれ
異なる allele に固定している)場合、連鎖のない座位間でも連鎖不平衡が生じる。生殖隔離により組換え
が阻害される。
(5) 集団分化が進んでおり、遺伝的浮動により各分集団で遺伝子頻度が異なる(極端にはそれぞれ異なる allele
に固定している)場合や、高度に分化した分集団サンプルを混合している場合、連鎖不平衡が生じる。(4)
と同様。
(6) 有効集団サイズが小さい集団(創始者効果、ボトルネックなど)は、大きい集団より連鎖不平衡が高く
なる。有効集団サイズの小さな集団は、祖先に遡る coalescence の時間がより短いため、組換えで連鎖不
平衡が解消していく時間がより短くなるためである。人類の Out of Africa 拡散はその例で、ヨーロッパ系
やアジア系は、有効集団サイズの大きなアフリカ系集団に比べ、連鎖不平衡が一般に高いことが知られ
ている。
2
(7) 集団サイズが拡大していくと、低ヘテロ接合度サイトの割合が増える(資料 51)
。それは r 値が小さく
2
なることを意味する(資料 58)。逆に縮小していくと低ヘテロ接合度サイトの割合が減り、r 値が大き
くなる。資料 60 参照。
87
資料 60
(8) 自然選択が 2 遺伝子座(あるいは 2 SNP サイト)の allele の組合せに有利に働き、それらの間の領域で起
こった組換えを集団から排除している場合、連鎖不平衡が生じる。他のゲノム領域で連鎖不平衡が低け
れば、自然選択の有力な証拠となる。
(9) 自然選択があるひとつの SNP サイトに対して働き、組換え率を超える速度で急速に集団中で頻度を増し
たためにその SNP を含む周辺のゲノム領域
(ハプロタイプ)ごと頻度を増している場合(selective sweep)。
(8) と同様に、他のゲノム領域で連鎖不平衡が低ければ、自然選択の有力な証拠となる。
(10) 最後に。サンプルサイズが小さいと、見かけ上、連鎖不平衡が生じることがある(資料 54)
。これは一種
の artifact であり注意しなければならない。
集団の塩基配列情報はその豊富な SNP 情報から連鎖不平衡情報の宝庫である。あるゲノム領域中の全ての
SNP に対し、全てのペアで連鎖不平衡値を計測することで、連鎖不平衡のブロックの分布を調べることがで
きる。そこから自然選択、組換えホットスポット、遺伝病マーカーなど、様々な情報をえることができる。
資料 59 の Figure 6 は連鎖不平衡値の分布の例である。
88
第5章
分子進化学 I(塩基置換)
ここまでは集団内あるいは同一種内の遺伝的変異、すなわち遺伝的多型の話であった。ここからは種間の遺
伝的変異、すなわち種間の遺伝的相違(divergence)の話になる。種内の話では固定に向かう過程を対象と
したが、種間の話では固定した突然変異を対象とする。種間の相違とは、それぞれの種で固定した突然変異
の違いである。この章では種間の相違がどれくらいのスピードで蓄積するのか、それはどういう要因で決ま
るのかという問題に焦点を当てる。
5.1 塩基置換
遺伝子の塩基配列に生じた新たな突然変異が集団中に固定して以前の塩基と置き換わり、続いて別のサイト
も突然変異の固定で塩基が置き換わり、次々に様々な塩基サイトが置き換わっていくことを塩基置換
(nucleotide substitution)という。置換とは種に固定された突然変異である。進化を考える上では個体レ
ベルの突然変異と、集団レベルの置換をはっきり区別することが重要である。遺伝子レベルでみた進化とは、
突然変異の固定の連続過程である(資料 61 参照)。塩基置換のプロセスの理解を通して種内変異と種間の相
違を統一的にとらえることができる。
資料 61
資料 62 は塩基置換が a、b、c の順で蓄積して配列が次第に変化していく過程のイメージ。a が固定してから
b が生じ、b が固定してから c が生じる印象があるかもしれない。実際はこの図のように a が固定する前か
ら b も c も始まり得ることがわかればよい。結局消滅した無数の突然変異があることに留意する。
89
資料 62
5.1.1. 突然変異の固定確率
塩基置換のプロセスを理解するためには、まず始めに 24 ページで触れた突然変異の固定確率(fixation
probability)について学ぶ必要がある。それは拡散モデルにより与えられる。高度な数学が必要となるので
詳細は省略し、典型的な例を紹介する。
以下、固定確率を u と表記する。
(1) 中立な突然変異の場合
固定確率 u は突然変異遺伝子の初期頻度に等しい。2 倍体生物で大きさ Ne の集団を考えると、突然変異遺伝
子は最初はただ1つであるから、初期頻度は
1
1
となる。よって u 
2N e
2N e
これは、2Ne 個の遺伝子すべてに平等に固定のチャンスがあることを考えれば、直観的に納得しやすい。
(2) 半優勢選択の場合(16 ページ参照)
A を野生型遺伝子、a を A から突然変異により生じた有利な allele とする。遺伝子型 AA、Aa、aa の適応度
を 1、1 + s、1 + 2s とする。この場合 a の固定確率 u は
u
1  e 4 N e sp
1  e 4 Nes
(5.1)
となる。ここで p は a の初期頻度を表わす。 p 
u
1
より
2N e
1  e 2 s
1  e 4 Ne s
90
Special case 1: s が限りなく 0 に近い(つまり中立な)とき
e  x  1  x (if x « 1) なので
u
1  e 2 s
1  (1  2s )
2s
1



4 Ne s
1  (1  4 N e s ) 4 N e s 2 N e
1 e
つまり(1)と同じになる。
Special case 2: s がある程度小さい(数%未満程度)とき
e 2 s  1  2 s であるが 4Nes « 1 ではないため
u
2s
1  e 4 Nes
Ne が十分に大きく、そのため 4Nes » 1 の場合、e-4Nes → 0 となるので
u  2s
上の結果は、例えば 5 万個体からなる集団では、中立突然変異が固定する確率は 10 万分の 1 にすぎないが、
上記半優勢選択の場合 1%有利(s = 0.01)なら固定確率は 2%となり、中立な場合に比べはるかに高いことを
意味する。しかし、別の見方をすると、たとえ有利でも 98%の確率で偶然に失われることを意味する。また、
有害な変異(s がマイナス)でも、その度合いが小さくかつ集団が小さければある程度の確率で固定できる
ことも意味する(N = 1000、s = −0.001 なら u = 0.004%)。これらは突然変異の運命に対する偶然の効果の重
要性を再認識させてくれる。
この他にもいろんな場合の自然選択で u を求める式が得られている(興味のある人は根井正利の「分子進化
遺伝学」(培風館)参照)
。
このように自然選択の有無により固定確率には大差があるが、最初の数代の運命はほとんどかわらないこと
がわかっている。たとえば、中立変異が出現から 7 代以内に集団から消失する確率は 0.79 で、1%有利な変
異の場合は 0.78 である。出現の初期には、いかに大きく偶然に左右されるかがわかる。
5.1.2. 突然変異の固定時間
最終的に固定される変異についてその出現から固定までの時間の長さ[条件付き固定時間 (conditional
fixation time)]の確率分布が得られている。その期待値は次のようになる。
(1) 中立変異の場合
4Ne 世代(資料 61 の図 7-3 参照)
ただし、これは 37 ページの考え方でも導ける。
91
(2) s だけ有利な変異の場合
2
ln 2 N e 世代
s
例えば世代時間 2 年の哺乳類を考え有効な集団サイズが 100 万とすると、中立変異の固定時間の期待値は 800
万年もかかる。一方 1%有利な変異ではわずか 5800 年である。有利な突然変異は集団から早く消失するかあ
るいは集団中に速く固定されるかのどちらかである(資料 61 の Figure 2.6a)。一方中立変異の頻度変化は大
集団では非常に遅く、大量の過渡的な多型現象を生成する(資料 61 の Figure 2.6b)。
5.1.3. 塩基置換の速度
単位時間当たりの塩基置換の回数を塩基置換速度 (rate of nucleotide substitution)、すなわち進化速度
(evolutionary rate)といい、通常 と表記する。集団の大きさを Ne、世代当りの突然変異率を v、突然変異
の固定確率を u とする。集団全体には 2Ne 個の遺伝子があり、集団中には毎代 2Nev 個の突然変異が出現す
る。そのうちの u の割合のものが固定するわけであるから
λ  2 N e vu
(5.2)
となる。v は世代当たりの突然変異率なのでは世代当たりの塩基置換率であり、
1
はひとつの塩基置換と
λ
次の塩基置換の時間間隔、世代数をあらわす。v が年当りの突然変異率なら塩基置換率も年当たり、置換間
隔は年数になる。
中立な突然変異の固定確率は u 
λv
1
であるから
2N e
(5.3)
となる
(資料 61 の図 7-3 参照)
。この簡単な置換率と突然変異率の等式関係は Kimura (1968, Nature, 217:624-626)
により初めて示された。この意味するところは極めて重要で、種レベルの塩基置換速度は個体レベルの突然
変異率にのみ依存し、集団の大きさには依存しないことを表わしている。
これに対して有利な突然変異の場合は、上述の半優勢選択を例にとると
  4 N e sv
u  2s なので
(5.4)
が得られる。すなわち置換速度は、集団の有効な大きさ、適応度、そして突然変異率という 3 つの要因によ
ってきまり、中立の場合に比べはるかに複雑なことになる。
92
第6章
分子進化学 II(系統樹)
分子進化研究により、DNA 配列が進化時間に比例して変化しうることに対し、理論的根拠が与えられた(式
5.3)。さらに、1 塩基サイト当たりの突然変異率は非常に小さい上に変化の方向には常に 3 通りあり、それが
ランダムに膨大な数の塩基に上の起こるのであるから、異なる系統で遺伝子の全塩基配列が偶然に一致する
(収斂する)確率は事実上 0 である。すなわち、DNA 塩基配列の類似度は生物間の進化類縁度とその相対的
距離(相対的分岐時間)を非常によく反映することになる。生物の分類や進化系統関係の推定は、原理的に
構造上の類似度をもって行うわけであるから、DNA 配列ほどその目的に適し信頼性のある 1 次資料はないと
いえる。
ただし、DNA は分岐の絶対時間を与えることはできない。このために古生物学、古地理学の知見は今もその
重要性を失っていない。さらに、古生物試料からの DNA 採取には大きな限界があり、今も化石の形態学が系
統復元にとり大きな重要性をもつことは事実である。
進化系統樹を復元すること自体、重要な研究目的である。しかし、系統樹・系統関係は、生物のあらゆる生
理機能の進化を解釈するために必要な枠組みをも提供する。例えば、種の間である特徴が共通に見られると
き、それがそれぞれの系統で独自に進化したのか、それらの共通祖先で進化した特徴を引き継いでいるだけ
なのか区別することができる。系統樹上のいつどこである特徴が生まれ、変化したのか、知ることができる。、
一つの生物で得られた知見を系統関係に応じて他の生物に応用することができる。まさに、“Nothing in biology
makes sense except in the light of evolution” – Dobzhansky である。
6.1. 進化距離と分岐年代の推定
6.1.1. 配列の整列
種間の遺伝的相違度を進化距離 (evolutionary distance) ともいう。塩基あるいはアミノ酸配列レベルの進
化距離を求めるにはまず、調べる複数の配列の各サイトが相同な位置にくるように適切にギャップをいれて
並べる必要がある。これを整列(alignment)という。基本的には相違がなるべく小さくなるように並べる。
配列間の差異が小さければ、整列は目視によって比較的簡単に行うことができる。しかし、相違度が高く長
い配列では目視による整列は簡単ではなく、専用のアルゴリズムが多数考案されている(詳細を知りたい人
は根井正利の「分子進化遺伝学」
(培風館)参照)。CLUSTAL W は著名なひとつで、市販の DNA 解析ソフト
や無料の分子進化解析プログラムなどによく組み込まれている(例えば、MEGA
(http://www.megasoftware.net/))。他にも MUSCLE(MEGA にも搭載)、MAFFT などよく使われる。資料 63
は CLUSTAL W と用いたアミノ酸配列整列の例。
93
資料 62
6.1.2. 進化距離
長い進化時間の間には 1 箇所の違いに 2 回以上の置換が起こっている場合
(資料 64 図 1-5 下段中央と右)や、
違いのないサイトにも、平行置換(資料 64 図 1-5 上段中央)や復帰置換(資料 64 図 1-5 上段右)が起こって
いる場合がある。この多重置換の許容が種内変異の場合との違いで、無限サイトモデルはここでは適用され
ない。進化距離とは、塩基(アミノ酸)相違数でなく置換数のことである。塩基(アミノ酸)相違数では進
化距離を過小評価してしまう。相違度が数%程度なら問題にならないが、それ以上では相違数から置換数を
推定する補正が必要がある。
資料 64
以下、配列の長さを n、相違塩基(または相違アミノ酸)の数を nd、相違の割合を p (= nd /n)、サイト当た
りの置換数を d とする。進化距離とは d 値のことである。
94
アミノ酸配列:
もっとも単純でよく使われている式は
d   ln(1  p )
(6.1)
で、ポアソン補正式といわれる。代表的な補正法であるので導き方を解説する。
サイト当り年当り進化速度を

、分岐年代を T (年)とおく。進化速度は 1 サイト 1 年に置換の起こる確
率ともいえる。置換を考える時間の総数は 2T 年である。よって進化距離の期待値 d は
d  2 T
と表される。サイト当りの置換の回数を r 回とする。2T 年の間に起こる置換の回数 r の確率分布は、 2T 年
の中から置換の起こる r 年を選ぶ二項分布とみなせる( は十分小さいので 1 年に 2 回以上置換が起こるこ
とはないと考える)
。
P (r ) 2T C r ( ) r (1   ) 2T  r
«1
となる。
で 2T » 1 であるため、 P(r ) は期待値 2T のポアソン分布
P (r ) 
(2T ) r e 2T
r!
P (r ) 
d r e d
r!
となる。 2 T  d であるから
となる。
ここで r = 0 である確率がアミノ酸が同一であるサイトの割合とおくと
P(r  0)  e  d  1  p から式(6.1)が得られる。
d の標準誤差は
p
で与えられる。
(1  p )n
これには実は平行置換や復帰置換が考慮されていない(起こる確率が非常に小さいため)。しかし、p が~0.3
を超えるような場合にはこれらの効果も無視できなくなってきて
d   ln(1  p 
1 2
p )
5
という Kimura’s empirical formula と呼ばれる式が使われることがある。これらの詳細は、根井正利の「分子進
化遺伝学」(培風館)参照。
95
塩基配列:
もっとも単純でよく使われている式は
3
4
d   ln(1  p)
4
3
(6.2)
で Jukes-Cantor の式といわれる。標準誤差は
9 p (1  p )
で与えられる。
(3  4 p) 2 n
式(6.2)を、d に対する p の関数に書き直すと
p
4
3
 d
1  e 3 
4

となる。
この式から、p の上限は 3/4 であることがわかる(資料 65 参照)。塩基には 4 種類しかないため、まったく関
係のない 2 つの塩基配列でも 1/4 のサイトは単なる偶然で同じ塩基をもつことになるためである。相違度が
75%程度になるともはや d の値は求めようがないことを意味する。これを置換の飽和という。
資料 65
塩基変異は transition の方が transversion より高頻度でおこる(資料 64 の Table 1.5、1.6 参照)。transition とは
プリン間 (A ⇄ G)及びピリミジン間 (T ⇄C) の変異で、transversion とはプリンとピリミジン間の変
異である。この突然変異の偏りを考慮した式として、
1
d   ln[(1  2 P  Q ) 1  2Q ]
2
(Kimura の 2 パラメータ法)
(6.3)
(標準誤差の式省略)
がよく使われる。ここで P は transition の違いの割合、Q は transversion の違いの割合を表わす。
さらに塩基変異バイアスや塩基頻度組成の違いを考慮した多くの推定法が開発されている(Tajima and Nei の
方法など)。上の 2 式を含め詳細を知りたい人は MEGA の Help menu や根井の参考図書などを参照。
計算機シミュレーションでどの方法が一番正確な推定を与えるかテストすることができる。いろんな塩基組
96
成や transition/transversion 比の条件下で、塩基変異を発生させることで評価する。哺乳類のミトコンドリア
DNA の場合のように塩基変異パターンが極端に歪んでいる場合を除き、d の推定値の違いは、d<0.5 の範囲
では小さい。d が小さい場合は単純な Jukes-Cantor の式でもかなり有効である。
6.1.3. 進化速度と分岐年代の推定
配列比較から進化距離(塩基・アミノ酸置換数)d を推定できる反面、進化速度や配列間の分岐年代を求め
ることはできない。時間の基準を得るためには、化石や大陸移動の年代などの古生物学や古地理学の知見を
利用する以外には方法がない。資料 66 の表 2.1 と表 2.2 は基準年代を与える代表的イベントの例である。
資料 66
まずある遺伝子について基準生物間の配列比較からそれらの間の d を推定する。次に d を古生物学等の知見
から得られた分岐時間 T の 2 倍(2T)で割る(calibration)。それがその遺伝子の進化速度
の推定値となる。
T を 2 倍するのは、d が分岐した 2 つの系統でそれぞれに起きた置換の和だからである。

d
2T
(6.4)
1塩基サイト当り1年当り(/site/year)の進化速度は、一般に核の遺伝子で一般に 10-9 のオーダーである(資
料 67 の Figure 16 及び 17 参照)
。
97
資料 67
次にこの
T
d
2
の値から分岐年代が未知の配列間の分岐年代を求めていく(資料 66 の図 2.4 はその例)。
(6.5)
イントロンなどの中立的領域がアライメント困難になるのにどれくらいの時間がかかるだろうか?イントロ
-9
ンの進化速度を約 4 x 10 /site/year とし、アライメントがかなり難しいと感じる塩基相違度 p を 0.4 とす
る。式(6.2) の Jukes-Cantor 補正で d を推定すると、約 0.6 である。すると式(6.5) から、分岐年代 T は 7.5
x 107 年、7500 万年前と推定できる。ヒトとマウスの分岐年代は約 1 億年前なので、ヒトとマウスでイント
ロンがアライメント困難なのは普通のことなのである。
6.2. 系統樹に関する留意点
6.2.1. 有根系統樹 (rooted tree) と無根系統樹 (unrooted tree)
系統樹は解析対象の配列[OTU (Operational Taxonomic Unit:操作上の分類単位) と呼ぶ]と節(node)と枝(branch)
98
から構成されるグラフである。本質的に無根系統樹である。有根系統樹は、分岐が古いことがわかっている
配列 [外群(out group reference)という] が含まれる場合にのみ得られる(資料 68 の図 6)。根(図 6 の R)
とは内群の共通祖先に相当する節である。有根系統樹では時間軸を考えることができるが、無根系統樹では
枝長(節や OTU 間の距離)だけが反映される。
資料 68
可能な樹形の数は比較する OTU が増加すると急速に増加する(資料 67 の表 1)。この中から正解を選び出す
のが系統樹作成である。
n 個の OUT に対して可能な有根系統樹の数は 1  3  5    ( 2n  3)
無根系統樹の数は上の n を n–1 に置き換えたものになる(資料 68 の図 11.2)。
6.2.2. 遺伝子系統樹と種系統樹
遺伝子の配列情報から得られる系統樹は遺伝子系統樹 (gene tree) と呼ばる。種の系統関係を表わす系統樹
[種系統樹 (species tree)] とは必ずしも一致しない。種系統樹では 1 つの節は 2 種が生殖隔離された時点(種
99
分化時点)に相当する。一方遺伝子の方は、種の分岐時点まで多型として存在したはずなので、一般に遺伝
子の分岐点は種の分岐点より古い。さらに資料 69 の図 11 のように、2 つの種分化の時間間隔が短い場合、遺
伝子系統樹と種の系統樹の樹形が異なることすらある。よって分岐年代が近接している種間の関係を推定す
るには、多くの遺伝子座位を調べ、もっとも多く支持される樹形を選ぶ必要がある(資料 70 参照)
。
資料 69
資料 70
6.2.3. 統計的信頼性
塩基(アミノ酸)置換は各サイトで確率的に生じる。よって比較する配列が短ければ、確率的変動が大きく
なる。よって統計量としての信頼性を示すために、標準誤差やブートストラップ(bootstrap)法(104 ページ
で説明)による検定を必ず行わなければならない。信頼性の高い系統樹を得るには、できるだけ長い配列を
比較する。
100
6.2.4. 遺伝子重複による分岐と種分化による分岐
資料 69 の図 9 のように種分化と遺伝子重複とが遺伝子の分岐に関わっていることは、一般的なことである。
種分化によって分岐した遺伝子を orthologous、遺伝子重複によって分岐した遺伝子の関係を paralogous
という。資料 69 図 9 の(a)のような場合、種 A から Gene 1 のみが、種 B から Gene 4 のみが得られた場合には、
遺伝子重複の時点を種分化の時点と誤って推定することがあり得る。この場合、種分化の年代を過大に見積
もることになる。したがって、多重遺伝子を対象とする時は、orthology/paralogy の関係をはっきり意識して
おく必要がある。
6.2.5. 遺伝子変換 (gene conversion)
遺伝子変換とは paralogous な遺伝子/ゲノム領域の間で、一方の配列の一部が他方の相同領域に置換される現
象の総称である。同一染色体上でも違う染色体間でも起こりうる。遺伝子変換が生じるとその領域の配列が
同一化するため、2 つの遺伝子間で全体の相違度が低下する。これを協調進化 (concerted evolution) とも
いう。これがあると遺伝子の系統関係を誤って推定することになる(資料 71 の図 10)。遺伝子変換を見つけ
るのに有効なのは領域を分けて遺伝子系統樹を作製することである。種分岐前の古い遺伝子重複を支持する
樹形の領域と種毎の遺伝子重複を支持する樹形の領域がある場合、前者が真の樹形で後者が遺伝子変換によ
り見かけ上変形した樹形と解釈できる。後者が真の樹形であるこき前者の樹形は出現し得ないからである(種
を超えた遺伝子水平移動でもない限りは)。
資料 71
6.2.6. 遺伝子内組換え
資料 71 の図 13 は遺伝子内組換によって既存の allele A と B から組換え体遺伝子 C と D が生じたことを表わ
している。これらの関係は系統樹ではなく図示されたようなネットワークとして表現するのが適切である。
101
6.3.系統樹作成法の種類
系統樹作成法には、距離行列法 (distance matrix methods)、最大節約法 (maximum parsimony methods)、
最尤法 (maximum likelihood methods)がある。距離行列とは資料 72 の表 11.1 のように、すべての配列ペ
アの相違度(nij や pij や dij など)をまとめた表である。距離行列法は、進化距離 d の値を用いる方法、
最大節約法は可能な樹形のなかで置換を最も少数で済ませられる樹形を選ぶやり方、最尤法は置換モデルの
尤度関数を与え、観察データを最も高い確率で実現させる樹形を選ぶやり方である。
距離行列法にはいろいろな方法があるが比較的簡単で一般によく用いられているのが近隣結合法
(neighbor-joining 法、略して NJ 法)である(資料 72 Figure 5 はその例)。NJ 法の基本的な考え方は、系統
樹の枝長の総和が最小となるように近隣探索を繰り返して樹形を構築することである。NJ 法は進化速度一定を仮
定しない。無根系統樹であり、根を与えるには外群を与えなければならない。距離行列法のなかで UPGMA
法は最も単純な方法である(資料 73 参照)(資料 72 の図 11.3 は一例)
。UPGMA は進化速度一定を仮定して
おり、最遠が外群と仮定されるため有根系統樹を与える。
資料 72
6.3.1 UPGMA 法
資料 73 参照。例として 4 つの OTU 1、2、3、4 の距離行列を想定する。最小距離の OTU 対をまず結合させ
る。3 と 4 の距離 d34 が最小とする。それで 3 と 4 をクラスターさせ、(34) という OTU に置き換える。枝の
長さは距離 d34 の半分とする。OUT (34)を含む行列に書き変える。再びこの中の最小を探す。d2(34)が最小と
する。その場合 2 が (34) とクラスターする。枝の長さは距離 d2(34)の半分とする。1 は最後に (234) とクラ
スターする。枝の長さは 1 と (234)の距離 d1(234)の半分とする。
102
資料 73
OUT 1
2
2
d12
3
d13
d23
4
d14
d24
OUT 1
2
3
d34
2
d12
(34) d1(34) d2(34)
d1(34) = (d13 + d14)/2、d2(34) = (d23 + d24)/2
d1(234) = (d12 + d13 + d14)/3
6.3.2. 最大節約法
整列配列の各サイトを見ていき OTU の分類に意味のあるサイト(informative sites)だけに注目する。まず、
変異のないサイトは除外する。次に 1 つの OTU だけが他と異なるサイト(singleton sites)も除外する。資料 74
の Figure 11.10 はその例。図のなかで informative なのは点のついた 90 サイトである。これらを資料 74 の Table
11.2 のように分類する。5 つの OTU からは 105 通りの有根樹形が可能であるが、この場合はこれら 5 種の進
化に関する情報から資料 73 の Table 11.3 の 4 通りについてのみ考えればよい。各樹形に適合する変異パター
ンを分類し、おのおの樹形で塩基置換が最低何回必要かを数え、もっとも少ない樹形 B を最大節約系統樹と
する(資料 74 の Figure 11.11)。
資料 74
103
同じ配列データを使い、UPGMA では樹形 A が支持された(資料 72 の図 11.3)。NJ 法でも同様である。最大
節約樹形はこれらと一致していない。もっとも、樹形 A と B の差はわずか 2 である。一方 UPGMA tree での
分岐点 a と b の差も統計的には有意ではない。これらの結果は、得られた系統樹の解釈は慎重でなければな
らないことを示すよい例である。
6.4. 系統樹信頼性の統計的検定
6.4.1. 標準誤差法
推定した進化距離 d の標準誤差(standard error: SE)を用いて、分岐点と分岐点の間の枝の長さが 0 より有意
に大きいかどうかを検定する。UPGMA では比較的簡単に各枝長の標準誤差を求めることができるが、他の
方法では計算がかなり複雑である。しかし今日、分子進化解析ソフトウェアには大抵 SE 計算が搭載されてい
るため、専門家でなくても簡単に求めることは可能である。
6.4.2.ブートストラップ (Bootstrap)法
m 個のサイトからなる n 個の整列した配列があるとき、この中から m 個のサイトを重複を許して無作為抽出
し、この新しいデータについて、再び系統樹作成を行う。これを何回も繰り返し(通常 100〜1000 回)、元の
系統樹で得られた各クラスターが何%再現されたかを調べる。一般に 80%以上のときブートストラップ確率
は高いとみなされる。資料 72 の Figure 5 のようにブートストラップ確率は各節に対して表示される。
6.5.進化速度一定性の検定(相対速度テスト)
2 つの系統が分岐した後、進化速度が同じといえるかどうかは、系統樹作成法の選択や、分岐年代の推定や、
自然選択の推定などに重要である。速度一定性の検定には相対速度テスト(relative rate test)が用いられる。
資料 75 のように、節 0 で種 1 と 2 が分かれたとし、種 3 を out group とする。相対速度テストとは、距離 1
―3 と距離 2―3 の違いに統計的有意差があるかを検定する方法である。塩基置換やアミノ酸置換のモデルに
依らず、サイト間の置換速度のばらつきにも影響を受けない Tajima's relative rate test (Tajima 1993 Genetics
135:599-607) がよく用いられる(MEGA にも搭載されている)。
資料 75
104
6.6. 系統樹作成方法の比較
いろいろな進化速度や置換パターンの下で、モデル系統樹に沿って、コンピューターに配列進化をシミュレ
ートさせる。その結果得られた配列データからいろいろな系統樹作成法で系統樹を作成し、元のモデル系統
樹と比較する。これにより、系統樹作成法の間で正確性を比べることができる。
進化速度の違いが大きい場合や多重置換が顕著な場合は、最大節約法は間違った系統樹を選択しやすい。進
化速度が一定でなくても、NJ 法と最尤法はより高頻度に真の系統樹を推定することができる。最尤法の欠点
は計算量が多いことだが、最尤法では何を仮定しているのか明確であり観察に最も合うモデルに修正するこ
とで推定を改良できる。UPGMA は進化速度が一定という場合なら有効である。
最尤法と節約法はともに OTU の数が多いと対象とする樹形の数が莫大である(10 個の配列でも 200 万を超
える:資料 68 の表1参照)。普通のコンピュータの能力では追いつかなくなってしまう。その意味では NJ
法はかなり現実的で有効な方法といえる。
平行置換や復帰置換を含めて多重置換が非常に多い場合は、進化距離が正しく推定できない。その場合や、
進化速度の違いが非常に大きい場合は NJ 法でもうまくいかない。オールマイティな方法はない。たとえ高い
ブートストラップ確率が得られても、遺伝子系統樹はあくまで推定であることを忘れてならない。
6.7. 信頼性の高い系統樹を得るための留意点(まとめ)
(1) 配列のチョイス:できるだけ長い配列を比較する。近縁な種間の比較には進化速度の速い領域[non-coding
領域、同義塩基サイト(塩基変異がアミノ酸変異を伴わない塩基サイト)
、特にミトコンドリア DNA 中
のそれら、など]を用いる(遅い領域では比較の精度が落ちる)
。遠縁な比較には逆に進化速度の遅い領域
[非同義塩基サイト(塩基変異がアミノ酸変異を伴う塩基サイト)あるいはアミノ酸配列、特に保存性の
高い遺伝子のそれら、リボゾーム RNA 遺伝子、など]を用いる。置換が飽和してしまっては正しい進化距
離の推定は不可能。研究の目的に重要でない配列は含めない。
(2) 進化距離推定法のチョイス:塩基組成や transition/transversion 比に偏りがあればそれらの補正を考慮した
多重置換補正法を用いる。速度の一定性が保証できなければ NJ 法などの速度一定性を仮定しない方法を
用いる。
(3) ブートストラップ法などにより統計的信頼性を検定する
(4) 系統樹作成法のチョイス:できれば複数の方法で系統樹を作成してみる
(5) さらに結果の解釈には 98-101 ページに挙げた留意点を考慮することが大事である。
6.8.進化遺伝学関連ソフトウェア
インターネットを通じて系統樹作成などの各種分子進化関連のプログラムが利用できる。数例を挙げる。
105
(1) MEGA (http://www.megasoftware.net/)
首都大学東京の田村浩一郎らが開発。NJ 法、最尤法、最大節約法など様々な方法による系統樹作成ができる。
非同義・同義サイト別の解析、相対速度テスト、祖先配列推定などさまざまな分子進化学的解析ができる。
ヘルプメニューが充実。説明に Nei and Kumar の Molecular Evolution and Phylogenetics (2000)の該当ページ紹介
されていて便利。更新がよく行われており、使い勝手もよい。
(2) PHYLIP (http://evolution.genetics.washington.edu/phylip.html)
University of Washington の Joseph Felsenstein が開発。最大節約法、NJ 法のプログラムを含み、ブートストラ
ップ法もできる。
(3) PAML (http://abacus.gene.ucl.ac.uk/software/)
University College London の Ziheng Yang が開発。最尤法のさまざまなプログラムが使える。
(4) DnaSP (http://www.ub.edu/dnasp/)
DnaSP という塩基配列レベルの様々な集団遺伝学関連プログラムが使える。
(5) Arlequin (http://cmpg.unibe.ch/software/arlequin3/)
Arlequin という集団遺伝学解析の様々なプログラムが使える。
(6) Phylogeny Programs (http://evolution.genetics.washington.edu/phylip/software.html)
Felsenstein が集めた系統樹作成プログラム関係のリンク集。
論文を書くときは software 名だけを挙げて済ませてはいけない。例えば、distance を求める方法、系統樹作成
法、統計検定の方法などを、それぞれ reference を付けて挙げる。その上で計算には~の software を使ったと
書く。例:"The number of nucleotide substitutions per site (d) for two sequences was estimated by the method of
Tamura and Nei (1993), and the phylogenetic tree was reconstructed by applying the neighbor-joining method (Saitou &
Nei, 1987) to the d values using the MEGA program version 6 (Tamura et al., 2013; Nei & Kumar, 2000). The reliability
of the tree topology was evaluated by bootstrap analysis with 1,000 replications (Felsenstein, 1985)."
106
第7章
中立説
ここまでの講義内容ですでに中立モデルを用いてきた。中立モデルは偶然だけで種内と種間の遺伝的変異が
どのように生じ持続するかを説明する。中立モデルは偶然で説明できる範囲を提示することで、自然選択が
働いたかを検証する帰無仮説となる。中立モデルは中立説提唱以前からある。中立説は遺伝子レベルの進化・
多様性の「大部分」が中立モデルで説明できるという主張である(自然選択に対して中立な突然変異の遺伝
的浮動によるという主張)
。この章では歴史的なことも含めて「中立説」を解説する。
1960 年代以降、酵素タンパク質の電気泳動による遺伝的多型のデータやアミノ酸配列が出始めた。続いて塩
基配列レベルの多型性と種間相違のデータが爆発的に増加した。これらから次のことがわかった。、
(1) 配列の種間相違度はそれらの系統的な分岐の古さを非常によく反映している(進化速度の一定性:資料
76)
資料 76
(2) 進化速度は機能上の制約の大きいタンパク質・遺伝子領域ほど遅い(進化速度の保守性:資料 67、77)
107
資料 77
(3) 種内の遺伝的変異性がそれまで考えられていたよりはるかに大きい
(4) 塩基置換速度をゲノムレベルに換算すると年当りゲノム当り 1 個程度という非常に高い進化速度を示す
これらを自然選択だけで説明することは極めて困難である。そこで中立分子進化理論 (Neutral Theory of
Molecular Evolution)(いわゆる中立説)が木村資生 (Motoo Kimura) によって提唱された(Nature,
217:624-626, 1968)。
7.1. 進化速度の一定性と中立説
式(5.3)の
λ  v と式(5.4)の   4 N e sv を見比べる。中立進化速度は突然変異率だけにしか影響を受けな
い。一方、自然選択が働く場合、進化速度は突然変異率に加え、集団の大きさと選択の強さに左右される。
これらは個々の遺伝子の機能、生息環境、生物種により大きく違うのが普通である。したがって、進化速度
の一定性は中立変異においてはるかに現実的である。
進化速度は多く遺伝子で世代当りでなく年当りで一定性が観察される。よって中立説の予測は式(5.3)から
(A) 突然変異率は世代当りでなく年当りで一定性を示す
(B) 年当たり突然変異率に系統間で違いがあれば、同程度に進化速度も異なる、である。
(A) に関して:表現型に効果を表わす可視突然変異や致死突然変異では、突然変異率は年当たりでなく、世
代当たりでほぼ同じである。表現型変異には単なる塩基変異だけでなく、トランスポゾンの挿入や複数の遺
伝子変異の複雑な相互作用などが含まれている。表現型突然変異が世代当たりで一定性を示す理由はよくわ
かっていない。現在も研究課題である。
一方、塩基突然変異が年当たりで一定性を示す理由は理解しやすい。突然変異の主な原因は生殖系列(germ
line)での細胞分裂における DNA 複製の誤りである。誤りは生殖細胞の分裂回数に比例して増えると考えら
れる。生殖細胞の分裂回数は世代時間におおまかに比例する。よって世代時間が異なる種間でも、年当たり
108
の分裂回数(そして突然変異数)はそれほど違わないと考えられる。
(B) に関して:塩基突然変異率が生殖細胞の分裂回数に比例するならば、性染色体間及び性染色体と常染色
体間で、進化速度が異なるはずである。オスはメスに比較し生殖細胞の分裂回数が多いためである。オスだ
けを通る Y 染色体が最も早く、両方を半分ずつ通る常染色体が中間で、2/3 の割合でメス、1/3 の割合でオス
を通る X 染色体が最も遅くなることが予測できる(資料 78)。
資料 78
オスのメスに対する塩基突然変異率の比を r とし、X、 Y、 A をそれぞれ X 染色体、Y 染色体、常染色体
性の遺伝子の進化速度とすると、資料 78 のように、
と予測できる。
霊長類とげっ歯類の ZFY と ZFX のイントロンの塩基配列の比較から、霊長類では Y/X が 2.25、げっ歯類で
は 1.42 という結果が得られている。よって
3
から、r の値として霊長類とげっ歯類でそれぞれ 6、
1.8 が推定される。これまでに出ている別の遺伝子のデータでも、r の値は霊長類で 3~6、げっ歯類で約 2
である。実際の生殖細胞分裂回数のオス/メス比は、ヒトで約 3~6、マウス及びラットで約 2 であり、r の
値と非常によくあっている。
この結果は進化速度がオスによって主に決定されることを示しており、male-driven evolution と呼ばれてい
る。しかし、XY 染色体システムにおけるこの結果は、これらの染色体への選択圧の強さの違いからも説明が
できる。X 染色体の遺伝子はオスでは半数性のために突然変異の影響が直接現れ、有害変異を排除する自然
選択が最も強く働くと予測できる。つまり、進化速度が遅くなると期待できる。他方 Y 染色体の遺伝子はメ
スにはないため、生存に必須ではなく、有害変異を排除する自然選択が最も弱いと予測できる。つまり進化
速度が速くなると期待できる。常染色体の遺伝子の進化速度はそれらの中間と期待できる。したがって、
109
male-driven evolution でなくても
を説明できる。
そこで male-driven 仮説を検証するために、鳥類などにみられる ZW 型の性染色体が注目された。オスは ZZ、
メスは ZW である。XY 染色体でのロジックをなぞると、有害変異に対する自然選択からは、
あることが予測できるる。一方、male-driven evolution からは
鳥類の遺伝子で実際に調べたところ、
で
と予測できる(資料 79 参照)
。
であった。これにより male-driven evolution があらため
て支持された。詳しく知りたい人は Graur and Li の「Fundamentals of Molecular Evolution」を参照。
この結果は、突然変異率が進化速度を決定することを示すことによって、遺伝子進化の大部分が中立変異に
よるとする中立説の主張を支持している。
資料 79
7.2. 進化速度の保守性と中立説
塩基置換が有利な突然変異の蓄積のみで起こるなら、機能的に重要な遺伝子/領域はより多くの変異を蓄積し
ていると期待され、そうでないものはあまり進化(変化)していないことになる。観察はその反対である。
式 (5.3)
λ  f 0 vT
λv を
(7.1)
の形に書き直す。vT は総突然変異率で、f0 はそのうちの中立変異の割合を示す。残りの 1−f0 の割合のもの
はほとんどが有害で塩基置換には寄与しないと仮定する。
110
機能的に重要な領域ほど、突然変異は遺伝子の機能を損なう可能性が高い。したがって重要なものほど、機
能的に同等の効果をもたらす変異(つまり中立変異)の割合 f0 が減ってくる。f0 が1の時、つまりどんな突
然変異も有害でないような領域で進化速度 は最大になる。つまり進化速度には総突然変異率できまる上限
があり、 λ
 vT となる。
一般に非同義サイトでは f0 は小さく、進化速度が遅い。また、機能的制約の度合いは遺伝子によって異なる
ため、進化速度もそれに応じて大きく異なる(資料 67、77 参照)。一方、同義サイトでは f0 はもっと大きく、
遺伝子間の違いは小さい(資料 67 の Figure 16 参照)
。それでも f0 は 1 ではなく、いろんな制約が働いている
[3 ページの(3)を参照]。イントロンや非翻訳領域も同様なことがいえる。全く制約がないと考えられるのは、
偽遺伝子(pseudogene)つまり機能を失った「死んだ遺伝子」である。同義サイトであるか非同義サイトであ
るかに関わらず偽遺伝子は非常に高い進化速度を示し、総突然変異率を反映する
(資料 67 の Figure 17 参照)
。
式(7.1)では有利な突然変異は非常にまれであるので無視してある。有利な突然変異の進化速度は中立上限で
ある vT を超える。この理由については次章の資料 80 で説明する。
関連する留意点:中立変異とは偽遺伝子のような無機能のものにおこる突然変異を指しているのではない。
同等の適応度(機能)をもたらす変異のことである。また、中立さの度合いは変異の適応度への効果と集団
の大きさの積で決まる。|Nes|«1ならば、選択係数が 0 でなくても、有利でも不利でも、固定確率は
u
1  e 2 s
1  (1  2s )
2s
1



となる。
4 Ne s
1  (1  4 N e s ) 4 N e s 2 N e
1 e
この場合、突然変異遺伝子の運命はほとんど偶然によって決まり、実質的に中立と同じことになる。
|
|≪1⟺| |≪
1
selection の効果が drift の効果より小さい。
|
|≫1⟺| |≫
1
selection の効果が drift の効果より大きい。
7.3. 種内変異及びゲノム塩基置換率と中立説
遺伝的変異性の特徴 (3) 高い種内変異性と (4) 高いゲノム当り塩基置換速度は、次のように正の自然選択の
みで説明することができない。15 ページに最初に説明したように、突然変異(少数派)に働く正の自然選択
は多数派に対する負の選択である。適応度の低い多数派個体を毎代集団から消滅させていくことを意味する。
観察されるレベルの多様性がすべて正の自然選択によるなら、集団の大きさを維持するために、各個体は大
111
量の子を産んでいかなければならないことになる。これが、
「自然選択の費用 (cost of natural selection)」
あるいは「置換の荷重 (substitutional load)」という概念である。
これまで見てきたように年当り塩基サイト当りの塩基置換速度は核ゲノムで約 10-9 のオーダーである。ゲノ
ムサイズは約 109 塩基なので年当りゲノム当りの塩基置換速度は一桁程度となる。つまり毎年ゲノムのどこか
に塩基置換が起こっている計算になる。これがすべて正の自然選択の働きによると仮定すると、おのおのの
親は 1 個体の子供が生き残って繁殖するのに、300 万程度以上の個体を産まなければならない計算になる。
電気泳動法を用いた酵素タンパク質の変異を調べた初期のデータは、ヒトやショウジョウバエの集団で各個
体は 1000 以上の遺伝子座でヘテロ接合の状態にあることを示した。この結果を超優性選択だけで説明するに
は、上同様に非現実的な数の子を産まなければやっていけなくなる計算になる(詳しく知りたい人は Kimura,
M. 1968, Nature 217:624-626 や木村資生の「分子進化の中立説」(紀伊国屋書店)を参照)。対照的に、中立モ
デルでは、中立変異と遺伝的浮動の平衡だけで、一切荷重なしに、集団に大きな変異性をもたらすことがで
きる(資料 28 の Figure 12 を再び参照)
。
112
第8章
適応進化
ゲノムに生じる突然変異のほとんどは中立か有害であり、塩基置換の大部分は中立であると主張するのが中
立説である。しかし、中立説は有利な(適応的)な変異の存在とその生物進化への貢献を否定するものでは
ない。このことは中立説提唱者の木村資生自身も繰り返し強調したことである。
適応的な変異は生命進化の初期から次々に現われては試され、生命の基本的装置が形成されたはずである。
このような基本装置は一旦できあがれば、後に続く変異の大部分はこれを乱す、つまり有害な変異となって
不思議ではない。いいかえれば生命進化の初期に基本装置が完成するに伴い、新規の有利な変異の割合はだ
んだん減ったと考えることができる。機能的制約の強い遺伝子の進化的保守性はこのような有害な少数派へ
の負の自然選択の結果であり、確立された多数派への正の自然選択の裏返しである。
一方、そういった基本装置以外での生物の多様な適応進化はずっと続いている。有利な変異は、たとえまれ
にしか生じなくても、一旦生じればその固定確率は中立変異よりはるかに大きく、生物の適応的進化に大き
く貢献しうる。15 ページで述べたように、少数派にかかる正の自然選択は変動する環境に適応させるように
その生物を変容させていく。この章では正の自然選択を配列データから検出する方法についてまとめる。以
降、少数派にかかる正の自然選択を単に正の自然選択と表記する。
8.1.正の自然選択の検出法
正の自然選択検出の基本は中立モデルからの逸脱を示すことである。そのためには中立モデルを知る必要が
ある。ここまでの講義はほとんど中立モデルを学ぶために行なってきた。中立モデルからの逸脱を示すのに
大きく分けて 3 つの方法がある。(1) 種内変異に注目する方法、(2) 種間相違に注目する方法、(3) 種内変異
と種間相違を比較する方法である。
8.1.1.種内変異に注目する方法
種内変異に注目する方法については第 3 章と第 4 章ですでに解説した部分が多いが次のようにまとめてみる。
8.1.1.1<集団分化に注目>
FST (別称 GST) の比較を注目する遺伝子と複数の中立対照遺伝子(偽遺伝子、イントロン、非遺伝子領域、
etc.)
(あるいはゲノム中からランダムに選んだ多くの領域:中立説に基づき中立と期待される)の間で行う。
注目する遺伝子の集団分化が中立対照よりも有意に大きければ、ある分集団が正の自然選択によって特定の
allele の固定に向かっていることを示唆する。人類集団における乳糖分解酵素などはその好例である。逆に注
目する遺伝子の集団分化が著しく小さければ、類似の平衡選択が異なる集団でその遺伝子座に働いているこ
とを示唆する。
113
8.1.1.2. <要約統計量に注目>
基本的には様々な要約統計量(塩基多様度、多型サイト数、頻度スペクトル指標、連鎖不平衡値など)を注
目する遺伝子領域と複数の中立対照領域(あるいは多くのゲノム領域)との間で比較する。
allele 頻度スペクトルのデータならば Ewens-Watterson test など
塩基頻度スペクトルのデータならば Tajima’s D, Fu and Li’s G, F, D, Fay and Wu’s H など
複数の中立対照を用いた coalescence シミュレーションで様々な個体群動態パラメータを推定した上で、標的
領域についてこれらの要約統計量の中立予測からの逸脱を評価する。
また、昨今のゲノムデータの充実から、Extended Haplotype Homozygosity (EHH) test などの方法で、長
いゲノム領域にわたる連鎖不平衡領域や高ホモ接合度ブロックなどを genome scan し、selective sweep など
を検出することが可能である。
8.1.2. 種間の相違に注目する方法
dN / dS 検定と収斂進化の検出が代表的な方法である。
8.1.2.1. <dN / dS 検定>
この方法では種間の進化距離 d を、非同義サイト当たりの非同義塩基置換数(dN)と同義サイト当たりの同義
塩基置換数(dS)とに分けて算出し、dN と dS を比較する。dS は中立進化速度(総突然変異率)を反映し、dN
は自然選択でそれより減速あるいは加速した進化速度を反映すると考える。下記が一般的な解釈である。
dN / dS < 1 →負の自然選択、機能制約あり、遺伝子は機能している
dN / dS = 1 →中立、機能制約のゆるみ、偽遺伝子化の可能性あり
dN / dS > 1 →正の自然選択、遺伝子は新機能を獲得中の(獲得した)可能性あり
正の自然選択では、なぜ dN は dS を超えることができるのだろうか?式(7.1)の
λ  f 0 vT では、進化速度の
上限は総突然変異率になると教わったはずである。これは有利な突然変異の固定確率が中立変異の固定確率
より高いことに起因する。次のように考えると理解しやすい(資料 80 参照)。
今、1 つのコドンを考える。集団サイズを N とする。単純化のため、第 3 サイトの塩基変異はアミノ酸を変
えない(完全同義サイト)とし、機能的制約はないとする。したがって進化速度は総突然変異率 vT と考える。
置換の間隔は 1/vT 年で、この間に 2N 個の突然変異(毎年 2NvT 個で 1/vT 年)のうち 1 個が固定する(資料
80 上段、完全中立の場合)。
114
一方、隣の第 2 サイトはすべての塩基変異がアミノ酸を変え(完全非同義サイト)、機能制約が強い。第 1 サ
イトも単純化のため完全非同義サイトとする。アミノ酸を変えてしまうため突然変異の多くが有害と考える
と、1/vT 年に 1 回も固定できず、進化速度が遅くなる(資料 80 中段、negative selection の場合)
。
もし第1第 2 サイトの変異に有利な変異が含まれると、それらの固定確率は中立変異よりはるかに大きいた
め、1/vT 年に出現する 2N 個の突然変異から 1 個以上の固定が起こることになる。つまり、進化速度が vT を
超えることができる(資料 80 下段、positive selection の場合)。
資料 80
N が大きいほど 2N 個中に有利な変異が含まれるチャンスが大きく、進化速度が速くなりうる。中立変異で
は集団が大きくても小さくても、1/vT 年間に出現する 2N 個のうち 1 つだけが固定することに変わりはない。
8.1.2.1.1. dN と dS の求め方
Unweighted Pathway Method (Nei/Gojobori 法)
これが最も単純でわかりやすい方法である。まず、同義サイトの数と非同義サイトの数を決定する。そのた
めに、コドンごとに第 1 第 2 第 3 サイトそれぞれにコドン表に照らして非同義度(同義度)を割り振る。例
えばコドン TTA(Leu)の場合、非同義度は第 1 サイトで 2/3、第 2 サイトで 1、第 3 サイトで 2/3、合計 7/3、
同義度は自動的にそれぞれ 1/3、0、1/3 であり合計 2/3。非同義度と同義度の 3 サイト合計は当然ながら塩基
115
数の 3 になる。各配列で全コドンに対して同じことをし、非同義度の合計をその配列の非同義サイト数、同
義度の合計を同義サイト数とする。当然、両者を足せば配列の塩基数になる。比較する 2 本の配列の間で、
非同義サイト数(同義サイト数)が違う場合は、Unweighted Pathway Method では単純に 2 本の配列間で平均
。
する。これを配列ペアの非同義サイト数 nN、同義サイト数 nS とする(nN + nS = n; n は配列の長さ)
次に、2 つの配列の間の塩基相違数をコドンごとに数える。相違が非同義か同義かを判定する。塩基差異が 1
個なら、一意的に決まる [例えば、GTT (Val)と GTA (Val)なら同義相違数 1]。2 つのコドンの間に 2 個の差異
がある場合、その差異のでき方に 2 通りがありうる。例えば、TTT と GTA を比較している場合、次の 2 つの
経路がありうる。
経路1
TTT (Phe) ⇄ GTT (Val) ⇄ GTA (Val)
経路2
TTT (Phe) ⇄ TTA (Leu) ⇄ GTA (Val)
経路 1 では非同義変化 1、同義変化 1、経路 2 では非同義変化 2、同義変化 0 である。Unweighted Pathway Method
では単純に 2 つの経路を平均して、非同義相違数 1.5、同義相違数 0.5 とする。2 つのコドンに 3 個の差異が
あるときは 6 通りの経路がありうるが、同様にすべての経路の平均をとる。こうしてその配列ペアの全コド
ンにわたって合計した非同義相違数 ndN、同義相違数 ndS を求める。当然ながら ndN + ndS は塩基差異の総数
(nd )に等しい。
非同義塩基相違数の割合 pN と同義塩基相違数の割合 pS は
pN = ndN / nN
pS = ndS / nS
dN と dS は多重置換補正により求める。例えば式(6.2)の Jukes-Cantor の補正式を用いる。
他にも経路の間で重み付けをする方法(Weighted Pathway Methods)など、dN と dS の推定法がいくつか開発
されている(Modified Nei-Gojobori 法、Miyata-Yasunaga 法、Li 法など)
。これらはより現実的な推定値を与え
ると期待できるが、計算機シミュレーションによると、Nei-Gojobori 法と同じような結果を与える。
8.1.2.1.2. dN / dS 値の統計検定
dN / dS > 1 と dN -dS > 0 は数学的に同値である。また、dN と dS は互いに独立な推定値である。よって
dN / dS 値のもっとも簡便な検定方法は、独立 2 標本の平均値の差の検定として、dN と dS の差を Z 検定する
ことである。
dN と dS を求めるプログラムやそれらの検定プログラムもインターネットで利用可能である(106 ページ参照)。
系統樹の枝ごとやコドンごとに dN / dS 値を評価する branch-site test という最尤法を用いた方法もよく使わ
れている(Yang and dos Reis 2011 Mol. Biol. Evol. 28:1217-1228)。この方法は観察された dN / dS 値( と呼ぶ)
116
が 1 より有意に大きいか小さいかを問うのではない。 の値の塩基サイト間の分布や系統樹の枝の間の分布
に対する様々な帰無モデルを設定し、観察データの の値の分布が特定の塩基サイトや枝でモデルから有意
にずれているかどうかを検定する。
8.1.2.2. <収斂/平行進化 (convergent/parallel evolution) の検出>
分子進化における収斂進化とは相同なサイトが 2 系統で独立に同じ種類の塩基(アミノ酸)に置換すること、
平行進化とは元も同じ種類の塩基(アミノ酸)であることである。つまり平行進化は収斂進化の特殊ケース
である。1 サイトで偶然に収斂が起こることは種間の進化時間スケールではありうる(多重置換:「6.1.2, 進
化距離」参照)。しかし、近接した複数サイトで偶然に生じる確率は非常に低い。したがって、ある領域内に
多くの収斂置換が検出されれば、正の自然選択が支持される。検定方法について詳しく知りたい人は、Zhang
and Kumar 1997, Mol Biol Evol 14: 527-536 を参照。
8.1.3. 種内変異と種間相違を比較する方法
資料 81 参照。代表的なのは Hudson-Kreitman-Aguade (HKA) test と McDonald-Kreitman (MK) test であ
る。これらの解析では 2 つの生物種の両方あるいは少なくとも片方で集団サンプルを必要とする。HKA test
では連鎖のない 2 か所のゲノム領域 (test 領域と reference 領域)、MK test では一つの領域の中の同義サイト
と非同義サイトを解析対象にする。
それらの塩基配列を 2 種とも含めて alignment すると、変異性のある塩基サイトは (1) どちらか一方あるいは
両方の種で多型になっているか、(2) 一方の種である塩基に固定し、もう一方の種で別の塩基に固定している
か、のどちらかである。前者は多型 (polymoephic) サイトと呼ばれ種内変異の量を表す、後者は固定 (fixed
あるいは divergent) サイトと呼ばれ種間相違の量を与える。
中立ならば、多型サイト数は 52-57 ページで見たように集団突然変異意率とサンプル数を反映し
n 1
n 1
1
1
( E ( s )  4 N e μ   θ  )、固定サイト数は 92、95 ページで見たように突然変異率(=進化速度)と進化距
i 1 i
i 1 i
離を反映する( d  2 T )。同じ Ne、、T 条件下にあるため、変異が中立ならば、多型サイト数と固定サイ
ト数の比は領域間で同じと期待できる。領域の一方を中立領域(MK では同義サイト)にもう一方を目的の
領域(MK では非同義サイト)に設定することで、その領域が中立かどうかを検証する。Ne は常染色体、性
染色体、ミトコンドリアゲノムの間で異なる。 もこれらの間で異なり、それらの内部でも均一ではない。
必要に応じてこれらの違いは考慮する。
117
資料 81
固定と多型の比が reference 領域か test 領域かによらず同じということは、言い換えれば「固定サイトか多型
サイトか」という違いが「reference 領域か test 領域か」という違いから独立しているということである。よ
って HKA test では簡便法として両者の独立性を
χ 2 テストで検定することが行われる。多型サイトと固定サ
イトの比率が test 領域か reference 領域かによらず同じと言えれば両カテゴリーは独立ということであり中立
性は棄却されない。より厳密には多型サイト数と固定サイト数をモデルに基づいて推定し、実測値とのずれ
を評価する。
MK test においても同様に「多型サイトか固定サイトか」と「非同義サイトか同義サイト」の独立性を
χ2 テ
ストで検証するのが簡便法としてよく行なわれる(資料 82 の Figure 3.7)。より厳密には、非同義多型サイト
数、非同義固定サイト数、同義多型サイト数、同義固定サイト数の期待値をモデルに基づいて推定し(資料
83 参照)、それと実測値のずれを評価するポアソンランダムフィールド法で MK test を行なう。
118
資料 82
資料 83
119
HKA の結果の解釈は次にようになる(資料 84 参照)
。
1) test 領域の Fixed/Polymorphic 比が reference 領域より大きい場合
test 領域に正の自然選択が働き、中立よりも多くの固定が起こっている可能性が考えられる。注意点は、
reference 領域に実は負の自然選択が働いて(RNA の安定性その他の機能制約のため)
、真に中立な場合よ
りも固定が少なくなっている可能性も考慮することである。より考えにくいが、reference 領域に平衡選
択が働いていると真に中立な場合よりも多型が多くなる。
2) test 領域の Fixed/Polymorphic 比が reference 領域より小さい場合
test 領域に平衡選択が働き、中立よりも多くの多型が維持されている可能性が考えられる。あるいは、test
領域に負の自然選択が働いて中立よりも固定が少ない可能性も考えられる。基本的に機能領域は負の自
然選択を受けているため、HKA だけでは平衡選択か負の自然選択(浄化選択)かの区別は困難である。
Tajima’s D などの別のデータが必要となる。考えにくいが、reference 側に正の自然選択が働いて、真に中
立な場合より多くの固定が起こっている可能性も考慮する。
このように解釈には他の解析結果も合わせて慎重に行なう必要がある。
資料 84
120
MK でも基本的には HKA と同様な解釈をする。しかし、HKA とは異なり、非同義サイトと同義サイトは物
理的に近傍に連鎖しているため、両変異は同様な振る舞いをすることになる。例えば、ある非同義変異が原
因で selective sweep が生じた場合、近傍の同義サイトも同時に固定される。平衡選択の場合も原因の非同義変
異だけでなく、同様に近傍の同義サイトの coalescence が長くなり、多くの変異を蓄積しうる。どちらの場合
も、selection の対象となる非同義変異自身の数が多くない限り、多型サイト数対固定サイト数の比は同義と
非同義の間で大した違いとして現れない。そのため一般に MK は HKA より自然選択の検出感度が劣ると考
えられる。資料 85 参照.。
資料 85
121
8.2. 正の自然選択検出の実例
(1) 新世界ザルの L/M オプシン遺伝子(資料 86)
[Hiwatashi et al., 2010, Mol Biol Evol 27: 453–464]
中南米に生息する新世界ザルには色覚に大きな種内多型がある。それは主に X 染色体性 1 座位の L/M オプシ
ン遺伝子の対立遺伝子多型によりもたらされている。この研究は野生オマキザル集団とクモザル集団を対象
に、L/M オプシンの多型が平衡選択により維持されているかの検証を企図した。まず、複数座位の「中立対
照」を用いることで、多型サイト数と塩基多様度を元に、 値の分布を 62-63 ページで解説した coalescence
シミュレーション棄却サンプリング法により推定した。次にその
ョンを行ない、塩基多様度


値分布を用いて coalescenc シミュレーシ
と Tajima’s D 値の期待分布を求めた。L/M オプシンの塩基多様度
 (Fig. 2)
と
Tajima’s D 値 (Fig. 4) の観察値が期待分布から正の方向に有意に外れた。このことからこれらのサルの L/M
オプシンの多型(つまりは色覚の多型)は平衡選択により維持されていることが示された。
資料 86
122
(2) 主要組織適合性抗原複合体(Major Histocompatibility Complex, MHC)(資料 87)
[Hughes and Nei, 1988, Nature 335: 167-170 他]
MHC は細菌などの外来侵入物の断片(ペプチド)に結合し、抗原として細胞表面に提示することにより、一
連の免疫応答を開始させる(Figure 9.7)。高度に多型的であることで知られている。ヒトでもマウスでも、抗
原認識部位(ARS 領域)では allele 間ではっきりと(多くの場合統計的に有意に)dN/dS>1 とであるのに対
し、それ以外の部分では基本的に dN/dS<1 になっている(TABLE 9.5)。
資料 87
MHC は allele の種類が非常に多い、allele 間の塩基相違度が非常に高い、allele が種を超えた多型として存続
している、など特異な特徴をもっている。dN/dS>1 を示すことも含めて、これらすべてを説明するには超優
性選択のような平衡選択が強く働いていると考えられている。抗原認識のレパートリーが多いほどより免疫
機能に有効でありその方向に正の自然選択が働いていると考えられる。
123
(3) 免疫グロブリン可変領域遺伝子(資料 88)
[Tanaka and Nei, 1989, Mol Biol Evol 6: 447-459 他]
免疫グロブリン(抗体)の膨大なレパートリーは、体細胞での VDJ recombination や hyper mutation によって
生成される。これ以外にも、V(可変)領域遺伝子は、進化過程でも(つまり germ line でも)多くのアミノ
酸置換を蓄積してきている。V 領域の中で直接抗原に結合する超可変的な Complementarity-Determining
Regions (CDR) では dN/dS>1 となっている。対照的に V 領域の他の領域である Framework Regions (FR)では
dN/dS<1 となっている。これは CDR には、MHC の場合のように、多様化促進への正の自然選択が働いてい
ることを強く示唆している。
資料 88
124
(4) 霊長類の好酸性白血球 RNase genes(資料 89)
[Zhang et al., 1998, Proc Natl Acad Sci USA 95: 3708-3713]
白血球の 1 種である好酸球の大顆粒中に存在する好酸球陽イオン性タンパク質(Eosinophil Cationic Protein:
ECP)と好酸球性神経毒(Eosinophil-Derived Neurotoxin: EDN)はともに RNA 分解酵素 RNase である。EDN
は高い RNase 活性をもち、非生理学的条件下で神経毒としての作用がある。一方、ECP は RNase としての活
性が低い反面、病原菌や寄生虫への強力な毒性をもつ。ECP はヒトと旧世界ザルの共通祖先時代に遺伝子重
複によって EDN からうまれたことがわかっている。祖先配列を復元し、系統樹の各枝ごとに dN/dS を求め
た結果、旧世界ザルとヒトの共通祖先で ECP 遺伝子に、有意に dN/dS>1 が起こったことが示された。これ
にはアルギニンの数の著しい増加が伴なっており、抗病原体機能の獲得に大きく関係していると考えられる。
資料 89
125
(5) マラリア寄生虫の CS protein
[Hughes, 1991, Genetics 127: 345-353]
マラリア病原虫(Plasmodium)は、種虫 Sporozoite の時期に宿主に感染する。種虫の細胞表面タンパク
Circumsporozoit (CS)は宿主の MHC により T cell に提示されるエピトープであることがわかっている。
Plasmodium falciparum の CS 遺伝子のエピトープになる領域では有意に dN/dS>1 となっている。宿主の免疫
系に対抗するための、寄生虫側の多様化促進への正の自然選択が働いていると考えられる。
(6) 毒貝の神経毒コノトキシン(資料 90)
[Duda and Palumbi, 1999, Proc Natl Acad Sci USA 96: 6820-6823]
海洋性の捕食性巻貝である Conus のペプチド神経毒コノトキシン conotoxins は、様々なイオンチャンネルや
神経系レセプターをブロックする。コノトキシンは約 30 アミノ酸からなるペプチド(toxin region)で、70 か
ら 80 アミノ酸からなる前駆体ペプチドから N 末側約 50 アミノ酸を切りとった残りである。前駆体の遺伝子
は multigene family を構成し、非常に多様なコノトキシンが産生される。Conus abbreviatus という種の多数の
コノトキシン前駆体遺伝子の間で、toxin 領域は統計的に有意に dN/dS>1 を示すのに対し、切り捨てられる
部分(prepro region)はそうでないことがわかった。
資料 90
126
(7) コロブス亜科霊長類の Lysozyme(資料 91)
[Messier and Stewart, 1997, Nature 385: 151-154, Kornegay et al., 1994, Mol Biol Evol 11: 921-928 他]
Lysozyme は細菌に穴をあける酵素であり、ほとんどの動物がもっている。通常、マクロファージ、涙、唾液、
鳥類の卵白、哺乳類のミルクなどにある。これを消化酵素として使っている動物が 3 群ある [反芻偶蹄類(ウ
シなど)、コロブス亜科の霊長類、南米地上性鳥類の Hoatzin (ツメバケイ)]。彼等は特別な前胃を発達させ、
そこで細菌を飼って葉を醗酵させ、次の胃で lysozyme で細菌を溶かして醗酵した栄養を得る。このために消
化酵素 lysozyme は、低い pH での活性、プロテアーゼへの抵抗性、胃での発現を、3 系統それぞれに獲得し
た。それを裏付けるように、特定のアミノ酸座位での収斂進化(convergent evolution)が頻繁にみられる
(Figure 7.8、TABLE 7.12)
。
霊長類の lysozyme の系統樹でコロブス亜科の共通祖先に有意な dN/dS>1 が現れている(FIG. 2)。ヒト上科
の祖先でも同様な現象がみられるが、その正の自然選択が何に対して作用したのかはわからない。
資料 91
127
(8) ショウジョウバエの hybrid sterility 遺伝子 OdsH
[Ting et al., 1998, Science 282: 1501-1504]
異種間交雑で生まれる雑種(hybrid)は不妊(sterile)になる。ショウジョウバエの原因遺伝子の 1 つ OdsH
は、通常極めて保存性の高いホメオボックス遺伝子であるにもかかわらず、速い速度で進化している。発現
組織もマウスや線虫では神経組織なのに対し、ショウジョウバエでは testis である。ショウジョウバエでは精
子形成に関わる遺伝子の転写調節に関わっていると考えられるが、真の機能はまだわかっていない。ショウ
ジョウバエの種間で塩基配列を比較すると、dN/dS>1 であり、また dN はイントロンでの進化距離も上回っ
ている。種分化、生殖隔離に大きく関係していると考えられている。
(9) 南極のサカナのヘモグロビン
[Bargelloni et al., 1998, Proc Natl Acad Sci USA 95: 8670-8675 他]
Notothenioids は南極の海に広く分布する硬骨魚類の 1 科で、寒冷な環境に適応している。低温のために、代
謝率が低く、体液は高濃度の酸素を溶かすことができるため、ヘモグロビンへの依存が低い。極端な例では、
icefish と呼ばれる種類では、ヘモグロビンが存在しない。一般の脊椎動物は複数種類のヘモグロビンをもつ
が、Notothenioids は 1 種類が普通である。このような状況下では、グロビン遺伝子の機能制約が弛むことが
期待され、実際、調べた 6 種のうち 5 種では dN/dS≈1 となっている。ところが、icefish に近縁な Gymnodraco
auticeps では、統計的に有意に dN/dS>1 がみられる。これは、このサカナで積極的にグロビン遺伝子がモデ
ルチェンジしていることを示唆するが、それがどういう生物学的意味を持つのかわかっていない。
8.3. 正の自然選択検出の限界と相補性
8.3.1 dN/dS 検定
dN/dS 検定では、非同義変異の多数が有利な変異でなければ検出されにくい。上で例は全てそういう場合であ
る。そのようなケースは、生体防御、寄生、生殖隔離、性選択など、配列の違いの大きさそのものが意味を
もつ場合や遺伝子機能の変革に実際に多くのアミノ置換を要するような場合に相当する。しかし、それ以外
の状況ではむしろまれかもしれない。1 個のアミノ酸置換で十分有利な場合は、中立変異が数で勝るため、
dN/dS 値は見かけ上低くなる。たとえ有利な変異が存在しても他のサイトでの負の自然選択に dN/dS 値が相殺
されてしまうこともありうる。また、進化のある一時期にだけ起こった場合(episodic な進化)も、他の時
期に蓄積した中立進化や負の選択に相殺されうる。
注意:dN / dS 検定の前提は、dS が中立進化を反映していることである。この前提そのものにも慎重であるべ
きである。codon bias その他の理由で負の自然選択が働き、dS が小さくなりうる。すると dN が大きくなくて
も dN / dS > 1 になる。そして集団サイズが大きいほど自然選択は有効に働くため、dS が小さくなり dN / dS >
1 になることが指摘されている。さらに配列の長さが短いと確率的なぶれのために、dN / dS > 1 になることも
起こりうる。
128
8.3.2. 収斂進化
この方法でも、適応が少数の収斂置換で実現している場合は、統計的に有意性を示すことは困難になる。た
だし、多くの系統で独立に同じ現象が見られれば、そこから正の自然選択を示唆することができる。
8.3.3. 種内変異
selective sweep は 0.5Ne 世代程度以上の時間が経つと、その間に蓄積した中立変異のために検出することは
不可能になる (Simonsen et al., 1995, Genetics 141:413-429, Properties of statistical tests of neutrality for DNA
polymorphism data)。一般に集団データを収集するのは容易でない。サンプリングバイアスも生じやすい。さ
らに、検定には様々な仮定(浮動と変異の平衡など)があり、結果の解釈には仮定を意識しておかなければ
ならない。詳しくは Nei and Kumar の Molecular Evolution and Phylogenetics を参照されたい。
このようにそれぞれの方法に限界はある。しかし、適切に使えば有効な予測を与える。種間比較では固定し
た変異を見ているため、各生物種を 1 個体ずつ調べるだけでも多くの情報が得られる。種内比較は現在進行
形の進化を扱っているため、allele 頻度スペクトルや連鎖不平衡などに自然選択のシグナルが現れやすい。よ
って様々な方法を相補的に組み合わせて使うことは極めて有効である。さらに近年のゲノムワイドな種間相
違及び種内多型情報の蓄積は自然選択のより包括的でより厳密な検証を可能にしている。
8.4. 正の自然選択検出の意味
方法論の限界から全ての正の自然選択が検出可能という訳でない。一方、検出された正の自然選択はあくま
で中立モデルからのずれという統計的推定であることも忘れてはならない。実際、このようにして推定され
てきた正の自然選択の生物学的意味、即ち適応的意義は不明であることが多い。検出それ自体が研究のゴー
ルではない。正の自然選択を推定したら、それにどのような生物学的意味があるのかを実験や観察により検
証してこそ意味がある。
このような進化学的方法によらず、遺伝子の機能に重要なアミノ酸座位(変異)を突き止めることは可能で
ある(random mutagenesis など)
。しかし、進化学的方法は機能に重要なアミノ酸座位を予測する非常に有効
な方法であり、確度の高い作業仮説を与えるという学術上の意義をもつ。
8.5. 適応進化と機能進化の区別
資料 92 参照。適応進化と機能進化はよく混同される。適応進化は、生理、形態、その他いろんな意味での機
能の変化が、適応度(生存・繁殖)に貢献するかを問う。そのような場合に、その形質は環境に適応してい
ると表現する。適応進化は必ず機能進化を伴う。しかし、機能進化は適応進化であるかどうかを問わない。
機能の中立進化もありうる。有害機能の進化すらありえる。
129
資料 92
機能進化は機能解析で検証する。機能解析には in vitro のレベルの実験や細胞から個体の生理学的実験だけで
なく、行動実験やさらにはフィールド観察まで含まれる。適応進化は、原理的には生存繁殖率の変化を継代
追跡して検証されるべきものであるが、世代時間の長い多くの動植物ではほとんどの場合実施不可能である。
しかし、適応進化は進化遺伝学の知見が充実したことにより、中立性検定という形で検証が可能となった。
機能解析は調べる遺伝子や形質ごとに実験系・観察系が大きく異なるが、中立性検定は遺伝子によらない汎
用性をもつ。両方のアプローチは相補的であり、両方が必要なのである。
機能変異が中立進化的に固定し、環境条件の変化で必須の装置になることもありうる。また、長い間にはま
た別のものに中立的にとってかわられることもありうる。このような考え方は以前からあり、Darwin 自身も
「種の起源」の中で中立進化の考え方を述べている(資料 93 参照)
。非常に緩やかな環境下で、しかも、競
争者のいない新しい豊かな環境が開けたような状況で、これは起こりやすいはずである。カンブリア期に爆
発的な生物の多様化が起こり、いろんな奇妙な形態の生物が出現したことは、これを裏付けるものとみるこ
とができる。
130
資料 93
8.5.1. Cryptic Variation と Hsp90
[Rutherfold and Lindquist, 1998, Nature 396: 336-342]
ショウジョウバエの分子発生的研究から、形態的進化が中立的に、しかも急激に起こりうることを示す重要
な報告がなされた。Heat shock protein Hsp90 (Hsp90) は、ヒートショックやその他のストレス下で、ストレス
でダメージを受けたタンパク質をレスキューする役割をもつ。平常は、細胞増殖や胚発生の制御に関わる様々
なシグナリングタンパク質に結合し、それらを安定化させる役割をもつ。これにより、このようなシグナリ
ングタンパク質に異常があっても、HSP90 はその異常に蓋をして有害な影響が表現型に出てこないように調
整する。Hsp90 の変異の解析から、研究室・野外を問わず、ショウジョウバエには、形態異常を起こさせる
「隠れた(Cryptic な)」変異が、非常に高頻度に存在することが明らかになった。これらの隠れた変異を蓄
積させると、もはや正常な Hsp90 の下でも、表現型異常が出現する。また、ヒートストレス下では、Hsp90
の多くがダメージレスキューへ使われ、平常の役割の Hsp90 が不足するために、異常が表現型に現われやす
くなる。
これらのことは、形態変化をもたらす変異が、隠れた変異として中立的に集団中に拡がり、環境の変化によ
って、集団全体が突然に表現型変化を起こしうることを示している。
131
第9章
進化遺伝学の今後
進化遺伝学の目的は生物進化の歴史と機構を明らかにすることである。歴史に関しては、膨大な知見が遺伝
子研究からもたらされた。機構に関しては、集団遺伝学、分子進化学、中立説の理論的研究により、考え方
の強固な枠組みが整えられた。今後は、これらの知見を活用して、個々の適応進化現象・機能進化現象につ
いて、原因突然変異の容態とその集団拡散の過程と要因(自然選択、浮動、個体群動態)の解明を進めてい
くことが大事である。以下にいくつかの着眼点を挙げる。
9.1. 祖先遺伝子配列の復元
最大節約法を使って、遺伝子の塩基あるいはアミノ酸配列から過去(祖先)の配列を系統樹に沿って推定す
ることができる。最尤法を使えば、各祖先配列の各サイトごとに事後確率(すなわち信頼度)を与えて推定
することができる。詳細は Nei and Kumar の Molecular Evolution and Phylogenetics を参照のこと。
この推定に基づき現在の遺伝子クローンに人工的に変異を導入(site-directed mutagenesis)することで祖
先遺伝子クローンを作成することができる。その遺伝子に関して機能のアッセイ系が確立していれば進化の
過程で生じた機能変化を実験室で検証することができる(資料 91 及び 94)。
資料 94
紫外線オプシン(UV)と紫オプシン
(V)の吸収光波長に関わる7アミノ
酸座位について祖先型が復元され、
吸収波長の進化変遷が検証された。
132
9.2. 検出された正の自然選択から予測する機能進化の検証
dN / dS 法などにより遺伝的変異に正の自然選択が示唆されれば、それらの変異は何らかの機能進化をその遺
伝子にもたらしたと予測できる。現在の遺伝子にそれらの変異を導入し、アッセイ系を確立できれば、予測
を検証することができる。これは自然のおこなった実験結果を利用しているようなもので、random mutagenesis
より遙かに効率がよいと考えられる。さらに各アミノ酸座位の物理化学的性質やタンパク質全体の 3 次元構
造などの知見と総合すれば非常に有効な方法となる。さらに祖先配列の復元と組み合わせれば、進化のいろ
んな時期に生じた正の自然選択の生物学的意味を検証することも可能である。
資料 95
シラキュース大学の Shozo Yokoyama(現エモリー大学)はヒトとあるサカナの間で赤オプシンと緑オプシ
ンに 3 カ所の収斂アミノ酸置換を見出した。そこでこれらのアミノ酸置換が赤と緑オプシンの波長感受性
の違いの原因であると予測した(Yokoyama and Yokoyama, 1990, Proc Natl Acad Sci USA 87:9315-9318)。こ
の予測は再構築された視物質に対する site-directed mutagenesis により検証され正しいことが立証された。
コロブス亜科霊長類にみられる脾臓 RNase の適応進化(機能進化検証の模範例)
(資料 96)
進化遺伝学的方法で推定した自然選択を機能解析で検証した模範的な研究例として、脾臓 RNase 遺伝子の研
究を紹介する:Zhang, J. Z., Zhang, Y. P. & Rosenberg, H. F. Adaptive evolution of a duplicated pancreatic
ribonuclease gene in a leaf-eating monkey. Nat. Genet. 30, 411-415 (2002).
資料 91 でも登場したコロブス亜科の霊長類はアジアとアフリカに棲息する葉食性の旧世界ザル類である。コ
ロブス亜科は葉食への様々な適応形質を発達させていることで知られている(前胃の創出、前胃でのバクテ
リアによる葉の発酵、次の胃での lysozyme によるバクテリアの溶菌と発酵栄養分の獲得)。RNASE1 は脾臓
から分泌され小腸で働く RNA 分解酵素である。消化酵素として窒素源の吸収に寄与している。コロブス亜科
では遺伝子重複によってこの遺伝子を 2 つ持つ:RNASE1 と RNASE1B。
133
祖先配列を推定したところ、coding 領域の塩基置換は RNASE1 では皆無であった。それに対し RNASE1B では
12 個もあり、しかもそのうちの 10 個が非同義置換であった。これにより RNASE1B は進化速度が有意に上昇
し(相対速度テスト)、正の自然選択を受けたと結論された(資料 96 Fig. 3)
。
興味深いことにシグナルペプチド以外の部分では 9 つのアミノ酸置換のうち 7 つが電荷変化を伴い、それら
はすべてマイナス方向であった。ヒトの小腸内の pH は 7.4~8.0 であるのに対し、コロブス亜科の小腸内の
pH は食性の変化により 6~7 と酸性側にシフトしている。RNASE1 と RNASE1B の組換えタンパク質を発現
させ酵素活性を測定すると、RNASE1 の至適 pH は通常通りの 7.4 であるのに対し、RNASE1B では 6.3 であ
り(資料 96 Fig. 4a)、RNASE1B を自身の小腸環境に適合させていることが実証された。
RNASE1 は脾臓以外でも発現して二本鎖 RNA の分解活性を持っている。組換えタンパク質の発現解析から、
コロブス亜科の RNASE1 は他の霊長類同様に高い二本鎖 RNA の分解活性を持つのに対し、RNASE1B はこの
活性をほぼ喪失したことがわかり(資料 96 Fig.4b 上部)
、点変異導入実験から、電荷変化を伴うアミノ酸置
換がすべて二本鎖 RNA の分解活性の低下に貢献していることを示した(資料 96 Fig. 4b 下部)。
遺伝子重複したことで二本鎖 RNA の分解活性は RNASE1 が維持し、RNASE1B は葉食に適応した消化酵素と
して特化できた訳である。遺伝子重複と自然選択という興味深い題材を実験で検証した教科書的研究である。
資料 96
134
実験室を出て
予測された自然選択の意味を知るには実験室での機能解析だけでは十分でないことがある。その場合は野外
の行動観察も含めた様々なアプローチをとるべきである。こうして研究の新境地を開拓していく。
9.3. システムとしての進化
遺伝子はそれぞれ独立にその機能しているのではない。遺伝子間の相互作用とそれらの総合的な効果が重要
だと近年の認識されてきている。遺伝子の発現や発生の制御はその好例である。今後は遺伝子の相互作用シ
ステム全体を進化研究の対象とすることが必要となる。その際、進化遺伝学の理論と方法を理解し、活用で
きることは非常に重要であり有益であろう。
9.4. 集団ゲノム学
次世代シーケンサー等の技術革新により全ゲノム配列の決定がますます容易になっている。それにより膨大
な遺伝的多様性データが解析可能となっている。集団ゲノムデータは移住史、gene flow、集団の分離/混合、
集団サイズ変遷、系統関係、分岐年代といった進化史の未解明部分を解明できる潜在性を秘めている。例え
ば、多数のゲノム領域で coalescence time を推定したとき、集団サイズ一定モデルでの期待分布に対して、い
くつかの時点に偏りが見られれば、それらの時点での集団サイズの縮小が推定できる。また、様々な変異指
標(FST、、S、Tajima's D、LD など)を全ゲノムで領域比較(ゲノムスキャン)することで適応進化を検出
する確度が格段に高まる。
短い 1 遺伝子だけの解析なら 1 個体のデータは祖先を遡っても diploid の 2 遺伝子分の情報しかない。それに
対し、全ゲノムデータの場合、1 個体からのデータであっても、複数の染色体があること、そして組換えがあ
ることにより、祖先に遡って膨大な個体数を調べるのと同じ効果がある点に留意すべきである。例えば 10 世
代前には現在の自分のゲノムが最大で 210 (約 1000) 人に分散して存在すると考えられる。特定の歴史上の人
物の子孫だという主張は生物学的にはあまり意味がないことがわかる。
9.5. 今日今後の進化遺伝学の主要な着眼点

遺伝子発現調節系

発生制御系遺伝子群

機能進化の検証が可能な遺伝子:感覚系遺伝子(視覚、嗅覚、味覚、、
)など

ゲノムワイドな系統解析と種内変異解析

転移因子の進化上の役割

RNA 遺伝子の機能と進化

遺伝子機能の文脈的変遷:神経系出現以前の神経特異的遺伝子の存在など

学融合的アプローチ:遺伝子研究、情報学、野外行動研究の連携など
135