2009 比較ゲノム学 金谷 - はじめに - 奈良先端科学技術大学院大学

比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
-1-
金谷重彦
奈良先端科学技術大学院大学・情報科学研究科・情報生命学専攻・比較ゲノム学講座
I ゲノムサイエンス
生命現象→遺伝メカニズム→農学、工学、医学などに関わる産業応用
遺伝の数理解析(個体→linkage map→遺伝子座)
II 遺伝の分子メカニズム
原核生物と真核生物、多様性の獲得、キアズマの出現解析
III 数理遺伝学の用語
染色体の数理科学
IV 数理解析法の準備
(準備として書いたがあとでみればよい)
V DNAマーカー
DNA マーカー連鎖地図
VI
連鎖地図の構築原理
VI-1 分離比検定
カイ2乗分布による適合度(goodness of fit)の検定
VI-2 連鎖検定
カイ2乗検定による連鎖検定、[(2)尤度比による連鎖検定]
VI-3 組換え価の推定
最尤法(maximum likelihood)
VI-4 マーカーの連鎖群への分類
閾値法、最
近隣座法
VI-5DNAマーカーの順序推定
点法、多次元尺度解析法
VI-6 地図距離の定義
ポアソン分布
VII 連鎖地図の育種による利用
VIII 量的形質解析
ゲノムポジションと表現型値の関係づけ
ゲノムの数理解析(physical map→遺伝子セット→個体差、遺伝子機能)
発現プロファイルの数理解析(遺伝子セット→発現量、今日発現遺伝子グループ)
タンパク質の数理解析(遺伝子セット→機能単位)
相互作用
代謝の数理解析
統計処理、スムージング、ケモインフォとの統合
3点法、多
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
-2-
I
ゲノムサイエンス
ゲノムサイエンスは、染色体全体の遺伝子を対象とし、遺伝子により表現型を関係づけることを目標とす
る。そこでは、遺伝子という単位で遺伝現象を記述した数理モデルで表現することが必要とされる。
、そこ
では、メンデルの法則を根底において、生物の連鎖地図が構築される。もともとは、連鎖地図とは、染色
体上に複数の表現型の関係を、遺伝における染色体間の乗換え率(モルガン)をもとにプロットしたもの
であり、連鎖地図が出来上がると、これをもとに作物の改変の設計図ができあがることになる。さらに、
遺伝のメカニズムを通して、量的形質解析(QTL)では、染色体の遺伝子座と表現型の関係を定量的に関係
づける方法である。いままでに研究が進められてきた遺伝のメカニズムを理解し、そこで構築された数理
モデルを検討することにより、さらに、どのような研究か今後必要となる研究を導くことが可能となるで
あろう。そこで、本講義では、今までに、生命体の遺伝メカニズムを数理モデルにより記述されてきたか
を検討する。さらに、遺伝メカニズムを数理モデルの産業応用への可能性を探りたい。まずはじめに、遺
伝のメカニズムと栽培植物、小史を通して、知的活動として人が、染色体・遺伝子に関する研究と作物に
おける品種改良に挑戦してきたかみてみよう。
I-1 染色体・遺伝子に関する研究
核染色質が遺伝に関わる物質であり、この物質を通して遺伝される表現型は、メンデルの法則に従うこと
を明らかにした。また、メンデルの法則は植物のみならず動物でも成り立つことが明らかとなった。さら
に、これらの研究の集大成ともいわれる連鎖地図の構築の基礎を与えた。
1856 パーキンによる世界初の合成染料の合成
キニン(マラリアの薬)をコールタールの副産物でキニンと化学式が良く似た物質から合成を試みた。
キニンはできなかったが、アニリンとクロム酸カリウムを材料とした鮮明な紫色の染料モーヴェイ
ンが得られたことを偶然発見した。
1870 フレミング(ドイツ,1843-1905)
モーヴェインを用いて、サンショウウオの胚を染めて顕微鏡で観察。細胞の中に染料で染まる糸状
物質が数多く観察された。これを nuceus chromatin(核染色質)と名づけた。分裂組織の切片を
染め
て観察し、細胞分裂の全過程の様相を明らかにした(1879)。
1879 chromosome: 細胞分裂中に観察される糸状物質を chromosome(染色体)と呼んだ(ワルデイアー)。
ストラスブルガー(ドイツ、ボン大学植物研究所)は、ムラサキツユクサのおしべ毛における細胞分裂
段階を研究し、cytoplasm(細胞質)と nucleoplasm(核質)の語を提唱した。また、細胞分裂
の段
階に対して順に prophase(前期)、metaphase(中期)、anaphase(後期)を定義した。
1882 mitosis: フレミングは分裂中に染色色素は糸のように見えたので mitosis と呼んだ。
1887 ファン・べネデン(1845-1910)は、生物体はすべての細胞に同数の染色体をもつこと、ただし、精子
と卵細胞は半数の染色体をもち、受精によりもとの数に戻ることを発見。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
-3-
ワイズマンは、減数分裂が動物界および植物界のすべての優性生物で普遍的に見られる現象であろ
うと予測。
1902 ボヴェリ(1862-1915)は、ウニ卵に2個の精子が受精すると種々の染色体数をもつ胚が生じ、その中
に正常な発育をする胚は 11%にすぎず、全て 36 本の染色体をもつことを発見した。
「正常な発育には、特別な組み合わせの染色体セットが必要」
「染色体には個別性があり、メンデルの法則における形質の分離の組み合わせは、メンデルが仮定
した遺伝因子をになう個々の染色体の分離と組合せによる」と唱えた。
1902 サットン(1877-1916)
メンデルの法則と染色体の行動との関連づけ
バッタ(Brachystola magna)の精母細胞の減数分裂
(1) 細胞が持つ染色体群は母親由来と父親由来の二組の同等な染色体系列で構成される。
(2) 染色体の対合(シナプシス)は、母親と父親に由来する染色体系列にそれぞれ由来する相同な染色
体間で行われる。
(3) 第1分裂は均等分裂である。
(4) 第2分裂は染色体数が半分になる分裂(還元分裂)である。
(5) 各染色体は、細胞分裂をとおして形態的に一定した個別性をもつ。
配偶子の染色体は両親の染色体と同じではないこと、還元分裂での相同染色体の両極への分配は偶
然により決められ、染色体対の間で独立であり、また、母親と父親のどちらから由来したかにも関
係しないことを示した。連鎖の現象(1905)
1909 ヤンセンス(ベルギー)「キアズマ型説」染色体は対合の間にふし状に見える部分で切れて再結合する。
1907 モーガン(1866-1945)
ショウジョウバエの研究を通して「遺伝の染色体説」を唱えた。
(1910) [1]突然変異体の白眼のハエと正常のハエとの交配:白眼:赤眼= 3 匹:1234 匹
白眼:赤眼= 782 匹:3470 匹
2代目
メンデルの優性形質を持つ個体と劣性形質を持つ個体を交配した雑種第2代目の分離比(=1:3)と
ほぼ一致する。「植物だけでなく動物でもメンデルの法則が成り立つ」
(カイコの研究で外山亀太郎が既に証明されていた。)
[2]伴性遺伝(性染色体に依存する遺伝)
白眼の雄
赤眼の雌
全て赤眼
赤眼の雄
白眼の雌
半数は白眼の雄
分離が性により異なるのは、眼色の因子が性決定の因子と結合していると考えて、linkage(連 鎖 )
と
呼んだ。
[3] crossing over(乗換え、交叉)
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
-4-
ショウジョウバエの全ての形質が染色体の数と同じ4つのグループのどれかに分類される。同じグ
ループに分類される形質が常に相伴って遺伝するとは限らなかった。これを染色体の部分的交換が
起こっていると考えて、crossing over(乗換え、交叉)と呼んだ。
乗換えの起こりやすさのちがいは、染色体上での因子間の距離を反映する推測した。ヤンセンス(ベ
ルギー)により提唱された「キアズマ型説」が念頭にあった。
1913 スターとヴァント(モーガンの学生)による連鎖地図の作成。
連鎖の強さが遺伝因子の組合せにより異なることからヒントを得て、連鎖の強さに基づいて因子相
互の順序と位置を推定することを X 染色体における黄体色(y)、白眼(w)、赤眼(v)、小型翅(m)、退化
翅(r)の5因子の地図を作成した。
ホールデン(英国)は、染色体の乗り換えの単位として morgan(モーガン)を提案した。
I-2 栽培植物を中心とした染色体研究
1897 コムギの染色体数(2n=18; 石川千代松)
イネの体細胞の染色体数(2n=24; 桑田義備よしなり)
1911 コムギ(n=7; 仲尾政太郎)、トウモロコシ(n=10; 桑田義備)
木原
均:ゲノム説の誕生
1930 エンバク(燕麦、学名:Avena sativa; 別名、オートムギ、オーツ麦、オート、マカラスムギ)はコ
-51
ムギと同様に n=7 をを基本とする 2 倍体、4 倍体、6 倍体が存在する。
種間雑種の子孫における世代から世代への染色体の伝わり方は、形質の場合と異なり、コムギの場
合は、1セット7本の染色体が全部そろったとき最も安定で、生育や稔性が最良になる解釈した。
つまり、生物が正常な生活機能をもつために必要な最小単位の染色体セットが存在すると考え、ド
イツの植物学者ウインクラーにならって、ゲノム(Genom;はじめは最後に e はなかったらしい)と呼
んだ。
倍数性育種
1903 モウセンゴケ属で n=10 と n=20 の倍数性の異なる種がある(ローゼンベルク)。
1907 マツヨイグサ属の突然変異体とみられていた種ギガスは4倍体だった(ルッツ)
1916 クワの品種に3倍性品種(2n=42)がある(大澤一衛)。
1916 チョウセンアサガオの4倍体(ブレイクスリーとアヴェリ)、カンナやヒヤシンスの3倍体(ベリング)
1930 エンバク(燕麦、学名:Avena sativa; 別名、オートムギ、オーツ麦、オート、マカラスムギ)はコ
ムギと同様に n=7 をを基本とする 2 倍体、4 倍体、6 倍体が存在する(木原均)。
1937 コルヒチンによる倍数性植物の作出
エイグスティ(ブレイクスリーの助手)は、コルヒチンで処理した植物の根端細胞で染色体が倍化する
ことを発見。これが4倍体植物の作出法へとつながった。
種間交雑で生じる不稔の雑種第1代個体を倍化して倍加2倍体(double diploid)をつくることことが
可能となった。これにより、雑種強勢をもつ純系や倍数性の利点をもつ品種を得ることができると
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
-5-
期待された。
が、同質倍数体は、一般に不稔や生育遅延をともなうそのままでは品種になる望みは少なかった。
1.染色体数が小さい。2.他植生種、3.栽培目的が栄養器官の生産、の条件がそろえば品種改良できる。
倍加2倍体(autopolyploid)
成功例 巨峰、ピオーネ
同質三倍体:栄養繁殖性の植物では、三倍体であることがそれほど珍しくない。
栽培品種:バナナ、フキ(蕗)
種なしスイカ:人工的に作った三倍体の例
同質四倍体:ジャガイモ
異質倍数体(allopolyploid):2 種類以上のゲノムで構成されている倍数体。
普通コムギ(Triticum aestivum、2n = 6x = 42、ゲノム構成 AABBDD)
[1]1 粒系(稔実粒数 1、2n=14、ゲノム AA)
T. aegilopoides , T. thaoudar , T. monococcum(1 粒コムギ)
[2] 2 粒系(稔実粒数 2, 2n=28, ゲノム AABB) T. dicoccoides , T. dicoccum (2 粒コムギ、エンマーコ
ムギ), T. pyromidale, T. orientale(コーランサンコムギ), T. durum(デュラムコムギ、マカロニコム
ギ), T. turgidum(リベットコムギ), T. polonicum(ポーランドコムギ), T. persicum(ペルシャコムギ)
[3]普通系(稔実粒数 3∼5、2n=42、ゲノム AABBDD),T. aestivum(普通コムギ、パンコムギ), T. spelta
(スペルトコムギ), T. compactum(クラブコムギ,密穂コムギ), T. sphaerococcum(インド矮性コムギ),
T. maha(マカコムギ) , T. vavilovii(バビロビコムギ)
チモフェービ系(稔実粒数 2、2n=28、AAGG) T. timopheevi
タカナ(Brassica juncea、2n = 4x = 36、ゲノム構成 AABB)
セイヨウアブラナ(B. napus、2n = 4x = 38、ゲノム構成 AACC)
ここで A,B,C は以下の生物種由来である。
A は B.rapa、2n = 10 : ハクサイ・日本在来アブラナなど;
B は、B.nigra、2n = 16 : セイヨウカラシナ;
C は B.oleracea、2n = 18 : キャベツ・ケールなど
1代雑種育種:雑種優勢(ヘテロシス育種)
トウモロコシには雄花(花粉親)と雌花(種子親)がある。雑種トウモロコシをつくるには、自家受粉が
混じらないようにすることが必要となる。花粉を形成しない系統を種親に用いることにより1代雑
種ができる。
雄性不稔には、遺伝子型雄性不稔(核内の遺伝子に支配される)と細胞質雄性不稔(細胞質に支配さ
れ
る;母性遺伝)がある。細胞質雄性不稔である個体(cms)は稔性回復遺伝子(R)が存在すると不稔が解
消される。cms をもつ系統を種子親とする。稔性回復遺伝子の対立遺伝子を r とすると、種親は(cms,
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
-6-
r)で不稔である。この種親に R をホモにもつ花粉親(RR)の花粉をかけると、種親は花粉をつくらず
ヘテロ接合の稔性回復した種子のみをつくる。この種子を農家が撒いてトウモロコシを収穫する。
X 線と放射性物質による人為的突然変異
1962 ガンマーフィールドに植え込まれて以来 20 年近く照射されてきたナシ品種「20 世紀」の木に黒斑
点病抵抗性の突然変異が発見された。前任者転出による薬剤散布をしなかったことにより、黒斑点
病にかかった樹木の中に正常な樹木が見つかった。
1990 新品種登録「ゴールド 20 世紀」
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
-7-
I-3 ゲノムサイエンス
ゲノムサイエンスとは「遺伝子を要素に生物学の法則性と数理を探求する」研究分野と定義できる。統計
遺伝学は、統計学と遺伝の原理の両方を有機的に関連付けて理解する学問分野である。R.A.Fisher は優秀な
遺伝学者でありかつ近代統計学者であった。R.A.Fisher から学ぶことは、いくつかの分野を組み合わせない
と見えてこない領域があることであり、また、このことは、近年、複数の分野を追求する研究者の育成、
今後のゲノムサイエンスの発展に欠かせない課題であろう。
課題は linkage map と physical map の統合化:遺伝現象の配列情報による解釈
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
-8-
ゲノムサイエンス研究と数理科学の関係
Genomics
課題
数理科学
Classical
組換え(乗換え)と表現型の関係
χ2 ニ乗統計、G-statistics、最尤法、EM アルゴリズム、
Genomics
品種改良
ニュートン・ラプソン
Genome
遺伝子編成の普遍性、多様性
Dynamic Programing、
Informatics
必須遺伝子、改変ゲノム工学
DNA Sequence
遺伝子の普遍性、多様性、機能
Analysis
予測、制御領域、多型解析
有用遺伝子の探索
Dynamic Programing、系統解析
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
-9-
表現型に関与する因子:遺伝子発現の量、同一の遺伝子における多様性
表現型を遺伝子により説明したい。表現型へ与える遺伝子の効果を観測するにはどうしたらよいか。1.ノ
ックアウト系:遺伝子のあるなし、発現が起こっている系で表現型への影響を検討できる。2. 遺伝型の利
用:個体により遺伝子の構造が違うものを対象とし、これらの遺伝子が発現する系を使えば、表現型に異
なる影響を与えることが可能となり、遺伝子から表現型を説明することが期待される。その他にどのよう
な系があるだろうか、新たな方法をバイオインフォマティクスから提案できないだろうか。
課題:ヒトのように遺伝子をノックアウトすることができない系で遺伝子を機能(もしくは表現型)と関
連づける新規アイデアを提案せよ。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 10 -
II 遺伝の分子メカニズム
多様性の獲得の分子メカニズム
2.1 原核生物
多様性の獲得
リン・マーグリスドリオン・セーガン(性の起源、長野敬他訳、青土社、1995)より抜粋。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 11 -
2.2 真核生物
(a)有糸分裂(mitosis)
(b)減数分裂(meiosis)
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 12 -
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 13 -
減数分裂
時期
現象
第 1 減数分裂(1st division of meiosis)
レプトテン期
二本鎖の切断がおこる。
(leptotene stage)
ザイゴテン期
減数分裂における第 I 減数分裂前期
(zygotene stage)
相同染色体が 300 nm ほどに近接し整列(align)することにより対になりはじめる。これ
を染色体の対合(たいごう、ついごう, pairing)という。近接した染色体間にはシナプ
トネマ構造(synaptinemal complex, SC)という構造が発達する(Moens, 1968; Catcheside,
1977; Rasmussen and Holm, 1980)。電子顕微鏡レベルでは、シナプトネマ構造の上に組
換え節(recombination nodule, RN)という 100 nm 程度の球形の構造が多数作られ、この
頃に染色体部分の乗り換えがはじまると考えれらている(Stack and Anderson, 1986)。
地図距離は染色分体あたりの平均乗換え数であるのに対して、キアズマ数はふつう対
合した相同染色体あたりで数える。従って、キアズマが乗換えと一対一対応していれば、
xモルガンの地図距離では2x個のキアズマが生じることが期待される。
パキテン期
染色体の対合が完了し、2 倍性生物では二価染色体(bivalent)の像が観察される。この時
(pachytene stage)
期にはシナプトネマ構造が 2 価染色体の全体にわたって形成される。また、組換え節
は急速に消滅し、相同染色体あたり1ないし2個を残すだけとなる。これが乗 換 え 点
に対応する。パ キ テ ン 期 を過ぎると、対合した染色体はいくつかの点を除いて次第に
離れてゆく。
ディプロテン
光学顕微鏡により染色体のいくつかの箇所で交叉した、または結節(node)になった像が
期(diplotene
観察される。これをキ ア ズ マ といい、染色体部分の乗換えの結果生じたものと理解さ
stage)、ダイアキ
れている。染色体が収縮するにつれ、相同染色体はキアズマ点を残して互いに離れはじ
ネシス期
める。
第 1 減数分裂
相同染色体は細胞の赤道板上に沿って並ぶ。
中期
第 I 減数分裂
母親由来の染色体と父親由来の染色体が動原体を先にして別々の極へ移動を開始する。
後期
この段階で細胞の染色体数が半分に減数する。
第 2 減数分裂(2nd division of meiosis)
第2減数分裂
さらに染色分体が別々の極へ移行する。被子植物の花粉形成では、減数分裂の結果、最
後期
終的に 4 個の小胞子がセットで生まれる。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 14 -
乗換えの分子生物学モデル
Holliday のモデル(1964)
(i) Single-strand DNA nick on both chromatids (ii) Strand exchange generates the Holliday junction
2.3 キアズマ解析
(1)1 個のキアズマ
母親由来の染色体を C1、父親由来の染色体を C2 とする。それぞれの染色体分体を C11 と C12、および C21
と C22 とする(図(1))。キアズマは C11 と C12 のどちらかと、C21 と C22 のどちらかの間で生じる(図(2))。
図では C12 と C21 の間にキアズマが生じる。染色体分体間については 4 通りのキアズマ形成が可能となる。
1回の乗換えに関与する染色体分体は、各相同染色体のもつ 2 本の染色体分体の 1 本だけであるので、4
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 15 -
個の小胞子中半数の 2 個だけが組み換え型染色体をもち、残りは非組換え型をもつことになる(図(4))。
(2)2 個のキアズマ
二つの遺伝子座の間に2個のキアズマができる場合を考える。1 回目のキアズマと 2 回目のキアズマに関
与する染色分体の関係から、相互型(reciprocal)、対角 I 型(diagonal I)、対角2型(diagonal II)、補足型
(complementary)に分けられる。
補正型(compensating) = 相互型 + 捕足型。
非補整型(non-compensating) = 対角型。
染色分体干渉(chromatid interference)
どの染色分体がキアズマに関与するかがキアズマ間で独立であると仮定すると、これらの 4 型の期待比は
1:1:1:1 となる。期待比にあわない場合には染色体干渉(chromatid interference)があるという。相互型、対角
型、補足型はそれぞれ関与する染色分体の数から、2,3,4染色分体型二重キアズマという。
負の染色分体干渉
期待比よりも2染色体分体型が多い場合を負の染色分体干渉という。
正の染色分体干渉
期待比よりも4染色分体型が多い場合を正の染色分体干渉という。
Tyers M.Curr Opin Cell Biol. 2004 Dec;16(6):602-13.
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 16 -
染色分体干渉が観察された生物
(Hearne and Huskins 1935; Huskins and Newcombe, 1941; Lindegren and Lindegren, 1942)
アカパンカビ(Neurospora)
減数分裂期の1細胞に由来する4個の配偶子がセットとなっていて4分子分析(tetrad analysis)ができる。
ショウジョウバエ
付着X染色体系統のように染色分体が識別できる。
染色分体干渉が認められた例では、一般に補足型が多く、対角型がやや少ない。このような場合には、組
み換え型の頻度が 50%超えることになる。染色分体干渉がない場合には、染色分体の 50%が組換え型で、
残り 50%が非組換え型となる。
キアズマの数理解析
染色体あたり平均キアズマ数の種間および種内変動
(1)種間比較
種間の違いは、核型とくに染色体の長さと数に密接な関係がある。
バッタ(Hewitt,1964)、ユリ属(Rees and Jones,1967)、コムギ属(Hillel et al., 1973)などでは、染色体数が同じで
核型も似ているきわめて近縁の種間でもキアズマ頻度に違いがある。
(2)種内比較
長い染色体ほど一般にキアズマ頻度が高い。
動原体が染色体の端にある端部動原体型(telocentric)染色体では、動原体が染色体の中央にある中部動原体
型(metacentric) 染色体に比べて、同じ長さでもキアズマ頻度がやや高い。
(3)必須キアズマ
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 17 -
どんなに短い染色体でも、最低 1 個は必ずキアズマを生じる(Haldane, 1931; Mather, 1937; Henderson, 1963)。
これを必須キアズマ(obligate chiasma)という。短い染色体では長さの差に関係なくキアズマ頻度が 1 個であ
り、染色体長がある一定値を超えてはじめてキアズマ頻度が長さとともに、ほぼ、直線的に増加する。単
位長さあたりのキアズマ頻度は、短い染色体ではやや高くなる。
生物種
キアズマの二価染色体
ソラマメ(M 染色体)
8.34
Stack and Anderson (1986)
ソラマメ(5 対の次端部動原体型染色体 ST)
3.65
5 対の平均
Allium macaranthum の長い染色体
4.60
Allium macaranthum の短い染色体
1.41
リーゲルユリ
3.34
Stack and Anderson (1986)
トマト
1.75
Stack and Anderson (1986)
オオムギ
1.95
ライムギ
1.94
スペルトコムギ
1.89
ペレニアルライグラス
1.67
同じ染色体のキアズマ数の分布
二価染色体あたりのキアズマ数は、同じ染色体でも細胞間で異なる。同じ染色体でも細胞間で異なる。
キアズマが染色体上に起こる点が無数にあり、それらの個々の点でキアズマが生じる確率が低く、さらに
キアズマが生じるかどうかはランダムに決まると仮定すると、細胞におけるキアズマ分布は、ポアソン分
布となる。
Haldane(1931)
ソラマメで観察されたニ価染色体あたりのキアズマ頻度(Maeda,1930)の分布を統計解析し、ポアソン分布に
比べて平均のまわりのバラツキが小さいことを認めた。また、ポアソン分布では平均と分散が等しくなる
はずであるが、ユリ、バラ、エンドウなど多くの植物種でのデータでは、キアズマ頻度の分散は平均より
小さく、ポアソン分布に適合しない。これらの結果は、
[1]キアズマの生起が染色体上のどこでも起こり得るのではなく複数の特定部分に限定されている、
[2]キアズマ間で干渉があるため多数回のキアズマが起こりにくい
という説明が可能であり、Haldane(1931)は[2]を支持した。
Ukai (1988)
ソラマメ、ユリ、カなど長い染色体をもつ 14 例 10 種の生物について染色体あたりキアズマ数のデータを
解析した。分散の平均への直線回帰が認められ、14 例中 12 の点は平均 1,分散 0 の点のごく近傍を通り、
かつ勾配が1より小さい直線にそって分布した。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 18 -
Y(分散) = 0.417 X(平均) ‐0.391
これは、キアズマがどの二価染色体でも必ず1個は生じることと、必須キアズマ数以外の数は 2 項分布に
従うことを示す。なぜ2項分布となるかは不明。
キアズマ数の染色体腕間分布
腕長が同じで、キアズマが腕間にランダムに分布すると仮定する。染色体上に n 個のキアズマが生じたと
き、片方が腕にr個、他方の腕に n-r 個生じる確率は、
となる。
染色体上に n=4 個のキアズマが生じるとすると腕間分布は
(0:4, 1:3, 2:2) = 2:8:6
の比で生じると期待される。
Callant と Montalenti(1947)
蚊の一種(Theobaldia longiareolata)について、染色体あたりのキアズマ数を求めた。腕間でのキアズマ分布は
均等になるように制御されていることが認められる。
______________________________________________________________________________
------------ 染色体あたりのキアズマ数
2
--------------------------
3
4
______________________________________________________________________________
1:1
均等型
51 (26.5)
1:2
69 (51.8)
2:2
33 (13.5)
______________________________________________________________________________
0:2
不均等型
2 (26.5)
0:3
0 (17.3)
1:3
3 (18.0)
0:4
0 ( 4.5)
______________________________________________________________________________
キアズマと乗換え
一対の相同染色体で1個のキアズマが存在すると、染色分体あたりの個数は 0.5 個生じたことになる。
キアズマが乗換え点であるならば、1個のキアズマが見られる染色体上の地図距離は 50 cM(センチモル
ガン)となるべきである。キアズマ数と連鎖地図長のデータを以下に示す。
種
染色体数
連鎖地図の全長
細胞あたりのキアズマ数
50 N/L
Arabidopsis
5
630.4
10
0.793
オオムギ
7
1062
15
0.706
Brassica oleracea 9
1606
22
0.684
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 19 -
トマト
12
1400
22
0.785
トウモロコシ
10
1859
27
0.727
コムギ
21
2575
55
1.067
ヒト
22+X
4974.8
55
0.554
ヒト
22+Y
3120.6
55
0.881
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 20 -
III 数理遺伝学
連鎖(linkage)
異なる染色体上にある2つの遺伝子座の遺伝子はメンデルの独立遺伝の法則に従って互いに独立に次世代
に伝えられる。一方、2遺伝子座が同じ染色体上にある場合は遺伝子の伝わりかたは独立ではなく、親と
同じ組合せの遺伝子が相伴って伝わりやすくなる。この現象を連鎖(linkage)とよぶ。通常、複数の遺伝子
座が同一の染色体上に関連付けれていることをこれらの遺伝子座は連鎖するという。
Correns (1899)
連鎖の現象を発見
Bateson and Punnett(1905)
スイートピー(Lathyrus odoratus)の品種:(a)紫花で長い形の花粉、と(b)赤花で丸い花粉の二つの品種を後
輩し、その後代での遺伝的分離を調べた。
F1: (a)紫花で長い形の花粉となった。
花色:紫(P)が赤(p)に対して優性、花粉の形:長形(L)が丸形(l)に対して優性
F2 における分離比はメンデルの法則と大きく異なることが示されたが解釈はできなかった。
PL
Pl
pL
pl
F2(Blanche Burpee x Emily Henderson)
296
19
27
85
個体 No.2 からの F3
493
25
25
138
個体 No.5 とその次世代
545
25
40
159
個体 No.6 とその次世代
583
26
24
170
F2(Bush x Cupid.)
131
6
5
42
2048
101
121
594
Total
独立分離の場合の期待値(F2)を求めてみよ。
Morgan 派によるショウジョウバエの実験
遺伝子座が同じ染色体上にあることにより連鎖が生じることを証明した。
メンデル集団(Mendelian population)
生物の個体で構成されているある集団があり、集団内のどの個体間についても交雑が可能である場合、こ
の集団をメンデル集団という。
形質(trait, character)
メンデル集団において、個体の間で、形態や性質がなどの違いが認められ、かつその違いの少なくとも一
部が遺伝子の効果によるとき、その形態や性質を形質という。形質には質的形質と量的形質がある。
質的形質(qualitative trait)
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 21 -
表現型が不連続で、その再を定性的に表すことができる形質をいう。
質的形質は1つの遺伝子型に対して1つの表現型(または明確に分類できる1つの表現型の集合)に対応
した形質ということができる。1つの表現型には2つ以上の遺伝子型が対応していてもよい。表現型は環
境にほとんどまたは全く影響されない。
例
イネにおけるウルチ米とモチ米
エンドウにおける花の色:赤色と白色
2条オオムギと6条オオムギ
量的形質(quantitative trait)
計数値または長さ、重さ、時間などの計量値で表される形質をいう。量的形質とは、1つの遺伝型に2つ
以上の表現型が対応した形質ということができる。1個の遺伝子座しか関与していないものもあるが、一
般には複数の遺伝子座が関与する。なかには微小な効果をもつ多数の遺伝子が関与するものもある。量的
形質に関与する遺伝子座を量的形質遺伝子座(quantitative trait locus, QTL)という。
関与する遺伝子座がk個あれば F2 世代で分離する遺伝子型が 3k となる。例えば k=5 の場合、243(=35)も
の遺伝子型の階級が分離され、隣接する階級間における差はわずかとなる。それぞれの遺伝子型に対応し
た表現型が環境条件によって量的に増減するなど、量的形質の表現型は環境の影響を受け変化しやすい。
例
イネにおける穂数(計数値)、草丈(長さ)、収量(重さ)、早晩性(時間)
質的形質と量的形質の区別は必ずしも厳密ではない。このことを以下の二つの例で説明する。
オオムギの開花期
オオムギの開花期が1遺伝子座に支配されていて、早生品種(ee)と晩生品種(EE)を交配した後代の F2 で、
EE,Ee,ee がそれぞれ晩生、晩生、早生の開花期を示すとする。この場合、早生群および晩生群の中で個体
による開花日に違いが認められるかもしれないが、早生群および晩生群の間の差異が明らかであるならば、
本来は計量可能な量的形質である開花期を質的形質として扱うことができる。
メンデルの実験ではエンドウの茎の長さ(長、短)を遺伝子型間の差異が明らかであることから質的形質とし
て解析された。草丈でも短い個体(ss)と正常個体(SS)の交配 F2 におけるように、遺伝子型 SS,Ss,ss と対
応した表現型の分布が互いに重なり合う場合は、量的形質として扱われる。
ゲノム(genome)
生物が生存する上で必要な最小の染色体セット。Kihara(1930)により種間雑種や倍数性植物における減数分
裂期染色体の対合の細胞遺伝学的観察から提唱された。
相同染色体(homologous chromosome)
高等動植物の体を構成する細胞では、染色体が対(pair)になって存在する。対をなす染色体をいう。相同染
色体は、同数の同一遺伝子または対立遺伝子が対応して同じ順に並び、一方は、前代の母親から、他方は
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 22 -
父親から伝達される。
ヒトは染色体型は、男性では 23 本の常染色体が2対と性染色体 XY からなっている。一個のヒト細胞の核
にある DNA 鎖の数を求めよ。
遺伝子座、座(locus,
複数形 loci)
形質に関与する遺伝子のDNA塩基配列上、ないし染色体上の領域
対立遺伝子(allele)
相同染色体上の、ある遺伝子座における異なる遺伝子。
対立遺伝子が 3 個以上ある場合を複対立遺伝子(multiple allele)という。
記法
下添え字 1
母親由来の相同染色体、またはその上の対立遺伝子、またはマーカー
下添え字 2
父親由来の相同染色体、またはその上の対立遺伝子、またはマーカー
ホモ接合(homozygous)とヘテロ接合(heterozygous)
2つの遺伝子座 A と B を考える。A 座では、A1 と A2、B 座では B1 と B2 の対立遺伝子があるとする。A 座
の遺伝子型は A1 A1、A1A2、A2A2、B 座の遺伝子型は B1 B1、B1B2、B2B2 のそれぞれ 3 種が得られる。同じ
対立遺伝子をもつ遺伝子型(A1A1、A2A2、B1 B1、B2B2)をホモ接合(homozygous)、異なる対立遺伝子をもつ
遺伝子型(A1 A2、A2A2、B1 B2)をヘテロ接合(heterozygous)という。
遺伝子型(genotype)
ある1つの形質に関与する遺伝子座における対立遺伝子の相対を遺伝子型とよぶ。
例
2 倍性生物では、2 対立遺伝子 A-a をもつ1遺伝子座 A が関与する形質については、AA, Aa, aa の3種
類の遺伝子型がある。
例
二つの遺伝子座 A,B それぞれについて 2 対立遺伝子があり A-a,B-b とするこのときの遺伝子型は AABB,
AABb, AAbb, AaBB, AaBb, Aabb,aaBB,aaBb,aabb の 9 通りがある。
表現型(phenotype)
遺伝子型が示す効果を表現型という。
例
AA または Aa の遺伝子型の花が赤色で、aa の遺伝子型をもつ個体の花が白色である場合に、遺伝子型
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 23 -
AA または Aa の個体の表現型を赤色、遺伝子型 aa の個体の表現型を白色であると定義する。量的表現形
質の表現型の定義はこれとはことなるので注意。
優性型分離(dominant segregation)
表現型において、ヘテロ接合がどちらかのホモ接合と区別できない場合を優性型分離という。
共優性型分離(codominant segregation)
ヘテロ接合がどちらのホモ接合とも区別できる場合を共優性型分離という。
優性(dominant)と劣性(recessive)
表現型において A1A2 が A1A1 と区別できない場合には、対立遺伝子 A1 は A2 に対して優性(dominant)、対立
遺伝子 A2 は A1 に対して劣性(recessive)という。
記法
ふつう遺伝学では大文字で優性遺伝子、小文字で劣性遺伝子を表す。質的形質、とくに突然変異由
来の質的形質ではほとんどが優性分離である。また、表現型において対立遺伝子のどちらも該当する場合
を*で示す。A*は A1A2 が A1A1 を表す。また、マーカー型も通常の遺伝子型と同じように表す。
2倍体の染色体をもつ生物で、遺伝子座が n 個分離されたとする。
(1)共優性分離の場合の遺伝子型ならびに表現型は何種類あるか。
(2)優性分離の場合の遺伝子型ならびに表現型は何種類あるか。
(3)共優性分離を示す遺伝子座が c 個、優性分離を示す遺伝子座が d 個ある場合、表現型は何種類あるか。
相引(coupling)と相反(repulsion)
Bateson と Punnett(1905)のスイートピーの実験において、優性と優性、劣性と劣性の組合せが独立分離か
ら期待されるよりも多く分離する場合と、反対に優性と劣性の組合せが多く分離する場合があることを見
出し、相引と相反の概念ができた。
相引(coupling):優性と優性の組合せ、ならびに劣性と劣性の組合せが独立分離から期待されるよりも多く
分離する場合を相引という。
相反(repulsion):優性と劣性の組合せが独立分離から期待されるよりも多く分離する場合を相反という。
優性型分離における相引と相反では、最尤法による組換え価の推定方式は同様であるが、結果に大きな違
いがあるので注意を要する。例えば、二つの座 A,B において A,B を優性遺伝子、a,b を劣性遺伝子とすると、
A,B ともに優性対立遺伝子をもつ親 P1(AABB)と劣性対立遺伝子をもつ親 P2(aabb)との交配に由来する次代
F1 の遺伝子型は AB/ab となる。一方、AAbb x aaBB の F1 の遺伝子型 Ab/aB となり、連鎖があれば Ab と
aB の遺伝子型をもつ配偶子が多くなる。すなわち、相引でも相反でも連鎖があると親と同じタイプの遺伝
子型が F2 で多く分離する。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 24 -
一重雑種(single heterozygote)と二重雑種(double heterozygote)
二つの座 A, B に関して 2 品種間の交配 A1A1B1B1 x A2A2B2B2 を考える。対象とする両座についてヘテロ接
合である遺伝子型(A1A2B1B2)を二 重 雑 種 という。一方、どちら片方の座だけヘテロ接合である遺伝子型
(A1A2B1B1,A1A1B1B2,A2A2B1B2,A2A2B1B2)を一重雑種という。
組換え(recombination)
二つの座が同じ染色体上にあるとき、両親の異なる遺伝子、ないし形質の組合せが得られることを組換
えという。Recombination とは recombination of linked characters の意味であり、発見者である Bateson(1909)
が re-combination という語を遺伝学用語としてはじめて用いた。
組換えが生じた場合には、染色体間分離と同様に A1B1、A1B2、A2B1、A2B2 の4種類の配偶子が生まれる
が、当頻度ではなく以下の性質を有する。
[1] A1B2 と A2B1 の頻度は A1B1 と A2B2 の頻度に比べて小さい。
[2] 遺伝子座 A と B が互いに近いほど、組換えはおこりにくくなる。
非組換え型(non-recombinant)と組換え型(recombinant)
両親は同じ染色体上にある二つの遺伝子座 A,B について対立遺伝子をもち、かつホモ接合であるとする。
二つの座 A, B に関して 2 品種間の交配 A1A1B1B1 x A2A2B2B2 を考える。次代 F1 の遺伝子型は A1B1/A2B2 と
なる。ここで、
「/」は A1 と B1 が同じ相同染色体に、また A2 と B2 がもう一方の相同染色体にあることを意
味する。二重雑種の F1(A1A2B1B2)から生じる配偶子の遺伝子型(半数型,haplotype)は、A1B1、A1B2、 A2B1、
A2B2 の4種類となる。このうち A1B1 と A2B2 を非組換え型(non-recombinant)、残りの A1B2 と A2B1 を組換え
型(recombinant)という。
組換え価(recombination percentage, fraction, value)
組換え価とはある一対の遺伝子座 A,B についての「二重雑種の遺伝子型をもつ個体から生じる配偶子にお
ける組換え型の頻度」と定義される量であり、2倍性生物では 0 から 0.5 の値をとる。一重雑種(例えば、
A1B2/A2B2)では、組換え型ならびに非組換え型の配偶子はいずれも A1B2、A2B2 となるので組換え価は 2 重
雑種でのみ定義される値である。
染色体の乗換えと地図距離
遺伝子の分離は、遺伝子が乗っている染色体または染色体部分が減数分裂期に分離した結果である。減
数分裂では、第一分裂前期に相同染色体間で対合が行われ、ついで染色体部分の交換、すなわち乗換えが
おこる。第一分裂後期にいたり相同染色体同士が別の極に移行して、分離する。さらに、第二分裂後期に
各相同染色体を構成する 2 本の染色分体が離れて別の極に移行する。花粉形成の場合には、最終的に一個
の細胞から4個の小胞体ができ、それぞれが花粉となる。二つの遺伝子座の同時分離を考えるとき、2座
が別の染色体上にあるときと同じ染色体上にあるときで分離が異なる。前者を染色体間分離、後者を染色
体内分離とよぶ。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 25 -
染色体間分離
二つの遺伝子座 A,Bが互いに異なる相同染色体上にあるときには、減数分裂の第一分裂後期での染色体間
分離によって遺伝子の分離が決まる。染色体間分離は減数分裂において対になった相同染色体のそれぞれ
が細胞のどちらの極に移行するかにより決まる。n 対の相同染色体があると、その分離の仕方は、
通りとなる。移行の方向は非相同の染色体間ではふつう互いに無関係に決まると考えてよい。従って
と
おりのどれが起こる確率も等しい。相同染色体の極分離にともない、A 座の遺伝子 A1 と A2 の分離と、B
座の遺伝子 B1 と B2 の分離が互いに無関係に決まることになる。すなわち、A,B 両遺伝子座の遺伝子の分離
は独立となり、メンデルの独立の法則が成り立つ。減 数 分 裂 の 結 果 生 じ る 配 偶 子 で の 遺 伝 子 の 組 合 せ
は、A1B1、A1B2、 A2B1、A2B2 の 4 通りであり、それは等頻度となる。
染色体内分離と乗換え(crossing over または crossover)
乗換え(crossing over)という用語は Morgan がショウジョウバエで X 染色体上にある二つの突然変異形質が
連鎖を示すことを発見したデータの解析で、連鎖した形質から新しい組合せが生じる細胞学的過程を表す
ために用いられた。
二つの遺伝子座 A,Bが同じ染色体にあるときには、遺伝子の分離は染色体内分離によって決まる。相同染
色体がそのまま極へ移行するだけならば、遺伝子のつながり A1-B1 、A2-B2 も破られずにセットになって
次代に伝えられる。この場合には、A1B1 と A2B2 遺伝子をもつ配偶子だけが等頻度で生じ、A1B2 と A2B1
という配偶子は生まれない。
しかし、ふつう相同染色体間では、減数分裂期に乗換えという現象が一箇所以上の点でおき、その場所
で染色体部分が置き換わる。
組換え
染色体部分の置換にともなって、染色体上にある遺伝子間の連なりが破られる場合を厳密には組換えとい
う。
地図距離(map distance)
乗換え頻度は遺伝子座間の遠近を表す尺度として使える。乗換え頻度の大きさは地図距離(map distance)で
表される。地図距離を、「染色体上の特定領域において相同染色体間で染色体部分が置き換わる平均回数」
と定義する。すなわち、同一染色体上の2遺伝子座間において、染色分体あたり平均して x 回の乗換えが
生じるとき、x を2遺伝子座間の地図距離という。地図距離の単位をモルガン(M)で表す。
1 M = 0.01 cM (センチモルガン)
という。
連鎖群と連鎖地図
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 26 -
連鎖群(linkage group)
遺伝子座を互いに連鎖するひとまとめの群にわけ、これを連鎖群(linkage group)と呼ぶ。連鎖群の数は生物
の種に固有であり、それぞれの種の体細胞における染色体数の半数(半数染色体数 half chromosome number)
と一致する。
遺伝地図(genetic map)、連鎖地図(linkage map)、マップ(map)
ある定義された単位に基づいて測定された遺伝子座間の相対的位置を一直線上に表したものを遺伝地図
(genetic map)または連鎖地図(linkage map)、または単にマップ(map)という。連鎖地図上の遺伝子座間の相対
的位置は、組換え価ではなく、乗換え頻度を表す地図距離で表される。
地図距離の推定手順
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 27 -
IV 数理解析法
Likelihood, Support, and Score Functions
確率密度関数を特定したいとき、分布パラメータ
て確率密度関数を扱う。
(ベクトルのとき
値ベクトル
が与えられているとき、
が既知であると仮定してランダム変数
、スカラーのときに
で表す。)最大尤度推定において、
「観測
について何が言えるか」という質問により、観測値と分布パラメ
ターの役割が逆転する。このことの別の解釈を特定するために、密度関数を
が与えられたときの
estimate)は、
そうな」
の尤度、として表す。未知パラメータ
の最大値と対応した
の関数とし
、観測データベクトル
の最 大 尤 度 推 定 (maximum likelihood
の値である。すなわち、MLE はデータ
を生み出す「最もあり
の値である。対数尤度(log-likelihood)により最大尤度を見つけることがより簡単になる。
(1)
を、サポート(support)とよぶこともある。対数は単調関数であるので、
は
と同様の最大
値をもつ。スカラーの場合には
、
n 個のパラメータからなるベクトルに対しては、
(4,2)
をスコア(score)と呼ぶ。 計算から、MLE で推定されるスコアは0、
例1
n個の値
,…
された。
が平均値
における
が未知であり単位分散(
となる。
)の正規分布から独立にサンプリング
についての MLE を求めよ。
正規分布の密度関数は、
であるので、
とするとn個の正規分布関数の積は
(3)
で表される。
対数尤度(サポート)は
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 28 -
(4)
スコア関数は
よって、
と求まる。
MLE の大数サンプルにおける特徴
標本サイズが大きくなるとき MLE は以下の重要な特徴を有する。
[1] 一貫性(Consistency): 標本サイズが増加すると、MLE は真のパラメータに収束する、すなわち、
[2] 不偏性(invariance):
は分布の未知パラメータの関数であると仮定すると、
の MLE は
である。すなわち、これらのパラメータの関数の MLE は、単純に MLE で推定された関数である。例えば、
の MLE は
である。
[3] Assymptotic normality および効率:標本サイズが増加すると、MLE のサンプリング分布は正規的に収
束するそして一般に、他の推定手続きはより小さい分散をもつということがない。ゆえに、十分に大きな
標本サイズで最大尤度を経由して得られる推定値は、典型的な最小の信頼区間をもつ。
[4] 分散(Variance):大標本について、一つの道パラメータを仮定したときの MLE の分散は、MLE
いて見積もられる対数尤度関数の二次導関数の逆数の負の値に近似される。
(6)
例2
例1における平均値の分散を求めよ。
にお
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 29 -
MLE の Asymptotic normality を用いると、MLE の近似分布は、
区間は
となる。また、95%信頼
となる。
フィッシャーの情報行列(Fisher Information Matrix)
ベクトルパラメータを推定する時に、式(6)は式(7a)による Hessian matrix, H,を用いることにより一般化
できる。
(7a)
ここで、
は、点
で推定された Hessian matrix であり、この点の周りの
度である。フィッシャーの情報行列は
の部分曲率の尺
についての Hessian matrix の期待値の負の値である。
(7b)
この行列は対数尤度表面の多次元曲率の尺度である。一方、
はスコアベクトルの積の期待値として計算
できる。
(7c)
MLE の共分散行列は、単純に、情報行列の逆行列である。
(7d)
一変数の場合、尤度面は MLE の近傍で高度に曲がる(非常に高いピークとなる)ので、標準誤差(部分
曲率の逆数)は小さくなる。一方、尤度が非常に平らであるならば、サンプリングされる分散は大きい。
標本サイズが大きい時、
はしばしば MLE で見積もられる Hessian matrix により近似される。
(7e)
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 30 -
例 3
n個の値
,…
が、平均値
および分散
が未知の正規分布から独立にサンプリングされた。
における MLE と標本分散を求めよ。
対数尤度(サポート)は
(4)
スコア関数は
より、
これを解くと
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 31 -
これらから
よって
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 32 -
と
よって、
の分散は
となる。また、 と
の共分散は
となる。
尤 度 比 検 定 (Likelihood-ratio test)
ある還元モデルが完全モデルと同様に適用できるかどうかを検討するために、最大尤度は、非常に便利な
尤度比(LR)の形式における仮説の検定を提供する。尤度比検定の統計量は
(4.9)
は MLE で得られた尤度、
で表すことができる。ここで、
は尤度関数の最大値である。
全尤度解析における制約のない r 個のパラメータが固定値を割り当てる。十分に大きなサイズをもつ標本
に対して、LR 検定統計量は
例 4-1
例1ではn個の値
プリングされた。
分布(自由度 r の
,…
が平均値
分布)である(Wald, 1943)。
が未知であり単位分散(
という仮説を LR 検定統計量により検定せよ。
)の正規分布から独立にサン
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 33 -
いま、未知変数は一つであるので、自由度1の
満たすとき、仮説
例 4-2
が与えられており、
となる。同様に
については
となる。
,…
が、平均値
および分散
という仮説を LR 検定統計量により検定せよ。
例3より
であるので、以下の条件を
を棄却する。
例3ではn個の値
グされた。
分布から
が未知の正規分布から独立にサンプリン
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 34 -
よって
が得られる。これは1パラメータを固定値と割り当てているので、自由度1の
以下の条件を満たすとき、仮説
分布により評価できる。
を棄却する。
G 検定(G-test)
適合度に対する G 検定(G-test)は、共通の尤度に基づいた検定である。N 個の異なったカテゴリーに分配
するされた n 個の観測値を考える。すなわち、
ゴリーの真の集団頻度とする
度は、
とする(
。多項分布から、観測データ
)。
を i 番目のカテ
が与えられたときの
の尤
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 35 -
(10)
である。ここで、k は
と独立の定数である。式(10)を最大にする
の推定値は、
であるので、尤度関数の最大値は、
(10b)
で表現できる。
観測データが集団頻度の特異的ベクトル(
)と一致するかどうか検討するために、この制約のもとでの
尤度関数を求める。i 番目のカテゴリーにおける個体の数に対する期待値を
と記述する。このとき
は
であるので
となるので、G 検定統計量は
で表すことができる。M 個の集団頻度の合計は1であるので、G は非制約パラメータの数は N-1 である。
このことは、自由度 N-1 の
分布に従うことを意味する。ただし、全ての期待数が5未満のときには注
意を要する(Sokal and Rohlf (1995))。
一般線形モデル(General Linear Model)における尤度比検定
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 36 -
一般線形モデル、
とする。ここで残差ベクトル(n x 1)は、平均0、共分散行列
すなわち、 は分布は
となる。観測データ(
を有する多変量正規分布に従うと仮定する。
に従う。 の密度関数は
,
)の条件のもとで
と
に対する尤度を与える。
であるので、
ここで、
は固定された効果のベクトルであり、行列
で与えられる。ここで、
k 個の分散
ける
は、
は既知定数の行列である。このように、推定されるパラメータは固定効果
と
である。同じ共分散
をもつが、固定効果の異なったベクトル、完全モデル(full model)にお
と還元モデル(reduced model)
におけるそれぞれのベクトル、である。この結果として得られる尤度
比統計は
となる。ここで、
ならびに
は、それぞれ完全モデルと還元モデルのもとでの平均値の推定
値である。標本サイズが大きいとき、この検定量は、自由度
例 5
n 個の異なった集団の平均値を
均値は独立である。しかし、分散
の
分布に従う。
、line-cross 解析で用いる一連の集団からのデータ、とする。平
については異なる可能性がある。
は i 番目の平均値の分散である。i 番目の平均の分散を
は対角行列であり、i 番目の要素
と記述するとき、LR 統計量を求めよ。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 37 -
となるので、効果をほとんどないと仮定した場合の完全モデルと還元モデルの尤度比検定統計量は
であり、完全モデルと還元モデルの自由度の差の基づいた
分布に従う。
ML 式を解くための反復法
ML 推定および尤度比を伴った仮説検定は概念的に直接的であるが、実際には最大尤度関数の探索には
複雑になる。理想的には MLE の閉じた形式(closed-form)の解が、スコアベクトル誘導、式を0とおくこと、
および解くことにより得ることができる。しかし、多くの場合、このことは不可能であり数値解析法が用
いられる。1個あるいは2個のパラメータによる非常に単純な場合には、グリッド探索にもとづいた力ず
くの方法を用いることができる。ここで、未知パラメータの関数として尤度表面を二次元のプロットし、
最大値を求める。3以上の変数の場合、このことは不可能であり一連の反復法により解決される。ここで
は、Newton-Raphson 法と EM 法について述べる。すべての反復法で浮上する問題は、尤度表面にいくつ
か局所極大があるときにそれらが真の MLE に収束できないということである。反復法は初期値を必要と
する。初期値の選択を失敗すると局所に解が収束するので、反復法では、いくつかの初期点から解析を始
めるべきである。
Newton-Raphson 法
関数
を級数展開すると、任意の点
について
と近似できる。
を解くということは、
と近似できるので、その解は、
となる。この式をスコア関数に適用する。すなわち
とおく。ここで、
ならび
の式は予め誘導しておく(下の式)。k=0 における値
下の式により新たに k=1 における値
を求める。つぎに、k=1 で求まった値
を初期値とし以
をもとに k=2 における
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 38 -
値
を求める。これを順次繰り返す。
更新前後の値の差
が十分に小さくなったところで反復計算を終了し、推定値
を得る。
Newton-Raphson 法は quadratic method の一方法である。
同様の論理は多変量テイラー級数にも適用できる。この場合、反復過程で用いる式は
となる。ここで、
ならびに
はそれぞれ、スコアベクトルと Hessian 行列である。
Fisher のスコア法
Fisher のスコア法は Newton-Raphson 法と類似した方法であり、Hessian 行列を期待値(
)に
置き換えた方法である。
Fisher のスコア法は、厳密 Newton-Raphson 法に比べて初期値の選択に対して頑強である(Jennrich and
Sampson,1986)。二次収束の利点に加え、Newton-Raphson 法と Fisher のスコア法は、 の最終反復値を用い、
式(7)を適用することにより
から MLE 推定値の収束行列を得ることができる。Kennedy and Gentle(1980)
により二次収束法について説明されている。
Expectation-maximization(EM)法
Newton-Raphson とその類縁法は、尤度関数の一次と二次導関数を必要とする。巨大行列に対して反復的
に逆行列を求めるなど計算機資源への要求が高くなる。そこで代替法として expection-maximuzation(EM)
法 を用いる新たな方法が欠落データ(あるいは不完全データ)をともなったデータセットに対する反復ア
プローチとして Dempster et al (1977)に提案された。
EM for Mixture Model Likelihoods
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 39 -
混合モデルが定量的遺伝子解析の設定で用いられている。単一の観測値を
分布が N 個あるとする。k番目の正規分布
を平均値
と分散
とする。混合モデルに正規
により規定する。ここで分散
については、すべての正規分布で同一であるとする。また、k番目における分布の頻度を
とすると
尤度関数は
となる。
の未知の変数は 2N(=N+1+N-1)個である。
未知変数の種類
未知変数の数
[1]正規分布の平均値
[2]正規分布について分散
[2] 分布の頻度
N個
、
:頻度
: 全てに対して共通なので1個
の N 個の和は1なので N-1 個
1個
N-1 個
この分布から独立に取り出された n 個の個体について、完全尤度は
である。完全尤度は記述は単純であるが、完全尤度の関数は解析が複雑であり数値解析が通常行われる。
我々が固有の値を観測するとき、値が抽出された母集団の分布(あるいはカテゴリ)についてはわからな
い。各々の観測値に対するカテゴリーの正体がわかっていれば、母集団の平均値と分散の ML の解は簡単
に計算される。例えば、一つの二対立遺伝子座における QTL が分離されたと仮定する、個体が QTL 遺伝
子型 QQ、Qq、qq のどれを持つかを決めることができるとすると、おのおのの遺伝子型の平均値と共通の
分散は容易に推定されるであろう。このことが EM 法の根底にある考え方である。各々のカテゴリーの正
体について初歩的な推論からはじめ、母集団の平均と分散についての ML 推定を計算する。この推論は、
各々の個体に対する重みベクトルの形式によりなされる。各々の個体のk番目の要素の重み
質値
は、形
を有するある個体がk番目の QTL 遺伝子型をもつ確率値である。平均値と分散の推定値を用いた重
みベクトルの更新は、条件付確率に対するベイズの定理を用いて計算することができる。
次に、この更新重みベクトルはカテゴリーを特徴づける平均値と分散値の新たな推定値を得るために用い
る。具体的な手続きを以下に示す(Aitkin and Wilson, 1980)。
[1]初期化ステップ
N 個のモデルに対して
(i)個体が帰属される頻度
、
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 40 -
(ii)平均値
(iii)分散
を適に決め、u=1 とする。また、観測値を
とする。
[2] E ステップ
(i)-(iii)の初期値と観測値
をもとに、それぞれの観測地に対する重みベクトルを計
算する。
ここで、i=1,2,…,n であり、k=1,2,…,N である。
[3] M ステップ
[2]で推定された
値
をもとに、 (i)個体が帰属される頻度
ならびに、(iii)分散
を以下の式により更新する。
u を位置増やし、[2]E ステップならびに[3]M ステップを繰り返す。
、(ii)平均
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 41 -
V DNAマーカーと連鎖地図
5.1 DNA マーカーと多型
DNA 多型(DNA polymorphism)
DNA のレベルで系統が異なること。
制限酵素を用いて核の DNA を切断したときの断片の長さが個体または系統が異なること。
DNA 多型は、通常の遺伝子と同じくメンデルの法則に従って遺伝する。これを遺伝的なマーカーとして利
用して、相互の遺伝子連鎖の程度を推定して距離の指標とすれば、マーカー相互の染色体上の位置を示す
連鎖地図が作成できる。
5.2 DNA マーカー
Restriction fragment length polymorphism (RFLP)
あるひとつの制限酵素を用いて、染色体 DNA を切断し、長さの違う DNA をアガロースゲル電気泳動に
より分離する。進化の過程で生物の種間、品種間、個体間などでこのような DNA の変異が起これば、長
さの違う DNA 断片が得られることになる。これを、制限酵素断片長多型(restriction fragment length
polymorphism, RFLP)と呼ぶ。
いま、染色体中の特定の領域に注目し、染色体 AB 間と呼ぶ。電気泳動にかけられる DNA 試料中には、
長さがさまざま違う多数の DNA 断片がまざっているので、どれが対象とする AB 間断片に相当するか判
別できない。そこで、AB 間 DNA の一部と高い相同性(similarity)をもつ DNA 断片(これを DNA プロー
ブ, DNA probe と呼ぶ)をあらかじめ放射性リン(32P)ならびに蛍光色素によりラベルしておく。この DNA
プローブを、生物サンプルから分離された DNA 断片ハイブリダイズすることにより AB 間断片を検出す
る。これをサザンブロット解析(Southern, 1975)とよぶ。ここで DNA プローブは、理想的にはゲノム中
に一箇所とのみ対応するシングルコピーDNA であることが必要とされる。親 P1 が長い DNA 断片をもち、
P2 が短い断片をもてば、泳動距離が近い位置に P1、と泳動距離が遠い位置に P2 にバンドが見られる。
F1 では両方の位置にバンドが生じる。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 42 -
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 43 -
F1 を自家受精したときに図中の X の領域で乗換えがおこった。このときの RFLP and Southern Blotting
の泳動パターンを予測せよ
RFLP による多型はふつう共優性遺伝をする。しかし、長いほうの DNA 断片が長すぎて泳動距離がご
く短いと、バンドが検出できなくなる。この場合、ヘテロ接合体と短いほうの断片をもつホモ接合体とが
区別できなくなり、短いほうの断片をもつホモ接合体を優性と定義した場合に、優性型分離のみが可能と
なる。イネではマーカーの8割が共優性型分離、2割が優性型分離であった。
Randomly amplified polymorphic DNA(RAPD; Williams et al., 1990) 法
ランダム配列からなる短い(8-12mer)DNA をプライマー(primer)として、これらと同じ配列を持つ部分に
はさまれた領域を PCR(polymerase chain reaction)で増幅し、アガロースゲル電気泳動にかけ、バンドを
検出する。この方法を RAPD(randomly amplified polymorphic DNA)法とよぶ。RAPD 法における多型の
ほとんどはプライマー結合部位の塩基配列の変異(点突然変異)によって生じ、優性マーカーとなる。すなわ
ち、RAPD 型多型は優勢型分離である。まれに、対象 DNA の構造変異(欠失、挿入、逆位など)による
おおきさや増幅効率の変化に起因する場合があり、この場合は、共優性となる。実験者間、交配組合せ間、
種間での再現性が低いため、連鎖地図利用において基準となるアンカー(anchor)として使うことはできな
い。
解析例
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 44 -
レ タ ス (Keseli et al., 1994), ア ズ キ (Kaga et al.,1996), モ モ (Dirlewanger et al., 1996) 、 カ ウ ピ ー
(Menendez et al., 1997)など
Amplified fragment length polymorphism (AFLP; Vos et al., 1995)法
DNA を特定の制限酵素で切断し、切断された DNA 断片を PCR で増幅するためにアダプターを連結する。
これらに相補的な塩基にさらに 1-3 塩基のアンカーをつけたものをプライマーとして、プライマー結合部
位の塩基配列の差を利用して PCR により2回選択的に増幅する。増幅された産物を変性ポリアクリルアミ
ドゲルまたは DNA シーケンサーにより分離し、フィンガープリント分析をする。この方法を Amplified
fragment length polymorphis 法(AFLP; Vos et al., 1995)という。主として優性マーカーである。解析対象の
生物の塩基配列についての情報を必要としない点では RAPD と同様であるが、RAPD と違って1組のプ来
マーで数十のマーカー座の分離が得られ、また安定性と再現性が比較的高い(Waugh et al., 1997)。
解析例
オオムギ
Castiglioni et al.,(1998); Qi et al., (1998)
RFLP 法と RAPD 法の組合せにより、多型が得られやすいことが示されている。
レンズマメ
Eujayl et al., (1998)
ジャガイモ
Rouppe van der Voort et al., (1997)
Simple sequenced repeats(SSRs)法
2-6 塩基が単位(モチーフとよぶ)となって直列に 10 数回から最大 100 回まで反復している DNA 配列を
マイクロサテライト(microsatellite)または単純配列反復(simple sequenced repeats, SSRs)とよぶ。SSR 法では、
AGAGAGAGAGT、
TCTCTCTCTCTCTCTCC、
GACAGACAGACAGACA
など、ランダムな塩基が何回か繰り返された配列で構成される 17-20mer のプライマーを用い、染色体上
のマイクロサテライト領域に特異的にプライミングさせて、1対のプライマーではさまれたマイクロサテ
ライトを含む領域を PCR で増幅させる方法である。SSR は共優性マーカーである。
解析例
オオムギ
Liu et al., 1996; Davila, 1999
コムギ
Roder et al., 1998
アボガド
Sharon et al., 1997
Inter-single sequence repeat polymorphism(ISSR)法
ゲノム内に多数存在するマイクロサテライト部位をプライマーとして、2つのマイクロサテライトではさ
まれた領域をアンカーをつけて特異的に PCR 増幅して多型を調べる方法を Inter-single sequence repeat
polymorphism, ISSR)という。ISSR は RAPD と原理は同じであるが、アニーリング温度が高いので安定
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 45 -
したマーカーとして使える。ISSR は優性マーカーである。
解析例
ヒトツブコムギ
Kojima et al., 1998
5.3 連鎖地図
(a)構築の歴史
1913 ショウジョウバエの連鎖地図(Sturtevant, 1913)
連鎖地図ができあがれば品種改良に大きく役立つという期待から作物の連鎖地図が作成された。
1917 トマトのわい性と果形の間の関係(Jones, 1917)
1941 オオムギ(Robertson,1941)
1963 イネ(Takahashi,1963)
1968 トマト(Khush and Rick, 1968)
1937 ヒト X 染色体上の色盲と血友病の遺伝子座の間に連鎖が見出された(Solomon and Goodfellow, 1983)
連鎖地図の例
アデノウイルスの温度感受性突然変異の地図作成
Grodzicker et al., 1975
ヒト
Botstein et al.,1980
トウモロコシ:在来品種間
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 46 -
VI
連鎖地図の構築原理
VI-1 交配実験と分離比の検定
各マーカーについて遺伝的分離のデータが得られると、各座でのマーカー型の分離が遺伝的に期待され
る比かどうかの検定が必要となる。例えば、遺伝的法則から2種類のバンドパターンが 1:1 に分離するこ
とが期待される場合(例えば BC)に 100 個体を観察したとき期待値の 50 個体と 50 個体に分離すること
はまれである。期待比からの観察比のずれが、単に確率的なバラツキによるのか、他の原因にあるのかを
検定する必要がある。このための統計検定としては、カ イ 2 乗 分 布 に よ る 適 合 度(goodness of fit)の
検定が使われる。一つの遺伝子座ごとに遺伝モデルを同定し、データの質を検討することから、単一座モ
デル(Single-Locus Models)ともいう。
6.1.1 統計的準備
二項分布
コインの表の出る確率
を 1/2、裏の出る確率
の出た回数をそれぞれ
、
(
を 1/2 とする。このコインを n 回投げたときに、表と裏
)出る確率
は、
となる二項分布に従う。
多項分布
1回の試行において
個の排他的な事象についての生起確率をそれぞれ、
、
とする。独立の試行が 回繰り返されたとき、それぞれの事象に属する頻度が
、…、
、…、
察される確率は、
(1)
で与えられる多項分布となる。整数zが十分大きいとき、スターリングの公式
(2)
が適用できる。そこで式(2)を(1)に適用すると、
と観
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 47 -
次に、
を計算する。
とおき
を消去する。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 48 -
と近似できるので
となる。よって最終的には
ここで
であるので、
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 49 -
となる。この指数部に含まれる
(2)
は、近似的に自由度(degree of freedom)
の
分布に従う。
カイ2乗分布
型分布のn個の互いに独立な確率変数
(j=1,…,n)の平方和
は自由度
のカイ平
方分布を与える。
(3)
ここで、
(sが偶数のとき)
(sが奇数のとき)
である。
仮説検定
(a)仮説検定の手続き
仮説検定の手続きは以下の4つのステップからなる。仮説検定では、正しいと期待して命題を仮説にた
てて検定しても意味をなさない。まず、疑わしいと思っているものを仮説にたてて検定すべきである。検
定される仮説 H0 を帰無仮説(null hypothesis)という。
ステップ 1:未知母数についての仮説(H0)をたてる。
ステップ 2:仮説 H0 が真であるとしたときの理論的結論をだす。
ステップ 3:ステップ2の理論的結論に対する実験的結論を出す。
ステップ 4:有意水準α(significance level)のもとで、理論的結論と実験的結論とを比較する。このαは、
仮説 H0 が真であるにもかかわらず、H0 を棄却する確率である。
(i)仮説 H0 を棄却する確率がαより小さいとき、理論的結論と実験的結論がくいちがっていないと判断し、
「仮説 H0 を棄却しない」。すなわち、仮説 H0 を疑う根拠はない。真であるとしたときの一つの理論的結論
をだす。
(ii)仮説 H0 を棄却する確率がα以上のとき、理論的結論と実験的結論がくいちがっていると判断し、
「仮説
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 50 -
H0 を棄却する」。すなわち、仮説 H0 を疑うこととなる。
このように仮説検定における判定は、
「仮説を棄却する」
「仮説を採択する(棄却しない)」のいずれかで
あり、これらはお互いに排他的な判定である。
(b)第1種の誤りと第2種の誤り
仮説検定において2種類の誤り(第1種の誤りと第2種の誤り)をおかす可能性がある。
第1種の誤り(false positive, type I error):仮説 H0 が真であるにもかかわらず、これを棄却する誤り。
第 2 種の誤り(false negative, type II error) :仮説 H0 が偽であるにもかかわらず、これを採択する誤り。
これらの関係から、[検定力を説明する]
仮説検定の結果
H0 を採択する。
H0 を棄却する。
(棄却しない)
H0 は真である。 TN
FP
1-α
=type I error
=α
事象
H0 は偽である。 FN
TP
= type II error
検定力=1-β
=β
マーカー型の分離の統計解析
マーカー型分離において、式(1)において
ることができる。
は各表現型の分離頻度に相当し、遺伝法則から理論的に求め
は各表現型の観察された数である。式(3)は、マーカー型の分離が期待どおりであると
仮定する。これを帰無仮説とよぶ。帰無仮説が成り立っていれば、式(2)で求めた
と一致する。このことは、
と
比較することによって達成される。
(
)は、理論分布
は有意水準
における
理論値であり、式(4)により求めることができる。
(4)
いま、
<
のとき帰無仮説が成り立つことを示しており、分離比は異常とはいえないと結論づけられる。
6.1.2
分離比の
検定[適合度(goodness of fit)の検定]
自殖性植物の交配法(a)F2、(b)BC、(c)DH、(d)RIL について分離比の
検定をあわせて説明する。
(a)自殖性植物における F 2
2つの親 P1 と P2 の間で雑種第1代(F1)を得る。F1 をさらに自殖(F1 x F1)して F2 を得る方法である。(a1)
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 51 -
共優性型分離と(a2)優性型分離について説明する。
(a1)共優性型分離
あるマーカー座について、共優性の場合におけるマーカーの表現型 A1A1、A1A2、A2A2 それぞれについて
の観察数を
、
、
とする。
、
、
に対する理論分離比に従っ
た個体数は、n/4, n/2, n/4 となる。
H 0 : 観察数
、
、
は理論分離比に従う。
分離比を検定するために、
を求める。
を自由度 2 における理論カイ2乗値(例えば
比較し、
)と
、
が成り立てば、H 0 は棄却されない。すなわち、分離比は異常とはいえない。
(a2)優性型分離
優性型分離について母方由来の遺伝子が父方由来の遺伝子に対して優性である場合と、この逆の場合が
ある。前者についてマーカーの表現型 A1*、A2A2 それぞれについての観察数を
、
とする。
ここで A1*は A1A1 と A1A2 の両方を意味する。このときの分離比の検定は、
を求める。
比較し、
を自由度1における理論カイ2乗値(例えば
が成り立てば、分離比は異常とはいえない。
、
)と
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 52 -
(b) 自殖性植物における戻し交配(backcross, BC)
2つの親 P1 と P2 の間で雑種第1代(F1)を得る。F1 に P1 または、F1 に P2 を交配することを戻し交配
(backcross, BC)という。前者を(P1)BC、後者を(P2)BC と記述する。F1 x P1 と P1 x F1 では同じ遺伝的分
離が期待される。前者は雌性の、後者は雄性の配偶子における組換え価を求めることができる。
(P1)BC では、ヘテロ型x母型ホモ(母型ホモxヘテロ型)の交配世代における表現型の分離は、A1A1、A1A2
のみであり観察数を
を用いる。
、
とする。このときの分離比の検定は、
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 53 -
(c) 自殖性植物における倍加半数体(double haploid, DH)
2つの親 P1 と P2 の間で雑種第1代(F1)を得る。F1 個体の葯培養や F1 と異種との交配により半数体をつ
くり、その染色体を倍加して遺伝的に固定した個体(倍加半数体, doubled haploid, DH)の分離世代を得る。
オオムギ(Kleinhofs et al., 1993)、トウガラシ(Lefebvre et al., 1995)などの研究例がある。また、オオムギ
では、葯培養のほかに bulbosum 法という栽培種 Hordeum vulgare と近縁野生種 H. bulbosum との交配
によって半数体をつくる方法がある(Symko, 1969; Kao and Kasha, 1969; Subrahmanyam and Kasha,
1973)。交配後の受精は正常に行われるが、幼胚の発育過程の初期に bulbosum の染色体が細胞から次第に
除かれて、vulgare 染色体だけが残り、細胞は半数体となる。組換え価推定においては葯培養法における
DH では雄性配偶子の値を、また、bulbosum 法による DH では雌性配偶子の値が得られる。DH では優性
座も共優性座と同じ情報量をもつ。自殖性植物における倍加半数体の表現型の分離は、A1A1、A2A2 のみで
あり観察数を
、
とする。このときの分離比の検定は、
を用いる。
(d) F 2 由来の組換え均衡系(F 2 -RIL)
F2 などの分離世代の個体別に何代も自殖で増殖を続けることによって得られる系 統 群 を 組 換 え 近 交 系
(recombinant inbred line, RIL)とよぶ。各座のヘテロ接合体の頻度が毎代 1/2 となり、何代かのちに
は系統群はほとんど完全ホモ接合体から構成されるようになる。RIL では優性座でも共優性座でも推定さ
れた組換え価の精度は同じとなる。継代において、各個体から一定数の次世代個体を構成するようにして、
個体間の適応度(fitness)に差が生じないようにする。集団のサイズを一定にして継代するため、代ごとに1
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 54 -
個体から次代の1個体を養成する方法を単粒系統法(single seed descent, SSD)という。RIL における自殖
世代には F8 以上を推奨している(Burr et al., 1988; Reiter et al., 1994; Menendez et al., 1997; Eujayl et
al., 1998)。
Fm における表現型 A1A1、A1A2、A2A2 の理論頻度
と表現できるので、これを分離比の検定では、
を用いる。
6.1.3 他殖性生物
、
、
は
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 55 -
VI-2 連鎖検定の原理
異なる染色体上にある2つの遺伝子座の遺伝子はメンデルの独立遺伝の法則に従って互いに独立に次世代
に伝えられる。一方、2遺伝子座が同じ染色体上にある場合は遺伝子の伝わりかたは独立ではなく、親と
同じ組合せの遺伝子が相伴って伝わりやすくなる。この現象を連鎖(linkage)とよぶ。
2つのマーカー座 A、B が同じ染色体にあれば、対立マーカーの減数分裂期における分離は互いに独立
でなくなる。母親由来のマーカーを A1、B1、父親由来のマーカーを A2、B2 とする。両座が近接していれば、
交配親における対立マーカーの組合せ(A1B1、A2B2)は、次代へ伝えられる。両座が互いに離れていれば、新
しい組合せ(組換え型)である A1B2、A2B1 が生じる可能性が高くなる。すなわち、座間の距離が遠いほど、
組換え型頻度は増加する。マーカー座 A、B がそれぞれ染色体の両末端にある場合には、非組換え型と組
換え型の生じる頻度は等しくなる。
分離世代で A、B 座の対立マーカーの分離が独立になるかどうかは、その前代の減数分裂における相同
染色体上のマーカー座の分離様式によって決まる。原理的には、減数分裂が完了した直後の配偶子におけ
るマーカー型の組換え型と非組換え型の頻度により、マーカー座間の連鎖の有無が得られる。しかし、花
粉、精子、卵などの配偶子でマーカーや形質の表現型を得ることは一般には難しい。そこで配偶子ではな
く、その受精によって生じる接合体での表現型の分離頻度に基づいて連鎖の有無を検定する。検定法とし
ては、(1)
6.2.1
検定と(2)尤度比検定を紹介する。
検定
一対のマーカー座が互いに連鎖していない場合には、観察された表現型の分離比が、独立遺伝を仮定した
ときの期待比から統計的に有意に外れることとなる。ある一対の座間で遺伝的分離が統計学的に独立でな
いということは両座が連鎖すると推定できる。いま、A 座、B 座におけるそれぞれの表現型分離が K 階級、
L 階級であり、A 座における階級 i(=1,2,…,K)における表現型の期待値を
における表現型の期待値を
、B 座における階級 j(=1,2,…,L)
とする。連鎖がないとすると、表現型の期待頻度は
となる。
二つの座 A、B について、KL 個の全表現型について、観察数が期待数に適合する程度を
統計量によ
り
(1)
と表すことができる。ここで、、A 座、B 座における表現型が i ならびに j である個体の数を
は総個体数
である。頻度
、
については、
と表す。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 56 -
が成り立つ。
また A、B 座それぞれにおける分離
をそれぞれ
、
は
(2)
(3)
となる。
連鎖がない場合の F2 共優性における A、B 座での表現型の分離比を表に示す。
B 1B 1
B 1B 2
B 2B 2
A 1A 1
A 1A 2
A 2A 2
式(1)による
は、上記の表全体を評価することになる。そのため、一方の遺伝子座が分離比に偏りは
もう一方の遺伝子座に影響を及ぼす。例えば、A 座の分離比が統計的理論比と大きく異なるとすると、当
然、上記の表の全てについて影響を及ぼす。そこで、
からそれぞれの座の分離比の偏りを除く方法
として、
を定義する。この
が連鎖の有無を検定する統計量である。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 57 -
二つの遺伝子座 A と B があり、以下の表現型の分離を得た。これらの二つの座が連鎖するか否かについて
統計検定せよ。
B 1B 1
B 1B 2
B 2B 2
A 1A 1
10
7
1
A 1A 2
14
38
5
A 2A 2
3
12
8
定義に従い
を求める。
より、
自由度4における理論値は
、
であり、
であるため、危険率 0.01 において二つの遺伝子座は独立とみなすことができない。すなわち連鎖している
と判定される。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 58 -
V-3
組換え価の推定
マーカー間の連鎖検定の次に組換え価を推定する。組換え価とはある一対の遺伝子座 A,B についての「二
重雑種の遺伝子型をもつ個体から生じる配偶子における組換え型の頻度」と定義される量であり、2倍性
生物では 0 から 0.5 の値をとる。一重雑種(例えば、A1B2/A2B2)では、組換え型ならびに非組換え型の配偶
子はいずれも A1B2、A2B2 となるので組換え価は 2 重雑種でのみ定義される値である。
組換え価の推定には、現在、最も推定値の精度が高く最適な方法とし最尤法が用いられている。最尤法
による組換え価の推定は Fisher (1928)および Hutchinson(1929)によりはじめられた。
5.3.1 最尤法(method of maximum likelihood)
最尤法(method of maximum likelihood)は Bernoulli(1777)にはじまり、Fisher(1921, 1922, 1925)に確立された。
例1
大量の植物種子の入った袋からをランダムに取り出した
の
粒の種子を播いたところ、
粒が発芽した。こ
粒のサンプルによる一度の発芽実験から袋内全体の種子の平均発芽率を推定する。発芽率を とする。
この場合、確率では、事象
ち
が
「発芽する」と事象「発芽しない」の二つの事象がからなり
回の試行のう
回起こる確率は二項分布により式(1)
(1)
で表すことができる。この式を発芽率の関数とみなし、式(2)で表す。
(2)
この
が最大となる
を発芽率の推定値として採用する。このような推定方法を最尤法(method of
maximum likelihood)という。
尤度を最大にする r を求めるには、対数尤度(log likelihood)を最大にする r を求めると計算を容易になる。
式(2)の対数をとると、
(3)
となる。この
を最大にするためには、r に関して微分した式を0と置きrについて解けばよい。すなわ
ち
であり、これを解くと
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 59 -
と求まる。これが、確率モデル(式(1))を最大とする発芽率 である。実際の数値計算法には双対法(bisection)、
Newton-Raphson 法がある。
推定値の標準誤差(standard error, SE)は、近似的に
により得られる。ここで、
である。これを Fisher の情報量(Fisher’s aount of information)という。
推定量の分散
と情報量の間には、Cramer-Rao の不等式
が成り立つ。2項分布や正規分布では
となるため、推定値の分散は情報量の逆数、標準誤差は情報量の平方根の逆数として求めることができる。
二つの遺伝子座 A,B について、AaBb x aabb の4回の戻し交配実験(ID=1,2,3,4)において4種の遺伝子型
AaBb, Aabb, aaBb, aabb の個体数を集計した。
(a)それぞれの実験について遺伝子座 A,B における分離比は理論分離比とみなすことができるか考察せよ。
(b)それぞれの実験について遺伝子座 A、B が連鎖すると判断できるか考察せよ。
実験 ID
個体数
遺伝型
ID=1
ID=2
ID=3
ID=4
AaBb
310
36
360
74
Aabb
287
23
230
50
aaBb
288
23
230
44
aabb
315
38
380
72
6.3.2 組換え価の推定
遺伝学実験における各種表現型の分離は、2項分布または多項分布に従うので、発芽試験を例にならっ
て最尤法により組換え価の推定値とその標準誤差を求めることができる。
(a)自殖性植物における F 2
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 60 -
二重雑種の F 1 (A1B1/A2B2)から得られる4種の配偶子(A1B1、A1B2、A2B1、A2B2)の中で A1B2 と A2B1 が組み
換え型である。各マーカー型の期待頻度は、A-B 座間の組換え価を r とすると、
と定義される。
(a1)共優性(1:2:1)- 共優性(1:2:1)
9 種の表現型における期待頻度を表2をもとに計算する。
となる。
♂
♀
A 1B 1
A 1B 2
A 1B 1
A 1B 2
A 2B 1
A 2B 2
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 61 -
A 2B 1
A 2B 2
♂
AB
Ab
aB
ab
♀
AB
Ab
aB
ab
,…,
と対応した観察数を
対数尤度を計算する。
,…,
とする。この観測数が得られる確率
を計算する。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 62 -
を計算する。
の r を求める。
この式をもとに数値計算により
情報量は、
であるので、組換え価の標準誤差は
から求める。
(b)Backcross Model
AB/ab x ab/ab の 交 配 に つ い て AB/ab, ab/ab. Ab/ab, aB/ab の 遺 伝 型 を も つ 個 体 が そ れ ぞ れ
、
、
、
、
、
であるときの組換え価を求めよう。
、
(a2)F2 優性モデル
A が a に対して優性、B がbに対して優性である AB/ab x AB/ab の交配について表現型 AB、Ab、aB、ab
をもつ個体がそれぞれ
う。
、
、
、
であるときの組換え価を求めよ
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 63 -
LOD(logarithm of odds)
推定された組換え価をもとに対象の2座が連鎖しているかどうかを反映する指標に LOD がある。
は、推定された組換え価に対する尤度の対数と組換え価が 0.5 のときの尤度の対数の差である。常用
対数を用いるのは、単に習慣である。図 5.4(p.102)における対数尤度
である。
であり、図 5.5(p.103)は
ということは、推定された組換え価のもとで連鎖するという
モデルが、独立であるとするモデルに比べて 1000 倍確からしいことを意味する。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 64 -
VI-4.DNA マーカーの連鎖群への分類法
DNA マーカーの連鎖群への分類法の一つである最近隣座法(鵜飼,1992)を説明する。
(1a)閾値法
組換え価または LOD についてある閾値を決めて、それより小さい値を示したマーカー対を同じ連鎖群に
分類する方法を閾値法という。この方法は、連鎖検定における危険率をやや小さくしたことと同じであり
以下に述べる多重検定の問題が発生する。
多重検定の問題
全マーカー数を
、連鎖群数を
とすると、連鎖群あたりのマーカーの数を
いま、全マーカーのうち二つを対にする組合せ
である。また、連鎖群あたりのマーカーの個数は
カーの組合せ
(=M/g)となる。
は
であることから、それぞれの連鎖群の中におけるマー
は
であるので、DNA マーカーの連鎖群への分類は
の中から
のマーカー対を選び出す問題とな
る。全体の組合せから同じ連鎖群に属する対の割合は、
となる。
例として
、
の場合を考える。
すなわち、240 個のマーカーを 12 個の連鎖群に分類する場合に、28680 対のマーカー対から 2280 対の連
鎖に関わるマーカー対を選択することとなる。
ある一対のマーカーが連鎖検定において
ついて
すると、
%水準で有意と判定されているとしよう。一つのマーカーに
個の検定がなされることになる。
対のマーカー対は真に同一の連鎖群に属するものと
対のマーカー対は本来、同一の連鎖群に属さない。しかし、
%水準で有意と判
定されているということは、
対については本来同一の連鎖群に属さないにもかかわらず、同一の連鎖群と判定されることを意味する。
実際に、
と設定して 240 個のマーカーを 12 個の連鎖群に分けた場合
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 65 -
となり 1320 対が同一の連鎖群に属さないにもかかわらず同一の連鎖群と分類されることとなる。すなわち、
連鎖が有意と判定されたもののうち 36.6%は判定が間違っていることになる。
ランダムな標本(本来、同一の連鎖群に属さないマーカー対)について独立に
も連鎖が有意と判定されるてしまう危険率
であるので、
対の検定を行い 1 対で
は、
とおき計算すると
となり
すなわち、1 対でも連鎖が有意と判定されるてしまう危険率
となる。このことは同一の連鎖群に属さ
ないにもかかわらず同一の連鎖群と分類されるものが必ず含まれることとなる。
一方、1 対でも連鎖が有意と判定されるてしまう危険率を
とすると、
とする必要がでてくる。このように厳しい危険率を設定すると、全ての連鎖が検出できなくなる。そこで、
検定にかけるべき対を他の方法で減らすことが必要になる。最近 隣 座法 (鵜飼,1992) では検定を行うマー
カー対の数を減らす改良が成されている。
(1b)最近隣座法(nearest neighboring locus)
マーカー間の組換え価を二元表に表す(表1を例として用いる)。ある組換え価の閾値以下の組換え価を
有するマーカー対は連鎖することとする。最近隣座法ではある座に対してそれと最も近い(組換え価が小
さい)座のみを探すことにより連鎖群へのマーカーの分類を行う。そのアルゴリズムを以下に示す。
アルゴリズム
[1]右側連結
任意のマーカー(ここではマーカーを A とする)について最小の組換え価となるマーカーを選択し、A の
右側に連結する。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 66 -
A-(0.049)-C
つづいて、C について最小の組換え価を有するマーカーを選択し、連結されたマーカー集合の要素に同じ
ものがないとき、C の右側に連結する。
A-(0.049)-C-(0.078)-F
以下、順次、同様の操作を行い、右側に連結することにより
A-(0.049)-C-(0.078)-F-(0.075)-D-(0.117)-L
を得る。L についてさらに連結すべき要素がないので、右側の連結はここで終了する。
[2]左側連結
つづいて、A の左側に連結を伸ばす。このとき、A と最小の組換え価を有するマーカーは C でありすでに
連結されているので、次に小さい組換え価を有するマーカーを選択する。例では B が選ばれる。
B-(0.083)- A-(0.049)-C-(0.078)-F-(0.075)-D-(0.117)-L
B に対して最小の組換え価を有するマーカーを選択する。この手続きを繰り返す。
K-(0.114)-E-(0.041)-H-(0.088)-B-(0.083)- A-(0.049)-C-(0.078)-F-(0.075)-D-(0.117)-L
連結ができなくなったら、連結されたマーカーからなる集合を構築し、表からこれらのマーカーを削除し、
[1]右側連結ステップにもどる同様の手続きを行う。このことにより
M-(0.036)-Y-(0.150)-U
が得られる。
[3]孤立座の連鎖群の分類
すべての連鎖群をつくる操作が終了した後に、どの連鎖群にも入らないマーカーを孤立マーカーと呼ぶ。
孤立マーカーと組換え価において有意な対となるマーカーの属する連鎖群に、この孤立マーカーを分類す
る。このようにして2つの連鎖群{ A, B, C, D, E, F, H, K, L }、{M, U, Y}が得られる。
多重検定の回数の回避
連鎖群を群 1,群 2,…,群 g とするとき、群1が決まると
つの組換え価を解析で用いるので、つぎに
まると
個の要素が残り、それぞれの要素について二
対のマーカー比較が必要となる。つづいて、群2が決
対のマーカー比較が必要となる。これを繰り返して、g-1 群において、
対
のマーカー比較が必要となる。これらを集計し、
すなわち、同一の連鎖群に属さないにもかかわらずに比較されるマーカー対の数は、
閾値法では
である。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 67 -
であるので、
より、検定の数は閾値法の 2/m 程度に減らしたことになる。最近隣座法は、異なる連鎖群に属する2マー
カー対における検定の回数が少ないので、閾値法に比べて誤りを減らすことができる。最近隣座法では、
マーカーの連鎖群を決定するにとどめて、マーカーの順序の推定には使わないほうがよい。マーカーの順
序の推定は、一般には、3点法、多点法、多次元尺度解析法などを用いる。
仮に、 例として
、
の場合、5%の信頼限界における同一の連鎖群に属さないにもかかわら同
一とみなされるマーカーの数は
となる。
E
L
H
K
M
A
F
D
C
U
B
Y
E
.000
.412
.041
.114
.485
.185
.268
.312
.226
.495
.121
.466
L
.412
.000
.407
.459
.457
.288
.185
.117
.238
.472
.342
.461
H
.041
.407
.000
.147
.483
.161
.261
.309
.201
.470
.088
.461
K
.114
.459
.147
.000
.482
.251
.317
.356
.288
.500
.206
.470
M
.485
.457
.483
.482
.000
.504
.504
.485
.481
.180
.505
.036
A
.185
.288
.161
.251
.504
.000
.125
.194
.049
.514
.083
.482
F
.268
.185
.261
.317
.504
.125
.000
.075
.078
.530
.201
.490
D
.312
.117
.309
.356
.485
.194
.075
.000
.143
.528
.252
.479
C
.226
.238
.201
.288
.481
.049
.078
.143
.000
.500
.131
.459
U
.495
.472
.470
.500
.180
.514
.530
.528
.500
.000
.527
.150
B
.121
.342
.088
.206
.505
.083
.201
.252
.131
.527
.000
.486
Y
.466
.461
.461
.470
.036
.482
.490
.479
.459
.150
.486
.000
(鵜飼、2000, p.154)
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 68 -
VI-5.マーカーの順序の推定
マーカーの順序の推定法には、一般には、3点法、多点法、多次元尺度解析法などを用いる。
6.1 3 点法
三つの遺伝子座 A、B、C は同一の連鎖群に分類されており、A-B、B-C、C-A 区間の組換え価をそれぞれ、
、
、
とする。
および
が成り立つ場合に、3座の染色体上の位置は B-A-C(あるい
は C-A-B)であり、他の順序ではないと判定できる。この方法を3点法(three point analysis)という。この
方法は、並べる座の数が少ないときには有効である。しかし、主に以下の4つの欠点がある。DNA マーカ
ーのように、連鎖している多数の座が同時分離するデータ解析には適さない。
(i)座数が増えると急激に計算量が大きくなる。
いま、
個のマーカーから任意に3つのマーカーを選ぶ。この選び方は、
通りある。例えば、m=10 では、120 通りであるが、m=100 では、161,700 通りとなる。
(ii)3点の選び方によって、マーカー順序に矛盾を生じることがある。
(iii)組換え価上の攪乱因子(致死因子の存在、語分類など)を検出することができない。
6.1.3 多点法
多点法(multipoint analysis)とは、対象とするマーカーすべての順列をつくり、観察された同時分離比から
それぞれの順列の場合に相当する尤度を計算し、その中で最大の尤度を示した順序を最適とする方法であ
る。マーカーの数が
個のとき、尤度計算を可能な順序の数
と対応した回数について計算する必要があり、実際には計算不可能となる。
(c)多次元尺度構成法(Multidimensional scaling technique, MDS)
多次元尺度構成法とは
個の要素があり、要素間の類似の程度が測定されているとき、それに基づいて本
来多次元空間にある要素間の関係を低次元の空間における相対位置として表す方法である(Torgerson, 1952)。
実際の適用例については、林と飽戸(1976)、柳井と高木(1986)、Borg and Groenen(1997)などがある。ここ
では、Torgerson(1952) の計量 MDS(metric MDS)について説明する。
1.前処理
要素間の類似度を以下の条件を満たす距離により表現する。
公理(i)
公理(ii)
公理(iii)
公理(iv)
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 69 -
これらの距離の公理のうち(iv)は必ずしも相対距離では満たされない場合がでてくる。たとえば、三つの要
素 i、j、k について相対距離
相対距離行列の全要素に定数
、
のとき、公理(iv)は成り立たない。そこで
(加算定数、additive constant)を足して、公理を満たすようにする。相対距離
と加算定数の和を絶対距離(absolute distance,
上述の相対距離
、
、
、
)という。
については、
[最長の距離+C]=[その他の二つの距離+2 x C]を解くことによって定数 C をもとめることができる。
2.Young-Householder 変換
絶対距離行列からスカラー積(
)を求める。
このようにして得られたスカラー積行列について固有値(eigenvalue)
、寄与率(contribution)、累積寄与
率(cumulative contribution)、固有ベクトル(eigenvector)を求める。すなわち、スカラー積行列は主成分分
析における分散共分散と対応する。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 70 -
VI-6 地図関数
連鎖群に分類された遺伝子座の順序が決まると、次に隣接する遺伝子間の地図上での距離を求め遺伝子
座を一次元の地図に表現する。遺伝子間の距離により表現しなければならない。また、一次元であるので、
加法性(additivity)が成り立つ。すなわち、三つのマーカー座 A、B、C について個の順番で連鎖していると
すると、A-B の距離と B-C の距離の和は A-C の距離となる。多重乗変えがあるために、組換え価には、こ
の加法性がない。AC 間の組換え価は、AB 間の組換え価と BC 間の組換え価の和よりも小さくなる。
6.6.1.地図距離の定義
相同染色体におけるある2座間の区間において、乗換えが平均して染色分体あたり
の2座間距離を
回生じるとき、そ
で表し、これを地図距離という。単位はモルガン(M)またはセンチモルガン(cM)である。
例えば、平均 2.5 回乗換えが生じるとき、距離として 2.5M あるいは 250cM と現す。組換えと違って、乗
換えについては多重回の乗換えがおきてもそれらをすべて数えるので、加法性が成り立つ。
キアズマと地図関数の関係
乗換え数はふつうでは実験的に計算できない。そこで理論的から組換え変え価の関係を表す関数を求め
ることがおこなわれてきた。この関数を地図関数(map function)という。地図距離は染色分体あたりの平均
乗換え数であるのに対して、キアズマ数はふつう対合した相同染色体あたりで数える。従って、キアズマ
が乗換えと一対一対応していれば、xモルガンの地図距離では2x個のキアズマが生じることが期待され
る。
地図距離と物理地図の関係
単位染色体長あたりの組換え頻度が染色体上の位置によって変動するので地図距離は物理的距離である
DNA 塩基配列の長さとは直接比例しない。また、乗換えが生じやすい染色体部分では地図距離も大きくな
る。また、乗換えが平均1回起きる DNA の長さは生物種間で著しく異なる。
多重組換えがないと仮定した場合
(区間 AB で2回以上の乗換えが起こることが無視できる場合の地図距離と組換え価の関係)
同じ染色体上で近接した2つの座 A、B があるとする。区間 AB で2回以上の乗換えが起こることが無
視できるぐらい A と B が近接する場合の A 座の対立遺伝子(または対立マーカー)を A1、A2、B 座の対
立遺伝子(または対立マーカー)を B1、B2 とする。交配 A1A1B1B1 x A2A2B2B2 に由来する F1(A1B1/A2B2)
における花粉母細胞での減数分裂において、相同染色体のもつ2本の姉妹染色体分体中の任意の1本につ
いて、区間 AB で乗換えが生じる確率
乗換えが生じる確率は
は
モルガン等しくなる。従って染色体あたりでは、区間 AB で
となる。すなわち、減数分裂における花粉母細胞のうち割合
で乗換えが生じ
の割合で乗換えが生じないことになる。乗換えが生じた花粉母細胞では、乗換えに関与した染色分
体と関与しない染色分体とが等頻度で生じる。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 71 -
A1B1、A1B2 、A2B1、B2B2 の出現頻度をそれぞれ
、
、
、
とすると、
となる。多重乗換えがないという仮定をしているので組換え価 r は x と等しい。
多重組換えがあると仮定した場合(必ず多重組換えが起こる場合)
マーカー座 A、B がそれぞれ染色体の両末端にある場合には、非組換え型と組換え型の生じる頻度は等
しくなる。このことを以下に示す。F1(A1B1/A2B2)個体の減数分裂において、母親由来の染色体のもつ染色
分体をにおける花粉母細胞での減数分裂において、相同染色体のもつ2本の姉妹染色体分体中の任意の1
本について、区間 AB で乗換えが生じる。
母親由来の染色分体を c11,c12、父親由来の染色分体を c21,c22 とする。染色体の遺伝子型の乗換えは、母
親由来の染色体の遺伝子型が変われば、それに依存して父親由来の染色体の遺伝子型が変わるので、ここ
では母親由来の染色体に注目する。母親由来の染色体 c11,c12 の遺伝子型を (A1B1, A1B1)とする。A 座を動
原体、B 座を末端側とする。簡単のため動原体と A 座の間で乗換えはおこらないものとする。母親由来の
染色体の遺伝型は(A1B1, A1B1)、(A1B2, A1B1)、(A1B1, A1B2)、(A1B2, A1B2)の4通りがある。
染色体の乗換え遷移確率
(1) 遺伝子型(A 1 B 1 , A 1 B 1 )の乗換え
遺伝子型(A1B1, A1B1)は一回の乗換えで遺伝子型(A1B1, A1B2)あるいは(A1B2, A1B1)になり、これらは等確
率である。それぞれの遷移確率を図 1 に示す。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 72 -
図1
遺伝子型(A1B1, A1B1)の乗換え
(2) 遺伝子型(A 1 B 2 , A 1 B 1 )の乗換え
遺伝子型(A1B1, A1B2)からの乗換えならびに遺伝子型(A1B2, A1B1) の乗換えはそれぞれ図2の[1]と[2]、な
らびに[3]と[4]と対応する。まずはじめに、遺伝子型(A1B2, A1B1)の乗換えについて説明する。遺伝子型(A1B2,
A1B1)の乗換えは図3と図4であり、これらを集計すると遷移頻度として図5が得られる。
図2
遺伝子型(A1B1, A1B1)の乗換えにより得られる染色体の遺伝子型
図3
図2における[1]の一回乗換え
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 73 -
図4
図2における[2]の一回乗換え
図5
遺伝子型(A1B1, A1B2)からの一回乗換えにおける遷移確率
(3) 遺伝子型(A 1 B 1 , A 1 B 2 )の乗換え
遺伝子型(A1B1, A1B2) の乗換えは、それぞれ図6と図7と対応する。これらを集計すると遷移頻度とし
て図8が得られる。
図6 図2における[3]の一回乗換え
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 74 -
図7 図2における[4]の一回乗換え
図8
遺伝子型(A1B2, A1B1)からの一回乗換えにおける遷移確率
(4)遺伝子型(A 1 B 2 , A 1 B 2 )の乗換え
遺伝子型(A1B2, A1B2)からの乗換えにおける遷移頻度として図9が得られる。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 75 -
図9
遺伝型(A1B2, A1B2)からの一回乗換えにおける遷移確率
(1)-(4)をまとめることにより、母親由来の染色体における4つの遺伝子型の遷移確率を図 10 に示す。こ
の 図 を も と に 、 k-1 回 の 乗 換 え が 起 こ っ た と き の 4 つ の 遺 伝 子 型 の 頻 度
、
、
、
とする。これらの遺伝子型がさらに1回乗換
え を 起 こ す こと によ り 得 ら れ る 遺 伝子 型 の 頻度
、
、
、
とする。遷移図をもとに、k-1 回の乗換え頻度と k 回の乗換え頻度を関係づける。
(1)
図 10
母親由来の染色体における4つの遺伝子型の遷移確率
式(1)において、初期値
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 76 -
とおいて解くと
ただし
母親由来の染色体を組換え型((A1B2,A1B1)、(A1B1,A1B2) 、(A1B2,A1B2))と非組換え型(A1B1,A1B1)に分ける。
組換え型の染色分体の頻度 r は
ただし
である。k=0 においては、r=0 となる。
マーカー座 A、B がそれぞれ染色体の両末端にある場合には、
(i)
では組換え価は 0.5 である。2回目以降の組換えは、組換え価に全く寄与しない。
(ii) 遺伝子座 AB 間の組換え価は、AB 区間で「少なくとも1回の乗換えが起きる確率」だけで表
すことができる。
(iii) 相同染色体の AB 区間で染色体単位で1回も組換えが起こらない確率を
価は、
と表される。ここで、
は少なくとも1回の乗換えが生じる確率である。
とすると、組換え
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 77 -
地図関数
染色体長を考慮しない地図関数(Mapping function)として、(1)Haldane の地図関数、(2) Kosambi の地図
関数(3) Rao の一般化地図関数、がある。また、染色体長を考慮した地図関数として、(1)Sturt の地図関数、
(2) 中部動原体型染色体の地図関数がある。組換え価
で、また、地図上の距離
から組換え価
から地図上の距離
に変換する地図関数を
に変換する関数を
と記述する。地図関数の要約を以下に示す。
Mapping Function [
]
Inverse [
]
Morgan (1928)
Haldane(1919)
Kosambi(1944)
Not applicable
Carter and Falconer
(1977)
Rao et al (1977)
(後述)
Sturt (1976)
Not applicable
Not applicable
Felsenstein (1979)
Karlin (1984)
3 個の遺伝子座における組換え価の関係(Three-locus model)
いま同じ染色体上で3遺伝子座 A、B、C が順に並んでいるとき、組換えの起こり方にはに以下の4通り
がある。
(i) AB、BC の区間で、ともに起こらない。
(ii) AB 区間で起こり、BC 区間で起こらない。
(iii) AB 区間で起こらなく、BC 区間で起こる。
(iv) AB 区間と BC 区間の両方で起こる。
AB, BC, AC 間の組換え価を
き、AC 間の組換え価
を
、
、
、
、
、また、 (iv)の場合に対応する組換え価を
を用いて表すことを考える。
(1) AB, BC 間のそれぞれの組換えが独立の場合
とする。このと
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 78 -
AB, BC 間のそれぞれの組換えが独立の場合には、座 A と C が組換えがおこるのは(ii)と(iii)の場合のみを
考慮に入れればよい。すなわち、BC 区間で組換えが生じるかどうかが、AB 区間で組換えがおこるかどう
かに無関係にきまり、また、逆に、AB 区間で組換えが生じるかどうかが、BC 区間で組換えが生じるかど
うかに無関係に決まるため、
(1)
となる。これを Trow(1913)の公式という。
と
がともに1に比べて非常に小さい時、Trow(1913)の公式は、
と近似できる。
(2) AB, BC 間のそれぞれの組換えが独立でない場合
AB 区間の組換えと BC 間の組換えが独立ではなく、正の干渉があるときには、二重組換えの頻度は、それ
ぞれの組換え価の積より小さくなり
となる。そこで、
(4)
とおき、これを干渉の強さを表す指標として用いる。ここで
を一致係数(coefficient of coincidence)とよ
ぶ(Muller, 1916)。また、1-C を乗換え干渉という。
(i)乗換え干渉 1-C < 0 のとき、負の乗換え干渉である。
(ii)乗換え干渉 1-C > 0 のとき、正の乗換え干渉である。
(iii)1-C=0 のとき、乗換え干渉はない。
(iv)1-C=1 のとき、乗換え干渉は完了している。
正の乗換え干渉があれば
となる。この場合、AC 区間で組換えが起こるのは、次の二つの場合である。
[a] AB 区間で起こり、BC 区間で起こらない。
[b]AB 区間で起こらなく、BC 区間で起こる。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 79 -
[a]の確率は図における(ii)の確率から(iv)の確率を引くこと(
率は(iii)の確率から(iv)の確率を引くこと(
)により求められる、一方、[b]の確
)により求められる。すなわち、AC 区間の組換え価は
(5)
となる。
1.Haldane の地図関数
理論解析において計算が簡単のためにいまでもしばしば用いられている地図関数である。式(1)について
両辺について対数をとると
(2)
となる。
とおく。すなわち、
とおき式(2)に代入すると
となる。ここで
が地図距離であるためには、
のとき
とならなければならない。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 80 -
(3)
この式(3)を Haldane(1919)の地図関数という。式(3)は
と変形できる。これらの分散はそれぞれ
ここで n は個体数である。
Haldane(1919)の地図関数の性質
[1]多重乗換えが考慮されている。
[2]乗換えの生起はたがいに独立であり、染色体あたりの乗換え数の分布はポアソン分布に従うとする。
[3]必須の乗換えについて考慮されていない。
[4]乗換え点の染色体上の位置はランダムで乗換え干渉はないとする。この仮定は簡略化されすぎているた
め、Haldane 関数は実際のデータと会わない場合が多い(Lalouel, 1977)。
ポアソン分布
説明1
乗換えが染色体上でランダムに起こるとすると、その回数はポアソン分布に従う。ポアソン分布において
は平均生起回数が
のとき、k 回の事象が起こる確率は
であるので、一回も事象が起こらない確率は、
である。
AB 区間の地図距離をxとすると、AB 区間で乗換えが起こる平均生起回数(染色体単位)は
となるので
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 81 -
が得られる。よって Haldane(1919)の地図関数による地図距離と組換え価の関係
が得られる。
説明 2
乗換えが染色体長に沿ってランダムにおこり、乗換え干渉がないと仮定すると、染色体に起こる乗換え頻
度はポアソン分布により説明できる。いま、二つの遺伝子座 A と B において、乗換え頻度が u 回起こる確
率は、
である。いま、u が奇数のとき A と B 座で乗換えがおこる。すなわち、組換え価は u=1,3,5,…,2i+1, ,…,
∞を集計すればよいこととなる。
2. Kosambi の地図関数
BC 間が非常に微小であるとすると、
とおくことができる。これらを式(5)に代入すると
となり、これを変形すると
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 82 -
をえる。そこでこれを積分すると
(*)
Haldane の周縁一致係数
を Haldane の周縁一致係数(marginal coincidence)といい、極微小な区間に隣接した有限な区間でそ
の組換え価が r である区間について定義される一致係数である。
[1]AB 区間の距離xに依存し、xとともに増加する。
[2]非常に長い区間では組換え価は独立の場合の r=0.5 に近くなり、乗換え干渉はほとんどなくなり C=1 と
なる。
[3]非常に短い区間では
となり、干渉は最も強くなり
となる。
これらの条件を満たす単調増加の関数として
を用いると、
これを積分して得られる式
を Kosambi(1944)の地図関数という。分散は以下の式により求めることができる。
Kosambi(1944)の地図関数の性質
[1]加成性
[2]Kosambi 係数(Owen,1950)
Kosambi(1944)の地図関数が加成性が成り立つということは
を満たすことである。この条件から
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 83 -
が得られるため、
となる。そこで、
とおき Kosambi 係数とよぶ(Owen, 1950)。Kosambi 係数は乗換え干渉の強さを表す指標であり、K=1
のとき、Kosambi レベルの干渉が働いているという。
[3]Kosambino 地図関数では、多重乗換えと乗換え干渉をともに考慮している。
[4]必須乗換えは考えていない。
[5]経験的には実験データへの適合性が Haldane 関数より優れている(Lalouel, 1977)ので、現在ひろく採用
されている。
[6]生物学的な事象をとりいれたモデルに基づくものではないので、根拠は薄い。
式(*)において、
の設定により、以下の表の地図関数が導ける。
地図関数
説明
Morgan(1928)
0
完全干渉、複数の乗換えはない
Haldane(1919)
1
乗換え干渉はない。
Kosambi(1944)
2r
乗換え干渉は組換え価の関数である。
Carter and Falconer (1951)
8r3
強い乗換え干渉
Felsenstein (1979)
K-(K-1)2r
K=1:乗換え干渉の欠落
K<1:正の乗換え干渉
k>1:負の乗換え干渉
3.Carter-Falconer 関数
Carter と Falconer(1951)によって、乗換え干渉が比較的強いマウスのデータによく適合する地図関数が
提案された。この関数は経験に基づいている。
4. Rao の一般化地図関数
Rao ら(1977)は変数 p を用いて、それまでの地図関数を統合し、一般化地図関数を表した。
は干渉の強さを表す。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 84 -
Haldane 関数
Kosambi 関数
Carter-Falconer 関数
完全干渉
5. Felsenstein(1979)の一般化地図関数
Felsenstein(1979)は同様に変数kを用いて以下の地図関数を提案した。
k=1
Haldane 関数
k=0
Kosambi 関数
となるが、Kosambi レベル以上の干渉がある場合には適用できない。
6.染色体長を考慮しないその他の地図関数
Lalouel(1977)
組換え価と地図関数の間に関数を仮定せず Guttman(1968) の多次元尺度構成法を応用し地図距離を求め方
法を提案した。キイロショウジョウバエの第3染色体の実験データに適用して、組換え価と地図距離の関
係を表す2次元グラフを作成し、そのグラフ上の点に Rao ら(1977)の一般化地図関数をを当てはめて比較
した結果、干渉の強さ p=0.56 と推定された。この場合は、Haldane 関数よりも Kosambi 関数が適してい
ると結論づけた。
染色体長を考慮した地図関数
Karlin(1984)は、Kosambi の地図関数の誘導における式
における課題として以下の2点を指摘した。
[1]染色体の位置には関係なく遺伝子およびマーカー間の地図距離のみを考慮する。
[2]地図関数は地図距離とゲノムの断片を位置づけるパラメータを含むべきである。
(1)Sturt の地図関数
Sturt 関数では必須乗換えを導入したことにより、地図距離で測った染色体の全長は 0.5M を最小値とし、
どんな、短い染色体でもそれ以下にならない。
長さ L の染色体上における地図距離をxとする。染色体全体で必須乗換え以外に i 個の乗換えが染色体
単位で起こる確率を
とする。また、必須乗換えが区間xで1回起こる確率を
部で必須乗換えが1回起こる確率は
とする。地図距離xの内
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 85 -
であるので区間xで起こらない確率は
となる。必須乗換えが i 回起こったとするとき、区間xで必須乗換えが起こらない確率は
と表すことができる。いま、染色体全体で必須乗換え以外に i 個の乗換え
対応する区間において乗換えが1回も生起しない確率
は以下の式で表すことができる。
(x)
セントロメアから右側とセントロメアから左側へのそれぞれの距離を、それぞれ
二つの必須乗換えに対する Sturt の地図関数は
となる。
[1]必須乗換えという遺伝現象を考慮している点で、他の地図関数と大きく異なる。
[2]地図関数は染色体の長さ L に依存する。
[3]L=0.5(最短)のとき、乗換えは必須乗換えのみとなり、r=x となる。
[4]
のとき、
となる。
[5]L が十分大きく、x/L および 1/L が1に比べて無視できるときには、
となる。これは、Haldane 関数に一致する。
[6]x=L のときに限り、
、
となる。
(2)中部動原体(metacentrics)型染色体の地図関数:Ukai 関数
および
とすると、
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 86 -
中部動原体(metacentrics)型染色体では、乗換え数が染色体の腕間で均等になる傾向が強い(Callan and
Montalenti, 1947)。従って、腕間分布を考慮していない Sturt 関数は動原体が端にある端部動原体型染色体
型には適用できるが、中部動原体型染色体には精確に適用できない場合がある。腕間分布の均等性を導入
すると、染色体長 L 上の地図距離で図った長さx区間に対応する
(1)区間が片方の腕にのみ存在する場合
において
ここで
(2)区間が両腕にまたがる場合
それぞれの腕上にある区間を
、
とすると
のとき Sturt 関数と一致する。
(3)区間の端が片方の腕の末端からはじまる場合
それぞれの腕上にある区間を
、
とおき、
Ukai 関数の性質
(i) 地図関数は染色体の長さ L に比例する。
(ii)
のとき、r=x となる。
(iii)
のとき、r=x となる。
とする。
を求めることができる。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 87 -
VII 連鎖地図の育種への利用
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 88 -
VIII 量的形質解析
VIII-1 用語の整理
量的形質とは、伝統的には連続分布をともなった形質として定義される。これは、形質を離散分布とし
て扱う解析と対照的である。すなわち、形質値は個体数のかわりに個体の測定値となる。形質が多くの遺
伝子により制御され、各々の遺伝子は形質に対してわずかずつ影響を与えるとする考え方は可能であり、
また、ゲノムマッピングと伝統的な定量遺伝学により各々の遺伝子は連続分布をともなって形質を生み出
すことが示された。ヒト病気に関わる形質や農学での産業応用が定量されていることなど複雑あるいは定
量的形質を制御する遺伝子の探索は病気診断、林学、農学で重要な役割を演ずる。定量的形質を制御する
遺伝子座を QTL(quantitative trait loci)といい、QTL を探索しゲノム上に位置づける手続きを QTL マッピ
ング(QTL mapping)という。QTL マッピングは、連鎖地図と伝統的な定量遺伝学の組み合わせであり、ゲ
ノム地図の構築および形質と多型マーカーの関係の探索を含む。形質とマーカーの間に有意な関連が認め
られれば、マーカーの近くに QTL があると期待される。
QTL 解析で提案されている解析方法を以下に列挙する。
(1)単一 t-検定、単一回帰、多重回帰、非線形回帰、部分回帰を用いた区間テスト法
Stuber, et al., 1992; Weller, 1988; Lander and Botstein 1989; Knapp et al., 1992; Lande and Thompson, 1991; Zeng,
1993; Zeng, 1994
(2) sib-pair 解析:ヒトの集団を用いた QTL マッピング
Haseman and Elston, 1972; Lange 1986; Weeks and Lange, 1988; Fulker and Cardon, 1994; Cardon and Fulker, 1994
(3)遺伝のモデル、最小二乗、最大尤度、EM アルゴリズム
(4)多重検定の問題:シャッフリング(Churchhill and Doerge, 1994)
表現型(phenotype)と表現型値 (phenotypic value)
ある特定の遺伝子型をもつ個体の量的形質がある特定の環境条件をもとに発現されたもの表現型
(phenotype)といい、その値を表現型値(phenotypic value)という。量的形質では遺伝子型と表現型の対応がつ
けられないため統計遺伝学的方法が用いられる(Fisher, 1918;Fisher et al., 1933)。量的形質を数理的遺伝モデ
ルにより表現する。
遺伝子型(genotype)
量的形質については、ある個体がもつ対立遺伝子の集合を遺 伝 子 型 (genotype)という。遺伝子型は普通
分離世代で分離する遺伝子型についてだけ記述される。例えば、3遺伝子が関与し分離する量的形質につ
いて、個体の遺伝子型は AABbCc、aaBBCC などと表記する。
定量的遺伝モデル(quantitative genetic model)
単一 QTL モデル
単一マーカーすなわちゲノムの一領域に対する仮説検定により QTL マッピングを行い、単一の QTL 解
析からの結果に基づいて多重 QTL モデルを構築する。ヘテロ遺伝型(Qq)をもつ親の自家受精による F2 集
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 89 -
団における三つの遺伝子型(QQ, Qq, qq)に対する遺伝型値を
、
、
とする。相加効果(additive effect,
a)と優性効果(dominance effect, d)を
と定義する。ここで相加効果は、遺伝子置換の平均効果である。
ヘテロ接合を有する親(Qq)とホモ接合の親(QQ)による戻し交配では、遺伝的効果(genetic effect、相加効
果と優性効果の混合効果)を
と定義する。
遺伝効果
を a とdを用いると
と書ける。
F2 における F2 集団における三つの遺伝子型(QQ, Qq, qq)に対する遺伝型値(
すべて
とすると、
の分散は
の分散は
となる。
また、戻し交配における遺伝的効果
となる。
の分散は
、
、
)の分散を
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 90 -
多重遺伝子座モデル(multiple-locus model)
個の遺伝子が定量形質を制御すると仮定する。従来の F2 集団について可能な遺伝子効果を表に示す。
Effect
Number
Main effect
Two effects (additive and dominant effects) x the number of loci
2-way interaction
For epistatic interactions (
,
,
,
)
3-way interaction
i-way interaction
Total
Fisher ら(1933)と Mather(1949)のモデル
表現型値(P)は、ふつう遺伝子の効果に起因する遺伝子型値(genotypic value G)と環境の影響である環境効
果(environmental effect, E)との和で表す。
P=G+E
(1)
遺伝子型と環境効果は、通常の統計解析における要因の効果および残差と同じ関係にある。残差と同様に、
環境効果の期待値を 0 とする。すなわち、無限の数の個体について形質を測定したとき、環境効果の平均
は 0 となると定義する。環境効果が定義されたとき、同時に遺伝子型値も定義されたことになる。すなわ
ち、同じ遺伝子型をもつ無限の個体について表現型値を想定したとき、その表現型の平均が遺伝子型値と
等しい。遺伝効果と環境効果の交互作用(interaction)が見られることがある。例えば、果実などでは、遺伝
的に大型の果実の品種では小型の果実品種に比べて、果実の大きさの環境変動が大きい傾向がある。ここ
ではそのような交互作用はないものとする。
環境効果は、生物個体が発生から形質測定までに受けるさまざまな要因の総合効果である。要因は、生
物種により、また形質により異なる。例えばコムギならば、種子の大きさ、地温、肥料レベル、土壌水分、
気温、日射量、風量などが要因となる。ただし、生育場所や年次などのマクロな環境の違いはここでは環
境要因に含めない。環境効果 E は直接には推定できない。通常、環境効果 Eha 正規分布に従うと仮定する。
すなわち、平均 0 で分散
が一定の正規分布
に従うとする。
量的形質における表現型と遺伝子型の定義は、質的形質の遺伝学では遺伝型 AA、Aa、aa 個体がそれぞ
れ、赤、赤、白の花色を示せば、AA と Aa の表現型は赤、aa の表現型は白という。量的表現型としてみ
れば、この場合の AA,Aa,aa 個体の赤、赤、白が定義上の遺伝子型値である。質的形質では環境による変
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 91 -
動がないので、量的形質で定義される表現型値は遺伝子型値と同じになる。
量的形質の遺伝効果(相加効果、優性効果、エピスタシス)
2つの純系(全遺伝子座でホモ接合の系統)間の交配 P1(♀)x P2(♂)とその後代を考える。いま対象とする
ある量的形質に k*個の遺伝子座が関与していて、交配種間では、そのうち k 個(k ≤ k*)で対立遺伝子が互
いに異なるとする。このような座を分離遺伝子座(segregating locus)という。残りの k*-k 座では、対立遺
伝子が親間でおなじなので分離世代で分離することはない。これを非分離遺伝子座(non-segregating locus)
と呼ぶ。k*座のうちどれが分離遺伝子座となるかは、交配に用いられた親の組合せによる。以下の議論は
全て分離遺伝子座に限られる。
k 座中のある座 A について、母親由来の対立遺伝子を A1、父親由来の対立遺伝子を A2、とする。各遺
伝子座において2対立遺伝子による効果を、各遺伝子の主効果である相加効果と対立遺伝子間の交互作用
である優性効果に分けて表す。すなわち、3種類の遺伝子型、母親ホモ型(A1A1)、ヘテロ型(A1A2)、父親
ホモ型(A2A2)の遺伝子型値(表現型値)をそれぞれ、
、
、
とおく。このとき、
とおき、
を相加効果(additive effect)、
を優性効果(dominance effect)と定義する。
(i)
のとき、優性なし。
(ii)
のとき不完全優性(incomplete dominance)
(iii)
のとき完全優性(complete dominance)
(iv)
のとき超優性(overdominance)
という。量的形質モデルにおける「優性」の語は、質的形質における優性とは定義が異なる。
エピスタシス(epistasis)
量的形質に2座 A、B が関与しする。両座の相加効果と優性効果の和だけでは遺伝子型の全てを説明で
きあにとき、A、B 座の遺伝子座間に交互作用があるという。このような異なる遺伝子座間の交互作用を、
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 92 -
非対立遺伝子間交互作用(non-allelic interaction)またはエピスタシス(epistasis)とよぶ。エピスタシスにつ
いても質的帰依室の遺伝におけるような上位(epi-)の意味ではない。エピスタシスに関与する遺伝子が s 個
のとき、s 遺伝子座間(または s-1 次)エピスタシスは無視される。
2遺伝子座間エピスタシスには、相加 x 相加(additive x additive)、相加 x 優性(additive x dominance)、
相加 x 優性(dominance x dominance)の3つのタイプがあり、遺伝子座 A、B についてそれぞれ、
、
、
と表す。
2つの純系間の交配 P1(♀;A1A1B1B1)x P2(♂;A1A1 B2B2)において、A、B の2遺伝子座が関与してお
り、A、B 座の相加効果を
、
、優性効果を
、
とすれば、両親は、
(母親の遺伝子型値)
(父親の遺伝子型値)
となる。また、F1 雑種の遺伝子型値は
(ヘテロの遺伝子型値)
となる。ここで、 は遺伝子型と無関係な定数であり、非遺伝的効果と非分離遺伝子座の効果の和である。
両親の遺伝子型値の平均と等しい遺伝子型値をもつ仮想的な個体を考え、これを平 均 親 ( midparent)
とよぶ。遺伝子座間に連鎖とエピスタシスが併存しない限り平均親の遺伝子型値は定数
と等しくなる。
の値は非分離遺伝子座に依存するので、交配親の組合せにより異なる。
例
イネの草丈の異なる2純系の品種 P1、P2 を交配する。草丈の品種間差が1個の遺伝子座 A で決まっている
とし、環境変数を無視する。このとき、P1 が 120 cm、P2 が 80 cm の草丈を示したとする。このとき相加
効果は、(120-80)/2=20 cm となる。また、F1 の値が 105 cm であれば、優性効果は、
105-(120+80)/2 = 5 cm
となる。また
u=(120+80)/2=100 cm
となる。
表現型値の平均
純系由来集団の平均
関与する遺伝子座が一つのとき
分離世代では種々の遺伝子型が分離する。関与する遺伝子座が一つ(A 座)のとき、F2 では、A1A1、A1A2、
A2A2 の3種の遺伝型が 1:2:1 であるので、個体の遺伝子型値の平均は、個体数が無限のとき、
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 93 -
となる。
関与する遺伝子座が一つのとき
関与する座が2座(A,B)であり連鎖していないとき、F2 では、9種の遺伝子型 A1A1B1B1、A1A1B1B2、
A1A1B2B2、A1A2B1B1、A1A2B1B2、A1A2B2B2、A2A2B1B1、A2A2B1B2、A2A2B2B2 がある。これらの9個の遺
伝子型について遺伝子型値をついての遺伝子型値にそれぞれの分離頻度をかけて求めることができる。エ
ピスタシスを含む場合には
となる。
遺伝子型
A1A1B1B1
A1A1B1B2
A1A1B2B2
A1A2B1B1
A1A2B1B2
A1A2B2B2
A2A2B1B1
A2A2B1B2
遺伝子型値
分離比
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 94 -
A2A2B2B2
k 分離遺伝子座すべての遺伝効果について6種の世代 P1、P2、F1、F2、B1、B2 の遺伝子型値は表 9.2(p.244)
の通りとなる。
表現型値の分散
2純系由来集団の分散と共分散
表現型値 P は遺伝効果 G と環境効果 E の和(P=G+E)で表されるので、表現型値の分散(表現型分散、
phenotypic variance)は、
と表される。ここで、
は遺伝子型値の分散、
は環境の分散、
の共分散である。遺伝効果と環境効果が独立の場合は、
は遺伝効果と環境効果の間
で
となる。
純系の親 P1、P2 や F1 のように全個体が同一の遺伝子型をもつ非分離集団では
なので
とな
り、その表現型分散から環境分散が求められる。ただし、P1、P2 のようなホモ遺伝子型個体の集団と F1 の
ようなヘテロ遺伝子型集団とで環境分散の大きさが異なる場合がある。
遺伝分散は各種の遺伝効果の関数として表すことができる。集団内の各個体の遺伝子型値は相加効果、
優性効果、各種エピスタシスの和として表されるので、集団全体の遺伝分散や遺伝共分散はこれらの遺伝
効果の全分離遺伝子座にわたる2乗和と積和の一次結合となる。量的形質の遺伝解析では積和は重要でな
いので、2乗和だけで表されるような分散や共分散を利用して各種遺伝効果を求める。
エピスタシスはない場合の F2 の個体間の分散
A 座での分離による分散は、
すべての分離遺伝子座について相加効果および優性効果の2乗和をそれぞれ A、D とおき、相加分散
(additive variance)と優性分散(dominance variance)とよぶ。このとき、F2 の遺伝子分散は、
となる。エピスタシスを考慮しない場合にはこのようにある特定の1座での分離による分散を求め、それ
を全分離遺伝子座について総計することにより遺伝分散や共分散が容易に得られる。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 95 -
表 9.3:2純系由来のいくつかの世代における表現型値の分散と共分散
異なる3つ以上の分散または共分散の観察値があれば A、D および E1 (または E2)を求めることができ
る。系統平均値の分散には環境分散のほかに、系統内個体の標本抽出による系統平均値の変動による分散
が加わる(Mather and Jinks, 1971)。
遺伝率と寄与率
遺伝率は、量的形質の選抜における選抜効果のおおきさを表す指標となる。
遺伝率(heritability in a broad sense)
表現型分散
が、相加分散
により表す。ここで、
と
、優性分散
および環境分散
の線形関数
はそれぞれ、世代に固有の係数である。
表現型分算中お遺伝分散の割合を
とあらわし、広義の遺伝率(heritabilitiy in a broad sense)と呼ぶ。
また、表現型分散中の固定可能な遺伝効果すなわち相加効果に基づく分散の割合を
と表し、狭義の遺伝率(heritabilitiy in a narrow sense)と呼ぶ。
同じ形質でも世代により分散・共分散の種類により遺伝率は異なる。Fm 世代では、A1A1、A1A2、A2A2
の3種の遺伝子型が、それぞれ、
、
、
の頻度で分離するので、表現型値の個体間分散は、
となり、mが増せば A の係数は増し、D の係数は減る。したがって、間 k 表分散は小さいが優性分散 D が
大きいため狭義の遺伝率が低い量的形質は選抜を後期世代まで遅らせるのがよい。また、系統平均の環境
分散は個体あたりの環境分散よりふつう著しく小さいので、環境分散が大きいため広義の遺伝率が低い量
的形質については個体ごとの測定値でなく系統平均値によって表すとよい。
寄与率
A 座についての表現型分散中寄与率(contribution to phenotypic variance)または説明可能な表現型分散
(phenotypic variance explained)を
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 96 -
と定義する。
A 座についての遺伝分散中寄与率(contribution to genotypic variance)または説明可能な遺伝分散
(genotypic variance explained)を
と定義する。
すべての分離遺伝子座についての
は、
の関係から
の和は1となる。また、すべての分離遺伝子座についての
と等しくなる。
の和
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 97 -
VII-2
区間マッピング法
QTL 解析の方法として
1.マーカーの対立遺伝子頻度と量的形質の表現型値との相関による方法(Nienhuiset al., 1987)
2.区間マッピング法:ヒト連鎖地図作成の方法から発展した(Lander and Botstein, 1986)
3.分散分析法
4.重回帰法
などがある。
区間マッピング法
区間マッピング法にもとづく F2 世代(Hayashi and Ukai, 1994)を例とした QTL 解析を以下に示す。
参考:Tankley (1993), Liu(1998;この本ゲット), Lynch and Walsh (1998;本)
QTL 解析で求められるパラメータ
組換え価の推定では、各クラスの表現型についての観察された分離個体のセットを考え、そのようなセッ
トが得られる確率が最大となるような組換え価を推定値として求めた。QTL 解析では、各個体の表現型値
が観察された値の通りになる確率が最大となるような値として遺伝効果を推定する。
(1) 表現型値が観察された値の通りになる確率は、QTL の遺伝子型が何かということと、
(2) その遺伝子型であるときに量的形質の表現型値が観察された値をとる確率
によって決定される。前者の QTL の遺伝子型は直接にはわからないので、QTL の近くにあるマーカー座
のマーカー型から推定する。後者は、遺伝モデルに含まれる定数 u、相加効果 a、優性効果 d、残差分散
の4つのパラメータで決まる。
定数 u、相加効果 a、優性効果 d のうち、パラメータ中で生物学的に重要なのは、相加効果と優性効果で
ある。残差分散
は、対象 QTL の遺伝的分離以外の変動に基づく分散(環境分散)と QTL の遺伝分散
の和である。
QTL が全ゲノムにおいて1個しかない場合、すなわち対象 QTL 以外には QTL が存在しない場合には、
残差分散は環境分散に等しい。残差分散の大きさは QTL の位置は遺伝効果の推定精度に大きく影響する。
区間マッピング法では、QTL の連鎖地図上の位置を求めることができる。その推定法は後に示すように他
のパラメータの場合と異なる。
EM アルゴリズム
QTL で遺伝効果の推定に最尤法(maximum likelihood)を使う点では、組換え価の推定と同じである。組換
え価の推定においては一般に各表現型の分離個体数が観察値として直接得られる。一方、QTL における遺
伝効果の推定では遺伝子型別の分離個体数は分からない。すなわち、分離頻度が欠測値になっている。そ
こでこのような不完全データを使ってパラメータを推定するために EM アルゴリズム(Dempster et al.,1977;
宮川,1987)が使われる。
EM アルゴリズムは、頻度の期待値を求める E(Expectation)ステップと尤度を最大にするパラメータ値を求
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 98 -
める M(Maximization)ステップの二つの過程からなる。
完全データ
が、観測データ
となる。多くの場合、
と欠測データ
からなるとする。観測データ
の尤度は
を足し合わせるとしばしば性質のよくない非線形最適化問題になる。そ
こで、対数尤度の期待値の推定を行いながら
を更新していくアルゴリズムが開発された。データに欠測
がある場合、なんらかの方法で欠測を埋めて全データを作成し、これに基づいて推定作業を行う。この欠
測を埋める作業も元来推定すべきパラメータに依存しているはずである。そこで、パラメータ推定と欠測
データの推定を交互に行いながら、推定値を更新していく、というのが基本的なアイデアである。欠測値
の推定は対数尤度の期待値の推定という形式で定式化する。すなわち、k番目の反復計算において
定値
の推
が得られるとしよう。するとk+1番目の対数尤度は
を計算し、これを
について最大化する。尤度の期待値ではなく、対数尤度の期待値とすることにより、
の評価が E ステップである。また、
多くの場合、各ステップで直接計算が可能となる。
を用いた
を最大化するプロセスが M ステップである。E ステップと M ステップからなる推定作
業を繰り返すことにより、次第に最尤推定量に収束する。
例題
EM アルゴリズムを用いた血液型の遺伝子頻度の推定(岸野,1999)
A、B、O 血液型を考える。表現型は、A、B、AB、O の4型がある。いま、ある県の住民からn人をラン
ダムに選んでその血液型を知らべたところ、4種の表現型の人数がそれぞれ、
(
、
、
、
であった。この観察数に基づいてその県民全体での血液型遺伝子 A、B、O の頻
)を推定しよう。
度意(
尤度は
ここで、
である。これにより、スコアは
となる。これらを連立方程式を解くのは容易ではない。そこで、いま、6種の遺伝子型の頻度(
、
、
、
)がすべて観測値(
、
、
)として得られたとする完全データの場合には、表現
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 99 -
型に対する対数尤度は
となる。
が全て観測されていれば、
(1)
(2)
(3)
と最尤推定量が求められる。
しかし、実際には、観察値としては4種の表現型のデータ
において
しかない。いま、k番目の反復計算において
が得たれたとする。まず、E ステップでは
、
、
しかない。いま、k 番目の反復計算
の推定値を
、
、
を用いて期待対数尤度を評価する。
(4)
となる。これにより、k番目の推定値
を最大とするk+1番目の推定値
から式(4)における対数尤度
、
、
は式(5)-(7)により求めることができる。
(5)
(6)
(7)
ここで、
(i=1,…,6)については
(8)
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 100 -
(9)
(10)
(11)
(12)
(13)
となる。
(0)初期値
、
に初期値として 1 より小さい適当な正の値を入れ、
とする。
(1)E ステップ
、
、
をもとに式(8)-(13)により
(i=1,…,6)を求める。
(2)M ステップ
(i=1,…,6)をもとに対数尤度(式(4))を最大とするための
各遺伝子型
の関係は式(5)-(7)であるので、これらの式を用いて
、
の
、
、
と
、
、
、
を求める。こ
をもとに E ステップに戻る。
QTL における EM アルゴリズム
QTL 解析では、E ステップは相加効果、優性効果、残差分散が既知であるとしたときに期待される QTL
遺伝子型の分離頻度を求める過程である。また、M ステップは、E ステップにより得られた分離頻度をも
とに、パラメータ(定数、相加効果、優性効果、残差分散)の最尤推定値すなわち尤度を最大値を求める
過程である。
QTL 解析プロセス
(1) EM アルゴリズム
(1a)初期値の決め方
QTL 位置についてあらかじめ与えられた値(例えば、染色体の左端から 0 cM)としておく。パラメータに
適当な初期値を代入する。相加効果
残差分散
、優性効果
については 0 を、定数は表現型値の世代全体の平均、
は表現型値の個体間分散を用いるのが反復計算における解の収束を速めるうえでよい。
(1b)E ステップおよびに M ステップ
1回目の E ステップと M ステップを行う。つづいて、2回目の計算サイクルに入り、得られたパラメー
タ値を使って再び E ステップで分離頻度の期待値を求める。それを用いてパラメータの最尤推定値を求
める。以下、このように E ステップと M ステップの2つの過程からなる計算を繰り返す。パラメータの推
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 101 -
定値が一定値に収束したら終了する。
(2)対数尤度比(LOD)
対数尤度比(LOD)の値を求める(後述)。つぎに QTL 位置のある距離を x(1 cM)だけ右にずらして、同様の
計算をする。これを繰り返し、最終的に染色体位置を横軸に、LOD 値を縦軸にとったグラフから LOD が
極大値となる染色体上の位置をグラフから読み取る。
自殖性植物における2純系間交配に由来する F 2 世代の場合の区間マッピング
量的形質の関係するある1個の遺伝子座を Q、その両側の隣接マーカー(flanking markers)座 A、B がある
とする。これらの3座における母親および父親の遺伝子型をそれぞれ A 1 A 1 Q 1 Q 1 B 1 B 1 、A 2 A 2 Q 2 Q 2 B 2 B 2
と表す。F1 の遺伝子型は A 1 Q 1 B 1 / A 2 Q 2 B 2 となる。A-Q 座、Q-B 座、A-B 座の間の組換え価をそれぞれ
、
、
と表す。
(0) 測定データ
QTL 解析において、連鎖地図と表現型値が測定データとして必要である。マーカーの遺伝子型 i=1,2,…,9
を、それぞれ A 1 A 1 B 1 B 1 (i=1)、A 1 A 1 B 1 B 2 (2)、A 1 A 1 B 2 B 2 (3)、A 1 A 2 B 1 B 1 (4)、A 1 A 2 B 1 B 2 (5)、A 1 A 2 B 2 B 2 (6)、
A 1 A 1 B 2 B 1 (7)、A 2 A 2 B 1 B 2 (8)、A 2 A 2 B 2 B 2 (9)とする。測定値として表現型値
が得られていることとす
る。ここで、i はマーカーの遺伝子型 ID と対応する(i=1,2,…,9)。また、j はそれぞれのマーカーの遺伝子
型における測定値に対応する j=1,2,…, ni)。また、マーカーについての連鎖地図が予めできているものとす
る。
ID(i)
マーカーの遺伝子型
1
A 1A 1B 1B 1
2
A 1A 1B 1B 2
3
A 1A 1B 2B 2
4
A 1A 2B 1B 1
5
A 1A 2B 1B 2
6
A 1A 2B 2B 2
7
A 1A 1B 2B 1
8
A 2A 2B 1B 2
9
A 2A 2B 2B 2
サンプル数
表現型値(遺伝子型値)
(1)E ステップ:確率値の推定
ある個体で、Q 座の遺伝子型が、Q 1 Q 1 、 Q 1 Q 2 、 Q 2 Q 2 のどれであるかを推定する。これには、マーカー
座の遺伝子型を利用する。マーカー座 A と Q 座が同じ染色体で近接していれば、両座の遺伝子型は完全に
または部分的に相伴って分離する。もし A 座と Q 座が同じ位置にあれば、当然、マーカー座 A における遺
伝子が A 1 A 1 、A 1 A 2 、A 2 A 2 である個体ではそれぞれ QTL 遺伝子型が Q 1 Q 1 、 Q 1 Q 2 、 Q 2 Q 2 となる。この
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 102 -
場合マーカー座の遺伝子型が、例えば、A 1 A 1 である個体では、Q 座の遺伝子型が Q 1 Q 1 である確率は1、
Q 1 Q 2 である確率は0である。マーカー座と QTL 座が離れるに従って、A 座と Q 座の間で乗換えが生じる
チャンスが増えるので、A 1 A 1 個体の QTL が Q 1 Q 1 である確率がしだいに小さくなり、反対に、Q 1 Q 2 ま
たは Q 2 Q 2 である確率はすこしづつ大きくなる。マーカーと QTL 座が同じ染色体上の異なる末端に位置す
るとき、およびたがいに異なる染色体上にあるときは、QTL 座遺伝子型が Q 1 Q 1 、 Q 1 Q 2 、 Q 2 Q 2 である確
率はマーカー遺伝子型と無関係となる。このように近接するマーカー遺伝子型の基づいてその近さの程度
に応じた精度で QTL 遺伝子型を推定できる。推定には単一マーカー座を使うよりは、QTL 座をはさむ2
つのマーカー座を利用するほうが精度はやや高くなる(Lander and Botstein, 1989)。
F 1 における減数分裂の結果生じる配偶子を2マーカー座 A、B の遺伝子型によって分けたとき、各マー
カー遺伝子型の下に Q 座の遺伝子型が Q 1 または Q 2 である条件つき確率は、
ただし、
は AQ 座間および QB 座間の両区間に同時に組換えが生じる確率である。
(ここで、
は B のもとで A の起こる確率を表す。)
また、F 2 における接合体の A、B 両座のマーカー遺伝子型で分けた場合の、Q 座の遺伝子型が Q 1 Q 1 、
Q 1 Q 2 、Q 2 Q 2 となる条件つき確率は、
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 103 -
となる。
また、
の関係が成り立つ。ここで表記
を簡略化するために、マーカーの遺伝子型 i=1,2,…,9 を、それぞれ A 1 A 1 B 1 B 1 (i=1)、A 1 A 1 B 1 B 2 (2)、
A 1 A 1 B 2 B 2 (3)、A 1 A 2 B 1 B 1 (4)、A 1 A 2 B 1 B 2 (5)、A 1 A 2 B 2 B 2 (6)、A 1 A 1 B 2 B 1 (7)、A 2 A 2 B 1 B 2 (8)、A 2 A 2 B 2 B 2 (9)
と対応させる。
観測された量的形質の表現型値が得られる確率を求める。遺伝子モデルにおける定数、相加効果、優性
効果、残差分散を
、
、 、 、
とする。このとき、Q 1 Q 1 、Q 1 Q 2 、Q 2 Q 2 の遺伝子値は、それぞれ
、
となる。表現型値はこの遺伝子型値に残差が加わったものとなる。残差は、平均 0、分散
の正規分布に従うと仮定する。ある個体について QTL 座の遺伝子型が Q 1 Q 1 、Q 1 Q 2 、Q 2 Q 2 であるとき、
表現型値が
である確率は、それぞれ次の確率密度を
、
、
とする。
(2)
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 104 -
(3)
(4)
(2)M ステップ
i 番目のマーカー遺伝子型である個体群の j 番目の個体(j=1,2,…,
)について、Q 座において遺伝子型
Q 1 Q 1 、Q 1 Q 2 、Q 2 Q 2 をもつ頻度を
とおく。Q 座において遺伝子型 Q 1 Q 1 、Q 1 Q 2 、Q 2 Q 2 をもつ頻度をもとに尤度 L を表すと、
対数をとると
(1)
となり、ここで、i 番目のマーカー遺伝子型である個体群の j 番目の個体(j=1,2,…,
とおき、Q 1 Q 1 、Q 1 Q 2 、Q 2 Q 2 の遺伝子型における密度関数を、それぞれ
とおく。すなわち、
とする。式(2)-(4)を式(1)に代入しさらに展開すると、
)についての表現型を
、
、
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 105 -
ここで、
であるので、
(5)
となる。
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 106 -
次に、対数尤度を最大化する。このことは、式(5)について
(6)
(7)
(8)
(9)
を求めることにより達成される。
(10)
(11)
(12)
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 107 -
(13)
式(10)-(12)から、
(14)
(15)
(16)
が得られる。また式(13)から
(17)
(3)LOD
、
、
、
が収束したとする。式(1)により、対数尤度比 LOD を式(18)に従って求める。
(18)
を求める。ここで、
は
、
、
、
により求める。QTL の位置を連鎖群の端から
すこしずつ(例えば、1 cM ずつ)移動させながら、各点で LOD 値を求め、最大値を示した点を QTL の
位置とする。また、QTL 位置における遺伝効果(相加効果
伝効果の推定値とする。
、優性効果
)の収束値を、その QTL の遺
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 108 -
VIII-3 QTL マッピングの限界
QLT マッピングの限界を列挙する。
[1] QTL は統計的推論にもとづいた仮説上の遺伝子である。QTL マッピングにおける遺伝効果は、生物学
的意味をほとんど持たない。計遺伝学と集団遺伝学を統一したモデルで記述するために、遺伝子型値を記
述するモデルは、遺伝子を基準とした要因配置遺伝モデルによるべきである。
現状では、集団遺伝学の平均効果モデルのように遺伝子頻度に依存する。植物で多用されているホモ接合
体基準モデルである。
[2] QTL の根底にある遺伝モデルは、精密ではない。根拠なしに分布を仮定したモデルである。
[3] 含まれる遺伝学情報の量は適切ではない。
[4]
統計解析の方法論が十分活用されていない。現在の統計ツールは高次のエピスタティック相互作用を
扱う統計解析法の開発が必要である。
QTL の他の分野との関連を以下に示す。
参考文献
Liu,B.H., Statistical Genomics: Linkage, Mapping and QTL Analysis(1998)
鵜飼保雄、植物改良への兆戦(培風舘、2005)
鵜飼保雄、ゲノムレベルの遺伝解析(2000)
比較ゲノム学:ゲノム情報を基盤とした生物学と数理の架け橋 2009 講義資料)
- 109 -