Ames 試験結果の Lipinski ルールによる 考察と予測モデルの構築

KP06
Ames 試験結果の Lipinski ルールによる
考察と予測モデルの構築
(産業医学総合研究所)○猿渡雄彦,中西良文,(富士通(株))
湯田浩太郎,(日本バイオアッセイ研究センター)松島泰次郎
【序論】
Lipinski パラメータ(分子量、LogP,水素結合ドナー
1979 年の労働安全衛生法の改訂により始まった
数、アクセプター数,回転可能結合数)を含めた種々
有害物調査制度により、現在までに 12,000 件を超え
の物理化学定数と変異原性の間のトレンドアナリシス
る微生物を用いる変異原性試験が行われ、労働省
も行った。さらに得られた基準で分類された化合物群
(厚生労働省)に届出られ、試験結果の大要は公表
について試験的な予測モデルの構築を行った。
されている。産業医学総合研究所はこれらのデータ
【方法】
の詳細を電子ファイル上にデータベース化し管理し
2958 種の電荷をもたない(イオン化していない等)
ている。これらのデータをトレーニングセットとして、変
化合物について 85 の物理化学パラメータを3D-
異原性を化学構造式のみから予測するシステムを開
TSAR に よ り 算 出 し た 。 変 異 原 性 は Salmonella
発 で き れ ば 、 Regulatory Science 上 も Green
typhimurium TA100, TA1535, TA98, TA1537 および
Chemistry 上も意義が大きい。危険な物質は開発合
Escherichia coli WP2uvrA のいずれかの菌種で代謝
成すらしない、生産しない、労働者に暴露させない、
活性化の有無のいずれかで復帰変異原コロニー数
環境に放出しないという技術の実現に大きく貢献す
が溶媒対照値の 2 倍を超えた場合を陽性とした。結
る。我々はそのような予測システムの実現を目指し研
果を DIVA によりカラムアナリシスを行い集計した。
究を始めた。
サブセットの 67 化合物を用いて線型学習機械法と
2001 年末までに届出られた試験物質 11322 物質
Bayes 判別法による試験的な予測モデルの構築を行
のうちに混合物、ポリマー等を除いた 8042 の有機化
った。
合物のデータがあり、これが現時点でのトレーニング
【結果】
セットになる。(今後順次増える。)これらの化学物質
カラムアナリシスの結果の一部を Fig. 1 から Fig.
のうち変異原性が陽性となるものの割合は 14.7%であ
5 までに示す。あるパラメータ値の範囲内にある陽性
る。
化合物と陰性化合物の数をカラムの高さで表す。な
莫大な化学空間を単一の予測モデルで処理する
お Ratio を示す折れ線は
のは困難と考えられるので、何らかのクラス分けが必
Ratio=NPositive/(NPositive+NNegative) で定義される。
要となる。先ず考えられるのは置換基によるクラス分
NPositive+NNegative が約 100 以下の場合は Ratio の値の
けであるが、同じ化合物の中に基準となる置換基が
信頼性が低いので、下地を網目にしてある。
複数含まれる場合に矛盾が起こる。そこで我々は1つ
分子量が大きくなるに従い変異原性を示す割合が
の化合物には 1 つのクラス・1つのモデルを対応させ
小さくなる(Fig. 1)。LogP は 0.5~2.5 くらいで変異原
ることを試み、Drug-likeness の指標である Lipinski
性を起こす確率が最も高く、その前後では減少して
パラメータの中にその基準となるパラメータを求めた。
いく(Fig. 2)。水素結合ドナー数とアクセプター数のつ
このパラメータがベストのものとなる保証はないが、最
いては顕著な相関はないが、アクセプター数では陽
初の試みとして最も合理的なものと考える。同時に
性 化 合 物 が 広 く 均 等 に 分 散 し て い る ( Fig. 3 ) 。
[email protected]
Lipinski’s Rule から外れると変異原性を示す割合が
Total Energy
Number of Compounds
顕著に減少し(Fig.4)、生体とのインタラクションという
点で変異原性を Drug-likeness に準じて取り扱うこと
が正当であると言える。分子軌道 Total Energy が高
いと変異原性の出現の割合は顕著に高くなる(Fig.
Negative
25
Ratio
800
20
600
15
400
10
200
5
0
5)。
-1
分子量が低く分子軌道 Total Energy の高い化
合物が変異原性を示す確率が高いと言える。
30
Positive
1000
66
63
~
-1
Ratio/%
1200
0
50
-1
47
50
47
~
-1
34
-1
31
34
31
~
-1
18
-1
15
18
15
~
-1
01
-1
99
01
99
~
-8
58
-8
3
58
3~
-6
96
-6
8
96
8~
-5
35
-5
2
35
2~
-3
73
-3
6
73
6~
-2
12
0
-2
12
0~
-5
04
Total Energy /eV
Fig. 5
我々は現在開発を試みている予測システムにおい
て、化合物を1化合物 1 モデル対応のクラス分けする
基準として水素結合アクセプター数を取ることとした。
ADME Weight
30
20
600
500
15
400
300
10
200
100
5
0
57
.1
~
1
1
15
8.
1~
2
.
59
2
25
9.
2~
3
.
60
2
36
0.
2~
4
.
61
2
46
1.
2~
5
.
62
3
56
2.
3~
6
.
63
3
66
3.
3~
7
.
64
3
76
4.
3~
8
.
65
3
86
5.
3~
9
.
66
96
4
6.
4~
10
.
67
4
物 495(陽性:81,陰性 414)化合物から無作為に
Fig. 1
Molecular Weight
67(陽性:17,陰性 50)化合物を取り出し予測モデル
ADME LogP
900
700
50
40
600
500
30
400
300
20
200
10
100
0
-6
.0
1~
Ratio/%
Number of Componds
60
Positive
Negative
Ratio
800
0
-3
.8
6
-3
.8
6~
-1
.7
2
-1
.7
2~
0.
42
0.
42
~
2.
56
2.
56
~
4.
70
4.
70
~
6.
84
6.
84
~
8.
98
8.
98
11
~
.1
2
11
.1
2~
13
.2
6
13
.2
6~
15
.4
0
Fig. 2
LogP
ADME H-bond Acceptors
Positive
Negative
Ratio
1000
50
45
40
35
800
30
600
25
20
400
Ratio/%
Number of Compounds
1200
りなく分散していること、などである。
水素結合アクセプター数 0∼1のクラスの化合
0
.
58
クラス数が小さくないこと、③変異原性陽性物質が偏
15
線型学習機械法/全体:100%
ClassifiCalc
Pos Neg cation/%
Pos 17
0
100
Neg 0
50
100
Table 1
Bayes判別分析 /全体82.1%
ClassifiCalc
Pos Neg cation/%
Pos 13
4
76.5
Neg 8
42
84.0
Table 2
を作成し
予測率(LLM) 全体:82.1%
ClassifiCalc
Pos Neg cation/%
Pos 11
6
64.7
Neg 6
44
88.0
Table 3
を Table 3
Obs
700
理由は①Lipinski Parameters の一つであること、②
25
Obs
Positive
Negative
Ratio
800
Ratio/%
Number of Compounds
1000
900
10
200
た。分類率
を Table1,2
に示す。
線型学
習機械法
(LLM)に
よるモデ
ルの Leave
one out に
よる予測
率の評価
5
0
0
0~
1
2~
3
4~
5
6~
7
8
9~
10
11
~
12
14
~
15
16
~
17
18
~
19
Fig. 3
Number of H-bond Acceptors
ADME Violations
Positive
Negative
Ratio
1600
1400
20
1200
15
1000
800
10
Ratio/%
Number of Compounds
25
Obs
1800
600
400
5
200
0
0
0
1
2
Number of Violations
3
4
Fig. 4
に示す。
分類率
と予測率
に差があ
るのはト
レーニングセットのサンプル数が少ないためと
考えられる。
以上のように線型学習機械法によるモデル構
築の有用性が示された。