1. 研究成果
1)トランスフェクションアレイデータの解析法の研究
2)生体内ネットワークの定量的連続時間モデルの最適化法の研究
3)DNAマイクロアレイ定量時系列データの解析法の研究
2. 研究内容
2.1 トランスフェクションアレイデータの解析法の研究
生命活動は、常に変化する連続的な現象である。これを理解し応用するためには、連続的な時間発展の観測、解析が重要である。これまでそういった観点の観察は個体レベルで行われてきたが、生きた細胞の内部での遺伝子発現量の観測を続けられるトランスフェクション・アレイ(またはセルアレイ、以下TFA) [Ziauddin01] が開発され、分子生物学においても定量的な経時変化を観測できるようになってきた。現在非常に広く用いられているDNAマイクロアレイでは、細胞を破壊し測定対象であるmRNAが細胞質と混合されるため、その量を正しく観測できているか、確かではない。またある時刻でのスナップショットを観測する手法であるため、時系列の観測には大きなコストがかかっていたが、TFAを用いることでこれらを解決することができる。
TFAの問題点は、マイクロアレイに比べると観測できる遺伝子数が少ないこと、観測する遺伝子ごとに細胞外から細胞内に導入するためのノウハウが必要なことなどがあるが、それらは解決されつつある。最大の問題点は、観測した時系列データの解析法が確立されていないことである。そこで、解析の系統の確立をめざし、解析法を開発した。また一般に実験観測を行う研究者が統計解析の専門家でもあることは希であり、解析のバックグラウンドの詳細を習得しなくても信頼性の高い結果を得るシステムが必要とされている。そこで、経験則や任意のパラメータ設定の必要がない、全自動解析システムの構築を行った。
TFAでは直接の観察結果として、時間間隔をおいて断続的に撮影した画像が得られる。これらは次々と表示することでアニメーションのように見ることができるような性質のものである。1枚の画像はガラス基板(チップ)上に複数あるスポットのうちの一つの、ある時刻での写真であり、各スポットでは、そのスポットに割り当てられた特定のベクターを導入された一個あるいは複数の細胞が培養されている。スポットごとに異なったベクターを導入し、一つのチップ上という同じ環境で培養を行うことで、その環境下での複数の遺伝子の発現量の変化を同時に観察することができる。この培養系、撮影のための光学系、画像を保存し発現量を計算する保存系までは、観測装置として開発された。ここでの報告は発現量データの解析に関する研究についてである。研究は、時系列データから遺伝子相互間の依存関係(遺伝子ネットワーク)の推定を行うことを目指して行った。
開発した解析法は、ノイズ処理部、クラスタリング部、ネットワーク推定部の三部からなる。それぞれが完全に自動化され、webを通じてデータを送付するだけで解析結果を得られる統合システムを構築した。
2.1.1 ノイズ処理部
TFAではDNAマイクロアレイと同様に、チップ上の複数のスポットで同じ遺伝子を観察することで(リピート実験に相当)、スポットによる観測値のばらつきの検定や外れ値除去による信頼性の向上を行うことができる。ここでは、ばらつきに一般的なマイクロアレイ解析と同様に正規分布を仮定することで、AIC(赤池情報量規準)を使った自動外れ値除去法を開発、実装した。s を選んだ外れサンプルの個数、 n+s をリピート実験数とするとき、各時刻ごとに以下の式を最小化するように外れ値を選ぶ[Kadota03]。
σ は残りサンプルの分散である。残ったサンプルの各時刻における平均値に対して、多項式近似を行う。その際、多項式の次数は以下の式の左辺を最小化するように決定する[坂本83]。
ここで
であり、yiは観測値、xiは時刻、aiが多項式の係数であり、nがデータ点数、kが次数である。あるkに対してaiは最小二乗法で決定され、AICが計算できる。
リピート実験数8の場合に、外れ値を除いて平均を取り、最適多項式近似を行った例。各色のドットが観測値、実線が近似多項式。
2.1.2 クラスタリング部
クラスタリングには非常に多くの方法が研究されているが、発現解析でもっとも広く用いられているのは、単純な相関係数による階層的クラスタリングである。この手法は計算処理と解釈が簡明であるという利点の一方で、どの程度近いものを同じクラスタとみなすか、を示す閾値を経験的に設定しなければならない。これに統計モデルを使う方法も考えられるが、処理と解釈の簡明さを保つために、非常に簡潔な指標を用い、それを最大化するように閾値を決定する方法を実装し、完全に自動化されたシステムを構築した。
一つの遺伝子の発現時系列は一つの実数ベクトルである。このシステムでは全ての遺伝子の組み合わせてについて相関係数を計算し、相関係数の大きなペアからクラスタに属していくという階層クラスタリングを行う。良く行われる方法では、ある相関係数が閾値以下のペアは同じくラスタには属さないという規準を用いるが、ここでは任意性を排除しながら高速な全自動処理を行うため、以下の式を最大化するようにクラスタ数を決定する[Polikli03]。
ここで c がクラスタ、k がクラスタの個数、Nc がクラスタ c に属する遺伝子の個数、Zc がクラスタ c に属する遺伝子の集合、pij が遺伝子ペア i と j の相関係数である。何ら統計的指標に基づかない式であるが、クラスタ内の相関係数の平均値の高さとクラスタ数の少なさのバランスをうまくとることができる。
2.1.3 ネットワーク推定部
観測された時系列だけから、遺伝子の制御関係を決定することは、一般にはできない。しかし、変化の起こった時刻が遅いものは、早く変化したものの影響を受けている可能性があると言うことはできる。そこで、各遺伝子の多項式近似曲線の微分係数、二階微分係数を使って変化の時刻を決め、その前後関係をもって制御ネットワークの推定構造とするシステムを構築した。微分係数および二階微分係数の各時刻における値は多項式から求められるが、多項式の次数に上限を設けないため、微分係数および二階微分係数の零点は、全時刻にわたる全探索で決定する。これにより得られる制御列に、細胞内の制御カスケードが含まれている可能性があり、全ての遺伝子ペア間の制御関係の有無を調べることなく、遺伝子の個数と同数程度の関係にまで候補を絞ることができる。
以上の3つのシステムを統合したシステムを開発し、現在web上の以下のURLで試験的に運用している。
http://seqx01.cbrc.jp/clarinets/
このシステムでは、共同研究で得られたデータの他に、公開データベースであるGEO (Gene Expression Omnibus)[GEO] のデータを直接解析できる機能を備えているが、遺伝子発現時系列に関してはいまだ標準データ形式がなく、現実にはGEOのデータも全て解析できるわけではない。標準データ形式の提案と普及、それを集積するデータベースの設置が急務である。
2.2 生体内ネットワークの定量的連続時間モデルの最適化法の研究
遺伝子発現量の観察技術はDNAマイクロアレイがもっとも広く使われており、大規模な遺伝子間相互作用ネットワークの解析はほとんどそれらのデータに基づいて行われている。これらは生命活動のある瞬間でのスナップショットであるため、ネットワーク解析の多くは、単純な結合行列、ベイジアン・ネットワーク、階層有向グラフなどの静的な、あるいは離散時間での状態遷移的なモデルを使って行われている。しかし生命現象は常に変化する非線形現象であり、これを理解、利用するためには連続時間上で発展を追えるモデルが不可欠である。さらに上述したTFA技術などの出現により、連続時間モデルの必要性は非常に高まっている。
連続時間を扱うモデルとして現象を記述する自由度が高いものに微分方程式(速度方程式)がある。従来から酵素反応のモデリングに使われ、代謝系の解析では実績のある方法であるが、遺伝子ネットワークでは立式に必要となる知識(発現の分子機構など)が少なく、記述が不可能もしくは非常に膨大になり非実用的であった。しかし、ネットワークを記述するモデルとして記述量が比較的少なくて済むS-system [Savageau76] を導入し、膨大なパラメータの決定に並列計算を用いることでモデル構築が可能であると考え、観察された現象を再現するモデルを自動的に生成する計算機アルゴリズムの開発を行った。
S-systemによるネットワークの定義に必要なパラメータは 2n(n+1) 個の実数である。うち 2n 個が非負の速度係数、 2(n×n) 個が反応次数に相当しネットワーク構造を定義する。全てのパラメータの値を最適化して、微分方程式を解いたときに観測された時系列を再現できれば、そのパラメータで定義されるモデルは現象を記述できていると言える。しかしこのパラメータ決定は逆問題である。同じ現象を再現するパラメータベクトルは無数に存在する。したがって、1. 多次元空間での非線形関数の最適化、2. 逆問題、の二つを解決せねばならない。ここでは1.に対して遺伝的アルゴリズム(GA)を導入する[Kikuchi03]ことで、 2. に対してはネットワーク構造にスケールフリー性を仮定することで解決を図った[Tominaga03]。
最適化アルゴリズムの適用に先立ち、探索空間のプロファイルを調べた。これにより初期個体をランダムに生成すると実行可能解を得る可能性が非常に低いことが示され、初期集団の生成に最適化の進行が大きな影響を受けることが示された。実数空間の最適化であることから、GAでは遺伝型に実数配列を使い、実行可能解の生成の難しさから、探索空間を広く取るよりも収束を早めて複数回試行した方がよいと考え、交叉と突然変異にはUNDXを用いた。複数回の試行として、もっとも単純な分散GAである移住なしの島モデルを使い、各島ごとにCPUを割り当てることで並列化を行った。これにより各島ごとに解が得られるが、すべての遺伝子ペアについて、ペアの間に制御関係があるとした解がいくつあるかを数え、多い方から順に採用し構造がスケールフリー性を満たすところで最終的なネットワーク構造とすることとした。各個体が表すネットワーク構造が常にスケールフリー性を保つように制限することで、解の多様性が制限され、逆問題に対して有効なアプローチを取ることができた。
遺伝子数5のモデルネットワークを用いてシミュレーションにより時系列データを用意し、そこからモデルネットワークの同定が行えるかどうかのケーススタディを行った。この場合のS-systemのパラメータ数は60であり、このうちの30個を最適化対象とした。したがってこの問題は30次元実数空間での非線形関数最適化となる。スケールフリー性の有効性を検証するため、制限を行う場合と行わない場合とで比較し、スケールフリー性の仮定を行うことで、得られた構造を元のモデルネットワークと比べたときのFalse positive、False negativeともに減らすことができ、が構造推定に有効であることを確認した。
探索空間から二つのパラメータを選んだときの評価関数のプロット。値が零(実行可能解でない)の領域が広く、初期探索点の生成が簡単ではないことを示す。
遺伝子間の相関が25カ所ある遺伝子数5のネットワークでの制約の有無による構造推定能力の比較結果。1: 制約なし、2: 相関の数のみの制約、3: スケールフリー性維持。a: 探索の収束率、b: 平均世代交代回数、c: False Positive、d: False Negative。Falseと収束率にトレードオフが見られる。
2.3 DNAマイクロアレイ定量時系列データ解析法の研究
現在、現実に得られる時系列データは、公開、非公開を問わず、ほとんどがDNAマイクロアレイによるものである。コストが年々下がっていることからこの方法による時系列データは今後も増え続けると考え、共同研究としてデータの提供を受け、その解析法の開発を行った。
TFAデータと比べたときのマイクロアレイデータの大きな特徴は、観測時点数が少ないことと、定量性が低いことである。現在RICEで開発中のTFA装置では数百から数千点の時刻で撮影を行うことができるが、マイクロアレイではコストの問題から、20点程度以上の例は少ない。また定量性が低いことから、多項式近似などで微分係数の零点を決定するなどの操作も信頼性が低く、本来実験条件にしたがって決めるべきである、遺伝子ごとの発現量の統計的性質を調べることも、時間的な制約から行われないことが多い。1枚のチップ全体に関する標準偏差などをアレイのメーカーで把握している程度であり、ばらつきは全て正規分布として処理を行うのが通例である。
ここでは、概日周期変動を示す遺伝子を探し出すことを目的として解析法を開発した。遺伝子数が約1万の単色マイクロアレイを各時刻で1枚使って約10点観測したデータ(1万次元のベクトル約10本)を想定した。各アレイでの発現量ベクトルの平均と分散が等しくなるようにz変換を行ったデータを解析対象とした。
医療的な研究でもっともよく用いられる時系列解析手段はコサイナー法である。これは三角関数を観測データに最小二乗近似する方法であり、最良近似曲線の持つ周期が24時間近辺であれば、それを概日周期変動とみなす。また自己相関解析(ARモデル)、フーリエ変換も用いられる。ARモデルでは現在の値を過去の値の線形結合で近似する方法で、どのくらい過去の値ともっとも相関が高いかを見ることで周期を調べる。フーリエ変換では、変換後のスペクトルが極大値を取る周期を見ればよい。しかし既存の方法はいずれも、「どの程度合っていればよいか」「どの程度値が高ければよいか」の判断基準は経験的に決定せねばならない。
そこで、判断基準に情報量規準を導入することで判断の自動化を図った。時系列データを多項式近似する際に、多項式の次数をAICを使って決定する方法は確立されているので、多項式の代わりにフーリエ変換を用いる方法を開発した。ARモデルにも同様に適用することができる。マイクロアレイにより観察されたある遺伝子の発現時系列をフーリエ変換すると、データの観測範囲の整数分の一に対応する周期に、複素係数ベクトルが得られる。これをそのまま逆変換すると元の時系列が得られるが、一部を零にして逆変換すると元の時系列に似た、あるいは似ていない時系列が得られる。多くの係数が零になった係数ベクトルはシンプルな良いモデルである、モデルを記述するパラメータ数は零でない係数の個数であると考えると、その個数と得られた時系列と元の時系列との差から情報量規準を計算することができる。情報量規準を最小化するように零にする係数を選んだとき、24時間に対応する係数が零になっていなければ、元の時系列は概日周期変動を示す、と判断する。これにより経験的な閾値などを決める必要がなくなり、各遺伝子についてそれぞれ完全に自動的に、概日周期変動の有無を判断することができる。
この判断法を使った判定システムを構築し、4種類の条件下で観察されたマウスの12422個の遺伝子を4時間おきに12点観察したデータについて、判定を行った。
4つの条件下で観測されたそれぞれ12422個の遺伝子から、概日周期変動を示すと判定した遺伝子の個数。DC, DZ, WC, WZがそれぞれ実験条件。複数の条件で重複して判定される遺伝子の個数も合わせて示した。
参考文献
[Kadota03] Kadota, Tominaga, Akiyama, Takahashi, CBI Jounal, 3, 1, pp. 30.
[Kikuchi03] Kikuchi, Tominaga, Arita, Takahashi, Tomita, Bioinformatics, 19, 5, pp. 643.
[Polikli2004] Porikli, Haga, Conference on Computer Vision and Pattern Recognition (CVPRW), 7, pp. 114.
[Savageau76] Savageau, Biochemical System Analysis, Addson-Wesley.
[Tominaga03] Tominaga, Takahashi, Akiyama, High Performance Computing, pp. 214.
[Ziauddin2001] Ziauddin, Sabatini, Nature, 411, pp.107.
[坂本83] 坂本, 石黒, 北川, 情報量統計学, 共立出版