■ポスターリスト

[01]
ゲノム解析から探るGタンパク質共役型受容体(GPCR)の多様化

 ○諏訪 牧子、小野 幸輝1、藤渕 航
1(株)情報数理研究所



 外界認識の素子、あるいは創薬標的としてのGPCRの機能多様化メカニズムを理解することを目的とし、現在行っている俯瞰的な配列解析PJを紹介する。
 私たちは、真核生物ゲノムから網羅的にGPCRを同定し(SEVENS: http://sevens.cbrc.jp/)、哺乳類では1,000〜3,000程度の遺伝子が50種以上のファミリーに分れていることが判ってきた。現在それらを、膜内構造を反映する物理化学的記述子を用いて分類し、各グループ内/間で保存される構造特徴を網羅的に抽出している。ファミリーは遺伝子数が生物種に渡って保存されるタイプと生物種ごとに数が異なり全GPCRの大多数を占めるほど急増するタイプが存在した。後者は、匂い、味覚物質など化学物質の受容体であり、ゲノム上で高密度な遺伝子クラスターを作っているが、全遺伝子間のネットワークやリガンド結合部位の解析によりクラスターの階層的な成長過程が見えてきた。



[02]
プロファイル比較によるタンパク質機能部位解析

 ○藤 博幸1、小田 浩之1、太田 元規2
1九州大学、2名古屋大学



 タンパク質は、アミノ酸配列と立体構造の二つの異なる側面から解析できる。
 アミノ酸配列を使用する場合、そのホモログのアミノ酸配列を収集し、マルチプル・アラインメントを構築して、その情報をホモロジー・プロファイルあるいはPSSMと呼ばれるテーブル形式のデータに要約できる。立体構造を使用する場合、同様の3D-1Dプロファイルと呼ばれるテーブル形式のデータを構築できる。PSSMは、進化の過程での様々な制約を反映するものであるが、3D-1Dプロファイルは構造的な制約のみを反映したものになる。そこで同じタンパク質についての、これら2種類のプロファイルを比較することにより、主に構造的制約を受けているサイトと、それ以外の制約を強く受けているサイトを判別できることが期待される。このアイデアに基づくプロファイル比較法の開発と、それを用いた機能部位の解析について報告する。



[03]
Using Wiki as Relational Database of Metabolites

 ○Masanori Arita1, Kazuhiro Suwa1, Miwa Yoshimoto1, Tadashi Gambe1,
Toshiaki Tokimatsu2, Yoko Shinbo3 and Shigehiko Kanaya3
1The University of Tokyo, 2Kyoto University, 3Nara Institute of Science and Technology



 Standard Wiki-based systems do not have function to systematically reuse page contents. For example, collecting part of other pages or comparison of page information is, by default, impossible. We propose installing embeddable string-search commands on a Wiki-based system to design a relational-like database. As a proof of principle, a database of flavonoid of 6851 molecular structures from over 1687 plant species was implemented on MediaWiki, the background system of Wikipedia. Registered users can describe any information in an arbitrary format, and structured texts are subject to text-string searches to realize relational operations. The implemented commands were written in PHP language as the extension of MediaWiki. This scheme benefits both from the free-formatted Wiki style and from the concise and structured relational-database style. Since MediaWiki supports multi-user environment for document management, the effort of database maintenance is also alleviated.



[04]
核内ゲノム環境とレトロトランスポゾンの転位先決定要因に関する解析

 ○芦田 広樹、光山 統泰、浅井 潔1
1東京大学



 レトロトランスポゾンによってゲノムがいかに「配線」され、形作られているかを理解することは、ゲノムや細胞核の設計原理を理解するうえでも非常に重要である。しかし、観測される分布や偏在性そのものは、パターンを生み出した生物学的プロセスに関する情報が混在し、埋もれてしまっている。従って、うまく潜んでいる情報を顕在化することで、転位先の決定要因を明らかにできると考える。本研究では個体群生態学や周期性解析の手法を適用するとともに、核ラミナや染色体テリトリーなど細胞核内の環境が転位といかに配置的に関係するかを仮説と検証を繰り返すことで明らかにしている。その結果、Alu配列とLINE-1のヌクレオソームレベルでの関係性や、核ラミナの結合部位とAlu配列の分布に負の相関があることが分かってきている。Alu配列の転位パターンは今まで考えられている以上に核内のゲノム環境の影響を受けていることが見えてきた。



[05]
脂質メタボロミクス解析に向けたデータマイニング手法の開発

 ○伊崎 文晃1、有田正規1
1東京大学



 質量分析法の発達により、大量のメタボロミクスデータを取得できる今、これらのデータから効率的に生物学的知見を抽出することが求められている。しかし、グリセロリン脂質のような複数の構造単位(極性基や脂肪酸)を持つ代謝物に対して、適切な多変量データ解析の手法は存在しないのが現状である。グリセロリン脂質の構造的階層性が内在するプロファイルデータから、着目すべき構造単位のグルーピングパターンを効率良く発見するマイニング手法は、大量の脂質プロファイルデータを効率良く解析するためには必要不可欠である。そこで本研究では,DAG(Directed Acyclic Graph)をデータ構造として用いた、データマイニング手法を提案し、心筋梗塞モデルマウスの心筋から得られたグリセロリン脂質プロファイルデータへの適用を試みたので報告を行う。



■Page Top

[06]
ヒトゲノム配列からの新規RNAの網羅的予測

 ○光山統泰、山田浩一郎1、服部恵美1、沖田弘明2、小野幸輝1、寺井悟朗2、吉澤亜耶2、浅井 潔3
1(株)情報数理研究所、2(株)インテックシステム研究所、3東京大学



 ヒトゲノムにはタンパク遺伝子以外にも保存された非コード領域が多数存在することが知られているが、これらの非コード領域の具体的な性質についてはほぼ未知である。我々は比較ゲノムを利用した独自の方法によって、全ヒトゲノムからRNA二次構造が保存された領域を新規RNA候補領域として絞り込んだ。さらに24種の市販細胞及びがん細胞から抽出したtotal RNAを用いたカスタムマイクロアレイによる発現解析によって有望な候補の抽出を試みた。多くの候補領域が組織特異的な発現パターンを示すことがわかった。RNAとして発現していることをさらに確実にするために、ウェットラボとの共同研究によって、高度に発現しているとみられる候補の検証実験を行っている。既に2つの候補領域がマイクロアレイの発現に加えて、Hela細胞を用いたRPA (ribonuclease protection assay) による検証実験によってその発現が確実なものとなった。



[07]
RNAのアクセシビリティ計算ツールRaccess を用いた、microRNAターゲット領域の配列解析

 ○木立 尚孝、光山 統泰、浅井 潔1
1東京大学



 miRNAが作用するmRNA領域には、miRNAとの相互作用を妨げないために、二次構造がとりにくくなるような進化的圧力が働いている。
 ごく最近になって、このようなターゲットサイトのアクセシビリティが、miRNAのターゲットサイトを予測するための特徴としてとても有用であることが明らかになってきた。これまで、RNAの二次構造に関する研究は、どの塩基のペアが対を組むかに注目するものが多く、塩基対を組まない領域の配列の性質を調べるような研究はあまりなかった。我々は、RNA転写物の連続した領域が、塩基対をくまない状態であるために必要な自由エネルギー及び確率を正確に計算する方法を開発し、実装した。これを用いて、miRNAのターゲット領域は、有意にアクセシビリティが高いことなどを確認した。我々のプログラムは、miRNAのターゲットサイトの解析に限らず、マイクロアレイの設計や、siRNAの設計にも役立つことが期待される。



[08]
A non-parametric Bayesian approach for predicting RNA secondary structures

 ○Kengo Sato1,2, Michiaki Hamada3,4, Toutai Mituyama, Kiyoshi Asai5 and Yasubumi Sakakibara2
1Japan Biological Informatics Consortium, 2Keio University, 3Mizuho Information & Research Institute, 4Tokyo Institute of Technology, 5The University of Tokyo



 Many functional RNAs form stable secondary structures which are related to their functions. Currently, since experimental determination of base-pairs of RNA secondary structures is yet difficult and expensive, especially for high-throughput assays, computational prediction of RNA secondary structures is widely used instead of experimental assays. Therefore, the improvement of computational prediction of RNA secondary structures is one of crucial problems in bioinformatics. We propose a non-parametric Bayesian approach for predicting RNA secondary structures based on hierarchical Dirichlet processes for stochastic context-free grammars (HDP-SCFGs). Here, "non-parametric" means that some meta-parameters such as the number of non-terminal symbols and transformation rules do not have to be fixed but their distributions are inferred so as to be adaptive to given training sequences in the Bayesian sense. Our results show that HDP-SCFGs are more accurate than the MFE-based models and the other existing generative models, and comparable with CONTRAfold.



[09]
L1-レトロポゾン検出手法の開発

 ○寺井 悟朗1,2、吉澤 亜耶1,2、浅井 潔3, 光山 統泰
1(株)インテックシステム研究所、2バイオ産業情報化コンソーシアム、3東京大学



 LINE1がコードする逆転写酵素は、多様な転写物に作用し偽遺伝子(L1-レトロポゾン)を生成することが知られている。L1-レトロポゾンを高精度に検出するプログラムを作成することは重要である。なぜなら、ヒトゲノムには未同定のL1-レトロポゾンが多数存在する可能性があるからである。L1-レトロポゾンの周辺領域には3種類の配列特徴がある。1つはレトロポゾン下流のポリAトラクト、2つめはレトロポゾンの両端に見られる相同領域、3つめは5'側の相同領域の開始点付近に見られるTTAAAAコンセンサス配列である。本研究ではこれらの配列特徴をダイナミックプログラミングで検出する手法を開発したので報告する。この手法は、既存手法よりも高精度にL1-レトロポゾンを検出できることを確認した。ポスター発表では、ヒトゲノムからの新規L1-レトロポゾンの検出結果についても報告する。



[10]
脊椎動物ゲノムのタンパク質非コード領域からのDNAモチーフ配列の探索

 ○大里 直樹、マーティン・フリス



 DNAモチーフ配列が、プロモーター領域以外のタンパク質非コード領域にも存在することが報告されているが、ゲノム全体にどのようなDNAモチーフ配列が存在するのかはよくわかっていない。そのためヒトと他の脊椎動物において保存されたタンパク質非コード領域から、過剰に存在するDNAモチーフ配列(Overrepresented DNA motifs, ODM)を探索した。その結果、ヒトと進化的に近い生物種ほど多くのODMを含んでいたが、既知の転写因子結合配列と比較したところ、その機能は生物種によって異なる傾向が見られた。例えば、ヒトとフグの保存領域では、ホメオドメインを含む転写因子の結合配列が有意に多く見られ、発生に関わる転写因子結合配列が保存される傾向にあることがわかった。ODMの数と機能の変化から、脊椎動物の進化において、転写因子による遺伝子発現制御が大きく変化したことが示唆された。



■Page Top

[11]
βシグナルを用いた新規ミトコンドリアβバレル型外膜タンパク質の探索

 ○今井 賢一郎、マイケル グロミハ、ポール ホートン



 最近、ミトコンドリアβバレル型外膜タンパク質(MBOMP)の外膜挿入シグナル"βシグナル"がいくつかのMBOMPの変異実験から発見された。βシグナルは、C末端付近にあり、PoxGxxHyxHy(Po: 極性残基、G: Gly、Hy: 疎水性残基)というモチーフで表される。我々は、明らかになっている5つのMBOMPとそのホモログ間のマルチプルアライメントをもとにβシグナルの進化的保存性解析やさらなる特徴解析を行った。その結果、βシグナルは、5つのMBOMPとそのホモログ間でも保存されており、さらに疎水性残基の二残基周期性(PoxGHyxHyxHy)を持つことがわかった。そこで、Uniprotにある真核生物のタンパク質を対象に、βシグナルの進化的保存性、二次構造予測、Gene Ontology、発現情報等を組み合わせ、新規MBOMPの網羅的探索を行ったので、これらの結果について報告する。



[12]
Modeling The Marginal Distribution of Gene Expression with Mixture Models

 ○Edward Wijaya, Hajime Harada and Paul Horton



 We report the results of fitting mixture models to distribution of expression values for individual genes over a broad range of normal tissue, which we call the "marginal distribution of gene expression". The base distributions used were normal, lognormal and gamma.
 The standard expectation-maximization algorithm was used to learn the model parameters.
 Experiments with articifial data were performed to ascertain the robustness of learning. Applying the procedure to data from two publicly available microarray datasets, we conclude that lognormal is the best function that describe the marginal distributions of gene expression. Our results should provide some guidance in the development of informed priors or gene specific normalization for use with gene network inference algorithms.



[13]
Sequence Analysis of Nuclear Export Signals

 ○Fu Szu-Chin1 and Paul Horton1
1The University of Tokyo



 Protein sub-cellular localization is an important feature and has been used to support many functional hypotheses. Localization signals like the Nuclear Localization Signal (NLSs) and the Nuclear Export Signal (NESs) are both extremely important for the regulation of sub-cellular localization. However, compared with the classical NLSs, NESs are more difficult to identify correctly because they share sequence similarity to regions forming the hydrophobic cores of many proteins*1. Based on a manually-curated database of NESs built in 2003*2, an analysis of amino acid composition of NES region revealed statistical over-representation of glutamate, aspartate, and serine besides the hydrophobic residues*3. We further found the presence of methionine in NES relates to the distribution of these charged/polar residues. The hydrophobic residues and negatively charged/polar residues found in NES regions may imply a flexible mechanism for exposing the signals. We are now analyzing the disorder status of NES region and its flanks.

 References:
 *1Cook et al., Annu. Rev. Biochem. 76, pp.647-71 (2007).
 *2la Cour et al., Nucleic Acid Research, 31(1), pp.393-396 (2003).
 *3la Cour et al., Protein Engineering, Design & Selection,17(6), pp.527-536 (2004).



[14]
タンパク質立体構造予測モデルの評価

 本野 千恵



 分子レベルでの生命プロセスの理解には、タンパク質立体構造に基づく考察が有用だが、その立体構造には正確さが要求される。特に、計算によるタンパク質立体構造予測モデルは、その正確さを評価し最良の構造を選択する必要がある。
 新たな立体構造の評価方法の開発のために、まず、現在使用している統計ポテンシャル(Verify3DとProsa2003)の組み合わせによる、立体構造モデルの良否の判別能を検討した。近年、Structur-based Drug Designの分野では、化合物結合部位のアミノ酸出現頻度に基づく指数(Propensity for Ligand Binding, PLB)が提案され、タンパク質分子の化合物結合部位を迅速かつ高精度で予測できることが示されている。このPLBの概念を拡張し、タンパク質表面のアミノ酸残基の組成に基づく評価の可能性を検討した。



[15]
新レプリカ交換法RESTによる、蛋白質変性構造アンサンブルの解明

 亀田 倫史



 これまで蛋白質の天然構造に比べ、変性状態における構造に関してはあまり省みられてこなかったといってよい。結局、50年代のrandom coilモデルに行きついてしまうからだろう。しかし、2000年代に入ってから、変性状態でも思ったよりrandomな構造をとっていないという報告が増えてきているのである。
 変性状態の研究が増えてきたのはSAXSなどの実験的手法の発展によるところが大きい。これに比べて、理論的研究はあまりなされていない。なぜなら、蛋白質を変性させるためには膨大な計算時間が必要となるからである。そのため、変性を加速させるために高温で、計算するケースが多く、実験に対応させて論じるにはかなりの問題がある。
 今回は、尿素8Mかつ常温(300K)での計算結果を報告する。レプリカ交換法の計算効率を8倍に高めたREST法を用いることにより、計算が可能となった。このような計算の報告は著者の知る限りないので、おそらく世界初の報告となる。



■Page Top

[16]
Understanding the recognition mechanism of protein-protein complexes: energy based approach

 ○M. Michael Gromiha, Kiyonobu Yokota, Koki Tsukamoto and Kazuhiko Fukui



 Protein-protein interactions play an essential role in the regulation of various cellular processes. Understanding the recognition mechanism of protein-protein complexes is a challenging task in molecular and computational biology. In this work, we have developed an energy based approach for identifying the binding sites and important residues for binding in protein-protein complexes. We found that the charged and aromatic residues are important for binding. These residues influence to form cation-π, electrostatic and aromatic interactions. Our observation has been verified with the experimental binding specificity of protein-protein complexes and found good agreement with experiments. Further, we have analyzed the binding segments and found that most of them contain one or two residues. The propensity of residues in the binding sites of receptors and ligands showed the variability of Gly, hydrophobic and polar residues. Based on these results we have proposed a novel mechanism for the recognition of protein-protein complexes.



[17]
Analysis of intrinsic protein disorder in a human protein-protein interaction network

 Kana Shimizu



 Intrinsic protein disorder is considered to play an important role in protein-protein interaction (PPI) networks, because dynamic conformation may allow proteins to interact with several structurally different targets. In this work, we investigate what kind of molecular recognition is preferred in PPI, by analyzing a human PPI network and large-scale predictive results of protein disorder by using POODLE. We defined three protein interaction types with regard to protein disorder, as order-order interaction: interaction between folded proteins, order-disorder: interaction between a mostly disordered protein and a folded protein, and disorder-disorder interaction: interaction between mostly disordered proteins. The result shows that larger number of disorder-disorder interactions are estimated in human PPI network comparing to those in a random network, which indicates that molecular recognition without stable 3D structures are preferred. Also, functional analysis gives the results that large number of disorder-disorder interactions is found in several cancer-associated pathways and neurodegenerative diseases-associated pathways.



[18]
A novel statistical method to predict functional regions of a protein

 ○Wataru Nemoto and Hiroyuki Toh1
1Kyushu University



 We developed a novel method to predict functional regions of a protein. Our method integrates both evolutionary information coded on multiple sequence alignment (MSA) and tertiary structure of a protein. This method enables us to solve an important problem. That is, different sets of sequences generate different MSAs, which provide different evolutionary information. If we use the information to predict functional regions, the prediction results largely depend on the sequence composition. We empirically know that a certain degree of sequence divergence in MSA is essential for accurate prediction. However, nobody knows how diverged sequences we need to use. We have to manually and subjectively adopt and dismiss the sequences, which are appropriate for MSA. In this work, we tackled this problem and developed a quantitative index to select appropriate sequences. It enables us to collect sequences automatically and objectively. We will discuss the benefits and the pitfalls of our method.



[19]
Improvement in speed of multiple sequence alignment program PRIME

 ○Shinsuke Yamada and Osamu Gotoh1
1Kyoto University



 Multiple sequence alignment (MSA) provides a fundamental tool in bioinformatics. Although many programs have been developed, there is room for improvement in accuracy and speed. Until now, we have developed an MSA program, PRIME, which uses a group-to-group sequence alignment algorithm with a piecewise linear function as a gap cost. Although PRIME can construct accurate alignments, its computational speed is somewhat slow.  To improve the calculation speed, we incorporated anchoring and grouping heuristic methods. An anchoring method is to locate well-conserved regions in a given MSA that act as anchor points to reduce the region of DP matrix to be examined, while a grouping method detects conserved subfamily alignments in a given MSA to reduce the number of DP computations. In addition, we devised a progressive method, which parallelizes not only distance calculation but also alignment construction process. These heuristics and the progressive method significantly improve PRIME's performance.



[20]
Prediction of protein structural flexibility from an amino acid sequence

 ○Shuichi Hirose1, Kiyonobu Yokota, Hiroshi Wako 1,2 and Tamotsu Noguchi,1
1Research Institute of Information Technological Biology, 2Waseda University



 A protein structural flexibility is often associated with protein function, thus flexibility is one of important characteristics for protein. The movement of a polypeptide segment can be classified conceptually into two forms: internal motion and external motion. The former is a deformation of segment itself, conversely the latter involves only rotational and translational motions as a rigid body. Normal Mode Analysis can derive these motions, but its application remains limited because it requires full structural information. Here, we present a novel method for predicting these two protein motions solely from amino acid sequence information. We prepared a dataset by calculating internal and external motions using NMA. Then, we developed a prediction method based on the Random Forest algorithm using information on the adjacent paired amino acid residues and the predicted secondary structure. Our method exhibited higher prediction accuracy when compared to results of the predictions using the nai"ve model.



■Page Top

[21]
構造の異なる粒子を分離する単粒子解析法の開発

 ○上野 豊、Gabor Papai1、Patrick Schultz1
1Departement de Biologie et Genomique Structurales, IGBMC



 電子顕微鏡による生体高分子の単粒子画像から立体構造を解析するのに、異なる構造あるいは別種の粒子を分離する画像解析手法を開発している。高純度に単離したタンパク質が溶液中で複数の安定した構造をとったり、ディスオーダ領域の影響などがあると、構造解析の分解能が制限される。それでも、リボゾームの単粒子解析ではその変位部分が特定され、構造変化がその分子機能の理解につながっている。投影像となる単粒子画像においてそれらを判別して構造解析できる手法が望まれている。我々は、ノイズの多い粒子を分類して得た平均化像において、2つの画像が同じ3次元構造に由来するかどうかを評価するスコアを導入した。それを画像同士の類似度として性質の似たグループをクラスタリングにより求める。得られたグループが妥当な再構成となるか確認することで、観測された粒子像の集団からいくつかの構造グループを抽出する。モデル構造を使ってアルゴリズムが機能することを確認した後、極低温顕微鏡で観測したecoli RNA Polymerase I の画像に適用し、構造多様性の解析を進めている。



[22]
CellMontage/SAMURAI: Gene Expression Similarity Search Tools

 ○藤渕 航、岡田 吉史1、ポール・ホートン
1室蘭工業大学



 大量のマイクロアレイデータから有益な情報を取り出すことは遺伝子発現解析の分野で重要な課題である。我々は、配列解析における大域アライメントと局所アライメントに似た、遺伝子発現データマイニングツールであるCellMontage[1]と SAMURAI[2]を開発した。両プログラムとも数千枚もの遺伝子発現データからユーザーのデータと類似した発現パターンを実用に耐える速度で検索し、大抵の場合には結果を数分で返すシステム出る。疾病の遺伝子発現データセットに適用すると、これまでにまだ報告されていなかったり、よく理解されていなかったような新しい疾病のメカニズムについての仮説を引き出すことができる。


References:
[1]Fujibuchi, W., Kiseleva, L., Taniguchi, T., Harada, H. and Horton, P., CellMontage: Similar Expression Profile Search Server, Bioinformatics, 23(22), pp.3103-3104, (2007).
[2]Okada, Y. and Fujibuchi, W., Mining a Large-scale Microarray Database for Similar Gene Expression Modules to Find Distant Relationships between Down Syndrome and Huntington's Disease, Proceedings of Critical Assessment of Microarray Data Analysis 07, Valencia, Spain, (2007).



[23]
電子伝達蛋白質の立体構造・配列に基づく系統的な解析・分類

 長野 希美



 酸化還元酵素の場合、フェレドキシンやシトクロム系蛋白質などの電子伝達蛋白質を基質・産物として、相互作用し、電子伝達反応を担う。本研究では、フェレドキシンやシトクロムなどの主要な電子伝達蛋白質を立体構造や配列などを基にクラスタリングを行い、機能との関係などを解析し、分類を進めている。



[24]
Designing Pyro-primer Sequences for Exhaustive Quantitation of mRNAs

 ○Hirokazu Chiba, So Nakagawa1, Takeaki Taniguchi2 and Wataru Fujibuchi
 1National Insitute of Genetics, 2Mitsubishi Research Institute Inc.



 Exhaustive quantitation of mRNA levels in a single cell can be realized by the recent pyro-sequencing technology. However, to assure primer specificity, we need to perform a huge number of sequence alignments of the primer candidates against mRNA database, which requires extremely large computational costs. Thus, we adopt special hardware called field programmable gate array (FPGA), on which logic circuits for hundreds of parallel computation are implemented. In addition to the sequence alignments, we also check hybridization ratios of the primer candidates to off-target sequences and the ratios of primer dimer formation and secondary structure formation. All of these features are co-evaluated by Fisher omnibus combining function to select best primers. According to our preliminary study, this system runs fast enough to design primer sets for exhaustive quantitation of mRNAs. When four FPGA boards are used, primers for all human genes are estimated to be designed in four days.



[25]
細胞の分化転換を含む網羅的ヒト細胞データベース「CELLPEDIA」の構築

 ○幡野 晶子、永家 聖、谷口 丈晃1、山根木 康嗣2、大山 秀樹2、中正 恵二2, 寺田 信行2、藤渕 航
 1(株)三菱総合研究所、2兵庫医科大学



 ヒトには200種類以上、約60兆個の細胞が存在していると考えられ、その構造と機能を理解することは重要である。これらの細胞を分類する際、古典的な組織学的分類と機能的分類が存在しているため、例えば胃や小腸に存在する粘膜上皮に含まれる上皮細胞を分類するのは困難であった。本研究では細胞の組織画像データを基礎とすることで上記問題を解決し、物理的存在位置、生理学的特徴、遺伝子発現情報を組織画像データに統合したデータベースの構築を行う。具体的には細胞のリソース情報を組織画像データに付加し、また対応する遺伝子発現情報を遺伝子発現データベースGEOより入手した。さらに主要な組織学の教科書をもとに細胞の分類を行った。今回画像データをもとにすることで、これまでの分類体系で分けることが難しかった胃や小腸に存在する上皮細胞を分類することができた。



■Page Top

[26]
Biclustering法を用いた、環境物質を投与したラットの発現データの解析及び共通発現パターンの探索

 ○金 尢1、岡田 吉史2, 谷口 丈晃3, 曽根 秀子4, 藤渕 航
 1東京医科歯科大学、2室蘭工業大学、3(株)三菱総合研究所、4国立環境研究所



 マイクロアレイデータは数千から数万の遺伝子の発現情報を提供する。近年我々は、そのような大規模な生物情報より遺伝子発現パターン(モジュール)を高速に抽出できるデータマイニング(SAMURAI)法を開発した。本研究ではSAMURAIを用いてJ&Jで行われた、濃度や毒性およびメカニズム等の異なる環境物質を暴露させたラットの肝臓の298発現データ(2,497プローブ)を解析し、GO termとKEGG pathwayにおいて超幾何検定を行った。その結果、従来は化学構造や毒性によって違う分類にされていた化合物同士が、分子レベルでは共通な反応性を示していることが示唆された。また、未知なる環境物質の作用メカニズムやその機能を推定することにおいて、共通な反応性を示した化合物の情報はその糸口になる可能性がある。



[27]
Enzymes with multiple catalytic domains in metabolic pathways

 ○Keiko Tan'ya1 and Motonori Ota 2
 1Tokyo Institute of Technology, 2Nagoya University



The mechanisms to produce proteins with modified functions include sequence modification and domain recombination. Many previous studies focused on the role of the former, whereas the latter is unclear. In this study, we have examined enzyme superfamilies in terms of domain combination, sequence diversity and EC number, and then investigated correlation between the fusion of catalytic and peripheral domains and the functional modification. We found the modification at the catalytic domain is dominant to alter the protein function rather than the peripheral domain recombination.
Through these analyses we also found the fusion of catalytic domains is not rare. To investigate this event more extensively, we built a dataset of enzymes with more than one catalytic domain from 384 genomes by integrating GTOP, SCOPEC, and EzCatDB. Structural and functional features of fused catalytic domains were examined in terms of fold classes, EC number and the reaction in KEGG metabolic pathways.



[28]
Towards prediction of ligand binding specificity to GPCRs by machine learning

 ○Hiroto Hyakkoku1, Tsuyoshi Kato2, Makiko Suwa and Wataru Fujibuchi
 1Waseda University, 2Ochanomizu University



 The olfactory system is one of the most important sensory systems of mammals. In the olfactory system of organisms, chemical molecules bind to G-protein coupled receptors (GPCRs) and organisms discriminate odors by combination of GPCRs and their transduction intensities. There are about 1000 kinds of GPCRs in human' olfactory system and large number of chemical molecules bind to GPCRs. Accordingly, number of combinations of GPCRs and chemical molecules become too large to be examined their specificity by all combinations. Therefore, prediction of combinations by computers is important to understand the olfactory system.
 We will predict such combinations by following process. First, we will represent chemical molecules as graphs. Then, we will extract features from graphs and use support vector machine for classification.



■Page Top

[29]
ネットワーク構造変化解析のための2つのアプローチ

 ○堀本 勝久



 我々は、生体ネットワーク構造変化を解明するために2つのアプローチを採用している。一つは、計測データから時間的に異なるネットワーク構造を推定する方法であり、もう一つは、文献データに基づいて構築された既知ネットワーク構造とその構成分子に関する計測データとの整合性を見積もることで既知構造を評価する方法である。構造推定の方法では、異なる状態間で遷移する構造の関係性を表す統計モデルの一つであるグラフィカル連鎖モデルに基づき、異なる細胞間で計測されたデータから、ネットワーク構造変化を推定する。構造評価の方法では、グラフィカルモデルの枠組みの中で既知ネットワーク構造と計測データとの整合性を数理的に見積もる方法によって、ある特定条件下にある細胞状態で計測されたデータについて、複数の既知ネットワーク構造との整合性を網羅的に検索することで、当該条件で活性化されていると推定されるネットワーク構造を同定する。



[30]
隠れ変数を持つネットワーク構造に対する時系列データに基づく解析

 ○富永 大介、徳元 康人1、油谷 幸代、孫 富艶、三宅 淳1、堀本 勝久
 1東京大学



 遺伝子ネットワーク、代謝系、シグナル伝達系などの生体内ネットワークでは、ネットワークの各要素(ノード)が遺伝子、タンパク質、 代謝物などであり、特定の要素間に作用を及ぼし合う関係(エッジ)があり、各要素は時間的に変化する量をそれぞれ持っていると解釈できる。それは遺伝子なら発現量、タンパク質なら活性、代謝物なら量などである。生きた細胞中でこれらの時間的変化を追う事は容易ではないが、場合によっては、ごく限られた一部の要素について、その時系列データをきめ細かく観測することができることがある。この場合、観測できない要素は「隠れ変数」と呼ばれる。ネットワークを数理的に解析する場合、隠れ変数はブラックボックス化したり消去したりすることが多い。しかしその要素を明示的に不活性化することが実験的にできる場合がある。そういった場合に、隠れ変数間の関係の重みを数値化する手法を開発した。



■Page Top

[31]
ラット概日リズムデータに対する位相変位解析

 ○森岡 涼子、有田 正規1、坂本 克彦2、川口 荘史2、程 肇2、堀本 勝久
 1東京大学2(株)三菱化学生命科学研究所



 手法:ラットの視交叉上核由来の細胞株を使って概日リズムを計測したAffimetrix GeneChipデータに対し、位相変位に着目した解析を行った。位相変位刺激を与えるタイミングによって反応が変化する遺伝子転写産物について、位相変位時の振動特性の変化を調べた。強制的に時計位相をリセットする位相変位刺激には、薬剤folskolinを用いた。
 結果:高速フーリエ変換の結果に基づいて振動遺伝子を抽出し、ランダム周期を仮定したモデルにより近似曲線のパラメータを求め、位相変位分布の性質を考察した。視交叉上核のmaster clockで働く時計遺伝子の位相変位と、振動遺伝子の位相変位の差から、位相変位刺激のタイミングによって振動周期が特異な変化を見せる場合があること、および、位相不変、位相前進、位相後退とラベルされている実験条件においても、それぞれのラベルとは異なる振動特性を見せる遺伝子が多いことがわかった。



[32]
大腸菌の重要なネットワークモチーフにおけるモデル選択のための代数的及び数値的アルゴリズムの検証

 ○中津井 雅彦、吉田 寛1、堀本 勝久
 1九州大学



 複雑な生命現象をシステム論的に解析するためには、ネットワークを動的な特性を表現できる形で、かつ高い精度と信頼性で同定する必要がある。我々は用意した複数のネットワークモデルから観測された時系列データと最も整合性が高いものを選択するアルゴリズムを開発している。このアルゴリズムでは、モデルから組み立てた微分方程式モデルと、観測された時系列データを用いてフィッティングにより作成した式とを用いる。ラプラス変換によりこれらの式を代数式へと変換し、数式処理を行って観測データとモデルとの整合性およびモデルに含まれるキネティック・パラメータの双方を一意に計算する。
 Shai S. Shen-Orrらは、大腸菌の相互作用ネットワークにおいて、feed-forward loop、single input module、dense overlapping regulonsの3種類のネットワークモチーフが重要であると報告した。これらのネットワークモチーフから人工的に作成した時系列データを用いて、提案手法のパフォーマンスを検証した。



RNA情報工学チーム紹介



 機能性RNAは生体機能分子として多様かつ重要な役割を担っていることが近年の研究から明らかになり、ゲノム情報を制御する因子として機能性RNAを無視することはできなくなりました。トランスクリプトーム解析が生体内の転写産物の複雑な実態を垣間見せてくれますが、機能性RNAの全貌はまだつかめていません。我々の目標は、情報工学的視点から、機能性RNAの全体像を究明し、有用な新規機能性RNAを発見することです。そのために3つの研究テーマを掲げています:「RNA情報解析技術の開発」ではRNAに特化した配列情報解析基盤技術を開発し、「RNA遺伝子の発見と機能予測」では基盤技術を応用して新規機能性RNAの発見に取り組みます。「機能性RNA情報基盤の構築」では、これらの成果を広く利用してもらうための機能性RNAデータベースの構築に取り組んでいます。ポスターではこれらの研究テーマごとの具体的な取り組みについて紹介します。
 



配列解析チーム紹介



 The sequence analysis team develops algorithms and software for analyzing genomic and protein sequence data. We also apply both in house and external tools to perform our own analysis.
Roughly speaking our research can be divided by

 1) target sequence type,

  • Protein: Localization and structure prediction
  • Genomic: Identification of cis regulatory elements

  •  2) bioinformatics problem
  • Genome alignment
  • Gene expression regulation
  • Protein classification

  •  We emphasize software development to make our algorithmic innovations available to the community. Some of our software packages/web servers include:

  • FORTE Protein structure prediction server
  • WoLF PSORT Protein localization prediction server
  • LAST Genome alignment software
  • Hamster Vizualization of expression data (with U.Kyoto)
  • GLAM Gapped motif discovery software (with U.Queensland)

  • REFERENCES and more information:http://seq.cbrc.jp



    創薬分子設計チーム紹介



     創薬分子設計チームでは、タンパク質立体構造・機能予測や分子シミュレーション技術などの基盤技術に分子設計技術を融合させ、創薬標的タンパク質・変性疾患関連ペプチドに特化した高精度な創薬支援技術の開発と実用化を目指しています。具体的には、創薬標的として重要なキナーゼやX線結晶解析が困難なGPCRファミリー、タンパク質−タンパク質複合体等を対象とした高精度立体構造予測技術の開発、分子動力学計算法によるフォールディングやアミロイド形成シミュレーションおよび制御化合物の探索、タンパク質立体構造に基づく高精度リガンド結合予測やケモインフォマティクス技術を融合したバーチャルスクリーニング法の開発を行っています。実用化においては、民間企業との様々な共同研究を通じて展開しています。また、生命情報科学技術者養成コースを通じて、創薬インフォマティクスの人材養成にも積極的に取り組んでいます。  



    分子機能計算チーム紹介



     大規模計算応用技術を核に、タンパク質同士やタンパク質と他生体分子の複合体計算及びタンパク質ディスオーダー領域の予測など生体高分子の機能予測技術を開発しています。 またPCクラスタで世界最高速性能を示したMagiクラスタ、AISTスーパークラスタ、BlueProteinシステムなど、これまで世界最高水準のコンピュータを用いてバイオインフォマティックス研究を推進してきた技術的蓄積を生かし、大規模並列計算機を有効活用し応用技術へと繋がる開発やGRID環境下GPUを利用したハイブリッド型高速計算機の開発を進めています。  



    細胞機能設計チーム紹介



     細胞機能設計チームでは、細胞のシステムをターゲットとしたバイオインフォマティクス技術の開発を行っています。細胞形態、遺伝子発現、酵素反応など、細胞や細胞の部品をデータベース化し、そこから細胞の機能に関する情報を抽出し、予測やデータマイニングをするための方法論の研究を行っています。大規模マイクロアレイ検索システムCellMontage、遺伝子モジュール探索システムSAMURAI、網羅的酵素反応機構データベースEzCatDB、細胞情報統合知識ベースCELLPEDIAなどを開発しています。今後は生体ネットワークチームとも協力して遺伝子モジュールから遺伝子ネットワークを構築し、細胞分化制御技術など細胞治療へ向けた技術開発を行います。



    生体ネットワークチーム紹介



     生体ネットワークチームの研究目的は、遺伝子発現、代謝、シグナル伝達等の細胞内生体分子ネットワークの構造推定と工学的視点に基づくモデルの動態解析によって、細胞内分子の動作原理解明のための解析技術を開発し、それらの連携によるネットワーク構造推定と動態解析のパイプライン技術を開発することである。さらに、これら解析技術に基づき、細胞内ネットワークと細胞の発生分化及び細胞の集合体としての器官の挙動との関連を大規模計算技術により解析し、副作用の予測も含めた創薬開発や臨床レベルにおける新たな予防・診断・治療法の開発への貢献を目指す。現在取り組んでいる研究課題は、データ及び知識情報に基づくネットワーク構造推定技術の開発、ネットワーク構造推定と評価の連携によりネットワーク構造変化探索技術の開発、記号計算による隠れ変数を含むネットワーク動態解析技術の開発である。



    生命情報科学技術者養成コース

     浅井 潔1、野口 保、諏訪 牧子、広川 貴次、ポール・ホートン
    堀本 勝久、藤渕 航、福井 一彦、光山 統泰、藤 博幸2
    横田 恭宣、根本 航、清水 佳奈、今井 賢一郎、山田 真介
    寺田 朋子、水谷 健太郎、○坂井 寛子
     1東京大学、2九州大学



     CBRCでは、文部科学省 科学技術振興調整費 新興分野人材養成 の支援を受け、平成17年度より5ヵ年計画で、社会人を対象とした「生命情報科学技術者養成コース」を実施しており、本養成コースでは、「バイオインフォマティクス速習コースI・II」「創薬インフォマティクス技術者養成コース」「リーダー養成・再教育コース」を開講している。本年度は4年度目であるが、昨年度までの3年間での修了者数は次のとおりである;バイオインフォマティクス速習コースI 93名、同II 34名、創薬インフォマティクス技術者養成コース 60名、リーダー養成・再教育コース 10名。(合計193名)。本発表では各コースのカリキュラム、受講の状況などについて報告する。



    ■Page Top