ibaibabaibaiのサイエンスブログ

サイエンス中心の予定ですが,何を書くかわかりません.統計とかの話はこっちに書くつもり. https://sites.google.com/site/iwanamidatascience/memberspages/ibayukito  ツイッターは@ibaibabaibai

ワトソン君よりアントン君 - 揺らぐタンパク像

ワトソン君よりアントン君

「アントン」の話を初めて聞いたときには,これはもう世間で有名なもので,自分は話題に出遅れているのだと思った.ところが科学や技術に興味がありそうな人に話してみると,意外とみんな知らない.その代わりに話題に出てくるのは,なんとなく響きの似た「ワトソン」のほうである.ワトソンとは何か聞いてみると,IBMの作った人工知能だそうだ.そんなの面白くないじゃん!

ということで,コンピュータ関係では最近イチ押しのアントン君なのだが,その正体はタンパク質の分子シミュレーション専用機Antonである.特徴は比較的小さいサイズのタンパク質に対象を絞った代わりに,画期的な長時間,現実の時間にしてミリ秒のオーダーのシミュレーションを実現したことだ.ミリ? 千分の一秒? たったそれだけ? と思うかもしれないが,それが業界的にどのくらいすごいかは,あとのほうで説明する.

アントン君については,科学以外の話題もある.この高価な機械は,運営している組織も含めて,大金持ちの個人が私財で作ったものなのだ.その億万長者の名前はDavid Shawという.もともとコンピューターサイエンスの研究者を目指していたのが,途中で民間に移りファイナンスの分野で成功,King Quantと呼ばれて全米ランクに入るようなお金持ちになって,中年から科学に復帰.巨万の富で夢のスーパーコンピュータを作ったのだそうだ. お前はサンダーバードかアイアンマンか.

公平のためにいうと,日本でもMD-GRAPEなど早くから分子シミュレーション専用機が研究されてきたし,汎用の京コンピューターも大きな分子については有力である.とりあえずアントンから始めたのは,専門家がその衝撃を認めていることもあるが,私が長年見たかったあるものを見せてくれたということが理由だ.その話もあとでしよう.

さて,以下では,しばらくアントン君やシミュレーションの話から離れて,なぜタンパク質に興味が持たれ,巨万の富を費やして専用のスーパーコンピューターが建造されるほど注目を浴びるのか,という話をイチからしてみよう.前にプリオンの話を書いたときに前提としたことも,ここで少しだけ説明する.

「お肉」からの出発

まずは,うんと基本的な話から.これ大事だから,とくに生物系の読者はよく聞いてほしいのだが,ごく一般の人に「タンパク質」と言ったら何を考えると思う? 試してみた.

答えは「お肉」

すげーインパクトだ.科学も技術も一撃で葬り去る威力がある.

そこであわてて説明すると,タンパク質は確かに体重の多くを占める筋肉の構成成分であるが,それだけでなく,体内の化学反応の大多数を触媒として取り仕切っているという点が重要だ.われわれはいろいろな物質を分解したり合成したり変換したりして生きているが,これらはタンパク質の働きなしにはありえない.人間の体という工場の基本部品なのである.

そのほか,呼吸をするときに酸素を運ぶヘモグロビンもタンパク質がベースだし,「お肉」の成分のアクチンとかミオシンも「動く部品」としてのタンパク質の一例である.少し見かけの違うものとしては,爪や髪の毛もタンパク質でできている.こういう「堅くて丈夫」なタンパク質があることは,「プリオン病のもと」が「お肉の成分」と違って簡単には分解されない,ということを納得させてくれる.

DNAの遺伝情報からRNAを介してまず読みだされるのは,タンパク質を作るアミノ酸の並びだということも,タンパク質が生命の基本だということを示している.RNAの断片それ自身が関与する場合を除いて,DNAの情報はいったんタンパク質に翻訳されて働くわけである.植物の体は概して多糖類を多用して組み立てられていて,普通はタンパク質でできた「筋肉」はない.野菜が歩いたら怖いぞ.しかし「最初はタンパクを介してDNAの情報が取り出される」という仕組みは動物でも植物でも同じで,体内の化学反応を仕切るのがタンパク質であることも同じだ.

ここまでをまとめると,最初の一歩は

「お肉」から「生物の基本部品」へ

ということになる.

タンパクの折りたたみとは?

次の一歩は「折りたたみ」(folding)の話だ.

大雑把にいうと,タンパク質の分子はどれも20種類のアミノ酸が鎖のように並んでできている.多様な役割を果たすタンパク質の基本形はすべて同じなわけだ.その並び順のもとはDNAに書かれていて,RNAに転写されるときなどに多少とも編集されて,アミノ酸の並びに変換される. 

問題はそのあとである.タンパク質が多様な役割を果たすのは,アミノ酸でできた鎖が折りたたまれていろいろ複雑な形状になるのがミソである.たとえばこんなふうに.

f:id:ibaibabaibai_h:20151126235631j:plain

いやこれは巻き尺だったわ.


ちゃんとした絵の入った本職の人の解説を引用しておこう: タンパク質の話(5)

それはともかく,問題は,複雑な形状にどうやって折りたたまれるかである.

答えは「勝手にくるくる巻いて必要な形になる」

実際には,タンパク質の分子がある程度以上に大きくなると「介添人」みたいなタンパク質分子が必要になったりもするらしいが,基本は「引っかかったり絡んだりせずに自力で」なのである.

原理はまったく違うが,形状記憶合金というのに似ているかもしれない.形状記憶合金はあっためるともとの形に戻ったりするが,タンパク質の場合は,いったんターゲットの形状になってから,温度を上げてやると,ほどけて,温度を下げるとまた自動的にもとの形に戻る,というのが実験的に観察されている.

いうまでもなく,これは面白いので,多くの人が長年にわたって研究している.まず,どうやったら,こんなにうまくいくのか,ということが問題になる.神様が作ったのでなければ,生物進化の結果,ということになるが,それだけでなく,うまく折りたたまれるための設計原理みたいなものが知りたいわけである.

また「アミノ酸の配列を与えたときに,それが折りたたまれてどんな形になるか予測する」という問題もあって,定期的にコンテストも行われている.参加者には,まだ実験で折りたたみが調べられていない配列が次々に送られてきて,予測結果を送り返すと,そのあとで実験が行われて比較される,という仕組みである.CASP - Wikipedia, the free encyclopedia. 既知の配列に似たものについては.機械学習や統計科学の手段を用いてかなり予言できるが,全く違うものについては大変難しいそうだ.

この「誰も手伝わなくても自然にうまく折りたたまれる」というのは,どの程度一般的な知識なのだろうか.かなり多くの人が知っているように思われる反面,意外なところで,意外な質問をする人がいる.以前,物理学会のセッションで「鎖を端から作ることが本質的」と信じている人が質問していて,講演者が困っているのを見たことがある.

とりあえず,このあたりまでが,少し興味のある人の平均的知識かもしれない.要約すると

「機械を作るように部品を順番に組み合わせる」から 「放っておくと自律的に形ができる」へ

ということになる.

「最適化」から揺らぐタンパク質像へ

さて,これから先が面白い.

「タンパク質の折りたたみ」というと,カッチリと決まった形に折りたたむ,というイメージが強いだろう.もちろん「有限温度」の世界だから,どんな分子でも平衡の位置のまわりで揺らいでいるが,基本的な形は決まってしまっていて,そのまわりで少しふらふらしている,そんな感じで考えている人が多いのではないか.これを情報科学や計算機科学の言葉でいえば,タンパク質の折りたたみとは,エネルギー最小の状態を求める「最適化問題」だということになる.

しかし,ここ10年か20年の間に,そういう四角四面の「折りたたみ」のイメージはしだいに崩れてきている.実際に生体内にあるタンパク質は,もっと自由に揺らいで変形しながら存在している場合も多いらしいのだ.ひとつのタンパク質の中にもキチンと折りたたまれた部分とはっきりした構造をもたない部分が共存している場合もある.

こうした乱れた構造を含むタンパク質はIDP(intrinsically disordered pritein, 天然変性タンパク質)と呼ばれるが,いまやそれは例外ではなく,生体内のタンパク質の相当部分を占めることがわかってきた.IDPがほかの生体分子に結合するときには,くるくるっと全体もしくは一部が折りたたまれて秩序構造になるのがしばしば見られる.

IDPについての説明(日本語の短いもの 英語ウィキペディア

ほかの生体分子に結合する様子の図 
Figure 1 : Intrinsically unstructured proteins and their functions : Nature Reviews Molecular Cell Biology

乱れた領域の生物学的役割についてはいろいろ議論がされているようだが,とりあえず,単にそういうモノがあるというだけではなく,機能に有用な場合もあるということが大事だろう.そして,IDPやその周辺のタンパク質には,人間の病気に深くかかわっていると考えられるものもある.

たとえば,α-シヌクレイン . 

(図はアルファ-シヌクレイン - Wikipedia より)

これはパーキンソン病や多系統萎縮症に深く関係しているタンパク質だが,全体がはっきりした構造を持たないようなIDPだといわれていた.しかし,生体内では,上の絵にあるような一部だけが乱れた形態で,複数が集まったり,折れ曲がって膜に埋め込まれているらしい.

さらにそれだけでなく,一定の条件のもとでは,この形状は不安定化して,もっと固く折りたたんだ(βストランドの多い)形になってお互いにくっつき合って塊になる.そして,この塊(あるいはその前段階?)が自己触媒的に自己増殖するのが病気の本体らしい.これで,前にブログに書いたプリオンの話にもつながったわけである.


そこで,最後のまとめは

「かっちりと折りたたまれたタンパク質」から「絶えず揺らぎ,さまざまに姿を変えるタンパク質」へ

ということになる.

ゆらゆらしたり,くるくる折りたたんだり,別の形態に変貌してその形態が自己増殖したり,現代のタンパク質像はどんどん面白くなっているのだ.

行ったり来たりが見えた!

最後にまたシミュレーションの話に戻ろう.

20年くらい前にタンパク質の計算をやっている人に話を聞いたときは,大きな揺らぎに興味があるので,それを表現するためのデータ解析手法(主成分分析や有限混合分布的なモデル)をいろいろ考えているということだった.「シミュレーションで見られる大きな揺らぎ」の実例も見せてもらった.雰囲気的にはこんな感じの図.これは本物ではなくて,ペイントで描いた絵だけど.

2つの軸に「主成分1,主成分2」とあるのは,タンパク質の複雑な形状を統計的手法で構成した2つの量で表現するという意味である.図の平面内の曲線の各点がタンパク質の異なる形状に対応している.

本物のデータの例はこちらの北尾彰朗氏の解説論文(以下「北尾論文」)の図2を参照(登録不要で無料で読める)「統計数理」第49巻第1号要旨

北尾論文の図2の軌跡は小さいタンパク質(ヒト・リゾチーム)についての結果だが,対応する物理的時間は1ナノ秒である.タンパク質のシミュレーションの揺籃期の1980年代後半には,たとえば10ピコ秒とかその程度がやっとだったらしい.ナノはピコの1000倍だから,少なくとも100倍くらいの能力にはなったことになる.

しかし,どうもまだ不満である.図から「なんかある状態からある状態に移ったらしい」「途中になにか休み場所みたいなものがあるのかな?」ということはわかる.でも,これ,1回きりだよね.何回も行ったり来たりしないと,様子がよくわからないではないか.たとえば,両端の点はいつも再現されるのか,途中の経路はいつも同じなのか.休み場所は本当にあるのか.行ったり来たりを求む!

そして,時がたって,アントン君の時代になった.こんどはミリ秒である.ピコ秒でナノの1000倍,ミリはそのまた1000倍だから,0.1ミリ秒(100マイクロ秒)としても,1ナノ秒の10万倍だ.揺籃期から比べると,1000万倍ということになる.1ミリ秒なら,揺籃期の1億倍である.凄まじい進歩だ.

そして,たとえば,こんなふうな結果が出てきた.

前の模式図とは違い,横軸は時間で,縦軸はタンパク質の空間的拡がりをあらわす量である.

おお,行ったり来たりしているではないか!

上はふたたびペイントで描いたウソ絵なので,本物(FiP35タンパクについての100マイクロ秒の計算2回分の時系列)を見たい人はこちらのFig.2aをどうぞ.
Atomic-Level Characterization of the Structural Dynamics of Proteins
サイエンス誌に登録すると読める(すぐ読めるPDFもネットにあったが合法かどうかわからないのでリンクは控える)

実際は,上のサイエンス論文の結果は,北尾論文のような「複数の(準)安定状態の間の行き来」ではなくて,「折りたたんで戻ってまた折りたたむ」という行ったり来たりで,おそらくずっと難しいのだと思う.単に大きなゆらぎを見るのであれば,アントンよりずっと以前にも行ったり来たりが見えた例もあるかもしれないし,もしかすると折りたたみについても初めてというわけではないのかもしれない.

細かくいうといろいろあるのだろうが,ともかく,とうとう行ったり来たりが見える時代になった,というので単純に感動してしまった.行ったり来たりが好きなのだ.

(おまけ)「統計数理」の特集の紹介

タンパク質などの生体高分子のシミュレーションは高次元の時系列データを大量に生成する.これらのデータから起きていることの様子を知りたい,というのは自然な要求である.また,シミュレーションだけでなく,実際の実験でも,1分子レベルでの時系列データをとることが可能になっており,その解析もまた重要な課題となる.

すでに2001年の段階で,シミュレーションの解析が重要になるのが明らかだったので,「統計数理」の特集号「地図を描く・風景を眺める」を編集したときに,データ解析の立場からのタンパク質のシミュレーションに関する解説論文を2編入れた.上で紹介した北尾の論文はそのひとつである.特集の全体はここで読める.
「統計数理」第49巻第1号要旨

それから13年がたって,こんどは生体高分子に絞って「シミュレーションデータの多変量解析」の特集を組んだのが,今年(2014年)に発行された,以下の号である.シミュレーションデータの解析以外に,実際の実験データ(1分子計測)の解析の話題や効率よく「大きな揺らぎ」をサンプルするレアイベントサンプリングの手法なども扱っている.
「統計数理」62巻第2号要旨


いずれも登録なしで自由にダウンロードできる.一般向きの解説ではないが,この分野に興味のある人,これから研究しようという方には,日本語では他にないまとまった情報源になるはずである.

「統計数理」は他の号もすべてフリーで,ウェブで見られるので,興味のある方はせひどうぞ.
「統計数理」