Articles

K2D2:円二色性スペクトルからのタンパク質二次構造の推定

CDスペクトルと構造データ

タンパク質からの43個のCDスペクトルがCDPROリファレンスセットCDDATAから得られた。43:以下、名無しにかわりまして それはいろいろな二次構造の構成の溶ける蛋白質のためのスペクトルから成っています:主にアルファ(ミオグロビン、ヘモグロビン、hemerythrin、等。)、主にβ(エラスターゼ、腫瘍壊死因子、α-キモトリプシンなど)、主にβ(エラスターゼ、腫瘍壊死因子、α-キモトリプシンなど))およびα/β(トリオースリン酸イソメラーゼ、乳酸デヒドロゲナーゼ、リゾジム、テルモリシンなど)(表1参照)。 13膜貫通タンパク質を含む大規模なCDデータセットを使用する私たちの試みは、これらのタンパク質が唯一の膜貫通タンパク質で訓練された特殊な方法を必要とすることを示唆している方法のパフォーマンスが低下しました。 球状蛋白質で訓練されたCD法で膜貫通蛋白質の二次構造を予測することの難しさは、以前に注目されている。

表1K2DおよびK2D2のベンチマークにおけるパフォーマンス。

我々は、プロテインデータバンク(PDB)から参照セット内のタンパク質に対応する最高の解像度の三次構造を選択しました。 参照セット内のすべてのタンパク質の個々のアミノ酸に二次構造クラスを割り当てるために,PDBファイル上のDSSPプログラムを使用した。 我々は、hと標識されたタンパク質残基にαヘリックスを割り当て、eと標識されたタンパク質残基にβ鎖を割り当て、各立体配座におけるタンパク質中のアミノ酸の割合を計算した(表1参照)。 CDDATAに加えて。43スペクトル、我々はトレーニングセットから六つの追加の参照スペクトルに含まれています:α、βおよびランダム配座の水溶液中のポリ(L-リジン)の三

スペクトルSOMと二次構造マップ

18×18ニューロンのマップは、SOM_PAKパッケージを使用して49CDスペクトルで訓練されました。 滑らかなマップを生成するマップサイズと学習パラメータの小さな変化は、パフォーマンスに大きな違いを生ま 最終的な地図は、ランダムに開始された100の地図を平均化することによって生成されました。 スペクトルSOMが得られると、我々は二つの”二次構造マップ”、αヘリックスとβ鎖のための別のものを生成します。 18×18ノードのグリッド(SOMと同じサイズ)から始め、トレーニングセット内の各スペクトルをSOMのニューロンに関連付けられた重みベクトルと比較します。 スペクトルが与えられると、SOMマップでその”近い”ニューロンを見つけ、対応するタンパク質の二次構造の割合をグリッド内の同等の(同じ座標)ノードに割 滑らかなマップを生成するために(図1を参照),代わりに、スペクトルSOMで唯一の近いニューロンを考慮するのではなく、我々は考慮に最も近いニューロンの数nを取ります,そして二次構造画分の最終的な値は、それらの距離の逆数によって秤量されたそれぞれのニューロンの値の線形結合です. 6つ以上の隣接するニューロンの包含は最もよい結果を作り出した。 スペクトルSOMのトレーニングセットからもそれらを除去すると性能は低下したが,余分な六つの参照スペクトルが二次構造マップの計算に含まれていなければより良い性能が得られた。 したがって、私たちは訓練のためにそれらを保管しました。

図1

K2D2webサーバーの入力と出力。 (A)入力スペクトルのウィンドウ。 (B)入力スペクトルと予測スペクトルの比較。

推定最大誤差

原理的には、与えられたスペクトルが最も近いSOMスペクトルノードに似ているほど、予測が良いでしょう。 言い換えれば、スペクトルがメソッドが「以前に見た」ものと非常に異なる場合(トレーニングセットの場合)、結果は非常に正確であるとは期待できません。 予測の最大総誤差の推定値(アルファ予測とベータ予測の誤差の合計として)をユーザーに提供するために、最も近いノードマップまでの距離と、ベンチマークからの対応する観測された総誤差を使用しました。 与えられた距離での最大誤差は、ベンチマークで観測された最大の合計誤差です。 したがって、予測のための総誤差は、推定された最大誤差よりも小さいと予想される。 距離がベンチマークで観測されたものよりも大きい場合は、最大誤差の推定が不可能であることを示すメッセージが表示されます; このような状況では、構造予測は考慮されるべきではありません。

Webサーバー

K2D2はK2D2サイトでアクセスできます。 ユーザーは入力波長範囲(200-240nmまたは190-240nm)を選択し、問題のタンパク質のスペクトルを提供する必要があります(図1Aを参照)。 スペクトルはΔ Σ単位でなければなりません。 結果は190-240nmの波長範囲のためによりよいので、ユーザーがこの範囲のスペクトルを供給できればこの選択は前を得ることは時々困難であるので私達が短 結果は、αヘリックスおよびβストランド内の残基の割合の推定値、予測の推定誤差、および予測スペクトルとユーザー入力を比較する図で構成されます(図1Bを参照)。 プロットは、予測の精度を視覚的に評価します。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です