K2D2: Odhad bílkovin sekundární struktury z kruhového dichroismu spektra
CD spekter a strukturální údaje
počet 43 CD spekter z proteinů byly získány z CDPRO odkaz nastavit CDDATA.43 Vyrobeno z různých přispěvatelů (W. C. Johnson a). Skládá se ze spekter pro rozpustné proteiny s různým složením sekundární struktury: hlavně alfa (myoglobin, hemoglobin, hemerythrin atd.), zejména beta (elastáza, faktor nekrózy nádorů, alfa-chymotrypsin atd.) a alfa / beta (trio-fosfát isomeráza, laktátdehydrogenáza, lysozim, termolysin atd.) (viz tabulka 1). Náš pokus použít větší CD soubor údajů, který zahrnuje 13 transmembránové proteiny za následek horší výkon, metody, což naznačuje, že tyto proteiny vyžadují specializovaná metoda, trénoval jen s transmembránové proteiny. Obtíže při předpovídání sekundární struktury transmembránových proteinů metodami CD trénovanými s globulárními proteiny byly zaznamenány dříve .
z proteinové datové banky (PDB) jsme vybrali terciární struktury s nejlepším rozlišením odpovídající proteinům v referenční sadě . Použili jsme program DSSP na PDB soubory s cílem přiřadit třídu sekundární struktury k jednotlivým aminokyselinám v každém proteinu v referenční sadě. Jsme přiřadili alfa-helix protein zbytky označeny jako H a beta-pramenné, aby ty označené E a pak vypočítán podíl aminokyselin v proteinu v každé konformaci (viz Tabulka 1). Kromě CDDATA.43 spektra, zařadili jsme v tréninku šest dalších referenčních spekter z : tři spektra poly(L-lysin) ve vodném roztoku v alfa, beta a náhodných konformací, a tři model spectra v alfa, beta a náhodnou konformaci vyrobena z 15 proteinů .
Spectra SOM a sekundární strukturní mapy
mapa 18 × 18 neuronů byla trénována se 49 CD spektry pomocí balíčku SOM_PAK . Malé rozdíly ve velikosti mapy a tréninkových parametrech, které vytvářely hladké mapy, nevedly k velkým rozdílům ve výkonu. Výsledná mapa byla vytvořena zprůměrováním 100 náhodně spuštěných map. Po získání spektra SOM vytvoříme dvě „sekundární struktury“, jednu pro Alfa-šroubovice a druhou pro beta-řetězec. Začínáme s mřížkami 18 × 18 uzlů (stejné velikosti jako SOM), a porovnáme každé spektrum v tréninku s hmotností vektory spojené s neurony SOM. Vzhledem k spektru najdeme jeho“ bližší “ neuron v mapě SOM a frakci sekundární struktury odpovídajícího proteinu přiřadíme ekvivalentnímu (stejným souřadnicím) uzlu v mřížce. S cílem produkovat hladké mapy (viz Obrázek 1), místo toho, aby brala v úvahu pouze blíže neuron ve spektrech SOM jsme se vzít v úvahu řadu n nejbližší neurony, a konečná hodnota sekundární struktura zlomek je lineární kombinace hodnot jednotlivých neuronů zvážit inverzní jejich vzdálenosti. Zahrnutí více než 6 sousedních neuronů přineslo nejlepší výsledky. Lepší výkon byl získán, je-li navíc šest referenčních spekter ze nebyly zahrnuty do výpočtu sekundární struktura mapy, i když výkon se snížil, když jsme odstranili, je stejně z trénovací množiny spektra SOM. Proto jsme si je nechali na trénink.
Odhadovaná maximální chyba
V zásadě, čím více podobných daném spektru, je jeho nejbližší SOM spektra uzlu, lepší by bylo predikce. Jinými slovy, pokud je spektrum velmi odlišné od všeho, co metoda “ dříve viděla „(jako u tréninkové sady), nelze očekávat, že výsledky budou velmi přesné. Abychom uživatelům poskytli odhad maximální celkové chyby predikce (jako součet chyb pro předpovědi alfa a beta), použili jsme vzdálenosti k nejbližší mapě uzlu a odpovídající pozorované celkové chyby z benchmarku. V dané vzdálenosti je maximální chyba největší celková chyba, která byla pozorována v benchmarku. Očekává se tedy, že celková chyba predikce bude menší než odhadovaná maximální chyba. Pokud je vzdálenost větší než cokoli pozorovaného v benchmarku, zobrazí se zpráva, že odhad maximální chyby není možný; v této situaci by se neměla brát v úvahu predikce struktury.
webový server
K2d2 je přístupný na webu K2D2 . Uživatelé musí zvolit rozsah vstupních vlnových délek (200-240 nm nebo 190-240 nm)a poskytnout spektrum problémového proteinu (viz obrázek 1A). Spektra musí být v Δε jednotkách. Protože výsledky jsou lepší pro rozsah vlnových délek 190-240 nm, doporučuje se tato možnost, pokud uživatel může dodávat spektra v tomto rozsahu, i když udržujeme vstup krátkého dosahu, protože je někdy obtížné získat první. Výsledky se skládají z odhadované hodnoty pro podíly reziduí v alfa-helix a beta-strand, odhadem chyby pro predikci, a grafické srovnání odhadu spektra s vstup uživatele (viz Obrázek 1B). Graf poskytuje vizuální posouzení přesnosti predikce.