Articles

K2D2: estimarea structurii secundare a proteinelor din spectrele dicroismului circular

CD Spectre și date structurale

un număr de 43 CD Spectre din proteine a fost obținut din setul de referință CDPRO CDDATA.43 construite din diferiți contribuitori (W. C. Johnson și ). Se compune din Spectre pentru proteine solubile cu o varietate de compoziții de structură secundară: în principal alfa (mioglobină, hemoglobină, hemeritrină etc.), în principal beta (elastază, factor de necroză tumorală, alfa-chimotripsină etc.) și alfa / beta (trioză fosfat izomerază, lactat dehidrogenază, lizozimă, termolizină etc.) (vezi Tabelul 1). Încercarea noastră de a utiliza un set de date CD mai mare care include 13 proteine transmembranare a dus la o performanță mai slabă a metodei, ceea ce sugerează că aceste proteine necesită o metodă specializată instruită numai cu proteine transmembranare. Dificultățile în prezicerea structurii secundare a proteinelor transmembranare cu metode CD antrenate cu proteine globulare au fost observate anterior .

Tabelul 1 performanța pe repere pentru K2D și K2D2.

am selectat cele mai bune structuri terțiare de rezoluție corespunzătoare proteinelor din setul de referință din Banca de date a proteinelor (PDB) . Am folosit programul DSSP pe fișierele PDB pentru a atribui clasa de structură secundară aminoacizilor individuali din fiecare proteină din setul de referință. Am atribuit alfa-helix reziduurilor de proteine etichetate ca H și beta-catenă celor etichetate E și apoi am calculat fracția de aminoacizi din proteină în fiecare Conformație (vezi Tabelul 1). În plus față de CDDATA.43 Spectre, am inclus în setul de instruire șase spectre de referință suplimentare din: trei spectre de poli (L-lizină) în soluție apoasă în conformații alfa, beta și aleatoare și trei Spectre model în conformații alfa, beta și aleatoare construite din 15 proteine .

Spectre Som și hărți de structură secundară

o hartă de 18 neuroni 18 de la sută a fost instruită cu cele 49 de spectre CD utilizând pachetul SOM_PAK . Variațiile mici ale dimensiunii hărții și parametrii de antrenament care au produs hărți netede nu au produs diferențe mari de performanță. Harta finală a fost produsă cu o medie de 100 de hărți pornite aleatoriu. Odată ce spectrele SOM sunt obținute, producem două „hărți de structură secundară”, una pentru alfa-helix și alta pentru beta-strand. Începem cu grile de 18 noduri 18 (aceeași dimensiune ca și SOM) și comparăm fiecare spectru din setul de antrenament cu vectorii de greutate asociați neuronilor SOM. Având în vedere un spectru, găsim neuronul său” mai apropiat ” în harta SOM și atribuim fracțiunea structurii secundare a proteinei corespunzătoare la nodul echivalent (aceleași coordonate) din rețea. Pentru a produce hărți netede (vezi Figura 1), în loc să luăm în considerare doar neuronul mai apropiat din spectrele SOM, luăm în considerare un număr n al celor mai apropiați neuroni, iar valoarea finală a fracției structurii secundare este combinația liniară a valorilor neuronilor respectivi cântăriți de inversul distanțelor lor. Includerea a mai mult de 6 neuroni vecini a produs cele mai bune rezultate. O performanță mai bună a fost obținută dacă cele șase spectre de referință suplimentare din nu au fost incluse în calculul hărții structurii secundare, deși performanța a scăzut dacă le-am eliminat și din setul de instruire al spectrelor SOM. Prin urmare, le-am păstrat pentru antrenament.

Figura 1

k2d2 web server de intrare și ieșire. (A) Fereastră pentru spectrul de intrare. (B) Compararea spectrelor de intrare și a spectrelor prezise.

eroare maximă estimată

în principiu, cu cât un spectru dat este mai asemănător cu cel mai apropiat nod de spectre SOM, cu atât mai bine ar fi predicția. Cu alte cuvinte, dacă un spectru este foarte diferit de orice metodă a „văzut anterior” (ca și pentru setul de antrenament), nu se poate aștepta ca rezultatele să fie foarte precise. Pentru a oferi utilizatorilor o estimare a erorii totale maxime a predicției (ca sumă pentru erorile pentru predicțiile alfa și beta) am folosit distanțele până la cea mai apropiată hartă a nodului și erorile totale observate corespunzătoare din benchmark. La o anumită distanță, eroarea maximă este cea mai mare eroare totală observată în benchmark. Astfel, eroarea totală pentru predicție este de așteptat să fie mai mică decât eroarea maximă estimată. Dacă distanța este mai mare decât orice se observă în valoarea de referință, este dat un mesaj care indică faptul că o estimare a erorii maxime nu este posibilă; în această situație, predicția structurii nu trebuie luată în considerare.

web server

K2D2 poate fi accesat la site-ul K2D2 . Utilizatorii trebuie să aleagă intervalul de lungime de undă de intrare (200-240 nm sau 190-240 nm) și să furnizeze spectrul proteinei problemă (a se vedea figura 1A). Spectrele trebuie să fie în unități de ordinul centimetrilor. Deoarece rezultatele sunt mai bune pentru intervalul de lungime de undă de 190-240 nm, această opțiune este recomandată dacă utilizatorul poate furniza Spectre în acest interval, deși menținem intrarea cu rază scurtă, deoarece uneori este dificil să o obținem pe prima. Rezultatele constau în valorile estimate pentru procentele de reziduuri în alfa-helix și beta-catenă, o eroare estimată pentru predicție și un grafic care compară spectrul prezis cu intrarea utilizatorului (a se vedea figura 1B). Parcela oferă o evaluare vizuală a exactității predicției.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *