K2D2: Estimation of protein secondary structure from circular dikroism spectra
CD spectra and structural data
a number of 43 CD spectras from proteins was obtained from CDPRO reference set CDDATA.43 rakennettu eri avustajien (W. C. Johnson ja). Se koostuu liukoisten proteiinien spektreistä, joilla on erilaisia sekundaarirakennekoostumuksia: pääasiassa alfa (myoglobiini, hemoglobiini, hemerytriini jne.), pääasiassa beeta (elastaasi, tuumorinekroositekijä, alfa-kymotrypsiini jne.) ja alfa / beeta (trioosifosfaatti-isomeraasi, laktaattidehydrogenaasi, lysotsiimi, termolysiini jne.) (KS. Taulukko 1). Yrityksemme käyttää suurempaa CD-aineistoa, joka sisältää 13 transmembraaniproteiinia, johti menetelmän heikompaan suorituskykyyn, mikä viittaa siihen, että nämä proteiinit vaativat erikoismenetelmän, joka on koulutettu vain transmembraaniproteiineilla. Transmembraaniproteiinien sekundaarirakenteen ennustamisen vaikeudet pallomaisilla proteiineilla koulutetuilla CD-menetelmillä on huomattu aiemminkin .
valitsimme Protein Data Bankista (PDB) parhaat resoluutioiset tertiäärirakenteet, jotka vastaavat referenssijoukon proteiineja . Käytimme DSSP-ohjelmaa PDB-tiedostoissa määrittääksemme sekundaarirakenneluokan jokaisen viitesarjan proteiinin yksittäisille aminohapoille. Osoitimme alfa-helix proteiinin jäämiä merkitty h ja beeta-juosteen niille merkitty E ja sitten laskettu osuus aminohappojen proteiinin kussakin konformaatio (katso Taulukko 1). CDDATAN lisäksi.43 spektriä, sisällytimme koulutukseen kuusi muuta referenssispektriä: kolme poly(L-lysiini) spektriä vesiliuoksessa alfa -, beeta-ja satunnaiskonformaatioissa ja kolme alfa -, beeta-ja satunnaiskonformaatiota sisältävää mallispektriä, jotka on rakennettu 15 proteiinista .
Spektrisom ja sekundaarirakennekartat
49 CD-spektrillä koulutettiin 18 × 18 neuronin kartta SOM_PAK-paketin avulla . Pienet vaihtelut kartan koossa ja harjoitusparametrit, jotka tuottivat sileitä karttoja, eivät tuottaneet suuria eroja suorituskyvyssä. Lopullinen kartta saatiin aikaan laskemalla keskimäärin 100 satunnaisesti aloitettua karttaa. Kun spektrisom saadaan, tuotetaan kaksi ”sekundaarirakennekarttaa”, toinen alfa-helixille ja toinen beta-juosteelle. Aloitamme 18 × 18 solmun ruudukoista (sama koko kuin SOM), ja vertaamme jokaista harjoitussarjan spektriä SOM: n neuroneihin liittyviin painovektoreihin. Kun otetaan huomioon spektri, löydämme SOM-kartasta sen ”läheisemmän” hermosolun, ja osoitamme vastaavan proteiinin sekundaarirakenteen murto-osan hilan ekvivalentille (samoille koordinaateille) solmulle. Jotta voidaan tuottaa sileä karttoja (KS.Kuva 1), sen sijaan, että tarkastellaan vain lähempänä neuronin spektrien SOM otamme huomioon joukon n lähimpien neuronien, ja lopullinen arvo toissijaisen rakenteen osuus on lineaarinen yhdistelmä arvojen vastaavien neuronien punnitaan käänteisenä niiden etäisyydet. Yli 6 viereisen neuronin sisällyttäminen tuotti parhaat tulokset. Parempi suorituskyky saatiin, jos ylimääräisiä kuutta referenssispektriä ei otettu mukaan sekundaarirakennekartan laskentaan, vaikka suorituskyky laski, jos poistimme ne myös spectra Somin koulutussarjasta. Siksi säilytimme ne treeniä varten.
estimoitu maksimivirhe
periaatteessa ennuste olisi sitä parempi, mitä samankaltaisempi tietty spektri on lähimmälle SOM-spektrisolmulleen. Toisin sanoen, jos spektri on hyvin erilainen kuin mikään, mitä menetelmässä on ”aiemmin nähty” (kuten harjoitussarjassa), tulosten ei voida odottaa olevan kovin tarkkoja. Jotta käyttäjät saisivat arvion ennusteen suurimmasta kokonaisvirheestä (alfa-ja beta-ennusteiden virheiden summana), käytimme etäisyyksiä lähimpään solmukarttaan ja vastaavia havaittuja kokonaisvirheitä vertailuarvosta. Tietyllä etäisyydellä suurin virhe on suurin vertailuarvossa havaittu kokonaisvirhe. Näin ollen ennusteen kokonaisvirheen odotetaan olevan pienempi kuin arvioitu enimmäisvirhe. Jos etäisyys on suurempi kuin vertailuarvossa havaittu, annetaan viesti, joka osoittaa, että suurimman mahdollisen virheen estimointi ei ole mahdollista. ; tässä tilanteessa rakenneennustetta ei pidä ottaa huomioon.
WWW-palvelin
K2D2 on käytettävissä K2D2-sivustolla . Käyttäjien on valittava tuloaallonpituusalue (200-240 nm tai 190-240 nm) ja ilmoitettava ongelmaproteiinin spektri (KS.Kuva 1a). Spektrien on oltava Δε-yksikköinä. Koska tulokset ovat parempia 190-240 nm: n aallonpituusalueella, tätä vaihtoehtoa suositellaan, jos käyttäjä voi toimittaa spektrejä tällä alueella, vaikka säilytämme lyhyen kantaman syötteen, koska ensin mainitun saaminen on joskus vaikeaa. Tulokset koostuvat alfa-helix-ja beeta-säikeiden jäämien prosenttiosuuksien estimoiduista arvoista, ennusteen arvioidusta virheestä ja graafisesta spektrin vertaamisesta käyttäjän syötteeseen (KS.Kuva 1B). Juoni antaa visuaalisen arvion ennusteen tarkkuudesta.