Articles

K2D2: uppskattning av protein sekundär struktur från cirkulär dikroismspektra

CD-spektra och strukturella data

ett antal 43 CD-spektra från proteiner erhölls från CDPRO referensuppsättning CDDATA.43 konstruerad av olika bidragsgivare (W. C. Johnson och ). Den består av spektra för lösliga proteiner med en mängd sekundär strukturkomposition: huvudsakligen alfa (myoglobin, hemoglobin, hemerytrin etc.), huvudsakligen beta (elastas, tumörnekrosfaktor, alfa-chymotrypsin etc.) och alfa/beta (triosfosfatisomeras, laktatdehydrogenas, lysozim, termolysin, etc) (se Tabell 1). Vårt försök att använda en större CD – datamängd som innehåller 13 transmembranproteiner resulterade i en sämre prestanda av metoden, vilket tyder på att dessa proteiner kräver en specialiserad metod utbildad endast med transmembranproteiner. Svårigheterna att förutsäga den sekundära strukturen hos transmembranproteiner med CD-metoder utbildade med globulära proteiner har noterats tidigare .

Tabell 1 prestanda på riktmärken för K2D och K2D2.

Vi valde bästa upplösning tertiära strukturer som motsvarar proteinerna i referensuppsättningen från Proteindatabanken (PDB) . Vi använde dssp-programmet på PDB-filerna för att tilldela sekundär strukturklass till de enskilda aminosyrorna i varje protein i referensuppsättningen. Vi tilldelade alfa-helix till proteinresterna märkta som H och beta-sträng till de märkta E och beräknade sedan fraktionen av aminosyror i proteinet i varje konformation (se Tabell 1). Förutom CDDATA.43 spectra, vi inkluderade i träningsuppsättningen sex ytterligare referensspektra från: tre spektra av poly (L-lysin) i vattenlösning i alfa, beta och slumpmässiga konformationer, och tre modellspektra i alfa, beta och slumpmässig konformation konstruerad av 15 proteiner .

Spectra SOM och secondary structure maps

en karta över 18 18 neuroner i CDR tränades med 49-CD-spektra med som_pak-paketet . Små variationer på kartstorlek och träningsparametrar som gav smidiga kartor gav inte stora skillnader i prestanda. Den slutliga kartan producerades genom att i genomsnitt 100 slumpmässigt startade kartor. När spectra SOM erhålls producerar vi två ”sekundära strukturkartor”, en för alpha-helix och en annan för beta-strand. Vi börjar med galler på 18 18 noder (samma storlek som SOM), och vi jämför varje spektrum i träningsuppsättningen med viktvektorerna associerade med SOM: s neuroner. Med tanke på ett spektrum hittar vi dess ”närmare” neuron i som-kartan, och vi tilldelar fraktionen av sekundär struktur av motsvarande protein till motsvarande (samma koordinater) nod i gallret. För att producera släta kartor (Se figur 1), istället för att bara överväga den närmare neuronen i spectra SOM tar vi hänsyn till ett tal n av de närmaste neuronerna, och det slutliga värdet av sekundär strukturfraktion är den linjära kombinationen av värdena för respektive neuroner som vägs av inversen av deras avstånd. Inkluderingen av mer än 6 närliggande neuroner gav de bästa resultaten. Bättre prestanda erhölls om de extra sex referensspektra från inte ingick i beräkningen av sekundärstrukturkartan, även om prestanda minskade om vi också tog bort dem från träningssatsen för spectra SOM. Därför behöll vi dem för träningen.

Figur 1

k2d2 webbserver ingång och utgång. (A) fönster för ingångsspektrum. (B) jämförelse av input och förutspådda spektra.

beräknat maximalt fel

i princip, ju mer liknande ett givet spektrum är till dess närmaste SOM-spektra-nod, desto bättre skulle förutsägelsen vara. Med andra ord, om ett spektrum skiljer sig mycket från något som metoden har ”tidigare sett” (som för träningsuppsättning), kan resultaten inte förväntas vara mycket exakta. För att ge användarna en uppskattning av det maximala totala felet i förutsägelsen (som summa för felen för alfa-och beta-förutsägelserna) använde vi avstånden till närmaste nodkarta och motsvarande observerade totala fel från riktmärket. På ett visst avstånd är det maximala felet det största totala felet som observerades i riktmärket. Således förväntas det totala felet för förutsägelsen vara mindre än det uppskattade maximala felet. Om avståndet är större än något som observerats i riktmärket ges ett meddelande som indikerar att en uppskattning av maximalt fel inte är möjligt; i denna situation bör strukturprognosen inte beaktas.

webbserver

K2D2 kan nås på k2d2-webbplatsen . Användare måste välja ingångsvåglängdsområdet (200-240 nm eller 190-240 nm) och tillhandahålla spektrumet för problemproteinet (se Figur 1a). Spectra måste vara i Kubanska enheter. Eftersom resultaten är bättre för våglängdsområdet 190-240 nm rekommenderas detta alternativ om användaren kan leverera spektra inom detta område, även om vi behåller den korta räckvidden eftersom det ibland är svårt att få den tidigare. Resultaten består av de uppskattade värdena för procentandelar av rester i alfa-helix och beta-strand, ett uppskattat fel för förutsägelsen och en grafik som jämför det förutsagda spektrumet med användarinmatningen (se Figur 1b). Handlingen ger en visuell bedömning av förutsägelsens noggrannhet.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *