Articles

K2D2: estimering af protein sekundær struktur fra cirkulære dichroism spektre

CD spektre og strukturelle data

et antal 43 CD spektre fra proteiner blev opnået fra CDPRO referencesæt CDDATA.43 Konstrueret af forskellige bidragydere (C. C. Johnson og ). Den består af spektre for opløselige proteiner med en række sekundære struktursammensætninger: hovedsageligt alfa (myoglobin, hæmoglobin, hemerythrin osv.), hovedsageligt beta (elastase, tumornekrosefaktor, alfa-chymotrypsin osv.) og alfa / beta (triosefosfatisomerase, lactatdehydrogenase, termolysin osv.) (Se tabel 1). Vores forsøg på at bruge et større CD-datasæt, der inkluderer 13 transmembranproteiner, resulterede i en dårligere ydelse af metoden, hvilket antyder, at disse proteiner kræver en specialiseret metode, der kun trænes med transmembranproteiner. Vanskelighederne med at forudsige den sekundære struktur af transmembranproteiner med CD-metoder trænet med kugleformede proteiner er blevet bemærket før .

tabel 1 ydeevne på benchmarks for K2D og K2D2.

Vi valgte bedste opløsning tertiære strukturer svarende til proteinerne i referencesættet fra Proteindatabanken (PDB) . Vi brugte dssp-programmet på PDB-filerne for at tildele sekundær strukturklasse til de enkelte aminosyrer i hvert protein i referencesættet. Vi tildelte alfa-spiralen til proteinresterne mærket som H og beta-streng til dem mærket E og beregnede derefter fraktionen af aminosyrer i proteinet i hver konformation (se tabel 1). Ud over CDDATA.43 spektre, inkluderede vi i træningssættet seks yderligere referencespektre fra: tre spektre af poly (L-lysin) i vandig opløsning i alfa -, beta-og tilfældige konformationer og tre modelspektre i alfa -, beta-og tilfældig konformation konstrueret ud fra 15 proteiner .

Spectra SOM og secondary structure maps

der blev trænet et kort over 18 liter 18 neuroner med 49 CD-spektre ved hjælp af som_pak-pakken . Små variationer på kortstørrelsen og træningsparametrene, der producerede glatte kort, producerede ikke store forskelle i ydeevne. Det endelige kort blev produceret ved i gennemsnit 100 tilfældigt startede kort. Når spektra SOM er opnået, producerer vi to” sekundære strukturkort”, en til alfa-spiral og en anden til beta-streng. Vi starter med gitre på 18 liter 18 noder (samme størrelse som SOM), og vi sammenligner hvert spektrum i træningssættet med vægtvektorerne forbundet med neuronerne i SOM. Givet et spektrum finder vi dets” tættere ” neuron i SOM-kortet, og vi tildeler fraktionen af sekundær struktur af det tilsvarende protein til den ækvivalente (samme koordinater) knude i gitteret. For at producere glatte kort (Se figur 1), i stedet for kun at overveje den tættere neuron i spektra SOM vi tager højde for et tal n af de nærmeste neuroner, og den endelige værdi af sekundær strukturfraktion er den lineære kombination af værdierne for de respektive neuroner vejet af den inverse af deres afstande. Inkluderingen af mere end 6 nærliggende neuroner gav de bedste resultater. Bedre ydeevne blev opnået, hvis de ekstra seks referencespektre fra ikke var inkluderet i beregningen af det sekundære strukturkort, skønt ydeevnen faldt, hvis vi også fjernede dem fra træningssættet til spectra SOM. Derfor holdt vi dem til træningen.

Figur 1

k2d2 internetserver input og output. (A) vindue for input spektrum. B) sammenligning af input og forudsagte spektre.

estimeret maksimal fejl

i princippet er jo mere ens et givet spektrum er til dets nærmeste som spectra node, jo bedre ville være forudsigelsen. Med andre ord, hvis et spektrum er meget anderledes end noget, som metoden har “tidligere set” (som for træningssæt), kan resultaterne ikke forventes at være meget nøjagtige. For at give brugerne et skøn over den maksimale samlede fejl i forudsigelsen (som sum for fejlene for alfa-og beta-forudsigelserne) brugte vi afstandene til det nærmeste node-kort og de tilsvarende observerede samlede fejl fra benchmarket. På en given afstand er den maksimale fejl den største samlede fejl, der blev observeret i benchmarket. Således forventes den samlede fejl for forudsigelsen at være mindre end den estimerede maksimale fejl. Hvis afstanden er større end noget, der er observeret i benchmarket, gives der en meddelelse, der angiver, at en estimering af maksimal fejl ikke er mulig; i denne situation bør strukturforudsigelsen ikke tages i betragtning.

internetserver

K2D2 kan tilgås på K2D2 site . Brugere skal vælge indgangsbølgelængdeområdet (200-240 nm eller 190-240 nm) og give spektret af problemproteinet (se figur 1a). Spektre skal være i liter enheder. Da resultaterne er bedre for bølgelængdeområdet 190-240 nm, anbefales denne mulighed, hvis brugeren kan levere spektre i dette interval, selvom vi opretholder input med kort rækkevidde, da det undertiden er vanskeligt at få førstnævnte. Resultaterne består af de estimerede værdier for procentdele af rester i alfa-spiral og beta-streng, en estimeret fejl for forudsigelsen og en grafik, der sammenligner det forudsagte spektrum med brugerinput (se figur 1b). Grunden giver en visuel vurdering af forudsigelsens nøjagtighed.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *