Articles

K2D2: Estimering av protein sekundær struktur fra sirkulære dikroisme spektra

CD spektra og strukturdata

et antall 43 CD spektra fra proteiner ble oppnådd FRA CDPRO referansesett CDDATA.43 konstruert fra forskjellige bidragsytere (W. C. Johnson og ). Den består av spektra for oppløselige proteiner med en rekke sekundære struktursammensetninger: hovedsakelig alfa( myoglobin, hemoglobin, hemerytrin, etc.), hovedsakelig beta (elastase, tumor nekrosefaktor, alfa-chymotrypsin, etc.) og alfa / beta (triosefosfatisomerase, laktatdehydrogenase, lysozim, termolysin, etc) (Se Tabell 1). Vårt forsøk på å bruke et større CD-datasett som inneholder 13 transmembranproteiner, resulterte i en dårligere ytelse av metoden, noe som tyder på at disse proteinene krever en spesialisert metode som bare er trent med transmembranproteiner. Vanskelighetene med å forutsi den sekundære strukturen av transmembranproteiner MED CD-metoder trent med globulære proteiner har blitt notert før .

Tabell 1 Ytelse På benchmarks FOR K2D OG K2D2.

vi valgte beste oppløsning tertiære strukturer som svarer til proteinene i referansesettet Fra Protein Data Bank (PDB) . VI brukte DSSP-programmet PÅ PDB-filene for å tildele sekundær strukturklasse til de enkelte aminosyrene i hvert protein i referansesettet. Vi tildelte alfa-helix til proteinrester merket Som H og beta-streng til de merket E og beregnet deretter fraksjonen av aminosyrer i proteinet i hver konformasjon (Se Tabell 1). I TILLEGG TIL CD.43 spektra, inkluderte vi i treningssettet seks ekstra referansespektra fra: tre spektra av poly (L-lysin) i vandig løsning i alfa -, beta-og tilfeldige konformasjoner, og tre modellspektra i alfa -, beta-og tilfeldig konformasjon konstruert fra 15 proteiner .

Spectra SOM og sekundære strukturkart

et kart over 18 × 18 nevroner ble trent med 49 CD-spektrene ved hjelp av som_pak-pakken . Små variasjoner på kartstørrelse og treningsparametere som produserte glatte kart, ga ikke store forskjeller i ytelse. Det endelige kartet ble produsert ved å gjennomsnittlig 100 tilfeldig startede kart. Når spektra SOM er oppnådd, produserer vi to «sekundære strukturkart», en for alfa-helix og en annen for beta-strand. Vi starter med rutenett av 18 × 18 noder( samme størrelse som SOM), og vi sammenligner hvert spektrum i treningssettet med vektvektorer knyttet til nevronene til SOM. Gitt et spektrum finner vi sin «nærmere» nevron i SOM-kartet, og vi tilordner brøkdelen av sekundær struktur av det tilsvarende proteinet til ekvivalent (samme koordinater) node i rutenettet. For å produsere glatte kart (Se Figur 1), i stedet for å vurdere bare nærmere nevron i spektra SOM vi tar hensyn til et tall n av de nærmeste nevroner, og den endelige verdien av sekundær struktur fraksjon er den lineære kombinasjonen av verdiene av de respektive nevroner veid av den inverse av sine avstander. Inkluderingen av mer enn 6 nærliggende nevroner ga de beste resultatene. Bedre ytelse ble oppnådd dersom de ekstra seks referansespektrene fra ikke var inkludert i beregningen av sekundærstrukturkartet, selv om ytelsen ble redusert hvis vi fjernet dem også fra treningssettet til spektra SOM. Derfor holdt vi dem for trening.

Figur 1

k2d2 webserver inngang og utgang. (A) Vindu for inngangsspektrum. (B) Sammenligning av input og spådde spektra.

Estimert maksimal feil

i prinsippet, jo mer lik et gitt spektrum er til sin nærmeste som spectra node, jo bedre ville være prediksjonen. Med andre ord, hvis et spektrum er svært forskjellig fra noe metoden har » tidligere sett «(som for treningssett), kan resultatene ikke forventes å være veldig nøyaktige. For å gi brukerne et estimat av den maksimale totale feilen i prediksjonen (som sum for feilene for alfa-og beta-spådommene) brukte vi avstandene til nærmeste knutekart og de tilsvarende observerte totale feilene fra referansen. På en gitt avstand er maksimal feil den største totale feilen som ble observert i referansen. Dermed forventes den totale feilen for prediksjonen å være mindre enn den estimerte maksimale feilen. Hvis avstanden er større enn noe observert i referanseindeksen, blir det gitt en melding om at en estimering av maksimal feil ikke er mulig; i denne situasjonen strukturen prediksjon bør ikke tas i betraktning.

Webserver

K2D2 kan nås PÅ k2d2-siden . Brukere må velge inngangsbølgelengdeområdet (200-240 nm eller 190-240 nm) og gi spekteret av problemproteinet (Se Figur 1a). Spectra må være i Δε Da resultatene er bedre for 190-240 nm bølgelengdeområdet, anbefales dette alternativet hvis brukeren kan levere spektra i dette området, selv om vi opprettholder kort rekkevidde, da det noen ganger er vanskelig å oppnå den tidligere. Resultatene består av estimerte verdier for prosenter av rester i alfa-helix og beta-streng, en estimert feil for prediksjonen, og en grafikk som sammenligner det forutsagte spekteret med brukerinngangen (Se Figur 1b). Plottet gir en visuell vurdering av nøyaktigheten av prediksjonen.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *