K2D2: estimering af protein sekundær struktur fra cirkulære dichroism spektre
CD spektre og strukturelle data
et antal 43 CD spektre fra proteiner blev opnået fra CDPRO referencesæt CDDATA.43 Konstrueret af forskellige bidragydere (C. C. Johnson og ). Den består af spektre for opløselige proteiner med en række sekundære struktursammensætninger: hovedsageligt alfa (myoglobin, hæmoglobin, hemerythrin osv.), hovedsageligt beta (elastase, tumornekrosefaktor, alfa-chymotrypsin osv.) og alfa / beta (triosefosfatisomerase, lactatdehydrogenase, termolysin osv.) (Se tabel 1). Vores forsøg på at bruge et større CD-datasæt, der inkluderer 13 transmembranproteiner, resulterede i en dårligere ydelse af metoden, hvilket antyder, at disse proteiner kræver en specialiseret metode, der kun trænes med transmembranproteiner. Vanskelighederne med at forudsige den sekundære struktur af transmembranproteiner med CD-metoder trænet med kugleformede proteiner er blevet bemærket før .
Vi valgte bedste opløsning tertiære strukturer svarende til proteinerne i referencesættet fra Proteindatabanken (PDB) . Vi brugte dssp-programmet på PDB-filerne for at tildele sekundær strukturklasse til de enkelte aminosyrer i hvert protein i referencesættet. Vi tildelte alfa-spiralen til proteinresterne mærket som H og beta-streng til dem mærket E og beregnede derefter fraktionen af aminosyrer i proteinet i hver konformation (se tabel 1). Ud over CDDATA.43 spektre, inkluderede vi i træningssættet seks yderligere referencespektre fra: tre spektre af poly (L-lysin) i vandig opløsning i alfa -, beta-og tilfældige konformationer og tre modelspektre i alfa -, beta-og tilfældig konformation konstrueret ud fra 15 proteiner .
Spectra SOM og secondary structure maps
der blev trænet et kort over 18 liter 18 neuroner med 49 CD-spektre ved hjælp af som_pak-pakken . Små variationer på kortstørrelsen og træningsparametrene, der producerede glatte kort, producerede ikke store forskelle i ydeevne. Det endelige kort blev produceret ved i gennemsnit 100 tilfældigt startede kort. Når spektra SOM er opnået, producerer vi to” sekundære strukturkort”, en til alfa-spiral og en anden til beta-streng. Vi starter med gitre på 18 liter 18 noder (samme størrelse som SOM), og vi sammenligner hvert spektrum i træningssættet med vægtvektorerne forbundet med neuronerne i SOM. Givet et spektrum finder vi dets” tættere ” neuron i SOM-kortet, og vi tildeler fraktionen af sekundær struktur af det tilsvarende protein til den ækvivalente (samme koordinater) knude i gitteret. For at producere glatte kort (Se figur 1), i stedet for kun at overveje den tættere neuron i spektra SOM vi tager højde for et tal n af de nærmeste neuroner, og den endelige værdi af sekundær strukturfraktion er den lineære kombination af værdierne for de respektive neuroner vejet af den inverse af deres afstande. Inkluderingen af mere end 6 nærliggende neuroner gav de bedste resultater. Bedre ydeevne blev opnået, hvis de ekstra seks referencespektre fra ikke var inkluderet i beregningen af det sekundære strukturkort, skønt ydeevnen faldt, hvis vi også fjernede dem fra træningssættet til spectra SOM. Derfor holdt vi dem til træningen.