K2d2: schatting van de secundaire eiwitstructuur uit cirkeldichroïsmespectra
CD-spectra en structurele gegevens
een aantal 43 CD-spectra uit eiwitten werd verkregen uit CDPRO referentieset CDDATA.43 opgebouwd uit verschillende bijdragers (W. C. Johnson en). Het bestaat uit spectra voor oplosbare eiwitten met een verscheidenheid aan secundaire structuursamenstelling: voornamelijk Alfa (myoglobine, hemoglobine, hemerythrin, enz.), voornamelijk beta (elastase, tumor necrosis factor, Alfa-chymotrypsine, enz.) en alfa / bèta (triosefosfaatisomerase, lactaatdehydrogenase, lysozime, thermolysine, enz.) (zie Tabel 1). Onze poging om een grotere CD-set die bestaat uit 13 transmembraan eiwitten resulteerde in een slechtere prestaties van de methode, die suggereert dat deze eiwitten vereist een gespecialiseerde methode getraind maar met transmembraan eiwitten. De moeilijkheden in het voorspellen van de secundaire structuur van transmembrane proteã nen met methodes van CD die met bolvormige proteã nen worden opgeleid zijn eerder genoteerd .
we hebben de beste resolutie tertiaire structuren geselecteerd die overeenkomen met de eiwitten in de referentieset van de Eiwitdatabank (PDB) . We gebruikten het dssp-programma op de PDB-bestanden om secundaire structuurklasse toe te wijzen aan de individuele aminozuren in elk eiwit in de referentieset. We hebben Alfa-helix toegewezen aan de eiwitresiduen gelabeld als H en bèta-streng aan die gelabeld als E en vervolgens berekend de fractie van aminozuren in het eiwit in elke conformatie (zie Tabel 1). Naast de CDDATA.43 spectra, we opgenomen in de training set zes extra referentie spectra van: drie spectra van poly (L-lysine) in waterige oplossing in alfa, beta en willekeurige conformaties, en drie model spectra in alfa, beta en willekeurige conformatie opgebouwd uit 15 eiwitten .
Spectra SOM en secundaire structuur maps
een kaart van 18 × 18 neuronen werd getraind met de 49 CD spectra met behulp van het SOM_PAK pakket . Kleine variaties op de kaartgrootte en trainingsparameters die vloeiende kaarten opleverden, leverden geen grote verschillen in prestaties op. De uiteindelijke kaart werd gemaakt door middel van een gemiddelde van 100 willekeurig gestarte kaarten. Zodra de spectra SOM is verkregen produceren we twee “secundaire structuurkaarten”, een voor Alfa-helix en een voor beta-streng. We beginnen met rasters van 18 × 18 knooppunten (dezelfde grootte als de SOM), en we vergelijken elk spectrum in de trainingsset met de gewichtsvectoren geassocieerd met de neuronen van de SOM. Gegeven een spectrum, vinden we zijn “dichter” neuron in de SOM kaart, en we wijzen de fractie van de secundaire structuur van het overeenkomstige eiwit aan de equivalente (dezelfde coördinaten) knoop in het raster. Om vloeiende kaarten te maken (zie Figuur 1), in plaats van alleen het dichtere neuron in de spectra SOM te beschouwen, houden we rekening met een getal n van de dichtste neuronen, en de uiteindelijke waarde van de secundaire structuurfractie is de lineaire combinatie van de waarden van de respectievelijke neuronen gewogen door de inverse van hun afstanden. De opname van meer dan 6 naburige neuronen leverde de beste resultaten op. Betere prestaties werden verkregen als de extra zes referentiespectra van niet werden opgenomen in de berekening van de secundaire structuur kaart, hoewel de prestaties afgenomen als we ze ook uit de training set van de spectra SOM. Daarom hielden we ze voor de training.
geschatte maximumfout
in principe zou de voorspelling beter zijn naarmate een gegeven spectrum meer op de dichtstbijzijnde SOM-spectraknoop lijkt. Met andere woorden, als een spectrum heel anders is dan alles wat de methode “eerder heeft gezien” (zoals voor trainingsset), kan niet worden verwacht dat de resultaten zeer nauwkeurig zijn. Om gebruikers een schatting te geven van de maximale totale fout van de voorspelling (als Som voor de fouten voor de alpha-en beta-voorspellingen) hebben we de afstanden tot de dichtstbijzijnde knooppuntkaart en de overeenkomstige waargenomen totale fouten van de benchmark gebruikt. Op een bepaalde afstand is de maximale fout de grootste totale fout die werd waargenomen in de benchmark. De totale fout voor de voorspelling zal naar verwachting dus minder zijn dan de geschatte maximale fout. Als de afstand groter is dan wat in de benchmark is waargenomen, wordt een bericht gegeven dat aangeeft dat een schatting van de maximale fout niet mogelijk is; in deze situatie moet geen rekening worden gehouden met de structuurvoorspelling.
webserver
K2D2 is toegankelijk op de k2d2-site . De gebruikers moeten de waaier van de inputgolflengte (200-240 nm of 190-240 nm) kiezen en het spectrum van de probleemproteã ne verstrekken (zie figuur 1A). De Spectra MOETEN in Δε-eenheden zijn. Aangezien de resultaten beter zijn voor het golflengtebereik van 190-240 nm, wordt deze optie aanbevolen als de gebruiker spectra in dit bereik kan leveren, hoewel we de input van het korte bereik behouden omdat het soms moeilijk is om de eerste te verkrijgen. De resultaten bestaan uit de geschatte waarden voor de percentages residuen in alfa-helix en bèta-streng, een geschatte fout voor de voorspelling en een grafische vergelijking van het voorspelde spectrum met de input van de gebruiker (zie figuur 1B). De plot geeft een visuele beoordeling van de nauwkeurigheid van de voorspelling.