Articles

K2D2: Stima della struttura secondaria delle proteine da spettri di dicroismo circolare

Spettri CD e dati strutturali

Un numero di 43 spettri CD da proteine è stato ottenuto dal CDPRO reference set CDDATA.43 costruito da diversi collaboratori (W. C. Johnson e ). Consiste di spettri per proteine solubili con una varietà di composizione secondaria della struttura: principalmente alfa (mioglobina, emoglobina, emeritrina, ecc.), principalmente beta (elastasi, fattore di necrosi tumorale, alfa-chimotripsina, ecc.) e alfa / beta (triosio fosfato isomerasi, lattato deidrogenasi, lisozima, termolisina, ecc.) (vedere Tabella 1). Il nostro tentativo di utilizzare un set di dati CD più grande che include 13 proteine transmembrana ha portato a una performance peggiore del metodo, il che suggerisce che queste proteine richiedono un metodo specializzato addestrato solo con proteine transmembrana. Le difficoltà nel predire la struttura secondaria delle proteine transmembrana con metodi CD addestrati con proteine globulari sono state notate prima .

Tabella 1 Prestazioni sui benchmark per K2D e K2D2.

Abbiamo selezionato le migliori strutture terziarie di risoluzione corrispondenti alle proteine nel set di riferimento dalla Protein Data Bank (PDB) . Abbiamo usato il programma DSSP sui file PDB per assegnare una classe di struttura secondaria ai singoli amminoacidi in ogni proteina nel set di riferimento. Abbiamo assegnato alfa-elica ai residui proteici etichettati come H e beta-strand a quelli etichettati E e quindi calcolato la frazione di aminoacidi nella proteina in ogni conformazione (vedi Tabella 1). Oltre al CDDATA.43 spettri, abbiamo incluso nel set di formazione sei ulteriori spettri di riferimento da: tre spettri di poli (L-lisina) in soluzione acquosa in alfa, beta e conformazioni casuali, e tre spettri modello in alfa, beta e conformazione casuale costruito da 15 proteine .

Spectra SOM e mappe della struttura secondaria

Una mappa di neuroni 18 × 18 è stata addestrata con gli spettri 49 CD usando il pacchetto SOM_PAK . Piccole variazioni sulle dimensioni della mappa e sui parametri di allenamento che hanno prodotto mappe uniformi non hanno prodotto grandi differenze nelle prestazioni. La mappa finale è stata prodotta facendo una media di 100 mappe avviate casualmente. Una volta ottenuto lo spectra SOM produciamo due “mappe di struttura secondaria”, una per alfa-elica e un’altra per beta-filamento. Iniziamo con griglie di 18 × 18 nodi (stesse dimensioni del SOM) e confrontiamo ogni spettro nel set di allenamento con i vettori di peso associati ai neuroni del SOM. Dato uno spettro, troviamo il suo neurone “più vicino” nella mappa SOM e assegniamo la frazione di struttura secondaria della proteina corrispondente al nodo equivalente (stesse coordinate) nella griglia. Al fine di produrre mappe lisce (vedi Figura 1), invece di considerare solo il neurone più vicino negli spettri SOM prendiamo in considerazione un numero n dei neuroni più vicini, e il valore finale della frazione di struttura secondaria è la combinazione lineare dei valori dei rispettivi neuroni pesati dall’inverso delle loro distanze. L’inclusione di più di 6 neuroni vicini ha prodotto i migliori risultati. Prestazioni migliori sono state ottenute se i sei spettri di riferimento aggiuntivi non sono stati inclusi nel calcolo della mappa della struttura secondaria, anche se le prestazioni sono diminuite se li abbiamo rimossi anche dal set di allenamento degli spettri SOM. Pertanto, li abbiamo tenuti per la formazione.

Figura 1

Ingresso e uscita del server Web K2D2. (A) Finestra per lo spettro di ingresso. (B) Confronto degli spettri in ingresso e previsti.

Errore massimo stimato

In linea di principio, più un dato spettro è simile al suo nodo spettri SOM più vicino, migliore sarebbe la previsione. In altre parole, se uno spettro è molto diverso da qualsiasi cosa il metodo abbia “visto in precedenza” (come per il set di allenamento), non ci si può aspettare che i risultati siano molto accurati. Per fornire agli utenti una stima dell’errore totale massimo della previsione (come somma per gli errori per le previsioni alfa e beta) abbiamo utilizzato le distanze dalla mappa del nodo più vicina e i corrispondenti errori totali osservati dal benchmark. A una data distanza, l’errore massimo è il più grande errore totale osservato nel benchmark. Pertanto, l’errore totale per la previsione dovrebbe essere inferiore all’errore massimo stimato. Se la distanza è maggiore di qualsiasi cosa osservata nel benchmark, viene fornito un messaggio che indica che una stima dell’errore massimo non è possibile; in questa situazione la previsione della struttura non dovrebbe essere presa in considerazione.

Server Web

K2D2 si può accedere al sito K2D2 . Gli utenti devono scegliere l’intervallo di lunghezza d’onda di ingresso (200-240 nm o 190-240 nm) e fornire lo spettro della proteina problematica (vedere Figura 1A). Gli spettri devono essere in unità Δε. Poiché i risultati sono migliori per la gamma di lunghezze d’onda 190-240 nm, questa opzione è consigliata se l’utente può fornire spettri in questa gamma, anche se manteniamo l’input a corto raggio in quanto a volte è difficile ottenere il primo. I risultati consistono nei valori stimati per le percentuali di residui in alfa-elica e beta-filamento, un errore stimato per la previsione e un grafico che confronta lo spettro previsto con l’input dell’utente (vedi Figura 1B). La trama fornisce una valutazione visiva dell’accuratezza della previsione.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *