K2D2: Stima della struttura secondaria delle proteine da spettri di dicroismo circolare
Spettri CD e dati strutturali
Un numero di 43 spettri CD da proteine è stato ottenuto dal CDPRO reference set CDDATA.43 costruito da diversi collaboratori (W. C. Johnson e ). Consiste di spettri per proteine solubili con una varietà di composizione secondaria della struttura: principalmente alfa (mioglobina, emoglobina, emeritrina, ecc.), principalmente beta (elastasi, fattore di necrosi tumorale, alfa-chimotripsina, ecc.) e alfa / beta (triosio fosfato isomerasi, lattato deidrogenasi, lisozima, termolisina, ecc.) (vedere Tabella 1). Il nostro tentativo di utilizzare un set di dati CD più grande che include 13 proteine transmembrana ha portato a una performance peggiore del metodo, il che suggerisce che queste proteine richiedono un metodo specializzato addestrato solo con proteine transmembrana. Le difficoltà nel predire la struttura secondaria delle proteine transmembrana con metodi CD addestrati con proteine globulari sono state notate prima .
Abbiamo selezionato le migliori strutture terziarie di risoluzione corrispondenti alle proteine nel set di riferimento dalla Protein Data Bank (PDB) . Abbiamo usato il programma DSSP sui file PDB per assegnare una classe di struttura secondaria ai singoli amminoacidi in ogni proteina nel set di riferimento. Abbiamo assegnato alfa-elica ai residui proteici etichettati come H e beta-strand a quelli etichettati E e quindi calcolato la frazione di aminoacidi nella proteina in ogni conformazione (vedi Tabella 1). Oltre al CDDATA.43 spettri, abbiamo incluso nel set di formazione sei ulteriori spettri di riferimento da: tre spettri di poli (L-lisina) in soluzione acquosa in alfa, beta e conformazioni casuali, e tre spettri modello in alfa, beta e conformazione casuale costruito da 15 proteine .
Spectra SOM e mappe della struttura secondaria
Una mappa di neuroni 18 × 18 è stata addestrata con gli spettri 49 CD usando il pacchetto SOM_PAK . Piccole variazioni sulle dimensioni della mappa e sui parametri di allenamento che hanno prodotto mappe uniformi non hanno prodotto grandi differenze nelle prestazioni. La mappa finale è stata prodotta facendo una media di 100 mappe avviate casualmente. Una volta ottenuto lo spectra SOM produciamo due “mappe di struttura secondaria”, una per alfa-elica e un’altra per beta-filamento. Iniziamo con griglie di 18 × 18 nodi (stesse dimensioni del SOM) e confrontiamo ogni spettro nel set di allenamento con i vettori di peso associati ai neuroni del SOM. Dato uno spettro, troviamo il suo neurone “più vicino” nella mappa SOM e assegniamo la frazione di struttura secondaria della proteina corrispondente al nodo equivalente (stesse coordinate) nella griglia. Al fine di produrre mappe lisce (vedi Figura 1), invece di considerare solo il neurone più vicino negli spettri SOM prendiamo in considerazione un numero n dei neuroni più vicini, e il valore finale della frazione di struttura secondaria è la combinazione lineare dei valori dei rispettivi neuroni pesati dall’inverso delle loro distanze. L’inclusione di più di 6 neuroni vicini ha prodotto i migliori risultati. Prestazioni migliori sono state ottenute se i sei spettri di riferimento aggiuntivi non sono stati inclusi nel calcolo della mappa della struttura secondaria, anche se le prestazioni sono diminuite se li abbiamo rimossi anche dal set di allenamento degli spettri SOM. Pertanto, li abbiamo tenuti per la formazione.