K2D2: Estimation de la structure secondaire des protéines à partir de spectres de dichroïsme circulaire
Spectres CD et données structurelles
Un certain nombre de 43 spectres CD provenant de protéines ont été obtenus à partir de l’ensemble de référence CDPRO CDDATA.43 construit à partir de différents contributeurs (W. C. Johnson et). Il se compose de spectres pour des protéines solubles avec une variété de composition de structure secondaire: principalement alpha (myoglobine, hémoglobine, hémérythrine, etc.), principalement bêta (élastase, facteur de nécrose tumorale, alpha-chymotrypsine, etc.) et alpha/bêta (triose phosphate isomérase, lactate déshydrogénase, lysozime, thermolysine, etc.) (voir tableau 1). Notre tentative d’utiliser un ensemble de données CD plus grand qui comprend 13 protéines transmembranaires a entraîné une performance moindre de la méthode, ce qui suggère que ces protéines nécessitent une méthode spécialisée entraînée uniquement avec des protéines transmembranaires. Les difficultés à prédire la structure secondaire des protéines transmembranaires avec des méthodes CD entraînées avec des protéines globulaires ont déjà été notées.
Nous avons sélectionné les structures tertiaires de meilleure résolution correspondant aux protéines de l’ensemble de référence à partir de la Banque de données sur les protéines (PDB). Nous avons utilisé le programme DSSP sur les fichiers PDB afin d’attribuer une classe de structure secondaire aux acides aminés individuels de chaque protéine de l’ensemble de référence. Nous avons attribué une hélice alpha aux résidus protéiques marqués en H et un brin bêta à ceux marqués en E, puis nous avons calculé la fraction d’acides aminés dans la protéine dans chaque conformation (voir Tableau 1). En plus des données CDDATA.43 spectres, nous avons inclus dans l’ensemble de formation six spectres de référence supplémentaires à partir de: trois spectres de poly (L-lysine) en solution aqueuse en conformations alpha, bêta et aléatoire, et trois spectres modèles en conformation alpha, bêta et aléatoire construits à partir de 15 protéines.
Spectres SOM et cartes de structures secondaires
Une carte de 18 ×18 neurones a été formée avec les spectres de 49 CD à l’aide du package SOM_PAK. Les petites variations de la taille de la carte et des paramètres d’entraînement qui ont produit des cartes lisses n’ont pas produit de grandes différences de performances. La carte finale a été produite en faisant la moyenne de 100 cartes démarrées au hasard. Une fois les spectres SOM obtenus, nous produisons deux « cartes de structure secondaire », l’une pour l’hélice alpha et l’autre pour le brin bêta. Nous commençons par des grilles de nœuds 18 × 18 (même taille que le SOM), et nous comparons chaque spectre de l’ensemble d’entraînement avec les vecteurs de poids associés aux neurones du SOM. Étant donné un spectre, nous trouvons son neurone « plus proche » dans la carte SOM, et nous attribuons la fraction de structure secondaire de la protéine correspondante au nœud équivalent (mêmes coordonnées) dans la grille. Afin de produire des cartes lisses (voir Figure 1), au lieu de ne considérer que le neurone le plus proche dans le spectre SOM, nous prenons en compte un nombre n des neurones les plus proches, et la valeur finale de la fraction de structure secondaire est la combinaison linéaire des valeurs des neurones respectifs pesés par l’inverse de leurs distances. L’inclusion de plus de 6 neurones voisins a produit les meilleurs résultats. De meilleures performances ont été obtenues si les six spectres de référence supplémentaires n’étaient pas inclus dans le calcul de la carte de structure secondaire, bien que les performances aient diminué si nous les retirions également de l’ensemble d’entraînement du SOM de spectres. Par conséquent, nous les avons gardés pour la formation.
Erreur maximale estimée
En principe, plus un spectre donné est similaire à son nœud de spectres SOM le plus proche, meilleure serait la prédiction. En d’autres termes, si un spectre est très différent de tout ce que la méthode a « vu précédemment » (comme pour l’ensemble d’entraînement), les résultats ne peuvent pas être très précis. Pour fournir aux utilisateurs une estimation de l’erreur totale maximale de la prédiction (en somme des erreurs pour les prédictions alpha et bêta), nous avons utilisé les distances à la carte de nœud la plus proche et les erreurs totales observées correspondantes du benchmark. À une distance donnée, l’erreur maximale est la plus grande erreur totale observée dans le repère. Ainsi, l’erreur totale de la prédiction devrait être inférieure à l’erreur maximale estimée. Si la distance est plus grande que tout ce qui est observé dans le benchmark, un message est donné indiquant qu’une estimation de l’erreur maximale n’est pas possible; dans cette situation, la prédiction de structure ne doit pas être prise en compte.
Serveur Web
K2D2 est accessible sur le site K2D2. Les utilisateurs doivent choisir la gamme de longueurs d’onde d’entrée (200-240 nm ou 190-240 nm) et fournir le spectre de la protéine à problème (voir Figure 1A). Les spectres doivent être en unités Δε. Comme les résultats sont meilleurs pour la gamme de longueurs d’onde 190-240 nm, cette option est recommandée si l’utilisateur peut fournir des spectres dans cette gamme, bien que nous conservions l’entrée à courte portée car il est parfois difficile d’obtenir la première. Les résultats comprennent les valeurs estimées pour les pourcentages de résidus dans l’hélice alpha et le brin bêta, une erreur estimée pour la prédiction et un graphique comparant le spectre prédit avec l’entrée de l’utilisateur (voir Figure 1B). L’intrigue fournit une évaluation visuelle de la précision de la prédiction.