Articles

K2D2: Estimación de la estructura secundaria de proteínas a partir de espectros de dicroísmo circular

espectros de CD y datos estructurales

Se obtuvo un número de 43 espectros de CD de proteínas a partir del conjunto de referencia CDDATA de CDPRO.43 construidos a partir de diferentes colaboradores (W. C. Johnson y). Consiste en espectros para proteínas solubles con una variedad de composición de estructura secundaria: principalmente alfa (mioglobina, hemoglobina, hemeritrina, etc.), principalmente beta (elastasa, factor de necrosis tumoral, alfa-quimotripsina, etc.) y alfa / beta (triosa fosfato isomerasa, lactato deshidrogenasa, lisozima, termolisina, etc.) (véase el cuadro 1). Nuestro intento de utilizar un conjunto de datos de CD más grande que incluye 13 proteínas transmembranas resultó en un peor rendimiento del método, lo que sugiere que estas proteínas requieren un método especializado entrenado solo con proteínas transmembranas. Las dificultades para predecir la estructura secundaria de las proteínas transmembranas con métodos de EC entrenados con proteínas globulares se han observado anteriormente .

Tabla 1 Rendimiento de los parámetros de referencia para K2D y K2D2.

Seleccionamos las estructuras terciarias de mejor resolución correspondientes a las proteínas del conjunto de referencia del Banco de Datos de Proteínas (PDB) . Utilizamos el programa DSSP en los archivos PDB para asignar una clase de estructura secundaria a los aminoácidos individuales en cada proteína del conjunto de referencia. Asignamos hélice alfa a los residuos de proteínas etiquetados como H y hebra beta a los etiquetados como E y luego calculamos la fracción de aminoácidos en la proteína en cada conformación (ver Tabla 1). Además de los CDDATA.43 espectros, incluimos en el conjunto de entrenamiento seis espectros de referencia adicionales de: tres espectros de poli (L-lisina) en solución acuosa en conformaciones alfa, beta y aleatorias, y tres espectros modelo en conformación alfa, beta y aleatoria construidos a partir de 15 proteínas .

Espectros SOM y mapas de estructura secundaria

Se entrenó un mapa de 18 × 18 neuronas con los espectros de 49 CD utilizando el paquete SOM_PAK . Las pequeñas variaciones en el tamaño del mapa y los parámetros de entrenamiento que producían mapas suaves no producían grandes diferencias en el rendimiento. El mapa final se produjo promediando 100 mapas iniciados aleatoriamente. Una vez obtenido el espectro SOM, producimos dos «mapas de estructura secundaria», uno para la hélice alfa y otro para la hebra beta. Comenzamos con cuadrículas de 18 × 18 nodos (del mismo tamaño que el SOM), y comparamos cada espectro en el conjunto de entrenamiento con los vectores de peso asociados a las neuronas del SOM. Dado un espectro, encontramos su neurona «más cercana» en el mapa SOM, y asignamos la fracción de estructura secundaria de la proteína correspondiente al nodo equivalente (las mismas coordenadas) en la cuadrícula. Con el fin de producir mapas suaves (ver Figura 1), en lugar de considerar solo la neurona más cercana en el espectro SOM, tenemos en cuenta un número n de las neuronas más cercanas, y el valor final de la fracción de estructura secundaria es la combinación lineal de los valores de las neuronas respectivas ponderados por el inverso de sus distancias. La inclusión de más de 6 neuronas vecinas produjo los mejores resultados. Se obtuvo un mejor rendimiento si los seis espectros de referencia adicionales no se incluyeron en el cálculo del mapa de estructura secundaria, aunque el rendimiento disminuyó si también los eliminamos del conjunto de entrenamiento de los espectros SOM. Por lo tanto, los guardamos para el entrenamiento.

Figura 1

K2D2 web del servidor de entrada y de salida. A) Ventana para el espectro de entrada. B) Comparación de los espectros de entrada y previstos.

Error máximo estimado

En principio, cuanto más similar sea un espectro dado a su nodo de espectros SOM más cercano, mejor será la predicción. En otras palabras, si un espectro es muy diferente a cualquier cosa que el método haya «visto previamente» (como para el conjunto de entrenamiento), no se puede esperar que los resultados sean muy precisos. Para proporcionar a los usuarios una estimación del error total máximo de la predicción (como suma de los errores de las predicciones alfa y beta), utilizamos las distancias al mapa de nodos más cercano y los errores totales observados correspondientes desde el punto de referencia. A una distancia determinada, el error máximo es el error total más grande que se observó en el punto de referencia. Por lo tanto, se espera que el error total para la predicción sea menor que el error máximo estimado. Si la distancia es mayor que cualquier cosa observada en el punto de referencia, se envía un mensaje que indica que no es posible estimar el error máximo; en esta situación, no se debe tener en cuenta la predicción de la estructura.

Servidor web

Se puede acceder a K2D2 en el sitio de K2D2 . Los usuarios deben elegir el rango de longitud de onda de entrada (200-240 nm o 190-240 nm) y proporcionar el espectro de la proteína problemática (ver Figura 1A). Los espectros deben estar en unidades Δε. Como los resultados son mejores para el rango de longitud de onda de 190-240 nm, se recomienda esta opción si el usuario puede suministrar espectros en este rango, aunque mantenemos la entrada de corto alcance, ya que a veces es difícil obtener el primero. Los resultados consisten en los valores estimados para porcentajes de residuos en hélice alfa y hebra beta, un error estimado para la predicción y un gráfico que compara el espectro predicho con la entrada del usuario (véase la Figura 1B). La gráfica proporciona una evaluación visual de la precisión de la predicción.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *