Articles

K2D2: Estimativa de proteína de estrutura secundária de circular dichroism espectros

CD espectros e os dados estruturais

Um número de 43 CD espectros de proteínas, que foi obtido a partir de CDPRO conjunto de referência CDDATA.43 construído a partir de diferentes contribuidores (W. C. Johnson e). Consiste de espectros para proteínas solúveis com uma variedade de estrutura secundária: principalmente alfa (mioglobina, hemoglobina, hemeritrina, etc.), principalmente beta (elastase, factor de necrose tumoral, alfa-timotripsina, etc.) e alfa / beta (isomerase de fosfato de triose, desidrogenase lactato, lisozima, termolisina, etc.) (ver Quadro 1). Nossa tentativa de usar um conjunto de dados de CD maior que inclui 13 proteínas transmembranares resultou em um desempenho mais pobre do método, o que sugere que essas proteínas requerem um método especializado treinado apenas com proteínas transmembranares. As dificuldades em prever a estrutura secundária das proteínas transmembranares com métodos CD treinados com proteínas globulares já foram notadas antes .

Table 1 Performance on benchmarks for K2D and K2D2.

seleccionámos estruturas terciárias de melhor resolução correspondentes às proteínas no conjunto de referência do banco de dados proteicos (PDB) . Nós usamos o programa DSSP nos arquivos PDB, a fim de atribuir a classe de estrutura secundária aos aminoácidos individuais em cada proteína no conjunto de referência. Atribuímos alfa-hélice aos resíduos proteicos rotulados como H e beta-strand aos rotulados E e, em seguida, computamos a fração de aminoácidos na proteína em cada conformação (Ver Tabela 1). Além do CDDATA.43 spectra, incluímos no conjunto de treinamento Seis espectros de referência adicionais de: três espectros de poli (L-lisina) em solução aquosa em conformações alfa, beta e aleatórias, e três espectros modelo em conformação alfa, beta e Aleatória construídos a partir de 15 proteínas .

Spectra SOM e mapas de estrutura secundária

um mapa de 18 × 18 neurônios foi treinado com os 49 espectros de CD usando o pacote SOM_PAK . Pequenas variações no tamanho do mapa e parâmetros de treinamento que produziram mapas lisos não produziram grandes diferenças no desempenho. O mapa final foi produzido por uma média de 100 mapas iniciados aleatoriamente. Uma vez obtido o espectro SOM, produzimos dois “mapas de estrutura secundária”, um para Alfa-helix e outro para beta-strand. Começamos com grades de 18 × 18 nós (do mesmo tamanho do SOM), e comparamos cada espectro no conjunto de treinamento com os vetores de peso associados aos neurônios do SOM. Dado um espectro, encontramos seu neurônio “mais próximo” no mapa SOM, e atribuímos a fração da estrutura secundária da proteína correspondente ao nó equivalente (mesmas coordenadas) na grade. A fim de produzir suave mapas (ver Figura 1), em vez de considerar apenas o mais próximo neurônio na espectros de SOM levamos em conta um número n de o mais próximo neurônios, e o valor final da estrutura secundária fração é a combinação linear dos valores dos respectivos neurônios ponderados pelo inverso de sua distância. A inclusão de mais de 6 neurônios vizinhos produziu os melhores resultados. Melhor desempenho foi obtido se os seis espectros de referência extras não foram incluídos no cálculo do mapa da estrutura secundária, embora o desempenho diminuiu se nós removê-los também do conjunto de treinamento do espectra SOM. Por isso, guardámo-los para o treino.

Figura 1

K2D2 web do servidor de entrada e de saída. (A) janela para espectro de entrada. B) comparação dos dados de entrada e dos espectros previstos.

erro máximo estimado

em princípio, quanto mais semelhante um determinado espectro for ao seu nó de espectros SOM mais próximo, melhor seria a previsão. Em outras palavras, se um espectro é muito diferente de qualquer coisa que o método tenha ” visto anteriormente “(como para o conjunto de treinamento), não se pode esperar que os resultados sejam muito precisos. Para fornecer aos usuários uma estimativa do erro total máximo da Previsão (como Soma para os erros para as previsões alfa e beta) nós usamos as distâncias para o mapa do nó mais próximo e os erros totais correspondentes observados a partir da referência. A uma dada distância, o erro máximo é o maior erro total observado no parâmetro de referência. Assim, espera-se que o erro total para a previsão seja inferior ao erro máximo estimado. Se a distância for maior do que qualquer observação no parâmetro de referência, é dada uma mensagem indicando que não é possível estimar o erro máximo; nesta situação, a previsão da estrutura não deve ser tida em conta.

Web server

K2D2 can be accessed at K2D2 site . Os utilizadores devem escolher a gama de comprimentos de onda de entrada (200-240 nm ou 190-240 nm) e fornecer o espectro da proteína problemática (ver Figura 1A). Os espectros devem estar em unidades Δε. Como os resultados são melhores para a faixa de comprimento de onda de 190-240 nm, esta opção é recomendada se o usuário pode fornecer espectros nesta faixa, embora mantenhamos a entrada de curto alcance como às vezes é difícil de obter o primeiro. Os resultados consistem nos valores estimados para as percentagens de resíduos na hélice alfa e na cadeia beta, num erro estimado para a previsão e num gráfico que compara o espectro previsto com a entrada do utilizador (ver Figura 1B). A parcela fornece uma avaliação visual da exatidão da previsão.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *