k2d2: Estymacja struktury wtórnej białka z widm dichroizmu kołowego
widma CD i dane strukturalne
z zestawu referencyjnego CDPRO CDDATA uzyskano liczbę 43 widm CD z białek.43 skonstruowane z różnych współpracowników (W. C. Johnson and). Składa się z widm dla rozpuszczalnych białek o różnorodnym wtórnym składzie struktury: głównie Alfa (mioglobina, hemoglobina, hemerytryna itp.), głównie beta (elastaza, czynnik martwicy nowotworów, alfa-chymotrypsyna itp.) i alfa/beta (izomeraza fosforanu triozy, dehydrogenaza mleczanowa, lizozym, termolizyna itp.) (patrz Tabela 1). Nasza próba użycia większego zestawu danych CD, który zawiera 13 białek transmembrany, doprowadziła do gorszej wydajności metody, co sugeruje, że białka te wymagają specjalistycznej metody wyszkolonej tylko z białkami transmembrany. Trudności w przewidywaniu struktury wtórnej białek przezbłonowych metodami CD wytrenowanymi z białkami kulistymi odnotowano już wcześniej .
wybraliśmy najlepsze struktury trzeciorzędowe odpowiadające białkom w zestawie referencyjnym z banku danych o białkach (protein Data Bank-PDB) . Użyliśmy programu DSSP na plikach PDB w celu przypisania drugorzędowej klasy struktury poszczególnym aminokwasom w każdym białku w zestawie referencyjnym. Przypisaliśmy Alfa-helisę do reszt białkowych oznaczonych jako h, a beta-nici do tych oznaczonych jako E, a następnie obliczyliśmy frakcję aminokwasów w białku w każdej konformacji (patrz Tabela 1). Oprócz CDDATA.43 widma, w zestawie treningowym zawarliśmy sześć dodatkowych widm referencyjnych z: trzech widm Poli (L-lizyny) w roztworze wodnym w konformacjach alfa, beta i losowych oraz trzech widm modelowych w konformacji alfa, beta i losowej zbudowanych z 15 białek .
Spectra SOM and secondary structure maps
Mapa neuronów 18 × 18 została przeszkolona z 49 widmami CD przy użyciu pakietu SOM_PAK . Małe różnice w rozmiarze Mapy i parametrach treningowych, które zapewniały płynne mapy, nie powodowały dużych różnic w wydajności. Ostateczna mapa została wyprodukowana przez średnio 100 losowo uruchomionych map. Po uzyskaniu widma SOM tworzymy dwie „mapy struktury wtórnej”, jedną dla Alfa-helisy i drugą dla nici beta. Zaczynamy od siatek 18 × 18 węzłów (takich samych rozmiarów jak SOM) i porównujemy każde widmo w zestawie treningowym z wektorami wagowymi związanymi z neuronami SOM. Biorąc pod uwagę widmo, znajdujemy jego” bliższy ” neuron na mapie SOM i przypisujemy ułamek struktury wtórnej odpowiedniego białka do równoważnego (tych samych współrzędnych) węzła w siatce. Aby uzyskać gładkie mapy (patrz rysunek 1), zamiast brać pod uwagę tylko bliższy neuron w widmie SOM, bierzemy pod uwagę liczbę N najbliższych neuronów, a końcowa wartość ułamka struktury wtórnej jest liniową kombinacją wartości odpowiednich neuronów ważonych odwrotnością ich odległości. Włączenie ponad 6 sąsiednich neuronów przyniosło najlepsze wyniki. Lepszą wydajność uzyskano, jeśli dodatkowe sześć widm referencyjnych nie zostało uwzględnionych w obliczeniach mapy struktury wtórnej, chociaż wydajność spadła, jeśli usunęliśmy je również z zestawu treningowego widm SOM. Dlatego zatrzymaliśmy je na szkolenie.
szacowany maksymalny błąd
w zasadzie, im dane widmo jest bardziej podobne do najbliższego węzła widmowego SOM, tym lepsze byłoby przewidywanie. Innymi słowy, jeśli spektrum różni się od wszystkiego, co metoda „wcześniej widziała” (jak w przypadku zestawu treningowego), nie można oczekiwać, że wyniki będą bardzo dokładne. Aby zapewnić użytkownikom oszacowanie maksymalnego całkowitego błędu prognozy (jako sumy błędów dla prognoz alfa i beta), użyliśmy odległości do najbliższej mapy węzła i odpowiednich zaobserwowanych całkowitych błędów z benchmarku. W danej odległości maksymalny błąd jest największym całkowitym błędem zaobserwowanym w wskaźniku. W związku z tym oczekuje się, że całkowity błąd przewidywania będzie mniejszy niż szacowany maksymalny błąd. Jeśli odległość jest większa niż cokolwiek zaobserwowanego w wskaźniku, podaje się komunikat wskazujący, że oszacowanie maksymalnego błędu nie jest możliwe; w tej sytuacji nie należy brać pod uwagę prognozowania struktury.
serwer WWW
K2D2 jest dostępny na stronie K2D2 . Użytkownicy muszą wybrać wejściowy Zakres długości fali (200-240 nm lub 190-240 nm) i podać widmo białka problemowego (patrz rysunek 1a). Widmo musi być w jednostkach Δε. Ponieważ wyniki są lepsze dla zakresu długości fali 190-240 nm, ta opcja jest zalecana, jeśli użytkownik może dostarczyć widma w tym zakresie, chociaż utrzymujemy wejście krótkiego zasięgu, ponieważ czasami trudno jest uzyskać pierwsze. Wyniki obejmują szacunkowe wartości procentowe pozostałości w Alfa-helisie i beta-nici, szacunkowy błąd przewidywania oraz graficzne porównanie przewidywanego Widma z danymi wejściowymi użytkownika (patrz rysunek 1B). Fabuła zapewnia wizualną ocenę dokładności prognozy.