K2D2: Schätzung der Proteinsekundärstruktur aus Zirkulardichroismusspektren
CD-Spektren und Strukturdaten
Eine Anzahl von 43 CD-Spektren von Proteinen wurde aus dem CDPRO-Referenzsatz CDDATA erhalten.43 konstruiert aus verschiedenen Mitwirkenden (W. C. Johnson und ). Es besteht aus Spektren für lösliche Proteine mit einer Vielzahl von Sekundärstrukturzusammensetzungen: hauptsächlich Alpha (Myoglobin, Hämoglobin, Hemerythrin usw.), hauptsächlich Beta (Elastase, Tumornekrosefaktor, Alpha-Chymotrypsin usw.) und Alpha/Beta (Triosephosphat-Isomerase, Lactatdehydrogenase, Lysozim, Thermolysin usw.) (siehe Tabelle 1). Unser Versuch, einen größeren CD-Datensatz zu verwenden, der 13 Transmembranproteine enthält, führte zu einer schlechteren Leistung der Methode, was darauf hindeutet, dass diese Proteine eine spezialisierte Methode erfordern, die nur mit Transmembranproteinen trainiert wird. Die Schwierigkeiten bei der Vorhersage der Sekundärstruktur von Transmembranproteinen mit CD-Methoden, die mit globulären Proteinen trainiert wurden, wurden bereits zuvor festgestellt .
Wir haben Tertiärstrukturen mit bester Auflösung ausgewählt, die den Proteinen im Referenzsatz aus der Proteindatenbank (PDB) entsprechen . Wir haben das DSSP-Programm für die PDB-Dateien verwendet, um den einzelnen Aminosäuren in jedem Protein im Referenzsatz eine Sekundärstrukturklasse zuzuweisen. Wir haben den als H markierten Proteinresten Alpha-Helix und den als E markierten Beta-Helix zugewiesen und dann den Anteil der Aminosäuren im Protein in jeder Konformation berechnet (siehe Tabelle 1). Zusätzlich zu den CDDATA.43 Spektren haben wir in den Trainingssatz sechs zusätzliche Referenzspektren aus aufgenommen: drei Spektren von Poly (L-Lysin) in wässriger Lösung in Alpha-, Beta- und Zufallskonformationen sowie drei Modellspektren in Alpha-, Beta- und Zufallskonformation aus 15 Proteinen .
Spektren SOM und Sekundärstrukturkarten
Eine Karte von 18 × 18 Neuronen wurde mit den 49 CD-Spektren unter Verwendung des Pakets SOM_PAK trainiert. Kleine Variationen der Kartengröße und der Trainingsparameter, die glatte Karten erzeugten, führten nicht zu großen Leistungsunterschieden. Die endgültige Karte wurde durch Mittelung von 100 zufällig gestarteten Karten erstellt. Sobald die Spektren SOM erhalten ist, produzieren wir zwei „Sekundärstrukturkarten“, eine für Alpha-Helix und eine andere für Beta-Strang. Wir beginnen mit Gittern von 18 × 18 Knoten (gleiche Größe wie das SOM) und vergleichen jedes Spektrum im Trainingssatz mit den Gewichtsvektoren, die den Neuronen des SOM zugeordnet sind. Bei einem gegebenen Spektrum finden wir sein „näheres“ Neuron in der SOM-Karte und ordnen den Anteil der Sekundärstruktur des entsprechenden Proteins dem äquivalenten (gleichen Koordinaten) Knoten im Gitter zu. Um glatte Karten zu erzeugen (siehe Abbildung 1), anstatt nur das nähere Neuron in den Spektren SOM zu betrachten, berücksichtigen wir eine Anzahl n der nächsten Neuronen, und der Endwert des Sekundärstrukturanteils ist die lineare Kombination der Werte der jeweiligen Neuronen gewogen durch die Umkehrung ihrer Entfernungen. Die Einbeziehung von mehr als 6 benachbarten Neuronen führte zu den besten Ergebnissen. Eine bessere Leistung wurde erzielt, wenn die zusätzlichen sechs Referenzspektren aus nicht in die Berechnung der Sekundärstrukturkarte einbezogen wurden, obwohl die Leistung abnahm, wenn wir sie auch aus dem Trainingssatz der Spektren SOM entfernten. Deshalb haben wir sie für das Training behalten.
Geschätzter maximaler Fehler
Je ähnlicher ein gegebenes Spektrum seinem nächsten SOM-Spektren-Knoten ist, desto besser wäre die Vorhersage. Mit anderen Worten, wenn sich ein Spektrum stark von dem unterscheidet, was die Methode „zuvor gesehen“ hat (wie beim Trainingssatz), kann nicht erwartet werden, dass die Ergebnisse sehr genau sind. Um den Benutzern eine Schätzung des maximalen Gesamtfehlers der Vorhersage (als Summe der Fehler für die Alpha- und Beta-Vorhersagen) zur Verfügung zu stellen, verwendeten wir die Entfernungen zur nächstgelegenen Knotenkarte und die entsprechenden beobachteten Gesamtfehler aus dem Benchmark. Bei einer gegebenen Entfernung ist der maximale Fehler der größte Gesamtfehler, der in der Benchmark beobachtet wurde. Somit wird erwartet, dass der Gesamtfehler für die Vorhersage kleiner als der geschätzte maximale Fehler ist. Wenn der Abstand größer ist als alles, was in der Benchmark beobachtet wird, wird eine Meldung angezeigt, die angibt, dass eine Schätzung des maximalen Fehlers nicht möglich ist; in dieser Situation sollte die Strukturvorhersage nicht berücksichtigt werden.
Webserver
Auf K2D2 kann auf der K2D2-Site zugegriffen werden. Benutzer müssen den Eingangswellenlängenbereich (200-240 nm oder 190-240 nm) auswählen und das Spektrum des Problemproteins angeben (siehe Abbildung 1A). Spektren müssen in Δε-Einheiten vorliegen. Da die Ergebnisse für den Wellenlängenbereich von 190-240 nm besser sind, wird diese Option empfohlen, wenn der Benutzer Spektren in diesem Bereich liefern kann, obwohl wir den Kurzstreckeneingang beibehalten, da es manchmal schwierig ist, den ersteren zu erhalten. Die Ergebnisse bestehen aus den geschätzten Werten für Prozentsätze der Rückstände in Alpha-Helix und Beta-Strang, einem geschätzten Fehler für die Vorhersage und einer Grafik, die das vorhergesagte Spektrum mit der Benutzereingabe vergleicht (siehe Abbildung 1B). Das Diagramm bietet eine visuelle Beurteilung der Genauigkeit der Vorhersage.