Articles

DNA-Datenspeicher mit hoher Kapazität mit Oligonukleotiden variabler Länge unter Verwendung von Repeat-Accumulate-Code und Hybrid-Mapping

Ein praktisches DNA-Datenspeichersystem mit hoher Kapazität

Wir begannen mit dem Aufbau einer Architektur zum Speichern und Abrufen von Daten aus einem DNA-basierten Speicher (Abb. 1 Buchstabe A). Die Benutzerdaten wurden zunächst in 11.400 binäre Benutzerpakete mit einer Paketlänge von jeweils 266 Bit segmentiert. Um Fehler zu korrigieren, die in jedem Stadium der DNA-Speicherprozesse auftreten, einschließlich Synthese, Amplifikation, Speicherung und Probenvorbereitung für die Sequenzierung, haben wir eine RA-Codierung auf binäre Benutzerpakete angewendet, bei denen 5% redundante / Paritätspakete generiert wurden. Mit jedem der 12.000 Binärpakete wurden 14 Bits für die Indizierung hinzugefügt, um die stochastischen Oligos zu ordnen, und 20 Bits wurden für die zyklische Redundanzprüfung (CRC) hinzugefügt, um die inneren Fehler in jedem Paket zu erkennen. Infolgedessen wurde die Gesamtzahl der Bits, die jedem Paket zugeordnet waren, 300 Bits (siehe zusätzliche Datei 1: Abbildung S4). Danach kartierten wir alle binären Sequenzen in DNA-Sequenzen durch das vorgeschlagene Hybrid-Mapping-Schema. Dann wurden die DNA-Sequenzen zur Oligos-Synthese an Twist Bioscience gesendet. Nachdem wir das synthetisierte Oligosulfat erhalten hatten, amplifizierten wir es mittels Polymerase-Kettenreaktion (PCR), bevor wir die Proben zur Sequenzierung mit Illumina HiSeq an NovogeneAIT schickten. In der letzten Phase analysierten und decodierten wir die Sequenzierungsdaten, um die DNA-Datensätze wieder in digitale Binärdaten umzuwandeln. Wir haben zuerst die RA-Sequenzlesungen aus dem Sequenzierungsergebnis heruntergesampelt und die Umkehrung der RA-Codierung und -Zuordnung durchgeführt, um die ursprünglichen Benutzerdaten fehlerfrei zu rekonstruieren und die Durchführbarkeit unserer Methode zu validieren.

Zusätzlich zur vollständigen Wiederherstellung der Daten unter Verwendung der Sequenzierungsergebnisse analysierten wir auch das vorgeschlagene DNA-basierte Speicherschema quantitativ und verglichen es mit anderen State-of-the-Art-Schemata, indem wir auf eine frühere Vergleichstabelle (Abb. 1 Buchstabe C). Die detaillierte Definition der Leistungsmetriken in der Tabelle ist in Zusätzlicher Datei 1: Abschnitt S7 beschrieben. In der Tabelle haben wir nur mit den Schemata verglichen, die unter der Prämisse des Oligo-Pool-Speicherformats entworfen und getestet wurden, bei dem die einzelsträngigen kurzen Oligos der Länge um 200nt synthetisiert wurden. Beachten Sie, dass bei der äquivalenten Annahme, viel längere DNA-Stränge wie 1000bp zu speichern, das vorgeschlagene Codierungsschema machbar bleibt und die Nettoinformationsdichte mit der Länge zunimmt, wodurch eine höhere Dichte als 1,84 Bit / Base über 1,74 Bit / Base erreicht wird (siehe zusätzliche Datei 1: Abschnitt S3).

Die hohe Nettoinformationsdichte von 1.67 bit/nt, die durch das vorgeschlagene DNA-basierte Speicherschema (Abb. 1(D)) ist hauptsächlich auf die folgenden zwei Techniken zurückzuführen, die wir verwendet haben. Erstens weist das vorgeschlagene hybride Abbildungsschema ein Abbildungspotential von 1,98 Bit / nt mit einem kleinen Abstand von 1% von der theoretischen oberen Grenze von 2 Bit / nt auf. Zweitens weist der optimierte RA-Code zur Fehlerkontrolle eine geringe Redundanz von 1,05 auf. Zusammen mit der 14-Bit-Indizierung und der 20-Bit-CRC erhält das Schema eine Nettoinformationsdichte von 1,67 Bit / nt, was 91% der Shannon-Kapazität ergibt (1,83 Bit / nt mit 0.5% Abbrecherquote), was 6% mehr ist als die zuletzt höchste gemeldete (Zusätzliche Datei 1: Abschnitt S3). Theoretisch ist die Zunahme unserer Informationsdichte im Vergleich dazu das kombinierte Ergebnis der etwas längeren DNA-Oligos variabler Länge (151nt-159nt versus 152nt, ohne Primerbindungsstellen), der geringeren Fehlerkontrollredundanz (1.05 versus 1.07) und der kürzeren Indizierung (14bits versus 32bits). Die Länge der DNA-Oligos ist aufwendig gestaltet, um die derzeit weit verbreiteten DNA-Synthesetechniken (TWIST Bioscience, USA) voll auszunutzen, mit denen 200nt lange Oligos effizient synthetisiert werden können. Das optimierte RA-Code-Design ergibt eine leicht reduzierte Fehlerkontrollredundanz mit der äquivalenten Annahme einer praktischen Dropout-Rate von 1,3% as , während die vollständige Wiederherstellung mit 10-facher Abdeckung (10,5x in) anzeigt, dass die Fehlerresistenz erhalten bleibt. Der deutlichste Unterschied ergibt sich bei der Indizierung, bei der wir 14 Bit ausschließlich zur Angabe der Reihenfolge der codierten 12000 Oligos verwenden, während 32 Bit zur Darstellung der für die Luby-Transformation erforderlichen Seeds verwendet werden, die die Grundlage für den Quellcode bilden, was zu redundanten Indizierungsbits führt.Um weiter zu verifizieren, dass die hohe Kapazitätsleistung des vorgeschlagenen Codierungsschemas mit zunehmender Datengröße (Skalierbarkeit) gut erhalten bleibt, schätzten wir die Nettoinformationsdichte für die Codierung von Datengrößen mit höheren Größen in Silico, d. H. Von 2 MB bis 2000 MB. Die geschätzten Dichten nehmen mit der exponentiellen Zunahme der Datengröße aufgrund der Zunahme der Indexierungslänge, die für die Aufzeichnung größerer Datengröße erforderlich ist, geringfügig ab (zusätzliche Datei 1: Abschnitt S3 und Fig. 1 Buchstabe E). Eine Dichte von 1, 66 Bit / nt wird zum Speichern von 2 MB Quelldaten erhalten, was immer noch 6% höher ist als . Darüber hinaus weisen sowohl der RA-Code als auch die Hybrid-Mapping-Strategie, die aus dem vorgeschlagenen Codierungsschema besteht, eine geringe Komplexität auf, die in der Praxis effizient implementiert werden kann. Insbesondere verhindert die Verwendung von RA-Code den potenziellen Decodierungsfehler (aufgrund des Verlusts von anfänglichen Einträgen zum Starten der Decodierung im Screening-Prozess) und die Adressredundanz, die bei DNA-Fountain auftreten können, und das Hybrid-Mapping erreicht ein sehr hohes Mapping-Potenzial, das mit DNA-Fountain wettbewerbsfähig ist, während eine hohe Komplexität vermieden wird, die bei den herkömmlichen eingeschränkten Blockcodes auftritt.

Zusätzlich schätzten wir rechnerisch die physikalische Dichte, die das vorgeschlagene Schema aufweisen könnte. Durch Verdünnungsexperimente beobachteten die Autoren in 4% Dropout-Rate mit einer Probe von 10pg DNA-Speicher, die fast ihre Decoder-Grenze näherte (das war durch die Code-Redundanz vorgegeben). Der in unserem Schema verwendete RA-Code wurde optimal mit einem Redundanzniveau unter der gleichen Annahme der Dropout-Rate entwickelt, die in berücksichtigt wurde . Wir haben auch gezeigt, dass unser Code theoretisch bis zu 4,75% Dropout-Rate tolerieren kann (Zusätzliche Datei 1: Abbildung S4), was über der 4% Dropout-Rate liegt, die bei der Sequenzierung von 10pg-Samples beobachtet wurde. Mit ähnlichen Decodierungsgrenzen würde unser vorgeschlagenes Schema wahrscheinlich genauso funktionieren wie die DNA-Decodierung in den niedermolekularen Experimenten (z. B. mit 10pg-Probe), da dieselben Experimentpipelines, Protokolle und Standards verwendet werden. Mit anderen Worten, das Codedesign in der Anfangsphase ermöglicht es, dass das vorgeschlagene System Daten aus fehleranfälligen Bedingungen in den Verdünnungsexperimenten ähnlich wie bei DNA-Tests wiederherstellen kann. Unter der Annahme von ∼1300 Molekülen pro Oligo im Durchschnitt, einer Sequenziertiefe von 511x und äquivalenten Pipelines, Protokollen und Standards wie dem 10pg-Verdünnungsexperiment in DNA fountain könnten wir rechnerisch abschätzen, dass unser Schema eine physikalische Dichte von 239 PB / g \(\ left (\ frac {266 * 11400/8\text {byte}}{1300*11400*1.0688*10^{-19}\ text {Gramm}}\rechts)\). Es ist jedoch ein strenges Experiment erforderlich, um diese rechnerisch geschätzte physikalische Dichte zu überprüfen.

RA-Code-Design und Hybrid-Mapping-Schema für die DNA-Speicherung

Wir haben ein Codierungsverfahren entwickelt, das RA-Code (Oligo-Level Repeat Accumulate) und ein effizientes Hybrid-Mapping-Schema umfasst.

RA-Code-Design

In herkömmlichen Kommunikationssystemen wird RA-Code auf Bitebene verwendet, wo redundante Bits erzeugt werden, um Ersetzungsfehler zu minimieren. Die DNA-Speicherung ist jedoch nicht nur anfällig für Substitutionsfehler, sondern auch für Insertions- und Deletionsfehler. Daher haben wir anstelle der herkömmlichen RA-Codierung auf Bitebene eine RA-Codierung auf Paketebene für die DNA-Speicherung entwickelt, so dass ein Paket, das Einfüge-, Lösch- oder Substitutionsfehlern ausgesetzt ist, durch RA-Decoder wiederhergestellt werden kann. Wie bereits beschrieben, haben wir eine große digitale Datei in kleinere Pakete gleicher Größe segmentiert. Diese Pakete wurden als die Quellpakete betrachtet, die verwendet wurden, um die redundanten oder Paritätspakete unter Verwendung von systematischem RA-Code zu erzeugen. 2(EIN). Beachten Sie, dass jedes Paket mit CRC integriert wurde, um Fehler im Paket zu erkennen. Für die Pakete, die den CRC-Test im Decoder bestanden haben, betrachteten wir sie als korrekt wiederhergestellt, während die anderen als gelöscht oder gelöscht angesehen wurden. Somit wurde das gesamte Codedesignproblem für den DNA-Speicher zum Codedesign für den Löschkanal. Um eine hohe Zuverlässigkeit zu gewährleisten, wurde das Codedesign unter Berücksichtigung einer etwas höheren Ausfallwahrscheinlichkeit als der tatsächlichen Ausfallwahrscheinlichkeit durchgeführt. In dieser Arbeit betrachteten wir die tatsächliche Abbrecherquote als 1.3%, die im Fountain Paper berichtet wurde . Daher haben wir den RA-Code so entworfen, dass der resultierende Code eine asymptotische Schwelle aufweist, die höher ist als die Dropout-Wahrscheinlichkeit von 0,013. Nach dem Optimierungsverfahren (siehe zusätzliche Datei 1: Abschnitt S2) haben wir einen RA-Code der Rate 0,95 entworfen, der eine asymptotische Schwelle von 0,0475 ergibt. Der resultierende Code zeigt nur eine Lücke von 0,0025 von der Kapazitätsgrenze des Shannon (0,05). Die simulierte Fehlerkorrekturleistung des entworfenen RA-Codes ist in zusätzlicher Datei 1: Abbildung S4 dargestellt. Aufgrund der Rate 0.95 RA code, wir erzeugt 600 redundante/parität pakete basierend auf 11,400 quelle pakete, erhalt 12,000 binäre pakete in insgesamt nach der codierung.

Abb. 2
figure2

Die Darstellung von RA-Codierungsstrategien (Repeat Accumulate) und der hybriden Abbildung. (A) Ein Beispiel für Rate \ (\frac {1} {2}\) RA-Code auf Paketebene mit 3 Quellpaketen. Ein i-tes Paritätspaket an der Position i wird durch bitweise Modulo-2-Summe des (i−1)-ten Paritätspakets und der Quellpakete, die mit dem i-ten X-OR-Knoten verbunden sind, erzeugt. (B) Das Flussdiagramm der Hybridkartierung. Jede binäre Sequenz wird zunächst über Binär-zu-Quartär-Mapping abgebildet. Mit einem der Verschachtelungsmuster kann die verschachtelte Sequenz mit dem Flag-Nukleotid, das am Ende angehängt ist, den Screening-Test bestehen, bei dem GC-Gehalt und Homopolymer überprüft werden, wobei eine gültige Sequenz ausgegeben wird. Andernfalls wird die ursprüngliche Binärsequenz an das VLC-Mapping (Variable-Length Constrained) gesendet. (C. i) Die FSTD eines (4, 0, 2) eingeschränkten DNA-Speichersystems, wobei 0, 1, 2 und 3 vier Übergangssymbole darstellen, die die Übergänge zwischen vier Nukleotidalphabeten anzeigen, und s0, s1 und s2 drei verschiedene Zustände darstellen, die die Länge aufeinanderfolgender 0 (kein Übergang) in den Ausgabe- (4, 0, 2) eingeschränkten Sequenzen aufzeichnen. (C. ii) Die Erzeugung eines Huffman-Codierungsbaums. Der Huffman-Codierungsbaum optimiert die Coderate, indem er das Quellwort mit hoher Auftrittsmöglichkeit auf das Codewort mit kurzer Länge und Versumkehr ausrichtet. (C. iii) Die VLC-Zuordnungsregel. Die Ausrichtung des Huffman-Codierungsbaums generiert eine Nachschlagetabelle zwischen Quellwörtern variabler Länge und Übergangscodewörtern variabler Länge. (C. iv) Die Strategie, die es dem Decodierer ermöglicht, zwei Mappings über die Länge der empfangenen DNA-Sequenz zu unterscheiden. (D) Das Flussdiagramm des Decoders. Der Decodierer unterscheidet zunächst das Abbildungsverfahren, das die empfangene Sequenz verwendet hat, und führt die assoziative Umkehrung durch. Die CRC-Prüfung entscheidet dann, ob die umgekehrte Binärfolge fehlerhaft ist oder nicht. Anschließend arbeitet der RA-Decoder daran, alle fehlerhaften Sequenzen wiederherzustellen. (E) Die Längenverteilung kartierter DNA-Sequenzen. Die Länge der resultierenden DNA-Sequenzen reicht von 150nt bis 159nt, wobei das verschachtelte Mapping nur Sequenzen mit der Länge von 151nt erzeugt, während Sequenzen mit anderen Längen alle durch das VLC-Mapping erzeugt werden

Hybrid-Mapping-Schema

Als nächstes betrachten wir die Darstellung der digitalen Daten im DNA-Kontext, die wir als DNA-Mapping bezeichnen. Eine DNA-Mapping-Strategie sollte es ermöglichen, dass die abgebildeten Oligosequenzen die biochemischen Einschränkungen erfüllen und somit Stabilität in die Lagerung bringen. Es gibt zwei solche Einschränkungen in DNA-Daten wie folgt: (i) Der GC-Gehalt (das Verhältnis der Gesamtzahl von ‚G‘ und ‚C‘ zur Gesamtzahl der Nukleotide in einer Sequenz) muss nahe bei 50% liegen (ii) Alle Homopolymer-Lauflängen (die Länge wiederholt aufeinanderfolgender Nukleotide) sollten kleiner als 4 sein . Beachten Sie, dass die binär-zu-quaternäre Abbildung, d. H. Die Abbildung von zwei Bits auf ein Nukleotid, das das optimale Abbildungspotential (2 Bits / nt) aufweist, die oben genannten Anforderungen nicht immer erfüllt. Stattdessen erfüllt es häufig nicht die maximale Homopolymerlaufbeschränkung. Die Einschränkungen, die bei der DNA-Datenspeicherung bestehen, verringern das effektive Kartierungspotential, was sich nachteilig auf die Kapazität der DNA-Datenspeicherung auswirkt. Daher untersuchten wir den Ansatz, eingeschränkten Code mit hoher Coderate zu entwerfen, und entwickelten eine Hybrid-Mapping-Strategie, um sicherzustellen, dass Oligosequenzen die biochemischen Anforderungen mit minimalen Opfern des Mapping-Potenzials erfüllen.

Dieses Mapping-Schema besteht aus zwei verschiedenen Mapping-Methoden, nämlich dem Interleaved-Mapping und dem VLC-Mapping. Die erste arbeitet aufgrund ihres annähernd optimalen Abbildungspotentials, d. H. 1, als primäre Abbildung.995 bit / nt und letzteres arbeitet als Backup, das ins Spiel kommt, wenn die erste Zuordnung keine gültigen DNA-Sequenzen erzeugt (dh Sequenzen, die den GC-Gehalt und die Homopolymer-Laufbeschränkungen erfüllen). Bei dem späteren Mapping-Verfahren wird eine Hilfs-Look-up-Tabelle mit geringer Codierungs- und Decodierungskomplexität aufgebaut. Inzwischen weist dieses Verfahren ein Abbildungspotential von 1,976 Bit / nt auf, das viel höher ist als die Blockcodes mit der äquivalenten Komplexität. Die Kombination dieser beiden Abbildungsstrategien ergibt ein durchschnittliches Abbildungspotential um 1,98 Bit/nt mit den stochastischen Daten. Mit anderen Worten, im schlimmsten Fall, in dem alle Daten mit VLC codiert werden, haben wir immer noch eine Schätzung des hohen Abbildungspotenzials (1,976 Bit / nt) erreicht. Im besten Fall, wenn alle Daten mit dem Interleaved Mapping abgebildet werden, könnten wir jedoch ein sehr hohes Potenzial von 1,995 Bit / nt erreichen.

Die digitalen Daten durchlaufen zunächst die Interleaved-Mapping-Methode, um die DNA-Sequenzen zu erzeugen. Beim Interleaved-Mapping-Verfahren werden die binären Sequenzen zunächst mittels Binär-zu-Quaternär-Mapping abgebildet. Mit zunehmender Oligolänge wird die GC-Inhaltsbeschränkung aufgrund der stochastischen Eigenschaft von Binärdaten häufig erfüllt. Diese Abbildung neigt jedoch dazu, die Homopolymerlaufbedingung nicht zu erfüllen. Um dieses Problem zu lösen, führen wir nach der Binär-zu-Quartär-Zuordnung einen Interleaver ein, der die ursprüngliche Reihenfolge der Nukleotidsequenzen verschlüsselt. Nach dem Interleaving wird ein Screening-Test durchgeführt, um den Homopolymerlauf der resultierenden Sequenz zu überprüfen. Wenn die resultierende Sequenz den Test besteht, wird diese Sequenz als gültige Sequenz für die Synthese angesehen, andernfalls wird die Verschachtelung erneut an der ursprünglichen Sequenz mit einem anderen Verschachtelungsmuster durchgeführt. In dieser Arbeit betrachten wir 4 vordefinierte Verschachtelungsmuster, wobei ein Flag-Nukleotid (A / T / G / C) am Ende der verschachtelten DNA-Sequenz angehängt wird, um das Verschachtelungsmuster anzuzeigen (Zusätzliche Datei 1: Abschnitt S8). Beachten Sie, dass das angehängte Flag-Nukleotid bei der Bestimmung des Homopolymerlaufs der Sequenz während des Screening-Tests enthalten ist. Wir verwenden nur ein zusätzliches (Flag-) Nukleotid, um eine hohe Nettoinformationsdichte aufrechtzuerhalten. Folglich ist die Anzahl der Interleaving-Versuche auf 4 begrenzt. Wenn die Sequenz die Anforderung nach der maximalen Anzahl von Versuchen immer noch nicht erfüllt, wird die Sequenz an die VLC-Zuordnungsmethode gesendet (Abb. 2(B) und zusätzliche Datei 1: Abschnitt S4).

Das VLC-Mapping ist von der Konstruktion von VLCS-Code (Variable-Length Constrained Sequence) inspiriert, der üblicherweise verwendet wird, um Daten in eingeschränkten Systemen, wie optischen Aufzeichnungssystemen, in denen Lauflängenbegrenzung und DC-freie Probleme auftreten, in einschränkende Codes zu codieren . In einem DNA-Speicherszenario, in dem ähnliche Einschränkungen bestehen, kann der VLCS-Code effektiv in eine Zuordnungsmethode geändert werden. Beachten Sie, dass, da wir den RA-Code auf Paketebene für die Fehlerkontrolle verwenden, die von VLCS-Code angeführte Fehlerausbreitung in einem Paket begrenzt ist und keinen Einfluss auf die Gesamtabbruchrate der codierten Sequenzen hat.

Wir haben diese Zuordnungsregel in den folgenden vier Schritten generiert. Unter Berücksichtigung der Einschränkung der maximalen Homopolymerläufe wurde der DNA-basierte Speicher zunächst als eingeschränktes System mit Lauflängengrenze (RLL) angesehen, das mit (M, d, k) bezeichnet ist, wobei M = 4, d = 0 und k = 2 (Zusätzliche Datei 1: Abschnitt S5). Dementsprechend wurde das Finite State Transition Diagram (FSTD) des (4,0,2) homopolymer-eingeschränkten DNA-Datenspeichers erzeugt (Zusätzliche Datei 1: Abschnitt S5 und Fig. 2 C, i)). In der zweiten Stufe, basierend auf der generierten FSTD, folgerten wir, dass die Kapazität des (4, 0, 2) homopolymer-eingeschränkten DNA-Speichers 1,982 Bits / nt beträgt (Zusätzliche Datei 1: Abschnitt S5). Wir haben auch eine vollständige Minimalmenge (eine endliche Menge von Wörtern, deren Verkettungen alle möglichen einschränkungserfüllenden Sequenzen enthalten) festgelegt, wobei wir alle Wörter aufgezählt haben, die aus dem Zustand s0 in Fig. 2 C, i). Infolge. wir haben eine minimale Menge {1,2,3,01,02,03,001,002,003} erhalten, in der alle Elemente einschränkungsbefriedigend und präfixfrei sind. Diese beiden Eigenschaften stellen sicher, dass jede Verkettung der Elemente dieser Menge einschränkungserfüllende Sequenzen erzeugt, die potenzielle Übergangscodewörter für das eingeschränkte System sind. Beachten Sie, dass sich der resultierende Übergangscodewortsatz auf die Tiefe und Breite der Verkettung bezieht. Um die Codierungskomplexität zu reduzieren, haben wir direkt den vollständigen Minimalsatz als Übergangscodewortsatz verwendet.

In der dritten Stufe haben wir den Huffman-Codierungsbaum verwendet, um eine optimale Zuordnung von der binären Quellwortmenge variabler Länge zu der oben genannten Übergangscodewortmenge zu generieren (Abb. 2 C, ii). Diese optimale Eins-zu-Eins-Zuordnung ergab eine durchschnittliche Coderate von 1,976 Bit/nt (Abb. 2(C, iii) und siehe zusätzliche Datei 1: Abschnitt S5). Inzwischen nähert sich die Effizienz dieser Abbildung \(\sigma =\frac {1.976}{1.982}=99.7\%\), präsentieren nur 0.3% Lücke von der Kapazität des (4,0,2) eingeschränktes System. In Bezug auf das Abbildungspotential übertrifft dieses Mapping den in vorgeschlagenen blockbeschränkten Code , bei dem ein (4,0,2) eingeschränkter Code unter Verwendung von 39nt-DNA-Blöcken als Codewörter konstruiert wurde, wodurch ein Abbildungspotential von 1,95 Bit / nt erreicht wurde. Außerdem ist der 39nt-Blockcode auch für die traditionelle DNA-Datenspeicherung unpraktisch, bei der viel längere DNA-Sequenzen (Codewörter), dh 200nt, berücksichtigt werden. Im Gegensatz dazu weist der Mapping-Ansatz mit variabler Länge unabhängig von der Gesamtlänge der resultierenden Oligosequenzen eine geringe Codierungskomplexität auf.

In der letzten Stufe haben wir nach dem aufeinanderfolgenden Zuordnen der Quellwörter zu den Übergangscodewörtern für jede Binärsequenz eine Vorcodierung der codierten quaternären Sequenzen gemäß der Zustandsänderungsfunktion yj = yj-1+xj (mod M) durchgeführt, wobei yj das aktuelle Vorcodierungssymbol für den Ausgang ist, yj-1 das letzte vorcodierte Ausgabesymbol ist, xj das aktuelle Eingabesymbol ist, M die Alphabetgröße des Systems ist. Diese Vorcodierung überträgt den codierten (M, d, k) eingeschränkten Code in den (M, d + 1, k + 1) RLL-Code. Wir wandelten dann die quartären Symbole von {0,1,2,3} in {‚A‘, ‚T‘, ‚C‘, ‚G‘ } um und erhielten die endgültigen Oligosequenzen, die die Bedingung erfüllen, dass kein Homopolymer größer als 3nt ist. Ein Beispiel für diese Mapping-Strategie finden Sie in Zusätzlicher Datei 1: Abschnitt S6.

Durch das Hybrid-Mapping-Schema generierten wir 12.000 DNA-Sequenzen mit einer Längenverteilung von 150nt bis 159nt (ohne 40nt Primerstellen) für den binären Datenstrom (Abb. 2 Buchstabe E). Insbesondere wurde die Länge der Sequenzen, die über das verschachtelte Mapping abgebildet wurden, 151nt, während die Länge der Sequenzen, die über das VLC-Mapping abgebildet wurden, von 150, 152 bis 159nt reichte. Beachten Sie, dass es keine Sequenz mit einer Länge von 151nt gab, die aus der VLC-Kartierung stammte, da ein Nukleotid hinzugefügt wurde, um diese 151nt-kartierte Sequenz zu 152nt zu machen (Abb. 2 C, iv). Das hinzugefügte Nukleotid sollte zwischen den Kartierungsmethoden unterscheiden. Dies ermöglicht die Verwendung eines korrekten De-Mappings während der Wiederherstellung der im Decoder gespeicherten Daten.

Zum Abrufen von Daten werden die vorbereiteten Sequenzen aus dem Sequenzierungsprozess an den Decoder gesendet, um die Benutzerdaten wiederherzustellen (Abb. 2 Buchstabe D). Der Decoder unterscheidet zunächst die Zuordnungsmethode. Wenn die Länge der empfangenen Sequenz 151nt beträgt, wendet der Decodierer die Umkehrung der verschachtelten Zuordnung basierend auf dem Flag-Nukleotid und der Binär-zu-Quaternär-Zuordnungsregel an. Andernfalls wendet der Decoder die Umkehrung der VLC-Zuordnung an, wobei die Umkehrung der Vorcodierung und Zuordnung durchgeführt wird. Danach wird jede umgekehrte Binärsequenz basierend auf der CRC-Prüfung entweder als eine korrekte oder als eine Löschsequenz angesehen. Schließlich stellt der RA-Decoder mit einem Nachrichtenübermittlungsalgorithmus alle gelöschten Sequenzpakete basierend auf den Verbindungen zwischen Paketen wieder her.

Sequenzierungsergebnisse und Datenwiederherstellungsanalyse

Nach der Sequenzierung des synthetisierten Oligos-Pools erhielten wir von NovogeneAIT über 10 Millionen rohe Sequenzlesungen in einer Gesamtgröße von 3,2 Gigabyte. Diese Sequenzen umfassen verrauschte Lesevorgänge, die während der Sequenzierung erzeugt werden. Basierend auf den Sequenzierungsergebnissen analysierten wir zunächst die Zuverlässigkeit der Sequenzierungsdaten in Bezug auf Datenqualitätsprüfung, A / T / G / C-Gehaltsverteilung und Fehlerratenverteilung. Basierend auf dem Fehleranalyseergebnis untersuchten wir dann die Zuverlässigkeit unseres Decodierungsschemas bei der Wiederherstellung der codierten Daten mit unterschiedlichen Stichprobenabdeckungen.

Sequenzierungsergebnisse

Wir haben den Qualitätswert für jede Basisposition entlang der sequenzierten Lesevorgänge analysiert, um die Datenqualität zu bewerten. Der Qualitätsfaktor ist eine Schätzung der Zuverlässigkeit der sequenzierten Lesevorgänge, die sich auf die Fehlerrate jeder Basisposition bezieht. Es wird berechnet durch Q = -10log10e, wobei e die Fehlerrate der Basisposition ist . Die Qualitätswerte jeder Basis der Sequenzierungslesungen reichen von 30 bis 40 (Abb. 3(A)), was eine hohe Qualität darstellt. Ferner beobachten wir, dass die Fehlerrate mit der Erweiterung der sequenzierten Lesevorgänge zunimmt, während mit einer durchschnittlichen Rate von 0,015% in jeder Basis entlang der Lesevorgänge (Abb. 3(B)). Dies ist wahrscheinlich auf den Verbrauch von Sequenzierungsreagenz zurückzuführen, das ein häufiges Phänomen in der Illumina-Hochdurchsatz-Sequenzierungsplattform ist, die auf der Sequenzierung durch Synthese (SBS) -Technologie basiert . Wie erwartet weisen die ersten Basen eine höhere Sequenzierungsfehlerrate auf als andere. Dies könnte auf die Fokussierung des Fluoreszenzbildsensors des Sequenzierers zurückzuführen sein, der zu Beginn der Sequenzierung möglicherweise nicht empfindlich genug ist. Infolgedessen ist die Qualität der erfassten Fluoreszenzlesung gering. Es sei daran erinnert, dass die Sequenzen an beiden Enden mit einem Paar von 20nt-Primerbindungsstellen angehängt wurden und daher die ersten fehleranfälligen Basen (etwa 6nt) keinen Einfluss auf die Decodierung haben, da der CRC-Test und die RA-Codierung / -decodierung durch Ausschluss der Bindungsstellen konzipiert wurden. Mit anderen Worten, eine Sequenz wird vom CRC-Decoder aufgrund der Fehler an anderen Positionen (außerhalb von Primern) als gelöscht identifiziert.

Abb. 3
figure3

Sequenzierung Ergebnisanalyse und Datenwiederherstellung. (A) Der Qualitätswert jeder Basisposition entlang der Strecke. Der erste halbe Teil der x-Achse dient zum Lesen von 1 und der zweite halbe Teil zum Lesen von 2. (B) Die Fehlerrate jeder Basisposition entlang der Lesevorgänge. Der erste halbe Teil der Verteilung ist für Lesevorgänge 1 und der zweite halbe Teil für Lesevorgänge 2. (C) Der Basisinhalt jeder Basisposition entlang der Linie. A/T/G/C den Typ der Nukleotide und N ein verlorenes Nukleotid, das eines von A/T/G/C sein kann. Beachten Sie, dass für (a), (b) und (c) read 1 und read 2 durch zufällige Sequenzierung entweder vom Ende jeder Sequenz erhalten werden. D) Das experimentelle Verfahren zur Datenwiederherstellung. Die amplifizierten und präparierten synthetischen Oligoproben werden unter Verwendung der Illumina HiSeq-Sequenzierungstechnologie sequenziert. Mit fünf Sätzen von Downsampling-Tests werden zufällig ausgewählte Teile der Rohsequenzlesungen in verschiedenen Größen an den Decoder gesendet, wo die gespeicherten Dateien wiederhergestellt werden. (E) Die Anzahl der korrekt wiederhergestellten Sequenzen gegen die Abdeckung. Die schwarzen Kreismarkierungen repräsentieren wiederhergestellte Sequenzen vor der RA-Decodierung und Diamantmarker repräsentieren wiederhergestellte Sequenzen nach der RA-Decodierung. Unter den Diamantmarkierungen stellen rote eine teilweise Wiederherstellung dar, während grüne eine vollständige Wiederherstellung darstellen

In Abb. 3(C) wird eine Basisinhaltsverteilung von A, T, C und G entlang der Reads dargestellt, um die Verteilung des GC-Gehalts zu zeigen. Nach dem Prinzip der komplementären Basen sollte der Gehalt an AT und GC bei jedem Sequenzierungszyklus gleich sein und während des gesamten Sequenzierungsverfahrens konstant und stabil sein. Bemerkenswerterweise betrug der beobachtete mittlere GC-Gehalt in einer Sequenzierungslesung und in jeder Basisposition unabhängig von den ersten 20nt beide etwa 50%. Der Grund für die Verteilung in den ersten 20nt liegt an den beiden Bindungsstellen an beiden Enden. Die Verteilung zeigt, dass der GC-Gehalt der sequenzierten Oligos die biochemische Einschränkung gut erfüllt und somit einen stabilen Sequenzierungsprozess gewährleistet.

Datenwiederherstellungsanalyse

Um die Code-Resilienz unseres entworfenen RA-Fehlerkorrektur-Codierungsschemas zu überprüfen, untersuchten wir die Datenwiederherstellungsleistung des Schemas über verschiedene Abdeckungen in Abb. 3(D). Dies gibt uns eine Schätzung der Fehlerresistenz des entworfenen RA-Codes gegen unterschiedliche Ausfallraten aufgrund unterschiedlicher Deckungen. Es gibt einige unbrauchbare Rohsequenzen in den empfangenen Sequenzierungslesungen, da ihre Länge außerhalb des akzeptablen Bereichs liegt. Um verschiedene Coverages (von 8x bis 12x) nachzuahmen, haben wir Datensätze unterschiedlicher Größe generiert, indem wir zufällige Downsampling auf die nutzbaren Rohsequenzen durchgeführt haben, in denen die Verteilung jedes Nachrichten-Oligos variieren kann. Für eine Abdeckung von 8x haben wir beispielsweise die verwendbaren Rohsequenzen zufällig heruntergesampelt, um einen Datensatz von 96.000 Rohsequenzen zu generieren. Für jede Abdeckung haben wir 5 verschiedene zufällig heruntergesampelte Datensätze generiert und die durchschnittliche Sequenzierungs- und Decodierungsleistung bestimmt. Für jede Rohsequenz führten wir ein De-Mapping durch, um die Nukleotidsequenz in eine binäre Sequenz umzuwandeln, und führten einen CRC-Test durch, um fehlerlose / korrekte Sequenzen zu identifizieren. Die durchschnittliche Anzahl fehlerfreier Sequenzen für jede Abdeckung ist in Abb. 3(E) (schwarze Punkte), wie erwartet, es erhöht sich mit der Zunahme der Abdeckung. Die fehlerlosen Sequenzen wurden dann dem RA-Decoder zugeführt, um die fehlerhaften Sequenzen wiederherzustellen. Wir beobachteten, dass der Decoder ab einer Abdeckung von 10x für jede Abdeckung die ursprünglichen Sequenzen in 5 von 5 zufälligen Downsampling-Experimenten perfekt wiederherstellen konnte (grüne Diamanten in Abb. 3 Buchstabe E). Dies zeigt, dass der Decoder robust ist, um fehlerhafte Daten mit der minimalen Abdeckung von 10x wiederherzustellen, wobei 3,3% der Oligosequenzen fehlerhaft waren (d. H. Eine Dropout-Rate von 3,3%)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.