Articles

High capacity DNA data storage with variable-length Oligonucleotides using repeat accumulate code and hybrid mapping

een praktisch DNA data storage systeem met hoge capaciteit

We zijn begonnen met het construeren van een architectuur voor het opslaan van gegevens en het ophalen van gegevens uit een DNA-gebaseerde opslag (Fig. 1, onder A)). De gebruikersgegevens werden eerst gesegmenteerd in 11.400 binaire gebruikerspakketten met elke pakketlengte van 266 bits. Om fouten te corrigeren die zich voordoen in elk stadium van de DNA-opslagprocessen, waaronder synthese, versterking, opslag en monstervoorbereiding voor sequencing, hebben we een RA-codering toegepast op binaire gebruikerspakketten waar 5% redundante/pariteit pakketten werden gegenereerd. Met elk van de 12.000 binaire pakketten, werden 14 bits toegevoegd voor indexering om de stochastische oligos te bestellen en 20 bits werden toegevoegd voor Cyclic Redundancy Check (CRC) om de interne fouten in elk pakket te detecteren. Als gevolg hiervan werd het totale aantal bits per pakket 300 bits (zie bijkomend bestand 1: Figuur S4). Daarna hebben we alle binaire sequenties in DNA-sequenties in kaart gebracht via het voorgestelde hybride schema. Toen werden de opeenvolgingen van DNA gestuurd om Bioscience voor oligossynthese te verdraaien. Na het ontvangen van de gesynthetiseerde oligospool, versterkten wij het gebruikend polymerasekettingreactie (PCR) alvorens de steekproeven naar NovogeneAIT te verzenden voor het rangschikken gebruikend Illumina HiSeq. In de laatste fase hebben we de sequentiegegevens geanalyseerd en gedecodeerd om de DNA-records terug te zetten naar digitale binaire gegevens. We hebben eerst de millions sequence reads van het sequencing resultaat naar beneden gesampled en het omgekeerde van RA-codering en mapping uitgevoerd om de originele gebruikersgegevens zonder fouten te reconstrueren, waardoor de haalbaarheid van onze methode werd gevalideerd.

naast de volledige recuperatie van gegevens met behulp van de sequencing resultaten, hebben we ook kwantitatief het voorgestelde DNA-gebaseerde opslagschema geanalyseerd en vergeleken met andere state-of-the-art schema ‘ s, door te verwijzen naar een eerdere vergelijkingstabel (Fig. 1, onder C)). De gedetailleerde definitie van prestatiemetingen in de tabel wordt beschreven in aanvullend bestand 1: sectie S7. In de tabel hebben we alleen vergeleken met de schema ‘ s die werden ontworpen en getest met het uitgangspunt van het oligo pool-opslagformaat waar de single-stranded korte oligos met een lengte van ongeveer 200nt werden gesynthetiseerd. Merk op dat met de gelijkwaardige aanname van het opslaan van veel langere DNA-strengen zoals, dat wil zeggen, 1000bp, het voorgestelde coderingsschema haalbaar blijft, en de netto informatiedichtheid zal toenemen met de lengte, het bereiken van een hogere dichtheid dan , dat wil zeggen, 1,84 bits/base over 1,74 bits/base (zie aanvullend dossier 1: sectie S3).

De hoge netto informatiedichtheid van 1.67 bits / nt bereikt door het voorgestelde DNA-gebaseerde opslagschema (Fig. 1 (D)) is voornamelijk te wijten aan de volgende twee technieken die we hebben gebruikt. Ten eerste vertoont het voorgestelde hybride karteringsschema 1,98 Bits/nt karteringspotentieel met een kleine kloof van 1% ten opzichte van de theoretische bovengrens van 2 bits/nt. Ten tweede heeft de geoptimaliseerde Ra-code voor foutcontrole een kleine redundantie van 1,05. Samen met de 14 beetjes die en 20 beetjes CRC indexeren, verkrijgt de regeling 1,67 beetjes/nt netto informatiedichtheid, die 91% van de Shannon capaciteit (1,83 beetjes/nt met 0 opleveren.5% uitval), dat is 6% meer dan de laatste hoogste gemeld in (aanvullend bestand 1: sectie S3). Theoretisch, vergeleken met, de toename van onze informatiedichtheid is het gecombineerde resultaat van de iets langere variabele lengte DNA oligos (151nt-159nt versus 152nt, exclusief primer bindingsplaatsen), de minder fout controle redundantie (1,05 versus 1,07), en de kortere indexering (14bits versus 32bits). De lengte van DNA-oligos wordt uitvoerig ontworpen om volledig gebruik te maken van de huidige wijd beschikbare DNA-synthesetechnieken (TWIST Bioscience, US), die efficiënt 200nt lange oligos kunnen samenstellen. Het geoptimaliseerde Ra-codeontwerp geeft licht verminderde redundantie van de foutcontrole met de gelijkwaardige aanname van het aanpakken van 1,3% praktische uitval als, terwijl het volledige herstel met 10x dekking (10,5 x in ) aangeeft dat de fout veerkracht wordt gehandhaafd. Het meest duidelijke verschil ontstaat in de indexering, waarbij we 14 bits alleen gebruiken voor het aangeven van de volgorde van gecodeerde 12000 oligos, terwijl 32 bits gebruikt om de zaden te vertegenwoordigen die nodig zijn voor Luby-transformatie die de basis van Fontein code stelt, wat resulteert in redundante indexering bits.

om verder te controleren of de hoge capaciteitsprestaties van het voorgestelde coderingsschema goed behouden blijven bij toenemende gegevensgrootte (schaalbaarheid), schatten we de netto informatiedichtheid voor het coderen van gegevensgrootte met hogere magnitudes in silico, d.w.z. van 2MB tot 2000MB. De geschatte dichtheid neemt licht af met de exponentiële toename van de gegevensgrootte als gevolg van de toename van de indexering lengte die nodig is voor het opnemen van Grotere gegevensgrootte (extra bestand 1: sectie S3 en Fig. 1, onder E)). Een dichtheid van 1,66 bits / nt wordt verkregen voor het opslaan van 2MB brongegevens, die nog steeds 6% hoger is dan . Bovendien zijn zowel de RA-code als de hybride karteringsstrategie, die uit het voorgestelde coderingsschema bestaat, weinig complex en in de praktijk efficiënt te implementeren. In het bijzonder voorkomt het gebruik van RA-code de mogelijke decoderingsfout (door het verlies van initiële ingangen voor het starten van decodering in het screeningsproces) en pakt redundantie aan die zich kan voordoen in DNA-fontein, en de hybride mapping bereikt een zeer hoog mappingpotentieel dat concurrerend is met DNA-fontein, terwijl hoge complexiteit wordt vermeden die in de conventionele beperkte blokcodes aanwezig is.

bovendien schatten we de fysische dichtheid die het voorgestelde schema zou kunnen vertonen. Door verdunning experimenten, auteurs in waargenomen 4% uitval tarief met een steekproef van 10PG DNA-opslag, die bijna hun Decoder limiet benaderd (dat was vooraf bepaald door de code redundantie). De RA-code die in onze regeling werd gebruikt, was optimaal ontworpen met een niveau van redundantie onder dezelfde aanname van uitvalpercentage als in . We hebben ook aangetoond dat theoretisch onze code kan tolereren tot 4.75% dropout rate (extra bestand 1: Figuur S4), die boven de 4% dropout rate waargenomen in het sequencing 10PG sample. Met vergelijkbare decoding limiet, zou ons voorgestelde schema waarschijnlijk hetzelfde werken als DNA fontein in de low moleculaire experimenten (bijvoorbeeld met 10PG monster) als gevolg van het gebruik van dezelfde experiment pijpleidingen, protocollen en normen. Met andere woorden, het codeontwerp in de eerste fase maakt het mogelijk dat het voorgestelde systeem gegevens kan herstellen van foutgevoelige omstandigheden in de verdunningsexperimenten die vergelijkbaar zijn met DNA-fontein. Onder de aanname van 13 1300 moleculen per oligo in gemiddelde, sequentiediepte van 511x, en equivalente pijpleidingen, protocollen en normen als het 10PG-verdunningsexperiment in DNA-fontein, kunnen we computationeel schatten dat ons schema een fysieke dichtheid van 239 PB/g \(\left (\frac {266*11400/8 \ text {byte}}{1300*11400*1.0688*10^{-19}\tekst {gram}} \ right)\). Er is echter een rigoureus experiment nodig om deze rekenkundig geschatte fysische dichtheid te verifiëren.

Ra code design and hybrid mapping scheme for DNA storage

We ontwierpen een coderingsmethode die oligo-level repeat accumulate (RA) code en een efficiënt hybride mapping scheme omvat.

Ra-codeontwerp

in traditionele communicatiesystemen wordt RA-code gebruikt op bit-niveau, waar redundante bits worden gegenereerd om substitutiefouten te beperken. Nochtans, is de opslag van DNA naar voren gebogen aan niet alleen substitutiefouten maar ook aan toevoeging en schrappingsfouten. Daarom, in plaats van de conventionele bit-level RA-codering, ontwierpen we een packet level RA-codering voor DNA-opslag, zodat een pakket dat onderhevig is aan invoeging, verwijdering of substitutiefouten kan worden hersteld via RA-decoder. Zoals eerder beschreven, hebben we een groot digitaal bestand gesegmenteerd in kleinere pakketten van dezelfde grootte. Deze pakketten werden beschouwd als de bronpakketten die werden gebruikt om de redundante of pariteitspakketten te genereren met behulp van systematische Ra-code Fig. 2, onder A). Merk op dat elk pakket werd opgenomen met CRC om fouten in het pakket te detecteren. Voor de pakketten die de CRC-test in de decoder hebben doorstaan, beschouwden we ze als correct hersteld, terwijl de andere werden beschouwd als verwijderd of gewist. Zo werd het algemene codeontwerp probleem voor de DNA-opslag het codeontwerp voor het verwijderingskanaal. Om een hoge betrouwbaarheid te garanderen, werd het codeontwerp uitgevoerd door een iets hogere uitvalkans te overwegen dan de werkelijke uitvalkans. In dit werk beschouwden we de werkelijke uitval als 1,3% die werd gemeld in de fontein papier . Zo ontwierpen we de RA-code zodanig dat de resulterende code een asymptotische drempel vertoonde die hoger was dan de uitvalkans van 0,013. Na de optimalisatieprocedure (zie aanvullend dossier 1: sectie S2) hebben we een RA-code van tarief 0,95 ontworpen, die een asymptotische drempel van 0,0475 geeft. De resulterende code toont slechts een kloof van 0,0025 ten opzichte van de Shannons capaciteitslimiet (0,05). De gesimuleerde foutcorrectie van de ontworpen RA-code wordt weergegeven in aanvullend bestand 1: Figuur S4. Vanwege het tarief 0.95 Ra code, we gegenereerd 600 redundante / pariteit pakketten op basis van 11.400 bron pakketten, ontvangen 12.000 binaire pakketten in totaal na het coderen.

Fig. 2
figure2

de illustratie van de coderingsstrategieën voor Repeat Accumulate (RA) en de hybride mapping. (A) een voorbeeld van rate \(\frac {1}{2}\) packet level RA code met 3 bronpakketten. Een IDE pariteitspakket op positie i wordt gegenereerd door bit-wise modulo-2 som van het (i−1)th pariteitspakket en de bronpakketten die verbonden zijn met de IDE X-of node. B) het stroomschema van de hybride mapping. Elke binaire reeks wordt aanvankelijk in kaart gebracht via binaire-naar-quaternaire toewijzing. Met één van interleaving patronen, zou de Interleaved opeenvolging met het vlaggennucleotide aan het eind kunnen overgaan de onderzoekstest waar de inhoud van GC en homopolymeer worden gecontroleerd, die een geldige opeenvolging uitvoeren. Anders wordt de oorspronkelijke binaire reeks naar de variabele-length constrained (VLC) – toewijzing gestuurd. (C. i) de FSTD van een (4, 0, 2) beperkt DNA-opslagsysteem, waar 0, 1, 2, en 3 vier overgangssymbolen vertegenwoordigen die de overgangen tussen vier nucleotide alfabetten aangeven, en s0, s1 en s2 drie verschillende toestanden vertegenwoordigen die de lengte van opeenvolgende 0 ‘ s (geen overgang) in de output (4, 0, 2) beperkte sequenties registreren. (C. ii) de generatie van een Huffman-codeerboom. De Huffman codering boom optimaliseert de codesnelheid door het uitlijnen van het bronwoord met hoge voorkomen mogelijkheid om het codewoord met korte lengte en vers vice. (C. iii) de VLC-mapping rule. De uitlijning van Huffman codering boom genereert een look-up tabel tussen variabele lengte bronwoorden en variabele lengte overgang codewoorden. (C. iv) de strategie om de decoder in staat te stellen twee afbeeldingen te onderscheiden aan de hand van de lengte van de ontvangen DNA-sequentie. D) het stroomschema van de decoder. De decoder onderscheidt eerst de mapping methode die de ontvangen reeks heeft gebruikt en voert de associatieve omgekeerde. De CRC-controle bepaalt dan of de omgekeerde binaire reeks fouten bevat of niet. Daarna werkt de RA decoder om alle sequenties in fouten te herstellen. E) de verdeling van de lengten van de in kaart gebrachte DNA-sequenties. De lengte van resulterende DNA-sequenties varieert van 150nt tot 159nt, waarbij de Interleaved mapping alleen sequenties genereert met de lengte van 151nt, terwijl sequenties met andere lengtes allemaal worden gegenereerd door de VLC mapping

hybride mapping schema

vervolgens beschouwen we de digitale gegevens in DNA-context die we aanduiden als DNA-mapping. Een strategie van het in kaart brengen van DNA zou de in kaart gebrachte oligo opeenvolgingen moeten toelaten die de biochemische beperkingen tevredenstellen, waarbij stabiliteit aan de opslag wordt gebracht. Er zijn twee van dergelijke beperkingen in DNA-gegevens als volgt: i) het GC-gehalte (de verhouding tussen het totale aantal ” G ” en ” C ” en het totale aantal nucleotiden in een sequentie) moet dicht bij 50% liggen; ii) Alle homopolymeerlooplengten (de lengte van repetitief opeenvolgende nucleotiden) moeten kleiner zijn dan 4 . Merk op dat de binary-to-quaternary mapping, d.w.z. het in kaart brengen van twee bits aan één nucleotide, die het optimale mapping potential (2 bits/nt) vertoont, niet altijd voldoet aan de bovengenoemde vereisten. In plaats daarvan voldoet het vaak niet aan de maximale homopolymer Run-beperking. De beperkingen die in de opslag van DNA-gegevens bestaan verminderen het efficiënte in kaart brengen potentieel, die de capaciteit van de opslag van DNA-gegevens nadelig beà nvloeden. Daarom onderzochten we de aanpak van het ontwerpen van beperkte code met hoge codesnelheid en ontwikkelden we een hybride karteringsstrategie om ervoor te zorgen dat oligo-sequenties voldoen aan de biochemische eisen met minimale opoffering van het karteringspotentieel.

Dit mapping schema bestaat uit twee verschillende mapping methoden, namelijk de interleaved mapping en de VLC mapping. De eerste werkt als de primaire mapping vanwege zijn ongeveer optimale mapping potentieel, dat wil zeggen 1.995 bits / nt en de laatste werkt als de back-up die in het spel komt wanneer de eerste mapping er niet in slaagt om geldige DNA-sequenties te produceren (dat wil zeggen, sequenties die voldoen aan de GC-inhoud en homopolymeer Run beperkingen). In de latere mapping-methode wordt een extra opzoektabel geconstrueerd met een lage codering-en decoderingscomplexiteit. Ondertussen, vertoont deze methode een 1.976 Bits/nt mapping potentieel dat veel hoger is dan de blokcodes met de equivalente complexiteit. De combinatie van deze twee mapping strategieën resulteert in een gemiddeld mapping potentieel rond 1,98 bits/nt met de stochastische gegevens. Met andere woorden, in het worst-case scenario waar alle gegevens worden gecodeerd met behulp van VLC, hebben we nog steeds een hoge mapping potentiële schatting (1,976 bits/nt). Echter, in het beste geval wanneer alle gegevens in kaart worden gebracht met behulp van de Interleaved mapping, kunnen we een zeer hoog potentieel van 1.995 bits/nt bereiken.

De digitale gegevens gaan eerst door de Interleaved mapping methode om de DNA-sequenties te genereren. In de Interleaved mapping methode worden de binaire sequenties eerst in kaart gebracht met behulp van binaire-naar-quaternaire mapping. Met de toenemende oligo lengte, GC inhoud beperking is vaak tevreden als gevolg van de stochastische functie van binaire gegevens. Nochtans, neigt deze het in kaart brengen om de homopolymer looppasbeperking niet te voldoen. Om dit probleem op te lossen, introduceren we een interleaver na de binaire-naar-quaternaire mapping, die de oorspronkelijke volgorde van de nucleotidesequenties vervormt. Na interleaving wordt een screeningtest uitgevoerd om de homopolymeerloop van de resulterende sequentie te controleren. Als de resulterende sequentie de test doorstaat, wordt die sequentie beschouwd als een geldige sequentie voor synthese, anders wordt de interleaving opnieuw uitgevoerd op de oorspronkelijke sequentie met een ander interleavingpatroon. In dit werk beschouwen we 4 vooraf gedefinieerde interleaving patronen, waarbij een flag nucleotide (A/T/G/C) wordt toegevoegd aan het einde van de interleaved DNA sequentie om het interleaving patroon aan te geven (aanvullend bestand 1: sectie S8). Merk op dat het toegevoegde vlaggennucleotide is opgenomen in het bepalen van de homopolymeerloop van de sequentie tijdens de screeningtest. We gebruiken slechts één extra (vlag) nucleotide om een hoge netto informatiedichtheid te behouden. Bijgevolg is het aantal interleaving-proeven beperkt tot 4. Als de sequentie na het maximale aantal proeven nog steeds niet aan de vraag voldoet, wordt de sequentie naar de VLC-mapping-methode gestuurd (Fig. 2 (B) en aanvullend dossier 1: sectie S4).

De VLC-toewijzing is geïnspireerd door de constructie van VLCS-code (variable-length constrained sequence), die vaak wordt gebruikt om gegevens te coderen in codes die voldoen aan beperkingen in systemen met beperkingen, zoals optische opnamesystemen waar run-length limit en DC-free problemen optreden . In het opslagscenario van DNA waar gelijkaardige beperkingen bestaan, kan de VLCS-code effectief aan een in kaart brengende methode worden gewijzigd. Merk op dat als we de RA-code op pakketniveau gebruiken voor foutcontrole, de foutvoortplanting onder leiding van VLCS-code beperkt is in één pakket en geen invloed heeft op de totale uitval van de gecodeerde sequenties.

we hebben deze mapping regel in de volgende vier stappen gegenereerd. Ten eerste, rekening houdend met de beperking van de maximale homopolymeer runs, werd de op DNA gebaseerde opslag gezien als een beperkt systeem met run-length limit (RLL), aangeduid door (M,d, k), waar M=4, d=0 en k=2 (aanvullend dossier 1: sectie S5). Dienovereenkomstig, werd de eindige toestandstransitiediagram (FSTD) van de (4,0,2) homopolymeer-beperkte gegevensopslag van DNA gegenereerd (aanvullend dossier 1: sectie S5 en Fig. 2 (C, i)). In de tweede fase, gebaseerd op de gegenereerde FSTD, concludeerden we dat de capaciteit van de (4, 0, 2) homopolymeer beperkte DNA-opslag 1.982 bits/nt is (aanvullend bestand 1: sectie S5). We hebben ook een complete minimale verzameling (een eindige verzameling van woorden waarvan de concatenaties alle mogelijke constraint-bevredigende sequenties bevatten ), waar we alle woorden opgesomd die afkomstig zijn van en eindigen in de toestand s0 in Fig. 2 (C, i). Als gevolg daarvan. we kregen een minimale verzameling {1,2,3,01,02,03,001,002,003}, waarin alle elementen constraint-bevredigend en prefix-vrij zijn. Deze twee eigenschappen zorgen ervoor dat elke aaneenschakeling van de elementen van deze verzameling constraint-bevredigende sequenties produceert die potentiële overgang codewoorden zijn voor het beperkte systeem. Merk op dat de resulterende overgang codewoord set betrekking heeft op de diepte en breedte van de aaneenschakeling. Om de coderingscomplexiteit te verminderen, gebruikten we direct de complete minimal set als de transitie codeword set.

in de derde fase gebruikten we de Huffman codering boom om een optimale toewijzing te genereren van de variabele lengte binaire bron woord set naar de bovengenoemde overgang codewoord set (Fig. 2 (C, ii)). Deze optimale één-op-één opdracht gaf een gemiddelde codesnelheid van 1,976 bits/nt (Fig. 2 (C, iii) en zie aanvullend dossier 1: sectie S5). Ondertussen benadert de efficiëntie van deze mapping \(\sigma = \ frac {1.976}{1.982}=99.7\%\), met slechts 0,3% verschil ten opzichte van de capaciteit van het (4,0,2) beperkte systeem. In termen van mapping potential, deze mapping presteert beter dan de blok beperkte code voorgesteld in , waarin een (4,0,2) beperkte code werd geconstrueerd met behulp van 39nt DNA blokken als de codewoorden, het bereiken van 1,95 bits/nt mapping potential. Bovendien is de 39nt blokcode ook onpraktisch voor traditionele DNA-gegevensopslag waar een veel langere DNA-sequenties (codewoorden), d.w.z. 200nt, worden overwogen. In tegenstelling, heeft de veranderlijk-lengte het in kaart brengen benadering lage coderingscomplexiteit ongeacht de totale lengte van de resulterende oligo opeenvolgingen.

in de laatste fase, na het toewijzen van de bronwoorden aan de overgang codewoorden in opeenvolgende tegen elke binaire reeks, hebben we precodering uitgevoerd op de gecodeerde quaternaire reeksen volgens de change-of-state functie yj=yj−1+xj(mod M), waarbij yj het huidige uitgang precoding symbool is, yj−1 Het Laatste uitgang voorgecodeerde symbool, xj is het huidige invoer symbool, M is de alfabet grootte van het systeem. Dit voorcoderen zal de gecodeerde (M,d,k) beperkte code overbrengen naar de (M,d+1,k+1) RLL code. Vervolgens converteerden we de quaternaire symbolen van {0,1,2,3} naar {‘A’, ‘T’, ‘C’, ‘G’ } en verkregen we de laatste oligo-sequenties die voldoen aan de beperking van geen homopolymeer groter is dan 3nt. Een voorbeeld van deze mapping strategie is te vinden in aanvullend bestand 1: sectie S6.

via het hybride mapping schema, genereerden we 12.000 DNA-sequenties met een lengteverdeling variërend van 150nt tot 159nt (exclusief 40nt van primer sites) voor de binaire datastroom (Fig. 2, onder E)). Specifiek, werd de lengte van opeenvolgingen die via het interleaved in kaart brengen 151nt in kaart bracht, terwijl de lengte van opeenvolgingen die via VLC in kaart bracht zich van 150, 152 tot 159nt uitstrekte. Merk op dat er geen opeenvolging met lengte van 151nt was die uit VLC in kaart brengen voortkwam aangezien één nucleotide werd toegevoegd om deze 151nt in kaart gebrachte opeenvolging te maken om 152nt te zijn (Fig. 2 (C, iv)). Het toegevoegde nucleotide moest onderscheid maken tussen de in kaart gebrachte methoden. Dit maakt het gebruik van correcte de-mapping tijdens het herstel van de opgeslagen gegevens in de decoder mogelijk.

om gegevens op te halen, worden de voorbereide sequenties van het sequentieproces naar de decoder gestuurd om de gebruikersgegevens te herstellen (Fig. 2, onder D)). De decoder onderscheidt eerst de mapping methode. Als de lengte van de ontvangen opeenvolging 151nt is, past de decoder het omgekeerde van interleaved mapping toe gebaseerd op de vlagnucleotide en de binair-aan-quaternaire mapping regel. Anders past de decoder het omgekeerde van VLC-toewijzing toe, waarbij het omgekeerde van de voorcodering en toewijzing wordt uitgevoerd. Daarna wordt elke omgekeerde binaire opeenvolging beschouwd als een correcte of een Wissen op basis van de CRC-controle. Tenslotte, met een bericht doorgeven algoritme, de RA decoder herstelt alle gewiste volgorde pakketten op basis van de verbindingen tussen pakketten.

sequencing results and data recovery analysis

na de sequencing van de gesynthetiseerde oligos pool, ontvingen we meer dan 10 miljoen ruwe sequencing reads in totaal 3,2 Gigabyte van NovogeneAIT. Deze opeenvolgingen omvatten lawaaierige leest die tijdens het rangschikken worden geproduceerd. Op basis van de sequencing resultaten hebben we eerst de betrouwbaarheid van de sequencing data geanalyseerd in termen van data quality examination, A/T/G/C content distribution en error rate distribution. Op basis van het resultaat van de foutanalyse hebben we vervolgens de betrouwbaarheid van ons decoderingsschema bestudeerd bij het herstellen van de gecodeerde gegevens met verschillende sample coverages.

Sequencing results

We analyseerden de kwaliteitswaarde voor elke basispositie langs de sequenced reads om de gegevenskwaliteit te evalueren. De kwaliteitsscore is een schatting van de betrouwbaarheid van de gesequenced reads die betrekking heeft op het foutenpercentage van elke basispositie. Het wordt berekend door Q=−10log10e, waarbij e het foutenpercentage van de basispositie is . De kwaliteitsscores van elke basis van het rangschikken lezen variëren van 30 tot 40 (Fig. 3a), die een hoge kwaliteit vertegenwoordigt. Verder merken we op dat het foutenpercentage toeneemt met de uitbreiding van sequenced leest, terwijl met een gemiddeld tarief van 0,015% in elke basis langs de leest (Fig. 3, onder B)). Dit is waarschijnlijk toe te schrijven aan de consumptie van het rangschikken van reagens, dat een gemeenschappelijk fenomeen in het high-throughput van Illumina rangschikkend platform is dat bij het rangschikken door synthese (SBS) technologie wordt gebaseerd . Zoals verwacht, hebben de eerste verscheidene basissen hoger het rangschikken foutenpercentage dan anderen. Dit zou aan het concentreren van de sensor van het de fluorescentiebeeld van de sequencer het ontdekken element kunnen toe te schrijven zijn dat bij het begin van het rangschikken niet gevoelig genoeg kan zijn. Dientengevolge, is de kwaliteit van verworven fluorescentielezing laag. Bedenk dat de sequenties werden toegevoegd met een paar 20nt primer binding sites aan beide uiteinden en dus de eerste verschillende foutgevoelige bases (rond 6nt) hebben geen invloed op decodering, als de CRC-test en RA codering/decodering werden ontworpen door het uitsluiten van de binding sites. Met andere woorden, een reeks zal worden geïdentificeerd als gewist door de CRC decoder als gevolg van de fouten in andere posities (buiten primers).

Fig. 3
figure3

Sequencing result analysis and data recovery. (A) de kwaliteitswaarde van elke basispositie langs de leest. De eerste helft van de x-as is voor leest 1 en de tweede helft is voor leest 2. (B) het foutenpercentage van elke basispositie langs de meetwaarden. De eerste helft van de verdeling is voor reads 1 en de tweede helft is voor reads 2. (C) de basisinhoud van elke basispositie langs de leest. A / T / G/C geeft het type nucleotiden aan en N geeft een verloren nucleotide aan die om het even welk van A/T/G / C kan zijn. De verdeling wordt gescheiden door twee reads, merk op dat Voor (a), (b) en (c), gelezen 1 en gelezen 2 worden verkregen uit willekeurig sequencing van ofwel het einde van elke sequentie. D) de experimentele procedure voor de terugwinning van gegevens. De versterkte en voorbereide synthetische oligo steekproeven worden gerangschikt gebruikend Illumina HiSeq het rangschikken technologie. Met vijf sets van down-sampling proeven, verschillende maten van willekeurig gekozen delen van de Raw-volgorde leest worden verzonden naar de decoder waar de opgeslagen bestanden worden hersteld. E) het aantal correct teruggewonnen sequenties tegenover de dekking. De zwarte cirkel markers vertegenwoordigen herstelde sequenties vóór Ra decodering en diamant markers vertegenwoordigen herstelde sequenties Na RA decodering. Onder de diamantmarkeringen staan rode Voor gedeeltelijk herstel, terwijl groene voor volledig herstel

in Fig. 3 (C), een basisinhoud distributie van A, T, C en G langs de leest wordt gepresenteerd om de distributie van de GC inhoud te tonen. Volgens het principe van aanvullende basissen, zou de inhoud van AT en GC bij elke het rangschikken cyclus gelijk moeten zijn en constant en stabiel in de gehele het rangschikken procedure moeten zijn. Met name, de waargenomen gemiddelde GC inhoud in een sequencing gelezen en in elke basispositie waren zowel rond 50% ongeacht de eerste 20nt. De reden voor de verdeling in de eerste 20sa is te wijten aan de twee bindingsplaatsen in beide uiteinden. De distributie toont aan dat het GC-gehalte van de gesequenced oligos goed aan de biochemische beperking voldoet en daarom een stabiel sequencingproces verzekert.

Data recovery analysis

om de codebestendigheid van ons ontworpen ra foutcorrectie coderingsschema te controleren, bestudeerden we de data recovery performance van het schema over verschillende dekkingen in Fig. 3, Onder D). Dit geeft ons een schatting van de foutbestendigheid van de ontworpen RA-code tegen verschillende uitvalpercentages als gevolg van uiteenlopende Dekkingen. Er bestaan sommige onbruikbare ruwe opeenvolgingen in ontvangen het rangschikken leest wegens hun lengte die buiten de aanvaardbare waaier zijn. Om verschillende coverages (van 8x tot 12x) te imiteren, hebben we datasets van verschillende groottes gegenereerd door willekeurige down-sampling uit te voeren op de bruikbare raw-sequenties, waarbij de distributie van elk bericht oligo kan variëren. Bijvoorbeeld, voor dekking van 8x, hebben we willekeurig de bruikbare raw-sequenties gesampled om een dataset van 96.000 raw-sequenties te genereren. Voor elke dekking, genereerden we 5 verschillende willekeurig down-sampled datasets en bepaalden de gemiddelde sequencing en decodering Prestaties. Voor elke ruwe opeenvolging, voerden wij de-mapping uit om de nucleotideopeenvolging in binaire opeenvolging om te zetten en voerden CRC-test uit om foutloze/correcte opeenvolgingen te identificeren. Het gemiddelde aantal foutloze sequenties voor elke dekking wordt weergegeven in Fig. 3 (E) (zwarte stippen), zoals verwacht, neemt het toe met de toename van de dekking. De foutloze opeenvolgingen werden toen aan de RA-decoder gevoerd om de foutieve opeenvolgingen terug te krijgen. We merkten op dat vanaf de dekking 10x en verder, voor elke dekking, de decoder in staat was om de originele sequenties in 5 van 5 willekeurige down-sampling experimenten perfect te herstellen (groene diamanten in Fig. 3, onder E)). Dit toont aan dat de decoder robuust is om foutieve gegevens te herstellen met een minimale dekking van 10x, waarbij 3,3% van de oligo-sequenties foutief waren (d.w.z. een uitvalpercentage van 3,3%)

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *