Articles

DNA-datalagring med høj kapacitet med oligonukleotider med variabel længde ved hjælp af gentag akkumuleringskode og hybridkortlægning

et praktisk DNA-datalagringssystem med høj kapacitet

vi startede med at konstruere en arkitektur til lagring af data og hentning af data fra en DNA-baseret lagring (Fig. 1 A)). Brugerdataene blev først segmenteret i 11.400 binære brugerpakker med hver pakkelængde på 266 bit. For at rette fejl, der opstår fra ethvert trin i DNA-lagringsprocesserne, herunder syntese, amplifikation, lagring og prøveforberedelse til sekventering, anvendte vi en RA-kodning på binære brugerpakker, hvor 5% redundante/paritetspakker blev genereret. Med hver af de 12.000 binære pakker blev der tilføjet 14 bit til indeksering for at bestille de stokastiske oligoer, og 20 bit blev tilføjet til cyklisk Redundanskontrol (CRC) for at detektere de indvendige fejl i hver pakke. Som et resultat blev det samlede antal bits forbundet med hver pakke 300 bits (se yderligere fil 1: Figur S4). Bagefter kortlagde vi alle binære sekvenser i DNA-sekvenser gennem det foreslåede hybridkortlægningsskema. Derefter blev DNA-sekvenserne sendt for at vride Bioscience til oligossyntese. Efter at have modtaget den syntetiserede oligos-pool forstærkede vi den ved hjælp af polymerasekædereaktion (PCR), inden vi sendte prøverne til NovogeneAIT til sekventering ved hjælp af Illumina Hisek. I sidste fase analyserede og afkodede vi sekventeringsdataene for at konvertere DNA-posterne tilbage til digitale binære data. Vi samplede først millions-sekvensen fra sekventeringsresultatet og udførte det modsatte af RA-kodning og kortlægning for at rekonstruere de originale brugerdata uden fejl, validering af gennemførligheden af vores metode.

ud over den fulde gendannelse af data ved hjælp af sekventeringsresultaterne analyserede vi også kvantitativt det foreslåede DNA-baserede lagringsskema og sammenlignede det med andre avancerede ordninger ved at henvise til en tidligere sammenligningstabel (Fig. 1 (C)). Den detaljerede definition af præstationsmålinger i tabellen er beskrevet i yderligere fil 1: Afsnit S7. I tabellen sammenlignede vi kun med de ordninger, der blev designet og testet med forudsætningen for oligo pool storage format, hvor de enkeltstrengede korte oligoer af længde omkring 200nt blev syntetiseret. Bemærk, at med den tilsvarende antagelse om at lagre meget længere DNA-tråde som , dvs.1000bp, forbliver det foreslåede kodningsskema muligt, og netinformationstætheden vil stige med længden og opnå højere densitet end, dvs. 1,84 bit/base over 1,74 bit/base (se yderligere fil 1: Afsnit S3).

den høje netinformationstæthed på 1.67 bits / nt opnået ved det foreslåede DNA-baserede lagringsskema (Fig. 1 (D)) skyldes hovedsageligt følgende to teknikker, som vi har brugt. For det første udviser den foreslåede hybridkortlægning 1,98 bit/nt kortlægningspotentiale med et lille hul på 1% fra den teoretiske øvre grænse på 2 bit/nt. For det andet har den optimerede RA-kode til fejlkontrol en lille redundans på 1,05. Sammen med 14 bit indeksering og 20 bit CRC opnår ordningen 1,67 bit/nt netto informationstæthed, hvilket giver 91% af Shannon-kapaciteten (1,83 bit/nt med 0.5% frafaldsprocent), hvilket er 6% mere end den sidste højeste rapporterede i (yderligere fil 1: Afsnit S3). Teoretisk set sammenlignet med stigningen i vores informationstæthed er det kombinerede resultat af de lidt længere DNA-oligoer med variabel længde (151nt-159nt versus 152nt, eksklusive primerbindingssteder), jo mindre fejlkontrolredundans (1,05 versus 1,07) og den kortere indeksering (14bit versus 32bit). Længden af DNA-oligoer er udførligt designet til at gøre fuld brug af de nuværende bredt tilgængelige DNA-synteseteknikker (vrid Bioscience, USA), som effektivt kan syntetisere 200nt lange oligoer. Det optimerede RA-kodedesign giver let reduceret fejlkontrolredundans med den tilsvarende antagelse om at adressere 1,3% praktisk frafaldsprocent as , mens den fulde gendannelse med 10 gange dækning (10,5 tommer ) indikerer, at fejlens modstandsdygtighed opretholdes. Den mest tydelige forskel opstår i indekseringen, hvor vi kun bruger 14 bit til at indikere rækkefølgen af kodede 12000 oligoer, mens vi bruger 32 bit til at repræsentere de frø, der kræves til Luby-transformation, som sætter grundlaget for springvandskode, hvilket resulterer i overflødige indekseringsbit.

for yderligere at verificere, at den foreslåede kodningsskemas høje kapacitetsydelse opretholder godt med stigende datastørrelse (skalerbarhed), estimerede vi netinformationstætheden til kodning af datastørrelse med højere størrelser i silico, dvs.fra 2 MB til 2000 MB. De estimerede tætheder falder lidt med de eksponentielle stigninger i datastørrelse på grund af stigningen i indekseringslængden, der kræves til registrering af større datastørrelse (yderligere fil 1: Afsnit S3 og Fig. 1, litra E)). En densitet på 1,66 bits/nt opnås til lagring af 2 MB kildedata, som stadig er 6% højere end . Derudover har både RA-koden og hybridkortlægningsstrategien, der består af den foreslåede kodningsordning, en lav kompleksitet, der er effektiv at implementere i praksis. Især forhindrer brugen af RA-kode den potentielle afkodningsfejl (på grund af tabet af indledende poster til start af afkodning i screeningsprocessen) og adresserer redundans, der kan opstå i DNA-springvand, og hybridkortlægningen opnår et meget højt kortlægningspotentiale, der er konkurrencedygtigt med DNA-springvand, samtidig med at man undgår høj kompleksitet, der udviser i de konventionelle begrænsede blokkoder.

derudover estimerede vi beregningsmæssigt den fysiske tæthed, som den foreslåede ordning kunne udvise. Gennem fortyndingseksperimenter observerede forfattere 4% frafaldshastighed med en prøve på 10PG DNA-opbevaring, som næsten nærmede sig deres dekodergrænse (det var forudbestemt af koderedundansen). RA-koden, der blev brugt i vores ordning, blev optimalt designet med et niveau af redundans under den samme antagelse om frafald, der blev overvejet i . Vi har også vist, at vores kode teoretisk kan tolerere op til 4.75% frafaldsprocent (yderligere fil 1: Figur S4), hvilket er over 4% frafaldsprocenten observeret i sekventering 10pg prøve. Med lignende afkodningsgrænse vil vores foreslåede ordning sandsynligvis fungere det samme som DNA-springvand i lavmolekylære eksperimenter (f.eks. med 10pg-prøve) på grund af brugen af de samme eksperimentrørledninger, protokoller og standarder. Med andre ord muliggør kodedesignet i den indledende fase, at det foreslåede system kunne gendanne data fra fejlbehæftede forhold i fortyndingseksperimenterne svarende til DNA-springvand. Under antagelse af 1300 molekyler pr. oligo i gennemsnit, sekventeringsdybde på 511 gange og ækvivalente rørledninger, protokoller og standarder som 10pg-fortyndingseksperimentet i DNA-springvand, kunne vi beregningsmæssigt estimere, at vores skema vil opnå en fysisk tæthed på 239 PB / g \(\left (\frac {266 * 11400/8 \ tekst {byte}}{1300*11400*1.0688*10^{-19}\tekst {gram}} \ højre)\). Imidlertid kræves et strengt eksperiment for at verificere denne beregningsmæssigt estimerede fysiske tæthed.

RA-kodedesign og hybridkortlægning til DNA-lagring

Vi designede en kodningsmetode, der omfatter oligo-niveau gentag akkumuleringskode (RA) og en effektiv hybridkortlægning.

RA-kodedesign

i traditionelle kommunikationssystemer bruges RA-kode på bitniveau, hvor overflødige bits genereres for at afbøde substitutionsfejl. Imidlertid er DNA-lagring tilbøjelig til ikke kun substitutionsfejl, men også til indsætnings-og sletningsfejl. Derfor, i stedet for den konventionelle bitniveau RA-kodning, vi designede en pakkeniveau RA-kodning til DNA-opbevaring, således at en pakke udsat for indsættelse, sletning, eller substitutionsfejl kunne gendannes gennem RA-dekoder. Som beskrevet tidligere har vi segmenteret en stor digital fil i mindre pakker af samme størrelse. Disse pakker blev betragtet som kildepakkerne, der blev brugt til at generere de overflødige eller paritetspakker ved hjælp af systematisk RA-kode Fig. 2 A). Bemærk, at hver pakke blev indarbejdet med CRC for at opdage fejl i pakken. For de pakker, der bestod CRC-testen i dekoderen, betragtede vi dem som korrekt genoprettet, mens de andre blev betragtet som tabt eller slettet. Således blev det overordnede kodedesignproblem for DNA-lagringen kodedesignet til sletningskanalen. For at sikre høj pålidelighed blev kodedesignet udført ved at overveje en lidt højere frafaldssandsynlighed end den faktiske frafaldssandsynlighed. I dette arbejde betragtede vi den faktiske frafaldsprocent som 1.3%, som blev rapporteret i springvandspapiret . Således designede vi RA-koden således, at den resulterende kode udviste en asymptotisk tærskel højere end dropout-sandsynligheden for 0,013. Efter optimeringsproceduren (se yderligere fil 1: Afsnit S2) designede vi en RA-kode på 0,95, hvilket giver en asymptotisk tærskel på 0,0475. Den resulterende kode viser kun et hul på 0,0025 fra Shannons kapacitetsgrænse (0,05). Den simulerede fejlkorrektionsydelse for den designede RA-kode vises i yderligere fil 1: Figur S4. På grund af satsen 0.95 RA-kode, vi genererede 600 redundante / paritetspakker baseret på 11.400 kildepakker, der modtog 12.000 binære pakker i alt efter kodning.

Fig. 2
figur2

illustrationen af gentagne Akkumuleringsstrategier (RA) og hybridkortlægningen. (A) Et eksempel på SATS \(\frac {1}{2}\) pakkeniveau RA-kode med 3 kildepakker. En ith-paritetspakke i position i genereres af bitvis modulo−2 summen af (i-1)paritetspakken og kildepakkerne, der er forbundet til ith-noden. B) rutediagrammet for hybridkortlægningen. Hver binær sekvens kortlægges oprindeligt via binær til Kvartær kortlægning. Med et af interleaving mønstre, den interleaved sekvens med flag nukleotid tilføje i slutningen kan bestå screeningstesten, hvor GC-indhold og homopolymer kontrolleres, udsender en gyldig sekvens. Ellers sendes den originale binære sekvens til VLC-kortlægningen med variabel længde. (C. I) FSTD for et (4, 0, 2) begrænset DNA-lagringssystem, hvor 0, 1, 2 og 3 repræsenterer fire overgangssymboler, der angiver overgange mellem fire nukleotidalfabeter, og s0, s1 og s2 repræsenterer tre forskellige tilstande, der registrerer længden af på hinanden følgende 0 ‘ er (ingen overgang) i output (4, 0, 2) begrænsede sekvenser. (C. ii) genereringen af et Huffman-kodende træ. Huffman-kodningstræet optimerer kodehastigheden ved at tilpasse kildeordet med mulighed for høj forekomst til kodeordet med kort længde og vers vice. (C. iii) VLC-kortlægningsreglen. Justeringen af Huffman coding tree genererer en opslagstabel mellem kildeord med variabel længde og kodeord med variabel længde. (C. iv) strategien for at gøre det muligt for dekoderen at skelne mellem to kortlægninger via længden af den modtagne DNA-sekvens. D) dekoderens rutediagram. Dekoderen skelner først den kortlægningsmetode, den modtagne sekvens har brugt, og udfører den associative omvendt. CRC-kontrollen beslutter derefter, om den omvendte binære sekvens er i fejl eller ej. Bagefter arbejder RA-dekoderen for at gendanne alle sekvenser i fejl. E) fordelingen af længder af kortlagte DNA-sekvenser. Længden af resulterende DNA-sekvenser spænder fra 150nt til 159nt, hvor den interleaved kortlægning kun genererer sekvenser med længden af 151nt, mens sekvenser med andre længder alle genereres af VLC-kortlægningen

Hybrid kortlægningsskema

dernæst overvejer vi at repræsentere de digitale data i DNA-kontekst, som vi betegner som DNA-kortlægning. En DNA-kortlægningsstrategi skal muliggøre de kortlagte oligosekvenser, der opfylder de biokemiske begrænsninger, hvilket bringer stabilitet til lageret. Der er to sådanne begrænsninger i DNA-data som følgende: (i) GC-indholdet (forholdet mellem det samlede antal ‘G’ og ‘C’ mod det samlede antal nukleotider i en sekvens) skal være tæt på 50% (ii) Alle homopolymer-løbelængder (længden af gentagne på hinanden følgende nukleotider) skal være mindre end 4 . Bemærk, at den binære til kvaternære kortlægning, dvs.kortlægning af to bits til et nukleotid, der udviser det optimale kortlægningspotentiale (2 bits/nt), ikke altid opfylder ovennævnte krav. I stedet undlader det ofte at overholde den maksimale homopolymer – løbsbegrænsning. De begrænsninger, der findes i DNA-datalagring, reducerer det effektive kortlægningspotentiale, hvilket påvirker kapaciteten af DNA-datalagring negativt. Derfor udforskede vi tilgangen til at designe begrænset kode med høj kodehastighed og udviklede en hybrid kortlægningsstrategi for at sikre, at oligo-sekvenser opfylder de biokemiske krav med minimal ofring af kortlægningspotentialet.

dette kortlægningssystem består af to forskellige kortlægningsmetoder, nemlig den sammenflettede kortlægning og VLC-kortlægningen. Den første fungerer som den primære kortlægning på grund af dets omtrent optimale kortlægningspotentiale, dvs.1.995 bits / nt, og sidstnævnte fungerer som den sikkerhedskopi, der kommer i spil, når den første kortlægning ikke producerer gyldige DNA-sekvenser (dvs.sekvenser, der tilfredsstiller GC-indholdet og homopolymer-kørebegrænsninger). I den senere kortlægningsmetode er en hjælpeopslagstabel konstrueret med lav kodnings-og afkodningskompleksitet. I mellemtiden udviser denne metode et 1.976 bit/nt-kortlægningspotentiale, som er meget højere end blokkoderne med den tilsvarende kompleksitet. Kombinationen af disse to kortlægningsstrategier resulterer i et gennemsnitligt kortlægningspotentiale omkring 1,98 bit/nt med de stokastiske data. Med andre ord, i værste fald, hvor alle data er kodet ved hjælp af VLC, opnåede vi stadig et højt kortlægningspotentialestimat (1.976 bits/nt). I det bedste tilfælde, når alle data kortlægges ved hjælp af den sammenflettede kortlægning, kunne vi imidlertid opnå et meget stort potentiale på 1.995 bits/nt.

de digitale data går først gennem den sammenflettede kortlægningsmetode for at generere DNA-sekvenserne. I den sammenflettede kortlægningsmetode kortlægges de binære sekvenser først ved hjælp af binær til kvaternær kortlægning. Med den stigende oligolængde er GC-indholdsbegrænsning ofte opfyldt på grund af det stokastiske træk ved binære data. Denne kortlægning har imidlertid en tendens til ikke at tilfredsstille homopolymer-løbsbegrænsningen. For at løse dette problem introducerer vi en interleaver efter den binære til kvaternære kortlægning, som krypterer den oprindelige rækkefølge af nukleotidsekvenserne. Efter interleaving udføres en screeningstest for at kontrollere homopolymerkørslen af den resulterende sekvens. Hvis den resulterende sekvens består testen, betragtes denne sekvens som en gyldig sekvens til syntese, ellers udføres interleaving igen på den oprindelige sekvens med et andet interleaving mønster. I dette arbejde overvejer vi 4 foruddefinerede interleaving mønstre, hvor et flag nukleotid (a/T/G/C) tilføjes i slutningen af den interleaved DNA-sekvens for at indikere interleaving mønster (yderligere fil 1: Afsnit S8). Bemærk, at det vedlagte flagnukleotid er inkluderet i bestemmelsen af homopolymerkørslen af sekvensen under screeningstesten. Vi bruger kun et ekstra (flag) nukleotid til at opretholde en høj netinformationstæthed. Derfor er antallet af interleaving forsøg begrænset til 4. Hvis sekvensen stadig ikke opfylder efterspørgslen efter det maksimale antal forsøg, sendes sekvensen til VLC-kortlægningsmetoden (Fig. 2, litra B), og yderligere fil 1: Afsnit S4).

VLC-kortlægningen er inspireret af konstruktionen af VLCs-kode med variabel længde (VLCs), der ofte bruges til at kode data til begrænsningskoder i begrænsede systemer, som f .eks optiske optagelsessystemer hvor kørelængde grænse og DC-fri problemer opstår. I DNA-lagringsscenarie, hvor der findes lignende begrænsninger, kan VLCS-kode effektivt ændres til en kortlægningsmetode. Bemærk, at når vi bruger RA-koden på pakkeniveau til fejlkontrol, er fejludbredelsen ledet af VLCS-koden begrænset i en pakke og har ingen indflydelse på den samlede frafaldshastighed for de kodede sekvenser.

Vi genererede denne kortlægningsregel i de følgende fire faser. Først i betragtning af begrænsningen af de maksimale homopolymer-kørsler blev den DNA-baserede lagring set som et begrænset system med kørelængdegrænse (RLL), betegnet med (M,d,k), hvor M=4,d=0 og k=2 (yderligere fil 1: Afsnit S5). Følgelig blev det endelige tilstandsovergangsdiagram (FSTD) for den (4,0,2) homopolymer-begrænsede DNA-datalagring genereret (yderligere fil 1: Sektion S5 og Fig. 2 (C, i)). I anden fase, baseret på den genererede FSTD, udledte vi, at kapaciteten af den (4, 0, 2) homopolymer-begrænsede DNA-opbevaring er 1,982 bits/nt (yderligere fil 1: Sektion S5). Vi etablerede også et komplet minimalt sæt (et endeligt sæt ord, hvis sammenkædninger inkluderer alle mulige begrænsningstilfredsstillende sekvenser), hvor vi opregnede alle de ord, der stammer fra og slutter i tilstanden s0 i Fig. 2 (C, i). Derved. vi opnåede et minimalt sæt {1,2,3,01,02,03,001,002,003}, hvor alle elementer er begrænsende tilfredsstillende og præfiksfri. Disse to egenskaber sikrer, at enhver sammenkædning af elementerne i dette sæt producerer begrænsningstilfredsstillende sekvenser, der er potentielle overgangsord for det begrænsede system. Bemærk, at det resulterende kodeordssæt for overgang vedrører dybden og bredden af sammenkædningen. For at reducere kodningskompleksiteten brugte vi direkte det komplette minimale sæt som overgangsordsættet.

i tredje fase brugte vi Huffman-kodningstræet til at generere en optimal kortlægning fra binær kildeordsættet med variabel længde til det ovennævnte overgangsordordsæt (Fig. 2 (C, ii)). Denne optimale en-til-en-opgave gav en gennemsnitlig kodehastighed på 1.976 bits/nt (Fig. 2 (C, iii) og se yderligere fil 1: Afsnit S5). I mellemtiden nærmer effektiviteten af denne kortlægning \(\sigma =\frac {1.976}{1.982}=99.7\%\), præsenterer kun 0.3% gap fra kapaciteten af (4,0,2) begrænset system. Med hensyn til kortlægningspotentiale overgår denne kortlægning den blokbegrænsede kode, der er foreslået i , hvor en (4,0,2) begrænset kode blev konstrueret ved hjælp af 39NT DNA-blokke som kodeord og opnåede 1,95 bit/NT-kortlægningspotentiale. Desuden er 39nt-blokkoden også upraktisk til traditionel DNA-datalagring, hvor meget længere DNA-sekvenser (kodeord), dvs.200nt, overvejes. I modsætning hertil har kortlægningsmetoden med variabel længde lav kodningskompleksitet uanset den samlede længde af de resulterende oligosekvenser.i det sidste trin, efter kortlægning af kildeordene til overgangsordene i rækkefølge mod hver binær sekvens, udførte vi prækodning på de kodede kvaternære sekvenser i henhold til tilstandsændringsfunktionen yj=yj-1+hj(mod M), hvor yj er det aktuelle udgangsforkodningssymbol, yj-1 er det sidste outputforkodede symbol, JJ er det aktuelle indgangssymbol, M er systemets alfabetstørrelse. Denne prækodning overfører den kodede (M,d,k) begrænsede kode til (M,d+1,k+1) RLL-kode. Vi konverterede derefter de kvartære symboler fra {0,1,2,3} til {‘A’, ‘T’, ‘C’, ‘G’ } og opnåede de endelige oligo-sekvenser, der opfylder begrænsningen af ingen homopolymer, der løber større end 3NT. Et eksempel på denne kortlægningsstrategi kan findes i yderligere fil 1: Afsnit S6.

gennem hybrid kortlægningsskemaet genererede vi 12.000 DNA-sekvenser med en længdefordeling fra 150nt til 159nt (eksklusive 40nt af primersteder) til den binære datastrøm (Fig. 2, litra E)). Specifikt blev længden af sekvenser, der blev kortlagt via den sammenflettede kortlægning, 151nt, mens længden af sekvenser, der blev kortlagt via VLC-kortlægning, varierede fra 150.152 til 159nt. Bemærk, at der ikke var nogen sekvens med en længde på 151nt, der stammede fra VLC-kortlægning, da et nukleotid blev tilsat for at gøre disse 151nt-kortlagte sekvens til 152nt (Fig. 2 (C, iv)). Det tilsatte nukleotid var at skelne mellem kortlægningsmetoderne. Dette muliggør brugen af korrekt de-mapping under genoprettelsen af de lagrede data i dekoderen.

for at hente data sendes de forberedte sekvenser fra sekventeringsprocessen til dekoderen for at gendanne brugerdataene (Fig. 2, litra D)). Dekoderen skelner først kortlægningsmetoden. Hvis længden af den modtagne sekvens er 151nt, anvender dekoderen det modsatte af interleaved kortlægning baseret på flagnukleotid og binær-til-kvaternær kortlægningsregel. Ellers anvender dekoderen det modsatte af VLC-kortlægning, hvor det modsatte af forkodningen og kortlægningen udføres. Derefter betragtes hver omvendt binær sekvens som enten en korrekt eller en sletning baseret på CRC-kontrollen. Endelig, med en besked passerer algoritme, ra dekoder genopretter alle slettede sekvens pakker baseret på forbindelserne mellem pakker.

Sekventeringsresultater og data recovery analyse

efter sekventering af den syntetiserede oligos pool modtog vi over 10 millioner rå sekvenslæsninger i samlet størrelse på 3,2 Gigabyte fra NovogeneAIT. Disse sekvenser inkluderer støjende læsninger genereret under sekventering. Baseret på sekventeringsresultaterne analyserede vi først pålideligheden af sekventeringsdataene med hensyn til datakvalitetsundersøgelse, A/T/G/C indholdsfordeling og fejlfrekvensfordeling. Baseret på fejlanalyseresultatet studerede vi derefter pålideligheden af vores afkodningsskema ved gendannelse af de kodede data med forskellige prøvedækninger.

Sekventeringsresultater

vi analyserede kvalitetsværdien for hver basisposition langs de sekventerede læsninger for at evaluere datakvaliteten. Kvalitetsresultatet er et skøn over pålideligheden af de sekventerede læsninger, der vedrører fejlfrekvensen for hver basisposition. Det beregnes ved K= – 10log10e, hvor e er fejlfrekvensen for basispositionen . Kvalitetsresultaterne for hver base af sekventeringsaflæsningerne spænder fra 30 Til 40 (Fig. 3 (A)), der repræsenterer en høj kvalitet. Endvidere observerer vi, at fejlfrekvensen stiger med udvidelsen af sekventerede læsninger, mens den med en gennemsnitlig hastighed på 0,015% i hver base langs læsningerne (Fig. 3 (B)). Dette skyldes sandsynligvis forbruget af sekventeringsreagens, hvilket er et almindeligt fænomen i Illumina high-throughput sekventeringsplatform, der er baseret på sekventering ved syntese (SBS) teknologi . Som forventet har de første flere baser højere sekventeringsfejlfrekvens end andre. Dette kan skyldes fokusering af sekvenserens fluorescensbilledsensorfølerelement, som muligvis ikke er følsomt nok i begyndelsen af sekventering. Som et resultat er kvaliteten af erhvervet fluorescensaflæsning lav. Husk, at sekvenserne blev tilføjet med et par 20nt-primerbindingssteder i begge ender, og derfor har de første adskillige fejlbehæftede baser (omkring 6nt) ingen indflydelse på afkodning, da CRC-testen og RA-kodning/afkodning blev designet ved at udelukke bindingsstederne. Med andre ord identificeres en sekvens som slettet af CRC-dekoderen på grund af fejlene i andre positioner (uden for primere).

Fig. 3
figur3

sekventering resultat analyse og data recovery. (A) kvalitetsværdien af hver basisposition langs aflæsningerne. Den første halvdel af aksen er for læser 1 og den sidste halvdel er for læser 2. (B) fejlfrekvensen for hver basisposition langs aflæsningerne. Den første halvdel del af fordelingen er for læser 1 og den sidste halvdel del er for læser 2. C) basisindholdet af hver basisposition langs aflæsningerne. A / T / G / C angiver typen af nukleotider og N betegner et tabt nukleotid, som kan være et hvilket som helst af A/T/G/C. Fordelingen er adskilt af to læser, bemærk at for (a), (b) og (c), læses 1 og læses 2 opnås ved tilfældigt sekventering fra enten slutningen af hver sekvens. D) forsøgsproceduren for datagendannelse. De forstærkede og fremstillede syntetiske oligo-prøver sekventeres ved hjælp af Illumina-sekventeringsteknologi. Med fem sæt nedprøveudtagningsforsøg sendes forskellige størrelser af tilfældigt valgte dele af rå sekvenslæsninger til dekoderen, hvor de lagrede filer gendannes. E) antallet af korrekt inddrevne sekvenser i forhold til dækningen. De sorte cirkelmarkører repræsenterer gendannede sekvenser før RA-dekodning, og diamantmarkører repræsenterer gendannede sekvenser efter RA-dekodning. Blandt diamantmarkørerne repræsenterer røde delvis genopretning, mens grønne repræsenterer fuld genopretning

i Fig. 3 (C), en basisindholdsfordeling af A, T, C og G langs læsningerne præsenteres for at vise fordelingen af GC-indholdet. I henhold til princippet om komplementære baser skal indholdet af at og GC være ens ved hver sekventeringscyklus og være konstant og stabil i hele sekventeringsproceduren. Især var det observerede gennemsnitlige GC-indhold i en sekventeringsaflæsning og i hver basisposition begge omkring 50% uanset den første 20nt. Årsagen til fordelingen i de første 20nt skyldes de to bindingssteder i begge ender. Fordelingen viser, at GC-indholdet i de sekventerede oligoer opfylder den biokemiske begrænsning godt og derfor sikrer en stabil sekventeringsproces.

Data recovery analysis

for at verificere kodens modstandsdygtighed i vores designede RA-fejlkorrektionskodningsskema studerede vi systemets datagendannelsesydelse over forskellige dækninger i Fig. 3, litra d). Dette giver os et skøn over fejlmodstanden i den designede RA-kode mod forskellige frafaldshastigheder på grund af forskellige dækninger. Der findes nogle ubrugelige rå sekvenser i den modtagne sekventering læser på grund af deres længde uden for det acceptable interval. For at efterligne forskellige dækninger (fra 8 til 12 gange) genererede vi datasæt i forskellige størrelser ved at udføre tilfældig nedprøveudtagning på de anvendelige rå sekvenser, hvor fordelingen af hver meddelelsesoligo kan variere. For eksempel til dækning af 8 gange samplede vi tilfældigt de anvendelige rå sekvenser for at generere et datasæt på 96.000 rå sekvenser. For hver dækning genererede vi 5 forskellige tilfældigt ned-samplede datasæt og bestemte Den gennemsnitlige sekventering og afkodningsydelse. For hver rå sekvens udførte vi afkortning for at konvertere nukleotidsekvensen til binær sekvens og udførte CRC-test for at identificere fejlfrie/korrekte sekvenser. Det gennemsnitlige antal fejlfrie sekvenser for hver dækning er vist i Fig. 3 (e) (sorte prikker), som forventet, stiger det med stigningen i dækningen. De fejlfrie sekvenser blev derefter ført til RA-dekoderen for at gendanne de fejlagtige sekvenser. Vi observerede, at dekoderen fra dækning 10 gange og fremefter for hver dækning var i stand til at genvinde de originale sekvenser i 5 ud af 5 tilfældige nedprøveudtagningseksperimenter perfekt (grønne diamanter i Fig. 3 (E)). Dette viser, at dekoderen er robust til at gendanne fejlagtige data med minimumsdækningen på 10 gange, hvor 3,3% af oligosekvenserne var i fejl (dvs. en frafaldshastighed 3,3%)

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *