Articles

HØY kapasitet DNA datalagring med Variabel lengde Oligonukleotider ved hjelp gjenta akkumulere kode og hybrid kartlegging

en praktisk DNA datalagring system med høy kapasitet

vi startet med å bygge en arkitektur for lagring av data og hente data fra EN DNA-basert lagring (Fig. 1 (A)). Brukerdataene ble først segmentert i 11 400 binære brukerpakker med hver pakkelengde på 266 biter. For å korrigere feil som oppstår fra et hvilket som helst stadium I DNA – lagringsprosessene, inkludert syntese, forsterkning, lagring og prøvepreparering for sekvensering, brukte VI EN RA-koding på binære brukerpakker hvor 5% redundante/paritetspakker ble generert. Med hver av de 12.000 binære pakkene ble 14 biter lagt til for indeksering for å bestille stokastiske oligoer og 20 biter ble lagt til For Syklisk Redundanskontroll (CRC) for å oppdage de indre feilene i hver pakke. Som et resultat ble det totale antall biter knyttet til hver pakke 300 biter (Se Tilleggsfil 1: Figur S4). Etterpå kartla vi alle binære sekvenser I DNA-sekvenser gjennom den foreslåtte hybridkartleggingsordningen. DERETTER BLE DNA-sekvensene sendt For Å Vri Biovitenskap for oligosyntese. Etter å ha mottatt det syntetiserte oligos-bassenget, forsterket vi det ved Hjelp Av Polymerasekjedereaksjon (PCR) før du sendte prøvene Til NovogeneAIT for sekvensering ved Hjelp Av Illumina HiSeq. I det siste stadiet analyserte og dekodet vi sekvenseringsdataene for å konvertere DNA-postene tilbake til digitale binære data. Vi først ned-samplet millioner sekvens leser fra sekvensering resultat og utført det motsatte AV RA koding og kartlegging for å rekonstruere de opprinnelige brukerdata uten feil, validere gjennomførbarheten av vår metode.

i tillegg til full gjenoppretting av data ved hjelp av sekvenseringsresultatene, analyserte vi også kvantitativt det foreslåtte DNA-baserte lagringssystemet og sammenlignet det med andre toppmoderne ordninger, ved å referere til en tidligere sammenligningstabell(Fig . 1 (C)). Den detaljerte definisjonen av resultatberegninger i tabellen er beskrevet I Tilleggsfil 1: Seksjon S7. I tabellen sammenlignet vi bare med ordningene som ble designet og testet med forutsetningen for oligo-bassenglagringsformatet der de enkeltstrengede korte oligoene med lengde rundt 200nt ble syntetisert. Legg merke til at med tilsvarende antagelse om å lagre mye lengre DNA-tråder som , dvs. 1000bp, forblir det foreslåtte kodingsskjemaet mulig, og nettinformasjonstettheten vil øke med lengden, og oppnå høyere tetthet enn det vil si 1,84 biter / base over 1,74 biter / base (se Tilleggsfil 1: Seksjon S3).

den høye netto informasjonstettheten på 1.67 bits / nt oppnådd ved den foreslåtte DNA-baserte lagringsplanen (Fig. 1 (D)) skyldes hovedsakelig følgende to teknikker som vi har brukt. For det første viser den foreslåtte hybridkartleggingsordningen 1,98 bits / nt kartleggingspotensial med et lite gap på 1% fra den teoretiske øvre grensen på 2 bits / nt. For det andre har den optimaliserte RA-koden for feilkontroll en liten redundans på 1,05. Sammen med 14 bits indeksering og 20 bits CRC, får ordningen 1.67 bits/nt netto informasjonstetthet, noe som gir 91% Av Shannon kapasitet (1.83 bits / nt med 0.5% frafall), som er 6% mer enn den siste høyeste rapportert i (Tilleggsfil 1: Seksjon S3). Teoretisk sett, sammenlignet med, er økningen i vår informasjonstetthet det kombinerte resultatet av litt lengre DNA-oligos med variabel LENGDE (151nt-159NT versus 152nt, unntatt primerbindingssteder), jo mindre feilkontroll redundans (1.05 versus 1.07) og kortere indeksering (14bits versus 32bits). LENGDEN AV DNA oligos er kunstferdig utformet for å gjøre full bruk av dagens allment tilgjengelige DNA syntese teknikker( TWIST Bioscience, USA), som effektivt kan syntetiseres 200nt lang oligos. Den optimaliserte RA-kodedesignen gir noe redusert feilkontrollredundans med tilsvarende antagelse om å adressere 1.3% praktisk frafallsrate as, mens full gjenoppretting med 10x dekning (10.5 x in ) indikerer at feilmotstanden opprettholdes. Den mest distinkte forskjellen oppstår i indekseringen, der vi bruker 14 biter utelukkende for å indikere rekkefølgen av kodede 12000 oligos, mens bruker 32 biter for å representere frøene som kreves For Luby-transformasjon som setter grunnlaget for fontenkoden, noe som resulterer i overflødige indekseringsbiter.

For ytterligere å verifisere at den høye kapasitetsytelsen til den foreslåtte kodingsordningen opprettholder seg godt med økende datastørrelse (skalerbarhet), estimerte vi netto informasjonstetthet for koding av datastørrelse med høyere størrelser i silico, dvs.FRA 2MB TIL 2000mb. De estimerte tetthetene reduseres noe med eksponentielle økninger av datastørrelse på grunn av økningen av indekseringslengde som kreves for å registrere større datastørrelse (Tilleggsfil 1: Seksjon S3 Og Fig. 1 (E)). En tetthet på 1,66 bits / nt er oppnådd for lagring AV 2 MB kildedata, som fortsatt er 6% høyere enn . I TILLEGG har BÅDE RA-koden og hybridkartleggingsstrategien som består av den foreslåtte kodingsordningen en lav kompleksitet som er effektiv å implementere i praksis. Spesielt forhindrer BRUKEN AV RA-kode den potensielle dekodingsfeilen (på grunn av tap av innledende oppføringer for å starte dekoding i screeningsprosessen) og adresseredundans som kan oppstå I DNA-fontenen, og hybridkartleggingen oppnår et meget høyt kartleggingspotensial som er konkurransedyktig MED DNA-fontenen, samtidig som man unngår høy kompleksitet som utviser i de konvensjonelle begrensede blokkkodene.

I Tillegg estimerte vi beregningsmessig den fysiske tettheten som den foreslåtte ordningen kunne vise. Gjennom fortynningsforsøk observerte forfattere 4% frafall med en prøve av 10PG DNA-lagring, som nesten nærmet seg dekodergrensen (som var forhåndsbestemt av koderedundansen). RA-koden som ble brukt i vår ordning, ble optimalt utformet med et redundansnivå under samme antagelse om frafall som ble vurdert i . Vi har også vist at teoretisk vår kode kan tolerere opptil 4.75% dropout rate (Tilleggsfil 1: Figur S4), som er over 4% dropout rate observert i sekvensering 10pg prøve. Med lignende dekodingsgrense vil vår foreslåtte ordning trolig fungere på samme måte SOM DNA-fontenen i de lavmolekylære forsøkene (f.eks. med 10pg-prøve) på grunn av bruken av de samme eksperimentrørledninger, protokoller og standarder. Med andre ord gjør kodedesignen i utgangspunktet at det foreslåtte systemet kan gjenopprette data fra feilutsatte forhold i fortynningseksperimentene som LIGNER PÅ DNA-fontenen. Under antagelsen av ∼1300 molekyler per oligo i gjennomsnitt, sekvenseringsdybde på 511x og tilsvarende rørledninger, protokoller og standarder som 10pg fortynningseksperimentet I DNA-fontenen, kunne vi beregningsmessig anslå at vår ordning vil oppnå en fysisk tetthet på 239 PB / g \(\venstre (\frac {266 * 11400/8 \ text {byte}}{1300*11400*1.0688*10^{-19}\tekst {gram}}\høyre)\). Imidlertid er det nødvendig med et grundig eksperiment for å verifisere denne beregningsmessig estimerte fysiske tettheten.

RA-kodedesign og hybridkartleggingssystem for DNA-lagring

vi utviklet en kodingsmetode som består av oligo-level repeat accumulate (RA) – kode og et effektivt hybridkartleggingssystem.

RA-kodedesign

I tradisjonelle kommunikasjonssystemer brukes RA-kode på bitnivå, hvor redundante biter genereres for å redusere substitusjonsfeil. DNA-lagring er imidlertid utsatt for ikke bare substitusjonsfeil, men også for innsettings-og slettingsfeil. Derfor, i stedet for den konvensjonelle bitnivå RA-kodingen, designet vi en pakkenivå RA-koding for DNA-lagring slik at en pakke utsatt for innsetting, sletting eller substitusjonsfeil kunne gjenopprettes gjennom RA-dekoder. Som beskrevet tidligere har vi segmentert en stor digital fil i mindre pakker av samme størrelse. Disse pakkene ble betraktet som kildepakker som ble brukt til å generere redundante eller paritetspakker ved hjelp av systematisk RA-kode Fig. 2 (A). Merk at hver pakke ble innlemmet MED CRC for å oppdage feil i pakken. For pakkene som passerte CRC-testen i dekoderen, betraktet vi dem som riktig gjenopprettet, mens de andre ble ansett som droppet eller slettet. Dermed ble det overordnede kodedesignproblemet FOR DNA-lagringen kodedesignet for slettekanalen. For å sikre høy pålitelighet ble kodedesignet utført ved å vurdere en litt høyere frafallssannsynlighet enn den faktiske frafallssannsynligheten. I dette arbeidet vurderte vi den faktiske frafallet som 1.3% som ble rapportert i fontenepapiret . DERMED utformet VI RA-koden slik at den resulterende koden viste en asymptotisk terskel høyere enn dropout-sannsynligheten for 0,013. Etter optimaliseringsprosedyren (Se Tilleggsfil 1: Seksjon S2) designet VI EN RA-kode med hastighet 0,95, som gir en asymptotisk terskel på 0,0475. Den resulterende koden viser bare et gap på 0,0025 Fra Shannons kapasitetsgrense (0,05). Den simulerte feilkorrigeringsytelsen til DEN utformede RA-koden er vist I tilleggsfil 1: Figur S4. På grunn av hastigheten 0.95 RA-kode, genererte vi 600 redundante / paritetspakker basert på 11 400 kildepakker, og mottok 12 000 binære pakker totalt etter koding.

Fig. 2
figure2

illustrasjonen Av Repeat Accumulate (RA) kodestrategier og hybrid kartlegging. (A) et eksempel på rate \(\frac {1}{2}\) pakkenivå RA-kode med 3 kildepakker. En ith paritetspakke i posisjon i genereres av bitvis modulo – 2 sum av (i−1)paritetspakken og kildepakkene som er koblet til ith X-eller noden. (B) flytdiagrammet til hybrid kartlegging. Hver binær sekvens er i utgangspunktet kartlagt via binær til kvaternær kartlegging. Med en av interleaving mønstre, kan den interleaved sekvens med flagget nukleotid føye på slutten passere screening test hvor gc innhold og homopolymer er sjekket, sender ut en gyldig sekvens. Ellers sendes den opprinnelige binære sekvensen til VLC-tilordningen (variable length constrained). (C. i) FSTD av et (4, 0, 2) begrenset DNA-lagringssystem, hvor 0, 1, 2 og 3 representerer fire overgangssymboler som indikerer overgangene mellom fire nukleotidalfabeter, og s0, s1 og s2 representerer tre forskjellige tilstander som registrerer lengden på påfølgende 0 (ingen overgang) i utgangen (4, 0, 2) begrensede sekvenser. (C. ii) generasjonen Av Et Huffman-kodende tre. Den Huffman koding treet optimaliserer koden rate ved å samkjøre kilden ordet med høy forekomst mulighet til kodeordet med kort lengde og vers vice. (C. iii) VLC-kartleggingsregelen. Justeringen Av Huffman coding tree genererer et oppslag tabell mellom variabel lengde kilde ord og variabel lengde overgang kodeord. (C. iv) strategien for a aktivere dekoderen a skille to kartlegginger via lengden av mottatt DNA-sekvens. (D) flytdiagrammet til dekoderen. Dekoderen skiller først kartleggingsmetoden den mottatte sekvensen har brukt og utfører den assosiative revers. CRC-sjekken bestemmer da om den reverserte binære sekvensen er i feil eller ikke. ETTERPÅ ARBEIDER RA-dekoderen for å gjenopprette alle sekvenser i feil. (E) fordelingen av lengder av kartlagte DNA-sekvenser. Lengden på resulterende DNA-sekvenser varierer fra 150nt til 159nt, hvor den interleaved kartlegging bare genererer sekvenser med lengden på 151nt mens sekvenser med andre lengder er alle generert AV VLC kartlegging

Hybrid kartlegging ordningen

Deretter vurderer vi å representere de digitale dataene I DNA-sammenheng som vi betegner SOM DNA kartlegging. EN DNA-kartleggingsstrategi bør gjøre det mulig for de kartlagte oligosekvensene å tilfredsstille de biokjemiske begrensningene, og dermed bringe stabilitet til lagringen. DET er to slike begrensninger I DNA-data som følgende: (i) GC innhold (forholdet mellom det totale antall ‘G’ og ‘C’ mot det totale antall nukleotider i en sekvens) må være nær 50% (ii) alle homopolymer kjøre lengder (lengden av gjentatte påfølgende nukleotider) bør være mindre enn 4 . Merk at binær-til-kvaternær kartlegging, dvs. kartlegging av to biter til ett nukleotid, som viser det optimale kartleggingspotensialet (2 biter / nt), ikke alltid oppfyller de ovennevnte kravene. I stedet, det ofte ikke klarer å overholde maksimal homopolymer kjøre begrensning. Begrensningene i DNA-datalagring reduserer det effektive kartleggingspotensialet, noe som påvirker KAPASITETEN TIL DNA-datalagring negativt. Derfor utforsket vi tilnærmingen til å designe begrenset kode med høy kodefrekvens og utviklet en hybrid kartleggingsstrategi for å sikre at oligosekvenser oppfyller de biokjemiske kravene med minimal ofre for kartleggingspotensialet.

denne kartleggingsordningen består av to forskjellige kartleggingsmetoder, nemlig interleaved mapping og VLC mapping. Den første fungerer som den primære kartleggingen på grunn av det tilnærmet optimale kartleggingspotensialet, dvs.1.995 bits / nt og sistnevnte fungerer som backup som kommer inn i bildet når den første kartlegging ikke klarer å produsere gyldige DNA-sekvenser(dvs. sekvenser som tilfredsstiller GC innhold og homopolymer kjøre begrensninger). I den senere kartleggingsmetoden er et hjelpeoppslagstabell konstruert med lav koding og dekodingskompleksitet. I mellomtiden viser denne metoden et 1.976 bits/nt kartleggingspotensial som er mye høyere enn blokkkoder med tilsvarende kompleksitet. Kombinasjonen av disse to kartleggingsstrategiene resulterer i et gjennomsnittlig kartleggingspotensial rundt 1,98 bits/nt med de stokastiske dataene. Med andre ord, i verste fall der alle data er kodet VED HJELP AV VLC, oppnådde vi fortsatt et høyt kartleggingspotensialestimat (1.976 bits/nt). Men i beste fall når alle data er kartlagt ved hjelp av interleaved kartlegging, kan vi oppnå et meget høyt potensial på 1.995 bits / nt.

de digitale dataene går først gjennom den interleaved kartleggingsmetoden for å generere DNA-sekvensene. I den interleaved kartleggingsmetoden blir de binære sekvensene først kartlagt ved hjelp av binær til kvaternær kartlegging. Med den økende oligolengden er GC innholdsbegrensning ofte fornøyd på grunn av den stokastiske egenskapen til binære data. Denne tilordningen har imidlertid en tendens til ikke å tilfredsstille homopolymer run-begrensningen. For å løse dette problemet, introduserer vi en interleaver etter den binære til kvaternære kartleggingen, som krypterer den opprinnelige rekkefølgen av nukleotidsekvensene. Etter interleaving utføres en screeningstest for å kontrollere homopolymer-løp av den resulterende sekvensen. Hvis den resulterende sekvensen passerer testen, betraktes denne sekvensen som en gyldig sekvens for syntese, ellers utføres interleaving igjen på den opprinnelige sekvensen med et annet interleaving mønster. I dette arbeidet vurderer vi 4 forhåndsdefinerte interleaving mønstre, hvor et flagg nukleotid (A/T/G/C) legges til på slutten AV den interleaved DNA-sekvensen for å indikere interleaving mønsteret (Tilleggsfil 1: Seksjon S8). Merk at vedlagte flagg nukleotid er inkludert i å bestemme homopolymer kjøre av sekvensen under screening test. Vi bruker bare ett ekstra (flagg) nukleotid for å opprettholde høy netto informasjonstetthet. Følgelig er antall interleaving forsøk begrenset til 4. Hvis sekvensen fortsatt ikke oppfyller etterspørselen etter maksimalt antall forsøk, sendes sekvensen TIL VLC-kartleggingsmetoden (Fig. 2 (B) Og Tilleggsfil 1: Seksjon S4).VLC-kartleggingen er inspirert av konstruksjonen av VLCS-kode (variable-length constrained sequence), som vanligvis brukes til å kode data i begrensnings tilfredsstillende koder i begrensede systemer, som optiske opptakssystemer hvor kjøre-lengde grense og DC-fri problemer oppstår . I DNA-lagringsscenario hvor lignende begrensninger eksisterer, KAN VLCS-koden effektivt modifiseres til en kartleggingsmetode. Merk at NÅR VI bruker ra-KODEN på pakkenivå for feilkontroll, er feilutbredelsen ledet av VLCS-koden begrenset i en pakke og har ingen innflytelse på den totale frafallshastigheten til de kodede sekvensene.

vi genererte denne kartleggingsregelen i de følgende fire stadiene. FOR DET FØRSTE, med tanke på begrensningen av de maksimale homopolymer-løpene, BLE DNA-basert lagring sett på som et begrenset system med run-lengdegrense (RLL), betegnet av (M,d,k), Hvor M=4,d=0 og k=2 (Tilleggsfil 1: Seksjon S5). Følgelig ble det endelige overgangsdiagrammet (FSTD) av (4,0,2) homopolymer-begrenset DNA-datalagring generert (Tilleggsfil 1: Seksjon S5 Og Fig. 2 (C, i)). I den andre fasen, basert på den genererte FSTD, utledet vi at kapasiteten til (4, 0, 2) homopolymer-begrenset DNA-lagring er 1.982 bits/nt (Tilleggsfil 1: Seksjon S5). Vi etablerte også et komplett minimalt sett (et begrenset sett med ord hvis sammenkobling inkluderer alle mulige begrensnings tilfredsstillende sekvenser), der vi oppregnet alle ordene som stammer fra og slutter i staten s0 I Fig. 2 (C, i). Som et resultat. vi fikk et minimalt sett {1,2,3,01,02,03,001,002,003}, der alle elementene er begrensnings tilfredsstillende og prefiksfrie. Disse to egenskapene sikrer at en hvilken som helst sammenkobling av elementene i dette settet gir betingelses tilfredsstillende sekvenser som er potensielle overgangsordord for det begrensede systemet. Legg merke til at det resulterende overgangsordsettet gjelder dybden og bredden på sammenkoblingen. For å redusere kodingskompleksiteten brukte vi direkte det komplette minimalsettet som overgangsordsettet.

i tredje trinn brukte Vi Huffman-kodetreet for å generere en optimal kartlegging fra binær kildeord med variabel lengde til ovennevnte overgangsordsett (Fig. 2 (C, ii)). Denne optimale en-til-en-oppgaven ga en gjennomsnittlig kodefrekvens på 1,976 bits/Nt (Fig. 2 (C, iii) og Se Tilleggsfil 1: Avsnitt S5). I mellomtiden nærmer effektiviteten av denne kartleggingen \(\sigma =\frac {1.976}{1.982}=99.7\%\), presenterer bare 0.3% gap fra kapasiteten til det (4,0,2) begrensede systemet. Når det gjelder kartleggingspotensial, overgår denne kartleggingen den blokkbegrensede koden som foreslås i, hvor en (4,0,2) begrenset kode ble konstruert ved hjelp av 39NT DNA-blokker som kodeord, og oppnådde 1,95 bits/nt kartleggingspotensial. Dessuten er 39nt-blokkkoden også upraktisk for tradisjonell DNA-datalagring der en mye lengre DNA-sekvenser (kodeord), dvs. 200nt, vurderes. I kontrast, variabel lengde kartlegging tilnærming har lav koding kompleksitet uavhengig av den totale lengden av de resulterende oligo sekvenser.i det siste trinnet, etter å ha kartlagt kildeordene til overgangskodeordene i rekkefølge mot hver binær sekvens, utførte vi precoding på de kodede kvaternære sekvensene i henhold til change-of-state−funksjonen yj=yj−1+xj(mod m), hvor yj er det nåværende utgangsforkodingssymbolet, yj-1 er det siste utdata pre-kodet symbolet, xj er det nåværende inngangssymbolet, M Er alfabetets størrelse på systemet. Denne precoding vil overføre den kodede (M,d,k) begrensede koden til (M,d+1,k+1) RLL-koden. Vi konverterte deretter de kvartære symbolene fra {0,1,2,3} til {‘A’, ‘T’,’ C’,’ G’} og oppnådde de endelige oligosekvensene som tilfredsstiller begrensningen av ingen homopolymer går større enn 3nt. Et eksempel på denne kartleggingsstrategien finnes I Tilleggsfil 1: Seksjon S6.

gjennom hybridkartleggingsordningen genererte vi 12 000 DNA-sekvenser med en lengdefordeling fra 150nt til 159nt (unntatt 40nt av primersteder) for den binære datastrømmen (Fig. 2 (E)). Spesielt ble lengden på sekvenser som kartlagt via interleaved kartlegging 151nt, mens lengden på sekvenser som kartlagt via VLC kartlegging varierte fra 150, 152 til 159NT. Merk at det ikke var noen sekvens med lengde på 151NT som stammer FRA VLC-kartlegging, da ett nukleotid ble tilsatt for å gjøre disse 151nt-kartlagte sekvensene til 152nt (Fig. 2 (C, iv)). Det tilsatte nukleotid var å skille mellom kartleggingsmetodene. Dette muliggjør bruk av riktig de-kartlegging under gjenoppretting av lagrede data i dekoderen.

for å hente data sendes de forberedte sekvensene fra sekvenseringsprosessen til dekoderen for å gjenopprette brukerdataene(Fig. 2 (D)). Dekoderen skiller først kartleggingsmetoden. Hvis lengden på mottatt sekvens er 151nt, gjelder dekoderen omvendt av interleaved kartlegging basert på flagg nukleotid og binær-til-kvaternær kartleggingsregelen. Ellers gjelder dekoderen omvendt AV VLC-kartlegging hvor omvendt av precoding og kartlegging utføres. Deretter betraktes hver reversert binær sekvens som enten en korrekt eller en sletting basert på CRC-kontrollen. TIL slutt, MED en melding som passerer algoritme, GJENOPPRETTER RA-dekoderen alle slettede sekvenspakker basert på forbindelsene mellom pakker.

Sekvensering resultater og data utvinning analyse

etter sekvensering syntetisert oligos bassenget, fikk vi over 10 millioner rå sekvens leser i total størrelse på 3,2 Gigabyte Fra NovogeneAIT. Disse sekvensene inkluderer støyende leser generert under sekvensering. Basert på sekvenseringsresultatene analyserte vi først påliteligheten av sekvenseringsdataene når det gjelder datakvalitetskontroll, A / T / G / C innholdsdistribusjon og feilfrekvensfordeling. Basert på feilanalyseresultatet studerte vi påliteligheten av dekodingsordningen ved å gjenopprette kodede data med forskjellige prøvedekning.

Sekvenseringsresultater

vi analyserte kvalitetsverdien for hver baseposisjon langs sekvensert lesing for å evaluere datakvaliteten. Kvalitetspoenget er et estimat av påliteligheten til sekvenserte leser som relaterer seg til feilfrekvensen for hver basisposisjon. Det beregnes Med Q=−10log10e, hvor e er feilfrekvensen til basisposisjonen . Kvalitetspoengene for hver base av sekvensering leser varierer fra 30 til 40 (Fig. 3 (A)), som representerer en høy kvalitet. Videre observerer vi at feilraten øker med utvidelsen av sekvenserte leser mens med en gjennomsnittlig hastighet på 0,015% i hver base langs lesene (Fig . 3 (B)). Dette skyldes sannsynligvis forbruket av sekvenseringsreagens, som er et vanlig fenomen I Illumina high-throughput sequencing platform som er basert på sekvensering ved syntese (SBS) teknologi . Som forventet har de første flere basene høyere sekvenseringsfeil enn andre. Dette kan skyldes fokusering av sequencerens fluorescens bildesensor sensorelement som kanskje ikke er følsomt nok i begynnelsen av sekvensering. Som et resultat er kvaliteten på oppnådd fluorescensavlesning lav. Husk at sekvensene ble lagt til med et par 20nt primerbindingssteder i begge ender, og dermed har de første flere feilutsatte basene (rundt 6nt) ingen innflytelse på dekoding, DA CRC-testen og RA-koding / dekoding ble designet ved å ekskludere bindingsstedene. Med andre ord vil en sekvens bli identifisert som slettet AV CRC-dekoderen på grunn av feilene i andre posisjoner (utenfor primere).

Fig. 3
figure3

Sekvensering resultat analyse og data utvinning. (A) kvaliteten verdien av hver base posisjon langs leser. Første halvdel av x-aksen er for leser 1 og siste halvdel er for leser 2. (B) feilfrekvensen for hver basisposisjon langs lesingene. Første halvdel del av fordelingen er for leser 1 og siste halvdel del er for leser 2. (C) basisinnholdet i hver baseposisjon langs lesingene. A/T/G / C betegner typen nukleotider og N betegner et tapt nukleotid som kan være et av A / T / G / C. Fordelingen er adskilt av to leser, merk at for (a), (b) og (c), les 1 og les 2 er hentet fra tilfeldig sekvensering fra hver ende av hver sekvens. (D) den eksperimentelle prosedyren for datagjenoppretting. De forsterkede og preparerte syntetiske oligo-prøvene sekvenseres ved Hjelp Av Illumina HiSeq-sekvenseringsteknologi. Med fem sett med ned-prøvetaking forsøk, ulike størrelser av tilfeldig utvalgte deler av rå sekvens leser sendes til dekoderen der de lagrede filene gjenopprettes. (E) antall korrekt gjenopprettede sekvenser mot dekningen. De svarte sirkelmarkørene representerer gjenopprettede sekvenser før RA-dekoding og diamantmarkører representerer gjenopprettede sekvenser etter RA-dekoding. Blant diamantmarkørene representerer røde delvis gjenoppretting, mens grønne representerer full gjenoppretting

I Fig. 3 (C), en base innhold distribusjon Av A, T, C og G langs leser er presentert for å vise fordelingen AV GC innhold. I henhold til prinsippet om komplementære baser bør innholdet AV AT OG GC være lik ved hver sekvenseringssyklus og være konstant og stabil i hele sekvenseringsprosedyren. Spesielt var det observerte gjennomsnittlige gc-innholdet i en sekvenseringslest og i hver baseposisjon begge rundt 50% uavhengig av den første 20nt. Årsaken til fordelingen i de første 20nt skyldes de to bindingsstedene i begge ender. Fordelingen viser at GC-innholdet i de sekvenserte oligoene tilfredsstiller den biokjemiske begrensningen godt og sikrer derfor en stabil sekvenseringsprosess.

data recovery analysis

for å verifisere kodenes motstandskraft i VÅRT utformede RA – feilkorrigeringskodesystem, studerte vi datagjenopprettingsytelsen til ordningen over forskjellige dekninger I Fig. 3 (D). Dette gir oss et estimat på feilmotstanden til DEN utformede RA-koden mot forskjellige frafallsrater på grunn av varierte dekning. Det finnes noen ubrukelige rå sekvenser i den mottatte sekvenseringen leser på grunn av at lengden er utenfor det akseptable området. For å etterligne forskjellige coverages (fra 8x til 12x) genererte vi datasett av forskjellige størrelser ved å utføre tilfeldig nedprøving på de brukbare raw-sekvensene, der distribusjonen av hver meldingsoligo kan variere. For eksempel, for dekning av 8x, vi tilfeldig ned samplet brukbare rå sekvenser for å generere et datasett av 96.000 rå sekvenser. For hver dekning genererte vi 5 forskjellige tilfeldig nedprøvede datasett og bestemte gjennomsnittlig sekvensering og dekoding ytelse. For hver rå sekvens utførte vi de-kartlegging for å konvertere nukleotidsekvensen til binær sekvens og utførte CRC-test for å identifisere feilfrie/korrekte sekvenser. Gjennomsnittlig antall feilfrie sekvenser for hver dekning er vist I Fig. 3 (E) (svarte prikker), som forventet, øker det med økningen av dekning. De feilfrie sekvensene ble deretter matet TIL RA-dekoderen for å gjenopprette de feilaktige sekvensene. Vi observerte at fra dekning 10x og utover, for hver dekning, var dekoderen i stand til å gjenopprette de opprinnelige sekvensene i 5 av 5 tilfeldige nedprøvingseksperimenter perfekt (grønne diamanter I Fig . 3 (E)). Dette viser at dekoderen er robust for å gjenopprette feilaktige data med minimumsdekning på 10x, hvor 3,3% av oligosekvensene var feil (dvs. en frafallsrate 3,3%)

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *