DNA-datalagring med hög kapacitet med oligonukleotider med variabel längd med användning av repeat accumulate code och hybrid mapping
ett praktiskt DNA-datalagringssystem med hög kapacitet
vi började med att konstruera en arkitektur för lagring av data och hämtning av data från en DNA-baserad lagring (Fig. 1 A)). Användardata segmenterades först i 11 400 binära användarpaket med varje paketlängd på 266 bitar. För att korrigera fel som uppstår från något stadium i DNA-lagringsprocesserna inklusive syntes, förstärkning, lagring och provberedning för sekvensering tillämpade vi en RA-kodning på binära användarpaket där 5% redundanta/paritetspaket genererades. Med var och en av de 12 000 binära paketen tillsattes 14 bitar för indexering för att beställa stokastiska oligos och 20 bitar tillsattes för cyklisk redundanskontroll (CRC) för att upptäcka de inre felen i varje paket. Som ett resultat blev det totala antalet bitar associerade med varje paket 300 bitar (se ytterligare fil 1: figur S4). Efteråt kartlade vi alla binära sekvenser i DNA-sekvenser genom det föreslagna hybridmappningsschemat. Därefter skickades DNA-sekvenserna för att vrida Bioscience för oligos syntes. Efter att ha fått den syntetiserade oligospoolen förstärkte vi den med polymeraskedjereaktion (PCR) innan vi skickade proverna till NovogeneAIT för sekvensering med Illumina HiSeq. I det sista steget analyserade och avkodade vi sekvenseringsdata för att konvertera DNA-posterna tillbaka till digital binär data. Vi först ner samplade millions-sekvensen läser från sekvenseringsresultatet och utförde baksidan av RA-kodning och kartläggning för att rekonstruera de ursprungliga användardata utan fel, validera genomförbarheten av vår metod.
förutom den fullständiga återhämtningen av data med hjälp av sekvenseringsresultaten analyserade vi också kvantitativt det föreslagna DNA-baserade lagringsschemat och jämförde det med andra toppmoderna system genom att referera till en tidigare jämförelsetabell (Fig. 1 C)). Den detaljerade definitionen av prestandamått i tabellen beskrivs i ytterligare fil 1: avsnitt S7. I tabellen jämförde vi bara med de system som utformades och testades med förutsättningen för oligo pool-lagringsformatet där de enkelsträngade korta oligoerna med längd runt 200nt syntetiserades. Observera att med motsvarande antagande om att lagra mycket längre DNA-strängar som, dvs 1000bp, förblir det föreslagna kodningsschemat genomförbart, och nettoinformationstätheten kommer att öka med längden och uppnå högre densitet än , dvs 1,84 bitar/bas över 1,74 bitar/bas (se ytterligare fil 1: avsnitt S3).
den höga nettoinformationstätheten på 1.67 bitar/nt uppnås genom det föreslagna DNA-baserade lagringsschemat (Fig. 1 (D)) beror främst på följande två tekniker som vi har använt. För det första uppvisar det föreslagna hybridmappningsschemat 1,98 bitar/nt kartläggningspotential med ett litet gap på 1% från den teoretiska övre gränsen för 2 bitar/nt. För det andra har den optimerade RA-koden för felkontroll en liten redundans på 1, 05. Tillsammans med indexeringen av 14 bitar och 20 bitar CRC erhåller systemet 1,67 bitar/nt nettoinformationstäthet, vilket ger 91% av Shannon-kapaciteten (1,83 bitar/nt med 0.5% bortfall), vilket är 6% mer än den sista högsta rapporterade i (ytterligare fil 1: avsnitt S3). Teoretiskt sett jämfört med ökningen av vår informationstäthet är det kombinerade resultatet av de något längre DNA-oligos med variabel längd (151nt-159nt mot 152nt, exklusive primerbindningsställen), den mindre felkontrollredundansen (1.05 mot 1.07) och den kortare indexeringen (14bits mot 32bits). Längden av DNA oligos är omsorgsfullt utformade för att fullt ut utnyttja de nuvarande allmänt tillgängliga DNA-syntesteknikerna (TWIST Bioscience, US), som effektivt kan syntetiseras 200nt långa oligos. Den optimerade RA-koddesignen ger något minskad felkontrollredundans med motsvarande antagande om att ta itu med 1.3% praktisk bortfallshastighet som , medan den fullständiga återhämtningen med 10x täckning (10.5 x in ) indikerar att felmotståndet bibehålls. Den mest tydliga skillnaden uppstår i indexeringen, där vi använder 14 bitar enbart för att indikera ordningen på kodade 12000 oligos, medan använder 32 bitar för att representera de frön som krävs för Luby transform som sätter grunden för fontänkoden, vilket resulterar i redundanta indexeringsbitar.
för att ytterligare verifiera att högkapacitetsprestandan för det föreslagna kodningsschemat upprätthåller väl med ökande datastorlek (skalbarhet), uppskattade vi nettoinformationstätheten för kodning av datastorlek med högre magnituder i silico, dvs från 2MB till 2000mb. De uppskattade tätheterna minskar något med de exponentiella ökningarna av datastorlek på grund av ökningen av indexeringslängd som krävs för inspelning av större datastorlek (ytterligare fil 1: avsnitt S3 och Fig. 1 E)). En densitet på 1,66 bitar/nt erhålls för lagring av 2 MB källdata, vilket fortfarande är 6% högre än . Dessutom har både RA-koden och hybridmappningsstrategin som består av det föreslagna kodningssystemet en låg komplexitet som är effektiva att genomföra i praktiken. I synnerhet förhindrar användningen av RA-kod det potentiella avkodningsfelet (på grund av förlusten av initiala poster för att starta avkodning i screeningprocessen) och adressredundans som kan uppstå i DNA-fontänen, och hybridmappningen uppnår en mycket hög kartläggningspotential som är konkurrenskraftig med DNA-Fontän samtidigt som man undviker hög komplexitet som uppvisar i de konventionella begränsade blockkoderna.
dessutom uppskattade vi beräkningsmässigt den fysiska densiteten som det föreslagna systemet kunde uppvisa. Genom utspädningsexperiment observerade författare i 4% bortfallshastighet med ett prov av 10PG DNA-lagring, som nästan närmade sig deras avkodningsgräns (som var förutbestämd av kodredundansen). RA-koden som användes i vårt system var optimalt utformad med en nivå av redundans under samma antagande om bortfall som beaktades i . Vi har också visat att teoretiskt kan vår kod tolerera upp till 4.75% bortfallshastighet (ytterligare fil 1: figur S4), vilket är över 4% bortfallshastighet observerad i sekvensering av 10pg-prov. Med liknande avkodningsgräns skulle vårt föreslagna schema troligen fungera på samma sätt som DNA-Fontänen i de lågmolekylära experimenten (t.ex. med 10pg-prov) på grund av användningen av samma experimentledningar, protokoll och standarder. Med andra ord möjliggör koddesignen i det inledande skedet att det föreslagna systemet kan återställa data från felaktiga förhållanden i utspädningsexperimenten som liknar DNA fountain. Under antagandet av 1300 molekyler per oligo i genomsnitt, sekvenseringsdjup på 511x och ekvivalenta rörledningar, protokoll och standarder som 10pg-utspädningsexperimentet i DNA-fontänen, kunde vi beräkningsmässigt uppskatta att vårt system kommer att uppnå en fysisk densitet på 239 PB / g \(\left (\frac {266 * 11400/8 \ text {byte}}{1300*11400*1.0688*10^{-19}\text {gram}} \ höger)\). Ett rigoröst experiment krävs dock för att verifiera denna beräknade beräknade fysiska densitet.
RA – koddesign och hybridmappningsschema för DNA-Lagring
Vi utformade en kodningsmetod som innefattar oligo-nivå repeat accumulate (RA) – kod och ett effektivt hybridmappningsschema.
ra-koddesign
i traditionella kommunikationssystem används RA-kod på bitnivå, där redundanta bitar genereras för att mildra substitutionsfel. DNA-lagring är emellertid benägen att inte bara substitutionsfel utan också för infognings-och raderingsfel. I stället för den konventionella ra-kodningen på bitnivå utformade vi därför en RA-kodning på paketnivå för DNA-lagring så att ett paket som utsattes för infogning, radering eller substitutionsfel kunde återvinnas genom RA-avkodare. Som beskrivits tidigare har vi segmenterat en stor digital fil i mindre paket av samma storlek. Dessa paket betraktades som källpaket som användes för att generera redundanta eller paritetspaket med systematisk RA-kod Fig. 2 A). Observera att varje paket inkorporerades med CRC för att upptäcka fel i paketet. För paketen som passerade CRC-testet i avkodaren ansåg vi dem som korrekt återställda, medan de andra betraktades som tappade eller raderade. Således blev det övergripande koddesignproblemet för DNA-lagringen koddesignen för raderingskanalen. För att säkerställa hög tillförlitlighet utfördes koddesignen genom att överväga en något högre bortfallssannolikhet än den faktiska bortfallssannolikheten. I detta arbete ansåg vi den faktiska bortfallet som 1.3% som rapporterades i fountain paper . Således utformade vi RA-koden så att den resulterande koden uppvisade en asymptotisk tröskel högre än bortfallssannolikheten på 0,013. Efter optimeringsproceduren (se ytterligare fil 1: avsnitt S2) utformade vi en RA-kod för hastighet 0,95, vilket ger en asymptotisk tröskel på 0,0475. Den resulterande koden visar bara ett gap på 0,0025 från Shannons kapacitetsgräns (0,05). Den simulerade felkorrigeringsprestandan för den designade RA-koden visas i ytterligare fil 1: figur S4. På grund av hastigheten 0.95 RA-kod genererade vi 600 redundanta / paritetspaket baserat på 11 400 källpaket och fick totalt 12 000 binära paket efter kodning.
Hybridmappningsschema
därefter överväger vi att representera de digitala data i DNA-sammanhang som vi betecknar som DNA-kartläggning. En DNA-kartläggningsstrategi bör möjliggöra de mappade oligosekvenserna som uppfyller de biokemiska begränsningarna, vilket ger stabilitet till lagringen. Det finns två sådana begränsningar i DNA-data som följande: (i) gc-innehållet (förhållandet mellan det totala antalet G och C mot det totala antalet nukleotider i en sekvens) måste vara nära 50% (ii) Alla homopolymerlängder (längden på repetitivt på varandra följande nukleotider) bör vara mindre än 4 . Observera att den binära till kvartära kartläggningen, dvs. kartläggning av två bitar till en nukleotid, som uppvisar den optimala kartläggningspotentialen (2 bitar/nt), inte alltid uppfyller ovan nämnda krav. Istället misslyckas det ofta med att följa den maximala homopolymerkörningsbegränsningen. De begränsningar som finns i DNA-datalagring minskar den effektiva kartläggningspotentialen, vilket påverkar kapaciteten hos DNA-datalagring negativt. Därför undersökte vi tillvägagångssättet att utforma begränsad kod med hög kodhastighet och utvecklade en hybrid kartläggningsstrategi för att säkerställa att oligosekvenser uppfyller de biokemiska kraven med minimal offer för kartläggningspotentialen.
detta kartläggningsschema består av två olika kartläggningsmetoder, nämligen den interfolierade kartläggningen och VLC-kartläggningen. Den första fungerar som den primära kartläggningen på grund av dess ungefär optimala kartläggningspotential, dvs. 1.995 bitar / nt och den senare fungerar som säkerhetskopia som spelar in när den första kartläggningen misslyckas med att producera giltiga DNA-sekvenser (dvs sekvenser som uppfyller GC-innehållet och homopolymer-körbegränsningar). I den senare kartläggningsmetoden konstrueras en extra uppslagstabell med låg kodning och avkodningskomplexitet. Under tiden uppvisar denna metod en 1.976 bitar/nt kartläggningspotential som är mycket högre än blockkoderna med motsvarande komplexitet. Kombinationen av dessa två kartläggningsstrategier resulterar i en genomsnittlig kartläggningspotential runt 1,98 bitar/nt med stokastiska data. Med andra ord, i värsta fall där all data kodas med VLC, uppnådde vi fortfarande en hög kartläggningspotentialuppskattning (1.976 bitar/nt). Men i bästa fall när all data kartläggs med hjälp av den interfolierade kartläggningen kan vi uppnå en mycket hög potential på 1.995 bitar/nt.
de digitala data går först igenom den interfolierade kartläggningsmetoden för att generera DNA-sekvenserna. I den interfolierade kartläggningsmetoden kartläggs de binära sekvenserna först med binär till kvartär kartläggning. Med den ökande oligolängden är GC-innehållsbegränsningen ofta nöjd på grund av den stokastiska egenskapen hos binär data. Denna kartläggning tenderar emellertid att misslyckas med att tillfredsställa homopolymer-körbegränsningen. För att lösa detta problem introducerar vi en interleaver efter binär-till-kvartär kartläggning, som förvränger den ursprungliga ordningen av nukleotidsekvenserna. Efter interfoliering utförs ett screeningtest för att kontrollera homopolymerkörningen av den resulterande sekvensen. Om den resulterande sekvensen klarar testet betraktas den sekvensen som en giltig sekvens för syntes, annars utförs interfolieringen igen på den ursprungliga sekvensen med ett annat interfolieringsmönster. I detta arbete betraktar vi 4 fördefinierade interfolieringsmönster, där en flaggnukleotid (A/T/G/C) läggs till i slutet av den interfolierade DNA-sekvensen för att indikera interfolieringsmönstret (ytterligare fil 1: avsnitt S8). Observera att den bifogade flaggnukleotiden ingår i bestämningen av sekvensens homopolymerkörning under screeningtestet. Vi använder bara en extra (flagga) nukleotid för att upprätthålla hög nettoinformationstäthet. Följaktligen är antalet interleavingförsök begränsat till 4. Om sekvensen fortfarande inte uppfyller efterfrågan efter det maximala antalet försök skickas sekvensen till VLC-kartläggningsmetoden (Fig. 2 (B) och ytterligare fil 1: avsnitt S4).
VLC mapping är inspirerad av konstruktionen av variabel längd begränsad sekvens (VLC) kod, som vanligtvis används för att koda data till begränsnings tillfredsställande koder i begränsade system, som optiska inspelningssystem där körlängdsgräns och DC-fria problem uppstår . I DNA-lagringsscenario där liknande begränsningar finns kan VLC-kod effektivt modifieras till en kartläggningsmetod. Observera att när vi använder ra-koden på paketnivå för felkontroll är felutbredningen som leds av VLC-koden begränsad i ett paket och har inget inflytande på den totala bortfallshastigheten för de kodade sekvenserna.
vi genererade denna kartläggningsregel i följande fyra steg. Först, med tanke på begränsningen av de maximala homopolymerkörningarna, sågs den DNA-baserade lagringen som ett begränsat system med körlängdsgräns (RLL), betecknad med (M,d,k), där M=4,d=0 och k=2 (ytterligare fil 1: avsnitt S5). Följaktligen genererades det finita tillståndsövergångsdiagrammet (FSTD) för (4,0,2) homopolymerbegränsad DNA-datalagring (ytterligare fil 1: avsnitt S5 och Fig. 2 (C, i)). I det andra steget, baserat på den genererade FSTD, drog vi slutsatsen att kapaciteten hos den (4, 0, 2) homopolymerbegränsade DNA-lagringen är 1.982 bitar/nt (ytterligare fil 1: avsnitt S5). Vi etablerade också en komplett minimal uppsättning (en ändlig uppsättning ord vars sammanlänkningar inkluderar alla möjliga begränsnings tillfredsställande sekvenser ), där vi räknade upp alla ord som härrör från och slutar i staten s0 i Fig. 2 (C, i). Pga. vi fick en minimal uppsättning {1,2,3,01,02,03,001,002,003}, där alla element är begränsande tillfredsställande och prefixfria. Dessa två egenskaper säkerställer att varje sammankoppling av elementen i denna uppsättning ger begränsnings tillfredsställande sekvenser som är potentiella övergångskodord för det begränsade systemet. Observera att den resulterande övergångskodorduppsättningen avser sammankopplingens djup och bredd. För att minska kodningskomplexiteten använde vi direkt den kompletta minimala uppsättningen som övergångskodset.
i det tredje steget använde vi Huffman-kodningsträdet för att generera en optimal kartläggning från det binära källordet med variabel längd till ovan nämnda övergångskod (Fig. 2 (C, ii)). Denna optimala en-till-en-uppgift gav en genomsnittlig kodhastighet på 1.976 bitar/nt (Fig. 2 (C, iii) och se ytterligare fil 1: avsnitt S5). Under tiden närmar sig effektiviteten i denna kartläggning \(\sigma = \ frac {1.976}{1.982}=99.7\%\), presenterar endast 0.3% gap från kapaciteten hos det (4,0,2) begränsade systemet. När det gäller kartläggningspotential överträffar denna kartläggning blockbegränsad kod som föreslås i, där en (4,0,2) begränsad kod konstruerades med användning av 39nt DNA-block som kodord , uppnå 1.95 bitar/nt kartläggningspotential. Dessutom är 39nt-blockkoden också opraktisk för traditionell DNA-datalagring där en mycket längre DNA-sekvenser (kodord), dvs 200nt, beaktas. Däremot har kartläggningsmetoden med variabel längd låg kodningskomplexitet oavsett den totala längden på de resulterande oligosekvenserna.
i det sista steget, efter att ha kartlagt källorden till övergångskodorden i följd mot varje binär sekvens, utförde vi förkodning på de kodade kvaternära sekvenserna enligt tillståndsändringsfunktionen yj=yj-1+xj(mod M), där yj är den aktuella utgångskodningssymbolen, yj-1 är den sista utgångskodade symbolen, xj är den aktuella inmatningssymbolen, M är systemets alfabetstorlek. Denna förkodning överför den kodade (M,d,k) begränsade koden till (M,d+1,k+1) RLL-koden. Vi konverterade sedan de kvartära symbolerna från {0,1,2,3} till {’A’, ’T’, ’C’, ’G’} och erhöll de slutliga oligosekvenserna som uppfyller begränsningen av ingen homopolymer körs större än 3nt. Ett exempel på denna kartläggningsstrategi finns i ytterligare fil 1: avsnitt S6.
genom hybridmappningsschemat genererade vi 12 000 DNA-sekvenser med en längdfördelning som sträcker sig från 150nt till 159nt (exklusive 40nt av primerplatser) för binär dataström (Fig. 2 E)). Specifikt blev längden på sekvenser som kartlades via den interfolierade kartläggningen 151nt, medan längden på sekvenser som kartlades via VLC-kartläggning varierade från 150, 152 till 159nt. Observera att det inte fanns någon sekvens med längden 151nt som härstammar från VLC-kartläggning, eftersom en nukleotid tillsattes för att göra dessa 151nt-mappade sekvenser till 152nt (Fig. 2 (C, iv)). Den tillsatta nukleotiden var att skilja mellan kartläggningsmetoderna. Detta möjliggör användning av korrekt avmappning under återhämtningen av lagrade data i avkodaren.
för att hämta data skickas de förberedda sekvenserna från sekvenseringsprocessen till avkodaren för att återställa användardata (Fig. 2 D)). Avkodaren skiljer först kartläggningsmetoden. Om längden på den mottagna sekvensen är 151nt tillämpar avkodaren baksidan av Interfolierad kartläggning baserad på flaggnukleotiden och den binära till kvaternära kartläggningsregeln. I annat fall tillämpar avkodaren baksidan av VLC-kartläggning där baksidan av förkodning och kartläggning utförs. Därefter betraktas varje omvänd binär sekvens som antingen en korrekt eller en radering baserad på CRC-kontrollen. Slutligen, med en meddelandepasseringsalgoritm, återställer RA-avkodaren alla raderade sekvenspaket baserat på anslutningarna mellan paket.
Sekvenseringsresultat och dataåterställningsanalys
efter sekvensering av den syntetiserade oligospoolen fick vi över 10 miljoner raw-sekvensläsningar i total storlek på 3,2 Gigabyte från NovogeneAIT. Dessa sekvenser inkluderar bullriga läsningar som genereras under sekvensering. Baserat på sekvenseringsresultaten analyserade vi först tillförlitligheten hos sekvenseringsdata när det gäller datakvalitetsundersökning, A/T/G/C-innehållsdistribution och felfrekvensdistribution. Baserat på felanalysresultatet studerade vi sedan tillförlitligheten hos vårt avkodningsschema för att återställa kodade data med olika provomslag.
Sekvenseringsresultat
vi analyserade kvalitetsvärdet för varje basposition längs de sekvenserade läsningarna för att utvärdera datakvaliteten. Kvalitetsresultatet är en uppskattning av tillförlitligheten hos de sekvenserade läsningarna som hänför sig till felfrekvensen för varje basposition. Den beräknas med Q= – 10log10e, där e är felfrekvensen för baspositionen . Kvalitetspoängen för varje bas av sekvenseringsläsningarna sträcker sig från 30 till 40 (Fig. 3 A), som representerar en hög kvalitet. Vidare observerar vi att felfrekvensen ökar med förlängningen av sekvenserade läsningar medan med en genomsnittlig hastighet på 0,015% i varje bas längs läsningarna (Fig. 3 B)). Detta beror troligen på konsumtionen av sekvenseringsreagens, vilket är ett vanligt fenomen i Illumina high-throughput sequencing platform som bygger på sekvensering genom syntes (SBS) – teknik . Som förväntat har de första flera baserna högre sekvenseringsfelfrekvens än andra. Detta kan bero på fokuseringen av sequencerens fluorescensbildsensoravkänningselement som kanske inte är tillräckligt känsligt i början av sekvenseringen. Som ett resultat är kvaliteten på förvärvad fluorescensavläsning låg. Minns att sekvenserna bifogades med ett par 20nt-primerbindningsställen i båda ändarna och därmed de första flera felbenägna baserna (runt 6nt) har inget inflytande på avkodning, eftersom CRC-testet och RA-kodning/avkodning utformades genom att utesluta bindningsställena. Med andra ord kommer en sekvens att identifieras som raderad av CRC-avkodaren på grund av fel i andra positioner (utanför primers).
i Fig. 3 (C), en bas innehållsfördelning av A, T, C och G längs läsningar presenteras för att visa fördelningen av GC innehåll. Enligt principen om komplementära baser bör innehållet i AT och GC vara lika vid varje sekvenseringscykel och vara konstant och stabilt i hela sekvenseringsproceduren. I synnerhet var det observerade genomsnittliga GC-innehållet i en sekvenseringsläsning och i varje basposition båda cirka 50% oavsett den första 20nt. Anledningen till distributionen i den första 20nt beror på de två bindningsställena i båda ändarna. Fördelningen visar att GC-innehållet i de sekvenserade oligoerna uppfyller den biokemiska begränsningen väl och därför säkerställer en stabil sekvenseringsprocess.
dataåterställningsanalys
för att verifiera kodens motståndskraft i vårt utformade ra-felkorrigeringskodningsschema studerade vi systemets dataåterställningsprestanda över olika omslag i Fig. 3 D. Detta ger oss en uppskattning av felmotståndet hos den designade RA-koden mot olika bortfall på grund av olika täckningar. Det finns några oanvändbara råa sekvenser i den mottagna sekvenseringsläsningarna på grund av att deras längd ligger utanför det acceptabla intervallet. För att imitera olika täckningar (från 8x till 12x) genererade vi datamängder av olika storlekar genom att utföra slumpmässig nedprovtagning på de användbara råsekvenserna, där fördelningen av varje meddelande oligo kan variera. Till exempel, för täckning av 8x, vi slumpmässigt ner samplade de användbara råsekvenserna för att generera en datauppsättning av 96,000 raw-sekvenser. För varje täckning genererade vi 5 olika slumpmässigt nedsamlade datamängder och bestämde den genomsnittliga sekvenserings-och avkodningsprestandan. För varje rå sekvens utförde vi de-mappning för att konvertera nukleotidsekvensen till binär sekvens och utförde CRC-test för att identifiera felfria/korrekta sekvenser. Det genomsnittliga antalet felfria sekvenser för varje täckning visas i Fig. 3 (e) (svarta prickar), som förväntat, ökar det med ökningen av täckningen. De felfria sekvenserna matades sedan till RA-avkodaren för att återställa de felaktiga sekvenserna. Vi observerade att från täckning 10x och framåt, för varje täckning, kunde avkodaren återställa de ursprungliga sekvenserna i 5 av 5 slumpmässiga nedprovtagningsexperiment perfekt (gröna diamanter i Fig. 3 E)). Detta visar att avkodaren är robust för att återställa felaktiga data med minsta täckning på 10x, där 3,3% av oligosekvenserna var felaktiga (dvs en bortfallshastighet 3,3%)