Articles

Vysoká kapacita DNA ukládání dat s proměnnou-délka Oligonukleotidů pomocí opakování hromadí kód a hybridní mapování

19 března, 2021 by admin

praktické DNA ukládání dat s vysokou kapacitou

Jsme začali s výstavbou architektura ukládání dat a získávání dat z DNA-based storage (Obr. 1 písm. A)). Uživatelská data byla nejprve segmentována do 11 400 binárních uživatelských paketů s délkou každého paketu 266 bitů. Opravit chyby vyskytující se od jakékoli fázi v DNA skladovacích procesů včetně syntézy, zesílení, skladování a příprava vzorků pro sekvenování jsme použili RA kódování na binární uživatelské pakety, kde 5% redundantní/parita pakety byly vytvořeny. S každým z 12.000 binární pakety, 14 bitů byly přidány pro indexování objednat stochastické oligos a 20 bitů byly přidány pro Cyklická Redundantní Kontrola (CRC) pro detekci vnitřní chyby v každém paketu. Výsledkem bylo, že celkový počet bitů spojených s každým paketem se stal 300 bitů (Viz další soubor 1: obrázek S4). Poté jsme pomocí navrženého hybridního mapovacího schématu mapovali všechny binární sekvence do sekvencí DNA. Poté byly poslány sekvence DNA, aby zkroucily Bioscience pro syntézu oligos. Po obdržení syntetizován oligos bazénu, jsme amplifikovány pomocí Polymerázové Řetězové Reakce (PCR) před odesláním vzorků NovogeneAIT pro sekvenování pomocí Illumina HiSeq. V poslední fázi jsme analyzovali a dekódovali sekvenční data, abychom převedli záznamy DNA zpět na digitální binární data. Poprvé jsme se dolů do vzorku, miliony sekvence čte ze sekvenování výsledek a provádí reverzní RA kódování a mapování rekonstruovat původní uživatelská data bez chyb, ověřování proveditelnosti metody.

kromě úplné obnovy dat pomocí výsledků sekvenování jsme také kvantitativně analyzovali navrhované schéma ukládání založené na DNA a porovnali jej s jinými nejmodernějšími schématy odkazem na předchozí srovnávací tabulku (obr. 1 písm. C)). Podrobná definice metrik výkonu v tabulce je popsána v dalším souboru 1: sekce S7. V tabulce jsme porovnávali pouze schémata, která byla navržena a testována, s předpokladem formátu úložiště oligo pool, kde byly syntetizovány jednovláknové krátké oligos o délce kolem 200nt. Všimněte si, že s ekvivalentní předpokladu ukládat mnohem delší vlákna DNA, jako , tedy, 1000bp, navržené kódovací schéma zůstává možné, a čistý informační hustota se zvyšuje s délkou, dosažení vyšší hustoty než , tj. 1.84 bitů/base přes 1.74 bitů/základny (viz Další soubor 1: Sekce S3).

vysoká čistá hustota informací 1.67 bitů / nt dosažených navrhovaným schématem ukládání na bázi DNA (obr. 1(D)) je způsobeno zejména následujícími dvěma technikami, které jsme použili. Za prvé, navrhované schéma hybridního mapování vykazuje potenciál mapování 1,98 bitů / nt s malou mezerou 1% od teoretické horní hranice 2 bitů / nt. Za druhé, optimalizovaný Ra kód pro kontrolu chyb má malou redundanci 1,05. Spolu s 14 bitů indexování a 20 bitů CRC, systém získá 1.67 bitů/nt net informační hustota, výtěžkem 91% z Shannon kapacita (1.83 bitů/nt s 0.5% dropout rate ), což je o 6% více než poslední nejvyšší hlášená v (další soubor 1: sekce S3). Teoreticky, ve srovnání s nárůstem náš informační hustota je kombinovaný výsledek mírně delší proměnné délky DNA oligos (151nt-159nt versus 152nt, s výjimkou primer vazebných míst), méně chyb kontroly redundance (1.05 versus 1.07), a kratší indexování (14bits versus 32bits). Délka DNA oligos jsou komplikovaně navrženy tak, aby plně využít současných široce dostupných technik syntézy DNA (TWIST Bioscience, US), které mohou účinně syntetizovány 200nt dlouhé oligos. Optimalizované RA kód design dává mírně snížené ovládací chyba redundance s ekvivalentní předpokladu řešení 1.3% praktické odpadlíků jako poměr , zatímco úplné uzdravení s 10x pokrytí (10.5 x v ) označuje, že chyba odolnost je zachována. Nejvíce zřetelný rozdíl vzniká v indexování, ve kterém používáme 14 bitů výhradně pro označení pořadí kódované 12000 oligos, při použití 32 bitů pro reprezentaci semena potřebné pro Luby transformace, která stanoví základ fontány kódu, což vede k nadbytečné indexování bitů.

dále ověřte, že vysoká kapacita výkon navržené kódovací schéma udržuje dobře se zvyšující se datová velikost (škálovatelnost), odhadli jsme čisté informace hustota pro kódování dat, velikost s vyšší veličin in silico, tedy od 2MB do 2000MB. Odhadované hustoty mírně klesat s exponenciální nárůst velikosti dat vzhledem k přírůstku indexování, délka potřebné pro nahrávání větší velikost dat (Další soubor 1: Sekce S3 a Obr. 1 písm. E)). Hustota 1,66 bitů / nt se získá pro ukládání 2 MB zdrojových dat, což je stále o 6% vyšší než. Kromě toho jak kód RA, tak strategie hybridního mapování sestávající z navrhovaného kódovacího schématu mají nízkou složitost, kterou lze efektivně implementovat v praxi. Zejména, použití RA kód zabraňuje potenciální dekódování selhání (v důsledku ztráty počáteční položky pro spuštění dekódování v procesu prověřování) a adresu redundance, které mohou vzniknout v DNA fontány, a hybridní mapování dosahuje velmi vysoké mapování potenciálu, který je konkurenceschopný s DNA fontány nepřípustně vysoká složitost, která vykazuje v konvenční omezena blokové kódy.

dále jsme výpočetně odhadli fyzickou hustotu, kterou by navrhované schéma mohlo vykazovat. Prostřednictvím ředění experimenty, autoři v pozorované 4% odpadlíků se vzorkem 10pg DNA, skladování, která se téměř přiblížil své dekodér limit (který byl předurčen kód redundance). RA kód použitý v našem schématu byl optimálně navržen s úrovní redundance za stejného předpokladu míry předčasného ukončení . Zároveň jsme ukázali, že teoreticky náš kód může tolerovat až 4.75% odpadlíků (Další soubor 1: Obrázek S4), což je nad 4% odpadlíků pozorovány v sekvenování 10pg vzorku. S podobnými dekódování limit, náš navrhovaný systém by pravděpodobně funguje stejně jako DNA fontány v nízké molekulární experimenty (např. s 10pg vzorku) vzhledem k použití stejného experimentu potrubí, protokolů a standardů. Jinými slovy, návrh kódu v počáteční fázi umožňuje, aby navrhovaný systém mohl obnovit data z podmínek náchylných k chybám v experimentech s ředěním podobných dna fontáně. Za předpokladu ∼1300 molekul na oligo v průměru, sekvenování hloubka 511x, a ekvivalent potrubí, protokolů a standardů jako 10pg ředění experiment v DNA fontány, můžeme výpočetně odhadnout, že náš režim bude dosáhnout fyzické hustotu 239 PB/g \(\left (\frac {266*11400/8\text {byte}}{1300*11400*1.0688*10^{-19}\text {g}}\right)\). K ověření této výpočetně odhadované fyzické hustoty je však nutný přísný experiment.

RA kód design a hybridní mapování schématu pro skladování DNA

navrhli Jsme metodu kódování, která se skládá oligo-level opakovat hromadí (RA) kód a efektivní hybridní mapování schématu.

návrh RA kódu

v tradičních komunikačních systémech se ra kód používá na bitové úrovni, kde se generují redundantní bity pro zmírnění chyb substituce. Ukládání DNA je však náchylné nejen k chybám substituce, ale také k chybám vkládání a mazání. Proto jsme namísto konvenčního Ra kódování na bitové úrovni navrhli Ra kódování na úrovni paketů pro ukládání DNA tak, aby paket vystavený chybám vkládání, mazání nebo substituce mohl být obnoven pomocí RA dekodéru. Jak bylo popsáno výše, rozdělili jsme velký digitální soubor na menší pakety stejné velikosti. Tyto pakety byly považovány za zdrojové pakety, které byly použity ke generování redundantních nebo paritních paketů pomocí systematického RA kódu Obr. 2 písm. A). Všimněte si, že každý paket byl začleněn do CRC pro detekci chyb v paketu. U paketů, které prošly CRC testem v dekodéru, jsme je považovali za správně obnovené, zatímco ostatní byly považovány za vynechané nebo vymazané. Celkový problém návrhu kódu pro ukládání DNA se tak stal návrhem kódu pro kanál vymazání. Pro zajištění vysoké spolehlivosti, kód konstrukce byla provedena s ohledem na mírně vyšší pravděpodobnost vypuštění, než je skutečná pravděpodobnost vypuštění. V této práci jsme považovali skutečnou míru předčasného ukončení za 1,3%, která byla uvedena ve fountain paper . Proto jsme navrhli RA kód tak, že výsledný kód vykazoval asymptotické práh vyšší než vypuštění pravděpodobnost 0.013. Po postupu optimalizace (Viz další soubor 1: sekce S2) jsme navrhli RA kód rychlosti 0,95, který dává asymptotický práh 0,0475. Výsledný kód ukazuje pouze mezeru 0,0025 od Shannonova kapacitního limitu (0,05). Simulovaný výkon korekce chyb navrženého Ra kódu je uveden v dalším souboru 1: obrázek S4. Vzhledem k rychlosti 0.Kód 95 RA, vygenerovali jsme 600 redundantních / paritních paketů založených na zdrojových paketech 11,400, celkem jsme po kódování obdrželi binární pakety 12,000.

Hybridní mapování režim

dále se domníváme, reprezentuje digitální data v DNA kontextu, který označujeme jako DNA mapování. Strategie mapování DNA by měla umožnit mapované oligo sekvence splňující biochemická omezení, a tím přinést stabilitu do úložiště. Tam jsou dvě takové omezení v DNA dat jsou následující: (i) GC obsah (poměr celkového počtu “ G “ a “ C “ proti celkový počet nukleotidů v sekvenci) musí být v blízkosti 50% (ii) Všechny homopolymer spustit délky (délka opakovaně po sobě jdoucích nukleotidů) by měla být menší než 4 . Mapování dvou bitů na jeden nukleotid, které vykazuje optimální mapovací potenciál (2 bity / nt), nemusí vždy splňovat výše uvedené požadavky. Místo toho často nesplňuje maximální omezení homopolymerního běhu. Omezení existující v ukládání dat DNA snižují efektivní mapovací potenciál, což nepříznivě ovlivňuje kapacitu ukládání dat DNA. Proto jsme zkoumali přístup navrhování omezený kód s vysokou kód, rychlost a vyvinul hybridní mapování strategie, aby zajistily, oligo sekvence setkat biochemické požadavky s minimální oběť mapování potenciálu.

toto mapovací schéma se skládá ze dvou různých metod mapování, jmenovitě prokládaného mapování a VLC mapování. První z nich funguje jako primární mapování díky svému přibližně optimálnímu mapovacímu potenciálu, tj. 1.995 bitů/nt a ten druhý funguje jako záložní, který přichází do hry, když první mapování nepředloží platný DNA sekvence (tj. sekvence, které splňují GC obsahu a homopolymer spustit omezení). V pozdější metodě mapování je vytvořena pomocná vyhledávací tabulka s nízkou složitostí kódování a dekódování. Mezitím tato metoda vykazuje potenciál mapování 1.976 bitů / nt, který je mnohem vyšší než blokové kódy s ekvivalentní složitostí. Kombinace těchto dvou mapovacích strategií vede k průměrnému mapovacímu potenciálu kolem 1.98 bitů / nt se stochastickými daty. Jinými slovy, v nejhorším případě, kdy jsou všechna data kódována pomocí VLC, jsme stále dosáhli vysokého odhadu potenciálu mapování (1.976 bitů / nt). V nejlepším případě, kdy jsou všechna data mapována pomocí prokládaného mapování, bychom však mohli dosáhnout velmi vysokého potenciálu 1.995 bitů / nt.

digitální data nejprve procházejí prokládanou mapovací metodou pro generování sekvencí DNA. V metodě prokládaného mapování jsou binární sekvence nejprve mapovány pomocí binárního až kvartérního mapování. S rostoucí délkou oligo je omezení obsahu GC často uspokojeno kvůli stochastické funkci binárních dat. Toto mapování však obvykle nesplňuje omezení homopolymerního běhu. K vyřešení tohoto problému, představujeme prokládač po binárním-kvartérním mapování, který míchá původní pořadí nukleotidových sekvencí. Po prokládání se provede screeningový test pro kontrolu homopolymerního běhu výsledné sekvence. Pokud výsledné sekvence projde testem, že sekvence je považována za platnou sekvence pro syntézu, jinak prokládání se provádí opět na původní sekvence s různými prokládání vzor. V této práci považujeme za 4 předdefinované prokládání vzory, kde vlajku nukleotidů (A/T/G/C) je připojen na konci prokládané DNA sekvence pro indikaci prokládání vzor (Další soubor 1: Sekce S8). Všimněte si, že připojený nukleotid vlajky je zahrnut do stanovení homopolymerního běhu sekvence během screeningového testu. Používáme pouze jeden další (flag) nukleotid k udržení vysoké čisté hustoty informací. V důsledku toho je počet prokládaných pokusů omezen na 4. Pokud sekvence stále nesplňuje požadavek po maximálním počtu pokusů, je posloupnost odeslána do metody mapování VLC (obr. 2(B) a další soubor 1: oddíl S4).

VLC mapování je inspirován konstrukce variabilní-délka omezená posloupnost (VLCS) kód, který se běžně používá pro zápis dat do omezení-uspokojující kódy v omezených systémů, jako optické nahrávací systémy, kde run-length limit a DC-bez problémů vzniknout . Ve scénáři ukládání DNA, kde existují podobná omezení, může být VLCS kód účinně upraven na metodu mapování. Všimněte si, že jak jsme pomocí packet-level RA kód pro řízení chyb, šíření chyb, vedené VLCS kód je omezen v jednom paketu a nemá žádný vliv na celkové vypuštění sazby kódované sekvence.

toto pravidlo mapování jsme vygenerovali v následujících čtyřech fázích. Za prvé, vzhledem k omezení maximální homopolymer běží, DNA-based storage byla vnímána jako omezený systém s run-length limit (RLL), označil (M,d,k), kde M=4,d=0 a k=2 (Další soubor 1: Sekce S5). Proto, konečný stav přechodový diagram (FSTD) (4,0,2) homopolymer-constrained DNA pro ukládání dat byl vytvořen (Další soubor 1: Sekce S5 a Obr. 2 písm. C, i)). Ve druhé fázi, na základě vytvořených FSTD, jsme vydedukovali, že kapacity (4, 0, 2) homopolymer-constrained DNA skladování je 1.982 bitů/nt (Další soubor 1: Sekce S5). Navázali jsme i kompletní minimální sadu (konečnou množinu slov, jejichž zřetězení patří všechna možná omezení-uspokojující sekvence ), kde jsme vyjmenoval všechna slova, která pocházejí z a end ve stavu s0 na Obr. 2 písm. C, i). Jako výsledek. získali jsme minimální množinu {1,2,3,01,02,03,001,002,003}, ve které jsou všechny prvky uspokojující omezení a bez předpony. Tyto dvě vlastnosti zajistit, aby veškeré zřetězení prvků tohoto souboru vytváří omezení-uspokojující sekvence, které jsou potenciální přechod kódová slova pro omezený systém. Všimněte si, že výsledná sada přechodových kódových slov se týká hloubky a šířky zřetězení. Pro snížení složitosti kódování jsme přímo použili kompletní minimální sadu jako sadu přechodových kódových slov.

ve třetí fázi jsme použili kódovací strom Huffman k vytvoření optimálního mapování z proměnné délky binárního zdrojového slova na výše uvedenou sadu přechodových kódových slov (obr. 2 písm.C, ii)). Toto optimální individuální přiřazení dalo průměrnou rychlost kódu 1, 976 bitů / nt (obr. 2(C, iii) A viz další soubor 1: oddíl S5). Mezitím, účinnost tohoto mapování přístupů \(\sigma =\frac {1.976}{1.982}=99.7\%\), představuje pouze 0,3% rozdíl od kapacity (4,0,2) omezený systém. Z hlediska mapování potenciálu, mapování překonává blok omezený kód navrhla v , ve kterém (4,0,2) omezený kód byl konstruován pomocí 39nt DNA bloky jako kódová slova, dosažení 1.95 bitů/nt mapování potenciálu. Kromě toho je blokový kód 39nt také nepraktický pro tradiční ukládání dat DNA, kde jsou zvažovány mnohem delší sekvence DNA (kódová slova), tj. Naproti tomu přístup mapování s proměnnou délkou má nízkou složitost kódování bez ohledu na celkovou délku výsledných oligo sekvencí.

V poslední fázi, po zmapování zdrojových slov k přechodu kódových slov v řadě proti sobě binární sekvence, jsme provedli precoding na kódovány sekvence kvartérních v závislosti na změně stavu funkce yj=yj−1+xj(mod M), kde yj je aktuální výstup precoding symbol, yj−1 je poslední výstup pre-kódované symbol, xj je aktuální vstupní symbol, M je abeceda velikost systému. Toto předkódování přenese kódovaný (M,d,k) omezený kód na (M,d+1,K+1) RLL kód. Pak jsme převeden kvartérní symbolů z {0,1,2,3} {‚A‘, ‚T‘, ‚C‘, ‚G‘ } a získat konečné oligo sekvence, které splňují omezení žádné homopolymer běží větší než 3nt. Příklad této strategie mapování lze nalézt v dalším souboru 1: sekce S6.

Přes hybridní mapování schématu, jsme vytvořili 12,000 DNA sekvence s délkou distribuce od 150nt na 159nt (kromě 40nt nátěru míst) pro binární data stream (Obr. 2 písm. E)). Konkrétně délka sekvencí mapovaných pomocí prokládaného mapování se stala 151nt, zatímco délka sekvencí mapovaných pomocí VLC mapování se pohybovala od 150, 152 do 159nt. Všimněte si, že tam byl žádná sekvence s délkou 151nt, který vznikl z VLC mapování jako jeden nukleotid byl přidán, aby se tyto 151nt mapované sekvence 152nt (Obr. 2 písm. C, iv)). Přidaný nukleotid měl rozlišovat mezi mapovacími metodami. To umožňuje použití správného de-mapování během obnovy uložených dat v dekodéru.

pro načtení dat jsou připravené sekvence z procesu sekvenování odeslány do dekodéru, aby se obnovila uživatelská data (obr. 2 písm. D)). Dekodér nejprve rozlišuje metodu mapování. Je-li délka přijaté sekvence 151nt, použije dekodér reverzi prokládaného mapování na základě příznakového nukleotidu a pravidla binárního až kvartérního mapování. V opačném případě dekodér použije reverzní VLC mapování, kde se provádí reverzní předkódování a mapování. Poté je každá obrácená binární sekvence považována za správnou nebo za vymazanou na základě kontroly CRC. Konečně, s algoritmem předávání zpráv, dekodér RA obnoví všechny vymazané sekvenční pakety na základě spojení mezi pakety.

výsledky Sekvenování a obnovu dat, analýzy

Po sekvenování syntetizován oligos bazénu, jsme obdrželi více než 10 milionů raw sekvence čte celkem velikost 3,2 Gb z NovogeneAIT. Tyto sekvence zahrnují hlučné čtení generované během sekvenování. Na základě výsledků sekvenování jsme nejprve analyzovali spolehlivost sekvenačních dat z hlediska kontroly kvality dat, distribuce obsahu A / T / G / C a distribuce chybovosti. Na základě analýzy chyb výsledek, jsme pak studovali spolehlivost našich dekódování v režimu obnovení zakódovaných dat s různými ukázkové reportáže.

výsledky sekvenování

analyzovali jsme hodnotu kvality pro každou základní pozici podél sekvenovaných čtení, abychom vyhodnotili kvalitu dat. Skóre kvality je odhad spolehlivosti sekvenovaných čtení, který se vztahuje k chybovosti každé základní polohy. Vypočítá se pomocí Q= – 10log10e, kde e je chybovost základní polohy . Skóre kvality každé základny sekvenačních čtení se pohybuje od 30 do 40 (obr. 3 písm. A)), což představuje vysokou kvalitu. Dále, pozorujeme, že míra chyb se zvyšuje s prodloužením sekvenován čte zároveň s průměrnou rychlostí 0,015% v každé základny podél čte (Obr. 3 písm. B)). To je pravděpodobně způsobeno spotřebou sekvenačního činidla ,což je běžný jev ve vysoce výkonné sekvenční platformě Illumina, která je založena na sekvenování technologií syntézy (SBS). Jak se dalo očekávat, prvních několik bází má vyšší míru chyb sekvenování než jiné. To by mohlo být způsobeno zaostřením snímacího prvku fluorescenčního obrazového senzoru sekvenceru, který nemusí být na začátku sekvenování dostatečně citlivý. V důsledku toho je kvalita získaného fluorescenčního čtení nízká. Připomeňme si, že sekvence byly připojeny s pár 20nt primer vazebných míst na obou koncích, a proto prvních několik náchylné k chybám základny (kolem 6nt) nemají žádný vliv na dekódování, jako CRC testu a RA kódování/dekódování byly navrženy kromě vazebných míst. Jinými slovy, sekvence bude identifikována jako vymazaná dekodérem CRC kvůli chybám v jiných pozicích (mimo primery).

Mex Alex

Vysoká kapacita DNA ukládání dat s proměnnou-délka Oligonukleotidů pomocí opakování hromadí kód a hybridní mapování

praktické DNA ukládání dat s vysokou kapacitou

RA kód design a hybridní mapování schématu pro skladování DNA

návrh RA kódu

Hybridní mapování režim

výsledky Sekvenování a obnovu dat, analýzy

výsledky sekvenování

obnova Dat analýza

Napsat komentář Zrušit odpověď na komentář

Vysoká kapacita DNA ukládání dat s proměnnou-délka Oligonukleotidů pomocí opakování hromadí kód a hybridní mapování

praktické DNA ukládání dat s vysokou kapacitou

RA kód design a hybridní mapování schématu pro skladování DNA

návrh RA kódu

Hybridní mapování režim

výsledky Sekvenování a obnovu dat, analýzy

výsledky sekvenování

obnova Dat analýza

Napsat komentář Zrušit odpověď na komentář

You may like

Tři Nejlepší Způsoby, jak Sledovat Své Čtení

Jak vyměnit hnací řemen pračky s předním zatížením