Nagy kapacitású DNS-adatok tároló változó hosszúságú Oligonucleotides használatával ismételje meg felhalmozódnak törvénykönyv, valamint a hibrid feltérképezése
Egy gyakorlati DNS-adatok tárolási rendszer nagy kapacitású
kezdtük építése, építész, az adatok tárolása, lekérdezése adatokat a DNS-alapú tároló (Fig. 1(A)). A felhasználói adatokat először 11 400 bináris felhasználói csomagra osztották, mindegyik csomag hossza 266 bit. A DNS-tárolási folyamatok bármely szakaszából eredő hibák kijavításához, beleértve a szintézist, az erősítést, a tárolást és a minta előkészítését a szekvenáláshoz, ra kódolást alkalmaztunk bináris felhasználói csomagokon, ahol 5% redundáns/paritás csomagokat generáltunk. A 12 000 bináris csomag mindegyikével 14 bitet adtak hozzá az indexeléshez a sztochasztikus oligos megrendeléséhez, 20 bitet pedig a ciklikus redundancia ellenőrzéshez (CRC) adtak az egyes csomagok belső hibáinak észleléséhez. Ennek eredményeként az egyes csomagokhoz társított bitek teljes száma 300 bit lett (Lásd az 1. további fájlt: S4 ábra). Ezután az összes bináris szekvenciát DNS-szekvenciákra térképeztük fel a javasolt hibrid leképezési sémán keresztül. Ezután a DNS-szekvenciákat elküldték az oligoszintézis Bioscience-jének csavarására. Miután megkaptuk a szintetizált oligos-medencét, polimeráz láncreakcióval (PCR) erősítettük, mielőtt a mintákat NovogeneAIT-ba küldtük az Illumina HiSeq szekvenálására. Az utolsó szakaszban elemeztük és dekódoltuk a szekvenálási adatokat, hogy a DNS-rekordokat digitális bináris adatokká alakítsuk át. Először a szekvenálási eredményből vett millions szekvenciát elemeztük le, majd elvégeztük az RA kódolás és leképezés megfordítását, hogy hibátlanul rekonstruáljuk az eredeti felhasználói adatokat, ellenőrizve módszerünk megvalósíthatóságát.
amellett, hogy a teljes helyreállítás adatok segítségével a sorozatot, eredmények, mi is mennyiségileg elemezte a javasolt DNS-alapú tároló rendszer összehasonlítva más state-of-the-art rendszerek által hivatkozva egy korábbi összehasonlító táblázat (Fig. 1 (C)). A táblázatban szereplő teljesítménymutatók részletes meghatározását az 1. kiegészítő fájl tartalmazza: S7 szakasz. A táblázatban csak azokat a sémákat hasonlítottuk össze, amelyeket az oligo pool tárolási formátumának előfeltételével terveztek és teszteltek, ahol a 200nt körüli hosszúságú egyszálú rövid oligoszokat szintetizálták. Vegye figyelembe, hogy az ezzel egyenértékű feltételezés, tárolása sokkal hosszabb DNS-szál, mint , azaz 1000bp, a javasolt kódolási rendszer továbbra is megvalósítható, valamint a nettó információk sűrűség növekedésével, a hossz elérése nagyobb sűrűségű, mint , azaz 1.84 bit/bázist 1.74 bit/bázis (lásd a Kiegészítő fájl 1: Részben S3).
a nagy nettó információsűrűség 1.67 bit/nt a javasolt DNS-alapú tárolási séma szerint (ábra. 1 (D))) elsősorban a következő két technikának köszönhető. Először is, a javasolt hibrid leképezési séma 1, 98 bit/nt leképezési potenciált mutat, kis 1% – os réssel a 2 Bit/nt elméleti felső határától. Másodszor, az optimalizált RA kód a hibakereséshez kis redundanciával rendelkezik 1.05. Együtt a 14-es bit indexelés 20 bites CRC-t, a rendszer szerez 1.67 bit/nt nettó információk sűrűség, így 91% – a Shannon kapacitás (1.83 bit/nt 0-val.5% lemorzsolódási arány ), ami 6% – kal több, mint az utoljára jelentett legmagasabb (további 1.fájl: S3 szakasz). Elméletileg összehasonlítva azzal, hogy információsűrűségünk növekedése a kissé hosszabb változó hosszúságú DNS oligos (151nt-159nt versus 152nt, kivéve a primer kötőhelyeket), a kisebb hibakeresési redundancia (1.05 versus 1.07), valamint a rövidebb indexelés (14bits versus 32bits) együttes eredménye. A DNS-oligók hosszát úgy tervezték, hogy teljes mértékben kihasználja a jelenleg széles körben elérhető DNS-szintézis technikákat (TWIST Bioscience, US), amelyek hatékonyan szintetizálhatják a 200nt hosszú oligos-t. A RA optimalizált kód design ad enyhén csökkent hiba ellenőrzés redundancia az ezzel egyenértékű nagyboldogasszony kezelése 1.3% gyakorlati lemorzsolódás aránya, mint a , míg a teljes hasznosítás 10-szeres lefedettség (10.5 x ) azt jelzi, hogy a hiba rugalmasságának fenntartását. A legkülönbözőbb különbség az indexelésben merül fel, amelyben 14 bitet használunk kizárólag a kódolt 12000 oligos sorrendjének jelzésére, míg 32 bitet használunk a Luby transzformációhoz szükséges magok ábrázolására, amely meghatározza a fountain code alapját, ami redundáns indexelési biteket eredményez.
annak további ellenőrzéséhez, hogy a javasolt kódolási séma nagy kapacitású teljesítménye jól megmarad-e az adatméret növelésével (skálázhatóság), a silico-ban nagyobb nagyságú adatméret kódolására becsültük a nettó információsűrűséget, azaz 2 MB-ról 2000 MB-ra. A becsült sűrűség kissé csökken az adatméret exponenciális növekedésével a nagyobb adatméret rögzítéséhez szükséges indexelési hossz növekedése miatt(további fájl 1: S3 szakasz és ábra. 1(E))). 1,66 bit/nt sűrűséget kapunk a 2 MB forrásadatok tárolására, ami még mindig 6% – kal magasabb . Ezenkívül mind az RA-kód, mind a hibrid leképezési stratégia, amely a javasolt kódolási rendszerből áll, alacsony bonyolultsággal rendelkezik, amelyek hatékonyan végrehajthatók a gyakorlatban. Különösen az RA kód használata megakadályozza a lehetséges dekódolási meghibásodást(a kezdeti bejegyzések elvesztése miatt a dekódolás megkezdéséhez a szűrési folyamatban) és a DNS-szökőkútban felmerülő redundanciát, valamint a hibrid leképezés nagyon magas leképezési potenciált ér el, amely versenyképes a DNS-szökőkúttal, elkerülve a nagy komplexitást, amely a hagyományos korlátozott blokkkódokban mutat.
továbbá kiszámítottuk azt a fizikai sűrűséget, amelyet a javasolt rendszer mutathat. Hígítási kísérletek révén a szerzők 4% – os lemorzsolódási arányt figyeltek meg egy 10pg DNS-tárolóból álló mintával, amely majdnem megközelítette a dekóder korlátját (amelyet a kód redundancia előre meghatározott). A rendszerünkben használt RA-kódot optimálisan úgy tervezték meg, hogy a redundancia szintje ugyanolyan feltételezés szerint legyen figyelembe véve a lemorzsolódási arányt . Azt is kimutatták, hogy elméletileg a kódunk akár 4, 75% – os lemorzsolódási arányt is elviselhet (további 1.fájl: S4 ábra), ami meghaladja a 10pg minta szekvenálásakor megfigyelt 4% – os lemorzsolódási arányt. Hasonló dekódolási limittel a javasolt rendszer valószínűleg ugyanúgy működik, mint a DNS-kút az alacsony molekulatömegű kísérletekben (például 10pg mintával) ugyanazon kísérletvezetékek, protokollok és szabványok használata miatt. Más szavakkal, a kódtervezés a kezdeti szakaszban lehetővé teszi, hogy a javasolt rendszer a DNS-szökőkúthoz hasonló hígítási kísérletek során a hibára hajlamos állapotokból visszanyerje az adatokat. Feltételezve, hogy ∼1300 molekula per oligo átlagosan szekvenálási mélysége 511x, és azzal egyenértékű csővezetékek, protokollok és szabványok, mint a 10PG hígítási kísérlet DNS fountain, tudtuk számításilag megbecsülni, hogy a rendszer elérni fogja a fizikai sűrűsége 239 PB / g \(\left (\frac {266*11400/8 \ text {byte}}{1300*11400*1.0688*10^{-19}\szöveg {gram}}\jobb)\). Azonban szigorú kísérletre van szükség a számításilag becsült fizikai sűrűség ellenőrzéséhez.
RA code design and hybrid mapping scheme for DNA storage
olyan kódolási módszert terveztünk, amely oligo-szintű repeat (RA) kódot és egy hatékony hibrid leképezési sémát tartalmaz.
RA kódtervezés
a hagyományos kommunikációs rendszerekben az RA kódot bitszinten használják, ahol redundáns biteket generálnak a helyettesítési hibák enyhítésére. A DNS-tárolás azonban nemcsak helyettesítési hibákra, hanem beillesztési és törlési hibákra is hajlamos. Ezért a hagyományos bitszintű RA kódolás helyett egy csomag szintű RA kódolást terveztünk a DNS-tároláshoz úgy, hogy a beillesztési, törlési vagy helyettesítési hibáknak kitett csomag a RA dekóder segítségével visszanyerhető legyen. Mint korábban leírtuk, egy nagy digitális fájlt ugyanolyan méretű kisebb csomagokra szegmentáltunk. Ezeket a csomagokat úgy tekintették, mint a forrás csomagokat, amelyeket a redundáns vagy paritás csomagok generálására használtak szisztematikus RA Kód Fig. 2 (A). Vegye figyelembe, hogy minden csomagot beépítettek a CRC-hez, hogy észleljék a csomag hibáit. A dekóderben a CRC tesztet teljesítő csomagok esetében helyesen helyreállítottnak tekintettük őket, míg a többieket eldobottnak vagy törlettnek tekintettük. Így a DNS-Tárolás általános kódtervezési problémája lett a törlési csatorna kódtervezése. A nagy megbízhatóság érdekében a kódtervezést úgy hajtottuk végre, hogy valamivel nagyobb lemorzsolódási valószínűséget vettünk figyelembe, mint a tényleges lemorzsolódási valószínűség. Ebben a munkában a tényleges lemorzsolódási arányt 1, 3% – nak tekintettük, amelyet a szökőkút papír jelentett . Így úgy terveztük meg az RA kódot, hogy a kapott kód aszimptotikus küszöbértéket mutatott, amely magasabb, mint a 0,013 lemorzsolódási valószínűsége. Az optimalizálási eljárást követően (lásd az 1. további fájlt: S2 szakasz) egy 0,95-ös ra-kódot terveztünk, amely 0,0475-ös aszimptotikus küszöböt ad. A kapott kód csak 0,0025-ös rést mutat a Shannon kapacitáskorlátjától (0,05). A tervezett RA kód szimulált hibajavítási teljesítményét további 1. Fájl mutatja: S4 ábra. Az arány miatt 0.95 RA kód, 600 redundáns/parity csomagot generáltunk 11 400 forráscsomag alapján, összesen 12 000 bináris csomagot fogadva kódolás után.