Articles

Nagy kapacitású DNS-adatok tároló változó hosszúságú Oligonucleotides használatával ismételje meg felhalmozódnak törvénykönyv, valamint a hibrid feltérképezése

Egy gyakorlati DNS-adatok tárolási rendszer nagy kapacitású

kezdtük építése, építész, az adatok tárolása, lekérdezése adatokat a DNS-alapú tároló (Fig. 1(A)). A felhasználói adatokat először 11 400 bináris felhasználói csomagra osztották, mindegyik csomag hossza 266 bit. A DNS-tárolási folyamatok bármely szakaszából eredő hibák kijavításához, beleértve a szintézist, az erősítést, a tárolást és a minta előkészítését a szekvenáláshoz, ra kódolást alkalmaztunk bináris felhasználói csomagokon, ahol 5% redundáns/paritás csomagokat generáltunk. A 12 000 bináris csomag mindegyikével 14 bitet adtak hozzá az indexeléshez a sztochasztikus oligos megrendeléséhez, 20 bitet pedig a ciklikus redundancia ellenőrzéshez (CRC) adtak az egyes csomagok belső hibáinak észleléséhez. Ennek eredményeként az egyes csomagokhoz társított bitek teljes száma 300 bit lett (Lásd az 1. további fájlt: S4 ábra). Ezután az összes bináris szekvenciát DNS-szekvenciákra térképeztük fel a javasolt hibrid leképezési sémán keresztül. Ezután a DNS-szekvenciákat elküldték az oligoszintézis Bioscience-jének csavarására. Miután megkaptuk a szintetizált oligos-medencét, polimeráz láncreakcióval (PCR) erősítettük, mielőtt a mintákat NovogeneAIT-ba küldtük az Illumina HiSeq szekvenálására. Az utolsó szakaszban elemeztük és dekódoltuk a szekvenálási adatokat, hogy a DNS-rekordokat digitális bináris adatokká alakítsuk át. Először a szekvenálási eredményből vett millions szekvenciát elemeztük le, majd elvégeztük az RA kódolás és leképezés megfordítását, hogy hibátlanul rekonstruáljuk az eredeti felhasználói adatokat, ellenőrizve módszerünk megvalósíthatóságát.

amellett, hogy a teljes helyreállítás adatok segítségével a sorozatot, eredmények, mi is mennyiségileg elemezte a javasolt DNS-alapú tároló rendszer összehasonlítva más state-of-the-art rendszerek által hivatkozva egy korábbi összehasonlító táblázat (Fig. 1 (C)). A táblázatban szereplő teljesítménymutatók részletes meghatározását az 1. kiegészítő fájl tartalmazza: S7 szakasz. A táblázatban csak azokat a sémákat hasonlítottuk össze, amelyeket az oligo pool tárolási formátumának előfeltételével terveztek és teszteltek, ahol a 200nt körüli hosszúságú egyszálú rövid oligoszokat szintetizálták. Vegye figyelembe, hogy az ezzel egyenértékű feltételezés, tárolása sokkal hosszabb DNS-szál, mint , azaz 1000bp, a javasolt kódolási rendszer továbbra is megvalósítható, valamint a nettó információk sűrűség növekedésével, a hossz elérése nagyobb sűrűségű, mint , azaz 1.84 bit/bázist 1.74 bit/bázis (lásd a Kiegészítő fájl 1: Részben S3).

a nagy nettó információsűrűség 1.67 bit/nt a javasolt DNS-alapú tárolási séma szerint (ábra. 1 (D))) elsősorban a következő két technikának köszönhető. Először is, a javasolt hibrid leképezési séma 1, 98 bit/nt leképezési potenciált mutat, kis 1% – os réssel a 2 Bit/nt elméleti felső határától. Másodszor, az optimalizált RA kód a hibakereséshez kis redundanciával rendelkezik 1.05. Együtt a 14-es bit indexelés 20 bites CRC-t, a rendszer szerez 1.67 bit/nt nettó információk sűrűség, így 91% – a Shannon kapacitás (1.83 bit/nt 0-val.5% lemorzsolódási arány ), ami 6% – kal több, mint az utoljára jelentett legmagasabb (további 1.fájl: S3 szakasz). Elméletileg összehasonlítva azzal, hogy információsűrűségünk növekedése a kissé hosszabb változó hosszúságú DNS oligos (151nt-159nt versus 152nt, kivéve a primer kötőhelyeket), a kisebb hibakeresési redundancia (1.05 versus 1.07), valamint a rövidebb indexelés (14bits versus 32bits) együttes eredménye. A DNS-oligók hosszát úgy tervezték, hogy teljes mértékben kihasználja a jelenleg széles körben elérhető DNS-szintézis technikákat (TWIST Bioscience, US), amelyek hatékonyan szintetizálhatják a 200nt hosszú oligos-t. A RA optimalizált kód design ad enyhén csökkent hiba ellenőrzés redundancia az ezzel egyenértékű nagyboldogasszony kezelése 1.3% gyakorlati lemorzsolódás aránya, mint a , míg a teljes hasznosítás 10-szeres lefedettség (10.5 x ) azt jelzi, hogy a hiba rugalmasságának fenntartását. A legkülönbözőbb különbség az indexelésben merül fel, amelyben 14 bitet használunk kizárólag a kódolt 12000 oligos sorrendjének jelzésére, míg 32 bitet használunk a Luby transzformációhoz szükséges magok ábrázolására, amely meghatározza a fountain code alapját, ami redundáns indexelési biteket eredményez.

annak további ellenőrzéséhez, hogy a javasolt kódolási séma nagy kapacitású teljesítménye jól megmarad-e az adatméret növelésével (skálázhatóság), a silico-ban nagyobb nagyságú adatméret kódolására becsültük a nettó információsűrűséget, azaz 2 MB-ról 2000 MB-ra. A becsült sűrűség kissé csökken az adatméret exponenciális növekedésével a nagyobb adatméret rögzítéséhez szükséges indexelési hossz növekedése miatt(további fájl 1: S3 szakasz és ábra. 1(E))). 1,66 bit/nt sűrűséget kapunk a 2 MB forrásadatok tárolására, ami még mindig 6% – kal magasabb . Ezenkívül mind az RA-kód, mind a hibrid leképezési stratégia, amely a javasolt kódolási rendszerből áll, alacsony bonyolultsággal rendelkezik, amelyek hatékonyan végrehajthatók a gyakorlatban. Különösen az RA kód használata megakadályozza a lehetséges dekódolási meghibásodást(a kezdeti bejegyzések elvesztése miatt a dekódolás megkezdéséhez a szűrési folyamatban) és a DNS-szökőkútban felmerülő redundanciát, valamint a hibrid leképezés nagyon magas leképezési potenciált ér el, amely versenyképes a DNS-szökőkúttal, elkerülve a nagy komplexitást, amely a hagyományos korlátozott blokkkódokban mutat.

továbbá kiszámítottuk azt a fizikai sűrűséget, amelyet a javasolt rendszer mutathat. Hígítási kísérletek révén a szerzők 4% – os lemorzsolódási arányt figyeltek meg egy 10pg DNS-tárolóból álló mintával, amely majdnem megközelítette a dekóder korlátját (amelyet a kód redundancia előre meghatározott). A rendszerünkben használt RA-kódot optimálisan úgy tervezték meg, hogy a redundancia szintje ugyanolyan feltételezés szerint legyen figyelembe véve a lemorzsolódási arányt . Azt is kimutatták, hogy elméletileg a kódunk akár 4, 75% – os lemorzsolódási arányt is elviselhet (további 1.fájl: S4 ábra), ami meghaladja a 10pg minta szekvenálásakor megfigyelt 4% – os lemorzsolódási arányt. Hasonló dekódolási limittel a javasolt rendszer valószínűleg ugyanúgy működik, mint a DNS-kút az alacsony molekulatömegű kísérletekben (például 10pg mintával) ugyanazon kísérletvezetékek, protokollok és szabványok használata miatt. Más szavakkal, a kódtervezés a kezdeti szakaszban lehetővé teszi, hogy a javasolt rendszer a DNS-szökőkúthoz hasonló hígítási kísérletek során a hibára hajlamos állapotokból visszanyerje az adatokat. Feltételezve, hogy ∼1300 molekula per oligo átlagosan szekvenálási mélysége 511x, és azzal egyenértékű csővezetékek, protokollok és szabványok, mint a 10PG hígítási kísérlet DNS fountain, tudtuk számításilag megbecsülni, hogy a rendszer elérni fogja a fizikai sűrűsége 239 PB / g \(\left (\frac {266*11400/8 \ text {byte}}{1300*11400*1.0688*10^{-19}\szöveg {gram}}\jobb)\). Azonban szigorú kísérletre van szükség a számításilag becsült fizikai sűrűség ellenőrzéséhez.

RA code design and hybrid mapping scheme for DNA storage

olyan kódolási módszert terveztünk, amely oligo-szintű repeat (RA) kódot és egy hatékony hibrid leképezési sémát tartalmaz.

RA kódtervezés

a hagyományos kommunikációs rendszerekben az RA kódot bitszinten használják, ahol redundáns biteket generálnak a helyettesítési hibák enyhítésére. A DNS-tárolás azonban nemcsak helyettesítési hibákra, hanem beillesztési és törlési hibákra is hajlamos. Ezért a hagyományos bitszintű RA kódolás helyett egy csomag szintű RA kódolást terveztünk a DNS-tároláshoz úgy, hogy a beillesztési, törlési vagy helyettesítési hibáknak kitett csomag a RA dekóder segítségével visszanyerhető legyen. Mint korábban leírtuk, egy nagy digitális fájlt ugyanolyan méretű kisebb csomagokra szegmentáltunk. Ezeket a csomagokat úgy tekintették, mint a forrás csomagokat, amelyeket a redundáns vagy paritás csomagok generálására használtak szisztematikus RA Kód Fig. 2 (A). Vegye figyelembe, hogy minden csomagot beépítettek a CRC-hez, hogy észleljék a csomag hibáit. A dekóderben a CRC tesztet teljesítő csomagok esetében helyesen helyreállítottnak tekintettük őket, míg a többieket eldobottnak vagy törlettnek tekintettük. Így a DNS-Tárolás általános kódtervezési problémája lett a törlési csatorna kódtervezése. A nagy megbízhatóság érdekében a kódtervezést úgy hajtottuk végre, hogy valamivel nagyobb lemorzsolódási valószínűséget vettünk figyelembe, mint a tényleges lemorzsolódási valószínűség. Ebben a munkában a tényleges lemorzsolódási arányt 1, 3% – nak tekintettük, amelyet a szökőkút papír jelentett . Így úgy terveztük meg az RA kódot, hogy a kapott kód aszimptotikus küszöbértéket mutatott, amely magasabb, mint a 0,013 lemorzsolódási valószínűsége. Az optimalizálási eljárást követően (lásd az 1. további fájlt: S2 szakasz) egy 0,95-ös ra-kódot terveztünk, amely 0,0475-ös aszimptotikus küszöböt ad. A kapott kód csak 0,0025-ös rést mutat a Shannon kapacitáskorlátjától (0,05). A tervezett RA kód szimulált hibajavítási teljesítményét további 1. Fájl mutatja: S4 ábra. Az arány miatt 0.95 RA kód, 600 redundáns/parity csomagot generáltunk 11 400 forráscsomag alapján, összesen 12 000 bináris csomagot fogadva kódolás után.

ábra. 2
figure2

az ismétlődő (RA) kódolási stratégiák és a hibrid leképezés szemléltetése. (A) példa a rate \ (\frac {1}{2}\) csomag szintű RA kódra 3 forráscsomaggal. Az I. pozícióban lévő i-edik paritás csomagot az i-edik paritáscsomag és az i−edik X-vagy csomóponthoz csatlakoztatott forráscsomagok bit-wise modulo-2 összege generálja. B) a hibrid leképezés folyamatábrája. Minden bináris szekvenciát kezdetben bináris-kvaterner leképezéssel térképeznek fel. Az egyik interleaving minták, a interleaved a sorozatot a zászló nukleotid úgy, hogy a végén lehet, hogy adja át a szűrővizsgálat, ahol GC tartalma, homopolimer ellenőrzik, kimenetre érvényes sorrend. Ellenkező esetben az eredeti bináris szekvencia a változó hosszúságú korlátozott (VLC) leképezésre kerül. (C) A VÉGREHAJTOTT egy (4, 0, 2) korlátozott DNS-tároló rendszer, ahol a 0, 1, 2, 3 képviselik négy átmenet szimbólumok jelzik az átmenetek között négy nukleotid ábécé, s s0, s1 illetve s2 képviselik három különböző kimondja, hogy a rekord hossza egymást követő 0 (nincs átmenet) a kimenet (4, 0, 2) korlátozott sorozatok. (C. ii) a generációs Huffman kódoló fa. A Huffman kódoló fa úgy optimalizálja a kódsebességet, hogy a forrásszót magas előfordulási lehetőséggel igazítja a kódszóhoz, rövid hosszúsággal és verses vice-vel. (C. iii) A VLC leképezési szabály. A Huffman kódoló fa igazítása keresőasztalt hoz létre a változó hosszúságú forrásszavak és a változó hosszúságú átmeneti kódszavak között. (C. iv) az a stratégia, amely lehetővé teszi a dekóder számára, hogy megkülönböztesse a két leképezést a kapott DNS-szekvencia hosszán keresztül. D) a dekóder folyamatábrája. A dekóder először azt a leképezési módszert különbözteti meg, amelyet a kapott szekvencia használt, majd végrehajtja az asszociatív fordított értéket. A CRC-ellenőrzés ezután eldönti, hogy a fordított bináris sorrend hibás-e vagy sem. Ezután az RA dekóder működik, hogy visszaszerezze az összes szekvenciát hibákban. E) a leképezett DNS-szekvenciák hosszának eloszlása. A kapott DNS-szekvenciák hossza 150nt-től 159NT-ig terjed, ahol az interleaved leképezés csak 151nt hosszúságú szekvenciákat generál, míg más hosszúságú szekvenciákat a VLC leképezés generál

hibrid leképezési séma

ezután a digitális adatokat DNS kontextusban ábrázoljuk, amelyet DNS leképezésként jelölünk. A DNS-leképezési stratégiának lehetővé kell tennie a biokémiai korlátokat kielégítő leképezett oligo-szekvenciákat, ezáltal stabilitást biztosítva a tároláshoz. Két ilyen korlátok a DNS-adatok, mint a következő: (i) A GC-tartalom (az arány a teljes száma – “G”, illetve ” C ” ellen száma nukleotid szekvencia) kell közel 50% – a (ii) Minden homopolimer futás hossza (a hossza ismétlődő egymást követő nukleotidok) kevesebb, mint 4 . Vegye figyelembe, hogy a bináris-kvaterner leképezés, azaz két bit leképezése egy nukleotidra, amely az optimális leképezési potenciált (2 Bit/nt) mutatja, nem mindig felel meg a fent említett követelményeknek. Ehelyett gyakran nem felel meg a maximális homopolimer futási korlátozásnak. A DNS-adattárolásban meglévő korlátok csökkentik a hatékony leképezési potenciált, ami hátrányosan befolyásolja a DNS-adatok tárolásának kapacitását. Ezért, feltártuk a megközelítés, melynek korlátozott kód a magas kód arány alakult ki hibrid feltérképezése stratégia érdekében oligo sorozatok találkozni a biokémiai igények minimális áldozatot a leképezés lehetséges.

Ez a leképezési séma két különböző leképezési módszerből áll, nevezetesen az interleaved mappingből és a VLC mappingből. Az első elsődleges leképezésként működik, megközelítőleg optimális leképezési potenciálja miatt, azaz 1.995 bit / nt, az utóbbi pedig biztonsági mentésként működik, amely akkor jön létre, amikor az első leképezés nem hoz létre érvényes DNS-szekvenciákat (azaz olyan szekvenciákat, amelyek kielégítik a GC tartalmat és a homopolimer futási korlátait). A későbbi leképezési módszerben egy kis kódolási és dekódolási komplexitással rendelkező segédkeresési táblázat készül. Eközben ez a módszer 1, 976 bit/nt leképezési potenciált mutat, amely sokkal magasabb, mint az egyenértékű komplexitású blokkkódok. E két leképezési stratégia kombinációja átlagosan 1, 98 bit/nt leképezési potenciált eredményez a sztochasztikus adatokkal. Más szóval, a legrosszabb esetben, amikor az összes adatot VLC-vel kódoljuk, még mindig magas leképezési potenciális becslést értünk el (1, 976 bit/nt). A legjobb esetben azonban, ha az összes adatot az interleaved mapping segítségével leképezzük, nagyon nagy potenciált érhetünk el, 1.995 bit/nt.

a digitális adatok először az interleaved mapping metóduson mennek keresztül a DNS-szekvenciák előállításához. Az interleaved mapping metódusban a bináris szekvenciákat először bináris-kvaterner leképezéssel térképezzük fel. A növekvő oligo hosszúsággal a GC tartalomkorlátozás gyakran elégedett a bináris adatok sztochasztikus tulajdonsága miatt. Ez a leképezés azonban általában nem felel meg a homopolimer futási korlátozásának. A probléma megoldásához bevezetünk egy interleavert a bináris-kvaterner leképezés után, amely összekuszálja a nukleotidszekvenciák eredeti sorrendjét. Az interleaving után szűrővizsgálatot végzünk a kapott szekvencia homopolimer futásának ellenőrzésére. Ha a kapott szekvencia átmegy a teszten, akkor ezt a szekvenciát a szintézis érvényes szekvenciájának kell tekinteni, különben az interleaving ismét az eredeti szekvencián történik, más interleaving mintával. Ebben a munkában 4 előre definiált összefonódási mintát veszünk figyelembe, ahol az interleaved DNS-szekvencia végén egy zászló nukleotid (a/T/G/C) van csatolva, hogy jelezze az összefonódó mintát (további fájl 1: S8 szakasz). Vegye figyelembe, hogy a mellékelt zászló nukleotid szerepel a szekvencia homopolimer futásának meghatározásában a szűrővizsgálat során. Csak egy extra (zászló) nukleotidot használunk a nagy nettó információsűrűség fenntartásához. Következésképpen az interleaving vizsgálatok száma 4-re korlátozódik. Ha a szekvencia továbbra sem felel meg a keresletnek a kísérletek maximális száma után, akkor a szekvenciát elküldjük a VLC leképezési módszernek (ábra. 2 (B) és további 1. fájl: S4 szakasz).

a VLC leképezés ihlette az építési változó hosszúságú korlátozott szekvencia (VLC) kód, általánosan használt kódolni adatok kényszer-kielégítő kódok korlátozott rendszerek, mint az optikai felvételi rendszerek, ahol futási hosszúságú limit és DC-mentes problémák merülnek fel . A DNS-tárolási forgatókönyvben, ahol hasonló korlátozások léteznek, a VLCS-kód hatékonyan módosítható egy leképezési módszerre. Vegye figyelembe, hogy mivel a csomagszintű RA kódot használjuk a hibakezeléshez, a VLCS kód által vezetett hibaterjesztés egy csomagban korlátozott, és nincs hatással a kódolt szekvenciák teljes lemorzsolódási sebességére.

ezt a leképezési szabályt a következő négy szakaszban hoztuk létre. Először is, figyelembe véve a maximális homopolimer futások korlátozását, a DNS-alapú tárolást korlátozott rendszernek tekintették,amelynek futási hossza (RLL), amelyet (M, d,k) jelöl, ahol M=4, d=0 és k=2 (további fájl 1: S5 szakasz). Ennek megfelelően létrejött a (4,0,2) homopolimer-kényszerített DNS-Adattárolás véges állapotátmeneti diagramja (Fstd) (további fájl 1: S5 szakasz és ábra. 2 (C, i)). A második szakaszban a generált FSTD alapján arra a következtetésre jutottunk, hogy a (4, 0, 2) homopolimer-korlátozott DNS-tároló kapacitása 1, 982 bit/nt (további fájl 1: S5 szakasz). Létrehoztunk egy teljes minimális készletet is (véges Szavak halmaza, amelynek konkatenációi tartalmazzák az összes lehetséges kényszerítő-kielégítő szekvenciát), ahol felsoroltuk az összes olyan szót, amely az S0 állapotból származik és végződik. 2 (C, i). Ennek eredményeként. megkaptuk a {1,2,3,01,02,03,001,002,003} minimális halmazt, amelyben minden elem kényszer-kielégítő és előtag-mentes. Ez a két tulajdonság biztosítja, hogy a halmaz elemeinek bármilyen összefűzése olyan kényszer-kielégítő szekvenciákat hozzon létre, amelyek a korlátozott rendszer lehetséges átmeneti kódszavai. Vegye figyelembe, hogy a kapott átmeneti kódszó készlet a konkatenáció mélységére és szélességére vonatkozik. A kódolási komplexitás csökkentéséhez közvetlenül a teljes minimális készletet használtuk átmeneti kódszó készletként.

a harmadik szakaszban, használtuk a Huffman kódolás fa, hogy létrehoz egy optimális leképezés a változó hosszúságú bináris forrás szót állítani, hogy a fent említett átmeneti kód beállítása (Fig. 2 (C, ii)). Ez az optimális egy-egy Hozzárendelés 1, 976 bit/nt átlagos kódsebességet adott (ábra. 2 (C, iii) és lásd az 1. kiegészítő fájlt: S5 szakasz). Eközben a leképezés hatékonysága megközelíti a \ (\sigma = \ frac {1.976}{1.982}=99.7\%\), csak 0,3% – os eltérést mutat be a (4,0,2) korlátozott rendszer kapacitásától. A leképezési potenciál szempontjából ez a leképezés felülmúlja a javasolt blokkkorlátozott kódot, amelyben egy (4,0,2) korlátozott kódot 39nt DNS-blokk felhasználásával készítettek kódszavakként, elérve az 1.95 bit/nt leképezési potenciált. Ezenkívül a 39nt blokkkód nem praktikus a hagyományos DNS – adattároláshoz, ahol sokkal hosszabb DNS-szekvenciákat (kódszavakat), azaz 200nt-t veszünk figyelembe. Ezzel szemben a változó hosszúságú leképezési megközelítés alacsony kódolási komplexitással rendelkezik, függetlenül a kapott oligo szekvenciák teljes hosszától.

az utolsó szakaszban, miután a forrásszavakat egymás után leképeztük az átmeneti kódszavakra az egyes bináris szekvenciákkal szemben, az YJ=yj-1+xj(mod M) Állapotváltozási függvény szerint előkódoltuk a kódolt kvaterner szekvenciákat, ahol yj az aktuális kimeneti előkódolási szimbólum, yj-1 az utolsó kimeneti előre kódolt szimbólum, xj az aktuális bemeneti szimbólum, M a rendszer ábécé mérete. Ez az előkódolás a kódolt (M,d,k) kényszerített kódot a (M,d+1,k+1) RLL kódra továbbítja. Aztán átváltott a kvaterner szimbólumok {0,1,2,3}, hogy {‘A’, ‘T’, ‘C’, ‘G’ } nyert a végső oligo szekvenciák lehetőség a megkötés nem homopolimer fut nagyobb, mint a 3nt. Ennek a leképezési stratégiának egy példája az 1. kiegészítő fájlban található: S6 szakasz.

a hibrid leképezési sémán keresztül 12 000 DNS-szekvenciát generáltunk, amelyek hosszeloszlása 150nt-től 159nt-ig terjed (kivéve 40nt primer helyet) a bináris adatfolyamhoz (ábra. 2(E))). Pontosabban, az interleaved mapping segítségével leképezett szekvenciák hossza 151nt lett, míg a VLC mapping segítségével leképezett szekvenciák hossza 150, 152 és 159nt között mozgott. Vegye figyelembe, hogy nem volt olyan szekvencia, amelynek hossza 151NT, amely a VLC leképezésből származott, mivel egy nukleotidot adtak hozzá, hogy ezek a 151nt leképezett szekvencia 152nt legyen (ábra. 2 (C, iv)). A hozzáadott nukleotidnak meg kellett különböztetnie a leképezési módszereket. Ez lehetővé teszi a helyes leképezés használatát a dekóderben tárolt adatok helyreállítása során.

az adatok lekéréséhez az elkészített szekvenciákat a szekvenálási folyamatból a dekóder elküldi a felhasználói adatok helyreállításához (ábra. 2(D))). A dekóder először megkülönbözteti a leképezési módszert. Ha a kapott szekvencia hossza 151nt, akkor a dekóder az interleaved leképezés fordított értékét alkalmazza a flag nukleotid és a bináris-kvaterner leképezési szabály alapján. Ellenkező esetben a dekóder a VLC leképezés hátoldalát alkalmazza, ahol az előkódolás és leképezés hátoldalát hajtják végre. Ezt követően minden fordított bináris szekvenciát a CRC-ellenőrzés alapján helyesnek vagy törlésnek tekintünk. Végül egy üzenetátadási algoritmussal a RA dekóder visszaállítja az összes törölt szekvencia csomagot a csomagok közötti kapcsolatok alapján.

szekvenálási eredmények és adat-helyreállítási elemzés

a szintetizált oligos pool szekvenálása után több mint 10 millió nyers szekvenciát kaptunk, összesen 3, 2 gigabájtot a NovogeneAIT-től. Ezek a szekvenciák magukban foglalják a szekvenálás során generált zajos olvasásokat. A szekvenálási eredmények alapján először a szekvenálási adatok megbízhatóságát vizsgáltuk adatminőség-vizsgálat, a/T/G/C tartalomelosztás, hibaarány-elosztás szempontjából. A hibaelemzés eredménye alapján ezután megvizsgáltuk dekódolási rendszerünk megbízhatóságát a kódolt adatok különböző mintaburkolatokkal történő helyreállításában.

szekvenálási eredmények

elemeztük az egyes alaphelyzetek minőségi értékét a szekvenált olvasás mentén az adatminőség értékeléséhez. A minőségi pontszám a szekvenált olvasás megbízhatóságának becslése, amely az egyes alaphelyzetek hibaarányához kapcsolódik. Ezt Q = – 10log10e számítja ki, ahol e az alaphelyzet hibaaránya . A minőségi pontszámok minden alapja a szekvenálás szól tartomány 30 nak nek 40 (ábra. 3(A)), amely kiváló minőségű. Továbbá megfigyeljük, hogy a hibaarány növekszik a szekvenált olvasás kiterjesztésével, míg az egyes bázisok átlagos aránya 0, 015% az olvasás mentén (ábra. 3 (B))). Ez valószínűleg a szekvenáló reagens fogyasztásának köszönhető, amely az Illumina nagyteljesítményű szekvenáló platformon gyakori jelenség, amely a szintézis (SBS) technológiával történő szekvenáláson alapul . Ahogy az várható volt, az első több bázis magasabb szekvenálási hibaaránnyal rendelkezik, mint mások. Ennek oka lehet A szekvencer fluoreszcencia képérzékelő érzékelő elemének fókuszálása, amely a szekvenálás kezdetén nem lehet elég érzékeny. Ennek eredményeként a megszerzett fluoreszcencia olvasás minősége alacsony. Emlékezzünk vissza, hogy a szekvenciákat mindkét végén egy pár 20nt primer kötőhelyhez csatolták, ezért az első több hibára hajlamos bázisnak (körülbelül 6NT) nincs hatása a dekódolásra, mivel a CRC tesztet és az RA kódolást/dekódolást a kötési helyek kizárásával tervezték. Más szavakkal, a sorrendet a CRC dekóder törli a többi pozíció hibái miatt (az alapozókon kívül).

ábra. 3
figure3

szekvenáló eredményelemzés és adatmentés. (A) az egyes alaphelyzetek minőségi értéke a leolvasások mentén. Az x tengely Első fele a reads 1, az utóbbi fele a reads 2. (B) az egyes alaphelyzetek hibaaránya a leolvasások mentén. Az eloszlás első fele a reads 1, az utóbbi fele a reads 2. C) az egyes alaphelyzetek alaptartalma az olvasás mentén. Az a/T / G / C a nukleotidok típusát jelöli, az N pedig egy elveszett nukleotidot, amely az A/T/G/C bármelyikének lehet. Az eloszlást két olvasat választja el egymástól, vegye figyelembe, hogy az a), b) és C), read 1 és read 2 az egyes szekvenciák végéből származó véletlenszerű szekvenálásból származik. D) az adatok helyreállításának kísérleti eljárása. Az erősített és elkészített szintetikus oligo mintákat Illumina HiSeq szekvenálási technológiával szekvenálják. Öt mintavételi kísérletsorozattal a raw szekvencia különböző méretű véletlenszerűen kiválasztott részeit elküldik a dekóderbe, ahol a tárolt fájlok helyreállnak. (E) a helyesen helyreállított szekvenciák száma a lefedettséggel szemben. A fekete kör markerek a ra dekódolás előtt visszanyert szekvenciákat, a gyémánt markerek pedig a RA dekódolás után visszanyert szekvenciákat képviselik. A gyémánt markerek közül a pirosak részleges helyreállítást jelentenek, míg a zöldek a teljes helyreállítást képviselik

Az ábrán. 3 (C), az a, T, C és G alaptartalom-eloszlása az olvasás mentén jelenik meg, hogy megmutassa a GC tartalom eloszlását. A kiegészítő bázisok elve szerint az AT és a GC tartalmának minden szekvenálási ciklusban egyenlőnek kell lennie, és állandónak és stabilnak kell lennie az egész szekvenálási eljárásban. Nevezetesen, a szekvenálás során megfigyelt átlagos GC-tartalom és az egyes bázispozíciók egyaránt 50% körül voltak, függetlenül az első 20nt-től. Az első 20nt eloszlásának oka a két kötőhely mindkét végén. Az eloszlás azt mutatja, hogy a szekvenált oligosz GC-tartalma jól kielégíti a biokémiai korlátot, ezért stabil szekvenálási folyamatot biztosít.

Data recovery analysis

a tervezett RA hibajavító kódolási rendszer kódrugalmasságának ellenőrzéséhez a rendszer adat-helyreállítási teljesítményét az ábra különböző burkolatain vizsgáltuk. 3 (D). Ez ad egy becslést a hibatűrés a tervezett RA kód ellen különböző lemorzsolódás aránya miatt változatos burkolatok. Vannak használhatatlan nyers szekvenciák a kapott szekvenálásban, mivel hosszuk az elfogadható tartományon kívül esik. A különböző burkolatok (8x-12x) utánozásához különböző méretű adatkészleteket hoztunk létre véletlenszerű mintavételezéssel a felhasználható nyers szekvenciákon, amelyekben az egyes oligo üzenetek eloszlása változhat. Például a 8x lefedettség érdekében véletlenszerűen kiválasztottuk a felhasználható nyers szekvenciákat, hogy 96 000 nyers szekvenciát generáljunk. Minden egyes lefedettség esetében 5 különböző, véletlenszerűen kiválasztott adathalmazt hoztunk létre, és meghatároztuk az átlagos szekvenálási és dekódolási teljesítményt. Minden egyes raw szekvencia esetében elvégeztük a de-leképezést, hogy a nukleotid szekvenciát bináris szekvenciává alakítsuk át, és CRC tesztet végeztünk a hibamentes/helyes szekvenciák azonosítására. Az átlagos számú hibamentes szekvenciák minden lefedettség ábrán látható. 3 (E) (fekete pontok), ahogy az várható volt, a lefedettség növekedésével növekszik. A hibamentes szekvenciákat ezután a RA dekóderbe táplálták, hogy helyreállítsák a hibás szekvenciákat. Megfigyeltük, hogy a lefedettség 10x-től kezdve, minden lefedettség, a dekóder képes volt visszaállítani az eredeti szekvenciák 5-ből 5 véletlenszerű mintavételi kísérletek tökéletesen (zöld gyémánt ábra. 3 (E))). Ez azt mutatja, hogy a dekóder robusztus, hogy visszaszerezze a hibás adatokat a minimális lefedettség 10x, ahol 3.3% oligo szekvenciák voltak hiba (azaz a lemorzsolódás mértéke 3.3%)

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük