Articles

suuren kapasiteetin DNA – tietojen tallennus vaihtelevan pituisilla Oligonukleotideilla toistuvaa kertymiskoodia ja hybridikartoitusta

käytännöllinen DNA-tietojen tallennusjärjestelmä, jolla on suuri kapasiteetti

aloitimme rakentamalla arkkitehtuurin tietojen tallentamiseksi ja tietojen hakemiseksi DNA-pohjaisesta tallennuksesta (Kuva. 1 A)). Käyttäjätiedot jaettiin ensin 11 400 binääriseen käyttäjäpakettiin, joiden kunkin paketin pituus oli 266 bittiä. Korjataksemme virheitä DNA: n tallennusprosesseissa, mukaan lukien synteesi, vahvistus, tallennus ja näytteen valmistelu sekvensointia varten, sovelsimme Ra-koodausta binäärikäyttäjäpaketteihin, joissa syntyi 5% redundantti/pariteetti-paketteja. Kunkin 12,000 binääripaketit, 14 bittiä lisättiin indeksointi jotta stokastinen oligos ja 20 bittiä lisättiin syklinen Redundancy Check (CRC) havaita sisätilojen virheitä kunkin paketin. Tämän seurauksena kuhunkin pakettiin liittyvien bittien kokonaismääräksi tuli 300 bittiä (Katso lisätiedosto 1: kuva S4). Sen jälkeen kartoitimme kaikki binääriset sekvenssit DNA-sekvensseiksi ehdotetun hybridikartoitusjärjestelmän avulla. Sitten DNA-sekvenssit lähetettiin kiertämään biotieteitä oligos-synteesiä varten. Saatuaan syntetisoidun oligos-poolin vahvistimme sen polymeraasiketjureaktiolla (PCR) ennen kuin lähetimme näytteet Novogeneaitiin Sekvensoitavaksi Illumina Hiseqin avulla. Viimeisessä vaiheessa analysoimme ja purimme sekvensointidatan muuttaaksemme DNA-tallenteet takaisin digitaaliseksi binääridataksi. Me ensin alas-näyte miljoonia sekvenssi lukee sekvensoinnin tulos ja suoritetaan käänteinen Ra koodaus ja kartoitus rekonstruoida alkuperäisen käyttäjän tiedot ilman virheitä, validointi toteutettavuus menetelmämme.

sen lisäksi, että data on saatu takaisin täysin sekvensoinnin tulosten avulla, analysoimme myös kvantitatiivisesti ehdotetun DNA-pohjaisen tallennusjärjestelmän ja vertasimme sitä muihin huipputeknisiin järjestelmiin viittaamalla edelliseen vertailutaulukkoon (Kuva. 1 C)). Taulukon suorituskykymittareiden yksityiskohtainen määrittely on kuvattu lisätiedostossa 1: kohta S7. Taulukossa vertasimme vain järjestelmiä, jotka on suunniteltu ja testattu oligo-altaan tallennusmuodon pohjalta, jossa yksijuosteiset lyhyet oligot, joiden pituus on noin 200nt, syntetisoitiin. On huomattava , että jos vastaava oletus DNA-säikeiden tallentamisesta on paljon pidempi, kuten 1000bp, ehdotettu koodausjärjestelmä on edelleen toteutettavissa, ja nettotiedon tiheys kasvaa pituuden myötä, jolloin saavutetaan suurempi tiheys kuin 1,84 bittiä/pohja yli 1,74 bittiä/pohja (KS.Lisätiedosto 1: kohta S3).

suuri nettotiedon tiheys 1.Ehdotetulla DNA – pohjaisella tallennusjärjestelmällä saavutettu 67 bittiä / nt (Kuva. 1 (D)) johtuu pääasiassa seuraavista kahdesta tekniikasta, joita olemme käyttäneet. Ensinnäkin ehdotetulla hybridikartoitusjärjestelmällä on 1,98 bittiä/nt-kartoituspotentiaalia ja pieni 1 prosentin ero teoreettisesta ylärajasta 2 bittiä / nt. Toiseksi, optimoitu Ra-koodi virheenhallintaan on pieni redundanssi 1.05. Yhdessä 14 bitin indeksoinnin ja 20 bitin CRC: n kanssa järjestelmä saa 1,67 bittiä/nt: n nettotiheyden, mikä tuottaa 91% Shannonin kapasiteetista (1,83 bittiä/nt: n kanssa 0.5% keskeyttämisaste), joka on 6% enemmän kuin viimeksi ilmoitettu korkein (Lisätiedosto 1: kohta S3). Teoreettisesti, verrattuna, kasvu meidän tiedon tiheys on yhdistetty tulos hieman pidempi vaihteleva pituus DNA oligos (151nt-159nt vs. 152nt, lukuun ottamatta primer sitovia sivustoja), vähemmän virhe control redundanssi (1.05 vs. 1.07), ja lyhyempi indeksointi (14 bittiä vs. 32 bittiä). DNA-oligojen pituus on suunniteltu huolellisesti hyödyntämään nykyisiä laajalti saatavilla olevia DNA-synteesitekniikoita (TWIST Bioscience, US), joilla voidaan tehokkaasti syntetisoida 200nt pitkiä oligoja. Optimoitu Ra-koodin muotoilu antaa hieman vähentää virheenhallinnan redundanssia vastaavalla oletuksella, että käsitellään 1,3% käytännön keskeyttämisastetta, kun taas täydellinen elpyminen 10x kattavuudella (10.5 x in ) osoittaa, että virheensietokyky säilyy. Selvin ero syntyy indeksoinnissa, jossa käytämme 14 bittiä pelkästään koodatun 12000 oligosin järjestyksen osoittamiseen, kun taas käyttää 32 bittiä edustamaan Luby-muunnoksen edellyttämiä siemeniä, mikä määrittää lähteen koodin perustan, jolloin indeksointi bittiä on tarpeeton.

tarkistaaksemme edelleen, että ehdotetun koodausjärjestelmän suuri kapasiteetti säilyy hyvin tiedon koon kasvaessa (skaalautuvuus), arvioimme nettotiheyden koodatessamme tiedon kokoa suuremmilla magnitudeilla silico-alueella, eli 2MB: stä 2000mb: hen. Arvioidut tiheydet pienenevät hieman, kun datan koko kasvaa eksponentiaalisesti johtuen indeksointipituuden lisäyksestä, joka tarvitaan suuremman tiedon koon tallentamiseen (Lisätiedosto 1: kohta S3 ja kuva. 1 (E)). Tiheys 1,66 bittiä / nt saadaan tallentaa 2MB lähdetietoja, joka on edelleen 6% suurempi kuin . Lisäksi sekä RA-koodi että hybridikartoitusstrategia, joka koostuu ehdotetusta koodausjärjestelmästä, ovat monimutkaisia, ja ne on tehokas toteuttaa käytännössä. Erityisesti Ra-koodin käyttö estää mahdollisen dekoodausvirheen (koska alkuperäiset merkinnät ovat kadonneet dekoodauksen aloittamiseksi seulontaprosessissa) ja osoitteen redundanssin, jota voi syntyä DNA-lähteessä, ja hybridikartoituksella saavutetaan erittäin suuri kartoituspotentiaali, joka on kilpailukykyinen DNA-lähteen kanssa, samalla kun vältetään suuri monimutkaisuus, joka esiintyy tavanomaisissa rajoitetuissa lohkokoodeissa.

lisäksi arvioimme laskennallisesti sen fysikaalisen tiheyden, joka ehdotetulla järjestelmällä voisi olla. Kautta laimennus kokeita, kirjoittajat havaittu 4% keskeyttäminen määrä näytteen 10pg DNA varastointi, joka lähes lähestyi dekooderin raja (joka oli ennalta koodin redundanssi). Järjestelmässämme käytetty Ra-koodi suunniteltiin optimaalisesti irtisanomistasolla samalla olettamuksella, että keskeyttämisaste otetaan huomioon . Olemme myös osoittaneet, että teoriassa meidän koodi voi sietää jopa 4.75% keskeyttämisaste (Lisätiedosto 1: kuva S4), joka on yli 4% keskeyttämisaste havaittu sekvensointi 10pg näyte. Samanlainen dekoodausraja, meidän ehdotettu järjestelmä toimisi todennäköisesti sama kuin DNA fountain pienimolekyylisissä kokeissa (esim., kanssa 10pg näyte), koska sama kokeilu putkistot, protokollat, ja standardit. Toisin sanoen, koodin suunnittelu alkuvaiheessa mahdollistaa, että ehdotettu järjestelmä voisi palauttaa tietoja virhealtista olosuhteissa laimennuskokeissa samanlainen DNA fountain. Olettaen ∼1300 molekyyliä oligoa kohti keskimäärin, sekvensointisyvyys 511x ja vastaavat putkistot, protokollat ja standardit kuin 10PG-laimennuskoe DNA-lähteessä, voisimme laskennallisesti arvioida, että järjestelmämme saavuttaa fysikaalisen tiheyden 239 PB/g \(\left (\frac {266 * 11400/8\text {byte}}{1300*11400*1.0688*10^{-19}\teksti {gram}} \ right)\). Kuitenkin, Tiukka Koe on tarpeen tarkistaa tämän laskennallisesti arvioitu fyysinen tiheys.

ra-koodin suunnittelu ja hybridikartoitusjärjestelmä DNA: n tallennukselle

suunnittelimme koodausmenetelmän, joka sisältää oligotason kertauskertymäkoodin (Ra) ja tehokkaan hybridikartoitusjärjestelmän.

RA-koodin suunnittelu

perinteisissä viestintäjärjestelmissä Ra-koodia käytetään bittitasolla, jossa redundantteja bittejä syntyy korvausvirheiden lieventämiseksi. DNA: n säilytys on kuitenkin altis korvausvirheiden lisäksi myös lisäys-ja poistovirheille. Siksi perinteisen bit-tason Ra-koodauksen sijaan suunnittelimme DNA: n tallennukseen pakettitason RA-koodauksen siten, että paketti, johon kohdistuu lisäys -, poisto-tai korvausvirheitä, voidaan palauttaa Ra-dekooderin kautta. Kuten aiemmin on kuvattu, olemme segmentoineet suuren digitaalisen tiedoston pienempiin samankokoisiin paketteihin. Näitä paketteja pidettiin lähdepaketteina, joita käytettiin luomaan tarpeettomat tai pariteettipaketit käyttäen systemaattista Ra-koodia Fig. 2 A). Huomaa, että jokainen paketti on sisällytetty CRC: hen virheiden havaitsemiseksi paketissa. Paketeille, jotka läpäisivät CRC-testin dekooderissa, pidimme niitä oikein talteen, kun taas muita pidettiin pudotettuina tai poistettuina. Näin DNA: n tallennuksen kokonaiskoodisuunnitteluongelmaksi muodostui poistokanavan koodisuunnittelu. Korkean luotettavuuden varmistamiseksi koodin suunnittelu suoritettiin ottamalla huomioon hieman suurempi keskeyttämistodennäköisyys kuin todellinen keskeyttämistodennäköisyys. Tässä työssä pidimme tosiasiallisena keskeyttämisprosenttina 1,3: a, joka kerrottiin suihkulähteessä . Siten suunnittelimme Ra-koodin siten, että tuloksena oleva koodi osoitti asymptoottisen kynnyksen, joka on korkeampi kuin keskeyttämistodennäköisyys 0,013. Optimointimenettelyn jälkeen (ks.Lisätiedosto 1: Jakso S2), suunnittelimme Ra-koodin, jonka korko on 0,95, mikä antaa asymptoottisen kynnysarvon 0,0475. Tuloksena oleva koodi näyttää vain 0,0025: n aukon Shannonin kapasiteettirajasta (0,05). Suunnitellun Ra-koodin simuloitu virheenkorjausteho esitetään lisätiedostossa 1: Kuvassa S4. Koska korko 0.95 Ra koodi, tuotimme 600 tarpeeton / pariteetti paketteja perustuu 11,400 lähdepaketteja, vastaanottaa 12,000 binary paketteja yhteensä jälkeen koodaus.

Fig. 2
figure2

toistuvien kertymien (Ra) koodausstrategioiden kuvitus ja hybridikartoitus. (A) esimerkki nopeudesta \(\frac {1}{2}\) pakettitason Ra-koodi, jossa on 3 lähdekoodipakettia. Ith pariteetti paketti asemassa I syntyy bittiviisas modulo-2 summa (i−1) TH pariteetti paketti ja lähde paketteja, jotka on liitetty ith X-tai solmu. B) hybridikartoituksen vuokaavio. Jokainen binäärijakso on aluksi kartoitettu binäärisestä kvaternaarikartoituksella. Yhdellä interleaving-kuviolla leaved-sekvenssi, jonka lopussa on lippunukleotidi, saattaa läpäistä seulontatestin, jossa GC-pitoisuus ja homopolymeeri tarkistetaan, jolloin saadaan Pätevä sekvenssi. Muussa tapauksessa alkuperäinen binäärijakso lähetetään variable-Leng constrained (VLC) – kartoitukseen. (C. i) rajoitetun DNA-tallennusjärjestelmän (4, 0, 2) FSTD, jossa 0, 1, 2 ja 3 edustavat neljää siirtymäsymbolia, jotka osoittavat neljän nukleotidiaakkosen siirtymät, ja s0, s1 ja s2 edustavat kolmea eri tilaa, jotka tallentavat peräkkäisten 0: n (ei siirtymää) pituuden ulostulossa (4, 0, 2) rajoitetuissa sekvensseissä. (C. ii) sukupolven Huffman koodaus puu. Huffmanin koodauspuu optimoi koodausnopeuden kohdistamalla lähdesanan suurella esiintymismahdollisuudella koodisanaan lyhyt pituus ja säkeistö. (C. iii) VLC-karttasääntö. Huffmanin koodauspuun linjaus luo hakutaulukon vaihtelevan pituisten lähdesanojen ja vaihtelevan pituisten siirtymäsanojen välille. C. iv) strategia, jonka avulla dekooderi voi erottaa kaksi kartoitusta vastaanotetun DNA-sekvenssin pituuden avulla. D) dekooderin vuokaavio. Dekooderi erottaa ensin vastaanotetun sekvenssin käyttämän karttamenetelmän ja suorittaa assosiatiivisen käänteisluvun. Tämän jälkeen CRC-tarkistus päättää, onko käänteisessä binäärijonossa virheitä vai ei. Sen jälkeen RA-dekooderi toimii kaikkien virheiden sekvenssien palauttamiseksi. E) kartoitettujen DNA-sekvenssien pituuksien jakautuminen. Tuloksena olevien DNA-sekvenssien pituus vaihtelee 150nt: stä 159nt: iin, jossa interleaved-kartoitus tuottaa vain sekvenssejä, joiden pituus on 151nt, kun taas sekvenssit, joissa on muita pituuksia, syntyvät kaikki VLC-kartoituksella

Hybridikartoitusjärjestelmä

seuraavaksi katsomme, että ne edustavat digitaalista dataa DNA-kontekstissa, jonka merkitsemme DNA-kartoituksena. DNA-kartoitusstrategian pitäisi mahdollistaa kartoitettujen oligosekvenssien, jotka täyttävät biokemialliset rajoitteet, mikä tuo vakautta varastoon. DNA-tiedoissa on kaksi tällaista rajoitusta: i) GC-pitoisuuden (g: n ja C: n kokonaismäärän suhde sekvenssin nukleotidien kokonaismäärään) on oltava lähellä 50%; ii) kaikkien homopolymeerien juoksun pituuksien (toistuvasti peräkkäisten nukleotidien pituuden) on oltava alle 4 . Huomaa, että binääristä kvaternääriseen kartoitukseen eli kahden bitin kartoittamiseen yhdelle nukleotidille, jolla on optimaalinen kartoituspotentiaali (2 bittiä/nt), ei aina vastata edellä mainittuja vaatimuksia. Sen sijaan se ei usein noudata maksimaalista homopolymeerijuoksurajoitusta. DNA – tietojen tallennukseen liittyvät rajoitukset vähentävät tehokasta kartoituspotentiaalia ja vaikuttavat haitallisesti DNA-tietojen tallennuskapasiteettiin. Siksi tutkimme lähestymistapaa suunnitella rajoitettua koodia, jolla on korkea koodinopeus, ja kehitimme hybridikartoitusstrategian, jolla varmistetaan, että oligosekvenssit täyttävät biokemialliset vaatimukset mahdollisimman vähäisin kartoituspotentiaalin uhrauksin.

tämä kartoitusjärjestelmä koostuu kahdesta eri kartoitusmenetelmästä, jotka ovat interleaved-kartoitus ja VLC-kartoitus. Ensimmäinen toimii ensisijaisena kartoituksena, koska sen kartoituspotentiaali on likimain optimaalinen eli 1.995 bittiä / nt ja jälkimmäinen toimii varmuuskopiona, joka tulee peliin, kun ensimmäinen kartoitus ei tuota kelvollisia DNA-sekvenssejä (eli sekvenssejä, jotka täyttävät GC-sisällön ja homopolymeerin käyttörajoitukset). Myöhemmässä kartoitusmenetelmässä aputaulukkoon rakennetaan pieni koodaus ja dekoodaus monimutkaisuus. Samaan aikaan, tämä menetelmä esittelee 1.976 bittiä/nt kartoitus potentiaalia, joka on paljon suurempi kuin lohkon koodit, joilla on vastaava monimutkaisuus. Näiden kahden kartoitusstrategian yhdistelmä johtaa keskimääräiseen kartoituspotentiaaliin noin 1,98 bittiä/nt stokastisella datalla. Toisin sanoen pahimmassa tapauksessa, jossa kaikki tiedot koodataan VLC: llä, saavutimme silti korkean kartoituspotentiaaliarvion (1,976 bittiä/nt). Parhaassa tapauksessa, kun kaikki tiedot kartoitetaan interleaved-kartoituksella, voisimme saavuttaa erittäin suuren potentiaalin, 1.995 bittiä/nt.

digitaalinen data käy ensin läpi interleaved mapping method-menetelmän DNA-sekvenssien tuottamiseksi. Interleaved-kartoitusmenetelmässä binäärisekvenssit kartoitetaan ensin binäärisestä kvaternaariseen kartoitukseen. Oligon pituuden kasvaessa GC-sisällönrajoitus on usein tyydytetty binääridatan stokastisen ominaisuuden vuoksi. Tämä kartoitus ei kuitenkaan yleensä täytä homopolymeerin ajorajoitusta. Tämän ongelman ratkaisemiseksi, otamme käyttöön interleaver jälkeen binary-to-kvaternary kartoitus, joka sekoittaa alkuperäisen järjestyksen nukleotidi sekvenssien. Interleavingin jälkeen suoritetaan seulontatesti, jolla tarkistetaan tuloksena olevan sekvenssin homopolymeeriajo. Jos tuloksena oleva sekvenssi läpäisee testin, kyseistä sekvenssiä pidetään kelvollisena sekvenssinä synteesille, muuten interleaving suoritetaan uudelleen alkuperäiselle sekvenssille eri interleaving-kuviolla. Tässä työssä tarkastellaan 4 ennalta määritettyä interleaving patterns, jossa lippu nukleotidi (A/T/G / C) on liitetty lopussa interleaved DNA sekvenssi osoittaa interleaving pattern (Lisätiedosto 1: osa S8). On huomattava, että liitteenä oleva nukleotidi sisältyy sekvenssin homopolymeeriajon määrittämiseen seulontatestin aikana. Käytämme vain yhtä ylimääräistä (flag) nukleotidia ylläpitääksemme suurta verkon informaatiotiheyttä. Näin ollen interleaving-kokeiden määrä on rajoitettu 4: ään. Jos sekvenssi ei edelleenkään vastaa kysyntää kokeiden enimmäismäärän jälkeen, sekvenssi lähetetään VLC-kartoitusmenetelmään (Fig. 2 (B) ja Lisätiedosto 1: kohta S4).

VLC-kartoituksen taustalla on variable-length constructed sequence (VLCS)-koodin rakentaminen, jota käytetään yleisesti koodaamaan tietoja rajoitteita täyttäviksi koodeiksi rajoitetuissa järjestelmissä, kuten optisissa tallennusjärjestelmissä, joissa esiintyy ajonpituusrajoituksia ja TASAVIRTAVAPAUTTA . DNA: n tallennusskenaariossa, jossa on samanlaisia rajoitteita, VCS-koodi voidaan tehokkaasti muuttaa kartoitusmenetelmäksi. Huomaa, että kun käytämme pakettitasoista Ra-koodia virheiden hallintaan, VCS-koodin johtama virheiden eteneminen on rajoitettu yhteen pakettiin eikä sillä ole vaikutusta koodattujen sekvenssien kokonaispudotusnopeuteen.

laadimme tämän kartoitussäännön seuraavissa neljässä vaiheessa. Ensinnäkin, kun otetaan huomioon homopolymeerin maksimijuoksujen rajoittavuus, DNA-pohjainen tallennustila nähtiin rajoitteisena järjestelmänä, jonka run-length limit (RLL), jota merkitään (M,d, k), Missä M=4, d=0 ja k=2 (Lisätiedosto 1: osa S5). Näin syntyi (4,0,2) homopolymeerirajoitteisen DNA-tiedon tallennuksen äärellinen tilasiirtymäkaavio (fstd) (Lisätiedosto 1: Jakso S5 ja Fig. 2 (C, i)). Toisessa vaiheessa, joka perustuu tuotettuun FSTD: hen, päättelimme, että (4, 0, 2) homopolymeerirajoitetun DNA-tallennuksen kapasiteetti on 1,982 bittiä/nt (Lisätiedosto 1: Jakso S5). Olemme myös perustaneet täydellisen minimaalinen joukko (rajallinen joukko sanoja, joiden concatenations sisältävät kaikki mahdolliset rajoite-täyttävä sekvenssit), jossa me lueteltiin kaikki sanat, jotka ovat peräisin ja päättyy valtion s0 Kuvassa. 2 (C, i). Seurauksena. saimme minimaalisen joukon {1,2,3,01,02,03,001,002,003}, jossa kaikki elementit ovat rajoitteita täyttäviä ja etuliitteitä vapaita. Nämä kaksi ominaisuutta varmistavat sen, että kaikki tämän joukon elementtien yhteen sovittaminen tuottaa rajoitteita täyttäviä sekvenssejä, jotka ovat potentiaalisia siirtymäkoodisanoja rajoitetulle järjestelmälle. Huomaa, että tuloksena transition koodisana joukko liittyy syvyys ja leveys concatenation. Koodauksen monimutkaisuuden vähentämiseksi käytimme suoraan täydellistä minimijoukkoa siirtymäkoodisanajoukkona.

kolmannessa vaiheessa hyödynsimme Huffmanin koodauspuuta luodaksemme optimaalisen kartoituksen vaihtelevan pituisesta binäärilähdesanajoukosta edellä mainittuun siirtymäkoodisanajoukkoon (Kuva. 2 (C, ii)). Tämä optimaalinen one-to-one-toimeksianto antoi keskimääräiseksi koodinopeudeksi 1,976 bittiä/nt (Kuva. 2 (C, iii) ja katso Lisätiedosto 1: kohta S5). Samaan aikaan tämän kartoituksen tehokkuus lähestyy \(\sigma = \frac {1.976}{1.982}=99.7\%\), vaje rajoitetun (4,0,2) järjestelmän kapasiteetista on vain 0,3 prosenttia. Kartoituspotentiaalin osalta tämä kartoitus ylittää kohdassa ehdotetun lohkorajoitetun koodin, jossa koodisanana käytettiin 39nt: n DNA-lohkoa (4,0,2), jolloin kartoituspotentiaali oli 1,95 bittiä/nt. Lisäksi 39nt-lohkokoodi on epäkäytännöllinen myös perinteisessä DNA-tietojen tallennuksessa, jossa pidetään paljon pidempiä DNA-sekvenssejä (koodisanoja) eli 200nt: tä. Sen sijaan muuttuvapituisella kartoitusmenetelmällä on alhainen koodauskompleksisuus riippumatta tuloksena olevien oligosekvenssien kokonaispituudesta.

viimeisessä vaiheessa, kartoitettuamme lähdesanat siirtymäkoodiin peräkkäin kutakin binäärijaksoa vastaan, suoritimme prekoodauksen koodatuille kvaternäärisille sekvensseille tilan muutoksen funktion yj=yj-1+xj(mod M) mukaan, jossa yj on nykyisen lähdön prekoodaussymboli, yj-1 on viimeisen lähdön esikoodattu symboli, xj on nykyisen tulosymboli, M on järjestelmän aakkosten koko. Tämä prekoodaus siirtää koodatun (m,d,k) rajoitetun koodin (m,d+1,k+1) RLL-koodiin. Sitten muunnimme kvaternaariset symbolit {0,1,2,3} {”A”, ”T”, ”C”, ”G”} ja saimme lopulliset oligosekvenssit, jotka täyttävät homopolymeerin rajoituksen, joka on suurempi kuin 3nt. Esimerkki tästä yhdistämisstrategiasta löytyy lisätiedostosta 1: Jakso S6.

hybridikartoitusjärjestelmän kautta tuotimme 12 000 DNA-sekvenssiä, joiden pituusjakauma vaihteli 150nt: stä 159nt: iin (pois lukien 40nt: n primer-paikat) binääritietovirralle (Fig. 2 (E)). Erityisesti pituus sekvenssien että kartoitettu kautta interleaved kartoitus tuli 151nt, kun taas pituus sekvenssien että kartoitettu kautta VLC kartoitus vaihteli 150, 152 ja 159nt. Huomaa, että ei ollut sekvenssiä, jonka pituus on 151nt, joka on peräisin VLC-kartoituksesta, koska yksi nukleotidi lisättiin tekemään näistä 151nt kartoitetuista sekvensseistä 152nt (Kuva. 2 (C, iv)). Lisätty nukleotidi erotti toisistaan kartoitusmenetelmät. Tämä mahdollistaa oikean de-mapping hyödyntämisen aikana talteen tallennettujen tietojen dekooderi.

tietojen hakemiseksi sekvensointiprosessista valmistetut sekvenssit lähetetään dekooderiin käyttäjän tietojen palauttamista varten (kuva. 2 (D)). Dekooderi erottaa ensin kartoitusmenetelmän. Jos vastaanotetun sekvenssin pituus on 151nt, dekooderi soveltaa flag-nukleotidin ja binäärisestä kvaternaariseen kartoitussääntöön perustuvan interleaved-kartoituksen käänteislukua. Muussa tapauksessa dekooderi soveltaa VLC-kartoituksen käänteislukua, jossa suoritetaan prekoodauksen ja kartoituksen käänteisluku. Tämän jälkeen jokainen Käänteinen binäärijakso katsotaan joko oikeaksi tai poistetuksi CRC-tarkistuksen perusteella. Lopuksi, jossa viesti kulkee algoritmi, RA dekooderi palauttaa kaikki poistetaan sekvenssipaketit perustuu yhteyksiä pakettien.

Sekvensointitulokset ja tietojen palautusanalyysi

syntetisoidun oligos-poolin sekvensoinnin jälkeen saimme NovogeneAIT-sivustolta yli 10 miljoonaa raw-sekvenssin lukua yhteensä 3,2 gigatavua. Nämä sekvenssit sisältävät sekvensoinnin aikana syntyviä äänekkäitä lukemia. Sekvensointitulosten perusteella analysoimme ensin sekvensointitietojen luotettavuutta tietojen laadun tarkastelun, A/T/G/C sisällön jakautumisen ja virhetason jakautumisen kannalta. Perustuu virheanalyysin tulos, me sitten tutkittu luotettavuutta meidän dekoodaus järjestelmän palauttamisessa koodattu data eri näyte peitekuvaukset.

Sekvensointitulokset

analysoimme kunkin perusaseman laatuarvon sekvensoitujen lukujen avulla arvioidaksemme datan laatua. Laatupiste on jaksotettujen lukujen luotettavuuden arvio, joka liittyy kunkin perusaseman virhetasoon. Se lasketaan Q=−10log10e, jossa e on perusaseman virhetaso . Sekvensointilukujen kunkin pohjan laatupisteet vaihtelevat 30: stä 40: een (Kuva. 3 (A)), jotka edustavat korkeaa laatua. Lisäksi havaitsemme, että virhetaso kasvaa jatkamalla jaksotettu lukee, kun taas keskimäärin 0,015% kunkin pohjan pitkin lukee (Kuva. 3 B)). Tämä johtuu todennäköisesti sekvensointireagenssin kulutuksesta, joka on yleinen ilmiö Illumina-suurtehosekvenssialustalla, joka perustuu sequencing by synthesis (SBS) – teknologiaan . Odotetusti useissa ensimmäisissä emäsissä on muita korkeampi sekvensointivirhemäärä. Tämä voi johtua sekvensserin fluoresenssikuvaanturin Anturielementin tarkentumisesta, joka ei välttämättä ole riittävän herkkä sekvensoinnin alussa. Tämän seurauksena hankitun fluoresenssilukeman laatu on heikko. Muista, että sekvenssit oli liitetty pari 20nt primer sitova sivustoja molemmissa päissä ja siten ensimmäinen useita virhealtista emäkset (noin 6nt) ei vaikuta dekoodaus, koska CRC testi ja RA koodaus/dekoodaus on suunniteltu jättämällä sitova sivustoja. Toisin sanoen, sekvenssi tunnistetaan poistetaan CRC dekooderi johtuen virheistä muissa paikoissa (ulkopuolella alukkeet).

Fig. 3
figure3

sekvensointi tulosanalyysi ja tietojen palautus. (A) laatu arvo kunkin perusaseman pitkin lukee. X-akselin ensimmäinen puolisko on lukuihin 1 ja jälkimmäinen puolisko lukuihin 2. (B) virheprosentti kunkin perusaseman pitkin lukee. Jakauman alkupuoli on lukuihin 1 ja loppupuoli lukuihin 2. (C) kunkin perusaseman perussisältö lukujärjestyksessä. A / T/G/C tarkoittaa nukleotidien tyyppiä ja N kadonnutta nukleotidia, joka voi olla mikä tahansa nukleotidi A/T/G / C. Jakauma on erotettu kahdella luettu, huomaa, että (A), (b) ja (c), Luku 1 ja Luku 2 saadaan satunnaisesti sekvensointi joko lopussa kunkin sekvenssin. (D) experimental procedure for data recovery. Monistetut ja valmistetut synteettiset oligonäytteet sekvensoidaan käyttäen Illumina HiSeq-sekvensointitekniikkaa. Viisi sarjaa down-näytteenotto kokeet, erikokoisia satunnaisesti valittu osia raw sekvenssi lukee Lähetetään dekooderi, jossa tallennetut tiedostot talteen. (E) oikein talteen otettujen sekvenssien määrä suhteessa kattavuuteen. Musta ympyrä markkereita edustavat talteen sekvenssejä ennen RA dekoodaus ja timantti markkereita edustavat talteen sekvenssejä jälkeen Ra dekoodaus. Timanttimerkeistä punaiset edustavat osittaista elpymistä, kun taas vihreät kuvaavat täydellistä elpymistä

kuviossa. 3 (C), perus sisällön jakauma A, T, C ja G pitkin lukee esitetään osoittamaan jakauma GC sisällön. Komplementaaristen perusteiden periaatteen mukaan AT: n ja GC: n sisällön olisi oltava yhtä suuri jokaisella sekvensointisyklillä ja vakio ja vakaa koko sekvensointimenettelyssä. Havaitut keskimääräiset GC-pitoisuudet sekvensoinnissa ja kussakin perusasennossa olivat molemmat noin 50% ensimmäisestä 20nt: stä riippumatta. Syy jakeluun ensimmäisen 20nt: n aikana johtuu kahdesta sidontapaikasta molemmissa päissä. Jakauma osoittaa, että sekvensoitujen oligojen GC-pitoisuus täyttää biokemiallisen rajoitteen hyvin ja takaa siten vakaan sekvensointiprosessin.

Data recovery analysis

tarkistaaksemme suunnitellun RA error correction coding scheme-ohjelmamme koodin joustavuuden tutkimme järjestelmän tietojen palauttamisen suorituskykyä eri peitesivuilla kuviossa. 3 D). Tämä antaa meille arvion suunnitellun Ra-koodin virheensietokyvystä erilaisia keskeyttämisprosentteja vastaan johtuen vaihtelevista peitteistä. On olemassa joitakin käyttökelvottomia raw sekvenssit vastaanotettu sekvensointi lukee, koska niiden pituus on hyväksyttävän alueen ulkopuolella. Jäljitelläksemme eri peitesarjoja (8x: stä 12x: ään), loimme erikokoisia datasarjoja suorittamalla satunnaisotannan käyttökelpoisista raw-sekvensseistä, joissa kunkin viestin oligo-jakauma voi vaihdella. Esimerkiksi, kattavuus 8x, me satunnaisesti alas näyte käytettävissä raw sekvenssit tuottaa tietojoukko 96,000 raw sekvenssejä. Jokaista kattavuutta varten loimme 5 erilaista satunnaisesti alas otettua datajoukkoa ja määritimme keskimääräisen sekvensoinnin ja dekoodauksen suorituskyvyn. Jokaiselle raw-sekvenssille teimme de-kartoituksen muuntaaksemme nukleotidisekvenssin binäärisekvenssiksi ja suoritimme CRC-testin virheettömien/oikeiden sekvenssien tunnistamiseksi. Keskimääräinen määrä virheettömiä sarjoja kunkin kattavuus on esitetty Fig. 3 (E) (mustat pisteet), kuten odotettiin, se kasvaa kasvun kattavuus. Virheettömät sekvenssit syötettiin sitten RA-dekooderiin virheellisten jaksojen palauttamiseksi. Huomasimme, että kattavuus 10x ja siitä eteenpäin, kunkin kattavuus, dekooderi pystyi palauttamaan alkuperäisen sekvenssit 5 out of 5 random down-näytteenotto kokeet täydellisesti (vihreät timantit Kuvassa. 3 (E)). Tämä osoittaa, että dekooderi on vankka palauttaa virheellisiä tietoja vähintään kattavuus 10x, jossa 3,3% oligo sekvenssit olivat virhe (ts, keskeyttämisaste 3,3%)

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *