Articles

stocare de date ADN de mare capacitate cu oligonucleotide de lungime variabilă folosind codul de acumulare repetată și maparea hibridă

un sistem practic de stocare a datelor ADN cu capacitate mare

am început cu construirea unei arhitecturi de stocare a datelor și de recuperare a datelor dintr-o stocare bazată pe ADN (Fig. 1 litera (A)). Datele utilizatorului au fost mai întâi segmentate în 11.400 de pachete binare de utilizator cu fiecare lungime de pachet de 266 de biți. Pentru a corecta erorile care apar din orice etapă a proceselor de stocare a ADN-ului, inclusiv sinteza, amplificarea, stocarea și pregătirea eșantionului pentru secvențiere, am aplicat o codificare RA pe pachetele binare de utilizatori unde au fost generate pachete redundante/paritate de 5%. Cu fiecare dintre cele 12.000 de pachete binare, au fost adăugați 14 biți pentru indexare pentru a comanda oligos stochastic și 20 de biți au fost adăugați pentru verificarea redundanței ciclice (CRC) pentru a detecta erorile interioare din fiecare pachet. Ca rezultat, numărul total de biți asociați fiecărui pachet a devenit 300 de biți (Vezi fișierul suplimentar 1: Figura S4). După aceea, am cartografiat toate secvențele binare în secvențe ADN prin schema de cartografiere hibridă propusă. Apoi secvențele ADN au fost trimise pentru a răsuci Biosciența pentru sinteza oligosului. După primirea bazinului oligos sintetizat, l-am amplificat folosind reacția în lanț a polimerazei (PCR) înainte de a trimite probele la NovogeneAIT pentru secvențiere folosind Illumina HiSeq. În ultima etapă, am analizat și decodat datele de secvențiere pentru a converti înregistrările ADN înapoi în date binare digitale. Am prelevat mai întâi secvența de milioane de citiri din rezultatul secvențierii și am efectuat inversarea codării și mapării RA pentru a reconstrui datele originale ale utilizatorului fără erori, validând fezabilitatea metodei noastre.

în plus față de recuperarea completă a datelor utilizând rezultatele secvențierii, am analizat cantitativ și schema de stocare pe bază de ADN propusă și am comparat-o cu alte scheme de ultimă generație, făcând referire la un tabel de comparație anterior (Fig. 1(C)). Definiția detaliată a valorilor de performanță din tabel este descrisă în fișierul suplimentar 1: secțiunea S7. În tabel, am comparat doar cu schemele care au fost proiectate și testate cu premisa formatului de stocare oligo pool unde au fost sintetizate oligo-urile scurte monocatenare de lungime în jurul valorii de 200nt. Rețineți că , cu presupunerea echivalentă de a stoca catene ADN mult mai lungi, cum ar fi, adică 1000bp, schema de codificare propusă rămâne fezabilă, iar densitatea netă a informațiilor va crește odată cu lungimea , obținând o densitate mai mare decât, adică 1,84 biți/bază peste 1,74 biți/bază (a se vedea fișierul suplimentar 1: secțiunea S3).

densitatea netă mare de informații de 1.67 biți / nt obținute prin schema de stocare pe bază de ADN propusă (Fig. 1(D)) se datorează în principal următoarelor două tehnici pe care le-am folosit. În primul rând, schema de cartografiere hibridă propusă prezintă un potențial de cartografiere de 1,98 biți/nt cu un mic decalaj de 1% față de limita superioară teoretică de 2 biți/nt. În al doilea rând, codul RA optimizat pentru controlul erorilor are o redundanță mică de 1,05. Împreună cu indexarea pe 14 biți și CRC pe 20 de biți, schema obține 1,67 biți/nt densitate netă de informații, producând 91% din capacitatea Shannon (1,83 biți/nt cu 0.5% rata abandonului), care este cu 6% mai mare decât ultima cea mai mare raportată în (fișier suplimentar 1: secțiunea S3). Teoretic, comparativ cu, creșterea densității informațiilor noastre este rezultatul combinat al OLIGOSULUI ADN cu lungime variabilă ușor mai lungă (151nt-159nt față de 152nt, excluzând locurile de legare a primerului), redundanța controlului erorilor mai mică (1,05 față de 1,07) și indexarea mai scurtă (14 biți față de 32 biți). Lungimea oligosului ADN este concepută în mod elaborat pentru a utiliza pe deplin tehnicile actuale de sinteză a ADN-ului disponibile pe scară largă (TWIST Bioscience, SUA), care pot sintetiza eficient oligosul lung de 200nt. Designul optimizat al Codului RA oferă o redundanță ușor redusă a controlului erorilor , cu presupunerea echivalentă de abordare a ratei practice de abandon de 1,3%, în timp ce recuperarea completă cu acoperire de 10x (10,5 x in ) indică faptul că rezistența la eroare este menținută. Cea mai distinctă diferență apare în indexare, în care folosim 14 biți exclusiv pentru indicarea ordinii oligourilor codificate 12000, în timp ce folosim 32 de biți pentru a reprezenta semințele necesare pentru transformarea Luby care stabilește baza codului fântânii, rezultând biți de indexare redundanți.

pentru a verifica în continuare dacă performanța de mare capacitate a schemei de codificare propuse se menține bine odată cu creșterea dimensiunii datelor (scalabilitate), am estimat densitatea netă a informațiilor pentru codificarea dimensiunii datelor cu magnitudini mai mari în silico, adică de la 2MB la 2000mb. Densitățile estimate scad ușor odată cu creșterea exponențială a dimensiunii datelor datorită creșterii lungimii de indexare necesară pentru înregistrarea dimensiunii mai mari a datelor (fișier suplimentar 1: secțiunea S3 și Fig. 1(E)). O densitate de 1,66 biți/nt este obținută pentru stocarea a 2 MB de date sursă, care este încă cu 6% mai mare decât . În plus, atât codul RA, cât și strategia de cartografiere hibridă constând în schema de codificare propusă au o complexitate redusă, care sunt eficiente de implementat în practică. În special, utilizarea codului RA previne eșecul potențial de decodare (din cauza pierderii intrărilor inițiale pentru pornirea decodificării în procesul de screening) și redundanța adresei care poate apărea în fântâna ADN, iar cartografierea hibridă atinge un potențial de cartografiere foarte ridicat, care este competitiv cu fântâna ADN, evitând în același timp o complexitate ridicată care se manifestă în codurile bloc restricționate convenționale.

în plus, am estimat computațional densitatea fizică pe care schema propusă ar putea să o prezinte. Prin experimente de diluare, autorii au observat o rată de abandon de 4% cu un eșantion de stocare a ADN-ului de 10PG, care aproape s-a apropiat de limita decodorului lor (care a fost predeterminată de redundanța codului). Codul RA utilizat în schema noastră a fost proiectat în mod optim cu un nivel de redundanță sub aceeași ipoteză a ratei de abandon considerat în . Am arătat, de asemenea, că teoretic codul nostru poate tolera până la 4.75% rata de abandon (fișier suplimentar 1: Figura S4), care este peste rata de abandon de 4% observată în eșantionul de secvențiere 10pg. Cu o limită de decodare similară, schema noastră propusă ar funcționa probabil la fel ca fântâna ADN în experimentele moleculare scăzute (de exemplu, cu eșantion de 10pg) datorită utilizării acelorași conducte, protocoale și standarde de experiment. Cu alte cuvinte, proiectarea codului în stadiul inițial permite ca sistemul propus să poată recupera date din condiții predispuse la erori în experimentele de diluare similare cu fântâna ADN. Sub ipoteza de 1300 de molecule pe oligo în medie, adâncimea de secvențiere de 511x și conducte, protocoale și standarde echivalente ca experimentul de diluare 10pg în fântâna ADN, am putea estima computațional că schema noastră va atinge o densitate fizică de 239 PB/g \(\stânga (\frac {266 * 11400/8 \ text {octet}}{1300*11400*1.0688*10^{-19}\text {gram}}\dreapta)\). Cu toate acestea, este necesar un experiment riguros pentru a verifica această densitate fizică estimată computațional.

proiectarea codului RA și schema de cartografiere hibridă pentru stocarea ADN-ului

am conceput o metodă de codificare care cuprinde codul de acumulare repetată la nivel oligo (RA) și o schemă eficientă de cartografiere hibridă.

proiectarea codului RA

în sistemele tradiționale de comunicații, codul RA este utilizat la nivel de biți, unde sunt generați biți redundanți pentru a atenua erorile de substituție. Cu toate acestea, stocarea ADN-ului este predispusă nu numai la erori de substituție, ci și la erori de inserare și ștergere. Prin urmare, în loc de codificarea RA convențională la nivel de biți, am proiectat o codificare RA la nivel de pachete pentru stocarea ADN-ului, astfel încât un pachet supus erorilor de inserare, ștergere sau substituție să poată fi recuperat prin decodor RA. Așa cum am descris mai devreme, am segmentat un fișier digital mare în pachete mai mici de aceeași dimensiune. Aceste pachete au fost considerate pachetele sursă care au fost utilizate pentru a genera pachetele redundante sau paritate folosind codul ra sistematic Fig. 2(A). Rețineți că fiecare pachet a fost încorporat cu CRC pentru a detecta erorile din pachet. Pentru pachetele care au trecut testul CRC în decodor, le-am considerat corect recuperate, în timp ce celelalte au fost considerate scăpate sau șterse. Astfel, problema generală de proiectare a codului pentru stocarea ADN-ului a devenit proiectarea codului pentru canalul de ștergere. Pentru a asigura o fiabilitate ridicată, proiectarea codului a fost realizată luând în considerare o probabilitate de abandon ușor mai mare decât probabilitatea reală de abandon. În această lucrare, am considerat rata reală de abandon ca fiind de 1,3%, care a fost raportată în lucrarea fountain . Astfel, am proiectat codul RA astfel încât codul rezultat să prezinte un prag asimptotic mai mare decât probabilitatea de abandon de 0,013. Urmând procedura de optimizare (a se vedea fișierul suplimentar 1: secțiunea S2), am proiectat un cod RA de rată 0,95, care dă un prag asimptotic de 0,0475. Codul rezultat arată doar un decalaj de 0,0025 față de limita de capacitate a lui Shannon (0,05). Performanța de corectare a erorilor simulată a codului ra proiectat este prezentată în fișierul suplimentar 1: Figura S4. Datorită ratei 0.95 cod RA, am generat 600 de pachete redundante / paritate bazate pe 11.400 de pachete sursă, primind 12.000 de pachete binare în total după codificare.

Fig. 2
figure2

ilustrarea strategiilor de codificare a acumulării repetate (RA) și a mapării hibride. (A) un exemplu de rată \(\frac {1}{2}\) Nivel de pachet cod RA cu 3 pachete sursă. Un pachet de paritate ith în poziția i este generat de suma modulo-2 bit-wise a pachetului de paritate (i−1)și a pachetelor sursă care sunt conectate la nodul ith X-or. (B) diagrama de flux a cartografierii hibride. Fiecare secvență binară este inițial mapată prin cartografiere binară-cuaternară. Cu unul dintre modelele de intercalare, secvența intercalată cu nucleotida de pavilion care se adaugă la sfârșit ar putea trece testul de screening în care conținutul GC și homopolimerul sunt verificate, afișând o secvență validă. În caz contrar, secvența binară originală va fi trimisă la maparea cu lungime variabilă (VLC). (C. I) FSTD-ul unui sistem de stocare a ADN-ului constrâns (4, 0, 2), Unde 0, 1, 2 și 3 reprezintă patru simboluri de tranziție care indică tranzițiile dintre patru alfabete nucleotidice, iar S0, s1 și s2 reprezintă trei stări diferite care înregistrează lungimea consecutivă a lui 0 (fără tranziție) în secvențele constrânse de ieșire (4, 0, 2). (C. ii) generarea unui arbore de codificare Huffman. Arborele de codificare Huffman optimizează rata de cod prin alinierea cuvântului sursă cu posibilitate ridicată de apariție la cuvântul de cod cu lungime scurtă și viciu de versuri. (C. iii) regula de cartografiere VLC. Alinierea arborelui de codificare Huffman generează un tabel de căutare între cuvintele sursă cu lungime variabilă și cuvintele de cod de tranziție cu lungime variabilă. (C. iv) strategia pentru a permite decodorului să distingă două mapări prin lungimea secvenței ADN primite. (D) diagrama de flux a decodorului. Decodorul distinge mai întâi metoda de cartografiere pe care a folosit-o secvența primită și efectuează inversarea asociativă. Verificarea CRC decide apoi dacă secvența binară inversată este în erori sau nu. Ulterior, decodorul RA funcționează pentru a recupera toate secvențele din erori. (E) distribuția lungimilor secvențelor ADN cartografiate. Lungimea secvențelor ADN rezultate variază de la 150nt la 159nt, unde maparea intercalată generează doar secvențe cu lungimea de 151nt, în timp ce secvențele cu alte lungimi sunt toate generate de maparea VLC

schema de mapare hibridă

în continuare, considerăm reprezentarea datelor digitale în contextul ADN pe care le denumim ca mapare ADN. O strategie de cartografiere a ADN-ului ar trebui să permită secvențele oligo cartografiate care satisfac constrângerile biochimice, aducând astfel stabilitate stocării. Există două astfel de constrângeri în datele ADN, după cum urmează: (i) Conținutul de GC (raportul dintre numărul total de ‘G’ și ‘C’ și numărul total de nucleotide dintr-o secvență) trebuie să fie aproape de 50% (ii) toate lungimile de rulare ale homopolimerilor (lungimea nucleotidelor repetate consecutive) trebuie să fie mai mică de 4 . Rețineți că cartografierea binară-cuaternară, adică maparea a doi biți la o nucleotidă, care prezintă potențialul optim de cartografiere (2 biți/nt), nu îndeplinește întotdeauna cerințele menționate mai sus. În schimb, adesea nu reușește să respecte constrângerea maximă de rulare a homopolimerului. Constrângerile existente în stocarea datelor ADN reduc potențialul efectiv de cartografiere, afectând negativ capacitatea de stocare a datelor ADN. Prin urmare, am explorat abordarea proiectării codurilor constrânse cu rată mare de cod și am dezvoltat o strategie de cartografiere hibridă pentru a asigura că secvențele oligo îndeplinesc cerințele biochimice cu un sacrificiu minim al potențialului de cartografiere.

această schemă de mapare constă din două metode diferite de mapare, și anume maparea intercalată și maparea VLC. Primul funcționează ca cartografiere primară datorită potențialului său de cartografiere aproximativ optim, adică 1.995 biți / nt și acesta din urmă funcționează ca copie de rezervă care intră în joc atunci când prima mapare nu reușește să producă secvențe ADN valide (adică secvențe care satisfac conținutul GC și constrângerile de rulare homopolimer). În metoda de cartografiere ulterioară, un tabel auxiliar de căutare este construit cu o complexitate redusă de codificare și decodare. Între timp, această metodă prezintă un potențial de cartografiere 1.976 biți/nt, care este mult mai mare decât codurile de bloc cu complexitate echivalentă. Combinația acestor două strategii de cartografiere are ca rezultat un potențial mediu de cartografiere în jur de 1,98 biți/nt cu datele stocastice. Cu alte cuvinte, în cel mai rău caz în care toate datele sunt codificate folosind VLC, am obținut încă o estimare a potențialului de cartografiere ridicat (1.976 biți/nt). Cu toate acestea, în cel mai bun caz, când toate datele sunt mapate folosind maparea intercalată, am putea obține un potențial foarte mare de 1.995 biți/nt.

datele digitale trec mai întâi prin metoda de mapare intercalată pentru a genera secvențele ADN. În metoda de mapare intercalată, secvențele binare sunt mapate mai întâi folosind cartografiere binară-cuaternară. Odată cu creșterea lungimii oligo, constrângerea conținutului GC este adesea satisfăcută datorită caracteristicii stocastice a datelor binare. Cu toate acestea, această cartografiere tinde să nu satisfacă constrângerea de rulare a homopolimerului. Pentru a rezolva această problemă, introducem un interleaver după cartografierea binară-cuaternară, care amestecă ordinea inițială a secvențelor nucleotidice. După intercalare, se efectuează un test de screening pentru a verifica rularea homopolimerului secvenței rezultate. Dacă secvența rezultată trece testul, acea secvență este considerată ca o secvență validă pentru sinteză, altfel intercalarea se efectuează din nou pe secvența originală cu un model de intercalare diferit. În această lucrare, luăm în considerare 4 modele de intercalare predefinite, unde o nucleotidă de pavilion (A/T/G/C) este atașată la sfârșitul secvenței ADN intercalate pentru a indica modelul de intercalare (fișier suplimentar 1: secțiunea S8). Rețineți că nucleotida Flag atașată este inclusă în determinarea rulării homopolimerului secvenței în timpul testului de screening. Folosim doar o nucleotidă suplimentară (flag) pentru a menține o densitate netă ridicată a informațiilor. În consecință, numărul de încercări de intercalare este limitat la 4. Dacă secvența încă nu îndeplinește cererea după numărul maxim de încercări, secvența este trimisă la metoda de mapare VLC (Fig. 2(B) și dosarul suplimentar 1: secțiunea S4).

maparea VLC este inspirată de construcția codului de secvență constrânsă cu lungime variabilă (VLCS), utilizat în mod obișnuit pentru a codifica datele în coduri care satisfac constrângerile în sisteme constrânse, cum ar fi sistemele de înregistrare optică în care apar probleme de limită a lungimii de rulare și fără curent continuu . În scenariul de stocare a ADN-ului în care există constrângeri similare, codul VLCS poate fi modificat în mod eficient la o metodă de mapare. Rețineți că, pe măsură ce folosim codul RA la nivel de pachete pentru controlul erorilor, propagarea erorilor condusă de codul VLCS este limitată într-un singur pachet și nu are nicio influență asupra ratei generale de abandon a secvențelor codificate.

am generat această regulă de mapare în următoarele patru etape. În primul rând, având în vedere constrângerea rulărilor maxime de homopolimer, stocarea pe bază de ADN a fost văzută ca un sistem constrâns cu limită de lungime de rulare (RLL), notat cu (M,d, k), unde m=4, d=0 și k=2 (fișier suplimentar 1: secțiunea S5). În consecință, a fost generată diagrama de tranziție în stare finită (fstd) a stocării datelor ADN constrânse de homopolimer (4,0,2) (fișier suplimentar 1: secțiunea S5 și Fig. 2(C, i)). În a doua etapă, pe baza FSTD generat, am dedus că capacitatea stocării ADN-ului constrâns de homopolimer (4, 0, 2) este de 1.982 biți/nt (fișier suplimentar 1: secțiunea S5). De asemenea, am stabilit un set minimal complet (un set finit de cuvinte ale căror concatenări includ toate secvențele posibile care satisfac constrângerile), unde am enumerat toate cuvintele care provin și se termină în starea s0 în Fig. 2(C, i). Ca rezultat. am obținut un set minim {1,2,3,01,02,03,001,002,003}, în care toate elementele sunt satisfăcătoare de constrângere și fără prefix. Aceste două proprietăți asigură că orice concatenare a elementelor acestui set produce secvențe care satisfac constrângerile care sunt potențiale cuvinte de cod de tranziție pentru sistemul constrâns. Rețineți că setul de cuvinte de cod de tranziție rezultat se referă la adâncimea și lățimea concatenării. Pentru a reduce complexitatea codării, am folosit direct setul minimal complet ca set de cuvinte de cod de tranziție.

în a treia etapă, am folosit arborele de codare Huffman pentru a genera o mapare optimă din setul de cuvinte sursă binare de lungime variabilă la setul de cuvinte de cod de tranziție menționat mai sus (Fig. 2(C, ii)). Această atribuire optimă unu-la-unu a dat o rată medie de cod de 1.976 biți/nt (Fig. 2(C, iii) și a se vedea fișierul suplimentar 1: secțiunea S5). Între timp, eficiența acestei abordări de cartografiere \(\sigma = \ frac {1.976}{1.982}=99.7\%\), prezintă un decalaj de doar 0,3% față de capacitatea sistemului constrâns (4,0,2). În ceea ce privește potențialul de mapare, această mapare depășește codul constrâns de bloc propus în , în care a (4,0,2) Cod constrâns a fost construit folosind blocuri ADN 39nt ca cuvinte de cod, obținând 1,95 biți/nt potențial de mapare. În plus, codul blocului 39nt este, de asemenea, impracticabil pentru stocarea tradițională a datelor ADN, unde sunt luate în considerare secvențe ADN mult mai lungi (cuvinte de cod), adică 200nt. În schimb, abordarea de mapare cu lungime variabilă are o complexitate redusă de codificare, indiferent de lungimea totală a secvențelor oligo rezultate.

în ultima etapă, după maparea cuvintelor sursă la cuvintele de cod de tranziție succesiv față de fiecare secvență binară, am efectuat precodarea pe secvențele cuaternare codificate în funcție de funcția de schimbare a stării yj=yj-1+xj(mod M), unde yj este simbolul de precodificare de ieșire Curent, yj-1 este ultimul simbol de ieșire precodificat, xj este simbolul de intrare curent, M este dimensiunea alfabetului sistemului. Această precodare va transfera codificat (m,d,k) Cod constrâns la (M,D+1, k+1) cod RLL. Apoi am convertit simbolurile cuaternare de la {0,1,2,3} la {‘A’, ‘T’, ‘C’, ‘G’} și am obținut secvențele oligo finale care satisfac constrângerea niciunui homopolimer care rulează mai mare de 3NT. Un exemplu al acestei strategii de cartografiere poate fi găsit în fișierul suplimentar 1: secțiunea S6.

prin schema de cartografiere hibridă, am generat 12.000 de secvențe de ADN cu o distribuție de lungime cuprinsă între 150nt și 159nt (excluzând 40nt de site-uri de grund) pentru fluxul de date binare (Fig. 2(E)). Mai exact, lungimea secvențelor care au fost mapate prin maparea intercalată a devenit 151nt, în timp ce lungimea secvențelor care au fost mapate prin maparea VLC a variat de la 150, 152 la 159nt. Rețineți că nu a existat nicio secvență cu lungimea de 151nt care să provină din maparea VLC, deoarece s-a adăugat o nucleotidă pentru a face ca aceste secvențe mapate de 151nt să fie 152nt (Fig. 2(C, iv)). Nucleotida adăugată a fost de a distinge între metodele de cartografiere. Acest lucru permite utilizarea corectă de-mapping în timpul recuperării datelor stocate în decodor.

pentru a prelua date, secvențele pregătite din procesul de secvențiere sunt trimise decodorului pentru a recupera datele utilizatorului (Fig. 2(D)). Decodorul distinge mai întâi metoda de cartografiere. Dacă lungimea secvenței primite este de 151nt, decodorul aplică inversarea mapării intercalate pe baza nucleotidei steagului și a regulii de mapare binară-cuaternară. În caz contrar, decodorul aplică reversul mapării VLC unde se efectuează reversul precodării și mapării. După aceea, fiecare secvență binară inversată este considerată fie una corectă, fie una de ștergere bazată pe verificarea CRC. În cele din urmă, cu un algoritm de transmitere a mesajelor, decodorul RA recuperează toate pachetele de secvență șterse pe baza conexiunilor dintre pachete.

rezultatele secvențierii și analiza recuperării datelor

după secvențierea pool-ului oligos sintetizat, am primit peste 10 milioane de citiri de secvențe brute în dimensiune totală de 3,2 gigaocteți de la NovogeneAIT. Aceste secvențe includ citiri zgomotoase generate în timpul secvențierii. Pe baza rezultatelor de secvențiere în primul rând am analizat fiabilitatea datelor de secvențiere în ceea ce privește examinarea calității datelor, distribuția conținutului A/T/G/C și distribuția ratei de eroare. Pe baza rezultatului analizei erorilor, am studiat apoi fiabilitatea schemei noastre de decodare în recuperarea datelor codificate cu diferite acoperiri de eșantion.

rezultate secvențiere

am analizat valoarea calității pentru fiecare poziție de bază de-a lungul citirilor secvențiate pentru a evalua calitatea datelor. Scorul de calitate este o estimare a fiabilității citirilor secvențiate care se referă la rata de eroare a fiecărei poziții de bază. Se calculează prin Q=−10log10e, unde e este rata de eroare a poziției de bază . Scorurile de calitate ale fiecărei baze a citirilor de secvențiere variază de la 30 la 40 (Fig. 3(a)), reprezentând o înaltă calitate. Mai mult, observăm că rata de eroare crește odată cu extinderea citirilor secvențiate, în timp ce cu o rată medie de 0,015% în fiecare bază de-a lungul citirilor (Fig. 3(B)). Acest lucru se datorează probabil consumului de reactiv de secvențiere, care este un fenomen comun în platforma de secvențiere Illumina cu randament ridicat, care se bazează pe tehnologia de secvențiere prin sinteză (SBS). Așa cum era de așteptat, primele câteva baze au o rată de eroare de secvențiere mai mare decât altele. Acest lucru s-ar putea datora focalizării elementului de detectare a senzorului de imagine fluorescentă al secvențiatorului, care poate să nu fie suficient de sensibil la începutul secvențierii. Ca urmare, calitatea citirii fluorescenței dobândite este scăzută. Reamintim că secvențele au fost anexate cu o pereche de site-uri de legare a primerului 20nt la ambele capete și, prin urmare, primele câteva baze predispuse la erori (în jur de 6NT) nu au nicio influență asupra decodării, deoarece testul CRC și codificarea/decodarea RA au fost proiectate prin excluderea site-urilor de legare. Cu alte cuvinte, o secvență va fi identificată ca ștearsă de decodorul CRC din cauza erorilor din alte poziții (în afara primerilor).

Fig. 3
figure3

analiza rezultatelor secvențierii și recuperarea datelor. (A) valoarea calității fiecărei poziții de bază de-a lungul citirilor. Prima jumătate a axei x este pentru citirile 1, iar a doua jumătate este pentru citirile 2. (B) rata de eroare a fiecărei poziții de bază de-a lungul citirilor. Prima jumătate a distribuției este pentru citirile 1, iar a doua jumătate este pentru citirile 2. (C) Conținutul de bază al fiecărei poziții de bază de-a lungul citirilor. A/T/G / C denotă tipul de nucleotide și N denotă o nucleotidă pierdută care poate fi oricare dintre A/T/G/C. Distribuția este separată de două citiri, rețineți că pentru (a), (b) și (c), citirea 1 și citirea 2 sunt obținute din secvențierea aleatorie de la sfârșitul fiecărei secvențe. (D) procedura experimentală de recuperare a datelor. Probele oligo sintetice amplificate și preparate sunt secvențiate folosind tehnologia de secvențiere Illumina HiSeq. Cu cinci seturi de încercări de eșantionare în jos, diferite dimensiuni ale porțiunilor alese aleatoriu de citire a secvenței brute sunt trimise decodorului unde sunt recuperate fișierele stocate. (E) numărul de secvențe recuperate corect în raport cu acoperirea. Markerii cercului negru reprezintă secvențe recuperate înainte de decodarea RA, iar markerii diamantului reprezintă secvențe recuperate după decodarea RA. Dintre markerii diamantați, cei roșii reprezintă recuperarea parțială, în timp ce cei verzi reprezintă recuperarea completă

în Fig. 3(C), este prezentată o distribuție de conținut de bază a, T, C și G de-a lungul citirilor pentru a arăta distribuția conținutului GC. Conform principiului bazelor complementare, conținutul AT și GC ar trebui să fie egal la fiecare ciclu de secvențiere și să fie constant și stabil în întreaga procedură de secvențiere. În special, conținutul mediu de GC observat într-o citire secvențială și în fiecare poziție de bază au fost ambele în jur de 50%, indiferent de primul 20nt. Motivul distribuției în primul 20nt se datorează celor două site-uri de legare din ambele capete. Distribuția arată că conținutul de GC al oligosului secvențiat satisface bine constrângerea biochimică și, prin urmare, asigură un proces stabil de secvențiere.

analiza de recuperare a datelor

pentru a verifica rezistența codului schemei noastre de codificare a corecției erorilor ra proiectate, am studiat performanța de recuperare a datelor a schemei pe diferite acoperiri din Fig. 3(D). Acest lucru ne oferă o estimare a rezistenței la erori a codului ra proiectat împotriva diferitelor rate de abandon din cauza acoperirilor variate. Există unele secvențe brute inutilizabile în citirile de secvențiere primite din cauza lungimii lor în afara intervalului acceptabil. Pentru a imita diferite acoperiri (de la 8x la 12x), am generat seturi de date de diferite dimensiuni prin efectuarea eșantionării aleatorii în jos pe secvențele brute utilizabile, în care distribuția fiecărui mesaj oligo poate varia. De exemplu, pentru o acoperire de 8x, am eșantionat aleatoriu secvențele brute utilizabile pentru a genera un set de date de 96.000 de secvențe brute. Pentru fiecare acoperire, am generat 5 seturi diferite de date eșantionate aleatoriu și am determinat performanța medie de secvențiere și decodare. Pentru fiecare secvență brută, am efectuat de-mapping pentru a converti secvența nucleotidică în secvență binară și am efectuat testul CRC pentru a identifica secvențele errorless/corecte. Numărul mediu de secvențe errorless pentru fiecare acoperire este prezentat în Fig. 3 (e) (puncte negre), așa cum era de așteptat, crește odată cu creșterea acoperirii. Secvențele errorless au fost apoi alimentate la decodorul RA pentru a recupera secvențele eronate. Am observat că de la acoperire 10x și mai departe, pentru fiecare acoperire, decodorul a reușit să recupereze perfect secvențele originale în 5 din 5 experimente aleatorii de eșantionare în jos (diamante verzi în Fig. 3(E)). Acest lucru arată că decodorul este robust pentru a recupera date eronate cu acoperirea minimă de 10x, unde 3,3% din secvențele oligo au fost eronate (adică o rată de abandon 3,3%)

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *