Articles

Alta capacità del DNA di archiviazione di dati a lunghezza variabile utilizzando Oligonucleotidi ripetere accumulare codice e la mappatura di ibridi

Un pratico DNA sistema di archiviazione dei dati con elevata capacità

Abbiamo iniziato con la costruzione di un’architettura di archiviazione dei dati e il recupero di dati da un DNA-based storage (Fig. 1, lettera A)). I dati utente sono stati prima segmentati in 11.400 pacchetti utente binari con ogni lunghezza del pacchetto di 266 bit. Per correggere gli errori che si verificano in qualsiasi fase dei processi di archiviazione del DNA, tra cui sintesi, amplificazione, memorizzazione e preparazione del campione per il sequenziamento, abbiamo applicato una codifica RA su pacchetti utente binari in cui sono stati generati pacchetti ridondanti/parità al 5%. Con ciascuno dei 12.000 pacchetti binari, sono stati aggiunti 14 bit per l’indicizzazione per ordinare gli oligos stocastici e 20 bit per il Cyclic Redundancy Check (CRC) per rilevare gli errori interni in ciascun pacchetto. Di conseguenza, il numero totale di bit associati a ciascun pacchetto è diventato di 300 bit (vedere il file aggiuntivo 1: Figura S4). Successivamente, abbiamo mappato tutte le sequenze binarie in sequenze di DNA attraverso lo schema di mappatura ibrido proposto. Quindi le sequenze di DNA sono state inviate a Twist Bioscience per la sintesi di oligos. Dopo aver ricevuto il pool oligos sintetizzato, lo abbiamo amplificato usando la reazione a catena della polimerasi (PCR) prima di inviare i campioni a NovogeneAIT per il sequenziamento utilizzando Illumina HiSeq. Nell’ultima fase, abbiamo analizzato e decodificato i dati di sequenziamento per convertire i record di DNA in dati binari digitali. Abbiamo prima down-campionato la sequenza milioni legge dal risultato di sequenziamento ed eseguito il contrario di codifica RA e mappatura per ricostruire i dati utente originali senza errori, convalidando la fattibilità del nostro metodo.

Oltre al recupero completo dei dati utilizzando i risultati del sequenziamento, abbiamo anche analizzato quantitativamente lo schema di archiviazione basato sul DNA proposto e lo abbiamo confrontato con altri schemi all’avanguardia, facendo riferimento a una precedente tabella di confronto (Fig. 1, lettera C)). La definizione dettagliata delle metriche delle prestazioni nella tabella è descritta nel file aggiuntivo 1: Sezione S7. Nella tabella, abbiamo confrontato solo con gli schemi che sono stati progettati e testati con la premessa del formato di archiviazione oligo pool in cui sono stati sintetizzati gli oligos corti a filamento singolo di lunghezza intorno a 200nt. Si noti che con l’ipotesi equivalente di memorizzare filamenti di DNA molto più lunghi come , cioè, 1000bp, lo schema di codifica proposto rimane fattibile e la densità di informazioni nette aumenterà con la lunghezza, ottenendo una densità maggiore rispetto, cioè , 1.84 bit/base su 1.74 bit/base (vedere File aggiuntivo 1: Sezione S3).

L’alta densità di informazioni nette di 1.67 bit / nt ottenuti dallo schema di archiviazione basato sul DNA proposto (Fig. 1 (D)) è dovuto principalmente alle seguenti due tecniche che abbiamo usato. In primo luogo, lo schema di mappatura ibrido proposto presenta un potenziale di mappatura di 1,98 bit/nt con un piccolo spazio dell ‘ 1% dal limite superiore teorico di 2 bit/nt. In secondo luogo, il codice RA ottimizzato per il controllo degli errori ha una piccola ridondanza di 1,05. Insieme all’indicizzazione a 14 bit e al CRC a 20 bit, lo schema ottiene una densità di informazione netta di 1,67 bit/nt, producendo il 91% della capacità di Shannon (1,83 bit/nt con 0.tasso di abbandono del 5%), che è del 6% in più rispetto all’ultimo più alto riportato in (File aggiuntivo 1: Sezione S3). Teoricamente, rispetto a, l’aumento della nostra densità di informazioni è il risultato combinato degli oligos del DNA di lunghezza variabile leggermente più lunghi (151nt-159nt contro 152nt, esclusi i siti di legame del primer), la minore ridondanza del controllo degli errori (1,05 contro 1,07) e l’indicizzazione più breve (14 bit contro 32 bit). La lunghezza degli oligos del DNA è elaborata destinata per fare pieno uso delle tecniche ampiamente disponibili correnti della sintesi del DNA (Bioscience di TORSIONE, NOI), che possono sintetizzare efficientemente gli oligos lunghi 200nt. Il design del codice RA ottimizzato offre una ridondanza del controllo degli errori leggermente ridotta con l’ipotesi equivalente di affrontare il tasso di abbandono pratico dell ‘ 1,3% come , mentre il ripristino completo con copertura 10x (10,5 x in ) indica che la resilienza degli errori viene mantenuta. La differenza più netta sorge nell’indicizzazione, in cui usiamo 14 bit esclusivamente per indicare l’ordine di 12000 oligos codificati, mentre usa 32 bit per rappresentare i semi necessari per la trasformazione di Luby che imposta la base del codice di fontana, con conseguente bit di indicizzazione ridondanti.

Per verificare ulteriormente che le prestazioni ad alta capacità dello schema di codifica proposto mantengano bene con l’aumento della dimensione dei dati (scalabilità), abbiamo stimato la densità di informazioni nette per la codifica delle dimensioni dei dati con magnitudini più elevate in silico, cioè da 2 MB a 2000 MB. Le densità stimate diminuiscono leggermente con l’aumento esponenziale della dimensione dei dati a causa dell’incremento della lunghezza di indicizzazione richiesta per la registrazione di dimensioni di dati più grandi (File aggiuntivo 1: Sezione S3 e Fig. 1, lettera E)). Si ottiene una densità di 1,66 bit/nt per la memorizzazione di 2 MB di dati di origine, che è ancora superiore del 6% rispetto . Inoltre, sia il codice RA che la strategia di mappatura ibrida costituita dallo schema di codifica proposto hanno una bassa complessità che sono efficienti da implementare nella pratica. In particolare, l’uso del codice RA impedisce il potenziale errore di decodifica (dovuto alla perdita di voci iniziali per l’avvio della decodifica nel processo di screening) e la ridondanza degli indirizzi che possono sorgere in DNA fountain, e la mappatura ibrida raggiunge un potenziale di mappatura molto elevato che è competitivo con DNA fountain evitando l’elevata complessità che si presenta nei codici a blocchi convenzionali vincolati.

Inoltre, abbiamo calcolato la densità fisica che lo schema proposto potrebbe esibire. Attraverso esperimenti di diluizione, gli autori hanno osservato il tasso di abbandono del 4% con un campione di stoccaggio del DNA 10pg, che si avvicinava quasi al limite del decodificatore (che era predeterminato dalla ridondanza del codice). Il codice RA utilizzato nel nostro schema è stato progettato in modo ottimale con un livello di ridondanza sotto la stessa ipotesi di tasso di abbandono considerato in . Abbiamo anche dimostrato che teoricamente il nostro codice può tollerare fino al tasso di abbandono del 4,75% (file aggiuntivo 1: Figura S4), che è superiore al tasso di abbandono del 4% osservato nel sequenziamento del campione 10pg. Con un limite di decodifica simile, il nostro schema proposto probabilmente funzionerebbe come la fontana del DNA negli esperimenti a basso peso molecolare (ad esempio, con campione 10pg) a causa dell’uso delle stesse pipeline, protocolli e standard dell’esperimento. In altre parole, la progettazione del codice nella fase iniziale consente che il sistema proposto potrebbe recuperare i dati da condizioni soggette a errori negli esperimenti di diluizione simile a fontana del DNA. Sotto l’ipotesi di ∼1300 molecole per oligo in media, profondità di sequenziamento di 511x, l’equivalente di condutture, i protocolli e gli standard come il 10pg diluizione esperimento nel DNA fontana, potremmo computazionalmente stima che il nostro regime, sarà possibile ottenere un fisico densità di 239 PB/g \(\left (\frac {266*11400/8\text {byte}}{1300*11400*1.0688*10^{-19}\text {grammo}}\right)\). Tuttavia, è necessario un esperimento rigoroso per verificare questa densità fisica computazionalmente stimata.

Progettazione del codice RA e schema di mappatura ibrida per lo stoccaggio del DNA

Abbiamo progettato un metodo di codifica che comprende il codice RA (Repeat Accumulate) a livello di oligo e un efficiente schema di mappatura ibrida.

Progettazione del codice RA

Nei sistemi di comunicazione tradizionali, il codice RA viene utilizzato a livello di bit, dove vengono generati bit ridondanti per mitigare gli errori di sostituzione. Tuttavia, la conservazione del DNA è soggetta non solo a errori di sostituzione, ma anche a errori di inserimento e cancellazione. Quindi, invece della tradizionale codifica RA a livello di bit, abbiamo progettato una codifica RA a livello di pacchetto per la memorizzazione del DNA in modo tale che un pacchetto sottoposto a errori di inserimento, cancellazione o sostituzione potesse essere recuperato tramite il decoder RA. Come descritto in precedenza, abbiamo segmentato un file digitale di grandi dimensioni in pacchetti più piccoli della stessa dimensione. Questi pacchetti sono stati considerati come i pacchetti di origine che sono stati utilizzati per generare i pacchetti ridondanti o di parità utilizzando il codice RA sistematica Fig. 2, lettera A). Si noti che ogni pacchetto è stato incorporato con CRC per rilevare errori nel pacchetto. Per i pacchetti che hanno superato il test CRC nel decoder, li abbiamo considerati correttamente recuperati, mentre gli altri sono stati considerati come eliminati o cancellati. Pertanto, il problema generale di progettazione del codice per l’archiviazione del DNA è diventato il design del codice per il canale di cancellazione. Per garantire un’elevata affidabilità, la progettazione del codice è stata eseguita considerando una probabilità di abbandono leggermente superiore rispetto alla probabilità di abbandono effettiva. In questo lavoro, abbiamo considerato il tasso di abbandono effettivo come 1.3% che è stato riportato nella carta fontana . Pertanto, abbiamo progettato il codice RA in modo tale che il codice risultante mostrasse una soglia asintotica superiore alla probabilità di abbandono di 0,013. Seguendo la procedura di ottimizzazione (vedi file aggiuntivo 1: Sezione S2), abbiamo progettato un codice RA di tasso 0.95, che dà una soglia asintotica di 0.0475. Il codice risultante mostra solo un intervallo di 0,0025 dal limite di capacità di Shannon (0,05). Le prestazioni di correzione degli errori simulate del codice RA progettato sono mostrate nel file aggiuntivo 1: Figura S4. A causa del tasso 0.95 Codice RA, abbiamo generato 600 pacchetti ridondanti / parità basati su 11.400 pacchetti sorgente, ricevendo 12.000 pacchetti binari in totale dopo la codifica.

Fig. 2
figure2

L’illustrazione delle strategie di codifica Repeat Accumulate (RA) e della mappatura ibrida. (A) Un esempio di codice RA a livello di pacchetto rate \(\frac {1}{2}\) con 3 pacchetti sorgente. Un pacchetto di parità ith nella posizione i è generato dalla somma modulo-2 bit-saggio del (i-1)esimo pacchetto di parità e dei pacchetti di origine che sono collegati al nodo X-O ith. B) Il diagramma di flusso della mappatura ibrida. Ogni sequenza binaria viene inizialmente mappata tramite mappatura binary-to-quaternary. Con uno dei pattern interleaving, la sequenza interleaved con il nucleotide flag che si aggiunge alla fine potrebbe superare il test di screening in cui vengono controllati il contenuto di GC e l’omopolimero, emettendo una sequenza valida. In caso contrario, la sequenza binaria originale verrà inviata alla mappatura VLC (Variable-length constrained). (CI) L’FSTD di un sistema di memorizzazione del DNA vincolato (4, 0, 2), dove 0, 1, 2 e 3 rappresentano quattro simboli di transizione che indicano le transizioni tra quattro alfabeti nucleotidici e s0, s1 e s2 rappresentano tre diversi stati che registrano la lunghezza di 0 consecutivi (nessuna transizione) nelle sequenze vincolate di output (4, 0, 2). (C. ii) La generazione di un albero di codifica Huffman. L’albero di codifica Huffman ottimizza il tasso di codice allineando la parola sorgente con possibilità di occorrenza elevata alla parola in codice con breve lunghezza e versetto vizio. (C. iii) La regola di mappatura VLC. L’allineamento dell’albero di codifica di Huffman genera una tabella di ricerca tra le parole di origine a lunghezza variabile e le parole di codice di transizione a lunghezza variabile. (C. iv) La strategia per consentire al decodificatore di distinguere due mappature attraverso la lunghezza della sequenza di DNA ricevuta. D) Il diagramma di flusso del decodificatore. Il decodificatore distingue innanzitutto il metodo di mappatura utilizzato dalla sequenza ricevuta ed esegue il reverse associativo. Il controllo CRC decide quindi se la sequenza binaria invertita è in errori o meno. Successivamente, il decoder RA funziona per recuperare tutte le sequenze in errori. E) La distribuzione delle lunghezze delle sequenze di DNA mappate. La lunghezza della risultante sequenze di DNA varia da 150nt per 159nt, dove il interleaved mappatura genera solo con le sequenze di lunghezza di 151nt mentre sequenze con altre lunghezze sono tutti generati dalla VLC mappatura

Ibrido schema di mappatura

poi, consideriamo che rappresentano i dati digitali del DNA contesto che indichiamo come mappatura del DNA. Una strategia di mappatura del DNA dovrebbe consentire alle sequenze oligo mappate di soddisfare i vincoli biochimici, portando così stabilità allo stoccaggio. Ci sono due vincoli nei dati sul DNA come segue: (i) Il contenuto di GC (il rapporto tra il numero totale di ” G ” e ” C ” rispetto al numero totale di nucleotidi in una sequenza) deve essere vicino al 50% (ii) Tutte le lunghezze di corsa degli omopolimeri (la lunghezza dei nucleotidi ripetutamente consecutivi) deve essere inferiore a 4 . Si noti che la mappatura binaria-quaternaria, cioè la mappatura di due bit a un nucleotide, che presenta il potenziale di mappatura ottimale (2 bit/nt), non sempre soddisfa i requisiti sopra menzionati. Invece, spesso non riesce a rispettare il massimo vincolo di esecuzione omopolimero. I vincoli esistenti nell’archiviazione dei dati del DNA riducono il potenziale di mappatura efficace, influenzando negativamente la capacità di archiviazione dei dati del DNA. Pertanto, abbiamo esplorato l’approccio di progettazione di codice vincolato con un alto tasso di codice e sviluppato una strategia di mappatura ibrida per garantire che le sequenze oligo soddisfino le esigenze biochimiche con il minimo sacrificio del potenziale di mappatura.

Questo schema di mappatura è costituito da due diversi metodi di mappatura, vale a dire la mappatura interleaved e la mappatura VLC. Il primo funziona come mappatura primaria a causa del suo potenziale di mappatura approssimativamente ottimale, cioè 1.995 bit / nt e quest’ultimo funziona come backup che entra in gioco quando la prima mappatura non riesce a produrre sequenze di DNA valide (cioè sequenze che soddisfano il contenuto GC e i vincoli di esecuzione omopolimeri). Nel metodo di mappatura successivo, una tabella di ricerca ausiliaria è costruita con una bassa complessità di codifica e decodifica. Nel frattempo, questo metodo presenta un potenziale di mappatura 1.976 bit/nt che è molto più alto dei codici a blocchi con la complessità equivalente. La combinazione di queste due strategie di mappatura si traduce in un potenziale di mappatura medio di circa 1,98 bit/nt con i dati stocastici. In altre parole, nello scenario peggiore in cui tutti i dati sono codificati utilizzando VLC, abbiamo comunque raggiunto una stima del potenziale di mappatura elevata (1.976 bit/nt). Tuttavia, nel migliore dei casi, quando tutti i dati vengono mappati utilizzando la mappatura interleaved, potremmo ottenere un potenziale molto elevato di 1.995 bit/nt.

I dati digitali passano prima attraverso il metodo di mappatura interleaved per generare le sequenze di DNA. Nel metodo di mappatura interleaved, le sequenze binarie vengono prima mappate utilizzando la mappatura binary-to-quaternary. Con l’aumento della lunghezza oligo, il vincolo del contenuto GC è spesso soddisfatto a causa della caratteristica stocastica dei dati binari. Tuttavia, questa mappatura tende a non soddisfare il vincolo di esecuzione omopolimero. Per risolvere questo problema, introduciamo un interleaver dopo la mappatura binario-quaternario, che rimescola l’ordine originale delle sequenze nucleotidiche. Dopo l’interleaving, viene eseguito un test di screening per verificare l’esecuzione dell’omopolimero della sequenza risultante. Se la sequenza risultante supera il test, tale sequenza è considerata una sequenza valida per la sintesi, altrimenti l’interleaving viene eseguito nuovamente sulla sequenza originale con un modello di interleaving diverso. In questo lavoro, consideriamo 4 schemi di interleaving predefiniti, in cui un nucleotide flag (A/T/G/C) è aggiunto alla fine della sequenza di DNA interleaved per indicare il modello di interleaving (File aggiuntivo 1: Sezione S8). Si noti che il nucleotide flag aggiunto è incluso nel determinare l’esecuzione omopolimerica della sequenza durante il test di screening. Usiamo solo un nucleotide extra (flag) per mantenere un’elevata densità di informazioni nette. Di conseguenza, il numero di prove di interleaving è limitato a 4. Se la sequenza non riesce ancora a soddisfare la domanda dopo il numero massimo di prove, la sequenza viene inviata al metodo di mappatura VLC (Fig. 2 (B) e file aggiuntivo 1: Sezione S4).

La mappatura VLC si ispira alla costruzione del codice VLCS (variable-length constrained Sequence), comunemente usato per codificare i dati in codici che soddisfano i vincoli nei sistemi vincolati, come i sistemi di registrazione ottica in cui sorgono problemi di run-length limit e DC-free . Nello scenario di archiviazione del DNA in cui esistono vincoli simili, il codice VLCS può essere efficacemente modificato in un metodo di mappatura. Si noti che mentre usiamo il codice RA a livello di pacchetto per il controllo degli errori, la propagazione degli errori guidata dal codice VLCS è limitata in un pacchetto e non ha alcuna influenza sul tasso di abbandono complessivo delle sequenze codificate.

Abbiamo generato questa regola di mappatura nelle seguenti quattro fasi. Innanzitutto, considerando il vincolo delle esecuzioni massime di omopolimeri, l’archiviazione basata sul DNA è stata vista come un sistema vincolato con limite di lunghezza di esecuzione (RLL), indicato da (M,d, k), dove M=4, d=0 e k=2 (file aggiuntivo 1: Sezione S5). Di conseguenza, è stato generato il diagramma di transizione a stati finiti (FSTD) della (4,0,2) archiviazione dei dati del DNA con vincoli omopolimerici (File aggiuntivo 1: Sezione S5 e Fig. 2, lett. C, i)). Nella seconda fase, in base all’FSTD generato, abbiamo dedotto che la capacità della (4, 0, 2) memoria di DNA vincolata da omopolimeri è 1.982 bit/nt (file aggiuntivo 1: Sezione S5). Abbiamo anche stabilito un insieme minimo completo (un insieme finito di parole le cui concatenazioni includono tutte le possibili sequenze che soddisfano i vincoli ), dove abbiamo enumerato tutte le parole che hanno origine e terminano nello stato s0 in Fig. 2, lettera C, i). Conseguenza. abbiamo ottenuto un set minimo {1,2,3,01,02,03,001,002,003}, in cui tutti gli elementi sono soddisfacenti da vincoli e privi di prefisso. Queste due proprietà assicurano che qualsiasi concatenazione degli elementi di questo set produca sequenze che soddisfano i vincoli che sono potenziali parole di codice di transizione per il sistema vincolato. Si noti che il set di codeword di transizione risultante si riferisce alla profondità e alla larghezza della concatenazione. Per ridurre la complessità della codifica, abbiamo utilizzato direttamente il set minimo completo come set di codici di transizione.

Nella terza fase, abbiamo usato l’albero di codifica di Huffman per generare una mappatura ottimale dalla parola sorgente binaria a lunghezza variabile impostata al set di codeword di transizione sopra menzionato (Fig. 2, lettera C, ii)). Questa assegnazione ottimale uno-a-uno ha dato un tasso medio di codice di 1.976 bit / nt (Fig. 2 (C, iii) e vedere il file aggiuntivo 1: Sezione S5). Nel frattempo, l’efficienza di questa mappatura si avvicina a \(\sigma = \ frac {1.976}{1.982}=99.7\%\), che presenta solo lo 0,3% di gap dalla capacità del sistema vincolato (4,0,2). In termini di potenziale di mappatura, questa mappatura supera il codice vincolato a blocchi proposto in , in cui un codice vincolato (4,0,2) è stato costruito utilizzando blocchi di DNA 39nt come codewords, ottenendo un potenziale di mappatura 1.95 bit/nt. Inoltre, il codice a blocchi 39nt è anche poco pratico per l’archiviazione dei dati del DNA tradizionale in cui vengono considerate sequenze di DNA molto più lunghe (codewords), cioè 200nt. Al contrario, l’approccio di mappatura a lunghezza variabile ha una bassa complessità di codifica indipendentemente dalla lunghezza complessiva delle sequenze oligo risultanti.

Nell’ultima fase, dopo la mappatura sorgente parole per la transizione codewords in successione contro ogni sequenza binaria, abbiamo eseguito precoding sul codificato quaternario sequenze secondo il cambiamento di stato funzione yj=yj−1+xj(mod M), dove yj è la corrente di uscita precoding simbolo, yj−1 è l’ultima uscita pre-simbolo codificato, xj è l’ingresso di corrente, simbolo, M è l’alfabeto dimensioni del sistema. Questa precodifica trasferirà il codice codificato (M,d,k) vincolato al codice RLL (M,d+1,k+1). Abbiamo quindi convertito i simboli quaternari da {0,1,2,3} a {‘A’, ’T’, ’C’, ‘G’} e ottenuto le sequenze oligo finali che soddisfano il vincolo di nessun omopolimero più grande di 3nt. Un esempio di questa strategia di mappatura può essere trovato nel file aggiuntivo 1: Sezione S6.

Attraverso lo schema di mappatura ibrida, abbiamo generato 12.000 sequenze di DNA con una distribuzione di lunghezza che va da 150nt a 159nt (escluso 40nt di siti di primer) per il flusso di dati binari (Fig. 2, lettera E)). In particolare, la lunghezza delle sequenze mappate tramite la mappatura interleaved è diventata 151nt, mentre la lunghezza delle sequenze mappate tramite la mappatura VLC variava da 150, 152 a 159nt. Si noti che non vi era alcuna sequenza con lunghezza di 151nt originata dalla mappatura VLC poiché è stato aggiunto un nucleotide per rendere queste sequenze mappate 151nt 152nt (Fig. 2 (C, iv)). Il nucleotide aggiunto è stato quello di distinguere tra i metodi di mappatura. Ciò consente l’uso di una corretta de-mapping durante il recupero dei dati memorizzati nel decodificatore.

Per recuperare i dati, le sequenze preparate dal processo di sequenziamento vengono inviate al decodificatore per recuperare i dati dell’utente (Fig. 2, lettera D)). Il decodificatore distingue innanzitutto il metodo di mappatura. Se la lunghezza della sequenza ricevuta è 151nt, il decodificatore applica l’inverso della mappatura interleaved basata sul nucleotide flag e sulla regola di mappatura binary-to-quaternary. In caso contrario, il decodificatore applica l’inverso della mappatura VLC in cui vengono eseguiti l’inverso della precodifica e della mappatura. Successivamente, ogni sequenza binaria invertita viene considerata corretta o cancellata in base al controllo CRC. Infine, con un algoritmo di passaggio dei messaggi, il decoder RA recupera tutti i pacchetti di sequenza cancellati in base alle connessioni tra i pacchetti.

Risultati di sequenziamento e analisi di recupero dati

Dopo aver sequenziato il pool di oligos sintetizzati, abbiamo ricevuto oltre 10 milioni di letture di sequenze grezze in dimensioni totali di 3,2 Gigabyte da NovogeneAIT. Queste sequenze includono letture rumorose generate durante il sequenziamento. Sulla base dei risultati del sequenziamento in primo luogo abbiamo analizzato l’affidabilità dei dati di sequenziamento in termini di esame della qualità dei dati, distribuzione del contenuto A/T/G/C e distribuzione del tasso di errore. Sulla base del risultato dell’analisi degli errori, abbiamo quindi studiato l’affidabilità del nostro schema di decodifica nel recupero dei dati codificati con diverse coperture di campioni.

Risultati del sequenziamento

Abbiamo analizzato il valore di qualità per ogni posizione di base lungo le letture sequenziate per valutare la qualità dei dati. Il punteggio di qualità è una stima dell’affidabilità delle letture sequenziate che si riferisce al tasso di errore di ciascuna posizione di base. Viene calcolato da Q = – 10log10e, dove e è il tasso di errore della posizione di base . I punteggi di qualità di ogni base del sequenziamento legge vanno da 30 a 40 (Fig. 3 (A)), che rappresenta un’alta qualità. Inoltre, osserviamo che il tasso di errore aumenta con l’estensione delle letture sequenziate mentre con un tasso medio di 0,015% in ciascuna base lungo le letture (Fig. 3, lettera B)). Ciò è probabilmente dovuto al consumo di reagente di sequenziamento, che è un fenomeno comune nella piattaforma di sequenziamento Illumina high-throughput che si basa sulla tecnologia di sequenziamento per sintesi (SBS). Come previsto, le prime diverse basi hanno un tasso di errore di sequenziamento più elevato rispetto ad altri. Ciò potrebbe essere dovuto alla messa a fuoco dell’elemento sensibile del sensore di immagine a fluorescenza del sequencer che potrebbe non essere abbastanza sensibile all’inizio del sequenziamento. Di conseguenza, la qualità della lettura della fluorescenza acquisita è bassa. Ricordiamo che le sequenze sono state aggiunte con una coppia di siti di binding di primer 20nt ad entrambe le estremità e quindi le prime basi soggette a errori (circa 6nt) non hanno alcuna influenza sulla decodifica, poiché il test CRC e la codifica/decodifica RA sono stati progettati escludendo i siti di binding. In altre parole, una sequenza verrà identificata come cancellata dal decodificatore CRC a causa degli errori in altre posizioni (al di fuori dei primer).

Fig. 3
figure3

Sequenziamento analisi dei risultati e recupero dati. (A) Il valore di qualità di ogni posizione di base lungo le letture. La prima metà dell’asse x è per le letture 1 e la seconda metà è per le letture 2. (B) Il tasso di errore di ogni posizione di base lungo le letture. La prima metà della distribuzione è per le letture 1 e la seconda metà è per le letture 2. C) Il contenuto di base di ciascuna posizione di base lungo le letture. A / T / G/C denota il tipo di nucleotidi e N denota un nucleotide perso che può essere uno qualsiasi di A/T/G / C. La distribuzione è separata da due letture, si noti che per (a), (b) e (c), leggere 1 e leggere 2 sono ottenuti dal sequenziamento casuale dalla fine di ciascuna sequenza. D) La procedura sperimentale per il recupero dei dati. I campioni oligo sintetici amplificati e preparati vengono sequenziati utilizzando la tecnologia di sequenziamento Illumina HiSeq. Con cinque serie di prove di down-sampling, diverse dimensioni di porzioni scelte a caso di letture di sequenza raw vengono inviati al decoder in cui vengono recuperati i file memorizzati. E) Il numero di sequenze correttamente recuperate rispetto alla copertura. I marcatori cerchio nero rappresentano sequenze recuperate prima della decodifica RA e marcatori diamante rappresentano sequenze recuperate dopo la decodifica RA. Tra i marcatori diamantati, quelli rossi rappresentano il recupero parziale, mentre quelli verdi rappresentano il recupero completo

In Fig. 3 (C), viene presentata una distribuzione di contenuto di base di A, T, C e G lungo le letture per mostrare la distribuzione del contenuto GC. Secondo il principio delle basi complementari, il contenuto di AT e GC dovrebbe essere uguale ad ogni ciclo di sequenziamento ed essere costante e stabile nell’intera procedura di sequenziamento. In particolare, il contenuto di GC medio osservato in una lettura di sequenziamento e in ciascuna posizione di base era entrambi intorno al 50% indipendentemente dal primo 20nt. Il motivo della distribuzione nel primo 20nt è dovuto ai due siti di associazione in entrambe le estremità. La distribuzione mostra che il contenuto di GC degli oligos sequenziati soddisfa bene il vincolo biochimico e quindi garantisce un processo di sequenziamento stabile.

Analisi di recupero dati

Per verificare la resilienza del codice del nostro schema di codifica di correzione degli errori RA progettato, abbiamo studiato le prestazioni di recupero dati dello schema su diverse coperture in Fig. 3, lettera D). Questo ci dà una stima sulla resilienza degli errori del codice RA progettato contro diversi tassi di abbandono a causa di coperture varie. Esistono alcune sequenze grezze inutilizzabili nelle letture di sequenziamento ricevute a causa della loro lunghezza al di fuori dell’intervallo accettabile. Per imitare diverse coperture (da 8x a 12x), abbiamo generato set di dati di diverse dimensioni eseguendo down-sampling casuali sulle sequenze raw utilizzabili, in cui la distribuzione di ciascun messaggio oligo può variare. Ad esempio, per la copertura di 8x, abbiamo campionato in modo casuale le sequenze raw utilizzabili per generare un set di dati di 96.000 sequenze raw. Per ogni copertura, abbiamo generato 5 diversi set di dati campionati in modo casuale e determinato le prestazioni medie di sequenziamento e decodifica. Per ogni sequenza raw, abbiamo eseguito il de-mapping per convertire la sequenza nucleotidica in sequenza binaria e abbiamo eseguito il test CRC per identificare sequenze errorless / corrette. Il numero medio di sequenze errorless per ogni copertura è mostrato in Fig. 3(E) (punti neri), come era previsto, aumenta con l’aumento della copertura. Le sequenze errorless sono state quindi alimentate al decoder RA per recuperare le sequenze errate. Abbiamo osservato che dalla copertura 10x in poi, per ogni copertura, il decodificatore è stato in grado di recuperare perfettamente le sequenze originali in 5 esperimenti di down-sampling casuali su 5 (diamanti verdi in Fig. 3, lettera E)). Ciò dimostra che il decodificatore è robusto per recuperare dati errati con la copertura minima di 10x, dove il 3,3% delle sequenze oligo era in errore (cioè un tasso di abbandono 3,3%)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *