Articles

Alta capacidade de DNA de armazenamento de dados, com comprimento variável de Oligonucleotídeos usando repita acumular código e híbridos de mapeamento

Uma prática de DNA sistema de armazenamento de dados, com alta capacidade

Nós começamos com a construção de uma arquitetura de armazenamento de dados e recuperar dados a partir de uma base de ADN de armazenamento (Fig. 1 a)). Os dados do Usuário foram primeiramente segmentados em 11.400 pacotes binários de usuários com cada comprimento de pacote de 266 bits. Para corrigir erros que ocorrem a partir de qualquer fase dos processos de armazenamento de DNA, incluindo síntese, amplificação, armazenamento e preparação de amostras para sequenciamento, aplicamos uma codificação RA em pacotes binários de usuários onde 5% redundantes/pacotes de paridade foram gerados. Com cada um dos 12.000 pacotes binários, 14 bits foram adicionados para indexação para encomendar os oligos estocásticos e 20 bits foram adicionados para verificação de Redundância Cíclica (CRC) para detectar os erros interiores em cada pacote. Como resultado, o número total de bits associados a cada pacote tornou-se 300 bits (Ver Arquivo adicional 1: Figura S4). Depois, mapeamos todas as sequências binárias em sequências de DNA através do esquema de mapeamento híbrido proposto. Em seguida, as sequências de DNA foram enviadas para torcer a Biociência para a síntese de oligos. Depois de receber o pool de oligos sintetizados, amplificámo-lo usando a reacção em cadeia da polimerase (PCR) antes de enviar as amostras para NovogeneAIT para sequenciar usando ilumina HiSeq. Na última etapa, analisamos e descodificamos os dados de sequenciação para converter os registros de DNA de volta para dados binários digitais. Analisamos pela primeira vez a sequência de milhões de leituras do resultado sequenciador e realizamos o reverso da codificação e mapeamento RA para reconstruir os dados originais do usuário sem erros, validando a viabilidade do nosso método.

além da recuperação completa dos dados utilizando os resultados sequenciados, também analisámos quantitativamente o esquema de armazenamento proposto baseado no ADN e comparámo-lo com outros esquemas de última geração, referenciando uma tabela de comparação anterior (Fig. 1 C)). A definição detalhada das métricas de desempenho na tabela é descrita no ficheiro adicional 1: Secção S7. Na tabela, só comparado com os esquemas que foram projetados e testados com a premissa do oligo piscina de formato de armazenamento onde o single-stranded curto oligos de comprimento em torno de 200nt foram sintetizados. Note – se que , com a hipótese equivalente de armazenar cadeias de ADN muito mais longas, como, por exemplo, 1000bp, o esquema de codificação proposto continua a ser viável , e a densidade da informação líquida aumentará com o comprimento, alcançando uma densidade superior a 1,84 bits/base acima de 1,74 bits/base (ver ficheiro adicional 1: Secção S3).

A elevada densidade de informação líquida de 1.67 bits / nt alcançados pelo esquema de armazenamento baseado no ADN proposto (Fig. 1 (D)) é principalmente devido às duas técnicas que temos usado a seguir. Em primeiro lugar, o esquema de mapeamento híbrido proposto exibe um potencial de mapeamento 1,98 bits/nt com um pequeno intervalo de 1% do limite superior teórico de 2 bits/nt. Em segundo lugar, o código RA otimizado para controle de erros tem uma pequena redundância de 1,05. Juntamente com a indexação de 14 bits e 20 bits CRC, o esquema obtém 1,67 bits/nt densidade de informação líquida, rendendo 91% da capacidade de Shannon (1,83 bits/nt com 0.Taxa de desistência de 5%), que é 6% a mais do que a última mais alta reportada (ficheiro adicional 1: Secção S3). Teoricamente, em comparação com o aumento de nossa densidade de informação é o resultado combinado de um pouco mais de comprimento variável de DNA oligos (151nt-159nt versus 152nt, excluindo primer sítios de ligação), o menor erro de redundância de controle (1.05 versus 1.07), e o menor de indexação (14bits versus 32bits). O comprimento dos oligos de DNA são elaborados para fazer pleno uso das técnicas de síntese de DNA disponíveis atualmente (TWIST Bioscience, EUA), que podem sintetizar eficientemente 200nt oligos de comprimento. O projeto de código RA otimizado dá uma redundância de controle de erro ligeiramente reduzida com a suposição equivalente de abordar 1.3% taxa de desistência prática como , enquanto a recuperação completa com cobertura de 10x (10.5 x in ) indica que a resiliência de erro é mantida. A diferença mais distinta surge na indexação, na qual usamos 14 bits apenas para indicar a ordem de 12000 oligos codificados, enquanto usa 32 bits para representar as sementes necessárias para a transformação de Luby, que define a base do código fonte, resultando em bits redundantes de indexação.

para verificar ainda mais que o elevado desempenho de capacidade do esquema de codificação proposto mantém-se bem com o aumento do tamanho dos dados (escalabilidade), estimamos a densidade da informação líquida para codificar o tamanho dos dados com maiores magnitudes em sílico, ou seja, de 2MB a 2000MB. As densidades estimadas diminuem ligeiramente com os aumentos exponenciais do tamanho dos dados devido ao aumento do comprimento de indexação necessário para o registo de tamanho maior dos dados (ficheiro adicional 1: Secção S3 e Fig. 1 E)). Uma densidade de 1,66 bits/nt é obtida para armazenar 2MB de dados de fonte, que ainda é 6% maior do que . Além disso, tanto o código RA como a estratégia de mapeamento híbrido, que consiste no sistema de codificação proposto, apresentam uma reduzida complexidade e são eficientes de implementar na prática. Em particular, a utilização de código RA impede a potencial falha de decodificação (devido à perda de entradas iniciais para iniciar decodificação no processo de triagem) e abordar redundância que pode surgir na fonte de DNA, e o mapeamento híbrido atinge um potencial de mapeamento muito elevado que é competitivo com a fonte de DNA, evitando a alta complexidade que exibe nos códigos de bloco convencionais constrangidos.adicionalmente, estimamos computacionalmente a densidade física que o esquema proposto poderia exibir. Através de experimentos de diluição, os autores observaram uma taxa de queda de 4% com uma amostra de armazenamento de DNA 10pg, que quase se aproximou do seu limite de descodificador (que foi pré-determinado pela redundância de código). O código RA usado em nosso esquema foi otimizado com um nível de redundância sob a mesma suposição de taxa de desistência considerada em . Também temos mostrado que teoricamente o nosso código pode tolerar até 4,75% taxa de desistência (arquivo adicional 1: Figura S4), que está acima da taxa de desistência de 4% observada na sequenciação de 10pg amostra. Com um limite de decodificação semelhante, nosso esquema proposto provavelmente funcionaria da mesma fonte de DNA nos experimentos de baixa molecular (por exemplo, com 10pg de amostra) devido ao uso dos mesmos pipelines de experimento, protocolos e padrões. Em outras palavras, o projeto de código na fase inicial permite que o sistema proposto poderia recuperar dados de condições propensas a erros nos experimentos de diluição semelhantes à fonte de DNA. Sob a suposição de ∼1300 moléculas por oligo em média, seqüenciamento de profundidade de 511x, e equivalente de dutos, protocolos e padrões como o 10pg diluição experiência no DNA fonte, poderíamos computacionalmente estimativa de que o nosso programa vai alcançar um físico densidade de 239 PB/g de \(\left (\frac {266*11400/8\text {byte}}{1300*11400*1.0688*10^{-19}\texto {grama}}\right)\). No entanto, uma experiência rigorosa é necessária para verificar esta densidade física computacionalmente estimada.

Ra code design and hybrid mapping scheme for DNA storage

we designed an encoding method which comprises oligo-level repeat acumulation (RA) code and an efficient hybrid mapping scheme.

desenho de código RA

nos sistemas de comunicação tradicionais, o código RA é usado a nível de bits, onde bits redundantes são gerados para mitigar erros de substituição. No entanto, o armazenamento de DNA é propenso não só a erros de substituição, mas também a erros de inserção e exclusão. Assim, ao invés da codificação de nível de bit convencional RA, nós projetamos uma codificação de nível de pacotes RA para armazenamento de DNA de tal forma que um pacote submetido a inserção, exclusão ou erros de substituição poderiam ser recuperados através do decodificador RA. Como descrito anteriormente, nós segmentamos um grande arquivo digital em pacotes menores do mesmo tamanho. Estes pacotes foram considerados como os pacotes de origem que foram usados para gerar os pacotes redundantes ou de paridade usando um código Ra sistemático Fig. 2 A). Note que cada pacote foi incorporado com CRC para detectar erros no Pacote. Para os pacotes que passaram no teste CRC no decodificador, nós os consideramos corretamente recuperados, enquanto os outros foram considerados como descartados ou apagados. Assim, o problema geral de design de código para o armazenamento de DNA tornou-se o design de código para o canal de apagamento. Para garantir alta confiabilidade, o projeto de código foi realizado considerando uma probabilidade de desistência ligeiramente maior do que a probabilidade real de desistência. Neste trabalho, considerámos a taxa real de abandono como 1,3%, que foi relatada no papel de fonte . Assim, nós projetamos o código RA de tal forma que o código resultante exibiu um limiar assintótico maior do que a probabilidade de desistência de 0.013. Seguindo o procedimento de otimização (veja arquivo adicional 1: Seção S2), nós projetamos um código RA de taxa 0.95, que dá um limiar assintótico de 0.0475. O código resultante mostra apenas um intervalo de 0,0025 do limite de capacidade de Shannon (0,05). O desempenho simulado da correção de erro do Código RA projetado é mostrado no arquivo adicional 1: Figura S4. Devido à taxa 0.95 RA code, nós geramos 600 pacotes redundantes / paridade com base em 11.400 pacotes fonte, recebendo 12.000 pacotes binários no total após codificação.

Fig. 2
figure2

a ilustração de estratégias de codificação de acumulação repetida (RA) e o mapeamento híbrido. (A) um exemplo de rate \(\frac {1}{2}\) packet level RA code with 3 source packets. Um pacote de paridade ith na posição i é gerado pela soma bit-wise modulo-2 do pacote de paridade (i-1) e dos pacotes de origem que estão conectados ao nó ou X ith. B) O fluxograma do mapeamento híbrido. Cada sequência binária é inicialmente mapeada através de mapeamento binário-quaternário. Com um dos padrões de interleaving, a sequência interleaved com o nucleótido da bandeira no final pode passar no teste de rastreio onde o conteúdo de GC e homopolímero são verificados, obtendo uma sequência válida. Caso contrário, a sequência binária original será enviada para o mapeamento de comprimento variável Restrito (VLC). (C. i) O FSTD de a (4, 0, 2) restrita de DNA, sistema de armazenamento, onde 0, 1, 2, e 3 representam quatro de transição de símbolos que indicam as transições entre os quatro nucleotídeos alfabetos, e s0, s1 e s2 representam três diferentes estados que registram a duração consecutiva de 0 (sem transição) na saída (4, 0, 2) restrita de sequências. (C. ii) a geração de uma árvore de codificação Huffman. A árvore de códigos Huffman otimiza a taxa de código alinhando a palavra-fonte com alta possibilidade de ocorrência para a palavra-código com comprimento curto e vice verso. (C. iii) a Regra do mapeamento VLC. O alinhamento da árvore de codificação Huffman gera uma tabela de pesquisa entre as palavras-fonte de comprimento variável e as palavras-código de transição de comprimento variável. (C. iv) A estratégia para permitir ao descodificador distinguir dois mapeamentos através do comprimento da sequência de ADN recebida. D) o fluxograma do descodificador. O decodificador primeiro distingue o método de mapeamento que a sequência recebida usou e executa o reverso associativo. A verificação CRC então decide se a sequência binária invertida está em erros ou não. Posteriormente, o decodificador RA trabalha para recuperar todas as sequências em erros. E) a distribuição dos comprimentos das sequências de ADN mapeadas. O comprimento resultante de sequências de DNA varia de 150nt para 159nt, onde intercalados mapeamento só gera sequências com a duração de 151nt enquanto sequências com outros comprimentos são todos gerados pelo VLC mapeamento

Híbrido esquema de mapeamento

em seguida, vamos considerar que representa os dados digitais de DNA contexto que denotamos como DNA de mapeamento. Uma estratégia de mapeamento do ADN deverá permitir que as sequências de oligo mapeados satisfaçam as restrições bioquímicas, trazendo assim estabilidade ao armazenamento. Existem duas restrições nos dados de ADN: (i) O teor de GC (a relação entre o número total de ” G ” E ” C ” e o número total de nucleótidos numa sequência) deve ser próximo de 50% (ii) todos os comprimentos de execução homopolímero (o comprimento de nucleótidos consecutivos repetitivos) deve ser inferior a 4 . Note que o mapeamento binário-a-quaternário, ou seja, mapear dois bits para um nucleótido, que exibe o potencial de mapeamento ideal (2 bits/nt), nem sempre cumpre os requisitos acima mencionados. Em vez disso, muitas vezes não cumpre com a restrição máxima de execução homopolímero. As restrições existentes no armazenamento de dados de DNA reduzem o potencial mapeamento efetivo, afetando negativamente a capacidade de armazenamento de dados de DNA. Portanto, exploramos a abordagem de concepção de código restrito com alta taxa de código e desenvolvemos uma estratégia de mapeamento híbrido para garantir que as sequências de oligo atendam às demandas bioquímicas com sacrifício mínimo do potencial de mapeamento.

Este esquema de mapeamento consiste em dois métodos diferentes de mapeamento, nomeadamente o mapeamento interleaved e o mapeamento VLC. O primeiro funciona como mapeamento primário devido ao seu potencial de mapeamento aproximadamente ideal, ou seja, 1.995 bits / nt e o último funciona como o backup que entra em jogo quando o primeiro mapeamento não consegue produzir sequências de DNA válidas (isto é, sequências que satisfazem o conteúdo GC e restrições de execução homopolímero). No método de mapeamento posterior, uma tabela auxiliar de pesquisa é construída com baixa complexidade de codificação e decodificação. Enquanto isso, este método exibe um potencial de mapeamento 1.976 bits/nt que é muito maior do que os códigos de bloco com a complexidade equivalente. A combinação destas duas estratégias de mapeamento resulta em um potencial de mapeamento médio em torno de 1,98 bits/nt com os dados estocásticos. Em outras palavras, no pior cenário, onde todos os dados são codificados usando VLC, ainda conseguimos uma estimativa de mapeamento potencial elevado (1.976 bits/nt). No entanto, no melhor caso, quando todos os dados são mapeados usando o mapeamento interleaved, poderíamos alcançar um potencial muito alto de 1,995 bits/nt.

os dados digitais passam primeiro pelo método de mapeamento interleaved para gerar as sequências de ADN. No método de mapeamento interleaved, as sequências binárias são mapeadas pela primeira vez usando mapeamento binário-a-quaternário. Com o crescente comprimento oligo, a restrição de conteúdo GC é muitas vezes satisfeita devido à característica estocástica dos dados binários. No entanto, este mapeamento tende a não satisfazer a restrição de execução homopolímero. Para resolver este problema, introduzimos um interleaver após o mapeamento binário-quaternário, que baralha a ordem original das sequências de nucleótidos. Após a interrupção, é realizado um teste de rastreio para verificar a execução homopolímero da sequência resultante. Se a sequência resultante for aprovada no ensaio, essa sequência é considerada como uma sequência válida para síntese, caso contrário a intersecção é novamente realizada na sequência original com um padrão de interleaving diferente. Neste trabalho, consideramos 4 padrões interleaving predefinidos, onde um nucleótido da bandeira (A/T/G/C) é adicionado no final da sequência de ADN interleaved para indicar o padrão interleaving (arquivo adicional 1: Secção S8). Note-se que o nucleótido de bandeira adicionado está incluído na determinação do ensaio homopolímero da sequência durante o ensaio de rastreio. Nós só usamos um nucleótido extra (flag) para manter alta densidade de informação líquida. Consequentemente, o número de ensaios interleaving está limitado a 4. Se a sequência ainda não satisfizer a demanda após o número máximo de ensaios, a sequência é enviada para o método de mapeamento VLC (Fig. 2 B) E ficheiro adicional 1: Secção S4).

o mapeamento VLC é inspirado na construção de um código de sequência limitada de comprimento variável (VLCS), comumente usado para codificar dados em códigos de satisfação de restrições em sistemas restritos, como sistemas ópticos de gravação onde o limite de comprimento de execução e as questões sem DC surgem . No cenário de armazenamento de DNA onde restrições semelhantes existem, o código VLCS pode ser efetivamente modificado para um método de mapeamento. Note que ao usarmos o código RA de nível de pacotes para controle de erros, a propagação de erros liderada pelo código VLCS é limitada em um pacote e não tem influência na taxa global de abandono das sequências codificadas.

nós geramos esta regra de mapeamento nos quatro estágios seguintes. Em primeiro lugar, considerando a restrição dos períodos homopolímeros máximos, o armazenamento baseado no DNA foi visto como um sistema restrito com limite de duração de execução (RLL), denotado por (M,d, k), onde M=4, d=0 e k=2 (arquivo adicional 1: Seção S5). Assim, o diagrama de transição de estados finitos (fstd) do (4,0,2) armazenamento de dados de DNA com restrição de homopolímero foi gerado (arquivo adicional 1: Seção S5 e Fig. 2 C, i)). Na segunda fase, com base no fstd gerado, deduzimos que a capacidade do (4, 0, 2) armazenamento de DNA com restrição homopolímero é 1.982 bits/nt (arquivo adicional 1: Seção S5). Também estabelecemos um conjunto mínimo completo (Um conjunto finito de palavras cujas concatenações incluem todas as possíveis sequências de restrição-satisfação), onde enumeramos todas as palavras que se originam e terminam no estado s0 em Fig. 2 C, i). Como resultado. nós obtivemos um conjunto mínimo {1,2,3,01,02,03,001,002,003}, no qual todos os elementos são restrint-satisfying e prefix-free. Estas duas propriedades garantem que qualquer concatenação dos elementos deste conjunto produz sequências que satisfazem restrições que são co-palavras de transição potenciais para o sistema restrito. Note que o conjunto de códigos de transição resultante relaciona-se com a profundidade e largura da concatenação. Para reduzir a complexidade de codificação, usamos diretamente o conjunto mínimo completo como o conjunto de código de transição.

na terceira fase, usámos a árvore de codificação de Huffman para gerar um mapeamento óptimo a partir da palavra-fonte binária de comprimento variável definida para o conjunto de palavras-código de transição acima mencionado (Fig. 2 C, ii)). Esta atribuição ideal de um para um deu uma taxa de código média de 1,976 bits / nt (Fig. 2 (C, iii) e ver ficheiro adicional 1: Secção S5). Entretanto, a eficiência deste mapeamento aproxima-se \(\sigma =\frac {1.976}{1.982}=99.7\%\), apresentando apenas 0,3% de diferença em relação à capacidade do sistema (4,0,2) Restrito. Em termos de potencial de mapeamento, este mapeamento supera o código de restrição de bloco proposto em , no qual um código (4,0,2) Restrito foi construído usando blocos de DNA 39nt como as palavras-chave, alcançando 1,95 bits/potencial de mapeamento nt. Além disso, o código de bloco 39nt também é impraticável para o armazenamento tradicional de dados de DNA, onde são consideradas sequências de DNA muito mais longas (palavras-código), ou seja, 200nt. Em contraste, a abordagem de mapeamento de comprimento variável tem baixa complexidade de codificação, independentemente do comprimento total das sequências de oligo resultantes.

Na última etapa, depois de mapear a origem de palavras para a transição palavras-código na sucessão contra cada sequência binária, realizamos precoding no codificado quaternário de sequências de acordo com a alteração da função do estado yj=yj−1+xj(mod M), onde yj é a saída de corrente precoding símbolo, yj−1 é a última saída pré-codificado símbolo, xj é o atual símbolo de entrada, M é o alfabeto de tamanho do sistema. Este precoding irá transferir o código codificado (M,d,k) restrito para o código RLL (M,d+1,k+1). Convertemos então os símbolos quaternários de {0,1,2,3} para {‘a’, ‘T’, ‘C’, ‘G’ } e obtivemos as sequências finais de oligo que satisfazendo a restrição de nenhum homopolímero é maior que 3nt. Um exemplo desta estratégia de mapeamento pode ser encontrado no arquivo adicional 1: Seção S6.através do esquema de mapeamento híbrido, geramos 12.000 sequências de ADN com uma distribuição de comprimento que varia entre 150nt e 159nt (excluindo 40nt de primer sites) para o fluxo binário de dados (Fig. 2 E)). Especificamente, o comprimento das sequências mapeadas através do mapeamento interleaved tornou-se 151nt, enquanto o comprimento das sequências mapeadas através do mapeamento VLC variou de 150, 152 a 159nt. Note que não houve nenhuma sequência com comprimento de 151nt que se originou do mapeamento VLC como um nucleótido foi adicionado para fazer com que essa sequência mapeada de 151nt fosse 152nt(Fig. 2 (C, iv))). O nucleótido adicionado foi para distinguir entre os métodos de mapeamento. Isso permite o uso de Des-mapeamento correto durante a recuperação dos dados armazenados no decodificador.

para recuperar dados, as sequências preparadas do processo de sequenciação são enviadas para o decodificador para recuperar os dados do Usuário (Fig. 2 D))). O decodificador primeiro distingue o método de mapeamento. Se o comprimento da sequência recebida for de 151nt, o descodificador aplica o reverso do mapeamento interleaved baseado no nucleótido da bandeira e na Regra do mapeamento binário-a-quaternário. Caso contrário, o decodificador aplica o reverso do mapeamento VLC onde o reverso do pré-codificador e mapeamento são realizados. Depois disso, cada sequência binária invertida é considerada correta ou apagada com base na verificação CRC. Finalmente, com um algoritmo de passagem de mensagens, o descodificador RA recupera todos os pacotes de sequência apagados com base nas ligações entre os pacotes.

o Seqüenciamento de resultados e de recuperação de dados de análise

Após o seqüenciamento sintetizado oligos piscina, recebeu mais de 10 milhões de matérias de sequência lê no tamanho total de 3,2 Gigabytes de NovogeneAIT. Estas sequências incluem leituras ruidosas geradas durante a sequenciação. Com base nos resultados de sequenciamento, primeiramente analisamos a confiabilidade dos dados de sequenciação em termos de exame de qualidade dos dados, distribuição de conteúdo a/T/G/C e distribuição de taxa de erro. Com base no resultado da análise de erro, nós então estudamos a confiabilidade de nosso esquema de decodificação na recuperação dos dados codificados com diferentes coberturas de amostras.

resultados sequenciadores

analisámos o valor de qualidade para cada posição de base ao longo das leituras sequenciadas para avaliar a qualidade dos dados. A pontuação de qualidade é uma estimativa da confiabilidade das leituras sequenciadas que se relaciona com a taxa de erro de cada posição de base. É calculado por Q = – 10log10e, onde e é a taxa de erro da posição de base . As pontuações de qualidade de cada base da sequenciação variam de 30 a 40 (Fig. 3 A)), representando uma qualidade elevada. Além disso, observamos que a taxa de erro aumenta com a extensão de leituras sequenciadas enquanto com uma taxa média de 0,015% em cada base ao longo das leituras (Fig. 3 B))). Tal deve-se provavelmente ao consumo de reagente sequenciador, que é um fenómeno comum na plataforma de sequenciação de alto rendimento da ilumina, baseada na tecnologia de sequenciação por síntese (SBS). Como esperado, as primeiras várias bases têm maior taxa de erro sequenciador do que outras. Isto pode ser devido à focalização do elemento sensor de imagem fluorescente do sequenciador, que pode não ser suficientemente sensível no início da sequenciação. Como resultado, a qualidade da leitura de fluorescência adquirida é baixa. Lembre-se que as sequências foram anexadas com um par de pontos de ligação de 20nt primer em ambas as extremidades e, portanto, as primeiras várias bases propensas a erros (cerca de 6nt) não têm influência na decodificação, como o teste CRC e codificação/decodificação RA foram projetados excluindo os locais de ligação. Em outras palavras, uma sequência será identificada como apagada pelo decodificador CRC devido aos erros em outras posições (fora dos iniciadores).

Fig. 3
figure3

sequenciando análise de resultados e recuperação de dados. (A) o valor de qualidade de cada posição de base ao longo das leituras. A primeira metade do eixo x é para leitura 1 e a segunda metade é para leitura 2. (B) a taxa de erro de cada posição de base ao longo das leituras. A primeira metade da distribuição é para leitura 1 e a segunda metade para leitura 2. C) o conteúdo de base de cada posição de base ao longo das leituras. A / T / G / C denota o tipo de nucleótidos e n denota um nucleótido perdido que pode ser qualquer um de A / T/G / C. A distribuição é separada por duas leituras, note que para (a), (b) e (c), leitura 1 e leitura 2 são obtidas a partir de sequenciação aleatória a partir do final de cada sequência. D) o procedimento experimental de recuperação de dados. As amostras de oligo sintético amplificado e preparado são sequenciadas usando a tecnologia de sequenciação de Illumina HiSeq. Com cinco conjuntos de ensaios de baixa amostragem, diferentes tamanhos de partes escolhidas aleatoriamente de leituras de sequência bruta são enviados para o decodificador onde os arquivos armazenados são recuperados. E)o número de sequências correctamente recuperadas em relação à cobertura. Os marcadores de círculo negro representam sequências recuperadas antes da descodificação de RA e os marcadores de diamante representam sequências recuperadas após a descodificação de RA. Entre os marcadores de diamante, vermelhos representam recuperação parcial, enquanto os verdes representam recuperação completa

Na Fig. 3 (C), uma distribuição de conteúdo base de A, T, C E G ao longo das leituras é apresentada para mostrar a distribuição do conteúdo GC. De acordo com o princípio das bases complementares, o conteúdo de Ta e GC deve ser igual em cada ciclo sequencial e ser constante e estável em todo o processo de sequenciação. Notavelmente, o conteúdo médio de GC observado em uma sequência lida e em cada posição de base foram ambos cerca de 50%, independentemente dos primeiros 20nt. A razão para a distribuição no primeiro 20nt é devido aos dois sites de ligação em ambas as extremidades. A distribuição mostra que o conteúdo GC dos oligos sequenciados satisfaz bem a restrição bioquímica e, portanto, garante um processo de sequenciamento estável.

Análise de recuperação de dados

para verificar a resiliência do Código do nosso esquema de codificação de correção de erro RA projetado, nós estudamos o desempenho de recuperação de dados do esquema sobre diferentes coberturas na Fig. 3 D). Isto nos dá uma estimativa sobre a resiliência de erro do Código RA projetado contra diferentes taxas de desistência devido a coberturas variadas. Existem algumas sequências brutas inutilizáveis na sequenciação recebida lê por causa de seu comprimento estar fora do intervalo aceitável. Para imitar diferentes coberturas (de 8x a 12x), nós geramos conjuntos de dados de diferentes tamanhos através da realização de amostragem aleatória para baixo sobre as sequências brutas utilizáveis, em que a distribuição de cada oligo mensagem pode variar. Por exemplo, para a cobertura de 8x, nós aleatoriamente recolhemos amostras das sequências brutas utilizáveis para gerar um conjunto de dados de 96.000 sequências raw. Para cada cobertura, nós geramos 5 diferentes conjuntos de dados aleatoriamente abaixo amostrados e determinamos o desempenho médio de sequenciação e decodificação. Para cada sequência bruta, realizamos o Des-mapeamento para converter a sequência nucleotídica para a sequência binária e realizamos o teste CRC para identificar sequências errorless/corretas. O número médio de sequências errorless para cada cobertura é mostrado na figura. 3 (e) (pontos negros), como era esperado, aumenta com o aumento da cobertura. As seqüências errorless foram então alimentadas ao decodificador RA para recuperar as seqüências errôneas. Nós observamos que a partir da cobertura 10x e em diante, para cada cobertura, o decodificador foi capaz de recuperar as sequências originais em 5 de 5 experimentos aleatórios de Down-sampling perfeitamente (diamantes verdes na Fig. 3 E)). Isto mostra que o decodificador é robusto para recuperar dados errôneos com a cobertura mínima de 10x, onde 3,3% das sequências de oligo estavam em erro (ou seja, uma taxa de desistência de 3,3%)

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *