Articles

repeat accumulate codeとhybrid mappingを用いた可変長オリゴヌクレオチドによる大容量DNAデータストレージ

実用的な大容量DNAデータストレージシステム

まず、DNAベースのストレージからデータを格納して取り出すアーキテクチャを構築しました(図1)。 1(A))。 ユーザデータは最初に11,400個のバイナリユーザパケットに分割され、各パケット長は266ビットであった。 合成、増幅、保存、およびシーケンスのためのサンプル準備を含むDNAストレージプロセスの任意の段階から発生するエラーを修正するために、我々は5%冗長/パリティパケットが生成されたバイナリユーザーパケットにRAエンコードを適用しました。 12,000個のバイナリパケットのそれぞれで、確率的オリゴを順序付けるためのインデックス用に14ビットが追加され、各パケットの内部エラーを検出するための巡回冗長検査(CRC)用に20ビットが追加された。 その結果、各パケットに関連付けられたビットの総数は300ビットになりました(追加ファイル1:図S4を参照)。 その後,提案したハイブリッドマッピングスキームを用いて,すべてのバイナリ配列をDNA配列にマッピングした。 その後、DNA配列をoligo合成のためにTwist Bioscienceに送った。 合成したオリゴプールを受け取った後、ポリメラーゼ連鎖反応(PCR)を用いて増幅し、Illumina HiSeqを用いた配列決定のためにnovogeneaitにサンプルを送った。 最後の段階では、DNAレコードをデジタルバイナリデータに変換するために、配列決定データを分析してデコードしました。 まず,シーケンス結果からミリオンシーケンス読み取りをダウンサンプリングし,RA符号化とマッピングの逆を行い,エラーなしに元のユーザデータを再構築し,この方法の実現可能性を検証した。

配列決定結果を用いたデータの完全な回復に加えて、提案されたDNAベースのストレージスキームを定量的に分析し、以前の比較表(図)を参照して、他の最新鋭のス 1(C))。 表のパフォーマンスメトリックの詳細な定義については、追加ファイル1:セクションS7で説明します。 表では、長さ約200ntの一本鎖短いオリゴが合成されたオリゴプールストレージフォーマットを前提に設計され、テストされたスキームと比較しただけです。 1000bpのようなはるかに長いDNA鎖を格納するという同等の仮定では、提案されたコーディングスキームは実現可能であり、正味の情報密度は長さとともに増加し、すなわち1.84ビット/ベースよりも1.74ビット/ベースよりも高い密度を達成することに注意してください(追加のファイル1:セクションS3を参照)。

1の高いネット情報密度。提案されたDNAベースの記憶方式によって達成される67bits/nt(図。 1(D))は、主に私たちが使用している以下の二つの技術によるものです。 まず、提案されたハイブリッドマッピングスキームは、1.98ビット/ntマッピング電位を示し、理論上の上限から1%の小さなギャップを持つ2ビット/nt。 第二に、エラー制御のために最適化されたRAコードは、1.05の小さな冗長性を持っています。 14ビットのインデックスと20ビットのCRCとともに、このスキームは1.67ビット/ntのネット情報密度を取得し、シャノン容量の91%(1.83ビット/ntと0.5%ドロップアウト率),これはで報告された最後の最高のものよりも6%以上です(追加ファイル1:セクションS3). 理論的には、と比較して、私たちの情報密度の増加は、わずかに長い可変長DNAオリゴ(151nt-159nt対152nt、プライマー結合部位を除く)、少ないエラー制御冗長性(1.05対1.07)、 DNAオリゴの長さは、現在広く利用されているDNA合成技術(TWIST Bioscience、US)を駆使するように精巧に設計されており、2 0 0ntの長さのオリゴを効率的に合成することが 最適化されたRAコード設計は、1.3%の実用的なドロップアウト率asに対処するという同等の仮定でエラー制御冗長性をわずかに低減し、10倍のカバレッジ(10.5x in)での完全な回復はエラー回復力が維持されていることを示しています。 最も明確な違いは、符号化された12000個のオリゴの順序を示すためだけに14ビットを使用するのに対し、ファウンテンコードの基礎を設定するLuby変換に必要なシードを表すために32ビットを使用するインデックス作成であり、冗長なインデックスビットをもたらす。

提案した符号化方式の高い容量性能がデータサイズの増加(スケーラビリティ)に伴って良好に維持されることをさらに検証するために、我々は、2MBから2000MBまでのより高い大きさの符号化データサイズのための正味情報密度を推定した。 推定密度は、より大きなデータサイズを記録するために必要な索引長の増加に起因するデータサイズの指数関数的増加とともにわずかに減少する(追加 1(E))。 1.66bits/ntの密度は、2MBのソースデータを格納するために得られますが、これはまだ6%高いです。 さらに,提案した符号化方式からなるr a符号とハイブリッドマッピング戦略の両方は,実際に実装するのが効率的である低い複雑さを有する。 特に、RA符号の使用は、DNA fountainで発生する可能性のある復号失敗(スクリーニングプロセスで復号を開始するための初期エントリの損失による)とアドレスの冗長性を防止し、ハイブリッドマッピングは、従来の制約されたブロック符号に現れる高い複雑さを回避しながら、DNA fountainと競合する非常に高いマッピング可能性を達成する。さらに,提案したスキームが示すことができる物理密度を計算的に推定した。 希釈実験を通じて、著者は4%のドロップアウト率を観察し、10pg DNAストレージのサンプルでは、デコーダの限界(コードの冗長性によって予め決定された)に近 このスキームで使用されるR aコードは,考慮されたドロップアウト率の同じ仮定の下で冗長性のレベルで最適に設計された。 また、理論的には、コードは4.75%のドロップアウト率(追加ファイル1:図S4)まで許容できることが示されており、これは10pgサンプルのシーケンスで観察された4%のドロップアウト率を上回っています。 同様の復号限界では、我々の提案したスキームは、同じ実験パイプライン、プロトコル、および標準の使用のために、低分子実験(例えば、10pgサンプルで)でDNA fountainと同じように動作する可能性が高い。 言い換えると,初期段階のコード設計により,提案したシステムはDNAファウンテンと同様の希釈実験においてエラーが発生しやすい条件からデータを回復できることを可能にした。 平均オリゴあたり∼1300分子、配列決定の深さ511x、およびDNA噴水における10pg希釈実験としての同等のパイプライン、プロトコル、および標準の仮定の下で、我々は計算上、我々のスキームは239PB/g\(\left(\frac{266*11400/8\text{byte}}{1300*11400*1.0688*10^{-19}\テキスト{グラム}}\右)\)。 しかし、この計算的に推定された物理的密度を検証するためには、厳密な実験が必要です。

DNAストレージのためのRAコード設計とハイブリッドマッピングスキーム

我々は、オリゴレベルの繰り返し蓄積(RA)コードと効率的なハイブリッドマ

RAコード設計

従来の通信システムでは、RAコードはビットレベルで使用され、置換エラーを軽減するために冗長ビットが生成されます。 しかし、DNA貯蔵は、置換エラーだけでなく、挿入および欠失エラーにもなりやすい。 そこで,従来のビットレベルR a符号化の代わりに,挿入,欠失または置換エラーを受けたパケットがR a復号器を介して回復できるように,DNA記憶のためのパケットレベルR a符号化を設計した。 先に説明したように、大きなデジタルファイルを同じサイズの小さなパケットに分割しました。 これらのパケットは、系統的RAコード図を使用して冗長またはパリティパケットを生成するために使用されたソースパケットと考えられた。 2(A). パケット内のエラーを検出するために、すべてのパケットがCRCに組み込まれていたことに注意してください。 デコーダのCRCテストに合格したパケットについては、それらを正しく回復したものとみなし、他のパケットは削除または消去されたものとみなしま したがって、DNA貯蔵のための全体的なコード設計問題は、消去チャネルのためのコード設計となった。 高い信頼性を確保するために,実際のドロップアウト確率よりもわずかに高いドロップアウト確率を考慮してコード設計を行った。 この研究では、実際のドロップアウト率を噴水紙で報告された1.3%と考えました。 したがって、我々は結果のコードが0.013のドロップアウト確率よりも高い漸近しきい値を示すようにRAコードを設計しました。 最適化手順(追加ファイル1:セクションS2を参照)に従って、0.0475の漸近しきい値を与えるレート0.95のRAコードを設計しました。 結果のコードには、シャノンの容量制限(0.05)から0.0025のギャップのみが表示されます。 設計されたRAコードのシミュレートされた誤り訂正性能は、追加ファイル1:図S4に示されています。 レート0のために。95RAコードでは、600個の冗長/パリティパケットを11,400個のソースパケットに基づいて生成し、エンコード後に合計12,000個のバイナリパケットを受信しました。

図。 2
図2

繰り返し蓄積(RA)コーディング戦略とハイブリッドマッピングのイラスト。 (A)3つのソースパケットを持つレート\(\frac{1}{2}\)パケットレベルRAコードの例。 位置iのi番目のパリティパケットは、(i−1)番目のパリティパケットと、i番目のX−ORノードに接続されたソースパケットとのビット単位のモジュロ−2和によって生成される。 (B)ハイブリッドマッピングのフローチャート。 各バイナリシーケンスは、最初はバイナリから四元へのマッピングを介してマッピングされます。 インターリーブパターンの一つでは,最後にフラグヌクレオチドが付加されたインターリーブ配列は,GC含量とホモポリマーをチェックするスクリーニング試験に合格し,有効な配列を出力することができる。 それ以外の場合は、元のバイナリシーケンスが可変長制約付き(VLC)マッピングに送信されます。 (C.i)(4,0,2)制約付きDNAストレージシステムのFSTD、ここで0、1、2、および3は、四つのヌクレオチドアルファベット間の遷移を示す四つの遷移シンボルを表し、s0、s1およびs2は、出力(4,0,2)制約付き配列における連続する0の長さ(遷移なし)を記録する三つの異なる状態を表す。 (C.ii)ハフマン符号化ツリーの生成。 Huffman符号化ツリーは,発生可能性の高いソースワードを短い長さと詩の副を持つ符号語に整列させることにより,符号率を最適化する。 (C.iii)VLCマッピングルール。 Huffman符号化ツリーの整列は,可変長ソースワードと可変長遷移コードワードとの間のルックアップテーブルを生成する。 (C.iv)受信したDNA配列の長さを介して二つのマッピングを区別するためにデコーダを有効にするための戦略。 (D)デコーダのフローチャート。 復号器は、最初に受信シーケンスが使用したマッピング方法を区別し、連想反転を実行します。 CRCチェックは、逆のバイナリシーケンスがエラーになっているかどうかを決定します。 その後、RAデコーダはエラーのすべてのシーケンスを回復するように動作します。 (E)マップされたDNA配列の長さの分布。 得られたDNA配列の長さは150ntから159ntの範囲であり、インターリーブされたマッピングは151ntの長さの配列のみを生成し、他の長さの配列はすべてVLCマッピ DNAマッピング戦略は、このようにストレージに安定性をもたらす、生化学的制約を満たすマッピングされたオリゴ配列を可能にす DNAデータには以下のような制約がある:(i)GC含量(シーケンス内のヌクレオチドの総数に対する’G’と’C’の総数の比率)は50%に近い必要がある(ii)すべてのホモポリマーラン長(繰り返し連続するヌクレオチドの長さ)は4未満でなければならない。 なお、二元から四元へのマッピング、すなわち、最適なマッピング電位(2bits/nt)を示す二つのビットを一つのヌクレオチドにマッピングすることは、必ずしも上記の要件を満たしているとは限らないことに注意してください。 代わりに、多くの場合、最大ホモポリマー実行制約に準拠していません。 DNAデータストレージに存在する制約は、DNAデータストレージの容量に悪影響を与える、効果的なマッピングの可能性を低減します。 したがって、我々は、高いコードレートで制約されたコードを設計するアプローチを検討し、オリゴ配列がマッピングの可能性の最小限の犠牲と生化学的要求を

このマッピングスキームは、インターリーブマッピングとVLCマッピングという二つの異なるマッピング方法で構成されています。 最初のものは、そのほぼ最適なマッピングポテンシャル、すなわち1のために主要なマッピングとして機能します。995bits/ntと後者のものは、最初のマッピングが有効なDNA配列(すなわち、GC含量およびホモポリマー実行制約を満たす配列)を生成するために失敗したときに 後のマッピング法では,補助ルックアップテーブルを低符号化および復号化の複雑さで構築する。 一方、この方法は、同等の複雑さを持つブロックコードよりもはるかに高い1.976ビット/ntマッピング電位を示す。 これら二つのマッピング戦略の組み合わせは、確率的データと1.98ビット/ntの周りの平均マッピング電位をもたらします。 言い換えれば、すべてのデータがVLCを使用してコード化される最悪のシナリオでは、高いマッピング電位推定値(1.976ビット/nt)を達成しました。 しかし、すべてのデータがインターリーブされたマッピングを使用してマッピングされる最良のケースでは、1.995bits/ntの非常に高い可能性を達成できます。

デジタルデータは、最初にDNA配列を生成するためにインターリーブされたマッピング方法を通過します。 インターリーブされたマッピング方法では、バイナリシーケンスは、最初にバイナリから四元へのマッピングを使用してマッ オリゴ長の増加に伴い,バイナリデータの確率的特徴のためにGC含有量制約が満たされることが多い。 しかし、このマッピングは、ホモポリマー実行制約を満たすことができない傾向があります。 この問題を解決するために,塩基配列の元の順序をスクランブルする二元から四元へのマッピングの後にインターリーバを導入した。 インターリーブ後、スクリーニング試験が行われ、得られた配列のホモポリマーランをチェックする。 結果のシーケンスがテストに合格した場合、そのシーケンスは合成のための有効なシーケンスとみなされ、そうでない場合は、異なるインターリーブパターンで元のシーケンス上で再びインターリーブが実行されます。 この作業では、インターリーブパターンを示すために、インターリーブされたDNA配列の最後にフラグヌクレオチド(A/T/G/C)が追加された4つの事前定義されたインターリーブパターンを検討する(追加ファイル1:セクションS8)。 なお、添付のフラグヌクレオチドは、スクリーニング試験中の配列のホモポリマーランを決定する際に含まれる。 私たちは、高いネット情報密度を維持するために一つの余分な(フラグ)ヌクレオチドを使用します。 したがって、インターリーブ試行の数は4に制限されます。 シーケンスが最大試行数の後に要求を満たすことができない場合、シーケンスはVLCマッピング方法に送られる(図10a)。 2(B)および追加ファイル1:セクションS4)。

VLCマッピングは、可変長制約シーケンス(VLC)コードの構築に触発され、一般的にラン長制限とDCフリーの問題が発生する光記録システムのような制約 同様の制約が存在するDNA貯蔵シナリオでは、VLCSコードをマッピング方法に効果的に変更することができます。 エラー制御にパケットレベルのRAコードを使用するため、VLCコードによるエラー伝播は1つのパケットに制限され、エンコードされたシーケンスの全体的なドロップアウト率には影響しないことに注意してください。

このマッピングルールは、次の四つの段階で生成されました。 まず、最大ホモポリマー実行の制約を考慮して、DNAベースのストレージは、M=4、d=0およびk=2(追加ファイル1:セクションS5)で示される実行長制限(RLL)を持つ制約されたシステムとして見られた(M、d、k)。 これにより、(4,0,2)ホモポリマー拘束DNAデータ記憶装置の有限状態遷移図(FSTD)が生成された(追加ファイル1:セクションS5および図4)。 2(C,i))。 第二段階では、生成されたFSTDに基づいて、我々は、(4、0、2)ホモポリマー制約DNAストレージの容量が1.982ビット/ntであることを推定した(追加ファイル1:セクションS5)。 また、完全最小集合(連結が可能なすべての制約を満たすシーケンスを含む単語の有限集合)を確立し、図中の状態s0に由来し、終了するすべての単語を列挙した。 2(C,i). 結果として。 我々は、すべての要素が制約を満たし、接頭辞なしである最小集合{1,2,3,01,02,03,001,002,003}を得た。 これらの2つのプロパティは、このセットの要素を連結すると、制約付きシステムの潜在的な遷移コードワードである制約を満たすシーケンスが生成されることを保証します。 結果として得られる遷移符号語セットは、連結の深さと幅に関連することに注意してください。 符号化の複雑さを低減するために,完全最小集合を遷移符号語集合として直接使用した。

第三段階では、ハフマン符号化木を使用して、可変長バイナリソース語セットから上記の遷移符号語セットへの最適なマッピングを生成しました(図 2(C,ii))。 この最適な一対一の割り当ては、1.976bits/ntの平均符号レートを与えた(図。 2(C,iii)および追加ファイル1:セクションS5)を参照してください。 一方、この写像の効率は\(\sigma=\frac{1}{\sigma})に近づきます。{1.976}{1.982}=99.7\%\), 制約されたシステムの容量からわずか0.3%のギャップを提示する(4,0,2)。 マッピングポテンシャルの面では、このマッピングは、(4,0,2)制約コードがコードワードとして39nt DNAブロックを使用して構築され、1.95ビット/ntマッピングポテンシャルを達成するブロック制約コードよりも優れています。 さらに、39ntブロックコードは、はるかに長いDNA配列(コードワード)、すなわち200ntが考慮される伝統的なDNAデータストレージにとっても実用的ではない。 対照的に、可変長マッピングアプローチは、結果として得られるオリゴ配列の全体の長さに関係なく、低い符号化複雑さを有する。

最後の段階では、ソースワードを各バイナリシーケンスに対して連続して遷移コードワードにマッピングした後、状態変化関数yj=yj-1+xj(mod M)に従って符号化された四次シーケンスに対してプリコーディングを実行しました。yjは現在の出力プリコーディングシンボル、yj-1は最後の出力プリコーディングシンボル、xjは現在の入力シンボル、Mはシステムのアルファベットサイズです。 このプリコーディングは、エンコードされた(M,d,k)制約付きコードを(M,d+1,k+1)RLLコードに転送します。 次に、四元記号を{0,1,2,3}から{‘A’,’T’,’C’,’G’}に変換し、ホモポリマーが3ntよりも大きく実行されないという制約を満たす最終オリゴ配列を得た。 このマッピング戦略の例は、追加ファイル1:セクションS6で見つけることができます。

ハイブリッドマッピングスキームにより、バイナリデータストリームに対して150ntから159nt(プライマーサイトの40ntを除く)の長さ分布を持つ12,000個のDNA配列を生成した(図。 2(E))。 具体的には、インターリーブされたマッピングを介してマッピングされた配列の長さは151ntになり、VLCマッピングを介してマッピングされた配列の長さは150、152から159ntの範囲であった。 なお、これらの1 5 1ntマッピング配列を1 5 2ntとするために1つのヌクレオチドを添加したため、VLCマッピングに由来する1 5 1ntの長さの配列はなかった(図1)。 2(C,iv))。 追加されたヌクレオチドは、マッピング方法を区別するためであった。 これにより、デコーダに格納されたデータのリカバリ中に正しいデマッピングを使用できます。

データを取得するために、シーケンス処理から準備されたシーケンスは、ユーザーデータを回復するためにデコーダに送信されます(図。 2(D))。 デコーダは最初にマッピング方法を区別します。 受信したシーケンスの長さが151ntの場合、デコーダはflagヌクレオチドとbinary-to-quaternary mapping ruleに基づいてinterleaved mappingの逆を適用します。 それ以外の場合、デコーダは、プリコーディングとマッピングの逆が実行されるVLCマッピングの逆を適用します。 その後、逆になった各バイナリシーケンスは、CRCチェックに基づいて正しいものまたは消去されたものとみなされます。 最後に,メッセージパッシングアルゴリズムを用いて,RA復号器はパケット間の接続に基づいて消去されたシーケンスパケットをすべて回復する。

シーケンス結果とデータ復旧解析

合成されたオリゴプールのシーケンスをシーケンスした後、NovogeneAITから10万以上の生シーケンス読み取りを合計3.2ギガバイト これらのシーケンスには、シーケンス中に生成されるノイズの多いリードが含まれます。 シーケンシング結果に基づいて,データ品質検査,A/T/G/Cコンテンツ分布および誤り率分布の観点から,シーケンシングデータの信頼性を解析した。 次に,誤差解析結果に基づいて,異なるサンプルカバレッジを持つ符号化データを回復する際の復号方式の信頼性を研究した。

シーケンス結果

シーケンスされた読み取りに沿って各ベース位置の品質値を分析し、データ品質を評価しました。 品質スコアは、各ベース位置の誤り率に関連するシーケンスされた読み取りの信頼性の推定値です。 これは、Q=−10log10eによって計算されます。eはベース位置の誤り率です。 シーケンシング読み取りの各塩基の品質スコアは、30から40の範囲である(図10)。 図3(A))に示すように、高品質を表す。 さらに、エラー率はシーケンスされた読み取りの拡張とともに増加し、読み取りに沿った各ベースで平均率は0.015%であることが観察されます(図。 3(B))。 これは、Sequencing by synthesis(SBS)技術に基づいたIlluminaハイスループットsequencingプラットフォームで一般的な現象であるsequencing reagentの消費によるものである可能性があります。 予想されるように、最初のいくつかの塩基は、他の塩基よりも高い配列決定誤り率を有する。 これは、シーケンサの蛍光イメージセンサ検出素子の集束に起因する可能性があり、シーケンサの開始時に十分に敏感ではない可能性があります。 その結果、取得された蛍光読取の品質は低い。 配列は、両端に20ntプライマー結合部位のペアが付加されたことを思い出してください、したがって、最初のいくつかのエラーが発生しやすい塩基(約6nt) 言い換えると、シーケンスは、他の位置(プライマーの外側)のエラーのためにCRCデコーダによって消去されたものとして識別されます。

図。 3
figure3

シーケンス結果の分析とデータ復旧。 (A)読み取りに沿った各ベース位置の品質値。 X軸の前半部分は読み取り1用で、後半部分は読み取り2用です。 (B)読み取りに沿った各ベース位置の誤り率。 分布の前半部分は読み取り1用で、後半部分は読み取り2用です。 (C)読み取りに沿った各ベース位置のベースコンテンツ。 A/T/G/Cはヌクレオチドの種類を示し、Nはa/T/G/Cのいずれかであり得る失われたヌクレオチドを示す。 分布は2つの読み取りによって分離されており、(a)、(b)、および(c)について、読み取り1および読み取り2は、各シーケンスのいずれかの終わりからランダムに順序付けされて得られることに注意してください。 (D)データ復旧のための実験手順。 増幅および調製された合成オリゴ試料は、Illumina H Iseq配列決定技術を用いて配列決定される。 5セットのダウンサンプリング試行では、生のシーケンス読み取りのランダムに選択された部分の異なるサイズがデコーダに送信され、そこで保存されたファイルが復元されます。 (E)カバレッジに対する正しく回復されたシーケンスの数。 黒丸マーカーはR a復号前の回復配列を表し,菱形マーカーはR a復号後の回復配列を表す。 ダイヤモンドマーカーのうち、赤色のものは部分的な回復を表し、緑色のものは完全な回復を表す

図中。 図3(C)に示すように、gc含有量の分布を示すために、リードに沿ったA、T、CおよびGの基本含有量分布が提示されている。 相補塩基の原理によれば、ATおよびGCの含有量は、各配列決定サイクルで等しく、配列決定手順全体で一定かつ安定でなければならない。 注目すべきことに、シークエンシング読み取りおよび各塩基位置における観察された平均GC含量は、最初の50ntに関係なく、両方とも約20%であった。 最初の20ntにおける分布の理由は、両端の二つの結合部位によるものである。 この分布は,配列決定されたオリゴのGC含量が生化学的制約をよく満たし,したがって安定した配列決定プロセスを保証することを示している。

データ復旧解析

設計したRA誤り訂正符号化方式の符号復元性を検証するために、図中の異なるカバレッジにわたる方式のデータ復旧性能を調 3(D). これにより,多様なカバレッジによる異なるドロップアウト率に対する設計されたR aコードの誤差回復性に関する推定値が得られた。 受信したシーケンス読み取りには、長さが許容範囲外であるため、使用できない生のシーケンスがいくつか存在します。 異なるカバレッジ(8倍から12倍)を模倣するために、我々は、各メッセージoligoの分布が変化する可能性がある使用可能な生のシーケンスにランダムダウンサンプリングを実行することにより、異なるサイズのデータセットを生成しました。 たとえば、8倍のカバレッジの場合、使用可能な生シーケンスをランダムにサンプリングして、96,000個の生シーケンスのデータセットを生成しました。 各カバレッジについて、5つの異なるランダムにダウンサンプリングされたデータセットを生成し、平均シーケンスとデコーディング性能を決定しました。 各生配列について、塩基配列を二値配列に変換するためのデマッピングを行い、誤りのない/正しい配列を同定するためのCRCテストを行った。 各カバレッジのエラーのないシーケンスの平均数を図10に示します。 図3(E)(黒い点)は、予想されたように、カバレッジの増加に伴って増加する。 次に、エラーのないシーケンスをRAデコーダに供給して、エラーのあるシーケンスを回復しました。 我々は、カバレッジ10x以降から、各カバレッジのために、デコーダは完全に5つのランダムなダウンサンプリング実験のうち5つの元のシーケンスを回復 3(E))。 これは、デコーダが10倍の最小カバレッジで誤ったデータを回復するために堅牢であることを示しており、オリゴシーケンスの3.3%がエラーであった(すなわち、ドロップアウ

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です