repeat accumulate codeとhybrid mappingを用いた可変長オリゴヌクレオチドによる大容量DNAデータストレージ
実用的な大容量DNAデータストレージシステム
まず、DNAベースのストレージからデータを格納して取り出すアーキテクチャを構築しました(図1)。 1(A))。 ユーザデータは最初に11,400個のバイナリユーザパケットに分割され、各パケット長は266ビットであった。 合成、増幅、保存、およびシーケンスのためのサンプル準備を含むDNAストレージプロセスの任意の段階から発生するエラーを修正するために、我々は5%冗長/パリティパケットが生成されたバイナリユーザーパケットにRAエンコードを適用しました。 12,000個のバイナリパケットのそれぞれで、確率的オリゴを順序付けるためのインデックス用に14ビットが追加され、各パケットの内部エラーを検出するための巡回冗長検査(CRC)用に20ビットが追加された。 その結果、各パケットに関連付けられたビットの総数は300ビットになりました(追加ファイル1:図S4を参照)。 その後,提案したハイブリッドマッピングスキームを用いて,すべてのバイナリ配列をDNA配列にマッピングした。 その後、DNA配列をoligo合成のためにTwist Bioscienceに送った。 合成したオリゴプールを受け取った後、ポリメラーゼ連鎖反応(PCR)を用いて増幅し、Illumina HiSeqを用いた配列決定のためにnovogeneaitにサンプルを送った。 最後の段階では、DNAレコードをデジタルバイナリデータに変換するために、配列決定データを分析してデコードしました。 まず,シーケンス結果からミリオンシーケンス読み取りをダウンサンプリングし,RA符号化とマッピングの逆を行い,エラーなしに元のユーザデータを再構築し,この方法の実現可能性を検証した。
配列決定結果を用いたデータの完全な回復に加えて、提案されたDNAベースのストレージスキームを定量的に分析し、以前の比較表(図)を参照して、他の最新鋭のス 1(C))。 表のパフォーマンスメトリックの詳細な定義については、追加ファイル1:セクションS7で説明します。 表では、長さ約200ntの一本鎖短いオリゴが合成されたオリゴプールストレージフォーマットを前提に設計され、テストされたスキームと比較しただけです。 1000bpのようなはるかに長いDNA鎖を格納するという同等の仮定では、提案されたコーディングスキームは実現可能であり、正味の情報密度は長さとともに増加し、すなわち1.84ビット/ベースよりも1.74ビット/ベースよりも高い密度を達成することに注意してください(追加のファイル1:セクションS3を参照)。
1の高いネット情報密度。提案されたDNAベースの記憶方式によって達成される67bits/nt(図。 1(D))は、主に私たちが使用している以下の二つの技術によるものです。 まず、提案されたハイブリッドマッピングスキームは、1.98ビット/ntマッピング電位を示し、理論上の上限から1%の小さなギャップを持つ2ビット/nt。 第二に、エラー制御のために最適化されたRAコードは、1.05の小さな冗長性を持っています。 14ビットのインデックスと20ビットのCRCとともに、このスキームは1.67ビット/ntのネット情報密度を取得し、シャノン容量の91%(1.83ビット/ntと0.5%ドロップアウト率),これはで報告された最後の最高のものよりも6%以上です(追加ファイル1:セクションS3). 理論的には、と比較して、私たちの情報密度の増加は、わずかに長い可変長DNAオリゴ(151nt-159nt対152nt、プライマー結合部位を除く)、少ないエラー制御冗長性(1.05対1.07)、 DNAオリゴの長さは、現在広く利用されているDNA合成技術(TWIST Bioscience、US)を駆使するように精巧に設計されており、2 0 0ntの長さのオリゴを効率的に合成することが 最適化されたRAコード設計は、1.3%の実用的なドロップアウト率asに対処するという同等の仮定でエラー制御冗長性をわずかに低減し、10倍のカバレッジ(10.5x in)での完全な回復はエラー回復力が維持されていることを示しています。 最も明確な違いは、符号化された12000個のオリゴの順序を示すためだけに14ビットを使用するのに対し、ファウンテンコードの基礎を設定するLuby変換に必要なシードを表すために32ビットを使用するインデックス作成であり、冗長なインデックスビットをもたらす。
提案した符号化方式の高い容量性能がデータサイズの増加(スケーラビリティ)に伴って良好に維持されることをさらに検証するために、我々は、2MBから2000MBまでのより高い大きさの符号化データサイズのための正味情報密度を推定した。 推定密度は、より大きなデータサイズを記録するために必要な索引長の増加に起因するデータサイズの指数関数的増加とともにわずかに減少する(追加 1(E))。 1.66bits/ntの密度は、2MBのソースデータを格納するために得られますが、これはまだ6%高いです。 さらに,提案した符号化方式からなるr a符号とハイブリッドマッピング戦略の両方は,実際に実装するのが効率的である低い複雑さを有する。 特に、RA符号の使用は、DNA fountainで発生する可能性のある復号失敗(スクリーニングプロセスで復号を開始するための初期エントリの損失による)とアドレスの冗長性を防止し、ハイブリッドマッピングは、従来の制約されたブロック符号に現れる高い複雑さを回避しながら、DNA fountainと競合する非常に高いマッピング可能性を達成する。さらに,提案したスキームが示すことができる物理密度を計算的に推定した。 希釈実験を通じて、著者は4%のドロップアウト率を観察し、10pg DNAストレージのサンプルでは、デコーダの限界(コードの冗長性によって予め決定された)に近 このスキームで使用されるR aコードは,考慮されたドロップアウト率の同じ仮定の下で冗長性のレベルで最適に設計された。 また、理論的には、コードは4.75%のドロップアウト率(追加ファイル1:図S4)まで許容できることが示されており、これは10pgサンプルのシーケンスで観察された4%のドロップアウト率を上回っています。 同様の復号限界では、我々の提案したスキームは、同じ実験パイプライン、プロトコル、および標準の使用のために、低分子実験(例えば、10pgサンプルで)でDNA fountainと同じように動作する可能性が高い。 言い換えると,初期段階のコード設計により,提案したシステムはDNAファウンテンと同様の希釈実験においてエラーが発生しやすい条件からデータを回復できることを可能にした。 平均オリゴあたり∼1300分子、配列決定の深さ511x、およびDNA噴水における10pg希釈実験としての同等のパイプライン、プロトコル、および標準の仮定の下で、我々は計算上、我々のスキームは239PB/g\(\left(\frac{266*11400/8\text{byte}}{1300*11400*1.0688*10^{-19}\テキスト{グラム}}\右)\)。 しかし、この計算的に推定された物理的密度を検証するためには、厳密な実験が必要です。
DNAストレージのためのRAコード設計とハイブリッドマッピングスキーム
我々は、オリゴレベルの繰り返し蓄積(RA)コードと効率的なハイブリッドマ
RAコード設計
従来の通信システムでは、RAコードはビットレベルで使用され、置換エラーを軽減するために冗長ビットが生成されます。 しかし、DNA貯蔵は、置換エラーだけでなく、挿入および欠失エラーにもなりやすい。 そこで,従来のビットレベルR a符号化の代わりに,挿入,欠失または置換エラーを受けたパケットがR a復号器を介して回復できるように,DNA記憶のためのパケットレベルR a符号化を設計した。 先に説明したように、大きなデジタルファイルを同じサイズの小さなパケットに分割しました。 これらのパケットは、系統的RAコード図を使用して冗長またはパリティパケットを生成するために使用されたソースパケットと考えられた。 2(A). パケット内のエラーを検出するために、すべてのパケットがCRCに組み込まれていたことに注意してください。 デコーダのCRCテストに合格したパケットについては、それらを正しく回復したものとみなし、他のパケットは削除または消去されたものとみなしま したがって、DNA貯蔵のための全体的なコード設計問題は、消去チャネルのためのコード設計となった。 高い信頼性を確保するために,実際のドロップアウト確率よりもわずかに高いドロップアウト確率を考慮してコード設計を行った。 この研究では、実際のドロップアウト率を噴水紙で報告された1.3%と考えました。 したがって、我々は結果のコードが0.013のドロップアウト確率よりも高い漸近しきい値を示すようにRAコードを設計しました。 最適化手順(追加ファイル1:セクションS2を参照)に従って、0.0475の漸近しきい値を与えるレート0.95のRAコードを設計しました。 結果のコードには、シャノンの容量制限(0.05)から0.0025のギャップのみが表示されます。 設計されたRAコードのシミュレートされた誤り訂正性能は、追加ファイル1:図S4に示されています。 レート0のために。95RAコードでは、600個の冗長/パリティパケットを11,400個のソースパケットに基づいて生成し、エンコード後に合計12,000個のバイナリパケットを受信しました。