JP6735348B2

JP6735348B2 - 全ゲノム配列データのデノボアセンブリのためのシステム、方法及び媒体

Info

Publication number: JP6735348B2
Application number: JP2018542282A
Authority: JP
Inventors: デイビッドジャッフェ，; パトリックマークス，; マイケルシュナール−レビン，; ニールウェイセンフェルド，
Original assignee: １０エックスジェノミクス，インコーポレイテッド
Priority date: 2016-02-11
Filing date: 2016-08-19
Publication date: 2020-08-05
Anticipated expiration: 2036-08-19
Also published as: US11081208B2; CN108779491A; US20170235876A1; EP3414341A1; EP3414341A4; SG11201806757XA; JP2019511908A; WO2017138984A1; CN108779491B

Description

相互参照
本出願は、２０１６年２月１１日出願の米国特許出願第６２／２９４，１８４号及び２０１６年５月６日出願の米国特許出願第６２／３３２，９１４号の利益を主張し、これらは、両方とも全体が参照により本明細書に組み込まれる。

ゲノム配列決定は、医学、法医学及び生物工学の分野において大いに期待されている。様々なＤＮＡ配列決定方法が異なる配列決定化学に基づいて開発されており、ゲノム配列決定を実施する機械は、更に強力になり、効率的になってきている。技術的には、生ゲノムデータを取得することができる速度は、この生データをゲノムに、とりわけ、二倍体または倍数体ゲノムに組み立てる能力を超えている。現行の配列組立方法は複雑であり、大量のプロセッサ容量を必要とし、大量のメモリを取る。

個別の生物体または組織のゲノム配列を決定することは、生物学及び医学にとって基本的に重要なことである。数十年間にわたる研究は、この問題に対して無数の実験室及びコンピュータ手法を生み出した。これらは、ＤＮＡの入力量、費用、複雑さ及びスケジュールを含む実験上の負担の総計によって劇的に変わり、負担が大きいほど高品質の配列を生じる傾向がある。

低性能の場合では、いくつかの方法は、ＤＮＡの短いフラグメントを配列決定し、次に、得られた読み取りを同じ種の一倍体基準配列に整列させて、差を確認し、それによって試料の配列を部分的に推定する。これらの方法は、それぞれ一千個を超えるヒト試料を生成及び分析するために使用され、個体群にわたって並外れて深い情報をもたらしている。しかし、これらの方法は、基準との比較によって本質的に偏向することがあり、一般に、所定の試料に対して新規である、または大規模変化を表す配列を確認することも、親の対立遺伝子における変化と区別することもできない。

対照的に（多くの場合に、長いＤＮＡフラグメントの）データは、基準配列を利用することなく、デノボアセンブリとして知られている方法によって合成することができ、このことは大型で複雑なゲノムにとって特に困難である。課題の核心は、高度に類似した配列を正確に表すことである。有性生殖が母系及父系染色体「コピー」に寄与する真正核生物において、特に厄介な実例が現れる。これらのコピーは、長い伸展では全く類似しているが、いくつかの領域は、劇的に異なっており、小規模の差のみならず、多くの場合に遺伝子コピー数の差をもたらし得る。相同染色体が別々の遺伝子コピーをコードするので、表現型を理解するためには、これらの別々の配列についての知識が必要である。

高性能なデノボ実験室処方であっても、この分野の標準は、相同染色体をコンピュータにより織って、それぞれの遺伝子座において、天然には一般に存在しない単一の一倍体コンセンサスを生じることである。より良いのは、一倍体アセンブリを、２つの由来染色体の間の差の位相カタログと一緒に生成する。

本明細書に提示されている開示は、真の二倍体であるデノボアセンブリを、非常に少ない実験上の負担で作り出すことによって、低性能手法と高性能手法の隙間を埋める。開示されている技術は、また、自動マイクロ流体システムを使用するゲノム分配に基づいている。この技術は、１つのライブラリーからアセンブリプロジェクトのデータ全体を生成することができる。更に、開示されている方法は、約１ナノグラムの高分子量ＤＮＡから開始し、これは代替的な手法より約百万倍少ない。有利なことに、データ費用は、読み取り整列に基づいた低性能手法の範囲内であり、プロセスが自動であるので、アセンブリに専門知識を必要としない。

本開示は、短いＤＮＡ配列の読み取りを使用して、全ゲノム配列決定読み取りを完全なゲノムにするデノボアセンブリのためのプラットフォーム、システム、媒体及び方法を提供する。この方法は、任意の短い読み取り配列決定技術に適合される。本明細書に記載されている方法は、「位相」コンティグを大きな配列ブロックの中に配置し、大きな挿入欠失、複製及び転位などのゲノム構造の変化を解明する。

本開示の方法は、単一細胞リアルタイム（ＳＭＲＴ）配列決定などの他の短い読み取りアセンブリ技術及び長い読み取り技術と比較して、多くの利点を有する。利点のうちのいくつかには、入力ＤＮＡの低減、配列包括度のための要件の低減、アセンブリ時間の低減、処理要件の低減、商品化されたコンピュータ資源によって実施することができるので、商業的な規模拡大性、ならびに全体的な効率及び費用有効性の増加が含まれる。例えば、本開示の方法は、ＳＭＲＴ技術を利用するＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ（ＰａｃＢｉｏ）からのＦＡＬＣＯＮアセンブラと比較して、処理能力にほぼ１８０倍の低減及びメモリ使用量に２１倍の低減を可能にする。加えて、長い読み取り配列決定技術は、１０〜２０ｋｂなど技術の平均読み取り長さにより制限される。本明細書に記載されている技術は、８５〜１０５ｋｂの範囲の完全位相コンティグ及び長さが少なくとも５Ｍｂの完全位相配列ブロックを生成することが示されている。

１つの態様では、生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリをコンピュータにより実現する方法であって、１台以上のコンピュータにより、短い読み取り配列データに基づいて初期アセンブリを生成し、初期アセンブリが曖昧な配列の１つ以上の未解明領域を含み、短い読み取り配列データが、核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された短い読み取り配列データのサブセットが共通のタグを共有するように、生物の長い範囲の配列構成を保存するためにタグ付されることと、１台以上のコンピュータにより、タグを利用して初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明することと、１台以上のコンピュータにより、複数の局所アセンブリに基づいて網羅的アセンブリを生成することと、１台以上のコンピュータにより、タグにより示された長い範囲の配列構成と一致しない配列データを除去することによって、網羅的アセンブリをクリーニングすることと、１台以上のコンピュータにより、タグを利用して網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、位相ヌクレオチド配列を分離し、位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成されることと、を含む方法が、本明細書に開示されている。ある特定の場合において、ゲノムは二倍体である。ある特定の場合において、短い読み取り配列データは、単一の配列決定ライブラリーから生成される。ある特定の場合において、短い読み取り配列データは、生物のゲノムの５０×以下の適用範囲をもたらす。ある特定の場合において、短い読み取り配列データは、この読み取りより２×〜１０００×長い出発配列の構成を保存するためにタグ付けされる。ある特定の場合において、短い読み取り配列データは、１０ｋｂ〜５Ｍｂの出発配列の構成を保存するためにタグ付けされる。初期アセンブリは、初期アセンブリグラフであり得る。ある特定の実施形態において、初期アセンブリグラフは、生物のゲノムに存在する高い確率を有する複数のｋ−ｍｅｒを確認すること、タグを使用して、ｋ−ｍｅｒがそれぞれ生じる出発配列の数に基づいて複数のｋ−ｍｅｒをフィルタにかけること及び複数のｋ−ｍｅｒのうち共通のｌ−ｍｅｒを共有するｋ−ｍｅｒを一緒にして、ｌ＜ｋである初期アセンブリを形成することによって生成される。本方法は、１台以上のコンピュータにより、曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の１つ以上の領域を排除すること及び元の短い読み取り配列データを参考にして、初期アセンブリグラフのギャップを埋めることによって、初期アセンブリグラフを改訂することを更に含むことができる。ｋは、２４と９６の間であり得る。複数の局所アセンブリは、初期アセンブリグラフを暫定基準として使用すること、明白な配列の端部を確認すること、タグの閾値数を超える数のタグを共有する近隣端部を確認すること及び明白な配列の端部を確認された近隣端部と一緒にすることによって、生成することができる。網羅的アセンブリは、ｚ＞ｋである生物のゲノムに存在する高い確率を有する複数の局所アセンブリにおいて、複数のｚ−ｍｅｒを確認すること及び複数の局所アセンブリにおけるｚ−ｍｅｒを一緒にすることによって、生成することができる。ｚは、１００と３００の間であり得る。短い読み取り配列データは、１０ｎｇ未満のＤＮＡ入力材料から生成することができる。短い読み取り配列データは、２ｎｇ未満のＤＮＡ入力材料から生成することができる。いくつかの実施形態において、アセンブリは６０分未満で完成され得る。いくつかの実施形態において、１台以上のコンピュータは、５１２ＧＢ未満の記憶容量を含むことができ、ある特定の実施形態において、１台以上のコンピュータは、６０ＧＢ未満の記憶容量を含むことができる。ある特定の場合において、アセンブリは２０分未満で完成され得る。これらの場合において、１台以上のコンピュータは、５１２ＧＢ未満の記憶容量を含む。ある特定の場合において、１台以上のコンピュータは、６０ＧＢ未満の記憶容量を含む。ある特定の場合において、生物はヒトである。ある特定の場合において、ＤＮＡ配列データは全ゲノム配列データであり、位相ゲノムアセンブリは全ゲノムアセンブリである。ある特定の場合において、１台以上のコンピュータは、１立方フィート以下の物理的空間を占める。

別の態様では、少なくとも１つのプロセッサ、実行可能な命令を実施するように構成されているオペレーティングシステム、メモリ、及び生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリアプリケーションを作り出すデジタル処理装置により実行可能な命令を含むコンピュータプログラムを含むデジタル処理装置を含み、アプリケーションが、短い読み取り配列データに基づいて初期アセンブリを生成する第１のソフトウエアモジュールであって、初期アセンブリが、曖昧な配列の１つ以上の未解明領域を含み、短い読み取り配列データが、核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された短い読み取り配列データのサブセットが共通のタグを共有するように、生物の長い範囲の配列構成を保存するためにタグ付される、第１のソフトウエアモジュールと、タグを利用して初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明する第２のソフトウエアモジュールと、複数の局所アセンブリに基づいて網羅的アセンブリを生成する第３のソフトウエアモジュールと、タグにより示された長い範囲の配列構成と一致しない配列データを除去することによって、網羅的アセンブリをクリーニングする第４のソフトウエアモジュールと、タグを利用して網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、相同位相ヌクレオチド配列を分離し、位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成される第５のソフトウエアモジュールとを含む、コンピュータ実現システムが、本明細書に開示されている。ある特定の場合において、ゲノムは二倍体である。ある特定の場合において、短い読み取り配列データは、単一の配列決定ライブラリーから生成される。ある特定の場合において、短い読み取り配列データは、生物のゲノムの５０×以下の適用範囲をもたらす。ある特定の場合において、短い読み取り配列データは、この読み取りより２×〜１０００×長い出発配列の構成を保存するためにタグ付けされる。ある特定の場合において、短い読み取り配列データは、１０ｋｂ〜５Ｍｂの出発配列の構成を保存するためにタグ付けされる。ある特定の場合において、初期アセンブリは初期アセンブリグラフである。ある特定の場合において、初期アセンブリグラフを生成するソフトウエアモジュールは、生物のゲノムに存在する高い確率を有する複数のｋ−ｍｅｒを確認すること、タグを使用して、ｋ−ｍｅｒがそれぞれ生じる出発配列の数に基づいて複数のｋ−ｍｅｒをフィルタにかけること及び複数のｋ−ｍｅｒのうち共通のｌ−ｍｅｒを共有するｋ−ｍｅｒを一緒にして、ｌ＜ｋである初期アセンブリを形成することによって、初期アセンブリグラフを生成する。ある特定の場合において、初期アセンブリグラフを生成するソフトウエアモジュールは、曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の１つ以上の領域を排除すること及び元の短い読み取り配列データを参考にして、初期アセンブリグラフのギャップを埋めることによって、初期アセンブリグラフを改訂する。ｋは、２４と９６の間であり得る。複数の局所アセンブリは、初期アセンブリグラフを暫定基準として使用すること、明白な配列の端部を確認すること、タグの閾値数を超える数のタグを共有する近隣端部を確認すること及び明白な配列の端部を確認された近隣端部と一緒にすることによって、生成することができる。網羅的アセンブリは、ｚ＞ｋである生物のゲノムに存在する高い確率を有する複数の局所アセンブリにおいて、複数のｚ−ｍｅｒを確認すること及び複数の局所アセンブリにおけるｚ−ｍｅｒを一緒にすることによって、生成することができる。ｚは、１００と３００の間であり得る。短い読み取り配列データは、１０ｎｇ未満のＤＮＡ入力材料から生成することができる。短い読み取り配列データは、２ｎｇ未満のＤＮＡ入力材料から生成することができる。ある特定の場合において、アセンブリは６０分未満で完成され得る。いくつかの実施形態において、アセンブリは６０分未満で完成され得る。いくつかの実施形態において、１台以上のコンピュータは、５１２ＧＢ未満の記憶容量を含むことができ、ある特定の実施形態において、１台以上のコンピュータは、６０ＧＢ未満の記憶容量を含むことができる。ある特定の場合において、アセンブリは２０分未満で完成され得る。これらの場合において、１台以上のコンピュータは、５１２ＧＢ未満の記憶容量を含む。ある特定の場合において、１台以上のコンピュータは、６０ＧＢ未満の記憶容量を含む。ある特定の場合において、生物はヒトである。ある特定の場合において、ＤＮＡ配列データは全ゲノム配列データであり、位相ゲノムアセンブリは全ゲノムアセンブリである。ある特定の場合において、デジタル処理装置は、１立方フィート以下の物理的空間を占める。

別の態様では、生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリアプリケーションを作り出すデジタル処理装置により実行可能な命令を含むコンピュータプログラムによりコードされており、アプリケーションが、短い読み取り配列データに基づいて初期アセンブリを生成する第１のソフトウエアモジュールであって、初期アセンブリが、曖昧な配列の１つ以上の未解明領域を含み、短い読み取り配列データが、核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された短い読み取り配列データのサブセットが共通のタグを共有するように、生物の長い範囲の配列構成を保存するためにタグ付される、第１のソフトウエアモジュールと、タグを利用して初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明する第２のソフトウエアモジュールと、複数の局所アセンブリに基づいて網羅的アセンブリを生成する第３のソフトウエアモジュールと、タグにより示された長い範囲の配列構成と一致しない配列データを除去することによって、網羅的アセンブリをクリーニングする第４のソフトウエアモジュールと、タグを利用して網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、相同位相ヌクレオチド配列を分離し、位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成される第５のソフトウエアモジュールとを含む、非一過性コンピュータ可読記憶媒体が、本明細書に開示されている。ある特定の場合において、ゲノムは二倍体である。ある特定の場合において、短い読み取り配列データは、単一の配列決定ライブラリーから生成される。ある特定の場合において、短い読み取り配列データは、生物のゲノムの５０×以下の適用範囲をもたらす。ある特定の場合において、短い読み取り配列データは、この読み取りより２×〜１０００×長い出発配列の構成を保存するためにタグ付けされる。ある特定の場合において、短い読み取り配列データは、１０ｋｂ〜５Ｍｂの出発配列の構成を保存するためにタグ付けされる。ある特定の場合において、初期アセンブリは初期アセンブリグラフである。ある特定の場合において、初期アセンブリグラフを生成するソフトウエアモジュールは、生物のゲノムに存在する高い確率を有する複数のｋ−ｍｅｒを確認すること、タグを使用して、ｋ−ｍｅｒがそれぞれ生じる出発配列の数に基づいて複数のｋ−ｍｅｒをフィルタにかけること及び複数のｋ−ｍｅｒのうち共通のｌ−ｍｅｒを共有するｋ−ｍｅｒを一緒にして、ｌ＜ｋである初期アセンブリを形成することによって、初期アセンブリグラフを生成する。ある特定の場合において、初期アセンブリグラフを生成するソフトウエアモジュールは、曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の１つ以上の領域を排除すること及び元の短い読み取り配列データを参考にして、初期アセンブリグラフのギャップを埋めることによって、初期アセンブリグラフを改訂する。ｋは、２４と９６の間であり得る。複数の局所アセンブリは、初期アセンブリグラフを暫定基準として使用すること、明白な配列の端部を確認すること、タグの閾値数を超える数のタグを共有する近隣端部を確認すること及び明白な配列の端部を確認された近隣端部と一緒にすることによって、生成することができる。網羅的アセンブリは、ｚ＞ｋである生物のゲノムに存在する高い確率を有する複数の局所アセンブリにおいて、複数のｚ−ｍｅｒを確認すること及び複数の局所アセンブリにおけるｚ−ｍｅｒを一緒にすることによって、生成することができる。ｚは、１００と３００の間であり得る。短い読み取り配列データは、１０ｎｇ未満のＤＮＡ入力材料から生成することができる。短い読み取り配列データは、２ｎｇ未満のＤＮＡ入力材料から生成することができる。ある特定の場合において、アセンブリは６０分未満で完成され得る。いくつかの実施形態において、アセンブリは６０分未満で完成され得る。いくつかの実施形態において、１台以上のコンピュータは、５１２ＧＢ未満の記憶容量を含むことができ、ある特定の実施形態において、１台以上のコンピュータは、６０ＧＢ未満の記憶容量を含むことができる。ある特定の場合において、アセンブリは２０分未満で完成され得る。これらの場合において、１台以上のコンピュータは、５１２ＧＢ未満の記憶容量を含む。ある特定の場合において、１台以上のコンピュータは、６０ＧＢ未満の記憶容量を含む。ある特定の場合において、生物はヒトである。ある特定の場合において、ＤＮＡ配列データは全ゲノム配列データであり、位相ゲノムアセンブリは全ゲノムアセンブリである。ある特定の場合において、デジタル処理装置は、１立方フィート以下の物理的空間を占める。
本発明は、例えば、以下の項目を提供する。
（項目１）
生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリをコンピュータにより実現する方法であって、
ａ）１台以上のコンピュータにより、短い読み取り配列データに基づいて初期アセンブリを生成し、前記初期アセンブリが曖昧な配列の１つ以上の未解明領域を含み、前記短い読み取り配列データが、前記核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された前記短い読み取り配列データのサブセットが共通のタグを共有するように、前記生物の長い範囲の配列構成を保存するためにタグ付されることと、
ｂ）前記１台以上のコンピュータにより、前記タグを利用して前記初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明することと、
ｃ）前記１台以上のコンピュータにより、前記複数の局所アセンブリに基づいて網羅的アセンブリを生成することと、
ｄ）前記１台以上のコンピュータにより、前記タグにより示された前記長い範囲の配列構成と一致しない配列データを除去することによって、前記網羅的アセンブリをクリーニングすることと、
ｅ）前記１台以上のコンピュータにより、前記タグを利用して前記網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、位相ヌクレオチド配列を分離し、
前記位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成されることと
を含む、前記方法。
（項目２）
前記ゲノムが二倍体である、項目１に記載の方法。
（項目３）
前記短い読み取り配列データが単一のライブラリーから生成される、項目１に記載の方法。
（項目４）
前記短い読み取り配列データが、前記生物の前記ゲノムの５０×以下の適用範囲をもたらす、項目１に記載の方法。
（項目５）
前記短い読み取り配列データが、この読み取りより２×〜１０００×長い出発配列の構成を保存するためにタグ付けされる、項目１に記載の方法。
（項目６）
前記短い読み取り配列データが、１０ｋｂ〜５Ｍｂの出発配列の構成を保存するためにタグ付けされる、項目１に記載の方法。
（項目７）
前記初期アセンブリが初期アセンブリグラフである、項目１に記載の方法。
（項目８）
前記初期アセンブリグラフが、
ａ）前記生物の前記ゲノムに存在する高い確率を有する複数のｋ−ｍｅｒを確認すること、
ｂ）前記タグを使用して、ｋ−ｍｅｒがそれぞれ生じる出発配列の数に基づいて複数のｋ−ｍｅｒをフィルタにかけること、及び
ｃ）前記複数のｋ−ｍｅｒのうち共通のｌ−ｍｅｒを共有するｋ−ｍｅｒを一緒にして、ｌ＜ｋである初期アセンブリを形成すること
によって生成される、項目７に記載の方法。
（項目９）
前記１台以上のコンピュータにより、前記初期アセンブリを生成する前に前置フィルタを適用することを更に含み、前記前置フィルタが、
ａ）前記短い読み取り配列データの生成に使用された配列決定装置の塩基品質スコアを利用すること、及び
ｂ）ｋ−ｍｅｒがそれぞれ２つの別個のタグから生じることが見えるように、一回を超えて発生するｋ−ｍｅｒ及び前記タグを利用すること
を含む、項目８に記載の方法。
（項目１０）
前記１台以上のコンピュータにより、無損失ランダムアクセス圧縮を、前記品質スコアのそれぞれの記録及び前記グラフの全体にわたるパスに適用することを更に含む、項目９に記載の方法。
（項目１１）
方法が、前記１台以上のコンピュータにより、
ａ）曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の１つ以上の領域を排除すること、及び
ｂ）元の短い読み取り配列データを参考にして、前記初期アセンブリグラフのギャップを埋めること
によって、前記初期アセンブリグラフを改訂することを更に含む、項目８に記載の方法。
（項目１２）
ｋが２４と９６の間である、項目８に記載の方法。
（項目１３）
前記複数の局所初期アセンブリが、
ａ）前記初期アセンブリグラフを暫定基準として使用すること、
ｂ）明白な配列の端部を確認すること、
ｃ）タグの閾値数を超える数のタグを共有する近隣端部を確認すること、及び
ｄ）明白な配列の端部を前記確認された近隣端部と一緒にすること
によって生成される、項目８に記載の方法。
（項目１４）
前記網羅的アセンブリが、
ａ）ｚ＞ｋである前記生物の前記ゲノムに存在する高い確率を有する前記複数の局所アセンブリにおいて複数のｚ−ｍｅｒを確認すること、及び
ｂ）前記複数の局所アセンブリにおける前記ｚ−ｍｅｒを一緒にすること
によって生成される、項目１３に記載の方法。
（項目１５）
ｚが１００と３００の間である、項目１４に記載の方法。
（項目１６）
前記短い読み取り配列データが、１０ｎｇ未満のＤＮＡ入力材料から生成される、項目１に記載の方法。
（項目１７）
前記短い読み取り配列データが、２ｎｇ未満のＤＮＡ入力材料から生成される、項目１６に記載の方法。
（項目１８）
前記アセンブリが６０分未満で完成される、項目１に記載の方法。
（項目１９）
前記１台以上のコンピュータが、５１２ＧＢ未満の記憶容量を含む、項目１８に記載の方法。
（項目２０）
前記１台以上のコンピュータが、６０ＧＢ未満の記憶容量を含む、項目１９に記載の方法。
（項目２１）
前記アセンブリが２０分未満で完成される、項目１に記載の方法。
（項目２２）
前記１台以上のコンピュータが、５１２ＧＢ未満の記憶容量を含む、項目２１に記載の方法。
（項目２３）
前記１台以上のコンピュータが、６０ＧＢ未満の記憶容量を含む、項目２２に記載の方法。
（項目２４）
前記生物がヒトである、項目１に記載の方法。
（項目２５）
前記ＤＮＡ配列データが全ゲノム配列データであり、前記位相ゲノムアセンブリが全ゲノムアセンブリである、項目１に記載の方法。
（項目２６）
前記１台以上のコンピュータが、１立方フィート以下の物理的空間を占める、項目１に記載の方法。
（項目２７）
少なくとも１つのプロセッサ、実行可能な命令を実施するように構成されているオペレーティングシステム、メモリ、及び生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリアプリケーションを作り出すデジタル処理装置により実行可能な命令を含むコンピュータプログラムを含む前記デジタル処理装置を含み、前記アプリケーションが、
ａ）短い読み取り配列データに基づいて初期アセンブリを生成する第１のソフトウエアモジュールであって、前記初期アセンブリが曖昧な配列の１つ以上の未解明領域を含み、前記短い読み取り配列データが、前記核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された前記短い読み取り配列データのサブセットが共通のタグを共有するように、前記生物の長い範囲の配列構成を保存するためにタグ付される、第１のソフトウエアモジュールと、
ｂ）前記タグを利用して前記初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明する第２のソフトウエアモジュールと、
ｃ）前記複数の局所アセンブリに基づいて網羅的アセンブリを生成する第３のソフトウエアモジュールと、
ｄ）前記タグにより示された前記長い範囲の配列構成と一致しない配列データを除去することによって、前記網羅的アセンブリをクリーニングする第４のソフトウエアモジュールと、
ｅ）前記タグを利用して前記網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、相同位相ヌクレオチド配列を分離し、
前記位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成される第５のソフトウエアモジュールと
を含む、コンピュータ実現システム。
（項目２８）
前記ゲノムが二倍体である、項目２７に記載のシステム。
（項目２９）
前記短い読み取り配列データが単一のライブラリーから生成される、項目２７に記載のシステム。
（項目３０）
前記短い読み取り配列データが、前記生物の前記ゲノムの５０×以下の適用範囲をもたらす、項目２７に記載のシステム。
（項目３１）
前記短い読み取り配列データが、この読み取りより２×〜１０００×長い出発配列の構成を保存するためにタグ付けされる、項目２７に記載のシステム。
（項目３２）
前記短い読み取り配列データが、１０ｋｂ〜５Ｍｂの出発配列の構成を保存するためにタグ付けされる、項目２７に記載のシステム。
（項目３３）
前記初期アセンブリが初期アセンブリグラフである、項目２７に記載のシステム。
（項目３４）
初期アセンブリグラフを生成する前記ソフトウエアモジュールが、
ａ）前記生物のゲノムに存在する高い確率を有する複数のｋ−ｍｅｒを確認すること、
ｂ）前記タグを使用して、ｋ−ｍｅｒがそれぞれ生じる出発配列の数に基づいて複数のｋ−ｍｅｒをフィルタにかけること、及び
ｃ）前記複数のｋ−ｍｅｒのうち共通のｌ−ｍｅｒを共有するｋ−ｍｅｒを一緒にして、ｌ＜ｋである初期アセンブリを形成すること
によって、前記初期アセンブリグラフを生成する、項目３３に記載のシステム
（項目３５）
前記アプリケーションが、前記初期アセンブリを生成する前に前置フィルタを適用するソフトウエアモジュールを更に含み、前記前置フィルタが、
ａ）前記短い読み取り配列データの生成に使用された配列決定装置の塩基品質スコアを利用すること、及び
ｂ）ｋ−ｍｅｒがそれぞれ２つの別個のタグから生じることが見えるように、一回を超えて発生するｋ−ｍｅｒ及び前記タグを利用すること
を含む、項目３３に記載のシステム。
（項目３６）
前記アプリケーションが、無損失ランダムアクセス圧縮を、前記品質スコアのそれぞれの記録及び前記グラフの全体にわたるパスに適用することを更に含む、項目３５に記載のシステム。
（項目３７）
初期アセンブリグラフを生成する前記ソフトウエアモジュールが、
ａ）曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の１つ以上の領域を排除すること、及び
ｂ）元の短い読み取り配列データを参考にして、前記初期アセンブリグラフのギャップを埋めること
によって、前記初期アセンブリグラフを改訂する、項目３４に記載のシステム。
（項目３８）
ｋが２４と９６の間である、項目３４に記載のシステム。
（項目３９）
複数の局所アセンブリを生成する前記ソフトウエアモジュールが、
ａ）前記初期アセンブリグラフを暫定基準として使用すること、
ｂ）明白な配列の端部を確認すること、
ｃ）タグの閾値数を超える数のタグを共有する近隣端部を確認すること、及び
ｄ）明白な配列の端部を前記確認された近隣端部と一緒にすること
によって、前記複数の局所アセンブリを生成する、項目３４に記載のシステム。
（項目４０）
網羅的アセンブリを生成する前記ソフトウエアモジュールが、
ａ）ｚ＞ｋである前記生物の前記ゲノムに存在する高い確率を有する前記複数の局所アセンブリにおいて複数のｚ−ｍｅｒを確認すること、及び
ｂ）前記複数の局所アセンブリにおける前記ｚ−ｍｅｒを一緒にすること
によって、前記網羅的アセンブリを生成する、項目３９に記載のシステム。
（項目４１）
ｚが１００と３００の間である、項目４０に記載のシステム。
（項目４２）
前記短い読み取り配列データが、１０ｎｇ未満のＤＮＡ入力材料から生成される、項目２７に記載のシステム。
（項目４３）
前記短い読み取り配列データが、２ｎｇ未満のＤＮＡ入力材料から生成される、項目４２に記載のシステム。
（項目４４）
前記アセンブリが６０分未満で完成される、項目２７に記載のシステム。
（項目４５）
前記メモリが、５１２ＧＢ未満の記憶容量を含む、項目４４に記載のシステム。
（項目４６）
前記メモリが、６０ＧＢ未満の記憶容量を含む、項目４５に記載のシステム。
（項目４７）
前記アセンブリが２０分未満で完成される、項目２７に記載のシステム。
（項目４８）
前記メモリが、５１２ＧＢ未満の記憶容量を含む、項目４７に記載のシステム。
（項目４９）
前記メモリが、６０ＧＢ未満の記憶容量を含む、項目４８に記載のシステム。
（項目５０）
前記生物がヒトである、項目２７に記載のシステム。
（項目５１）
前記ＤＮＡ配列データが全ゲノム配列データであり、前記位相ゲノムアセンブリが全ゲノムアセンブリである、項目２７に記載のシステム。
（項目５２）
前記デジタル処理装置が、１立方フィート以下の物理的空間を占める、項目２７に記載のシステム。
（項目５３）
生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリアプリケーションを作り出すデジタル処理装置により実行可能な命令を含むコンピュータプログラムによりコードされており、前記アプリケーションが、
ａ）短い読み取り配列データに基づいて初期アセンブリを生成する第１のソフトウエアモジュールであって、前記初期アセンブリが曖昧な配列の１つ以上の未解明領域を含み、前記短い読み取り配列データが、前記核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された前記短い読み取り配列データのサブセットが共通のタグを共有するように、前記生物の長い範囲の配列構成を保存するためにタグ付される、第１のソフトウエアモジュールと、
ｂ）前記タグを利用して前記初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明する第２のソフトウエアモジュールと、
ｃ）前記複数の局所アセンブリに基づいて網羅的アセンブリを生成する第３のソフトウエアモジュールと、
ｄ）前記タグにより示された前記長い範囲の配列構成と一致しない配列データを除去することによって、前記網羅的アセンブリをクリーニングする第４のソフトウエアモジュールと、
ｅ）前記タグを利用して前記網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、相同位相ヌクレオチド配列を分離し、
前記位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成される第５のソフトウエアモジュールと
を含む、非一過性コンピュータ可読記憶媒体。
（項目５４）
前記ゲノムが二倍体である、項目５３に記載の媒体。
（項目５５）
前記短い読み取り配列データが単一のライブラリーから生成される、項目５３に記載の媒体。
（項目５６）
前記短い読み取り配列データが、前記生物の前記ゲノムの５０×以下の適用範囲をもたらす、項目５３に記載の媒体。
（項目５７）
前記短い読み取り配列データが、この読み取りより２×〜１０００×長い出発配列の構成を保存するためにタグ付けされる、項目５３に記載の媒体。
（項目５８）
前記短い読み取り配列データが、１０ｋｂ〜５Ｍｂの出発配列の構成を保存するためにタグ付けされる、項目５３に記載の媒体。
（項目５９）
前記初期アセンブリが初期アセンブリグラフである、項目５３に記載の媒体。
（項目６０）
初期アセンブリグラフを生成する前記ソフトウエアモジュールが、
ａ）前記生物の前記ゲノムに存在する高い確率を有する複数のｋ−ｍｅｒを確認すること、
ｂ）前記タグを使用して、ｋ−ｍｅｒがそれぞれ生じる出発配列の数に基づいて複数のｋ−ｍｅｒをフィルタにかけること、及び
ｃ）前記複数のｋ−ｍｅｒのうち共通のｌ−ｍｅｒを共有するｋ−ｍｅｒを一緒にして、ｌ＜ｋである初期アセンブリを形成すること
によって、前記初期アセンブリグラフを生成する、項目５９に記載の媒体
（項目６１）
前記アプリケーションが、前記初期アセンブリを生成する前に前置フィルタを適用するソフトウエアモジュールを更に含み、前記前置フィルタが、
ａ）前記短い読み取り配列データの生成に使用された配列決定装置の塩基品質スコアを利用すること、及び
ｂ）ｋ−ｍｅｒがそれぞれ２つの別個のタグから生じることが見えるように、一回を超えて発生するｋ−ｍｅｒ及び前記タグを利用すること
を含む、項目６０に記載の媒体。
（項目６２）
前記アプリケーションが、無損失ランダムアクセス圧縮を、前記品質スコアのそれぞれの記録及び前記グラフの全体にわたるパスに適用することを更に含む、項目６１に記載の媒体。
（項目６３）
初期アセンブリグラフを生成する前記ソフトウエアモジュールが、
ａ）曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の１つ以上の領域を排除すること、及び
ｂ）元の短い読み取り配列データを参考にして、前記初期アセンブリグラフのギャップを埋めること
によって、前記初期アセンブリグラフを改訂する、項目６０に記載の媒体。
（項目６４）
ｋが２４と９６の間である、項目６０に記載の媒体。
（項目６５）
複数の局所アセンブリを生成する前記ソフトウエアモジュールが、
ａ）前記初期アセンブリグラフを暫定基準として使用すること、
ｂ）明白な配列の端部を確認すること、
ｃ）タグの閾値数を超える数のタグを共有する近隣端部を確認すること、及び
ｄ）明白な配列の端部を前記確認された近隣端部と一緒にすること
によって、前記複数の局所アセンブリを生成する、項目６０に記載の媒体。
（項目６６）
網羅的アセンブリを生成する前記ソフトウエアモジュールが、
ａ）ｚ＞ｋである前記生物の前記ゲノムに存在する高い確率を有する前記複数の局所アセンブリにおいて複数のｚ−ｍｅｒを確認すること、及び
ｂ）前記複数の局所アセンブリにおける前記ｚ−ｍｅｒを一緒にすること
によって、前記網羅的アセンブリを生成する、項目６５に記載のシステム。
（項目６７）
ｚが１００と３００の間である、項目６６に記載の媒体。
（項目６８）
前記短い読み取り配列データが、１０ｎｇ未満のＤＮＡ入力材料から生成される、項目５３に記載の媒体。
（項目６９）
前記短い読み取り配列データが、２ｎｇ未満のＤＮＡ入力材料から生成される、項目６８に記載の媒体。
（項目７０）
前記アセンブリが６０分未満で完成される、項目５３に記載の媒体。
（項目７１）
前記処理装置が、５１２ＧＢ未満の記憶容量を含む、項目７０に記載の媒体。
（項目７２）
前記処理装置が、６０ＧＢ未満の記憶容量を含む、項目７１に記載の媒体。
（項目７３）
前記アセンブリが２０分未満で完成される、項目５３に記載の媒体。
（項目７４）
前記処理装置が、５１２ＧＢ未満の記憶容量を含む、項目７３に記載の媒体。
（項目７５）
前記処理装置が、６０ＧＢ未満の記憶容量を含む、項目７４に記載の媒体。
（項目７６）
前記生物がヒトである、項目５３に記載の媒体。
（項目７７）
前記ＤＮＡ配列データが全ゲノム配列データであり、前記位相ゲノムアセンブリが全ゲノムアセンブリである、項目５３に記載の媒体。
（項目７８）
前記処理装置が、１立方フィート以下の物理的空間を占める、項目５３に記載の媒体。

ＳＮＰと構造変異体の両方に関する情報を保存する、本開示の方法の使用により生成された整列の非限定例を示す（出現する順番にそれぞれ配列番号１〜８）。ゲノムアセンブリプロセスの非限定例を示す。メガバブル及び微細構造によるゲノムアセンブリプロセスの代替的概略図の非限定例を示す。ゲノムアセンブリプロセスの非限定例を示す。ゲノムアセンブリプロセスにより利用可能な出力の非限定例を示す。デジタル処理装置の非限定例であり、この場合、１つ以上のＣＰＵ、メモリ、通信インターフェース及びディスプレイを有する装置を示す。デノボアセンブリの非限定例を示す。長いホモポリマー付近の誤差の圧倒的な多さの非限定例を示す（出現する順番にそれぞれ配列番号９〜２４）。デノボアセンブラのコンピュータ処理構造の非限定例を示す。

特定の定義
特に定義されない限り、本明細書において使用される全ての技術用語は、本発明が属する当業者に一般的に理解されるものと同じ意味を有する。本明細書及び添付の特許請求の範囲において使用されるとき、単数形「ａ」、「ａｎ」及び「ｔｈｅ」は、特に文脈により明確に指示されない限り、複数対象を含む。本明細書において、「または」への任意の参照は、特に記述されない限り「及び／または」を包含することが意図される。

本明細書において使用されるとき、「位相」アセンブリまたは配列は、ヌクレオチドデータが、染色体または他のサブゲノム間隔などの特定の遺伝子座にシスで正確に配置されているアセンブリを作り出すことを指す。このことには、例えば、ハプロタイプ、二倍体ゲノム、倍数体ゲノム、異なる試料、異なる細胞、異なる生物、または更には大きな挿入欠失、転位及び融合などの一倍体ゲノムの構造変異体を正確に解明することが含まれ得る。

本明細書において使用されるとき、「次世代配列決定」は、２４時間で大量の、一般には１ギガベースを超えるヌクレオチド配列データをもたらす任意の技術を指す。非限定的な例示のシステムは、Ｉｌｌｕｍｉｎａ（ＳａｎＤｉｅｇｏ，ＣＡ）、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ（Ｃａｒｌｓｂａｄ，ＣＡ）及びＰａｃｉｆｉｃＢｉｏｓｙｓｔｅｍｓ（ＭｅｎｌｏＰａｒｋ，ＣＡ）から入手可能である。

デノボアセンブリの利点
本開示は、誘導される配列データの改善された遺伝子アセンブリを可能にする、生物学的試料の遺伝子情報を得る及び分析するための新規の手法を対象とする。特に、本明細書に記載されている方法、システム及び媒体は、所定の配列系による出力（本明細書において、「読み取り」と呼ばれる）として、個体の長い範囲の配列構成及び決定された配列情報のかなり短い伸展を保存するためにコードされている、配列決定ライブラリーの調製を伴う。この長い範囲の配列構成は、長さにかかわらず、個別の読み取りの長さよりかなり長い配列構成、例えば、２×、５×、１０×、１００×、１０００×または更に長い近接配列伸展、ならびにこれらの間の任意の長さの範囲にわたって、読み取りの順序づけを可能にする。そのような長い範囲の構成は、１０ｋｂ、１００ｋｂ、２００ｋｂ、５００ｋｂ、１Ｍｂ、２Ｍｂ、３Ｍｂ、４Ｍｂ、５Ｍｂ、またはそれ以上の長さ、ならびにこれらの間の任意の長さの範囲のオーダーである近接配列伸展にわたるものであり得る。

そのような長い範囲の配列構成を提供することによって、大規模構造変異体を確認すること、ハプロタイプ情報を決定することなどの、配列の長い近接伸展から一般に誘導され得る配列特徴を確認することができる。これらの利点は、全て、基準配列から操作するか、または特定の二倍体ゲノムをデノボに組み立てるかにかかわらず、真のゲノム配列を、更には真の二倍体または倍数体ゲノム配列を正確に組み立てることができるので、特に有用である。本明細書に記載されているプラットフォーム、システム、媒体及び方法は、従来の配列決定において欠如していた利益を提供し、デノボアセンブリプロセスには、（ｉ）非常に少量の入力、（ｉｉ）低い配列包括度、（ｉｉｉ）低い費用及び（ｉｖ）効率的なコンピュータ処理が含まれる。

本明細書に記載されているプラットフォーム、システム、媒体及び方法は、単一の配列決定ライブラリーを完全ゲノムに組み立てることを可能にする。配列決定ライブラリーは、少なくとも１つの全ゲノム、染色体、またはＤＮＡのフラグメントを含有するＤＮＡ試料から開始することによって作り出される。次に、典型的には１キロベースを超える、多くの場合、１０、５０または１００キロベースを超える大型フラグメントに分節化することによって、ＤＮＡが調製される。次にこれらの分節は、物理的に区分化され、各区分は、ＤＮＡフラグメント、ならびにＤＮＡフラグメント及び大型フラグメントから生成される任意の小型フラグメントを確認するように機能する特有のバーコードまたはタグを含む。バーコードをオリゴヌクレオチドに含めることができる。オリゴヌクレオチドは、ビーズまたはマイクロカプセルなどの固体構造に遊離可能に接続され得る。いくつかの実施形態において、オリゴヌクレオチドは、ランダム配列、標的配列に相補的な配列、結合するためにプライマーからの配列、またはユニバーサルプライミング部位を含むことができる。

いったん大型ＤＮＡフラグメントが特有のタグで区分されると、タグを組み込む小型フラグメントが生成され、これらは次にライブラリーにプールされ、配列決定される。ライブラリーは、任意の次世代配列決定技術によって配列決定され得る。ある特定の実施形態において、ＤＮＡ配列データは、非限定例として、パイロシークエンシング（ｐｙｒｏｓｅｑｕｅｎｃｉｎｇ）、合成による配列決定、連結による配列決定、イオン半導体配列決定、または単一分子リアルタイム配列決定によって生成される。ある特定の実施形態において、ＤＮＡ配列データは、２４時間あたり１ギガベースのヌクレオチドの読み取りを生成することができる任意の技術によって生成される。

様々なフラグメント及びこれらの関連するバーコード配列の読み取りから配列データを有することによって、かなり大型の配列のアセンブリをデノボで実施することができる。配列決定反応及びアセンブリステップを、同じ個体または実体により実施する必要はない。配列データを第三者から得ることもできる。本明細書に記載されているように、このことは、複雑なアセンブリプロセスの完了を許容しながら、コンピュータ処理の効率を保つ方法で達成することができる。核酸分子の分節化、区分化及びタグ付けの例示的な方法は、米国特許出願第１４／１７５，９３５号に記載されており、この全開示は、全体が参照により本明細書に組み込まれる。

全ての種類の変異体を要求するには、原則としてアセンブリを基準配列に整列させて、変異体を読み取ることができる。アセンブリの整列は、読み取りの整列より途方もなく大きな特異性を有し、したがって、基準に基づいた標準的な分析に関連する大部分の人為産物を排除する。図１は、ＨＧＰアセンブリの例である。ＳＮＰ、２つの小さな挿入及び一方の対立遺伝子への５５４塩基挿入を示す。他方の対立遺伝子も同じ挿入を示す。ＧｅｎＢａｎｋへのＢＬＡＳＴのヒットはない。代わりにＮＡ１２８７８を見ると、同じ挿入が見出されるが、対立遺伝子の一方のみにおいて見出される。

コンピュータ処理の効率
短い読み取り配列データからゲノム構成を組み立てるとき、最終的なアセンブリは、試料、細胞、または異なるハプロタイプ／染色体のコンセンサスアセンブリである。このように、長い範囲の配列であってもゲノムの真の二倍体アセンブリを作り出すことは、現在までほぼ不可能であった。特に、これらのアセンブリは、典型的には、一倍体変異体を特定的に確認するよりも、二倍体ゲノムの平均的なアセンブリを表すことがある。本明細書に記載されている方法によると、例えば、それぞれのハプロタイプ、染色体、細胞または試料から、そうでなければ相同遺伝子座の異なる変異体の別々のアセンブリを得ることができる。

従来のアセンブリプロセスは、短い配列読み取りの性質及びコンピュータ処理集約的なプロセスに起因して、コンピュータインフラストラクチャーに途方もなく大きな重点が置かれている。いくつかの場合において、本明細書に記載されているように、従来使用されるものより有意に効率的なコンピュータ処理過程を有するプロセスが用いられる。特に、本明細書に記載されているプロセスでは、初期アセンブリグラフが調製される。この初期アセンブリは、「ラフスケッチ」アセンブリになり、未解明の複雑さの区域を、例えば、一見して曖昧であり得る領域を一時的に無視するので、コンピュータ処理能力を保存する。この初期アセンブリが作り出されると、曖昧な区域は、バーコード付き配列決定データを用いることによって更に処理され、曖昧な区域の正確なアセンブリを作り出すことができる。このことは、アセンブリプロセスの際に作り出された配列決定読み取りから誘導されたｋ−ｍｅｒを、特定の染色体、細胞、個体群、ハプロタイプなどに対してアドレス可能にする。このことは、アセンブリにおける全体的な複雑さを低減することによって、曖昧さの効率的な解明を可能にし、ＲＡＭ、ＲＯＭ、またはプロセッサーサイクルなどのコンピュータ資源を温存する。ある特定の実施形態において、本明細書に記載されている方法は、アセンブリに必要なＲＡＭの量を、５１２、２５６、１２８、６４、３２、１６、８、または４ギガバイト未満に低減することができる。

バーコード付き分節化核酸を使用することは、配列読み取りから誘導されたｋ−ｍｅｒを構成化することによって、ゲノム配列の効率的なアセンブリに寄与する。例として、バーコードを用いない従来のアセンブリプロセスでは、網羅的アセンブリのクリーニングの後に、網羅的アセンブリにおける大部分の遺伝子座は、２つ以上の染色体遺伝子座（例えば、母系遺伝及び父系遺伝染色体）を表す。バーコードを使用することによって、これらの遺伝子座は、ここでは互いに分離される。このプロセスは、相同染色体を分離し、複雑な分節重複も解明する。これは、図２に概略的に例示されている。示されているように、部分的に組み立てられた配列が、四角形により示されている非組立部分を伴って例示されている（ステップＩ）。近隣アセンブリを使用して、バーコード付き、またはタグ付きの隣接配列を配置し、ブラックボックスの中に到達させ、その中の配列のアセンブリを提供する。更に、配列が異なるハロタイプまたは位相配列情報、例えば、二重矢印で示されているもの（ステップＩＩ）を表す場合、これらのバーコードは、例えば、これらの領域内の別々の変異アセンブリを生じることも通知する。別々のアセンブリから、真の二倍体アセンブリを相同遺伝子座に生じることができる（ステップＩＩＩ）。バーコード付き読み取りはアセンブリに戻され、遺伝子座は、正確にどこの配列のものが不明であるか確実に確認され、そのようにマーク付けされる。網羅的アセンブリのグラフが、ここで基準配列と整列される。第１の端部が個別に整列される。これらの整列が一致しないと（２つの端部が出会う点において）、不一致は、これらの端部の連鎖を整列させることによって解明される。品質向上と一緒にした基準整列は、ここで、全ての種類の変異体（単一塩基及び構造的）に対する特定の対立遺伝子の存在または不在、及び是認された不確実性を示唆する。これが、基準を中心にした伝統的な手法により変異体を求める、「正確な」やり方である。２つ以上の関連する試料を一緒に組み立てて、単一のグラフを生じてもよく、これから、それぞれの遺伝子座の試料間の正確な関係を推定することができる。これには、腫瘍及び正常な事例（例えば、１つの混合臨床試料からの事例）及び組み換えを含む、家族の配列決定に見られる小児におけるデノボ突然変異の事例が含まれる。直接比較は、基準配列に不在である、遺伝子座における差を明らかにする。

ある特定の実施において、本明細書に記載されている、初期デノボアセンブリは、短い読み取りヌクレオチド配列決定技術を使用して作り出される。このデノボアセンブリは、短い読み取り配列データに基づくことができる。短い読み取り配列データは、３００、２５０、２００、１５０、１００、７５、または５０塩基対（その間の増分も含む）未満の読み取りからのものであり得る。短い読み取り配列データは、ペアエンド（ｐａｉｒｅｄｅｎｄ）読み取りであってもよい。初期デノボアセンブリグラフは、メモリの使用がゲノムサイズと比較して小さくなるように作り出すことができる。このことは、初期アセンブリの速度を最適化する。メモリの使用は、出力データ量に比例して増加することはない。この技術のカギは、以下である。
（ａ）頻度及び塩基品質スコアに基づいて、ゲノムに存在する高い確率を有するｋ−ｍｅｒが確認され、したがって、これらのｋ−ｍｅｒの数はゲノムサイズによって決まる。
（ｂ）ｋ−ｍｅｒは、共通の最小ｐ−ｍｅｒ（ｐ＜ｋ）を共有するｋ−ｍｅｒを一緒にすることによって、生成の際に自然に合体し、このことは大きなオーダーでメモリの使用を低減する。
（ｃ）続くアセンブリ操作は、初期アセンブリを暫定「基準配列」として処理し、したがって非常に低い所要メモリ量を有する。
試料中の非分枝配列を表す、アセンブリの端部ｅを考慮すると、近隣端部が見出され、これらは、最小数のバーコードをｅと共有する端部である。ある特定の実施形態において、端部は少なくとも１、２、３、４、５、６、７、８、９、または１０個のバーコード配列を共有する。次にこれらの配列を近接して組み立てて、局所アセンブリ（近隣）を生じる。このプロセスも、初期アセンブリに欠損していたギャップを埋める。次に全ての近隣を非常に大きなｋ−ｍｅｒ値の使用によって組み立てる。もたらされたアセンブリは、ここでもグラフである。ここで網羅的アセンブリを、バーコードと一致しない接続を除去することによってクリーニングした。

アセンブリの方法
短い配列読み取りから生成されるｋ−ｍｅｒ（ｋ−ｍｅｒ読み取り）は、試料ゲノムを完全な整合ｋ−ｍｅｒと共に崩壊することによって得られるグラフに近似している。プレフィルタリングは、例えば、１つのバーコードのみに生じるため、または低い品質スコアを有する、または読み取りに希にしかないので、間違いである可能性が高いｋ−ｍｅｒの読み取りを除外するために実施され得る。次に、初期グラフはｋ−ｍｅｒから構築される。このグラフの端部はＤＮＡ配列により標識され、ＤｅＢｒｕｉｊｎグラフにおいて非分枝パス（「ユニパス（ｕｎｉｐａｔｈ）」と呼ばれる）を表す。次にパッチギャップをこのグラフに実施することができる。最後に、「垂下末端（ｈａｎｇｉｎｇｅｎｄ）」をグラフから刈り取って、初期アセンブリを生じることができる。

初期アセンブリの組み立てに使用されたｋ−ｍｅｒ読み取りは、アセンブリを促進する任意の長さであり、組み立てられるゲノムのサイズに応じて変わり得る。ｋ−ｍｅｒの読み取りは、１、１０、２０、３０、４０、５０、６０、７０、８０、９０、または１００塩基対（その間の増分も含む）超であり得る。ある特定の場合において、ｋ−ｍｅｒの読み取りは、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、または１００塩基対（その間の増分も含む）未満であり得る。一般に、３０と５０塩基対の間のｋ−ｍｅｒは、初期デノボアセンブリに理想的である。ある特定の場合において、ｋ−ｍｅｒは４０と５０塩基対の間であり得る。ｋ−ｍｅｒは、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、または５０塩基対の長さであり得る。理想的には、ｋ−ｍｅｒは４の倍数である。

初期アセンブリが作り出された後、新たな網羅的アセンブリ（スーパーグラフ）が構築される。スーパーグラフの端部は、初期アセンブリのパスにより標識される（したがって、整数の配列を表す）。形式的には、このグラフは初期アセンブリと同じＫ値を有するが、より高いＫ値に分解される。これは、読み取りパスの終結であるパスを基礎グラフにおいて見出すことによって達成され、したがって、およそ１００、２００、３００、４００、または５００ｋ−ｍｅｒの長さを有する。これらのパスは、長い完全な重複に沿って形式的に整列されて、スーパーグラフを生じる。これらの２番目に大きなｋ−ｍｅｒは、ｚ−ｍｅｒと示される。

網羅的アセンブリの後、バーコード使用してギャップを突き止め、埋める。ＤｅＢｒｕｉｊｎグラフのユニパスにおける分枝点であるので、ギャップを多様な「バブル」として可視化することができる。図３を参照すると、それぞれの足場はメガバブルを有し、アセンブリの完全位相部分を表している。連続的なメガバブルは、互いに位相していない。一般に、足場ダイアグラムに示されているそれぞれの端部は、その中に「微細構造」を含有し、完全に決定されていない配列を記載している。図３に示されているこれらのバブルは、ｋ−ｍｅｒが生成される読み取りの異なる構成から誘導され得る。異なる構成は、異なる染色体、試料、または挿入欠失、複製及び転位などの構造変異体であり得る。バーコードは、ある特定のバーコード配列を伴う全ての読み取りを含む、アセンブリにおけるギャップを埋め合わせるべき読み取りのプールを推定することを可能にする。このプールから局所アセンブリを作り出した後、これを網羅的アセンブリに再挿入することができる。このことが図４に例示されており、ここでは、一方の親対立遺伝子が中実点線４０１であり、他方が円形点線４０２である。全ての対立遺伝子に中実点が付いている１つのバーコード分子及び全ての対立遺伝子に円形点が付いている１つのバーコード分子が示されており、これらが４１１及び４１２として離されており、このようにして、配列構成が正確に位相されている。現実には、多くのバーコード付き分子は、この位相操作を実施するために共謀する。ある特定の実施形態において、本明細書に記載されている方法は、１、２、３、４、５、６、７、８、９、１０、またはそれ以上のメガベースを含む、核酸配列の位相ブロックを作り出すことができる。これらの位相レベルは、３ギガベース（ヒト）ゲノムにおいて５０×以下、４０×以下、または３０×以下の適用範囲レベルで達成され得る。

出力
図５を参照すると、アルゴリズムは、情報を多くの方法で使用者に出力することができる。出力５０１は、データが「生」の形式で出力され得ることを示し、まさにアセンブリの端部（マイクロバブルアーム及びギャップを含む）が別々のＦＡＳＴＡ記録として表れている。このようにソフトウエアがアセンブリを見ている。出力５０２は、データが「メガバブル型」で出力され得ることを示し、それぞれのメガバブルアームが単一のＦＡＳＴＡ記録に対応し、それぞれの介在配列も同様である。いくつかの場合において、使用者は、メガバブルまたは介在配列を、これらがゲノムの特定の伸展に生じる場合または特定のサイズ閾値でｅを超える場合に限り、閾値を設定して可視化することができる。出力５０３は、データが「偽性ハプ（ｐｓｕｅｄｏｈａｐ）型」で出力され得ることを示し、足場１つあたり単一の記録である。メガバブルアームは任意に選択され、それによって多くの記録は、母系及び父系対立遺伝子を混合している。出力５０４は、データが「偽性ハプ２型」で出力され得ることを示し、それぞれの足場において、２つの「並行」偽性ハプロタイプが作り出され、別々のＦＡＳＴＡファイルに配置される。

デジタル処理装置
本明細書に記載されている方法、システム及び媒体は、少なくとも１つのデジタル処理装置またはその使用を含む。デジタル処理装置は、装置の機能を実行する１つ以上のハードウエアの中央処理装置（ＣＰＵ）または多目的図形処理装置（ＧＰＧＰＵ）を含む。デジタル処理装置は、実行可能な命令を実施するように構成されているオペレーティングシステムを更に含む。デジタル処理装置は、場合によりコンピュータネットワークに接続されている。例として、デジタル処理装置は、ワールドワイドウエブへアクセスするように、場合によりインターネットに接続されている。更なる例として、デジタル処理装置は、場合によりクラウドコンピューティングインフラストラクチャーに接続されている。更なる例として、デジタル処理装置は、場合によりイントラネットに接続されている。なお更なる例として、デジタル処理装置は、場合によりデータ記憶装置に接続されている。

本明細書の記載によると、適切なデジタル処理装置には、非限定例として当業者に既知の市販のサーバコンピュータ及びデスクトップコンピュータが含まれる。適切なデジタル処理装置には、当業者に既知のハードウエア及び技術を使用して特注された装置も含まれる。

デジタル処理装置は、実行可能な命令を実施するように構成されているオペレーティングシステムを含む。オペレーティングシステムは、例えば、装置のハードウエアを管理し、アプリケーションを実施する機能を提供する、プログラム及びデータを含むソフトウエアである。当業者は、適切なサーバオペレーティングシステムには、非限定例として、ＦｒｅｅＢＳＤ、ＯｐｅｎＢＳＤ、ＮｅｔＢＳＤ（登録商標）、Ｌｉｎｕｘ（登録商標）、Ａｐｐｌｅ（登録商標）ＭａｃＯＳＸＳｅｒｖｅｒ（登録商標）、Ｏｒａｃｌｅ（登録商標）Ｓｏｌａｒｉｓ（登録商標）、ＷｉｎｄｏｗｓＳｅｒｖｅｒ（登録商標）及びＮｏｖｅｌｌ（登録商標）ＮｅｔＷａｒｅ（登録商標）が含まれることを十分に認識する。当業者は、適切なパーソナルコンピュータオペレーティングシステムには、非限定例として、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｗｉｎｄｏｗｓ（登録商標）、Ａｐｐｌｅ（登録商標）ＭａｃＯＳＸ（登録商標）、ＵＮＩＸ（登録商標）、及びＧＮＵ／Ｌｉｎｕｘ（登録商標）などのＵＮＩＸ（登録商標）様オペレーティングシステムが含まれることを十分に認識する。いくつかの場合において、オペレーティングシステムはクラウドコンピューティングによって提供される。

装置は、記憶及び／またはメモリ装置を含む。記憶及び／またはメモリ装置は、一時的または永久的にデータまたはプログラムを記憶するために使用される１つ以上の物理的な機器である。いくつかの実施形態において、装置は揮発性メモリであり、記憶された情報を維持するために電力を必要とする。いくつかの場合において、装置は、非揮発性メモリであり、デジタル処理装置が作動していないときにも記憶情報を保持する。非揮発性メモリには、フラッシュメモリ、動的ランダムアクセスメモリ（ＤＲＡＭ）、強誘電ランダムアクセスメモリ（ＦＲＡＭ（登録商標））、位相変化ランダムアクセスメモリ（ＰＲＡＭ）などが含まれ得る。他の場合では、装置は、非限定例として、ＣＤ−ＲＯＭ、ＤＶＤ、フラッシュメモリ装置、磁気ディスクドライブ、磁気テープドライブ、光学ディスクドライブ、クラウドコンピューティング系記憶装置などが含まれる記憶装置である。様々な場合において、記憶及び／またはメモリ装置は、本明細書に開示されている装置の組合せである。

デジタル処理装置は、使用者に視覚情報を送るために、場合によりディスプレイを含む。適切なディスプレイには、デジタル処理装置と通信している液晶ディスプレイ（ＬＣＤ）、薄膜トランジスタ液晶ディスプレイ（ＴＦＴ−ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ（受動マトリックスＯＬＥＤ（ＰＭＯＬＥＤ）及び能動マトリックスＯＬＥＤ（ＡＭＯＬＥＤ）ディスプレイを含む）、プラズマディスプレイ、ビデオプロジェクタ及びヘッドマウントディスプレイ（ＶＲヘッドセットなど）が含まれる。適切なＶＲヘッドセットには、非限定例として、ＨＴＣＶｉｖｅ、ＯｃｕｌｕｓＲｉｆｔ、ＳａｍｓｕｎｇＧｅａｒＶＲ、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓ、ＲａｚｅｒＯＳＶＲ、ＦＯＶＥＶＲ、ＺｅｉｓｓＶＲＯｎｅ、ＡｖｅｇａｎｔＧｌｙｐｈ、ＦｒｅｅｆｌｙＶＲヘッドセットなどが含まれる。様々な場合において、ディスプレイは、本明細書に開示されている装置の組合せである。

デジタル処理装置は、使用者から情報を受け取るために、場合により１つ以上の入力装置を含む。適切な入力装置には、キーボード、ポインティング装置（非限定例として、マウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラ及びスタイラスが含まれる）、タッチスクリーンもしくはマルチタッチスクリーン、音声を捕捉するマイクロフォンもしくは他の音声入力、動作を捕捉するビデオカメラもしくは他のセンサ、または他の視覚入力が含まれる。特定の場合において、入力装置は、Ｋｉｎｅｃｔ、ＬｅａｐＭｏｔｉｏｎなどである。様々な場合において、入力装置は、本明細書に開示されている装置の組合せである。

図６を参照すると、特定の実施形態において、例示的なデジタル処理装置６０１が、短い読み取りＤＮＡ配列を完全位相ゲノム配列に組み立てるようにプログラム化されている、そうでなければ構成されている。装置６０１は、例えば、初期整列の実施、品質検査、続く整列の実施、曖昧さの解明及びヘテロ接合性遺伝子座の位相など、本開示の配列アセンブリ方法の様々な局面を制御することができる。この実施形態において、デジタル処理装置６０１は、中央処理装置（ＣＰＵ、また本明細書において、「プロセッサ」及び「コンピュータプロセッサ」）６０５を含み、これはシングルコアもしくはマルチコアプロセッサ、または並行処理のために複数のプロセッサであり得る。デジタル処理装置６０１は、メモリまたはメモリ位置６１０（例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ）、電子記憶装置６１５（例えば、ハードディスク）、１つ以上の他のシステムと通信するための通信インターフェース６２０（例えば、ネットワークアダプタ）、ならびにキャッシュ、他のメモリ、データ記憶装置及び／または電子ディスプレイアダプタなどの周辺装置６２５も含む。メモリ６１０、記憶装置６１５、インターフェース６２０及び周辺装置６２５は、マザーボートなどの通信バス（実線）を介してＣＰＵ６０５と通信している。記憶装置６１５は、データを記憶しておくデータ記憶装置（またはデータ保管庫）であり得る。デジタル処理装置６０１は、通信インターフェース６２０の助けを借りて、コンピュータネットワーク（「ネットワーク」）６３０に作動可能に結合され得る。ネットワーク６３０は、インターネット、インターネット及び／もしくはエクストラネット、またはインターネットと通信しているイントラネット及び／もしくはエクストラネットであり得る。ネットワーク６３０は、いくつかの場合において、遠隔通信及び／またはデータネットワークである。ネットワーク６３０は、１つ以上のコンピュータサーバを含むことができ、このことによって、クラウドコンピューティングなどの分散型コンピュータ処理が可能になり得る。ネットワーク６３０は、いくつかの場合において装置６０１の助けを借りて、ピアツーピアネットワークを実現することができ、このことによって、装置６０１に結合した装置をクライアントまたはサーバとして挙動させることが可能になり得る。

続けて図６を参照すると、ＣＰＵ６０５は、１つ続機械可読命令シーケンスを実行することができ、これらをプログラムまたはソフトウエアに組み入れることができる。命令をメモリ６１０などのメモリ位置に記憶させることができる。命令を、ＣＰＵ６０５に向けることができ、続いてＣＰＵ６０５をプログラム化、そうでなければ構成して、本開示の方法を実現させることができる。ＣＰＵ６０５により実施される操作の例には、フェッチ、デコード、実行及びライトバックが含まれ得る。ＣＰＵ６０５は、集積回路などの回路に一部であり得る。装置６０１の１つ以上の他の部品を回路に含めることができる。いくつかの場合において、回路は、特定用途向け集積回路（ＡＳＩＣ）またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）である。

続けて図６を参照すると、記憶装置６１５は、ドライバ、ライブラリー及び保存プログラムなどのファイルを記憶することができる。記憶装置６１５は、使用者のデータ、例えば、使用者の選択及び使用者のプログラムを記憶することができる。デジタル処理装置６０１は、いくつかの場合において、イントラネットまたはインターネットを介して通信しているリモートサーバに位置するような、外部にある１つ以上の追加のデータ記憶装置を含むことができる。

続けて図６を参照すると、デジタル処理装置６０１は、ネットワーク６３０を介して、１つ以上のリモートコンピュータシステムと通信することができる。例えば、装置６０１は、使用者のリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例には、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレートもしくはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ利用可能装置、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、またはパーソナルデジタルアシスタントが含まれる。

本明細書に記載されている方法は、例えば、メモリ６１０または電子記憶装置６１５などのデジタル処理装置６０１の電子記憶位置に記憶された機械（例えば、コンピュータプロセッサ）実行可能コードによって、実現され得る。機械実行可能または機械可読コードは、ソフトウエアの形態で提供され得る。使用の際に、コードはプロセッサ６０５によって実行され得る。いくつかの場合において、コードは記憶装置６１５から検索され、プロセッサ６０５により容易にアクセスされるようにメモリ６１０に記憶され得る。いくつかの状況では、電子記憶装置６１５を除外することができ、機械実行可能命令は、メモリ６１０に記憶される。

非一過性コンピュータ可読記憶媒体
本明細書に開示されている方法、システム及び媒体は、場合によりネットワーク化されたデジタル処理装置のオペレーティングシステムによる実行可能な命令を含むプログラムでコードされた、１つ以上の非一過性コンピュータ可読記憶媒体を含む。いくつかの場合において、コンピュータ可読記憶媒体は、デジタル処理装置の有形部品である。他の場合において、コンピュータ可読記憶媒体は、デジタル処理装置から場合により取り外し可能である。コンピュータ可読記憶媒体には、非限定例として、ＣＤ−ＲＯＭ、ＤＶＤ、フラッシュメモリ装置、半導体メモリ、磁気ディスクドライブ、磁気テープドライブ、光学ディスクドライブ、クラウドコンピューティングシステム及びサービスなどが含まれる。いくつかの場合において、プログラム及び命令は、媒体において永久的、実質的に永久的、半永久的、または非一過的にコードされている。

コンピュータプログラム
本明細書に開示されている方法、システム及び媒体は、少なくとも１つのコンピュータプログラムまたはその使用を含む。コンピュータプログラムは、特定のタスクを実施するように書き込まれたデジタル処理装置のＣＰＵにおいて実行可能な１つの命令シーケンスを含む。コンピュータ可読命令は、特定のタスクを実施する、または特定の抽象データ型を実現する、関数、オブジェクト、アプリケーションプログラミングインタフェース（ＡＰＩ）、データ構造などのプログラムモジュールとして実現され得る。本明細書に提示されている開示を考慮すると、当業者は、コンピュータプログラムが様々な言語により様々な様式で書き込まれ得ることを認識している。

コンピュータ可読命令の機能性を、様々な環境において望ましいように組み合わせること、または分散させることができる。いくつかの場合において、コンピュータプログラムは、１つの命令シーケンスを含む。他の場合において、コンピュータプログラムは、複数の命令シーケンスを含む。いくつかの場合において、コンピュータプログラムは、１つの位置に提供される。他の場合において、コンピュータプログラムは、複数の位置に提供される。様々な場合において、コンピュータプログラムは、１つ以上のソフトウエアモジュールを含む。様々な実施において、コンピュータプログラムは、１つ以上のウエブアプリケーション、１つ以上のモバイルアプリケーション、１つ以上のスタンドアロンアプリケーション、１つ以上のウエブブラウザプラグイン、エクステンション、アドイン、もしくはアドオン、またはこれらの組合せを部分的または全体的に含む。

スタンドアロンアプリケーション
いくつかの実施形態において、コンピュータプログラムは、スタンドアロンアプリケーションを含み、これは現存するプロセスへのアドオンではなく、例えばプラグインではなく、独立したコンピュータプロセスとして実行されるプログラムである。当業者は、スタンドアロンアプリケーションが多くの場合にコンパイルされることを認識している。コンパイラは、プログラミング言語で書き込まれたソースコードをアセンブリ言語または機械コードなどの二進オブジェクトコードに変換する、コンピュータプログラム（複数可）である。適切にコンパイルされたプログラミング言語には、非限定例として、Ｃ、Ｃ＋＋、Ｏｂｊｅｃｔｉｖｅ−Ｃ、ＣＯＢＯＬ、Ｄｅｌｐｈｉ、Ｅｉｆｆｅｌ、Ｊａｖａ（登録商標）Ｌｉｓｐ、Ｐｙｔｈｏｎ（登録商標）、ＶｉｓｕａｌＢａｓｉｃ及びＶＢ．ＮＥＴ、またはこれらの組合せが含まれる。コンパイルは、多くの場合、少なくとも部分的に実施されて実行可能なプログラムが作り出される。いくつかの場合において、コンピュータプログラムは、１つ以上のコンパイルされた実行可能なアプリケーションを含む。

ソフトウエアモジュール
本明細書に開示されている方法、システム及び媒体は、ソフトウエア、サーバ及び／もしくはデータベースモジュール、またはこれらの使用を含む。本明細書に提示されている開示を考慮すると、ソフトウエアモジュールは、当該技術において既知の機械、ソフトウエア及び言語を使用して、当業者に既知の技術によって作り出される。本明細書に開示されているソフトウエアモジュールは、数多くの方法で実施される。様々な実施において、ソフトウエアモジュールは、１つのファイル、コードの１つのセクション、１つのプログラミングオブジェクト、１つのプログラミング構成、またはこれらの組合せを含む。他の様々な実施において、ソフトウエアモジュールは、複数のファイル、コードの複数のセクション、複数のプログラミングオブジェクト、複数のプログラミング構成、またはこれらの組合せを含む。非限定例として、１つ以上のソフトウエアモジュールは、ウエブアプリケーション、モバイルアプリケーション及びスタンドアロンアプリケーションを含む。いくつかの場合において、ソフトウエアモジュールは、１つのコンピュータプログラムまたはアプリケーションの中にある。他の場合において、ソフトウエアモジュールは、１つを超えるコンピュータプログラムまたはアプリケーションの中にある。いくつかの場合において、ソフトウエアモジュールは、１つの機械に収容される。他の場合において、ソフトウエアモジュールは、１つを超える機械に収容される。特定の場合において、ソフトウエアモジュールは、１つ以上のクラウドコンピューティングプラットフォーム及び／またはサービスに収容される。いくつかの場合において、ソフトウエアモジュールは、１つ以上の機械の１つの位置に収容される。他の場合において、ソフトウエアモジュールは、１つ以上の機械の１つを超える位置に収容される。

データベース
本明細書に開示されている方法、システム及び媒体は、１つ以上のデータベースまたはその使用を含む。本明細書に提供されている開示を考慮すると、当業者は、多くのデータベースが配列及びグラフ情報の記憶及び検索に適していることを認識している。適切なデータベースには、非限定例として、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向データベース、オブジェクトデータベース、実体関連モデルデータベース、連想データベース及びＸＭＬデータベースが含まれる。更なる非限定例には、ＳＱＬ、ＰｏｓｔｇｒｅＳＱＬ、ＭｙＳＱＬ、Ｏｒａｃｌｅ、ＤＢ２及びＳｙｂａｓｅが含まれる。いくつかの場合において、データベースはインターネットに基づいているものである。更なる場合において、データベースはウエブに基づいているものである。なお更なる場合において、データベースはクラウドコンピューティングに基づいているものである。他の場合において、データベースは１つ以上の局所コンピュータ記憶装置に基づいている。

以下の例示的な実施例は、本明細書に記載されているソフトウエアアプリケーション、システム及び方法の実施形態の代表例であり、制限的であることを全く意図していない。

実施例１−タグ付き読み取りを使用した二倍体デノボ配列アセンブリがゲノム位相の長い伸展を生成する
本開示の方法を異なるゲノムにおいて十分に試験するため、この実施例は、表１に示されているように、様々な祖先及び性別の７人の個体、ならびに３匹の混血犬からデータセットを生成した。これらのデータセットは、それぞれ、３．２及び２．５Ｇｂのゲノムサイズを実証している。全て≧８０ｋｂのサイズのＤＮＡから作り出された。
表１の用語：全ての統計は、１０ｋｂより短い足場を取り除いた後に計算した。基準との比較は、ＧＲＣｈ３７（ｃｈｒ１−２２，Ｘ，Ｙ）を使用し、ｃｈｒＹは、雌の試料から除外した。ＩＤ：この表のアセンブリの識別子である。試料：出発材料の種類である。ＨＧＰは、匿名の生体ドナーからＨｕｍａｎＧｅｎｏｍｅＰｒｏｊｅｃｔｆｏｒｌｉｂｒａｒｉｅｓＲＰＣＩ１，３，４，５（http://bacpac.chori.org/library.php?id=1において利用可能）へのものであり、３４０Ｍｂの最終配列は、ＧｅｎＢａｎｋにおけるものである。イヌ及びＨＧＰは、血液からのものであり、他は、Ｃｏｒｉｅｌｌからの細胞株である。種族：民族、またはイヌでは由来品種である。性別：試料の性別である。データ記述：カプセルにおけるデータの種類の記述である。Ｘ：配列読み取りによるゲノムの推定適用範囲である。この研究のアセンブリでは、読み取りは２×１５０であり、１２００Ｍの読み取りが、それぞれのヒトアセンブリに使用され、９４０Ｍの読み取りが、それぞれのイヌアセンブリに使用され、イヌ及び試料Ｇは、ＨｉＳｅｑ２５００によりラピッドランモードで配列決定され、他の試料は、ＨｉＳｅｑＸにより配列決定された。Ｆ：ＤＮＡの推定長さ重み付け平均フラグメント長さ（ｋｂ）である。Ｎ５０コンティグサイズ：１０個以上のｎまたはＮ形質の配列に分けられた後の、ＦＡＳＴＡ記録のＮ５０サイズである。Ｎ５０足場サイズ：Ｎを除外したＦＡＳＴＡ記録のＮ５０サイズである。ギャップの存在：曖昧な塩基の割合Ｎ５０完全伸展：アセンブリにおいて完全に反映されている同じ試料からの最終配列の分節のＮ５０長さ（ｋｂ）である（本文を参照すること）。１Ｍｂでの位相誤差％：位相が大部分で一致していないメガバブル分枝における位相部位の割合である。欠損ｋ−ｍｅｒ：アセンブリから欠損している、基準における１００ｋ−ｍｅｒの割合である。一倍体：一倍体型のアセンブリである。二倍体：二倍体型のアセンブリである。所定の距離での差異：アセンブリにおける所定の距離でのｋ−ｍｅｒ対の差異であり、両方とも基準に特有に配置され、基準染色体、配向、順序、または分離の割合（±１０％）は一致していない。柱時計：３８４ＧＢの利用可能なメモリ（「ｍｅｍ＝３８４Ｇ」によりブートされた）を有する単一サーバを使用して、ＦＡＳＴＱファイルから出発した、アセンブリの実行時間（日数）である。

実施例２−配列決定データの生成
核酸の調製及び配列決定データの生成は、以前に記載されている。簡潔には、数百個のビーズを、所定のライブラリー構築の入力として使用し、各ビーズは、そのビーズに特有の１４ベースバーコードの多くのコピーを含有した。マイクロ流体装置は、個別のビーズをゲノムＤＮＡ及び試薬と共に、およそ百万個の区分に送達する。それぞれの区分は、いくつかの長いフラグメント（下記に考察されている）を含有し、システムは、Ｉｌｌｕｍｉｎａアダプタの間に挟まれたフラグメントからの約３００ｂｐのゲノムＤＮＡと共にバーコードを有する構築物を作り出すように配置された。バーコードは、対の最初の読み取りの開始時に設置された。

装填された核酸のうち、およそ４０％がライブラリーに現れた。例えば、１．２５ｎｇの材料が装填される場合、１０６個の区分に分配され、５０ｋｂの平均サイズを有し、区分１個あたりの分子の平均数は、約１０個であり、区分１個あたり約０．５Ｍｂのゲノムを表している。したがって、５６Ｘの適用範囲では、ヒトゲノムにおける分子１個あたりの読み取り対の平均数は、（１２００Ｍ／２）／（１０６×１０）＝６０であり、分子を（１２０^＊１５０）／５０，０００）＝０．３６×の深さで覆っている。

小さなゲノムにおいて、同じ固定適用範囲レベル（５６×）では、分子１個あたりの読み取り対の平均数は、比例的に下落し、データ型の能力を低減し得る。例えば、サイズがヒトゲノムのサイズの１０分の１であるゲノム（３２０Ｍｂ）では、分子１個あたりの読み取り対の平均数は約６であり、読み取り対の間の距離は、約８ｋｂであり、バーコードを短い初期コンティグに固定させることが難しくなる。

次にこれらの構築物を、Ｉｌｌｕｍｉｎａ器具で配列決定した。長さがそれぞれ１５０塩基の対の読み取りが、生成されるはずである。この読み取り長さは、データがＨｉＳｅｑＸ器具により配列決定され得るように選択され、ＨｉＳｅｑＸ器具は、Ｉｌｌｕｍｉｎａ器具のなかで最も低い費用でデータを生じ、最大読み取り長さの１５０を有する。データを、ＨｉＳｅｑ２５００によりラピッドランモードで生成することもできる。本発明者たちは、ヒトゲノムでは試料を５６×または約１２００Ｍの読み取りで配列決定することを推奨したが、それより低い適用範囲も可能であり、後に記載される。

実施例３−異なるサイズの核酸を使用するアセンブリ
システムの性能をいくつかの異なるサイズのＤＮＡにより検査し、ＤＮＡの長さが重要な要素であることを示した。表２のデータは、様々な長さのＮＡ１２８７８ＤＮＡから構築され、３８×の適用範囲で配列決定された、４つの異なるライブラリーのデータによるアセンブリ性能を示す。特にＤＮＡ＜３０ｋｂでは、データは、約２０ｋｂのサイズのＤＮＡが０．６ＭｂのサイズのＮ５０足場を生じるが、約５０ｋｂのサイズのＤＮＡが、１２．８ＭｂのサイズのＮ５０足場を生じることを示した

実施例４−様々な適用範囲でのHGP試料のアセンブリ
加えて、ヒトゲノムプロジェクトドナー試料の配列決定及びアセンブリを、様々な適用範囲で実施した。表３は、少なくとも２．３メガベースの大型位相ブロックが３８×配列包括度で生成され得ることを示す。

実施例５−デノボアセンブリ
バーコード付きデータは、それぞれの分子の浅い適用範囲を提供するので、それぞれの区分において読み取りを別々に組み立てることによってアセンブリプロセスを開始することが、不可能である（そうでなければ、当然の手法である）。この実施例では、代わりに、アセンブリプロセスは、累進的に大きくなるアセンブリユニットを構築することによって進行させる。これらのユニットが数ｋｂの長さになると、所定のユニットが所定の分子（同じ遺伝子座における）からの読み取りと重複する確率が高くなり、したがって、ユニットに対して生じるバーコードの多くを確認することが可能であり、故にバーコードをグループ化し、故にそのグループを組み立てることが可能である。これは、それぞれの区分からの読み取りを別々に組み立てることに類似している。

Ｓｕｐｅｒｎｏｖａアルゴリズムがこの後に続き、したがって、バーコードの主な使用を延期する。始めるにあたり、ＤｅＢｒｕｉｊｎグラフのアルゴリズムに取り組み、ＤＩＳＣＯＶＡＲの方法を全ゲノムデータセットの希望に適合させ、バーコード付きデータを利用した。ｋ−ｍｅｒ（いくつかの実施形態ではＫ＝４８）にプレフィルタを欠けて、１つのバーコードのみに存在するものを除去し、したがって偽ｋ−ｍｅｒ、すなわち試料に不在のものの発生を低減した。残りのｋ−ｍｅｒを初期指向グラムに形成し、ここでは、端部が非分枝ＤＮＡ配列を表し、接している端部がＫ−１塩基により重複していた。次に操作を実施して欠損ｋ−ｍｅｒを回収し、残留偽ｋ−ｍｅｒを除去した。この時点でグラフ（基礎グラフと呼ばれる）は、完全な４８−ｍｅｒ反復と共に真の試料ゲノム配列を崩壊させることによって得られるものの近似である。

次に、それぞれの読み取り対では、可能であれば、１つのパスまたは時々それ以上のパスがグラフに見出され、元の挿入の配列を表す可能性があった。これらのパスは、基礎グラフにおける端部の識別子に対応する整数の配列として、表れた。Ｋ＝２００塩基で完全に重複する２つのパスがある場合、パスは、同値関係を介して形式的に結合した。このことは新たな有向グラフを生じ、これはスーパーグラフと呼ばれ、この端部は整数の配列により標識され、基礎グラフにおけるパスを表した。それぞれのスーパーグラフの端部をＤＮＡ配列に翻訳することができる。スーパーグラフの端部が接している場合、これらの会合配列は、Ｋ-１塩基（この実施例ではＫ＝４８）により重複した。しかし、スーパーグラフは、完全な２００−ｍｅｒ反復と共に真の試料ゲノム配列を崩壊させることによって得られるものの近似を表す。したがって、基礎グラフよりはるか多く分割された。

アセンブリプロセスの残りは、このグラフを改善することを意図して修飾する、一連の操作からなる。これらの操作を促進し、個別のアセンブリの性質を理解するため、グラフを、ラインと呼ぶユニットに分解した。図７を参照すると、ラインは延長された線状領域であり、「バブル」によってのみ区切られていた。バブルがグラフに配置され、そこでは配列が再代替的パスに沿って一時的に逸脱し、次に接続されている。初めは、大部分がゲノムのヘテロ接合部位から生じる。図７において、それぞれの端部はＤＮＡ配列を表す。パネル７０１において、部分７０２は、アセンブリグラフのラインを記載し、両末端が単一の端部で結合している非環式グラフの部分である。ラインは５個の共通分節及び４個のバブルの間を互い違いになり、そのうちの３個は２つの分枝を有する。第３のバブル７０３は、より複雑である。グラフ全体を、それぞれの端部が特有のラインにあるように区分化することができる（縮合している場合に可能であり、単一端部ライン及びサークルが含まれる）。パネル７１１は、ライン７０２と同一のライン７１２を示すが、ここではそれぞれのバブルが、全てのパスからなるバブルに置き換えられている。この変化の後、それぞれのバブルは平行端部のみからなる。

ラインを使用して、スーパーグラフに足場を設けることができる。このことは、２つのラインの相対的順序及び配向を決定し、次に端部での接続を切断し、次にラインの間に特別な「ギャップ」端部を挿入することを伴う。最終結果は新たなラインであり、これはギャップ端部のみからなる特別な「バブル」を有する。続く操作（後に記載される）は、これらギャップのいくつかを除去し、配列に交換することができる。

足場の設定は、読み取り対を使用して、最初に実施した。１つのラインの右端が読み取り対により別のラインの左端と明白に接続している場合、これらを接続させることができる。読み取り対は、短いギャップに届くことができる。

大きなギャップにわたって足場を設定するため、バーコードを使用した。簡潔には、２つのラインがゲノムにおいて実際に互いに近い場合、高い確率で、多数の分子（区分内）が２つのラインの間のギャップを架橋した。したがって、任意のラインにおいて、同じバーコードを多く共有する他のラインを探すことによって、近隣に候補ラインを見出すことができる。次にこれらのラインの代替的な順序及び配向（Ｏ＆Ｏ）を試験し、組合せ爆発を避けるために、試験をラインの小さなセットに慎重に限定した。

このアセンブリにおける全てのラインには、初期コンピュータ処理を実施した。コンピュータ処理は、それぞれのラインに線形座標系を指定し、特有に設置された読み取りの位置をマーク付けし、バーコードによって系統付けた。ここで所定のラインセットＳでは、代替的なＯ＆Ｏの可能性を以下のようにスコア付けすることができる。したがって、ＳにおけるそれぞれのＯ＆Ｏは、仮定の結合ラインにそってバーコード付き読み取り位置の配列を生じた。所定のＯ＆Ｏのためにスコアがコンピュータ処理され、これは、全ての構成バーコードの合計であった。それぞれのバーコードでは、最初にそのバーコード（結合ラインにおける）の連続読み込み配置の間の平均分離をコンピュータ処理した。次に、これらの配置を順番に横断して、１つの構成ラインから別のものへのジャンプを架橋した継続配置の対を見出し、したがってこれらは誤接続を表す。この分離は、この対をバーコードの平均分離により分けた。商が固定結合より小さい、例えば。２．０であった場合、恐らくノイズであると推測しえ廃棄した。残りの商をスコア合計に加えた。

スコアが、同じラインのセットにおいて競合的に試験したＯ＆Ｏの可能性より少なくとも固定量で下回る場合、所定のＯ＆Ｏを「勝利者」として処理した。これに基づいて、バーコードの使用によってラインに足場を設定した。

アセンブリに足場を設定すると、いくつかのギャップを配列で埋めることができる。短いギャップでは、ギャップの両側の読み取り対が届き、介在配列を覆うことができ、このことが推定され得る。長いギャップでは、最初にギャップの左及び右側に近位の配列に生じたバーコードが見出される。次に、これらのバーコードにおける全ての読み取りが見出される。この読み取りのセットは、正確にはギャップの中にあるが、依然としてこのセットよりほぼ１０倍大きい読み取りを含む（それぞれの液滴は約１０個の分子を含有する）。読み取りの全セットを組み立てた。ギャップ遺伝子座の外側にある読み取りは、低い適用範囲になる傾向があり、したがって組み立てなかった。このように、典型的にはギャップをグラフの塊で埋める、これによって、アセンブリからギャップを取り除くことが可能であった。塊は単一の配列でなくてもよい。例えば、この段階でギャップ内のヘテロ接合部位は、簡単なバブルとして典型的に表れる。

アセンブリプロセスの最終ステップは、ラインの位相である。図７を参照すると、最初にそれぞれのラインにおいて、全ての簡単なバブル、すなわち２つの分枝だけを有するバブルを見出すことができる。次に分子のセットを定義した。同じバーコードからのものであり、ラインに発生し、非常に大きなギャップを有さない（＞１００ｋｂ）一連の読み取りによって、これらを定義した。

「位相」は、それぞれのバブルの配向であり、一方の分枝を「上側」、他方を「下側」に配置している。最初に任意配向を選択した。それぞれの分子がいくつかのバブルに接触し、したがって（所定の位相に対して）上側では＋１、下側では−１、またはサイレントでは０のエントリーを有する配列として表すことができる。位相は、それぞれの分子が合着している場合、「良好」であり、ほぼ全ての１、またはほぼ全ての−１（及びサイレント位置では０）を含有する。したがって、位相のスコアは、最大（プラス、マイナス）−最小（プラス、マイナス）の全ての分子の合計であると定義した。

次にこの実施例は、反復摂動を実施し、それぞれいくつかのバブルをフリップし、位相スコアを増加した摂動のみを保存した。３種類の摂動を試みた。（ａ）所定の分子のバブルをフリップして、完全に合着させた。（ｂ）個別のバブルをフリップした。（ｃ）所定の点で回転させて、全てのバブルを左にフリップした。

ここで初期位相がもたらされた。次にその弱点を考慮することができる。第１に、バブルのフリッピングが、スコアに対して小さすぎる効果を有する場合、位相操作から除外した。例えば、バブルは、長さが試料によって固定されていたがデータ生成の間に変わった、長いホモポリマーに生じることがある。第２に、回転がスコアに対して小さすぎる効果を有する場合、位相は、回転点にいて壊れ、所定の足場に多数の位相ブロックをもたらす。例えば、このことは、所定の試料に十分に長いブロックがホモ接合体である場合に発生し得る。

いくつかのアプリケーションでは、Ｓｕｐｅｒｎｏｖａを単一のＬｉｎｕｘ（登録商標）サーバにおいて実行されるように設計した。ヒトサイズのゲノムでは、典型的なピークメモリ使用量は３００ＧＢであったので、≧３８４ＧＢＲＡＭを有するサーバを使用することが推奨される。柱時計実行時間が表１に示されている。固定適用範囲では、メモリ及び実行時間は、ゲノムサイズの関数としてほぼ線形であった。

実施例６−Ｓｕｐｅｒｎｏｖａの出力
図３を再び参照すると、Ｓｕｐｅｒｎｏｖａアセンブリは、二倍体ゲノムの生物学を捕捉することができる。位相ブロックは、「メガバブル」として現れ、それぞれの分枝は１つの親対立遺伝子を表し、一方、メガバブルの間の配列は、名目上ホモ接合体である。連続したメガバブルは、互いに位相していない（している場合、これらは組み合わされている）。示されているメガバブルの鎖は所定の足場を含む。大規模な特徴に加えて、Ｓｕｐｅｒｎｏｖａグラフは、長さがデータによって完全に決定されていない長いホモポリマーにおいてギャップ及びバブルなどの小さな特徴をコードする。図３において、Ｓｕｐｅｒｎｏｖａアセンブリは二倍体ゲノム構造をコードする。それぞれの端部は配列を表す。メガバブルアームは、所定の遺伝子座における代替的親対立遺伝子を表し、メガバブルの間の配列はホモ接合体である（または、Ｓｕｐｅｒｎｏｖａにおいてそのように現れる）。小規模な特徴３１１は、ギャップ及びバブルとして現れる。

図５を再び参照すると、ＳｕｐｅｒｎｏｖａアセンブリをＦＡＳＴＡにいくつかの別個の方法で翻訳することができ、このことは異なるアプリケーションにおける有用性を証明し得る。これらは、完全「生」グラフ５０１の提示を可能にする、または微細な特徴を削除する（小さなバブルにおいて最も可能性のある分枝を選択肢、ギャップの端部をＮに交換する）。メガバブル型５０２、偽ハップ型５０３及び偽ハップ２型５０４においてメガバブル分枝点がどのように取り扱われるかに応じて、結果を包括するのに１つを超える方法が存在する。微細な特徴を削除することは、いくつかの場合において間違ったバブル分枝が選択されるように、情報のいくらかの消失を伴うことに留意すること。

グラフのサイクルは興味深い試験項目を提供している。サイクルは、グラフのサイクル部分を含む１つ以上の端部のセットを意味する。これらは完全なグラフでは損なわれることなく残されているが、他の形態では、それぞれの端部を横断するサイクルを介してパスにより少なくとも１回、続いてＮにより置き換えられている。このことは、残念なことにギャップ（これは原則として任意の配列を表し得る）を強調し、一方、完全なグラフは、どの配列が遺伝子座に存在し得るかを正確に示している。

図５は、いくつかの型を示している。５０１では、生型は、ＦＡＳＴＡ記録として（赤色分節として示されている）アセンブリにおける全ての端部を表す。これらは、マイクロバブルアームとギャップも含む（読み取り対により架橋されたギャップに、１００Ｎまたはそれより大きい数字を含む記録として印刷されており、推定ギャップサイズである。Ｓｕｐｐ．Ｎｏｔｅ６）。未解明のサイクルは、サイクルを介するパス、続いて１０Ｎにより置き換えられた。バブル及びギャップは、一般に１０〜２０ｋｂに１回現れる。生グラフ記録は、メガバブルアームよりも、ほぼ２桁短い。生グラフにおけるそれぞれの端部では、ＦＡＳＴＡファイルに書き込まれた端部も存在し、逆補体配列を表す。残りの出力型では、最高の適用範囲を有する分枝を選択することによって、それぞれのバブルを平らにし、ギャップを隣接配列と結合させ（Ｎを残し）、逆補体端部を取り去った。第２の型の５０２では、それぞれのメガバブルアームはＦＡＳＴＡ記録に対応し、それぞれの介在配列も同様である。第３の型の５０３は、偽ハップ型であり、足場１つあたり単一の記録を生成する。例えば、２つの型の絵図では、上側の７個の赤色端部（７個のＦＡＳＴＡ記録に対応する）が単一のＦＡＳＴＡ記録に組み合わされる。メガバブルアームは任意に選択され、それによって多くの記録は、母系及び父系対立遺伝子を混合している。第４の型の５０４は、それぞれの足場において２個の「平行」偽ハプロタイプが作り出され、別々のＦＡＳＴＡファイルに配置されることを除いて、偽ハップの選択肢と類似している。

実施例７−ＤＮＡの推定長さ
それぞれのアセンブリにおいて、区分になり、したがって配列決定されたＤＮＡ分子の統計を推定することができ、このように、入力材料の品質及びライブラリー構築の初期ステップの際の分解を反映している。表１は、Ｆの欄に、これらの分子の長さ重み付け平均（ＬＷＭ）の推定値を示している。イヌＤＮＡは、８３〜９０ｋｂの範囲であり、一方、ヒトＤＮＡは９２〜１３９ｋｂの範囲であった。この差は、ＣｐＧアイランドなどの塩基組成における差に起因し得ると想像される。全てのイヌＤＮＡは、新鮮な血液から得て、最長のヒトＤＮＡ試料も同様であった。他のヒト試料は、細胞株から得た。最短のヒト試料（ＮＡ１２８７８）は、このＤＮＡ試料が多くの実験で対照として使用されたので、ＤＮＡ管を繰り返し扱って多数のライブラリーを作り出したために最短になった。

実施例８−ヒトアセンブリの評価
この実施例は、７個のアセンブリ及び６個のヒトアセンブリを評価し、低い適用範囲（３０×）ＰａｃＢｉｏから、かなり高い適用範囲での多数の技術の複雑な組合せまで、広範囲の実験室手法を包含した（表１）。それぞれのアセンブリでは、いくつかの統計が、これらの統計がコンピュータ処理され得る程度でコンピュータ処理された。これらの統計をコンピュータ処理する前に、第１のステップは、それぞれのアセンブリから１０ｋｂより短い足場を全て取り除き、それによって、そうでなければゲノムの適用範囲を含む統計に有意な影響を与える、アセンブリの定義に使用された実際のカットオフにおける差を正規化した。

アセンブリの連続性を評価するため、第１ステップはＮ５０コンティグのサイズをコンピュータ処理した。７個のＳｕｐｅｒｎｏｖａアセンブリの平均は、１１７ｋｂであり、ほとんど変動がなかった。ＰａｃＢｉｏに基づいた３個のアセンブリは、かなり大きなコンティグを有し、一方、他のアセンブリのコンティグは、Ｓｕｐｅｒｎｏｖａの２倍以下の短さであった。

Ｓｕｐｅｒｎｏｖａアセンブリは、全て二倍体であり、Ｎ５０位相ブロックサイズは２．７〜１０．７Ｍｂの範囲であり、変動性は、おそらく様々な祖先及び様々なＤＮＡ長さに起因していた。他の６個のヒトアセンブリのうち、７０２×アセンブリのみが二倍体であり、０．５ＭｂのＮ５０位相ブロックサイズを有した。Ｌｉｎｋｅｄ−Ｒｅａｄの基礎となる大きな分子は、他の技術により達成することが難しい長い位相ブロックを可能にした。

Ｓｕｐｅｒｎｏｖａアセンブリの足場は、１５〜１９Ｍｂ（Ｎ５０）の範囲であった。ＰａｃＢｉｏのみのアセンブリが、かなり短い足場を有したので、４個の組合せアセンブリは、２３〜４３Ｍｇの範囲の長い足場を有した。これらの足場におけるギャップ（Ｎの割合）も、ＰａｃＢｉｏアセンブリの０％から、Ｓｕｐｅｒｎｏｖａアセンブリの２％、アセンブリＩの１０％に大きく変動した。

アセンブリ連続性へ任意の評価は、これらの同じアセンブリの正確性及び完全性の評価によって加減される。ヒト基準配列と比較することによって、このことを行うことができるが（後にそのように行うが）、理想的には、組み立てられた同じ試料からのグラウンドトルースデータ（ｇｒｏｕｎｄｔｒｕｔｈｄａｔａ）を利用することである。これらのデータは、独立して配列決定され、組み立てられたクローンからなり、ゲノムを代表していた。わずか２つの試料しか見出すことができず、そのために、このようなトルースデータが利用可能であり、そのために高い品質のＤＮＡがアセンブリを作り出すために調達することができた。これらは、ヒトゲノムプロジェクトの生体ドナーからの試料であり、３４０Ｍｂの最終クローンがプロジェクトの際に多額の費用をかけて配列決定され、組み立てられ、以前に配列決定され、組み立てられたＮＡ１２８７８は、４Ｍｂのランダムクローンである。ＨＧＰクローンは真にランダムではないが、１つの理由としては、これらが適度に代表的である非常に多くのゲノム（約１０％）を含むことである。

所定の試料では、それぞれの染色体において正確な配列が知られている場合、アセンブリを完全に代表するゲノムの最大領域を列挙することによって、試料のアセンブリの正確さを評価することができる。そのような領域の大部分は、アセンブリにおいて誤差またはギャップにより終了している。（間違った対立遺伝子の表示は誤差としてカウントされることに留意すること。）そのような完全に代表的な領域のＮ５０サイズは、「Ｎ５０完全伸展」と呼ばれた。二倍体ゲノムでは、二倍体アセンブリ（したがって、全ての染色体を表示するように試みる）及び全く同じ試料からの代表的な最終配列（したがって、染色体の試料を提供する）を両方とも有する場合、Ｎ５０完全伸展に近似し得る。表１の試料のうち、アセンブリＦ及びＧのみが、これらの要件を満たしている。

これらのＳｕｐｅｒｎｏｖａアセンブリのＮ５０完全伸展は、約１９ｋｂであることが見出された（表１）。更に、最終配列とアセンブリとの整列を検査すると、完全伸展を終了させるアセンブリ欠陥の生活な性質が明白になる。例えば、図８（及び数千の他のクローンの対応する整列）は、長いホモポリマー付近の誤差の圧倒的な多さを示し、これはライブラリー構築における欠陥、配列決定における欠陥、アルゴリズムにおける欠陥、またはおそらく最終配列における誤差に起因し得る。より詳細には、図８は、１６２ｋｂ領域（ネアンデルタール人由来の領域を包含するので興味深い）の内部を示し、アセンブリと、領域の最終配列（＋２つのギャップ）との間に７つの差異がある。差異のうちの１つは、単一塩基不整合である。全てのアセンブリ読み取りがアセンブリ配列を支持するので、最終配列が、この場合は（Ｓｕｐｅｒｎｏｖａアセンブリではなく）間違いである可能性が高いと思われる。事実、この部位はＧＲＣｈ３８により修正され、本発明者たちのアセンブリに整合した。残り６つの差異は、長いホモポリマーにおける挿入欠失である。これらの遺伝子座でデータを検査すると、典型的には、非常に低い品質の読み取りが見られる（通常、ホモポリマーの一方の側の品質は崩壊している）。したがって、これらの差異がアセンブリの誤差に起因することは、かなり可能性が高いことである。

この比較はアセンブリに２つの捕捉ギャップも表示し、一方のサイズが４６塩基（最終配列で測定）であり、読み取り対により捕捉され、他方のサイズは１７６５塩基であり、読み取り対により捕捉されていない。短いギャップは、複雑さの低い配列に接している。長いギャップでは、ギャップを埋める１２２５塩基のサイズの別々の「スタンドアロン」コンティグがあり、これらは最終配列に完全に整合しており、改善されたバージョンのアルゴリズムが、少なくともこの配列をギャップ内に配置し得ることを示唆している。

実施例９−アセンブリの忠実度
この実施例は、ヒトゲノムアセンブリの忠実度を評価する２つの手法を考慮する。第１の手法は、全く同じ試料から得た基準配列に比較することによって、所定の試料のアセンブリの特性を測定することであった。第１の手法では、真の二倍体アセンブリを有することが必要であった。第２の手法は、ヒト基準配列と比較することによって、アセンブリを測定することであり、いくつかの差は、元の試料間の善意の差に起因することが理解される。

親配列データを使用して、アセンブリを評価することもできる。特に、このことは、二倍体アセンブリにおける位相ブロックの正確性に対する直接的な読み出しを提供することができる。これは、２つの現存する二倍体ヒトアセンブリでは親が配列決定されていなかったので、ヒトゲノムの前では行われたことがない。この実施例は、４個のＳｕｐｅｒｎｏｖａアセンブリ（表１のＣ、Ｅ及びＧ）を有した。親が配列決定されており、位相ＶＣＦが入手可能であった。この実施例は、これらのアセンブリの位相正確さの推定を可能にする。

これを行うためには、それぞれのメガバブルにおいて、異なる塩基を表し（ヘテロ接合ＳＮＰ）、ＶＣＦにおいて位相された２つの位置が、ＧＲＣｈ３７の同じ位置にマップされ得る交互分枝に見出されたとき、メガバブルの「上側」分枝が母系または父系対立遺伝子のどちらかに指定されるかに応じて、０または１のいずれかを記録した。全て０、または全て１の配列は、完全な位相を表している。評価は、全ての「票」（０または１）をカウントし、全ての「間違い票」（大多数が０の場合は１、大多数が１の場合は０）をカウントし、サイズが≧１００ｋｂのメガバブルを全て合計した。所定のアセンブリの位相における全体誤差率は、（間違い票）／票であり、単一のメガバブルにおける「長いスイッチ」誤差であってもこの率を上昇させ得ることに留意すること。この実施例は、「間違い染色体」事象をスクリーンに表示しなかったので、誤差率（ここでは平均して５０％）にも起用している。

観察された誤差率は（表１に示されており）、アセンブリＣ（ＨＧ００７３３、プエルトリコ人）では０．０８９％（１３６８誤差）であり、アセンブリＥ（ＮＡ２４３８５、アシュケナージ）では０．０５３％（６４０誤差）であり、アセンブリＧ（ＮＡ１２８７８、ヨーロッパ人）では０．０１８％（２７０誤差）であった。アセンブリＧの２７０誤差のうち、１７８は、単一の２Ｍｂメガバブルにおけるものであり、「長いスイッチ」誤差を表した。同様に、アセンブリＥの６４０誤差では、５５６が２つの事象のものであった。アセンブリＧでは、９７％のメガバブルが検出された位相誤差がなく、アセンブリＥでは９６％であり、一方、この数字は、アセンブリＣではわずか６６％であり、プエルトリコ人試料の位相ルースデータの不正確性を示唆している。全体的に、このデータは位相誤差が非常に希な長いスイッチ誤差（おそらく、アセンブリ１個あたり１〜２）からなり、単離された短いスイッチ事象と一緒になると、メガバブルの数パーセントに発生することを示唆している。

基準試料の比較は、下記に記載されている。アセンブリの完全性についての測定は、使用される床のサイズに大きく依存している。この実施例は、任意のカットオフの１０ｋｂを選択し、このサイズより小さい足場を無視した。異なるアセンブリの相対的完全性を測定するため、この実施例はｋ−ｍｅｒのカウントを選択し、それはこの手法が不完全であっても、簡単であり、そのため解釈することが比較的単純明快なためであった。更に、この方法は、非常に高い誤差率を有したアセンブリにおける領域を正確に罰する。この実施例はＫ＝１００を使用し、２つの考慮を釣り合わせた。第１に、分析者がこれらについて把握しないので、複製ｋ−ｍｅｒの割合は小さいことが特に重要であると考えた。複製ｋ−ｍｅｒの割合は、ＧＲＣｈ３７では２．３％である。第２に、この実施例は多形へ多くのｋ−ｍｅｒを失い過ぎることを望まなかった。多形率の１／１０００を想定すると、約１０％のｋ−ｍｅｒが試料間の差異のために欠損する。

次にこの実施例は、ヒトアセンブリの完全性を、アセンブリに生じるＧＲＣｈ３７における非複製ｋ−ｍｅｒの割合であると定義した。一倍体アセンブリの適用範囲は、そのことを標識した（表１）。Ｓｕｐｅｒｎｏｖａアセンブリでは、この実施例は、一倍体適用範囲（出力型偽ハップを使用した）または二倍体適用範囲（出力型偽ハップ２を使用した）のいずれかをコンピュータ処理することができた。この実施例は、いくらか高い適用範囲を生じるであろうが、ｋ−ｍｅｒを生グラフに使用しなかった。ＹＨアセンブリでは、アセンブリのハプロタイプに分ける直接的な方法がなかったので、この実施例はアセンブリ全体を使用し、適用範囲の統計を二倍体として報告した。

次にこの実施例はミスアセンブリを評価した。これを実行するため、所定のアセンブリ及び固定サイズ（１Ｍｂ、１０Ｍｂ）では、研究は末端ｋ−ｍｅｒが基準配列に正確に１回生じているアセンブリにおける所定のサイズの全ての足場分節を選択した。この実施例は、末端ｋ−ｍｅｒ位置が一定している分節の割合を報告し、このことは、これらが同じ染色体の中に正確な順序及び配向で置かれ、長さが固定サイズの１０％以内であるフラグメントを確定することを意味する。この実施例は、ギャップのサイズが不正確または多形的であり得るので、基準において１００以上のサイズのギャップを架橋した事例を除外した。

実施例１０−コンピュータ処理の利益
前述の実施例は、本明細書に開示されている技術の実施形態を示している。ＰａｃＢｉｏにより提供されるものなどの現存する技術と対照的に、本明細書の実施例は、基礎となるバーコード技術によってもたらされる異なるデータ型から出発した。このように、これらの実施例は、ノイズの少ないデータを考慮し、低い誤差率及び高い正確性をもたらした。

本明細書に開示されている技術は、前置フィルタリングステップを含む。フィルタリングステップは、配列決定装置からの塩基品質スコアの利用を含む。更に、このステップは、１回を超えて生じるｋ−ｍｅｒを考慮する。このステップはバーコードの利用を更に含み、それぞれのｋ−ｍｅｒは、２つの個別のバーコードから生じることが見えるはずである。フィルタリングステップの大きな利点は、少なくとも２倍の桁の大きさで出発データの量を低減する能力であった。

本明細書に開示されている技術は、簡単なデータ構造：ベクターのベクター（ｖｅｃｔｏｒｓｏｆｖｅｃｔｏｒｓ）を利用する。ベクター化コンピュータ処理は、速いコンピュータ処理時間を可能にした。スパースベクター／マトリックスが、いくつかのアプリケーションにおいて生じる場合、ベクター化コンピュータ処理は、コンピュータ処理時間における大きな低減のための操作が容易である。

本明細書に開示されている技術は、大規模な並行コンピュータ処理のためにＧＰＵではなくＣＰＵを用いるループを利用している。いくつかのアプリケーションでは、ＧＰＵが用いられる。ある特定の実施は、ＣＰＵ及びＧＰＵの両方が用いられることを含む。並行コンピュータ処理の長所は、コンピュータ処理時間の低減を可能にすることである。

本明細書に開示されている技術は、品質スコア及びグラフの全体にわたるパス（配列及び端部を含む）の各記録に適用された損失なしランダムアクセス圧縮を利用する。圧縮の長所は、分析に必要なメモリを少なくするできること及びデータまたは分析結果を保持する必要な記憶容量を少なくできることである。

ＰａｃＢｉｏのＦＡＬＣＯＮアセンブラと比較して、これらの実施例は、コンピュータ処理時間を１８０倍低減し、メモリの利用を２１倍低下させた。

実施例１１−コンピュータ処理構造
図９は、本明細書に記載されているデノボアセンブリシステム９０１の非限定ブロックダイアグラムを示すシステムは、少なくとも１つのＣＰＵ９０２、メモリ９０３及び記憶装置９０４を含むコンピュータ処理構造は以下のように機能する。配列データ９１１のセットをデノボアセンブリシステム９０１に供給する。前置フィルタ９２１は、短い読み取り配列データの生成に使用された配列決定装置の塩基品質スコアを利用し、ｋ−ｍｅｒを前処理のために利用する。次にアセンブラ９２２は、処理アセンブリグラフを作り出す。この初期アセンブリは、「ラフスケッチ」アセンブリになり、未解明の複雑さの区域を、例えば、一見して曖昧であり得る領域を一時的に無視するので、コンピュータ処理能力を保存する。

初期アセンブラ９２２の出力を曖昧アセンブラ９２３に供給する。曖昧な区域は、バーコード付き配列決定データ９１２を用いることによって更に処理され、曖昧な区域の正確なアセンブリを作り出すことができる。曖昧プロセッサ９２３の出力は、アセンブリプロセスの際に作り出された配列決定読み取りから誘導されて、特定の染色体、細胞、個体群、ハプロタイプなどに対してアドレス可能にされるｋ−ｍｅｒを含む。アセンブラ９２４は、図２に示されているステップに基づいて、真の二倍体を組み立てるために用いられる。バーコード付き読み取りはアセンブリに戻され、遺伝子座は、正確にどこの配列のものが不明であるか確実に確認され、そのようにマーク付けされる。最終アセンブラ９２５は、網羅的アセンブリグラフを基準配列と整列させるために使用される。端部が個別に整列される。一致しない整列があると、不一致はこれらの端部の連鎖を整列させることによって解明される。

このシステムは、品質スコア及びグラフの全体にわたるパスの１つ以上の記録を圧縮する、損失なしランダムアクセス圧縮器９２６を更に含むことができる。

様々なアプリケーションにおいて、フィルタ（９２１）、アセンブラ（９２２、９２３、９２４及び９２５）、ならびに圧縮器（９２６）をハードウエアもしくはソフトウエアにおいて、またはこれらの組み合わせにおいて実現することができる。フィルタ（９２１）、アセンブラ（９２２、９２３、９２４及び９２５）、ならびに圧縮器（９２６）を個別または一緒に構成して、開示されている１つ以上の機能を実行させることができる。いくつかの実施では、フィルタ（９２１）、アセンブラ（９２２、９２３、９２４及び９２５）、ならびに圧縮器（９２６）の順序を交換することができる、またはこれらの２つ以上を単一の実行モジュールに集積化することができる。

本発明の好ましい実施形態が本明細書において示され、記載されてきたが、そのような実施形態は単なる例として提供されていることが、当業者には明白である。多数の変更、改変及び置き換えが、当業者によって、本発明から逸脱することなく生じる。本明細書に記載されている本発明の実施形態に対する様々な代替案を、本発明の実施に用いてもよいことが、理解されるべきである。

Claims

生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリをコンピュータにより実現する方法であって、
ａ）１台以上のコンピュータにより、短い読み取り配列データに基づいて初期アセンブリを生成し、前記初期アセンブリが曖昧な配列の１つ以上の未解明領域を含み、前記短い読み取り配列データが、前記核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された前記短い読み取り配列データのサブセットが１つ以上の共通のタグを共有するように、前記生物の長い範囲の配列構成を保存するためにタグ付されることと、
ｂ）前記１台以上のコンピュータにより、前記１つ以上の共通のタグを利用して前記初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の１つ以上の未解明領域を解明することであって、前記複数の局所アセンブリが、
（ｉ）前記初期アセンブリグラフを暫定基準として使用すること、
（ｉｉ）明白な配列の端部を確認すること、
（ｉｉｉ）前記明白な配列とある数の前記１つ以上の共通のタグを共有する近隣端部を確認することであって、前記１つ以上の共通のタグの前記数が閾値数を超える、こと、及び
（ｉｖ）前記明白な配列の端部を（ｉｉｉ）において確認された前記近隣端部と一緒にすること
によって生成される、ことと、
ｃ）前記１台以上のコンピュータにより、前記複数の局所アセンブリに基づいて網羅的アセンブリを生成することと、
ｄ）前記１台以上のコンピュータにより、前記１つ以上の共通のタグにより示された前記長い範囲の配列構成と一致しない配列データを除去することによって、前記網羅的アセンブリをクリーニングすることと、
ｅ）前記１台以上のコンピュータにより、前記１つ以上の共通のタグを利用して前記網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、位相ヌクレオチド配列を分離し、
前記位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成されることと
を含む、前記方法。
前記位相ゲノムが二倍体ゲノムのためのものである、請求項１に記載の方法。
前記短い読み取り配列データが単一のライブラリーから生成される、請求項１に記載の方法。
前記短い読み取り配列データが、前記生物のゲノムの５０×以下の適用範囲をもたらす、請求項１に記載の方法。
前記短い読み取り配列データが、この読み取りより２×〜１０００×長い出発配列の構成を保存するためにタグ付けされる、請求項１に記載の方法。
前記短い読み取り配列データが、１０ｋｂ〜５Ｍｂの出発配列の構成を保存するためにタグ付けされる、請求項１に記載の方法。
前記初期アセンブリが初期アセンブリグラフである、請求項１に記載の方法。
前記初期アセンブリグラフが、
ａ）前記生物の前記ゲノムに存在する高い確率を有する複数のｋ−ｍｅｒを確認すること、
ｂ）前記１つ以上の共通のタグを使用して、ｋ−ｍｅｒがそれぞれ生じる出発配列の数に基づいて複数のｋ−ｍｅｒをフィルタにかけること、及び
ｃ）前記複数のｋ−ｍｅｒのうち共通のｌ−ｍｅｒを共有するｋ−ｍｅｒを一緒にして、ｌ＜ｋである初期アセンブリを形成すること
によって生成される、請求項７に記載の方法。
前記１台以上のコンピュータにより、前記初期アセンブリを生成する前に前置フィルタを適用することを更に含み、前記前置フィルタが、
ａ）前記短い読み取り配列データの生成に使用された配列決定装置の塩基品質スコアを利用すること、及び
ｂ）ｋ−ｍｅｒがそれぞれ２つの別個の共通のタグから生じることが見えるように、一回を超えて発生するｋ−ｍｅｒ及び前記１つ以上の共通のタグを利用すること
を含む、請求項８に記載の方法。
前記１台以上のコンピュータにより、無損失ランダムアクセス圧縮を、前記品質スコアのそれぞれの記録及び前記グラフの全体にわたるパスに適用することを更に含む、請求項９に記載の方法。
方法が、前記１台以上のコンピュータにより、
ａ）曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の１つ以上の未解明領域を排除すること、及び
ｂ）元の短い読み取り配列データを参考にして、前記初期アセンブリグラフのギャップを埋めること
によって、前記初期アセンブリグラフを改訂することを更に含む、請求項８に記載の方法。
ｋが２４と９６の間である、請求項８に記載の方法。
前記網羅的アセンブリが、
ａ）ｚ＞ｋである前記生物の前記ゲノムに存在する高い確率を有する前記複数の局所アセンブリにおいて複数のｚ−ｍｅｒを確認すること、及び
ｂ）前記複数の局所アセンブリにおける前記ｚ−ｍｅｒを一緒にすること
によって生成される、請求項８に記載の方法。
ｚが１００と３００の間である、請求項１３に記載の方法。
前記短い読み取り配列データが、１０ｎｇ未満のＤＮＡ入力材料から生成される、請求項１に記載の方法。
前記短い読み取り配列データが、２ｎｇ未満のＤＮＡ入力材料から生成される、請求項１５に記載の方法。
前記アセンブリが６０分未満で完成される、請求項１に記載の方法。
前記１台以上のコンピュータが、５１２ＧＢ未満の記憶容量を含む、請求項１７に記載の方法。
前記１台以上のコンピュータが、６０ＧＢ未満の記憶容量を含む、請求項１８に記載の方法。
前記アセンブリが２０分未満で完成される、請求項１に記載の方法。
前記１台以上のコンピュータが、５１２ＧＢ未満の記憶容量を含む、請求項２０に記載の方法。
前記１台以上のコンピュータが、６０ＧＢ未満の記憶容量を含む、請求項２１に記載の方法。
前記生物がヒトである、請求項１に記載の方法。
前記ＤＮＡ配列データが全ゲノム配列データであり、前記位相ゲノムアセンブリが全ゲノムアセンブリである、請求項１に記載の方法。
前記１台以上のコンピュータが、１立方フィート以下の物理的空間を占める、請求項１に記載の方法。