Nothing Special   »   [go: up one dir, main page]

JP6735348B2 - 全ゲノム配列データのデノボアセンブリのためのシステム、方法及び媒体 - Google Patents

全ゲノム配列データのデノボアセンブリのためのシステム、方法及び媒体 Download PDF

Info

Publication number
JP6735348B2
JP6735348B2 JP2018542282A JP2018542282A JP6735348B2 JP 6735348 B2 JP6735348 B2 JP 6735348B2 JP 2018542282 A JP2018542282 A JP 2018542282A JP 2018542282 A JP2018542282 A JP 2018542282A JP 6735348 B2 JP6735348 B2 JP 6735348B2
Authority
JP
Japan
Prior art keywords
assembly
sequence
genome
item
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018542282A
Other languages
English (en)
Other versions
JP2019511908A5 (ja
JP2019511908A (ja
Inventor
デイビッド ジャッフェ,
デイビッド ジャッフェ,
パトリック マークス,
パトリック マークス,
マイケル シュナール−レビン,
マイケル シュナール−レビン,
ニール ウェイセンフェルド,
ニール ウェイセンフェルド,
Original Assignee
10エックス ジェノミクス, インコーポレイテッド
10エックス ジェノミクス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 10エックス ジェノミクス, インコーポレイテッド, 10エックス ジェノミクス, インコーポレイテッド filed Critical 10エックス ジェノミクス, インコーポレイテッド
Publication of JP2019511908A publication Critical patent/JP2019511908A/ja
Publication of JP2019511908A5 publication Critical patent/JP2019511908A5/ja
Application granted granted Critical
Publication of JP6735348B2 publication Critical patent/JP6735348B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Peptides Or Proteins (AREA)

Description

相互参照
本出願は、2016年2月11日出願の米国特許出願第62/294,184号及び2016年5月6日出願の米国特許出願第62/332,914号の利益を主張し、これらは、両方とも全体が参照により本明細書に組み込まれる。
ゲノム配列決定は、医学、法医学及び生物工学の分野において大いに期待されている。様々なDNA配列決定方法が異なる配列決定化学に基づいて開発されており、ゲノム配列決定を実施する機械は、更に強力になり、効率的になってきている。技術的には、生ゲノムデータを取得することができる速度は、この生データをゲノムに、とりわけ、二倍体または倍数体ゲノムに組み立てる能力を超えている。現行の配列組立方法は複雑であり、大量のプロセッサ容量を必要とし、大量のメモリを取る。
個別の生物体または組織のゲノム配列を決定することは、生物学及び医学にとって基本的に重要なことである。数十年間にわたる研究は、この問題に対して無数の実験室及びコンピュータ手法を生み出した。これらは、DNAの入力量、費用、複雑さ及びスケジュールを含む実験上の負担の総計によって劇的に変わり、負担が大きいほど高品質の配列を生じる傾向がある。
低性能の場合では、いくつかの方法は、DNAの短いフラグメントを配列決定し、次に、得られた読み取りを同じ種の一倍体基準配列に整列させて、差を確認し、それによって試料の配列を部分的に推定する。これらの方法は、それぞれ一千個を超えるヒト試料を生成及び分析するために使用され、個体群にわたって並外れて深い情報をもたらしている。しかし、これらの方法は、基準との比較によって本質的に偏向することがあり、一般に、所定の試料に対して新規である、または大規模変化を表す配列を確認することも、親の対立遺伝子における変化と区別することもできない。
対照的に(多くの場合に、長いDNAフラグメントの)データは、基準配列を利用することなく、デノボアセンブリとして知られている方法によって合成することができ、このことは大型で複雑なゲノムにとって特に困難である。課題の核心は、高度に類似した配列を正確に表すことである。有性生殖が母系及父系染色体「コピー」に寄与する真正核生物において、特に厄介な実例が現れる。これらのコピーは、長い伸展では全く類似しているが、いくつかの領域は、劇的に異なっており、小規模の差のみならず、多くの場合に遺伝子コピー数の差をもたらし得る。相同染色体が別々の遺伝子コピーをコードするので、表現型を理解するためには、これらの別々の配列についての知識が必要である。
高性能なデノボ実験室処方であっても、この分野の標準は、相同染色体をコンピュータにより織って、それぞれの遺伝子座において、天然には一般に存在しない単一の一倍体コンセンサスを生じることである。より良いのは、一倍体アセンブリを、2つの由来染色体の間の差の位相カタログと一緒に生成する。
本明細書に提示されている開示は、真の二倍体であるデノボアセンブリを、非常に少ない実験上の負担で作り出すことによって、低性能手法と高性能手法の隙間を埋める。開示されている技術は、また、自動マイクロ流体システムを使用するゲノム分配に基づいている。この技術は、1つのライブラリーからアセンブリプロジェクトのデータ全体を生成することができる。更に、開示されている方法は、約1ナノグラムの高分子量DNAから開始し、これは代替的な手法より約百万倍少ない。有利なことに、データ費用は、読み取り整列に基づいた低性能手法の範囲内であり、プロセスが自動であるので、アセンブリに専門知識を必要としない。
本開示は、短いDNA配列の読み取りを使用して、全ゲノム配列決定読み取りを完全なゲノムにするデノボアセンブリのためのプラットフォーム、システム、媒体及び方法を提供する。この方法は、任意の短い読み取り配列決定技術に適合される。本明細書に記載されている方法は、「位相」コンティグを大きな配列ブロックの中に配置し、大きな挿入欠失、複製及び転位などのゲノム構造の変化を解明する。
本開示の方法は、単一細胞リアルタイム(SMRT)配列決定などの他の短い読み取りアセンブリ技術及び長い読み取り技術と比較して、多くの利点を有する。利点のうちのいくつかには、入力DNAの低減、配列包括度のための要件の低減、アセンブリ時間の低減、処理要件の低減、商品化されたコンピュータ資源によって実施することができるので、商業的な規模拡大性、ならびに全体的な効率及び費用有効性の増加が含まれる。例えば、本開示の方法は、SMRT技術を利用するPacific Biosciences(PacBio)からのFALCONアセンブラと比較して、処理能力にほぼ180倍の低減及びメモリ使用量に21倍の低減を可能にする。加えて、長い読み取り配列決定技術は、10〜20kbなど技術の平均読み取り長さにより制限される。本明細書に記載されている技術は、85〜105kbの範囲の完全位相コンティグ及び長さが少なくとも5Mbの完全位相配列ブロックを生成することが示されている。
1つの態様では、生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリをコンピュータにより実現する方法であって、1台以上のコンピュータにより、短い読み取り配列データに基づいて初期アセンブリを生成し、初期アセンブリが曖昧な配列の1つ以上の未解明領域を含み、短い読み取り配列データが、核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された短い読み取り配列データのサブセットが共通のタグを共有するように、生物の長い範囲の配列構成を保存するためにタグ付されることと、1台以上のコンピュータにより、タグを利用して初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明することと、1台以上のコンピュータにより、複数の局所アセンブリに基づいて網羅的アセンブリを生成することと、1台以上のコンピュータにより、タグにより示された長い範囲の配列構成と一致しない配列データを除去することによって、網羅的アセンブリをクリーニングすることと、1台以上のコンピュータにより、タグを利用して網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、位相ヌクレオチド配列を分離し、位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成されることと、を含む方法が、本明細書に開示されている。ある特定の場合において、ゲノムは二倍体である。ある特定の場合において、短い読み取り配列データは、単一の配列決定ライブラリーから生成される。ある特定の場合において、短い読み取り配列データは、生物のゲノムの50×以下の適用範囲をもたらす。ある特定の場合において、短い読み取り配列データは、この読み取りより2×〜1000×長い出発配列の構成を保存するためにタグ付けされる。ある特定の場合において、短い読み取り配列データは、10kb〜5Mbの出発配列の構成を保存するためにタグ付けされる。初期アセンブリは、初期アセンブリグラフであり得る。ある特定の実施形態において、初期アセンブリグラフは、生物のゲノムに存在する高い確率を有する複数のk−merを確認すること、タグを使用して、k−merがそれぞれ生じる出発配列の数に基づいて複数のk−merをフィルタにかけること及び複数のk−merのうち共通のl−merを共有するk−merを一緒にして、l<kである初期アセンブリを形成することによって生成される。本方法は、1台以上のコンピュータにより、曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の1つ以上の領域を排除すること及び元の短い読み取り配列データを参考にして、初期アセンブリグラフのギャップを埋めることによって、初期アセンブリグラフを改訂することを更に含むことができる。kは、24と96の間であり得る。複数の局所アセンブリは、初期アセンブリグラフを暫定基準として使用すること、明白な配列の端部を確認すること、タグの閾値数を超える数のタグを共有する近隣端部を確認すること及び明白な配列の端部を確認された近隣端部と一緒にすることによって、生成することができる。網羅的アセンブリは、z>kである生物のゲノムに存在する高い確率を有する複数の局所アセンブリにおいて、複数のz−merを確認すること及び複数の局所アセンブリにおけるz−merを一緒にすることによって、生成することができる。zは、100と300の間であり得る。短い読み取り配列データは、10ng未満のDNA入力材料から生成することができる。短い読み取り配列データは、2ng未満のDNA入力材料から生成することができる。いくつかの実施形態において、アセンブリは60分未満で完成され得る。いくつかの実施形態において、1台以上のコンピュータは、512GB未満の記憶容量を含むことができ、ある特定の実施形態において、1台以上のコンピュータは、60GB未満の記憶容量を含むことができる。ある特定の場合において、アセンブリは20分未満で完成され得る。これらの場合において、1台以上のコンピュータは、512GB未満の記憶容量を含む。ある特定の場合において、1台以上のコンピュータは、60GB未満の記憶容量を含む。ある特定の場合において、生物はヒトである。ある特定の場合において、DNA配列データは全ゲノム配列データであり、位相ゲノムアセンブリは全ゲノムアセンブリである。ある特定の場合において、1台以上のコンピュータは、1立方フィート以下の物理的空間を占める。
別の態様では、少なくとも1つのプロセッサ、実行可能な命令を実施するように構成されているオペレーティングシステム、メモリ、及び生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリアプリケーションを作り出すデジタル処理装置により実行可能な命令を含むコンピュータプログラムを含むデジタル処理装置を含み、アプリケーションが、短い読み取り配列データに基づいて初期アセンブリを生成する第1のソフトウエアモジュールであって、初期アセンブリが、曖昧な配列の1つ以上の未解明領域を含み、短い読み取り配列データが、核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された短い読み取り配列データのサブセットが共通のタグを共有するように、生物の長い範囲の配列構成を保存するためにタグ付される、第1のソフトウエアモジュールと、タグを利用して初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明する第2のソフトウエアモジュールと、複数の局所アセンブリに基づいて網羅的アセンブリを生成する第3のソフトウエアモジュールと、タグにより示された長い範囲の配列構成と一致しない配列データを除去することによって、網羅的アセンブリをクリーニングする第4のソフトウエアモジュールと、タグを利用して網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、相同位相ヌクレオチド配列を分離し、位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成される第5のソフトウエアモジュールとを含む、コンピュータ実現システムが、本明細書に開示されている。ある特定の場合において、ゲノムは二倍体である。ある特定の場合において、短い読み取り配列データは、単一の配列決定ライブラリーから生成される。ある特定の場合において、短い読み取り配列データは、生物のゲノムの50×以下の適用範囲をもたらす。ある特定の場合において、短い読み取り配列データは、この読み取りより2×〜1000×長い出発配列の構成を保存するためにタグ付けされる。ある特定の場合において、短い読み取り配列データは、10kb〜5Mbの出発配列の構成を保存するためにタグ付けされる。ある特定の場合において、初期アセンブリは初期アセンブリグラフである。ある特定の場合において、初期アセンブリグラフを生成するソフトウエアモジュールは、生物のゲノムに存在する高い確率を有する複数のk−merを確認すること、タグを使用して、k−merがそれぞれ生じる出発配列の数に基づいて複数のk−merをフィルタにかけること及び複数のk−merのうち共通のl−merを共有するk−merを一緒にして、l<kである初期アセンブリを形成することによって、初期アセンブリグラフを生成する。ある特定の場合において、初期アセンブリグラフを生成するソフトウエアモジュールは、曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の1つ以上の領域を排除すること及び元の短い読み取り配列データを参考にして、初期アセンブリグラフのギャップを埋めることによって、初期アセンブリグラフを改訂する。kは、24と96の間であり得る。複数の局所アセンブリは、初期アセンブリグラフを暫定基準として使用すること、明白な配列の端部を確認すること、タグの閾値数を超える数のタグを共有する近隣端部を確認すること及び明白な配列の端部を確認された近隣端部と一緒にすることによって、生成することができる。網羅的アセンブリは、z>kである生物のゲノムに存在する高い確率を有する複数の局所アセンブリにおいて、複数のz−merを確認すること及び複数の局所アセンブリにおけるz−merを一緒にすることによって、生成することができる。zは、100と300の間であり得る。短い読み取り配列データは、10ng未満のDNA入力材料から生成することができる。短い読み取り配列データは、2ng未満のDNA入力材料から生成することができる。ある特定の場合において、アセンブリは60分未満で完成され得る。いくつかの実施形態において、アセンブリは60分未満で完成され得る。いくつかの実施形態において、1台以上のコンピュータは、512GB未満の記憶容量を含むことができ、ある特定の実施形態において、1台以上のコンピュータは、60GB未満の記憶容量を含むことができる。ある特定の場合において、アセンブリは20分未満で完成され得る。これらの場合において、1台以上のコンピュータは、512GB未満の記憶容量を含む。ある特定の場合において、1台以上のコンピュータは、60GB未満の記憶容量を含む。ある特定の場合において、生物はヒトである。ある特定の場合において、DNA配列データは全ゲノム配列データであり、位相ゲノムアセンブリは全ゲノムアセンブリである。ある特定の場合において、デジタル処理装置は、1立方フィート以下の物理的空間を占める。
別の態様では、生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリアプリケーションを作り出すデジタル処理装置により実行可能な命令を含むコンピュータプログラムによりコードされており、アプリケーションが、短い読み取り配列データに基づいて初期アセンブリを生成する第1のソフトウエアモジュールであって、初期アセンブリが、曖昧な配列の1つ以上の未解明領域を含み、短い読み取り配列データが、核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された短い読み取り配列データのサブセットが共通のタグを共有するように、生物の長い範囲の配列構成を保存するためにタグ付される、第1のソフトウエアモジュールと、タグを利用して初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明する第2のソフトウエアモジュールと、複数の局所アセンブリに基づいて網羅的アセンブリを生成する第3のソフトウエアモジュールと、タグにより示された長い範囲の配列構成と一致しない配列データを除去することによって、網羅的アセンブリをクリーニングする第4のソフトウエアモジュールと、タグを利用して網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、相同位相ヌクレオチド配列を分離し、位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成される第5のソフトウエアモジュールとを含む、非一過性コンピュータ可読記憶媒体が、本明細書に開示されている。ある特定の場合において、ゲノムは二倍体である。ある特定の場合において、短い読み取り配列データは、単一の配列決定ライブラリーから生成される。ある特定の場合において、短い読み取り配列データは、生物のゲノムの50×以下の適用範囲をもたらす。ある特定の場合において、短い読み取り配列データは、この読み取りより2×〜1000×長い出発配列の構成を保存するためにタグ付けされる。ある特定の場合において、短い読み取り配列データは、10kb〜5Mbの出発配列の構成を保存するためにタグ付けされる。ある特定の場合において、初期アセンブリは初期アセンブリグラフである。ある特定の場合において、初期アセンブリグラフを生成するソフトウエアモジュールは、生物のゲノムに存在する高い確率を有する複数のk−merを確認すること、タグを使用して、k−merがそれぞれ生じる出発配列の数に基づいて複数のk−merをフィルタにかけること及び複数のk−merのうち共通のl−merを共有するk−merを一緒にして、l<kである初期アセンブリを形成することによって、初期アセンブリグラフを生成する。ある特定の場合において、初期アセンブリグラフを生成するソフトウエアモジュールは、曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の1つ以上の領域を排除すること及び元の短い読み取り配列データを参考にして、初期アセンブリグラフのギャップを埋めることによって、初期アセンブリグラフを改訂する。kは、24と96の間であり得る。複数の局所アセンブリは、初期アセンブリグラフを暫定基準として使用すること、明白な配列の端部を確認すること、タグの閾値数を超える数のタグを共有する近隣端部を確認すること及び明白な配列の端部を確認された近隣端部と一緒にすることによって、生成することができる。網羅的アセンブリは、z>kである生物のゲノムに存在する高い確率を有する複数の局所アセンブリにおいて、複数のz−merを確認すること及び複数の局所アセンブリにおけるz−merを一緒にすることによって、生成することができる。zは、100と300の間であり得る。短い読み取り配列データは、10ng未満のDNA入力材料から生成することができる。短い読み取り配列データは、2ng未満のDNA入力材料から生成することができる。ある特定の場合において、アセンブリは60分未満で完成され得る。いくつかの実施形態において、アセンブリは60分未満で完成され得る。いくつかの実施形態において、1台以上のコンピュータは、512GB未満の記憶容量を含むことができ、ある特定の実施形態において、1台以上のコンピュータは、60GB未満の記憶容量を含むことができる。ある特定の場合において、アセンブリは20分未満で完成され得る。これらの場合において、1台以上のコンピュータは、512GB未満の記憶容量を含む。ある特定の場合において、1台以上のコンピュータは、60GB未満の記憶容量を含む。ある特定の場合において、生物はヒトである。ある特定の場合において、DNA配列データは全ゲノム配列データであり、位相ゲノムアセンブリは全ゲノムアセンブリである。ある特定の場合において、デジタル処理装置は、1立方フィート以下の物理的空間を占める。
本発明は、例えば、以下の項目を提供する。
(項目1)
生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリをコンピュータにより実現する方法であって、
a)1台以上のコンピュータにより、短い読み取り配列データに基づいて初期アセンブリを生成し、前記初期アセンブリが曖昧な配列の1つ以上の未解明領域を含み、前記短い読み取り配列データが、前記核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された前記短い読み取り配列データのサブセットが共通のタグを共有するように、前記生物の長い範囲の配列構成を保存するためにタグ付されることと、
b)前記1台以上のコンピュータにより、前記タグを利用して前記初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明することと、
c)前記1台以上のコンピュータにより、前記複数の局所アセンブリに基づいて網羅的アセンブリを生成することと、
d)前記1台以上のコンピュータにより、前記タグにより示された前記長い範囲の配列構成と一致しない配列データを除去することによって、前記網羅的アセンブリをクリーニングすることと、
e)前記1台以上のコンピュータにより、前記タグを利用して前記網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、位相ヌクレオチド配列を分離し、
前記位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成されることと
を含む、前記方法。
(項目2)
前記ゲノムが二倍体である、項目1に記載の方法。
(項目3)
前記短い読み取り配列データが単一のライブラリーから生成される、項目1に記載の方法。
(項目4)
前記短い読み取り配列データが、前記生物の前記ゲノムの50×以下の適用範囲をもたらす、項目1に記載の方法。
(項目5)
前記短い読み取り配列データが、この読み取りより2×〜1000×長い出発配列の構成を保存するためにタグ付けされる、項目1に記載の方法。
(項目6)
前記短い読み取り配列データが、10kb〜5Mbの出発配列の構成を保存するためにタグ付けされる、項目1に記載の方法。
(項目7)
前記初期アセンブリが初期アセンブリグラフである、項目1に記載の方法。
(項目8)
前記初期アセンブリグラフが、
a)前記生物の前記ゲノムに存在する高い確率を有する複数のk−merを確認すること、
b)前記タグを使用して、k−merがそれぞれ生じる出発配列の数に基づいて複数のk−merをフィルタにかけること、及び
c)前記複数のk−merのうち共通のl−merを共有するk−merを一緒にして、l<kである初期アセンブリを形成すること
によって生成される、項目7に記載の方法。
(項目9)
前記1台以上のコンピュータにより、前記初期アセンブリを生成する前に前置フィルタを適用することを更に含み、前記前置フィルタが、
a)前記短い読み取り配列データの生成に使用された配列決定装置の塩基品質スコアを利用すること、及び
b)k−merがそれぞれ2つの別個のタグから生じることが見えるように、一回を超えて発生するk−mer及び前記タグを利用すること
を含む、項目8に記載の方法。
(項目10)
前記1台以上のコンピュータにより、無損失ランダムアクセス圧縮を、前記品質スコアのそれぞれの記録及び前記グラフの全体にわたるパスに適用することを更に含む、項目9に記載の方法。
(項目11)
方法が、前記1台以上のコンピュータにより、
a)曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の1つ以上の領域を排除すること、及び
b)元の短い読み取り配列データを参考にして、前記初期アセンブリグラフのギャップを埋めること
によって、前記初期アセンブリグラフを改訂することを更に含む、項目8に記載の方法。
(項目12)
kが24と96の間である、項目8に記載の方法。
(項目13)
前記複数の局所初期アセンブリが、
a)前記初期アセンブリグラフを暫定基準として使用すること、
b)明白な配列の端部を確認すること、
c)タグの閾値数を超える数のタグを共有する近隣端部を確認すること、及び
d)明白な配列の端部を前記確認された近隣端部と一緒にすること
によって生成される、項目8に記載の方法。
(項目14)
前記網羅的アセンブリが、
a)z>kである前記生物の前記ゲノムに存在する高い確率を有する前記複数の局所アセンブリにおいて複数のz−merを確認すること、及び
b)前記複数の局所アセンブリにおける前記z−merを一緒にすること
によって生成される、項目13に記載の方法。
(項目15)
zが100と300の間である、項目14に記載の方法。
(項目16)
前記短い読み取り配列データが、10ng未満のDNA入力材料から生成される、項目1に記載の方法。
(項目17)
前記短い読み取り配列データが、2ng未満のDNA入力材料から生成される、項目16に記載の方法。
(項目18)
前記アセンブリが60分未満で完成される、項目1に記載の方法。
(項目19)
前記1台以上のコンピュータが、512GB未満の記憶容量を含む、項目18に記載の方法。
(項目20)
前記1台以上のコンピュータが、60GB未満の記憶容量を含む、項目19に記載の方法。
(項目21)
前記アセンブリが20分未満で完成される、項目1に記載の方法。
(項目22)
前記1台以上のコンピュータが、512GB未満の記憶容量を含む、項目21に記載の方法。
(項目23)
前記1台以上のコンピュータが、60GB未満の記憶容量を含む、項目22に記載の方法。
(項目24)
前記生物がヒトである、項目1に記載の方法。
(項目25)
前記DNA配列データが全ゲノム配列データであり、前記位相ゲノムアセンブリが全ゲノムアセンブリである、項目1に記載の方法。
(項目26)
前記1台以上のコンピュータが、1立方フィート以下の物理的空間を占める、項目1に記載の方法。
(項目27)
少なくとも1つのプロセッサ、実行可能な命令を実施するように構成されているオペレーティングシステム、メモリ、及び生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリアプリケーションを作り出すデジタル処理装置により実行可能な命令を含むコンピュータプログラムを含む前記デジタル処理装置を含み、前記アプリケーションが、
a)短い読み取り配列データに基づいて初期アセンブリを生成する第1のソフトウエアモジュールであって、前記初期アセンブリが曖昧な配列の1つ以上の未解明領域を含み、前記短い読み取り配列データが、前記核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された前記短い読み取り配列データのサブセットが共通のタグを共有するように、前記生物の長い範囲の配列構成を保存するためにタグ付される、第1のソフトウエアモジュールと、
b)前記タグを利用して前記初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明する第2のソフトウエアモジュールと、
c)前記複数の局所アセンブリに基づいて網羅的アセンブリを生成する第3のソフトウエアモジュールと、
d)前記タグにより示された前記長い範囲の配列構成と一致しない配列データを除去することによって、前記網羅的アセンブリをクリーニングする第4のソフトウエアモジュールと、
e)前記タグを利用して前記網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、相同位相ヌクレオチド配列を分離し、
前記位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成される第5のソフトウエアモジュールと
を含む、コンピュータ実現システム。
(項目28)
前記ゲノムが二倍体である、項目27に記載のシステム。
(項目29)
前記短い読み取り配列データが単一のライブラリーから生成される、項目27に記載のシステム。
(項目30)
前記短い読み取り配列データが、前記生物の前記ゲノムの50×以下の適用範囲をもたらす、項目27に記載のシステム。
(項目31)
前記短い読み取り配列データが、この読み取りより2×〜1000×長い出発配列の構成を保存するためにタグ付けされる、項目27に記載のシステム。
(項目32)
前記短い読み取り配列データが、10kb〜5Mbの出発配列の構成を保存するためにタグ付けされる、項目27に記載のシステム。
(項目33)
前記初期アセンブリが初期アセンブリグラフである、項目27に記載のシステム。
(項目34)
初期アセンブリグラフを生成する前記ソフトウエアモジュールが、
a)前記生物のゲノムに存在する高い確率を有する複数のk−merを確認すること、
b)前記タグを使用して、k−merがそれぞれ生じる出発配列の数に基づいて複数のk−merをフィルタにかけること、及び
c)前記複数のk−merのうち共通のl−merを共有するk−merを一緒にして、l<kである初期アセンブリを形成すること
によって、前記初期アセンブリグラフを生成する、項目33に記載のシステム
(項目35)
前記アプリケーションが、前記初期アセンブリを生成する前に前置フィルタを適用するソフトウエアモジュールを更に含み、前記前置フィルタが、
a)前記短い読み取り配列データの生成に使用された配列決定装置の塩基品質スコアを利用すること、及び
b)k−merがそれぞれ2つの別個のタグから生じることが見えるように、一回を超えて発生するk−mer及び前記タグを利用すること
を含む、項目33に記載のシステム。
(項目36)
前記アプリケーションが、無損失ランダムアクセス圧縮を、前記品質スコアのそれぞれの記録及び前記グラフの全体にわたるパスに適用することを更に含む、項目35に記載のシステム。
(項目37)
初期アセンブリグラフを生成する前記ソフトウエアモジュールが、
a)曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の1つ以上の領域を排除すること、及び
b)元の短い読み取り配列データを参考にして、前記初期アセンブリグラフのギャップを埋めること
によって、前記初期アセンブリグラフを改訂する、項目34に記載のシステム。
(項目38)
kが24と96の間である、項目34に記載のシステム。
(項目39)
複数の局所アセンブリを生成する前記ソフトウエアモジュールが、
a)前記初期アセンブリグラフを暫定基準として使用すること、
b)明白な配列の端部を確認すること、
c)タグの閾値数を超える数のタグを共有する近隣端部を確認すること、及び
d)明白な配列の端部を前記確認された近隣端部と一緒にすること
によって、前記複数の局所アセンブリを生成する、項目34に記載のシステム。
(項目40)
網羅的アセンブリを生成する前記ソフトウエアモジュールが、
a)z>kである前記生物の前記ゲノムに存在する高い確率を有する前記複数の局所アセンブリにおいて複数のz−merを確認すること、及び
b)前記複数の局所アセンブリにおける前記z−merを一緒にすること
によって、前記網羅的アセンブリを生成する、項目39に記載のシステム。
(項目41)
zが100と300の間である、項目40に記載のシステム。
(項目42)
前記短い読み取り配列データが、10ng未満のDNA入力材料から生成される、項目27に記載のシステム。
(項目43)
前記短い読み取り配列データが、2ng未満のDNA入力材料から生成される、項目42に記載のシステム。
(項目44)
前記アセンブリが60分未満で完成される、項目27に記載のシステム。
(項目45)
前記メモリが、512GB未満の記憶容量を含む、項目44に記載のシステム。
(項目46)
前記メモリが、60GB未満の記憶容量を含む、項目45に記載のシステム。
(項目47)
前記アセンブリが20分未満で完成される、項目27に記載のシステム。
(項目48)
前記メモリが、512GB未満の記憶容量を含む、項目47に記載のシステム。
(項目49)
前記メモリが、60GB未満の記憶容量を含む、項目48に記載のシステム。
(項目50)
前記生物がヒトである、項目27に記載のシステム。
(項目51)
前記DNA配列データが全ゲノム配列データであり、前記位相ゲノムアセンブリが全ゲノムアセンブリである、項目27に記載のシステム。
(項目52)
前記デジタル処理装置が、1立方フィート以下の物理的空間を占める、項目27に記載のシステム。
(項目53)
生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリアプリケーションを作り出すデジタル処理装置により実行可能な命令を含むコンピュータプログラムによりコードされており、前記アプリケーションが、
a)短い読み取り配列データに基づいて初期アセンブリを生成する第1のソフトウエアモジュールであって、前記初期アセンブリが曖昧な配列の1つ以上の未解明領域を含み、前記短い読み取り配列データが、前記核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された前記短い読み取り配列データのサブセットが共通のタグを共有するように、前記生物の長い範囲の配列構成を保存するためにタグ付される、第1のソフトウエアモジュールと、
b)前記タグを利用して前記初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の複数の領域を解明する第2のソフトウエアモジュールと、
c)前記複数の局所アセンブリに基づいて網羅的アセンブリを生成する第3のソフトウエアモジュールと、
d)前記タグにより示された前記長い範囲の配列構成と一致しない配列データを除去することによって、前記網羅的アセンブリをクリーニングする第4のソフトウエアモジュールと、
e)前記タグを利用して前記網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、相同位相ヌクレオチド配列を分離し、
前記位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成される第5のソフトウエアモジュールと
を含む、非一過性コンピュータ可読記憶媒体。
(項目54)
前記ゲノムが二倍体である、項目53に記載の媒体。
(項目55)
前記短い読み取り配列データが単一のライブラリーから生成される、項目53に記載の媒体。
(項目56)
前記短い読み取り配列データが、前記生物の前記ゲノムの50×以下の適用範囲をもたらす、項目53に記載の媒体。
(項目57)
前記短い読み取り配列データが、この読み取りより2×〜1000×長い出発配列の構成を保存するためにタグ付けされる、項目53に記載の媒体。
(項目58)
前記短い読み取り配列データが、10kb〜5Mbの出発配列の構成を保存するためにタグ付けされる、項目53に記載の媒体。
(項目59)
前記初期アセンブリが初期アセンブリグラフである、項目53に記載の媒体。
(項目60)
初期アセンブリグラフを生成する前記ソフトウエアモジュールが、
a)前記生物の前記ゲノムに存在する高い確率を有する複数のk−merを確認すること、
b)前記タグを使用して、k−merがそれぞれ生じる出発配列の数に基づいて複数のk−merをフィルタにかけること、及び
c)前記複数のk−merのうち共通のl−merを共有するk−merを一緒にして、l<kである初期アセンブリを形成すること
によって、前記初期アセンブリグラフを生成する、項目59に記載の媒体
(項目61)
前記アプリケーションが、前記初期アセンブリを生成する前に前置フィルタを適用するソフトウエアモジュールを更に含み、前記前置フィルタが、
a)前記短い読み取り配列データの生成に使用された配列決定装置の塩基品質スコアを利用すること、及び
b)k−merがそれぞれ2つの別個のタグから生じることが見えるように、一回を超えて発生するk−mer及び前記タグを利用すること
を含む、項目60に記載の媒体。
(項目62)
前記アプリケーションが、無損失ランダムアクセス圧縮を、前記品質スコアのそれぞれの記録及び前記グラフの全体にわたるパスに適用することを更に含む、項目61に記載の媒体。
(項目63)
初期アセンブリグラフを生成する前記ソフトウエアモジュールが、
a)曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の1つ以上の領域を排除すること、及び
b)元の短い読み取り配列データを参考にして、前記初期アセンブリグラフのギャップを埋めること
によって、前記初期アセンブリグラフを改訂する、項目60に記載の媒体。
(項目64)
kが24と96の間である、項目60に記載の媒体。
(項目65)
複数の局所アセンブリを生成する前記ソフトウエアモジュールが、
a)前記初期アセンブリグラフを暫定基準として使用すること、
b)明白な配列の端部を確認すること、
c)タグの閾値数を超える数のタグを共有する近隣端部を確認すること、及び
d)明白な配列の端部を前記確認された近隣端部と一緒にすること
によって、前記複数の局所アセンブリを生成する、項目60に記載の媒体。
(項目66)
網羅的アセンブリを生成する前記ソフトウエアモジュールが、
a)z>kである前記生物の前記ゲノムに存在する高い確率を有する前記複数の局所アセンブリにおいて複数のz−merを確認すること、及び
b)前記複数の局所アセンブリにおける前記z−merを一緒にすること
によって、前記網羅的アセンブリを生成する、項目65に記載のシステム。
(項目67)
zが100と300の間である、項目66に記載の媒体。
(項目68)
前記短い読み取り配列データが、10ng未満のDNA入力材料から生成される、項目53に記載の媒体。
(項目69)
前記短い読み取り配列データが、2ng未満のDNA入力材料から生成される、項目68に記載の媒体。
(項目70)
前記アセンブリが60分未満で完成される、項目53に記載の媒体。
(項目71)
前記処理装置が、512GB未満の記憶容量を含む、項目70に記載の媒体。
(項目72)
前記処理装置が、60GB未満の記憶容量を含む、項目71に記載の媒体。
(項目73)
前記アセンブリが20分未満で完成される、項目53に記載の媒体。
(項目74)
前記処理装置が、512GB未満の記憶容量を含む、項目73に記載の媒体。
(項目75)
前記処理装置が、60GB未満の記憶容量を含む、項目74に記載の媒体。
(項目76)
前記生物がヒトである、項目53に記載の媒体。
(項目77)
前記DNA配列データが全ゲノム配列データであり、前記位相ゲノムアセンブリが全ゲノムアセンブリである、項目53に記載の媒体。
(項目78)
前記処理装置が、1立方フィート以下の物理的空間を占める、項目53に記載の媒体。
SNPと構造変異体の両方に関する情報を保存する、本開示の方法の使用により生成された整列の非限定例を示す(出現する順番にそれぞれ配列番号1〜8) ゲノムアセンブリプロセスの非限定例を示す。 メガバブル及び微細構造によるゲノムアセンブリプロセスの代替的概略図の非限定例を示す。 ゲノムアセンブリプロセスの非限定例を示す。 ゲノムアセンブリプロセスにより利用可能な出力の非限定例を示す。 デジタル処理装置の非限定例であり、この場合、1つ以上のCPU、メモリ、通信インターフェース及びディスプレイを有する装置を示す。 デノボアセンブリの非限定例を示す。 長いホモポリマー付近の誤差の圧倒的な多さの非限定例を示す(出現する順 番にそれぞれ配列番号9〜24) デノボアセンブラのコンピュータ処理構造の非限定例を示す。
特定の定義
特に定義されない限り、本明細書において使用される全ての技術用語は、本発明が属する当業者に一般的に理解されるものと同じ意味を有する。本明細書及び添付の特許請求の範囲において使用されるとき、単数形「a」、「an」及び「the」は、特に文脈により明確に指示されない限り、複数対象を含む。本明細書において、「または」への任意の参照は、特に記述されない限り「及び/または」を包含することが意図される。
本明細書において使用されるとき、「位相」アセンブリまたは配列は、ヌクレオチドデータが、染色体または他のサブゲノム間隔などの特定の遺伝子座にシスで正確に配置されているアセンブリを作り出すことを指す。このことには、例えば、ハプロタイプ、二倍体ゲノム、倍数体ゲノム、異なる試料、異なる細胞、異なる生物、または更には大きな挿入欠失、転位及び融合などの一倍体ゲノムの構造変異体を正確に解明することが含まれ得る。
本明細書において使用されるとき、「次世代配列決定」は、24時間で大量の、一般には1ギガベースを超えるヌクレオチド配列データをもたらす任意の技術を指す。非限定的な例示のシステムは、Illumina(San Diego,CA)、Life Technologies(Carlsbad,CA)及びPacific Biosystems(Menlo Park,CA)から入手可能である。
デノボアセンブリの利点
本開示は、誘導される配列データの改善された遺伝子アセンブリを可能にする、生物学的試料の遺伝子情報を得る及び分析するための新規の手法を対象とする。特に、本明細書に記載されている方法、システム及び媒体は、所定の配列系による出力(本明細書において、「読み取り」と呼ばれる)として、個体の長い範囲の配列構成及び決定された配列情報のかなり短い伸展を保存するためにコードされている、配列決定ライブラリーの調製を伴う。この長い範囲の配列構成は、長さにかかわらず、個別の読み取りの長さよりかなり長い配列構成、例えば、2×、5×、10×、100×、1000×または更に長い近接配列伸展、ならびにこれらの間の任意の長さの範囲にわたって、読み取りの順序づけを可能にする。そのような長い範囲の構成は、10kb、100kb、200kb、500kb、1Mb、2Mb、3Mb、4Mb、5Mb、またはそれ以上の長さ、ならびにこれらの間の任意の長さの範囲のオーダーである近接配列伸展にわたるものであり得る。
そのような長い範囲の配列構成を提供することによって、大規模構造変異体を確認すること、ハプロタイプ情報を決定することなどの、配列の長い近接伸展から一般に誘導され得る配列特徴を確認することができる。これらの利点は、全て、基準配列から操作するか、または特定の二倍体ゲノムをデノボに組み立てるかにかかわらず、真のゲノム配列を、更には真の二倍体または倍数体ゲノム配列を正確に組み立てることができるので、特に有用である。本明細書に記載されているプラットフォーム、システム、媒体及び方法は、従来の配列決定において欠如していた利益を提供し、デノボアセンブリプロセスには、(i)非常に少量の入力、(ii)低い配列包括度、(iii)低い費用及び(iv)効率的なコンピュータ処理が含まれる。
本明細書に記載されているプラットフォーム、システム、媒体及び方法は、単一の配列決定ライブラリーを完全ゲノムに組み立てることを可能にする。配列決定ライブラリーは、少なくとも1つの全ゲノム、染色体、またはDNAのフラグメントを含有するDNA試料から開始することによって作り出される。次に、典型的には1キロベースを超える、多くの場合、10、50または100キロベースを超える大型フラグメントに分節化することによって、DNAが調製される。次にこれらの分節は、物理的に区分化され、各区分は、DNAフラグメント、ならびにDNAフラグメント及び大型フラグメントから生成される任意の小型フラグメントを確認するように機能する特有のバーコードまたはタグを含む。バーコードをオリゴヌクレオチドに含めることができる。オリゴヌクレオチドは、ビーズまたはマイクロカプセルなどの固体構造に遊離可能に接続され得る。いくつかの実施形態において、オリゴヌクレオチドは、ランダム配列、標的配列に相補的な配列、結合するためにプライマーからの配列、またはユニバーサルプライミング部位を含むことができる。
いったん大型DNAフラグメントが特有のタグで区分されると、タグを組み込む小型フラグメントが生成され、これらは次にライブラリーにプールされ、配列決定される。ライブラリーは、任意の次世代配列決定技術によって配列決定され得る。ある特定の実施形態において、DNA配列データは、非限定例として、パイロシークエンシング(pyrosequencing)、合成による配列決定、連結による配列決定、イオン半導体配列決定、または単一分子リアルタイム配列決定によって生成される。ある特定の実施形態において、DNA配列データは、24時間あたり1ギガベースのヌクレオチドの読み取りを生成することができる任意の技術によって生成される。
様々なフラグメント及びこれらの関連するバーコード配列の読み取りから配列データを有することによって、かなり大型の配列のアセンブリをデノボで実施することができる。配列決定反応及びアセンブリステップを、同じ個体または実体により実施する必要はない。配列データを第三者から得ることもできる。本明細書に記載されているように、このことは、複雑なアセンブリプロセスの完了を許容しながら、コンピュータ処理の効率を保つ方法で達成することができる。核酸分子の分節化、区分化及びタグ付けの例示的な方法は、米国特許出願第14/175,935号に記載されており、この全開示は、全体が参照により本明細書に組み込まれる。
全ての種類の変異体を要求するには、原則としてアセンブリを基準配列に整列させて、変異体を読み取ることができる。アセンブリの整列は、読み取りの整列より途方もなく大きな特異性を有し、したがって、基準に基づいた標準的な分析に関連する大部分の人為産物を排除する。図1は、HGPアセンブリの例である。SNP、2つの小さな挿入及び一方の対立遺伝子への554塩基挿入を示す。他方の対立遺伝子も同じ挿入を示す。GenBankへのBLASTのヒットはない。代わりにNA12878を見ると、同じ挿入が見出されるが、対立遺伝子の一方のみにおいて見出される。
コンピュータ処理の効率
短い読み取り配列データからゲノム構成を組み立てるとき、最終的なアセンブリは、試料、細胞、または異なるハプロタイプ/染色体のコンセンサスアセンブリである。このように、長い範囲の配列であってもゲノムの真の二倍体アセンブリを作り出すことは、現在までほぼ不可能であった。特に、これらのアセンブリは、典型的には、一倍体変異体を特定的に確認するよりも、二倍体ゲノムの平均的なアセンブリを表すことがある。本明細書に記載されている方法によると、例えば、それぞれのハプロタイプ、染色体、細胞または試料から、そうでなければ相同遺伝子座の異なる変異体の別々のアセンブリを得ることができる。
従来のアセンブリプロセスは、短い配列読み取りの性質及びコンピュータ処理集約的なプロセスに起因して、コンピュータインフラストラクチャーに途方もなく大きな重点が置かれている。いくつかの場合において、本明細書に記載されているように、従来使用されるものより有意に効率的なコンピュータ処理過程を有するプロセスが用いられる。特に、本明細書に記載されているプロセスでは、初期アセンブリグラフが調製される。この初期アセンブリは、「ラフスケッチ」アセンブリになり、未解明の複雑さの区域を、例えば、一見して曖昧であり得る領域を一時的に無視するので、コンピュータ処理能力を保存する。この初期アセンブリが作り出されると、曖昧な区域は、バーコード付き配列決定データを用いることによって更に処理され、曖昧な区域の正確なアセンブリを作り出すことができる。このことは、アセンブリプロセスの際に作り出された配列決定読み取りから誘導されたk−merを、特定の染色体、細胞、個体群、ハプロタイプなどに対してアドレス可能にする。このことは、アセンブリにおける全体的な複雑さを低減することによって、曖昧さの効率的な解明を可能にし、RAM、ROM、またはプロセッサーサイクルなどのコンピュータ資源を温存する。ある特定の実施形態において、本明細書に記載されている方法は、アセンブリに必要なRAMの量を、512、256、128、64、32、16、8、または4ギガバイト未満に低減することができる。
バーコード付き分節化核酸を使用することは、配列読み取りから誘導されたk−merを構成化することによって、ゲノム配列の効率的なアセンブリに寄与する。例として、バーコードを用いない従来のアセンブリプロセスでは、網羅的アセンブリのクリーニングの後に、網羅的アセンブリにおける大部分の遺伝子座は、2つ以上の染色体遺伝子座(例えば、母系遺伝及び父系遺伝染色体)を表す。バーコードを使用することによって、これらの遺伝子座は、ここでは互いに分離される。このプロセスは、相同染色体を分離し、複雑な分節重複も解明する。これは、図2に概略的に例示されている。示されているように、部分的に組み立てられた配列が、四角形により示されている非組立部分を伴って例示されている(ステップI)。近隣アセンブリを使用して、バーコード付き、またはタグ付きの隣接配列を配置し、ブラックボックスの中に到達させ、その中の配列のアセンブリを提供する。更に、配列が異なるハロタイプまたは位相配列情報、例えば、二重矢印で示されているもの(ステップII)を表す場合、これらのバーコードは、例えば、これらの領域内の別々の変異アセンブリを生じることも通知する。別々のアセンブリから、真の二倍体アセンブリを相同遺伝子座に生じることができる(ステップIII)。バーコード付き読み取りはアセンブリに戻され、遺伝子座は、正確にどこの配列のものが不明であるか確実に確認され、そのようにマーク付けされる。網羅的アセンブリのグラフが、ここで基準配列と整列される。第1の端部が個別に整列される。これらの整列が一致しないと(2つの端部が出会う点において)、不一致は、これらの端部の連鎖を整列させることによって解明される。品質向上と一緒にした基準整列は、ここで、全ての種類の変異体(単一塩基及び構造的)に対する特定の対立遺伝子の存在または不在、及び是認された不確実性を示唆する。これが、基準を中心にした伝統的な手法により変異体を求める、「正確な」やり方である。2つ以上の関連する試料を一緒に組み立てて、単一のグラフを生じてもよく、これから、それぞれの遺伝子座の試料間の正確な関係を推定することができる。これには、腫瘍及び正常な事例(例えば、1つの混合臨床試料からの事例)及び組み換えを含む、家族の配列決定に見られる小児におけるデノボ突然変異の事例が含まれる。直接比較は、基準配列に不在である、遺伝子座における差を明らかにする。
ある特定の実施において、本明細書に記載されている、初期デノボアセンブリは、短い読み取りヌクレオチド配列決定技術を使用して作り出される。このデノボアセンブリは、短い読み取り配列データに基づくことができる。短い読み取り配列データは、300、250、200、150、100、75、または50塩基対(その間の増分も含む)未満の読み取りからのものであり得る。短い読み取り配列データは、ペアエンド(paired end)読み取りであってもよい。初期デノボアセンブリグラフは、メモリの使用がゲノムサイズと比較して小さくなるように作り出すことができる。このことは、初期アセンブリの速度を最適化する。メモリの使用は、出力データ量に比例して増加することはない。この技術のカギは、以下である。
(a)頻度及び塩基品質スコアに基づいて、ゲノムに存在する高い確率を有するk−merが確認され、したがって、これらのk−merの数はゲノムサイズによって決まる。
(b)k−merは、共通の最小p−mer(p<k)を共有するk−merを一緒にすることによって、生成の際に自然に合体し、このことは大きなオーダーでメモリの使用を低減する。
(c)続くアセンブリ操作は、初期アセンブリを暫定「基準配列」として処理し、したがって非常に低い所要メモリ量を有する。
試料中の非分枝配列を表す、アセンブリの端部eを考慮すると、近隣端部が見出され、これらは、最小数のバーコードをeと共有する端部である。ある特定の実施形態において、端部は少なくとも1、2、3、4、5、6、7、8、9、または10個のバーコード配列を共有する。次にこれらの配列を近接して組み立てて、局所アセンブリ(近隣)を生じる。このプロセスも、初期アセンブリに欠損していたギャップを埋める。次に全ての近隣を非常に大きなk−mer値の使用によって組み立てる。もたらされたアセンブリは、ここでもグラフである。ここで網羅的アセンブリを、バーコードと一致しない接続を除去することによってクリーニングした。
アセンブリの方法
短い配列読み取りから生成されるk−mer(k−mer読み取り)は、試料ゲノムを完全な整合k−merと共に崩壊することによって得られるグラフに近似している。プレフィルタリングは、例えば、1つのバーコードのみに生じるため、または低い品質スコアを有する、または読み取りに希にしかないので、間違いである可能性が高いk−merの読み取りを除外するために実施され得る。次に、初期グラフはk−merから構築される。このグラフの端部はDNA配列により標識され、De Bruijnグラフにおいて非分枝パス(「ユニパス(unipath)」と呼ばれる)を表す。次にパッチギャップをこのグラフに実施することができる。最後に、「垂下末端(hanging end)」をグラフから刈り取って、初期アセンブリを生じることができる。
初期アセンブリの組み立てに使用されたk−mer読み取りは、アセンブリを促進する任意の長さであり、組み立てられるゲノムのサイズに応じて変わり得る。k−merの読み取りは、1、10、20、30、40、50、60、70、80、90、または100塩基対(その間の増分も含む)超であり得る。ある特定の場合において、k−merの読み取りは、10、20、30、40、50、60、70、80、90、100、または100塩基対(その間の増分も含む)未満であり得る。一般に、30と50塩基対の間のk−merは、初期デノボアセンブリに理想的である。ある特定の場合において、k−merは40と50塩基対の間であり得る。k−merは、40、41、42、43、44、45、46、47、48、49、または50塩基対の長さであり得る。理想的には、k−merは4の倍数である。
初期アセンブリが作り出された後、新たな網羅的アセンブリ(スーパーグラフ)が構築される。スーパーグラフの端部は、初期アセンブリのパスにより標識される(したがって、整数の配列を表す)。形式的には、このグラフは初期アセンブリと同じK値を有するが、より高いK値に分解される。これは、読み取りパスの終結であるパスを基礎グラフにおいて見出すことによって達成され、したがって、およそ100、200、300、400、または500k−merの長さを有する。これらのパスは、長い完全な重複に沿って形式的に整列されて、スーパーグラフを生じる。これらの2番目に大きなk−merは、z−merと示される。
網羅的アセンブリの後、バーコード使用してギャップを突き止め、埋める。De Bruijnグラフのユニパスにおける分枝点であるので、ギャップを多様な「バブル」として可視化することができる。図3を参照すると、それぞれの足場はメガバブルを有し、アセンブリの完全位相部分を表している。連続的なメガバブルは、互いに位相していない。一般に、足場ダイアグラムに示されているそれぞれの端部は、その中に「微細構造」を含有し、完全に決定されていない配列を記載している。図3に示されているこれらのバブルは、k−merが生成される読み取りの異なる構成から誘導され得る。異なる構成は、異なる染色体、試料、または挿入欠失、複製及び転位などの構造変異体であり得る。バーコードは、ある特定のバーコード配列を伴う全ての読み取りを含む、アセンブリにおけるギャップを埋め合わせるべき読み取りのプールを推定することを可能にする。このプールから局所アセンブリを作り出した後、これを網羅的アセンブリに再挿入することができる。このことが図4に例示されており、ここでは、一方の親対立遺伝子が中実点線401であり、他方が円形点線402である。全ての対立遺伝子に中実点が付いている1つのバーコード分子及び全ての対立遺伝子に円形点が付いている1つのバーコード分子が示されており、これらが411及び412として離されており、このようにして、配列構成が正確に位相されている。現実には、多くのバーコード付き分子は、この位相操作を実施するために共謀する。ある特定の実施形態において、本明細書に記載されている方法は、1、2、3、4、5、6、7、8、9、10、またはそれ以上のメガベースを含む、核酸配列の位相ブロックを作り出すことができる。これらの位相レベルは、3ギガベース(ヒト)ゲノムにおいて50×以下、40×以下、または30×以下の適用範囲レベルで達成され得る。
出力
図5を参照すると、アルゴリズムは、情報を多くの方法で使用者に出力することができる。出力501は、データが「生」の形式で出力され得ることを示し、まさにアセンブリの端部(マイクロバブルアーム及びギャップを含む)が別々のFASTA記録として表れている。このようにソフトウエアがアセンブリを見ている。出力502は、データが「メガバブル型」で出力され得ることを示し、それぞれのメガバブルアームが単一のFASTA記録に対応し、それぞれの介在配列も同様である。いくつかの場合において、使用者は、メガバブルまたは介在配列を、これらがゲノムの特定の伸展に生じる場合または特定のサイズ閾値でeを超える場合に限り、閾値を設定して可視化することができる。出力503は、データが「偽性ハプ(psuedohap)型」で出力され得ることを示し、足場1つあたり単一の記録である。メガバブルアームは任意に選択され、それによって多くの記録は、母系及び父系対立遺伝子を混合している。出力504は、データが「偽性ハプ2型」で出力され得ることを示し、それぞれの足場において、2つの「並行」偽性ハプロタイプが作り出され、別々のFASTAファイルに配置される。
デジタル処理装置
本明細書に記載されている方法、システム及び媒体は、少なくとも1つのデジタル処理装置またはその使用を含む。デジタル処理装置は、装置の機能を実行する1つ以上のハードウエアの中央処理装置(CPU)または多目的図形処理装置(GPGPU)を含む。デジタル処理装置は、実行可能な命令を実施するように構成されているオペレーティングシステムを更に含む。デジタル処理装置は、場合によりコンピュータネットワークに接続されている。例として、デジタル処理装置は、ワールドワイドウエブへアクセスするように、場合によりインターネットに接続されている。更なる例として、デジタル処理装置は、場合によりクラウドコンピューティングインフラストラクチャーに接続されている。更なる例として、デジタル処理装置は、場合によりイントラネットに接続されている。なお更なる例として、デジタル処理装置は、場合によりデータ記憶装置に接続されている。
本明細書の記載によると、適切なデジタル処理装置には、非限定例として当業者に既知の市販のサーバコンピュータ及びデスクトップコンピュータが含まれる。適切なデジタル処理装置には、当業者に既知のハードウエア及び技術を使用して特注された装置も含まれる。
デジタル処理装置は、実行可能な命令を実施するように構成されているオペレーティングシステムを含む。オペレーティングシステムは、例えば、装置のハードウエアを管理し、アプリケーションを実施する機能を提供する、プログラム及びデータを含むソフトウエアである。当業者は、適切なサーバオペレーティングシステムには、非限定例として、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux(登録商標)、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標)Solaris(登録商標)、Windows Server(登録商標)及びNovell(登録商標)NetWare(登録商標)が含まれることを十分に認識する。当業者は、適切なパーソナルコンピュータオペレーティングシステムには、非限定例として、Microsoft(登録商標)Windows(登録商標)、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、及びGNU/Linux(登録商標)などのUNIX(登録商標)様オペレーティングシステムが含まれることを十分に認識する。いくつかの場合において、オペレーティングシステムはクラウドコンピューティングによって提供される。
装置は、記憶及び/またはメモリ装置を含む。記憶及び/またはメモリ装置は、一時的または永久的にデータまたはプログラムを記憶するために使用される1つ以上の物理的な機器である。いくつかの実施形態において、装置は揮発性メモリであり、記憶された情報を維持するために電力を必要とする。いくつかの場合において、装置は、非揮発性メモリであり、デジタル処理装置が作動していないときにも記憶情報を保持する。非揮発性メモリには、フラッシュメモリ、動的ランダムアクセスメモリ(DRAM)、強誘電ランダムアクセスメモリ(FRAM(登録商標))、位相変化ランダムアクセスメモリ(PRAM)などが含まれ得る。他の場合では、装置は、非限定例として、CD−ROM、DVD、フラッシュメモリ装置、磁気ディスクドライブ、磁気テープドライブ、光学ディスクドライブ、クラウドコンピューティング系記憶装置などが含まれる記憶装置である。様々な場合において、記憶及び/またはメモリ装置は、本明細書に開示されている装置の組合せである。
デジタル処理装置は、使用者に視覚情報を送るために、場合によりディスプレイを含む。適切なディスプレイには、デジタル処理装置と通信している液晶ディスプレイ(LCD)、薄膜トランジスタ液晶ディスプレイ(TFT−LCD)、有機発光ダイオード(OLED)ディスプレイ(受動マトリックスOLED(PMOLED)及び能動マトリックスOLED(AMOLED)ディスプレイを含む)、プラズマディスプレイ、ビデオプロジェクタ及びヘッドマウントディスプレイ(VRヘッドセットなど)が含まれる。適切なVRヘッドセットには、非限定例として、HTC Vive、Oculus Rift、Samsung Gear VR、Microsoft HoloLens、Razer OSVR、FOVE VR、Zeiss VR One、Avegant Glyph、Freefly VRヘッドセットなどが含まれる。様々な場合において、ディスプレイは、本明細書に開示されている装置の組合せである。
デジタル処理装置は、使用者から情報を受け取るために、場合により1つ以上の入力装置を含む。適切な入力装置には、キーボード、ポインティング装置(非限定例として、マウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラ及びスタイラスが含まれる)、タッチスクリーンもしくはマルチタッチスクリーン、音声を捕捉するマイクロフォンもしくは他の音声入力、動作を捕捉するビデオカメラもしくは他のセンサ、または他の視覚入力が含まれる。特定の場合において、入力装置は、Kinect、Leap Motionなどである。様々な場合において、入力装置は、本明細書に開示されている装置の組合せである。
図6を参照すると、特定の実施形態において、例示的なデジタル処理装置601が、短い読み取りDNA配列を完全位相ゲノム配列に組み立てるようにプログラム化されている、そうでなければ構成されている。装置601は、例えば、初期整列の実施、品質検査、続く整列の実施、曖昧さの解明及びヘテロ接合性遺伝子座の位相など、本開示の配列アセンブリ方法の様々な局面を制御することができる。この実施形態において、デジタル処理装置601は、中央処理装置(CPU、また本明細書において、「プロセッサ」及び「コンピュータプロセッサ」)605を含み、これはシングルコアもしくはマルチコアプロセッサ、または並行処理のために複数のプロセッサであり得る。デジタル処理装置601は、メモリまたはメモリ位置610(例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ)、電子記憶装置615(例えば、ハードディスク)、1つ以上の他のシステムと通信するための通信インターフェース620(例えば、ネットワークアダプタ)、ならびにキャッシュ、他のメモリ、データ記憶装置及び/または電子ディスプレイアダプタなどの周辺装置625も含む。メモリ610、記憶装置615、インターフェース620及び周辺装置625は、マザーボートなどの通信バス(実線)を介してCPU605と通信している。記憶装置615は、データを記憶しておくデータ記憶装置(またはデータ保管庫)であり得る。デジタル処理装置601は、通信インターフェース620の助けを借りて、コンピュータネットワーク(「ネットワーク」)630に作動可能に結合され得る。ネットワーク630は、インターネット、インターネット及び/もしくはエクストラネット、またはインターネットと通信しているイントラネット及び/もしくはエクストラネットであり得る。ネットワーク630は、いくつかの場合において、遠隔通信及び/またはデータネットワークである。ネットワーク630は、1つ以上のコンピュータサーバを含むことができ、このことによって、クラウドコンピューティングなどの分散型コンピュータ処理が可能になり得る。ネットワーク630は、いくつかの場合において装置601の助けを借りて、ピアツーピアネットワークを実現することができ、このことによって、装置601に結合した装置をクライアントまたはサーバとして挙動させることが可能になり得る。
続けて図6を参照すると、CPU605は、1つ続機械可読命令シーケンスを実行することができ、これらをプログラムまたはソフトウエアに組み入れることができる。命令をメモリ610などのメモリ位置に記憶させることができる。命令を、CPU605に向けることができ、続いてCPU605をプログラム化、そうでなければ構成して、本開示の方法を実現させることができる。CPU605により実施される操作の例には、フェッチ、デコード、実行及びライトバックが含まれ得る。CPU605は、集積回路などの回路に一部であり得る。装置601の1つ以上の他の部品を回路に含めることができる。いくつかの場合において、回路は、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)である。
続けて図6を参照すると、記憶装置615は、ドライバ、ライブラリー及び保存プログラムなどのファイルを記憶することができる。記憶装置615は、使用者のデータ、例えば、使用者の選択及び使用者のプログラムを記憶することができる。デジタル処理装置601は、いくつかの場合において、イントラネットまたはインターネットを介して通信しているリモートサーバに位置するような、外部にある1つ以上の追加のデータ記憶装置を含むことができる。
続けて図6を参照すると、デジタル処理装置601は、ネットワーク630を介して、1つ以上のリモートコンピュータシステムと通信することができる。例えば、装置601は、使用者のリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例には、パーソナルコンピュータ(例えば、ポータブルPC)、スレートもしくはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android利用可能装置、Blackberry(登録商標))、またはパーソナルデジタルアシスタントが含まれる。
本明細書に記載されている方法は、例えば、メモリ610または電子記憶装置615などのデジタル処理装置601の電子記憶位置に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードによって、実現され得る。機械実行可能または機械可読コードは、ソフトウエアの形態で提供され得る。使用の際に、コードはプロセッサ605によって実行され得る。いくつかの場合において、コードは記憶装置615から検索され、プロセッサ605により容易にアクセスされるようにメモリ610に記憶され得る。いくつかの状況では、電子記憶装置615を除外することができ、機械実行可能命令は、メモリ610に記憶される。
非一過性コンピュータ可読記憶媒体
本明細書に開示されている方法、システム及び媒体は、場合によりネットワーク化されたデジタル処理装置のオペレーティングシステムによる実行可能な命令を含むプログラムでコードされた、1つ以上の非一過性コンピュータ可読記憶媒体を含む。いくつかの場合において、コンピュータ可読記憶媒体は、デジタル処理装置の有形部品である。他の場合において、コンピュータ可読記憶媒体は、デジタル処理装置から場合により取り外し可能である。コンピュータ可読記憶媒体には、非限定例として、CD−ROM、DVD、フラッシュメモリ装置、半導体メモリ、磁気ディスクドライブ、磁気テープドライブ、光学ディスクドライブ、クラウドコンピューティングシステム及びサービスなどが含まれる。いくつかの場合において、プログラム及び命令は、媒体において永久的、実質的に永久的、半永久的、または非一過的にコードされている。
コンピュータプログラム
本明細書に開示されている方法、システム及び媒体は、少なくとも1つのコンピュータプログラムまたはその使用を含む。コンピュータプログラムは、特定のタスクを実施するように書き込まれたデジタル処理装置のCPUにおいて実行可能な1つの命令シーケンスを含む。コンピュータ可読命令は、特定のタスクを実施する、または特定の抽象データ型を実現する、関数、オブジェクト、アプリケーションプログラミングインタフェース(API)、データ構造などのプログラムモジュールとして実現され得る。本明細書に提示されている開示を考慮すると、当業者は、コンピュータプログラムが様々な言語により様々な様式で書き込まれ得ることを認識している。
コンピュータ可読命令の機能性を、様々な環境において望ましいように組み合わせること、または分散させることができる。いくつかの場合において、コンピュータプログラムは、1つの命令シーケンスを含む。他の場合において、コンピュータプログラムは、複数の命令シーケンスを含む。いくつかの場合において、コンピュータプログラムは、1つの位置に提供される。他の場合において、コンピュータプログラムは、複数の位置に提供される。様々な場合において、コンピュータプログラムは、1つ以上のソフトウエアモジュールを含む。様々な実施において、コンピュータプログラムは、1つ以上のウエブアプリケーション、1つ以上のモバイルアプリケーション、1つ以上のスタンドアロンアプリケーション、1つ以上のウエブブラウザプラグイン、エクステンション、アドイン、もしくはアドオン、またはこれらの組合せを部分的または全体的に含む。
スタンドアロンアプリケーション
いくつかの実施形態において、コンピュータプログラムは、スタンドアロンアプリケーションを含み、これは現存するプロセスへのアドオンではなく、例えばプラグインではなく、独立したコンピュータプロセスとして実行されるプログラムである。当業者は、スタンドアロンアプリケーションが多くの場合にコンパイルされることを認識している。コンパイラは、プログラミング言語で書き込まれたソースコードをアセンブリ言語または機械コードなどの二進オブジェクトコードに変換する、コンピュータプログラム(複数可)である。適切にコンパイルされたプログラミング言語には、非限定例として、C、C++、Objective−C、COBOL、Delphi、Eiffel、Java(登録商標)Lisp、Python(登録商標)、Visual Basic及びVB.NET、またはこれらの組合せが含まれる。コンパイルは、多くの場合、少なくとも部分的に実施されて実行可能なプログラムが作り出される。いくつかの場合において、コンピュータプログラムは、1つ以上のコンパイルされた実行可能なアプリケーションを含む。
ソフトウエアモジュール
本明細書に開示されている方法、システム及び媒体は、ソフトウエア、サーバ及び/もしくはデータベースモジュール、またはこれらの使用を含む。本明細書に提示されている開示を考慮すると、ソフトウエアモジュールは、当該技術において既知の機械、ソフトウエア及び言語を使用して、当業者に既知の技術によって作り出される。本明細書に開示されているソフトウエアモジュールは、数多くの方法で実施される。様々な実施において、ソフトウエアモジュールは、1つのファイル、コードの1つのセクション、1つのプログラミングオブジェクト、1つのプログラミング構成、またはこれらの組合せを含む。他の様々な実施において、ソフトウエアモジュールは、複数のファイル、コードの複数のセクション、複数のプログラミングオブジェクト、複数のプログラミング構成、またはこれらの組合せを含む。非限定例として、1つ以上のソフトウエアモジュールは、ウエブアプリケーション、モバイルアプリケーション及びスタンドアロンアプリケーションを含む。いくつかの場合において、ソフトウエアモジュールは、1つのコンピュータプログラムまたはアプリケーションの中にある。他の場合において、ソフトウエアモジュールは、1つを超えるコンピュータプログラムまたはアプリケーションの中にある。いくつかの場合において、ソフトウエアモジュールは、1つの機械に収容される。他の場合において、ソフトウエアモジュールは、1つを超える機械に収容される。特定の場合において、ソフトウエアモジュールは、1つ以上のクラウドコンピューティングプラットフォーム及び/またはサービスに収容される。いくつかの場合において、ソフトウエアモジュールは、1つ以上の機械の1つの位置に収容される。他の場合において、ソフトウエアモジュールは、1つ以上の機械の1つを超える位置に収容される。
データベース
本明細書に開示されている方法、システム及び媒体は、1つ以上のデータベースまたはその使用を含む。本明細書に提供されている開示を考慮すると、当業者は、多くのデータベースが配列及びグラフ情報の記憶及び検索に適していることを認識している。適切なデータベースには、非限定例として、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向データベース、オブジェクトデータベース、実体関連モデルデータベース、連想データベース及びXMLデータベースが含まれる。更なる非限定例には、SQL、PostgreSQL、MySQL、Oracle、DB2及びSybaseが含まれる。いくつかの場合において、データベースはインターネットに基づいているものである。更なる場合において、データベースはウエブに基づいているものである。なお更なる場合において、データベースはクラウドコンピューティングに基づいているものである。他の場合において、データベースは1つ以上の局所コンピュータ記憶装置に基づいている。
以下の例示的な実施例は、本明細書に記載されているソフトウエアアプリケーション、システム及び方法の実施形態の代表例であり、制限的であることを全く意図していない。
実施例1−タグ付き読み取りを使用した二倍体デノボ配列アセンブリがゲノム位相の長い伸展を生成する
本開示の方法を異なるゲノムにおいて十分に試験するため、この実施例は、表1に示されているように、様々な祖先及び性別の7人の個体、ならびに3匹の混血犬からデータセットを生成した。これらのデータセットは、それぞれ、3.2及び2.5Gbのゲノムサイズを実証している。全て≧80kbのサイズのDNAから作り出された。
表1の用語:全ての統計は、10kbより短い足場を取り除いた後に計算した。基準との比較は、GRCh37(chr1−22,X,Y)を使用し、chrYは、雌の試料から除外した。ID:この表のアセンブリの識別子である。試料:出発材料の種類である。HGPは、匿名の生体ドナーからHuman Genome Project for libraries RPCI 1,3,4,5(http://bacpac.chori.org/library.php?id=1において利用可能)へのものであり、340Mbの最終配列は、GenBankにおけるものである。イヌ及びHGPは、血液からのものであり、他は、Coriellからの細胞株である。種族:民族、またはイヌでは由来品種である。性別:試料の性別である。データ記述:カプセルにおけるデータの種類の記述である。X:配列読み取りによるゲノムの推定適用範囲である。この研究のアセンブリでは、読み取りは2×150であり、1200Mの読み取りが、それぞれのヒトアセンブリに使用され、940Mの読み取りが、それぞれのイヌアセンブリに使用され、イヌ及び試料Gは、HiSeq 2500によりラピッドランモードで配列決定され、他の試料は、HiSeq Xにより配列決定された。F:DNAの推定長さ重み付け平均フラグメント長さ(kb)である。N50コンティグサイズ:10個以上のnまたはN形質の配列に分けられた後の、FASTA記録のN50サイズである。N50足場サイズ:Nを除外したFASTA記録のN50サイズである。ギャップの存在:曖昧な塩基の割合N50完全伸展:アセンブリにおいて完全に反映されている同じ試料からの最終配列の分節のN50長さ(kb)である(本文を参照すること)。1Mbでの位相誤差%:位相が大部分で一致していないメガバブル分枝における位相部位の割合である。欠損k−mer:アセンブリから欠損している、基準における100k−merの割合である。一倍体:一倍体型のアセンブリである。二倍体:二倍体型のアセンブリである。所定の距離での差異:アセンブリにおける所定の距離でのk−mer対の差異であり、両方とも基準に特有に配置され、基準染色体、配向、順序、または分離の割合(±10%)は一致していない。柱時計:384GBの利用可能なメモリ(「mem=384G」によりブートされた)を有する単一サーバを使用して、FASTQファイルから出発した、アセンブリの実行時間(日数)である。
実施例2−配列決定データの生成
核酸の調製及び配列決定データの生成は、以前に記載されている。簡潔には、数百個のビーズを、所定のライブラリー構築の入力として使用し、各ビーズは、そのビーズに特有の14ベースバーコードの多くのコピーを含有した。マイクロ流体装置は、個別のビーズをゲノムDNA及び試薬と共に、およそ百万個の区分に送達する。それぞれの区分は、いくつかの長いフラグメント(下記に考察されている)を含有し、システムは、Illuminaアダプタの間に挟まれたフラグメントからの約300bpのゲノムDNAと共にバーコードを有する構築物を作り出すように配置された。バーコードは、対の最初の読み取りの開始時に設置された。
装填された核酸のうち、およそ40%がライブラリーに現れた。例えば、1.25ngの材料が装填される場合、106個の区分に分配され、50kbの平均サイズを有し、区分1個あたりの分子の平均数は、約10個であり、区分1個あたり約0.5Mbのゲノムを表している。したがって、56Xの適用範囲では、ヒトゲノムにおける分子1個あたりの読み取り対の平均数は、(1200M/2)/(106×10)=60であり、分子を(120150)/ 50,000)=0.36×の深さで覆っている。
小さなゲノムにおいて、同じ固定適用範囲レベル(56×)では、分子1個あたりの読み取り対の平均数は、比例的に下落し、データ型の能力を低減し得る。例えば、サイズがヒトゲノムのサイズの10分の1であるゲノム(320Mb)では、分子1個あたりの読み取り対の平均数は約6であり、読み取り対の間の距離は、約8kbであり、バーコードを短い初期コンティグに固定させることが難しくなる。
次にこれらの構築物を、Illumina器具で配列決定した。長さがそれぞれ150塩基の対の読み取りが、生成されるはずである。この読み取り長さは、データがHiSeq X器具により配列決定され得るように選択され、HiSeq X器具は、Illumina器具のなかで最も低い費用でデータを生じ、最大読み取り長さの150を有する。データを、HiSeq 2500によりラピッドランモードで生成することもできる。本発明者たちは、ヒトゲノムでは試料を56×または約1200Mの読み取りで配列決定することを推奨したが、それより低い適用範囲も可能であり、後に記載される。
実施例3−異なるサイズの核酸を使用するアセンブリ
システムの性能をいくつかの異なるサイズのDNAにより検査し、DNAの長さが重要な要素であることを示した。表2のデータは、様々な長さのNA12878 DNAから構築され、38×の適用範囲で配列決定された、4つの異なるライブラリーのデータによるアセンブリ性能を示す。特にDNA<30kbでは、データは、約20kbのサイズのDNAが0.6MbのサイズのN50足場を生じるが、約50kbのサイズのDNAが、12.8MbのサイズのN50足場を生じることを示した
実施例4−様々な適用範囲でのHGP試料のアセンブリ
加えて、ヒトゲノムプロジェクトドナー試料の配列決定及びアセンブリを、様々な適用範囲で実施した。表3は、少なくとも2.3メガベースの大型位相ブロックが38×配列包括度で生成され得ることを示す。
実施例5−デノボアセンブリ
バーコード付きデータは、それぞれの分子の浅い適用範囲を提供するので、それぞれの区分において読み取りを別々に組み立てることによってアセンブリプロセスを開始することが、不可能である(そうでなければ、当然の手法である)。この実施例では、代わりに、アセンブリプロセスは、累進的に大きくなるアセンブリユニットを構築することによって進行させる。これらのユニットが数kbの長さになると、所定のユニットが所定の分子(同じ遺伝子座における)からの読み取りと重複する確率が高くなり、したがって、ユニットに対して生じるバーコードの多くを確認することが可能であり、故にバーコードをグループ化し、故にそのグループを組み立てることが可能である。これは、それぞれの区分からの読み取りを別々に組み立てることに類似している。
Supernovaアルゴリズムがこの後に続き、したがって、バーコードの主な使用を延期する。始めるにあたり、De Bruijnグラフのアルゴリズムに取り組み、DISCOVARの方法を全ゲノムデータセットの希望に適合させ、バーコード付きデータを利用した。k−mer(いくつかの実施形態ではK=48)にプレフィルタを欠けて、1つのバーコードのみに存在するものを除去し、したがって偽k−mer、すなわち試料に不在のものの発生を低減した。残りのk−merを初期指向グラムに形成し、ここでは、端部が非分枝DNA配列を表し、接している端部がK−1塩基により重複していた。次に操作を実施して欠損k−merを回収し、残留偽k−merを除去した。この時点でグラフ(基礎グラフと呼ばれる)は、完全な48−mer反復と共に真の試料ゲノム配列を崩壊させることによって得られるものの近似である。
次に、それぞれの読み取り対では、可能であれば、1つのパスまたは時々それ以上のパスがグラフに見出され、元の挿入の配列を表す可能性があった。これらのパスは、基礎グラフにおける端部の識別子に対応する整数の配列として、表れた。K=200塩基で完全に重複する2つのパスがある場合、パスは、同値関係を介して形式的に結合した。このことは新たな有向グラフを生じ、これはスーパーグラフと呼ばれ、この端部は整数の配列により標識され、基礎グラフにおけるパスを表した。それぞれのスーパーグラフの端部をDNA配列に翻訳することができる。スーパーグラフの端部が接している場合、これらの会合配列は、K-1塩基(この実施例ではK=48)により重複した。しかし、スーパーグラフは、完全な200−mer反復と共に真の試料ゲノム配列を崩壊させることによって得られるものの近似を表す。したがって、基礎グラフよりはるか多く分割された。
アセンブリプロセスの残りは、このグラフを改善することを意図して修飾する、一連の操作からなる。これらの操作を促進し、個別のアセンブリの性質を理解するため、グラフを、ラインと呼ぶユニットに分解した。図7を参照すると、ラインは延長された線状領域であり、「バブル」によってのみ区切られていた。バブルがグラフに配置され、そこでは配列が再代替的パスに沿って一時的に逸脱し、次に接続されている。初めは、大部分がゲノムのヘテロ接合部位から生じる。図7において、それぞれの端部はDNA配列を表す。パネル701において、部分702は、アセンブリグラフのラインを記載し、両末端が単一の端部で結合している非環式グラフの部分である。ラインは5個の共通分節及び4個のバブルの間を互い違いになり、そのうちの3個は2つの分枝を有する。第3のバブル703は、より複雑である。グラフ全体を、それぞれの端部が特有のラインにあるように区分化することができる(縮合している場合に可能であり、単一端部ライン及びサークルが含まれる)。パネル711は、ライン702と同一のライン712を示すが、ここではそれぞれのバブルが、全てのパスからなるバブルに置き換えられている。この変化の後、それぞれのバブルは平行端部のみからなる。
ラインを使用して、スーパーグラフに足場を設けることができる。このことは、2つのラインの相対的順序及び配向を決定し、次に端部での接続を切断し、次にラインの間に特別な「ギャップ」端部を挿入することを伴う。最終結果は新たなラインであり、これはギャップ端部のみからなる特別な「バブル」を有する。続く操作(後に記載される)は、これらギャップのいくつかを除去し、配列に交換することができる。
足場の設定は、読み取り対を使用して、最初に実施した。1つのラインの右端が読み取り対により別のラインの左端と明白に接続している場合、これらを接続させることができる。読み取り対は、短いギャップに届くことができる。
大きなギャップにわたって足場を設定するため、バーコードを使用した。簡潔には、2つのラインがゲノムにおいて実際に互いに近い場合、高い確率で、多数の分子(区分内)が2つのラインの間のギャップを架橋した。したがって、任意のラインにおいて、同じバーコードを多く共有する他のラインを探すことによって、近隣に候補ラインを見出すことができる。次にこれらのラインの代替的な順序及び配向(O&O)を試験し、組合せ爆発を避けるために、試験をラインの小さなセットに慎重に限定した。
このアセンブリにおける全てのラインには、初期コンピュータ処理を実施した。コンピュータ処理は、それぞれのラインに線形座標系を指定し、特有に設置された読み取りの位置をマーク付けし、バーコードによって系統付けた。ここで所定のラインセットSでは、代替的なO&Oの可能性を以下のようにスコア付けすることができる。したがって、SにおけるそれぞれのO&Oは、仮定の結合ラインにそってバーコード付き読み取り位置の配列を生じた。所定のO&Oのためにスコアがコンピュータ処理され、これは、全ての構成バーコードの合計であった。それぞれのバーコードでは、最初にそのバーコード(結合ラインにおける)の連続読み込み配置の間の平均分離をコンピュータ処理した。次に、これらの配置を順番に横断して、1つの構成ラインから別のものへのジャンプを架橋した継続配置の対を見出し、したがってこれらは誤接続を表す。この分離は、この対をバーコードの平均分離により分けた。商が固定結合より小さい、例えば。2.0であった場合、恐らくノイズであると推測しえ廃棄した。残りの商をスコア合計に加えた。
スコアが、同じラインのセットにおいて競合的に試験したO&Oの可能性より少なくとも固定量で下回る場合、所定のO&Oを「勝利者」として処理した。これに基づいて、バーコードの使用によってラインに足場を設定した。
アセンブリに足場を設定すると、いくつかのギャップを配列で埋めることができる。短いギャップでは、ギャップの両側の読み取り対が届き、介在配列を覆うことができ、このことが推定され得る。長いギャップでは、最初にギャップの左及び右側に近位の配列に生じたバーコードが見出される。次に、これらのバーコードにおける全ての読み取りが見出される。この読み取りのセットは、正確にはギャップの中にあるが、依然としてこのセットよりほぼ10倍大きい読み取りを含む(それぞれの液滴は約10個の分子を含有する)。読み取りの全セットを組み立てた。ギャップ遺伝子座の外側にある読み取りは、低い適用範囲になる傾向があり、したがって組み立てなかった。このように、典型的にはギャップをグラフの塊で埋める、これによって、アセンブリからギャップを取り除くことが可能であった。塊は単一の配列でなくてもよい。例えば、この段階でギャップ内のヘテロ接合部位は、簡単なバブルとして典型的に表れる。
アセンブリプロセスの最終ステップは、ラインの位相である。図7を参照すると、最初にそれぞれのラインにおいて、全ての簡単なバブル、すなわち2つの分枝だけを有するバブルを見出すことができる。次に分子のセットを定義した。同じバーコードからのものであり、ラインに発生し、非常に大きなギャップを有さない(>100kb)一連の読み取りによって、これらを定義した。
「位相」は、それぞれのバブルの配向であり、一方の分枝を「上側」、他方を「下側」に配置している。最初に任意配向を選択した。それぞれの分子がいくつかのバブルに接触し、したがって(所定の位相に対して)上側では+1、下側では−1、またはサイレントでは0のエントリーを有する配列として表すことができる。位相は、それぞれの分子が合着している場合、「良好」であり、ほぼ全ての1、またはほぼ全ての−1(及びサイレント位置では0)を含有する。したがって、位相のスコアは、最大(プラス、マイナス)−最小(プラス、マイナス)の全ての分子の合計であると定義した。
次にこの実施例は、反復摂動を実施し、それぞれいくつかのバブルをフリップし、位相スコアを増加した摂動のみを保存した。3種類の摂動を試みた。(a)所定の分子のバブルをフリップして、完全に合着させた。(b)個別のバブルをフリップした。(c)所定の点で回転させて、全てのバブルを左にフリップした。
ここで初期位相がもたらされた。次にその弱点を考慮することができる。第1に、バブルのフリッピングが、スコアに対して小さすぎる効果を有する場合、位相操作から除外した。例えば、バブルは、長さが試料によって固定されていたがデータ生成の間に変わった、長いホモポリマーに生じることがある。第2に、回転がスコアに対して小さすぎる効果を有する場合、位相は、回転点にいて壊れ、所定の足場に多数の位相ブロックをもたらす。例えば、このことは、所定の試料に十分に長いブロックがホモ接合体である場合に発生し得る。
いくつかのアプリケーションでは、Supernovaを単一のLinux(登録商標)サーバにおいて実行されるように設計した。ヒトサイズのゲノムでは、典型的なピークメモリ使用量は300GBであったので、≧384GB RAMを有するサーバを使用することが推奨される。柱時計実行時間が表1に示されている。固定適用範囲では、メモリ及び実行時間は、ゲノムサイズの関数としてほぼ線形であった。
実施例6−Supernovaの出力
図3を再び参照すると、Supernovaアセンブリは、二倍体ゲノムの生物学を捕捉することができる。位相ブロックは、「メガバブル」として現れ、それぞれの分枝は1つの親対立遺伝子を表し、一方、メガバブルの間の配列は、名目上ホモ接合体である。連続したメガバブルは、互いに位相していない(している場合、これらは組み合わされている)。示されているメガバブルの鎖は所定の足場を含む。大規模な特徴に加えて、Supernovaグラフは、長さがデータによって完全に決定されていない長いホモポリマーにおいてギャップ及びバブルなどの小さな特徴をコードする。図3において、Supernovaアセンブリは二倍体ゲノム構造をコードする。それぞれの端部は配列を表す。メガバブルアームは、所定の遺伝子座における代替的親対立遺伝子を表し、メガバブルの間の配列はホモ接合体である(または、Supernovaにおいてそのように現れる)。小規模な特徴311は、ギャップ及びバブルとして現れる。
図5を再び参照すると、SupernovaアセンブリをFASTAにいくつかの別個の方法で翻訳することができ、このことは異なるアプリケーションにおける有用性を証明し得る。これらは、完全「生」グラフ501の提示を可能にする、または微細な特徴を削除する(小さなバブルにおいて最も可能性のある分枝を選択肢、ギャップの端部をNに交換する)。メガバブル型502、偽ハップ型503及び偽ハップ2型504においてメガバブル分枝点がどのように取り扱われるかに応じて、結果を包括するのに1つを超える方法が存在する。微細な特徴を削除することは、いくつかの場合において間違ったバブル分枝が選択されるように、情報のいくらかの消失を伴うことに留意すること。
グラフのサイクルは興味深い試験項目を提供している。サイクルは、グラフのサイクル部分を含む1つ以上の端部のセットを意味する。これらは完全なグラフでは損なわれることなく残されているが、他の形態では、それぞれの端部を横断するサイクルを介してパスにより少なくとも1回、続いてNにより置き換えられている。このことは、残念なことにギャップ(これは原則として任意の配列を表し得る)を強調し、一方、完全なグラフは、どの配列が遺伝子座に存在し得るかを正確に示している。
図5は、いくつかの型を示している。501では、生型は、FASTA記録として(赤色分節として示されている)アセンブリにおける全ての端部を表す。これらは、マイクロバブルアームとギャップも含む(読み取り対により架橋されたギャップに、100Nまたはそれより大きい数字を含む記録として印刷されており、推定ギャップサイズである。Supp. Note 6)。未解明のサイクルは、サイクルを介するパス、続いて10Nにより置き換えられた。バブル及びギャップは、一般に10〜20kbに1回現れる。生グラフ記録は、メガバブルアームよりも、ほぼ2桁短い。生グラフにおけるそれぞれの端部では、FASTAファイルに書き込まれた端部も存在し、逆補体配列を表す。残りの出力型では、最高の適用範囲を有する分枝を選択することによって、それぞれのバブルを平らにし、ギャップを隣接配列と結合させ(Nを残し)、逆補体端部を取り去った。第2の型の502では、それぞれのメガバブルアームはFASTA記録に対応し、それぞれの介在配列も同様である。第3の型の503は、偽ハップ型であり、足場1つあたり単一の記録を生成する。例えば、2つの型の絵図では、上側の7個の赤色端部(7個のFASTA記録に対応する)が単一のFASTA記録に組み合わされる。メガバブルアームは任意に選択され、それによって多くの記録は、母系及び父系対立遺伝子を混合している。第4の型の504は、それぞれの足場において2個の「平行」偽ハプロタイプが作り出され、別々のFASTAファイルに配置されることを除いて、偽ハップの選択肢と類似している。
実施例7−DNAの推定長さ
それぞれのアセンブリにおいて、区分になり、したがって配列決定されたDNA分子の統計を推定することができ、このように、入力材料の品質及びライブラリー構築の初期ステップの際の分解を反映している。表1は、Fの欄に、これらの分子の長さ重み付け平均(LWM)の推定値を示している。イヌDNAは、83〜90kbの範囲であり、一方、ヒトDNAは92〜139kbの範囲であった。この差は、CpGアイランドなどの塩基組成における差に起因し得ると想像される。全てのイヌDNAは、新鮮な血液から得て、最長のヒトDNA試料も同様であった。他のヒト試料は、細胞株から得た。最短のヒト試料(NA12878)は、このDNA試料が多くの実験で対照として使用されたので、DNA管を繰り返し扱って多数のライブラリーを作り出したために最短になった。
実施例8−ヒトアセンブリの評価
この実施例は、7個のアセンブリ及び6個のヒトアセンブリを評価し、低い適用範囲(30×)PacBioから、かなり高い適用範囲での多数の技術の複雑な組合せまで、広範囲の実験室手法を包含した(表1)。それぞれのアセンブリでは、いくつかの統計が、これらの統計がコンピュータ処理され得る程度でコンピュータ処理された。これらの統計をコンピュータ処理する前に、第1のステップは、それぞれのアセンブリから10kbより短い足場を全て取り除き、それによって、そうでなければゲノムの適用範囲を含む統計に有意な影響を与える、アセンブリの定義に使用された実際のカットオフにおける差を正規化した。
アセンブリの連続性を評価するため、第1ステップはN50コンティグのサイズをコンピュータ処理した。7個のSupernovaアセンブリの平均は、117kbであり、ほとんど変動がなかった。PacBioに基づいた3個のアセンブリは、かなり大きなコンティグを有し、一方、他のアセンブリのコンティグは、Supernovaの2倍以下の短さであった。
Supernovaアセンブリは、全て二倍体であり、N50位相ブロックサイズは2.7〜10.7Mbの範囲であり、変動性は、おそらく様々な祖先及び様々なDNA長さに起因していた。他の6個のヒトアセンブリのうち、702×アセンブリのみが二倍体であり、0.5MbのN50位相ブロックサイズを有した。Linked−Readの基礎となる大きな分子は、他の技術により達成することが難しい長い位相ブロックを可能にした。
Supernovaアセンブリの足場は、15〜19Mb(N50)の範囲であった。PacBioのみのアセンブリが、かなり短い足場を有したので、4個の組合せアセンブリは、23〜43Mgの範囲の長い足場を有した。これらの足場におけるギャップ(Nの割合)も、PacBioアセンブリの0%から、Supernovaアセンブリの2%、アセンブリIの10%に大きく変動した。
アセンブリ連続性へ任意の評価は、これらの同じアセンブリの正確性及び完全性の評価によって加減される。ヒト基準配列と比較することによって、このことを行うことができるが(後にそのように行うが)、理想的には、組み立てられた同じ試料からのグラウンドトルースデータ(ground truth data)を利用することである。これらのデータは、独立して配列決定され、組み立てられたクローンからなり、ゲノムを代表していた。わずか2つの試料しか見出すことができず、そのために、このようなトルースデータが利用可能であり、そのために高い品質のDNAがアセンブリを作り出すために調達することができた。これらは、ヒトゲノムプロジェクトの生体ドナーからの試料であり、340Mbの最終クローンがプロジェクトの際に多額の費用をかけて配列決定され、組み立てられ、以前に配列決定され、組み立てられたNA12878は、4Mbのランダムクローンである。HGPクローンは真にランダムではないが、1つの理由としては、これらが適度に代表的である非常に多くのゲノム(約10%)を含むことである。
所定の試料では、それぞれの染色体において正確な配列が知られている場合、アセンブリを完全に代表するゲノムの最大領域を列挙することによって、試料のアセンブリの正確さを評価することができる。そのような領域の大部分は、アセンブリにおいて誤差またはギャップにより終了している。(間違った対立遺伝子の表示は誤差としてカウントされることに留意すること。)そのような完全に代表的な領域のN50サイズは、「N50完全伸展」と呼ばれた。二倍体ゲノムでは、二倍体アセンブリ(したがって、全ての染色体を表示するように試みる)及び全く同じ試料からの代表的な最終配列(したがって、染色体の試料を提供する)を両方とも有する場合、N50完全伸展に近似し得る。表1の試料のうち、アセンブリF及びGのみが、これらの要件を満たしている。
これらのSupernovaアセンブリのN50完全伸展は、約19kbであることが見出された(表1)。更に、最終配列とアセンブリとの整列を検査すると、完全伸展を終了させるアセンブリ欠陥の生活な性質が明白になる。例えば、図8(及び数千の他のクローンの対応する整列)は、長いホモポリマー付近の誤差の圧倒的な多さを示し、これはライブラリー構築における欠陥、配列決定における欠陥、アルゴリズムにおける欠陥、またはおそらく最終配列における誤差に起因し得る。より詳細には、図8は、162kb領域(ネアンデルタール人由来の領域を包含するので興味深い)の内部を示し、アセンブリと、領域の最終配列(+2つのギャップ)との間に7つの差異がある。差異のうちの1つは、単一塩基不整合である。全てのアセンブリ読み取りがアセンブリ配列を支持するので、最終配列が、この場合は(Supernovaアセンブリではなく)間違いである可能性が高いと思われる。事実、この部位はGRCh38により修正され、本発明者たちのアセンブリに整合した。残り6つの差異は、長いホモポリマーにおける挿入欠失である。これらの遺伝子座でデータを検査すると、典型的には、非常に低い品質の読み取りが見られる(通常、ホモポリマーの一方の側の品質は崩壊している)。したがって、これらの差異がアセンブリの誤差に起因することは、かなり可能性が高いことである。
この比較はアセンブリに2つの捕捉ギャップも表示し、一方のサイズが46塩基(最終配列で測定)であり、読み取り対により捕捉され、他方のサイズは1765塩基であり、読み取り対により捕捉されていない。短いギャップは、複雑さの低い配列に接している。長いギャップでは、ギャップを埋める1225塩基のサイズの別々の「スタンドアロン」コンティグがあり、これらは最終配列に完全に整合しており、改善されたバージョンのアルゴリズムが、少なくともこの配列をギャップ内に配置し得ることを示唆している。
実施例9−アセンブリの忠実度
この実施例は、ヒトゲノムアセンブリの忠実度を評価する2つの手法を考慮する。第1の手法は、全く同じ試料から得た基準配列に比較することによって、所定の試料のアセンブリの特性を測定することであった。第1の手法では、真の二倍体アセンブリを有することが必要であった。第2の手法は、ヒト基準配列と比較することによって、アセンブリを測定することであり、いくつかの差は、元の試料間の善意の差に起因することが理解される。
親配列データを使用して、アセンブリを評価することもできる。特に、このことは、二倍体アセンブリにおける位相ブロックの正確性に対する直接的な読み出しを提供することができる。これは、2つの現存する二倍体ヒトアセンブリでは親が配列決定されていなかったので、ヒトゲノムの前では行われたことがない。この実施例は、4個のSupernovaアセンブリ(表1のC、E及びG)を有した。親が配列決定されており、位相VCFが入手可能であった。この実施例は、これらのアセンブリの位相正確さの推定を可能にする。
これを行うためには、それぞれのメガバブルにおいて、異なる塩基を表し(ヘテロ接合SNP)、VCFにおいて位相された2つの位置が、GRCh37の同じ位置にマップされ得る交互分枝に見出されたとき、メガバブルの「上側」分枝が母系または父系対立遺伝子のどちらかに指定されるかに応じて、0または1のいずれかを記録した。全て0、または全て1の配列は、完全な位相を表している。評価は、全ての「票」(0または1)をカウントし、全ての「間違い票」(大多数が0の場合は1、大多数が1の場合は0)をカウントし、サイズが≧100kbのメガバブルを全て合計した。所定のアセンブリの位相における全体誤差率は、(間違い票)/票であり、単一のメガバブルにおける「長いスイッチ」誤差であってもこの率を上昇させ得ることに留意すること。この実施例は、「間違い染色体」事象をスクリーンに表示しなかったので、誤差率(ここでは平均して50%)にも起用している。
観察された誤差率は(表1に示されており)、アセンブリC(HG00733、プエルトリコ人)では0.089%(1368誤差)であり、アセンブリE(NA24385、アシュケナージ)では0.053%(640誤差)であり、アセンブリG(NA12878、ヨーロッパ人)では0.018%(270誤差)であった。アセンブリGの270誤差のうち、178は、単一の2Mbメガバブルにおけるものであり、「長いスイッチ」誤差を表した。同様に、アセンブリEの640誤差では、556が2つの事象のものであった。アセンブリGでは、97%のメガバブルが検出された位相誤差がなく、アセンブリEでは96%であり、一方、この数字は、アセンブリCではわずか66%であり、プエルトリコ人試料の位相ルースデータの不正確性を示唆している。全体的に、このデータは位相誤差が非常に希な長いスイッチ誤差(おそらく、アセンブリ1個あたり1〜2)からなり、単離された短いスイッチ事象と一緒になると、メガバブルの数パーセントに発生することを示唆している。
基準試料の比較は、下記に記載されている。アセンブリの完全性についての測定は、使用される床のサイズに大きく依存している。この実施例は、任意のカットオフの10kbを選択し、このサイズより小さい足場を無視した。異なるアセンブリの相対的完全性を測定するため、この実施例はk−merのカウントを選択し、それはこの手法が不完全であっても、簡単であり、そのため解釈することが比較的単純明快なためであった。更に、この方法は、非常に高い誤差率を有したアセンブリにおける領域を正確に罰する。この実施例はK=100を使用し、2つの考慮を釣り合わせた。第1に、分析者がこれらについて把握しないので、複製k−merの割合は小さいことが特に重要であると考えた。複製k−merの割合は、GRCh37では2.3%である。第2に、この実施例は多形へ多くのk−merを失い過ぎることを望まなかった。多形率の1/1000を想定すると、約10%のk−merが試料間の差異のために欠損する。
次にこの実施例は、ヒトアセンブリの完全性を、アセンブリに生じるGRCh37における非複製k−merの割合であると定義した。一倍体アセンブリの適用範囲は、そのことを標識した(表1)。Supernovaアセンブリでは、この実施例は、一倍体適用範囲(出力型偽ハップを使用した)または二倍体適用範囲(出力型偽ハップ2を使用した)のいずれかをコンピュータ処理することができた。この実施例は、いくらか高い適用範囲を生じるであろうが、k−merを生グラフに使用しなかった。YHアセンブリでは、アセンブリのハプロタイプに分ける直接的な方法がなかったので、この実施例はアセンブリ全体を使用し、適用範囲の統計を二倍体として報告した。
次にこの実施例はミスアセンブリを評価した。これを実行するため、所定のアセンブリ及び固定サイズ(1Mb、10Mb)では、研究は末端k−merが基準配列に正確に1回生じているアセンブリにおける所定のサイズの全ての足場分節を選択した。この実施例は、末端k−mer位置が一定している分節の割合を報告し、このことは、これらが同じ染色体の中に正確な順序及び配向で置かれ、長さが固定サイズの10%以内であるフラグメントを確定することを意味する。この実施例は、ギャップのサイズが不正確または多形的であり得るので、基準において100以上のサイズのギャップを架橋した事例を除外した。
実施例10−コンピュータ処理の利益
前述の実施例は、本明細書に開示されている技術の実施形態を示している。PacBioにより提供されるものなどの現存する技術と対照的に、本明細書の実施例は、基礎となるバーコード技術によってもたらされる異なるデータ型から出発した。このように、これらの実施例は、ノイズの少ないデータを考慮し、低い誤差率及び高い正確性をもたらした。
本明細書に開示されている技術は、前置フィルタリングステップを含む。フィルタリングステップは、配列決定装置からの塩基品質スコアの利用を含む。更に、このステップは、1回を超えて生じるk−merを考慮する。このステップはバーコードの利用を更に含み、それぞれのk−merは、2つの個別のバーコードから生じることが見えるはずである。フィルタリングステップの大きな利点は、少なくとも2倍の桁の大きさで出発データの量を低減する能力であった。
本明細書に開示されている技術は、簡単なデータ構造:ベクターのベクター(vectors of vectors)を利用する。ベクター化コンピュータ処理は、速いコンピュータ処理時間を可能にした。スパースベクター/マトリックスが、いくつかのアプリケーションにおいて生じる場合、ベクター化コンピュータ処理は、コンピュータ処理時間における大きな低減のための操作が容易である。
本明細書に開示されている技術は、大規模な並行コンピュータ処理のためにGPUではなくCPUを用いるループを利用している。いくつかのアプリケーションでは、GPUが用いられる。ある特定の実施は、CPU及びGPUの両方が用いられることを含む。並行コンピュータ処理の長所は、コンピュータ処理時間の低減を可能にすることである。
本明細書に開示されている技術は、品質スコア及びグラフの全体にわたるパス(配列及び端部を含む)の各記録に適用された損失なしランダムアクセス圧縮を利用する。圧縮の長所は、分析に必要なメモリを少なくするできること及びデータまたは分析結果を保持する必要な記憶容量を少なくできることである。
PacBioのFALCONアセンブラと比較して、これらの実施例は、コンピュータ処理時間を180倍低減し、メモリの利用を21倍低下させた。
実施例11−コンピュータ処理構造
図9は、本明細書に記載されているデノボアセンブリシステム901の非限定ブロックダイアグラムを示すシステムは、少なくとも1つのCPU902、メモリ903及び記憶装置904を含むコンピュータ処理構造は以下のように機能する。配列データ911のセットをデノボアセンブリシステム901に供給する。前置フィルタ921は、短い読み取り配列データの生成に使用された配列決定装置の塩基品質スコアを利用し、k−merを前処理のために利用する。次にアセンブラ922は、処理アセンブリグラフを作り出す。この初期アセンブリは、「ラフスケッチ」アセンブリになり、未解明の複雑さの区域を、例えば、一見して曖昧であり得る領域を一時的に無視するので、コンピュータ処理能力を保存する。
初期アセンブラ922の出力を曖昧アセンブラ923に供給する。曖昧な区域は、バーコード付き配列決定データ912を用いることによって更に処理され、曖昧な区域の正確なアセンブリを作り出すことができる。曖昧プロセッサ923の出力は、アセンブリプロセスの際に作り出された配列決定読み取りから誘導されて、特定の染色体、細胞、個体群、ハプロタイプなどに対してアドレス可能にされるk−merを含む。アセンブラ924は、図2に示されているステップに基づいて、真の二倍体を組み立てるために用いられる。バーコード付き読み取りはアセンブリに戻され、遺伝子座は、正確にどこの配列のものが不明であるか確実に確認され、そのようにマーク付けされる。最終アセンブラ925は、網羅的アセンブリグラフを基準配列と整列させるために使用される。端部が個別に整列される。一致しない整列があると、不一致はこれらの端部の連鎖を整列させることによって解明される。
このシステムは、品質スコア及びグラフの全体にわたるパスの1つ以上の記録を圧縮する、損失なしランダムアクセス圧縮器926を更に含むことができる。
様々なアプリケーションにおいて、フィルタ(921)、アセンブラ(922、923、924及び925)、ならびに圧縮器(926)をハードウエアもしくはソフトウエアにおいて、またはこれらの組み合わせにおいて実現することができる。フィルタ(921)、アセンブラ(922、923、924及び925)、ならびに圧縮器(926)を個別または一緒に構成して、開示されている1つ以上の機能を実行させることができる。いくつかの実施では、フィルタ(921)、アセンブラ(922、923、924及び925)、ならびに圧縮器(926)の順序を交換することができる、またはこれらの2つ以上を単一の実行モジュールに集積化することができる。
本発明の好ましい実施形態が本明細書において示され、記載されてきたが、そのような実施形態は単なる例として提供されていることが、当業者には明白である。多数の変更、改変及び置き換えが、当業者によって、本発明から逸脱することなく生じる。本明細書に記載されている本発明の実施形態に対する様々な代替案を、本発明の実施に用いてもよいことが、理解されるべきである。

Claims (25)

  1. 生物の核酸試料から生成された核酸配列データのためのデノボゲノムアセンブリをコンピュータにより実現する方法であって、
    a)1台以上のコンピュータにより、短い読み取り配列データに基づいて初期アセンブリを生成し、前記初期アセンブリが曖昧な配列の1つ以上の未解明領域を含み、前記短い読み取り配列データが、前記核酸配列データの長い出発配列から誘導され、共通の出発配列から誘導された前記短い読み取り配列データのサブセットが1つ以上の共通のタグを共有するように、前記生物の長い範囲の配列構成を保存するためにタグ付されることと、
    b)前記1台以上のコンピュータにより、前記1つ以上の共通のタグを利用して前記初期アセンブリに基づいて複数の局所アセンブリを生成して、曖昧な配列の1つ以上未解明領域を解明することであって、前記複数の局所アセンブリが
    (i)前記初期アセンブリグラフを暫定基準として使用すること、
    (ii)明白な配列の端部を確認すること、
    (iii)前記明白な配列とある数の前記1つ以上の共通のタグを共有する近隣端部を確認することであって、前記1つ以上の共通のタグの前記数が閾値数を超える、こと、及び
    (iv)前記明白な配列の端部を(iii)において確認された前記近隣端部と一緒にすること
    によって生成される、ことと、
    c)前記1台以上のコンピュータにより、前記複数の局所アセンブリに基づいて網羅的アセンブリを生成することと、
    d)前記1台以上のコンピュータにより、前記1つ以上の共通のタグにより示された前記長い範囲の配列構成と一致しない配列データを除去することによって、前記網羅的アセンブリをクリーニングすることと、
    e)前記1台以上のコンピュータにより、前記1つ以上の共通のタグを利用して前記網羅的アセンブリに基づいた位相ゲノムアセンブリを生成して、位相ヌクレオチド配列を分離し、
    前記位相ゲノムアセンブリが、基準配列または独立して生成された任意のゲノム配列に整列させることなく達成されることと
    を含む、前記方法。
  2. 前記位相ゲノムが二倍体ゲノムのためのものである、請求項1に記載の方法。
  3. 前記短い読み取り配列データが単一のライブラリーから生成される、請求項1に記載の方法。
  4. 前記短い読み取り配列データが、前記生物のゲノムの50×以下の適用範囲をもたらす、請求項1に記載の方法。
  5. 前記短い読み取り配列データが、この読み取りより2×〜1000×長い出発配列の構成を保存するためにタグ付けされる、請求項1に記載の方法。
  6. 前記短い読み取り配列データが、10kb〜5Mbの出発配列の構成を保存するためにタグ付けされる、請求項1に記載の方法。
  7. 前記初期アセンブリが初期アセンブリグラフである、請求項1に記載の方法。
  8. 前記初期アセンブリグラフが、
    a)前記生物の前記ゲノムに存在する高い確率を有する複数のk−merを確認すること、
    b)前記1つ以上の共通のタグを使用して、k−merがそれぞれ生じる出発配列の数に基づいて複数のk−merをフィルタにかけること、及び
    c)前記複数のk−merのうち共通のl−merを共有するk−merを一緒にして、l<kである初期アセンブリを形成すること
    によって生成される、請求項7に記載の方法。
  9. 前記1台以上のコンピュータにより、前記初期アセンブリを生成する前に前置フィルタを適用することを更に含み、前記前置フィルタが、
    a)前記短い読み取り配列データの生成に使用された配列決定装置の塩基品質スコアを利用すること、及び
    b)k−merがそれぞれ2つの別個の共通のタグから生じることが見えるように、一回を超えて発生するk−mer及び前記1つ以上の共通のタグを利用すること
    を含む、請求項8に記載の方法。
  10. 前記1台以上のコンピュータにより、無損失ランダムアクセス圧縮を、前記品質スコアのそれぞれの記録及び前記グラフの全体にわたるパスに適用することを更に含む、請求項9に記載の方法。
  11. 方法が、前記1台以上のコンピュータにより、
    a)曖昧な配列の領域内のそれぞれの選択肢の利用可能な読み取りの数に基づいて、曖昧な配列の1つ以上の未解明領域を排除すること、及び
    b)元の短い読み取り配列データを参考にして、前記初期アセンブリグラフのギャップを埋めること
    によって、前記初期アセンブリグラフを改訂することを更に含む、請求項8に記載の方法。
  12. kが24と96の間である、請求項8に記載の方法。
  13. 前記網羅的アセンブリが、
    a)z>kである前記生物の前記ゲノムに存在する高い確率を有する前記複数の局所アセンブリにおいて複数のz−merを確認すること、及び
    b)前記複数の局所アセンブリにおける前記z−merを一緒にすること
    によって生成される、請求項に記載の方法。
  14. zが100と300の間である、請求項1に記載の方法。
  15. 前記短い読み取り配列データが、10ng未満のDNA入力材料から生成される、請求項1に記載の方法。
  16. 前記短い読み取り配列データが、2ng未満のDNA入力材料から生成される、請求項1に記載の方法。
  17. 前記アセンブリが60分未満で完成される、請求項1に記載の方法。
  18. 前記1台以上のコンピュータが、512GB未満の記憶容量を含む、請求項1に記載の方法。
  19. 前記1台以上のコンピュータが、60GB未満の記憶容量を含む、請求項1に記載の方法。
  20. 前記アセンブリが20分未満で完成される、請求項1に記載の方法。
  21. 前記1台以上のコンピュータが、512GB未満の記憶容量を含む、請求項2に記載の方法。
  22. 前記1台以上のコンピュータが、60GB未満の記憶容量を含む、請求項2に記載の方法。
  23. 前記生物がヒトである、請求項1に記載の方法。
  24. 前記DNA配列データが全ゲノム配列データであり、前記位相ゲノムアセンブリが全ゲノムアセンブリである、請求項1に記載の方法。
  25. 前記1台以上のコンピュータが、1立方フィート以下の物理的空間を占める、請求項1に記載の方法。
JP2018542282A 2016-02-11 2016-08-19 全ゲノム配列データのデノボアセンブリのためのシステム、方法及び媒体 Active JP6735348B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662294184P 2016-02-11 2016-02-11
US62/294,184 2016-02-11
US201662332914P 2016-05-06 2016-05-06
US62/332,914 2016-05-06
PCT/US2016/047899 WO2017138984A1 (en) 2016-02-11 2016-08-19 Systems, methods, and media for de novo assembly of whole genome sequence data

Publications (3)

Publication Number Publication Date
JP2019511908A JP2019511908A (ja) 2019-05-09
JP2019511908A5 JP2019511908A5 (ja) 2019-09-26
JP6735348B2 true JP6735348B2 (ja) 2020-08-05

Family

ID=59561717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018542282A Active JP6735348B2 (ja) 2016-02-11 2016-08-19 全ゲノム配列データのデノボアセンブリのためのシステム、方法及び媒体

Country Status (6)

Country Link
US (1) US11081208B2 (ja)
EP (1) EP3414341A4 (ja)
JP (1) JP6735348B2 (ja)
CN (1) CN108779491B (ja)
SG (1) SG11201806757XA (ja)
WO (1) WO2017138984A1 (ja)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2885418A4 (en) 2012-08-14 2016-03-02 10X Genomics Inc MICROCAPSE COMPOSITIONS AND METHOD THEREFOR
US9951386B2 (en) 2014-06-26 2018-04-24 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10323279B2 (en) 2012-08-14 2019-06-18 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10752949B2 (en) 2012-08-14 2020-08-25 10X Genomics, Inc. Methods and systems for processing polynucleotides
US11591637B2 (en) 2012-08-14 2023-02-28 10X Genomics, Inc. Compositions and methods for sample processing
US9701998B2 (en) 2012-12-14 2017-07-11 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10400280B2 (en) 2012-08-14 2019-09-03 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10533221B2 (en) 2012-12-14 2020-01-14 10X Genomics, Inc. Methods and systems for processing polynucleotides
EP2954065B1 (en) 2013-02-08 2021-07-28 10X Genomics, Inc. Partitioning and processing of analytes and other species
US10395758B2 (en) 2013-08-30 2019-08-27 10X Genomics, Inc. Sequencing methods
US9824068B2 (en) 2013-12-16 2017-11-21 10X Genomics, Inc. Methods and apparatus for sorting data
DE202015009609U1 (de) 2014-04-10 2018-08-06 10X Genomics, Inc. Mikrofluidisches System zur Erzeugung von Emulsionen
WO2015200541A1 (en) 2014-06-24 2015-12-30 Bio-Rad Laboratories, Inc. Digital pcr barcoding
WO2015200891A1 (en) 2014-06-26 2015-12-30 10X Technologies, Inc. Processes and systems for nucleic acid sequence assembly
EP4053292A1 (en) 2014-06-26 2022-09-07 10X Genomics, Inc. Methods of analyzing nucleic acids from individual cells or cell populations
KR102321863B1 (ko) 2015-01-12 2021-11-08 10엑스 제노믹스, 인크. 핵산 시퀀싱 라이브러리의 제조 방법 및 시스템 및 이를 이용하여 제조한 라이브러리
SG11201705425SA (en) 2015-01-13 2017-08-30 10X Genomics Inc Systems and methods for visualizing structural variation and phasing information
AU2016219480B2 (en) 2015-02-09 2021-11-11 10X Genomics, Inc. Systems and methods for determining structural variation and phasing using variant call data
US11371094B2 (en) 2015-11-19 2022-06-28 10X Genomics, Inc. Systems and methods for nucleic acid processing using degenerate nucleotides
US10550429B2 (en) 2016-12-22 2020-02-04 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10011872B1 (en) 2016-12-22 2018-07-03 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10815525B2 (en) 2016-12-22 2020-10-27 10X Genomics, Inc. Methods and systems for processing polynucleotides
WO2018140966A1 (en) 2017-01-30 2018-08-02 10X Genomics, Inc. Methods and systems for droplet-based single cell barcoding
US10995333B2 (en) 2017-02-06 2021-05-04 10X Genomics, Inc. Systems and methods for nucleic acid preparation
EP4215616B1 (en) 2017-05-18 2024-09-04 10X Genomics, Inc. Methods and systems for sorting droplets and beads
US10544413B2 (en) 2017-05-18 2020-01-28 10X Genomics, Inc. Methods and systems for sorting droplets and beads
CN110870018A (zh) 2017-05-19 2020-03-06 10X基因组学有限公司 用于分析数据集的系统和方法
US10357771B2 (en) 2017-08-22 2019-07-23 10X Genomics, Inc. Method of producing emulsions
US10837047B2 (en) 2017-10-04 2020-11-17 10X Genomics, Inc. Compositions, methods, and systems for bead formation using improved polymers
US10590244B2 (en) 2017-10-04 2020-03-17 10X Genomics, Inc. Compositions, methods, and systems for bead formation using improved polymers
WO2019084043A1 (en) 2017-10-26 2019-05-02 10X Genomics, Inc. METHODS AND SYSTEMS FOR NUCLEIC ACID PREPARATION AND CHROMATIN ANALYSIS
WO2019083852A1 (en) 2017-10-26 2019-05-02 10X Genomics, Inc. MICROFLUIDIC CHANNEL NETWORKS FOR PARTITIONING
WO2019084165A1 (en) 2017-10-27 2019-05-02 10X Genomics, Inc. METHODS AND SYSTEMS FOR SAMPLE PREPARATION AND ANALYSIS
CN111051523B (zh) 2017-11-15 2024-03-19 10X基因组学有限公司 功能化凝胶珠
US10829815B2 (en) 2017-11-17 2020-11-10 10X Genomics, Inc. Methods and systems for associating physical and genetic properties of biological particles
WO2019108851A1 (en) 2017-11-30 2019-06-06 10X Genomics, Inc. Systems and methods for nucleic acid preparation and analysis
CN118547046A (zh) 2017-12-22 2024-08-27 10X基因组学有限公司 用于处理来自一个或多个细胞的核酸分子的系统和方法
SG11202007686VA (en) 2018-02-12 2020-09-29 10X Genomics Inc Methods characterizing multiple analytes from individual cells or cell populations
US11639928B2 (en) 2018-02-22 2023-05-02 10X Genomics, Inc. Methods and systems for characterizing analytes from individual cells or cell populations
WO2019169028A1 (en) 2018-02-28 2019-09-06 10X Genomics, Inc. Transcriptome sequencing through random ligation
SG11202009889VA (en) 2018-04-06 2020-11-27 10X Genomics Inc Systems and methods for quality control in single cell processing
WO2019217758A1 (en) 2018-05-10 2019-11-14 10X Genomics, Inc. Methods and systems for molecular library generation
US11932899B2 (en) 2018-06-07 2024-03-19 10X Genomics, Inc. Methods and systems for characterizing nucleic acid molecules
US11703427B2 (en) 2018-06-25 2023-07-18 10X Genomics, Inc. Methods and systems for cell and bead processing
US20200032335A1 (en) 2018-07-27 2020-01-30 10X Genomics, Inc. Systems and methods for metabolome analysis
US12065688B2 (en) 2018-08-20 2024-08-20 10X Genomics, Inc. Compositions and methods for cellular processing
CN109273052B (zh) * 2018-09-13 2022-03-18 北京百迈客生物科技有限公司 一种基因组单倍体组装方法及装置
CN109637581B (zh) * 2018-12-10 2022-05-17 江苏医联生物科技有限公司 一种dna二代测序全流程质量分析方法
US11459607B1 (en) 2018-12-10 2022-10-04 10X Genomics, Inc. Systems and methods for processing-nucleic acid molecules from a single cell using sequential co-partitioning and composite barcodes
US11845983B1 (en) 2019-01-09 2023-12-19 10X Genomics, Inc. Methods and systems for multiplexing of droplet based assays
WO2020168013A1 (en) 2019-02-12 2020-08-20 10X Genomics, Inc. Methods for processing nucleic acid molecules
US11851683B1 (en) 2019-02-12 2023-12-26 10X Genomics, Inc. Methods and systems for selective analysis of cellular samples
US11467153B2 (en) 2019-02-12 2022-10-11 10X Genomics, Inc. Methods for processing nucleic acid molecules
US11655499B1 (en) 2019-02-25 2023-05-23 10X Genomics, Inc. Detection of sequence elements in nucleic acid molecules
CN113767178A (zh) 2019-03-11 2021-12-07 10X基因组学有限公司 用于处理光学标签化珠粒的系统和方法
JP7407189B2 (ja) * 2019-06-28 2023-12-28 四国計測工業株式会社 検卵装置、検卵プログラム、および検卵方法
US12006539B2 (en) 2020-03-17 2024-06-11 Western Digital Technologies, Inc. Reference-guided genome sequencing
US12014802B2 (en) 2020-03-17 2024-06-18 Western Digital Technologies, Inc. Devices and methods for locating a sample read in a reference genome
US11837330B2 (en) 2020-03-18 2023-12-05 Western Digital Technologies, Inc. Reference-guided genome sequencing
US11851700B1 (en) 2020-05-13 2023-12-26 10X Genomics, Inc. Methods, kits, and compositions for processing extracellular molecules
CN112102883B (zh) * 2020-08-20 2023-12-08 深圳华大生命科学研究院 一种fastq文件压缩中的碱基序列编码方法和系统
US12084715B1 (en) 2020-11-05 2024-09-10 10X Genomics, Inc. Methods and systems for reducing artifactual antisense products
EP4298244A1 (en) 2021-02-23 2024-01-03 10X Genomics, Inc. Probe-based analysis of nucleic acids and proteins
EP4434035A2 (en) * 2021-11-18 2024-09-25 Rajant Health Inc. Fastq/fasta compression systems and methods
WO2024191730A1 (en) * 2023-03-10 2024-09-19 Illumina, Inc. K-mer-based methods for assembling polynucleotide sequences

Family Cites Families (437)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4124638A (en) 1977-09-12 1978-11-07 Hansen John N Solubilizable polyacrylamide gels containing disulfide cross-linkages
GB2097692B (en) 1981-01-10 1985-05-22 Shaw Stewart P D Combining chemical reagents
DE3230289A1 (de) 1982-08-14 1984-02-16 Bayer Ag, 5090 Leverkusen Herstellung von pharmazeutischen oder kosmetischen dispersionen
US4916070A (en) 1986-04-14 1990-04-10 The General Hospital Corporation Fibrin-specific antibodies and method of screening for the antibodies
US5618711A (en) 1986-08-22 1997-04-08 Hoffmann-La Roche Inc. Recombinant expression vectors and purification methods for Thermus thermophilus DNA polymerase
US5202231A (en) 1987-04-01 1993-04-13 Drmanac Radoje T Method of sequencing of genomes by hybridization of oligonucleotide probes
US5525464A (en) 1987-04-01 1996-06-11 Hyseq, Inc. Method of sequencing by hybridization of oligonucleotide probes
US5149625A (en) 1987-08-11 1992-09-22 President And Fellows Of Harvard College Multiplex analysis of DNA
US5185099A (en) 1988-04-20 1993-02-09 Institut National De Recherche Chimique Appliquee Visco-elastic, isotropic materials based on water, fluorinate sufactants and fluorinated oils, process for their preparation, and their use in various fields, such as optics, pharmacology and electrodynamics
US5237016A (en) 1989-01-05 1993-08-17 Siska Diagnostics, Inc. End-attachment of oligonucleotides to polyacrylamide solid supports for capture and detection of nucleic acids
US6176962B1 (en) 1990-02-28 2001-01-23 Aclara Biosciences, Inc. Methods for fabricating enclosed microchannel structures
US5756334A (en) 1990-04-26 1998-05-26 New England Biolabs, Inc. Thermostable DNA polymerase from 9°N-7 and methods for producing the same
US5270183A (en) 1991-02-08 1993-12-14 Beckman Research Institute Of The City Of Hope Device and method for the automated cycling of solutions between two or more temperatures
US5994056A (en) 1991-05-02 1999-11-30 Roche Molecular Systems, Inc. Homogeneous methods for nucleic acid amplification and detection
US5413924A (en) 1992-02-13 1995-05-09 Kosak; Kenneth M. Preparation of wax beads containing a reagent for release by heating
AU3816993A (en) 1992-03-19 1993-10-21 Regents Of The University Of California, The Multiple tag labeling method for DNA sequencing
US5587128A (en) 1992-05-01 1996-12-24 The Trustees Of The University Of Pennsylvania Mesoscale polynucleotide amplification devices
DE69322774T2 (de) 1992-05-01 1999-06-17 Univ Pennsylvania Polynukleotide amplifikationsanalyse mit einer mikrofabrizierten vorrichtung
US5569364A (en) 1992-11-05 1996-10-29 Soane Biosciences, Inc. Separation media for electrophoresis
EP0636413B1 (en) 1993-07-28 2001-11-14 PE Corporation (NY) Nucleic acid amplification reaction apparatus and method
US5512131A (en) 1993-10-04 1996-04-30 President And Fellows Of Harvard College Formation of microstamped patterns on surfaces and derivative articles
US20030044777A1 (en) 1993-10-28 2003-03-06 Kenneth L. Beattie Flowthrough devices for multiple discrete binding reactions
US5605793A (en) 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
EP0775313B1 (en) 1994-05-11 2000-03-15 Genera Technologies Limited Method of capturing species from liquids and apparatus therefor
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
EP0812434B1 (en) 1995-03-01 2013-09-18 President and Fellows of Harvard College Microcontact printing on surfaces and derivative articles
WO1996041011A1 (en) 1995-06-07 1996-12-19 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
DE69638179D1 (de) 1995-06-07 2010-06-10 Solexa Inc Verfahren zur Verbesserung der Effizienz der Polynukleotidsequenzierung
US5856174A (en) 1995-06-29 1999-01-05 Affymetrix, Inc. Integrated nucleic acid diagnostic device
US6057149A (en) 1995-09-15 2000-05-02 The University Of Michigan Microscale devices and reactions in microscale devices
US5851769A (en) 1995-09-27 1998-12-22 The Regents Of The University Of California Quantitative DNA fiber mapping
US5736330A (en) 1995-10-11 1998-04-07 Luminex Corporation Method and compositions for flow cytometric determination of DNA sequences
US5736332A (en) 1995-11-30 1998-04-07 Mandecki; Wlodek Method of determining the sequence of nucleic acids employing solid-phase particles carrying transponders
US6051377A (en) 1995-11-30 2000-04-18 Pharmaseq, Inc. Multiplex assay for nucleic acids employing transponders
US6001571A (en) 1995-11-30 1999-12-14 Mandecki; Wlodek Multiplex assay for nucleic acids employing transponders
US6355198B1 (en) 1996-03-15 2002-03-12 President And Fellows Of Harvard College Method of forming articles including waveguides via capillary micromolding and microtransfer molding
WO1997045559A1 (en) 1996-05-29 1997-12-04 Cornell Research Foundation, Inc. Detection of nucleic acid sequence differences using coupled ligase detection and polymerase chain reactions
US5900481A (en) 1996-11-06 1999-05-04 Sequenom, Inc. Bead linkers for immobilizing nucleic acids to solid supports
EP0946749A1 (en) 1996-11-20 1999-10-06 The Regents Of The University Of Michigan Microfabricated isothermal nucleic acid amplification devices and methods
US5958703A (en) 1996-12-03 1999-09-28 Glaxo Group Limited Use of modified tethers in screening compound libraries
US20050042625A1 (en) 1997-01-15 2005-02-24 Xzillion Gmbh & Co. Mass label linked hybridisation probes
US20020034737A1 (en) 1997-03-04 2002-03-21 Hyseq, Inc. Methods and compositions for detection or quantification of nucleic acid species
US6297006B1 (en) 1997-01-16 2001-10-02 Hyseq, Inc. Methods for sequencing repetitive sequences and for determining the order of sequence subfragments
DE69825601T2 (de) 1997-02-12 2005-04-28 Chan, Eugene Y, Brookline Verfahren zur analyse von polymeren
US6327410B1 (en) 1997-03-14 2001-12-04 The Trustees Of Tufts College Target analyte sensors utilizing Microspheres
US7622294B2 (en) 1997-03-14 2009-11-24 Trustees Of Tufts College Methods for detecting target analytes and enzymatic reactions
US6391622B1 (en) 1997-04-04 2002-05-21 Caliper Technologies Corp. Closed-loop biochemical analyzers
US6143496A (en) 1997-04-17 2000-11-07 Cytonix Corporation Method of sampling, amplifying and quantifying segment of nucleic acid, polymerase chain reaction assembly having nanoliter-sized sample chambers, and method of filling assembly
JP4294740B2 (ja) 1997-05-23 2009-07-15 ソレクサ・インコーポレイテッド 分析物の系列的プロセシングのためのシステムおよび装置
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US20040241759A1 (en) 1997-06-16 2004-12-02 Eileen Tozer High throughput screening of libraries
ATE487790T1 (de) 1997-07-07 2010-11-15 Medical Res Council In-vitro-sortierverfahren
GB9714716D0 (en) 1997-07-11 1997-09-17 Brax Genomics Ltd Characterising nucleic acids
US6974669B2 (en) 2000-03-28 2005-12-13 Nanosphere, Inc. Bio-barcodes based on oligonucleotide-modified nanoparticles
AU8908198A (en) 1997-08-15 1999-03-08 Hyseq, Inc. Methods and compositions for detection or quantification of nucleic acid species
WO1999014368A2 (en) 1997-09-15 1999-03-25 Whitehead Institute For Biomedical Research Methods and apparatus for processing a sample of biomolecular analyte using a microfabricated device
US20020092767A1 (en) 1997-09-19 2002-07-18 Aclara Biosciences, Inc. Multiple array microfluidic device units
US7214298B2 (en) 1997-09-23 2007-05-08 California Institute Of Technology Microfabricated cell sorter
US6103537A (en) 1997-10-02 2000-08-15 Aclara Biosciences, Inc. Capillary assays involving separation of free and bound species
AU737174B2 (en) 1997-10-10 2001-08-09 President & Fellows Of Harvard College Replica amplification of nucleic acid arrays
US6485944B1 (en) 1997-10-10 2002-11-26 President And Fellows Of Harvard College Replica amplification of nucleic acid arrays
US6511803B1 (en) 1997-10-10 2003-01-28 President And Fellows Of Harvard College Replica amplification of nucleic acid arrays
WO1999019515A1 (en) 1997-10-14 1999-04-22 Luminex Corporation Precision fluorescently dyed particles and methods of making and using same
EP1036332B1 (en) 1997-12-04 2005-07-13 Amersham Biosciences UK Limited Multiple assay method
WO1999052708A1 (en) 1998-04-13 1999-10-21 Luminex Corporation Liquid labeling with fluorescent microparticles
US6780591B2 (en) 1998-05-01 2004-08-24 Arizona Board Of Regents Method of determining the nucleotide sequence of oligonucleotides and DNA molecules
US6123798A (en) 1998-05-06 2000-09-26 Caliper Technologies Corp. Methods of fabricating polymeric structures incorporating microscale fluidic elements
US6306590B1 (en) 1998-06-08 2001-10-23 Caliper Technologies Corp. Microfluidic matrix localization apparatus and methods
WO2000008212A1 (en) 1998-08-07 2000-02-17 Cellay, Llc Gel microdrops in genetic analysis
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6489096B1 (en) 1998-10-15 2002-12-03 Princeton University Quantitative analysis of hybridization patterns and intensities in oligonucleotide arrays
WO2000026412A1 (en) 1998-11-02 2000-05-11 Kenneth Loren Beattie Nucleic acid analysis using sequence-targeted tandem hybridization
US5942609A (en) 1998-11-12 1999-08-24 The Porkin-Elmer Corporation Ligation assembly and detection of polynucleotides on solid-support
GB9900298D0 (en) 1999-01-07 1999-02-24 Medical Res Council Optical sorting method
US6635419B1 (en) 1999-02-16 2003-10-21 Applera Corporation Polynucleotide sequencing method
DE60044490D1 (de) 1999-02-23 2010-07-15 Caliper Life Sciences Inc Manipulation von mikroteilchen in mikrofluiden systemen
US6171850B1 (en) 1999-03-08 2001-01-09 Caliper Technologies Corp. Integrated devices and systems for performing temperature controlled reactions and analyses
US6908737B2 (en) 1999-04-15 2005-06-21 Vitra Bioscience, Inc. Systems and methods of conducting multiplexed experiments
US20060275782A1 (en) 1999-04-20 2006-12-07 Illumina, Inc. Detection of nucleic acid reactions on bead arrays
US6399952B1 (en) 1999-05-12 2002-06-04 Aclara Biosciences, Inc. Multiplexed fluorescent detection in microfluidic devices
US20020051971A1 (en) 1999-05-21 2002-05-02 John R. Stuelpnagel Use of microfluidic systems in the detection of target analytes using microsphere arrays
US20030124509A1 (en) 1999-06-03 2003-07-03 Kenis Paul J.A. Laminar flow patterning and articles made thereby
US6372813B1 (en) 1999-06-25 2002-04-16 Motorola Methods and compositions for attachment of biomolecules to solid supports, hydrogels, and hydrogel arrays
AU6068300A (en) 1999-07-06 2001-01-22 Caliper Technologies Corporation Microfluidic systems and methods for determining modulator kinetics
US6524456B1 (en) 1999-08-12 2003-02-25 Ut-Battelle, Llc Microfluidic devices for the controlled manipulation of small volumes
WO2001014589A2 (en) 1999-08-20 2001-03-01 Luminex Corporation Liquid array technology
JP2003508763A (ja) 1999-08-27 2003-03-04 マトリックス テクノロジーズ コーポレイション 固体支持体上にリガンドを固定化する方法及び装置並びにその使用方法
US6982146B1 (en) 1999-08-30 2006-01-03 The United States Of America As Represented By The Department Of Health And Human Services High speed parallel molecular nucleic acid sequencing
US6958225B2 (en) 1999-10-27 2005-10-25 Affymetrix, Inc. Complexity management of genomic DNA
CN1261755C (zh) 2000-02-23 2006-06-28 卡钳技术有限公司 多容器压力控制系统
EP1285106A2 (en) 2000-03-31 2003-02-26 Micronics, Inc. Protein crystallization in microfluidic structures
US6800298B1 (en) 2000-05-11 2004-10-05 Clemson University Biological lubricant composition and method of applying lubricant composition
US20060008799A1 (en) 2000-05-22 2006-01-12 Hong Cai Rapid haplotyping by single molecule detection
US6645432B1 (en) 2000-05-25 2003-11-11 President & Fellows Of Harvard College Microfluidic systems including three-dimensionally arrayed channel networks
US20060263888A1 (en) 2000-06-02 2006-11-23 Honeywell International Inc. Differential white blood count on a disposable card
US6632606B1 (en) 2000-06-12 2003-10-14 Aclara Biosciences, Inc. Methods for single nucleotide polymorphism detection
US7892854B2 (en) 2000-06-21 2011-02-22 Bioarray Solutions, Ltd. Multianalyte molecular analysis using application-specific random particle arrays
AU2001290879A1 (en) 2000-09-15 2002-03-26 California Institute Of Technology Microfabricated crossflow devices and methods
AU2002211389A1 (en) 2000-10-03 2002-04-15 California Institute Of Technology Microfluidic devices and methods of use
MXPA02005717A (es) 2000-10-10 2003-10-14 Diversa Corp Analisis de alto rendimiento o a base de capilares para bioactividad o biomoleuclas.
JP2002155305A (ja) 2000-11-14 2002-05-31 Akira Kawasaki 単分散粒子の製造装置及び単分散粒子の製造方法及びその製造方法で製造された単分散粒子
US7670559B2 (en) 2001-02-15 2010-03-02 Caliper Life Sciences, Inc. Microfluidic systems with enhanced detection systems
WO2002068104A1 (en) 2001-02-23 2002-09-06 Japan Science And Technology Corporation Process for producing emulsion and microcapsules and apparatus therefor
US20030027221A1 (en) 2001-04-06 2003-02-06 Scott Melissa E. High-throughput screening assays by encapsulation
US7572642B2 (en) 2001-04-18 2009-08-11 Ambrigen, Llc Assay based on particles, which specifically bind with targets in spatially distributed characteristic patterns
DE60229246D1 (ja) 2001-05-26 2008-11-20 One Cell Systems Inc
US6613523B2 (en) 2001-06-29 2003-09-02 Agilent Technologies, Inc. Method of DNA sequencing using cleavable tags
US6767731B2 (en) 2001-08-27 2004-07-27 Intel Corporation Electron induced fluorescent method for nucleic acid sequencing
US6783647B2 (en) 2001-10-19 2004-08-31 Ut-Battelle, Llc Microfluidic systems and methods of transport and lysis of cells and analysis of cell lysate
US20030149307A1 (en) 2001-10-24 2003-08-07 Baxter International Inc. Process for the preparation of polyethylene glycol bis amine
EP1448789A4 (en) 2001-10-30 2007-01-03 Nanomics Biosystems Pty Ltd DEVICE AND METHOD FOR THE TARGETED SYNTHESIS OF CHEMICAL LIBRARIES
GB0127564D0 (en) 2001-11-16 2002-01-09 Medical Res Council Emulsion compositions
WO2003057010A2 (en) 2002-01-04 2003-07-17 Board Of Regents, The University Of Texas System Droplet-based microfluidic oligonucleotide synthesis engine
US20050202429A1 (en) 2002-03-20 2005-09-15 Innovativebio.Biz Microcapsules with controlable permeability encapsulating a nucleic acid amplification reaction mixture and their use as reaction compartment for parallels reactions
US7901939B2 (en) 2002-05-09 2011-03-08 University Of Chicago Method for performing crystallization and reactions in pressure-driven fluid plugs
EP2283917B1 (en) 2002-05-09 2021-12-15 The University of Chicago Device for pressure-driven plug transport and reaction
JP2006507921A (ja) 2002-06-28 2006-03-09 プレジデント・アンド・フェロウズ・オブ・ハーバード・カレッジ 流体分散のための方法および装置
CA2493808A1 (en) 2002-07-24 2004-01-29 Ptc Therapeutics, Inc. Methods for identifying small molecules that modulate premature translation termination and nonsense mediated mrna decay
IL151660A0 (en) 2002-09-09 2003-04-10 Univ Ben Gurion Method for isolating and culturing unculturable microorganisms
US20050266582A1 (en) 2002-12-16 2005-12-01 Modlin Douglas N Microfluidic system with integrated permeable membrane
ES2329364T3 (es) 2003-01-17 2009-11-25 The Trustees Of Boston University Analisis de haplotipos.
EP1997889A3 (en) 2003-01-29 2009-09-23 454 Corporation Method for preparing single-stranded dna libraries
US7041481B2 (en) 2003-03-14 2006-05-09 The Regents Of The University Of California Chemical amplification based on fluid partitioning
US20060078893A1 (en) 2004-10-12 2006-04-13 Medical Research Council Compartmentalised combinatorial chemistry by microfluidic control
GB0307428D0 (en) 2003-03-31 2003-05-07 Medical Res Council Compartmentalised combinatorial chemistry
GB0307403D0 (en) 2003-03-31 2003-05-07 Medical Res Council Selection by compartmentalised screening
AU2004226591B2 (en) 2003-04-04 2009-06-04 Zoetis Services Llc Microfluidized oil-in-water emulsions and vaccine compositions
US20100035254A1 (en) 2003-04-08 2010-02-11 Pacific Biosciences Of California, Inc. Composition and method for nucleic acid sequencing
EP1610888A2 (en) 2003-04-10 2006-01-04 President And Fellows Of Harvard College Formation and control of fluidic species
EP1629286A1 (en) 2003-05-16 2006-03-01 Global Technologies (NZ) Ltd. Method and apparatus for mixing sample and reagent in a suspension fluid
WO2004103565A2 (de) 2003-05-19 2004-12-02 Hans-Knöll-Institut für Naturstoff-Forschung e.V. Vorrichtung und verfahren zur strukturierung von flüssigkeiten und zum zudosieren von reaktionsflüssigkeiten zu in separationsmedium eingebetteten flüssigkeitskompartimenten
WO2004105734A1 (en) 2003-05-28 2004-12-09 Valorisation Recherche, Societe En Commandite Method of preparing microcapsules
GB0315438D0 (en) 2003-07-02 2003-08-06 Univ Manchester Analysis of mixed cell populations
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
EP2662135A3 (en) 2003-08-27 2013-12-25 President and Fellows of Harvard College Method for mixing droplets in a microchannel
CA2542512A1 (en) 2003-09-04 2005-03-17 Nathan Ravi Hydrogel nanocompsites for ophthalmic applications
WO2005023427A1 (en) 2003-09-05 2005-03-17 Stokes Bio Limited A microfluidic analysis system
EP1691196B1 (en) 2003-09-25 2012-12-26 Toyama Prefecture Microwell array chip and its manufacturing method
WO2005049787A2 (en) 2003-11-24 2005-06-02 Yeda Research And Development Co.Ltd. Compositions and methods for in vitro sorting of molecular and cellular libraries
US7927797B2 (en) 2004-01-28 2011-04-19 454 Life Sciences Corporation Nucleic acid amplification with continuous flow emulsion
US20050181379A1 (en) 2004-02-18 2005-08-18 Intel Corporation Method and device for isolating and positioning single nucleic acid molecules
JP2007526772A (ja) 2004-02-27 2007-09-20 プレジデント・アンド・フェロウズ・オブ・ハーバード・カレッジ インサイチュー配列決定用ポロニー蛍光ビーズ
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
KR100552706B1 (ko) 2004-03-12 2006-02-20 삼성전자주식회사 핵산 증폭 방법 및 장치
JP4777238B2 (ja) 2004-03-23 2011-09-21 独立行政法人科学技術振興機構 微小液滴の生成方法及び装置
US20050221339A1 (en) 2004-03-31 2005-10-06 Medical Research Council Harvard University Compartmentalised screening by microfluidic control
WO2005099419A2 (en) 2004-04-13 2005-10-27 President And Fellows Of Harvard College Manipulation and/or detection of biological samples or other objects
WO2005111242A2 (en) 2004-05-10 2005-11-24 Parallele Bioscience, Inc. Digital profiling of polynucleotide populations
US7799553B2 (en) 2004-06-01 2010-09-21 The Regents Of The University Of California Microfabricated integrated DNA analysis system
CN1648671B (zh) 2005-02-06 2012-09-26 成都夸常医学工业有限公司 多反应器分析芯片检测方法和分析芯片及检测装置
US20080268431A1 (en) 2004-09-14 2008-10-30 Jin-Ho Choy Information Code System Using Dna Sequences
US7892731B2 (en) 2004-10-01 2011-02-22 Radix Biosolutions, Ltd. System and method for inhibiting the decryption of a nucleic acid probe sequence used for the detection of a specific nucleic acid
US7968287B2 (en) 2004-10-08 2011-06-28 Medical Research Council Harvard University In vitro evolution in microfluidic systems
US9492400B2 (en) 2004-11-04 2016-11-15 Massachusetts Institute Of Technology Coated controlled release polymer particles as efficient oral delivery vehicles for biopharmaceuticals
WO2006051552A2 (en) 2004-11-15 2006-05-18 Yeda Research And Development Co. Ltd. At The Weizmann Institute Of Science Directed evolution and selection using in vitro compartmentalization
US20080213593A1 (en) 2005-01-21 2008-09-04 President And Fellows Of Harvard College Systems And Methods For Forming Fluidic Droplets Encapsulated In Particles Such As Colloidal Particles
US7579153B2 (en) 2005-01-25 2009-08-25 Population Genetics Technologies, Ltd. Isothermal DNA amplification
US7407757B2 (en) 2005-02-10 2008-08-05 Population Genetics Technologies Genetic analysis by sequence-specific sorting
US7393665B2 (en) 2005-02-10 2008-07-01 Population Genetics Technologies Ltd Methods and compositions for tagging and identifying polynucleotides
EP1871903B1 (en) 2005-02-18 2011-12-21 Canon U.S. Life Sciences, Inc. Devices and methods for identifying genomic dna of organisms
US8062391B2 (en) 2005-02-21 2011-11-22 Kagoshima University Method for purifying biodiesel fuel
US20070054119A1 (en) 2005-03-04 2007-03-08 Piotr Garstecki Systems and methods of forming particles
AU2006220816A1 (en) 2005-03-04 2006-09-14 President And Fellows Of Harvard College Method and apparatus for forming multiple emulsions
US9040237B2 (en) 2005-03-04 2015-05-26 Intel Corporation Sensor arrays and nucleic acid sequencing applications
JP2006289250A (ja) 2005-04-08 2006-10-26 Kao Corp マイクロミキサー及びそれを用いた流体混合方法
JP5331476B2 (ja) 2005-06-15 2013-10-30 カリダ・ジェノミックス・インコーポレイテッド 遺伝子解析および化学解析用の単分子アレイ
JP2006349060A (ja) 2005-06-16 2006-12-28 Ntn Corp ボールねじ
WO2007002490A2 (en) 2005-06-22 2007-01-04 The Research Foundation Of State University Of New York Massively parallel 2-dimensional capillary electrophoresis
WO2007002567A2 (en) 2005-06-23 2007-01-04 Nanosphere, Inc. Selective isolation and concentration of nucleic acids from complex samples
US20070020640A1 (en) 2005-07-21 2007-01-25 Mccloskey Megan L Molecular encoding of nucleic acid templates for PCR and other forms of sequence analysis
ATE510930T1 (de) 2005-08-02 2011-06-15 Rubicon Genomics Inc Zusammensetzungen und verfahren zur bearbeitung und amplifikation von dna mit verwendung mehrerer enzyme in einer einzigen reaktion
WO2007024840A2 (en) 2005-08-22 2007-03-01 Critical Therapeutics, Inc. Method of quantitating nucleic acids by flow cytometry microparticle-based array
US7556776B2 (en) 2005-09-08 2009-07-07 President And Fellows Of Harvard College Microfluidic manipulation of fluids and reactions
AU2007249635B2 (en) 2005-10-07 2012-05-31 Complete Genomics, Inc. High throughput genome sequencing on DNA arrays
US7960104B2 (en) 2005-10-07 2011-06-14 Callida Genomics, Inc. Self-assembled single molecule arrays and uses thereof
US20070111241A1 (en) 2005-10-14 2007-05-17 Nezih Cereb System and method for accessing, tracking, and editing sequence analysis and software to accomplish the same
US20070190543A1 (en) 2005-11-14 2007-08-16 Applera Corporation Coded Molecules for Detecting Target Analytes
US7932037B2 (en) 2007-12-05 2011-04-26 Perkinelmer Health Sciences, Inc. DNA assays using amplicon probes on encoded particles
US20100137163A1 (en) 2006-01-11 2010-06-03 Link Darren R Microfluidic Devices and Methods of Use in The Formation and Control of Nanoreactors
WO2007087310A2 (en) 2006-01-23 2007-08-02 Population Genetics Technologies Ltd. Nucleic acid analysis using sequence tokens
US7537897B2 (en) 2006-01-23 2009-05-26 Population Genetics Technologies, Ltd. Molecular counting
WO2007089541A2 (en) 2006-01-27 2007-08-09 President And Fellows Of Harvard College Fluidic droplet coalescence
WO2007092538A2 (en) 2006-02-07 2007-08-16 President And Fellows Of Harvard College Methods for making nucleotide probes for sequencing and synthesis
SG10201405158QA (en) 2006-02-24 2014-10-30 Callida Genomics Inc High throughput genome sequencing on dna arrays
JP4921829B2 (ja) 2006-03-30 2012-04-25 株式会社東芝 微粒子の製造装置、乳化剤保持部、微粒子の製造方法および分子膜の製造方法
US20090181864A1 (en) 2006-03-31 2009-07-16 Nam Trung Nguyen Active control for droplet-based microfluidics
US20090062129A1 (en) 2006-04-19 2009-03-05 Agencourt Personal Genomics, Inc. Reagents, methods, and libraries for gel-free bead-based sequencing
US7811603B2 (en) 2006-05-09 2010-10-12 The Regents Of The University Of California Microfluidic device for forming monodisperse lipoplexes
ATE540750T1 (de) 2006-05-11 2012-01-15 Raindance Technologies Inc Mikrofluidische vorrichtung und verfahren
EP2030011B1 (en) 2006-05-22 2017-02-01 Nanostring Technologies, Inc. Systems and methods for analyzing nanoreporters
RU2321638C2 (ru) 2006-05-23 2008-04-10 Закрытое акционерное общество "Молекулярно-медицинские технологии" Способ изготовления многофункционального мультичипа, мультичип для последовательного или параллельного скрининга биополимеров, способ анализа биополимеров и набор для осуществления способа
EP2029781A4 (en) 2006-05-26 2010-06-30 Althea Technologies Inc BIOCHEMICAL ANALYSIS OF PARTITIONED CELLS
FR2901717A1 (fr) 2006-05-30 2007-12-07 Centre Nat Rech Scient Procede de traitement de gouttes dans un circuit microfluidique.
EP2024513B1 (en) 2006-06-14 2016-10-19 Verinata Health, Inc Rare cell analysis using sample splitting and dna tags
CA2656022C (en) 2006-06-19 2017-10-17 The Johns Hopkins University Single-molecule pcr on microparticles in water-in-oil emulsions
EP1878501A1 (en) 2006-07-14 2008-01-16 Roche Diagnostics GmbH Instrument for heating and cooling
EP2077912B1 (en) 2006-08-07 2019-03-27 The President and Fellows of Harvard College Fluorocarbon emulsion stabilizing surfactants
WO2008030433A2 (en) 2006-09-06 2008-03-13 Canon U.S. Life Sciences, Inc. Chip and cartridge design configuration for performing micro-fluidic assays
US7935518B2 (en) 2006-09-27 2011-05-03 Alessandra Luchini Smart hydrogel particles for biomarker harvesting
US20080166720A1 (en) 2006-10-06 2008-07-10 The Regents Of The University Of California Method and apparatus for rapid nucleic acid analysis
US8841116B2 (en) 2006-10-25 2014-09-23 The Regents Of The University Of California Inline-injection microdevice and microfabricated integrated DNA analysis system using same
US7910302B2 (en) 2006-10-27 2011-03-22 Complete Genomics, Inc. Efficient arrays of amplified polynucleotides
US8709787B2 (en) 2006-11-14 2014-04-29 Handylab, Inc. Microfluidic cartridge and method of using same
US8603749B2 (en) 2006-11-15 2013-12-10 Biospherex, LLC Multitag sequencing ecogenomics analysis-US
US20080242560A1 (en) 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
US20080176768A1 (en) 2007-01-23 2008-07-24 Honeywell Honeywell International Hydrogel microarray with embedded metal nanoparticles
EP2121983A2 (en) 2007-02-02 2009-11-25 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
US8003312B2 (en) 2007-02-16 2011-08-23 The Board Of Trustees Of The Leland Stanford Junior University Multiplex cellular assays using detectable cell barcodes
FI20075124A0 (fi) 2007-02-21 2007-02-21 Valtion Teknillinen Menetelmä ja testikitti nukleotidivariaatioiden toteamiseksi
WO2008109176A2 (en) 2007-03-07 2008-09-12 President And Fellows Of Harvard College Assays and other reactions involving droplets
US7776927B2 (en) 2007-03-28 2010-08-17 President And Fellows Of Harvard College Emulsions and techniques for formation
US20100130369A1 (en) 2007-04-23 2010-05-27 Advanced Liquid Logic, Inc. Bead-Based Multiplexed Analytical Methods and Instrumentation
EP2164985A4 (en) 2007-06-01 2014-05-14 454 Life Sciences Corp SYSTEM AND METHOD FOR IDENTIFYING INDIVIDUAL SAMPLES FROM A MULTIPLEX MIXTURE
CA2689427C (en) 2007-06-05 2015-12-29 Eugenia Kumacheva Multiple continuous microfluidic reactors for the scaled up synthesis of gel or polymer particles
WO2009005680A1 (en) 2007-06-29 2009-01-08 President And Fellows Of Harvard College Methods and apparatus for manipulation of fluidic species
US20090068170A1 (en) 2007-07-13 2009-03-12 President And Fellows Of Harvard College Droplet-based selection
WO2009015296A1 (en) 2007-07-24 2009-01-29 The Regents Of The University Of California Microfabricated dropley generator
WO2009023821A1 (en) 2007-08-15 2009-02-19 Opgen, Inc. Method, system and software arrangement for comparative analysis and phylogeny with whole-genome optical maps
US8563527B2 (en) 2007-08-20 2013-10-22 Pharmain Corporation Oligonucleotide core carrier compositions for delivery of nucleic acid-containing therapeutic agents, methods of making and using the same
US8268564B2 (en) 2007-09-26 2012-09-18 President And Fellows Of Harvard College Methods and applications for stitched DNA barcodes
US20100086914A1 (en) 2008-10-03 2010-04-08 Roche Molecular Systems, Inc. High resolution, high throughput hla genotyping by clonal sequencing
WO2009061372A1 (en) 2007-11-02 2009-05-14 President And Fellows Of Harvard College Systems and methods for creating multi-phase entities, including particles and/or fluids
US8334013B2 (en) 2007-11-02 2012-12-18 Stc.Unm Mesoporous metal oxide microspheres and method for forming same
US8592150B2 (en) 2007-12-05 2013-11-26 Complete Genomics, Inc. Methods and compositions for long fragment read sequencing
CN101946010B (zh) 2007-12-21 2014-08-20 哈佛大学 用于核酸测序的系统和方法
EP4450642A2 (en) 2008-01-17 2024-10-23 Sequenom, Inc. Single molecule nucleic acid sequence analysis processes and compositions
JP5468271B2 (ja) 2008-02-08 2014-04-09 花王株式会社 微粒子分散液の製造方法
US20090203531A1 (en) 2008-02-12 2009-08-13 Nurith Kurn Method for Archiving and Clonal Expansion
CN101918597B (zh) 2008-03-11 2013-09-18 国立癌中心 应用snp阵列测量染色体、基因或特定核苷酸序列拷贝数的方法
US9011777B2 (en) 2008-03-21 2015-04-21 Lawrence Livermore National Security, Llc Monodisperse microdroplet generation and stopping without coalescence
US8961902B2 (en) 2008-04-23 2015-02-24 Bioscale, Inc. Method and apparatus for analyte processing
US9068181B2 (en) 2008-05-23 2015-06-30 The General Hospital Corporation Microfluidic droplet encapsulation
DE102008025656B4 (de) 2008-05-28 2016-07-28 Genxpro Gmbh Verfahren zur quantitativen Analyse von Nukleinsäuren, Marker dafür und deren Verwendung
US20110305761A1 (en) 2008-06-05 2011-12-15 President And Fellows Of Harvard College Polymersomes, colloidosomes, liposomes, and other species associated with fluidic droplets
US8198028B2 (en) 2008-07-02 2012-06-12 Illumina Cambridge Limited Using populations of beads for the fabrication of arrays on surfaces
EP2303245B1 (en) 2008-07-11 2016-12-28 ETH Zurich Degradable microcapsules
WO2010009365A1 (en) 2008-07-18 2010-01-21 Raindance Technologies, Inc. Droplet libraries
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
US20110218123A1 (en) 2008-09-19 2011-09-08 President And Fellows Of Harvard College Creation of libraries of droplets and related species
US20110159499A1 (en) 2009-11-25 2011-06-30 Quantalife, Inc. Methods and compositions for detecting genetic material
US9156010B2 (en) 2008-09-23 2015-10-13 Bio-Rad Laboratories, Inc. Droplet-based assay system
US9764322B2 (en) 2008-09-23 2017-09-19 Bio-Rad Laboratories, Inc. System for generating droplets with pressure monitoring
US8663920B2 (en) 2011-07-29 2014-03-04 Bio-Rad Laboratories, Inc. Library characterization by digital assay
US9417190B2 (en) 2008-09-23 2016-08-16 Bio-Rad Laboratories, Inc. Calibrations and controls for droplet-based assays
US8709762B2 (en) 2010-03-02 2014-04-29 Bio-Rad Laboratories, Inc. System for hot-start amplification via a multiple emulsion
US20120252015A1 (en) 2011-02-18 2012-10-04 Bio-Rad Laboratories Methods and compositions for detecting genetic material
WO2010080134A1 (en) 2008-12-19 2010-07-15 President And Fellows Of Harvard College Particle-assisted nucleic acid sequencing
US10839940B2 (en) 2008-12-24 2020-11-17 New York University Method, computer-accessible medium and systems for score-driven whole-genome shotgun sequence assemble
US9347092B2 (en) 2009-02-25 2016-05-24 Roche Molecular System, Inc. Solid support for high-throughput nucleic acid analysis
WO2010104604A1 (en) 2009-03-13 2010-09-16 President And Fellows Of Harvard College Method for the controlled creation of emulsions, including multiple emulsions
KR101793744B1 (ko) 2009-03-13 2017-11-03 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 유동 포커싱 미세유동 장치의 규모 확장
WO2010117620A2 (en) 2009-03-30 2010-10-14 Illumina, Inc. Gene expression analysis in single cells
EP2414547B1 (en) 2009-04-02 2014-03-12 Fluidigm Corporation Multi-primer amplification method for barcoding of target nucleic acids
WO2010127186A1 (en) 2009-04-30 2010-11-04 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
JP2012525147A (ja) 2009-04-30 2012-10-22 グッド スタート ジェネティクス, インコーポレイテッド 遺伝マーカーを評価するための方法および組成物
US20100279882A1 (en) 2009-05-01 2010-11-04 Mostafa Ronaghi Sequencing methods
US8574835B2 (en) 2009-05-29 2013-11-05 Life Technologies Corporation Scaffolded nucleic acid polymer particles and methods of making and using
DK2443236T3 (en) 2009-06-15 2015-08-17 Complete Genomics Inc Methods and compositions for sequencing by long fragment reading
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
EP2446278B1 (en) 2009-06-26 2021-11-17 President and Fellows of Harvard College Fluid injection
EP2467479B1 (en) 2009-08-20 2016-01-06 Population Genetics Technologies Ltd Compositions and methods for intramolecular nucleic acid rearrangement
CA2767056C (en) 2009-09-02 2018-12-04 Bio-Rad Laboratories, Inc. System for mixing fluids by coalescence of multiple emulsions
BR112012004719A2 (pt) 2009-09-02 2016-04-05 Harvard College emulsões múltiplas criadas por uso de jateamento e outras técnicas
GB0918564D0 (en) 2009-10-22 2009-12-09 Plasticell Ltd Nested cell encapsulation
US9056289B2 (en) 2009-10-27 2015-06-16 President And Fellows Of Harvard College Droplet creation techniques
WO2011056872A2 (en) 2009-11-03 2011-05-12 Gen9, Inc. Methods and microfluidic devices for the manipulation of droplets in high fidelity polynucleotide assembly
GB2485850C (en) 2009-11-25 2019-01-23 Bio Rad Laboratories Methods and compositions for detecting copy number and chromosome aneuploidy by ligation probes and partitioning the ligated products prior to amplification
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
WO2011074960A1 (en) 2009-12-17 2011-06-23 Keygene N.V. Restriction enzyme based whole genome sequencing
EP2517025B1 (en) 2009-12-23 2019-11-27 Bio-Rad Laboratories, Inc. Methods for reducing the exchange of molecules between droplets
US20110257889A1 (en) * 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
CA2767182C (en) 2010-03-25 2020-03-24 Bio-Rad Laboratories, Inc. Droplet generation for droplet-based assays
US20120000777A1 (en) 2010-06-04 2012-01-05 The Regents Of The University Of California Devices and methods for forming double emulsion droplet compositions and polymer particles
US20120238738A1 (en) 2010-07-19 2012-09-20 New England Biolabs, Inc. Oligonucleotide Adapters: Compositions and Methods of Use
US8481292B2 (en) 2010-09-21 2013-07-09 Population Genetics Technologies Litd. Increasing confidence of allele calls with molecular counting
US9999886B2 (en) 2010-10-07 2018-06-19 The Regents Of The University Of California Methods and systems for on demand droplet generation and impedance based detection
WO2012048341A1 (en) 2010-10-08 2012-04-12 President And Fellows Of Harvard College High-throughput single cell barcoding
US8753816B2 (en) 2010-10-26 2014-06-17 Illumina, Inc. Sequencing methods
CA2816712C (en) 2010-11-01 2018-12-11 Donald A. Masquelier System for forming emulsions
CA2821299C (en) 2010-11-05 2019-02-12 Frank J. Steemers Linking sequence reads using paired code tags
WO2012083225A2 (en) 2010-12-16 2012-06-21 Gigagen, Inc. System and methods for massively parallel analysis of nycleic acids in single cells
CA2822439A1 (en) 2010-12-23 2012-06-28 Sequenom, Inc. Fetal genetic variation detection
WO2012100216A2 (en) 2011-01-20 2012-07-26 Knome, Inc. Methods and apparatus for assigning a meaningful numeric value to genomic variants, and searching and assessing same
US8765455B2 (en) 2011-01-27 2014-07-01 Lawrence Livermore National Security, Llc Chip-based droplet sorting
WO2012106546A2 (en) 2011-02-02 2012-08-09 University Of Washington Through Its Center For Commercialization Massively parallel continguity mapping
EP3412778A1 (en) 2011-02-11 2018-12-12 Raindance Technologies, Inc. Methods for forming mixed droplets
WO2012109604A1 (en) 2011-02-11 2012-08-16 Raindance Technologies, Inc. Thermocycling device for nucleic acid amplification and methods of use
EP3736281A1 (en) 2011-02-18 2020-11-11 Bio-Rad Laboratories, Inc. Compositions and methods for molecular labeling
CA2824431A1 (en) 2011-02-25 2012-08-30 Illumina, Inc. Methods and systems for haplotype determination
WO2012122547A2 (en) 2011-03-09 2012-09-13 Lawrence Ganeshalingam Biological data networks and methods therefor
CN103843001B (zh) 2011-04-14 2017-06-09 考利达基因组股份有限公司 复杂核酸序列数据的处理和分析
AU2012249759A1 (en) 2011-04-25 2013-11-07 Bio-Rad Laboratories, Inc. Methods and compositions for nucleic acid analysis
WO2012149438A1 (en) 2011-04-28 2012-11-01 Life Technologies Corporation Methods and compositions for multiplex pcr
US20140227706A1 (en) 2011-05-16 2014-08-14 Dna Chip Research Inc. Method for assessing progression of clinical state of malignant neoplasm by quantitative detection of DNA in blood
WO2012162296A2 (en) 2011-05-23 2012-11-29 President And Fellows Of Harvard College Control of emulsions, including multiple emulsions
CN103890191B (zh) 2011-05-27 2018-12-04 哈佛大学校长及研究员协会 单细胞全基因组扩增方法
US9556470B2 (en) 2011-06-02 2017-01-31 Raindance Technologies, Inc. Enzyme quantification
US8841071B2 (en) 2011-06-02 2014-09-23 Raindance Technologies, Inc. Sample multiplexing
WO2013006824A2 (en) 2011-07-07 2013-01-10 Life Technologies Corporation Polymer particles, nucleic acid polymer particles and methods of making and using the same
WO2013009890A2 (en) 2011-07-13 2013-01-17 The Multiple Myeloma Research Foundation, Inc. Methods for data collection and distribution
US8658430B2 (en) 2011-07-20 2014-02-25 Raindance Technologies, Inc. Manipulating droplet size
US20130189700A1 (en) 2011-07-25 2013-07-25 Bio-Rad Laboratories, Inc. Breakage of an emulsion containing nucleic acid
WO2013035114A1 (en) 2011-09-08 2013-03-14 Decode Genetics Ehf Tp53 genetic variants predictive of cancer
GB2496016B (en) 2011-09-09 2016-03-16 Univ Leland Stanford Junior Methods for obtaining a sequence
CN103958050B (zh) 2011-09-28 2016-09-14 哈佛学院院长等 用于液滴产生和/或流体操纵的系统和方法
WO2013055955A1 (en) 2011-10-12 2013-04-18 Complete Genomics, Inc. Identification of dna fragments and structural variations
US9469874B2 (en) 2011-10-18 2016-10-18 The Regents Of The University Of California Long-range barcode labeling-sequencing
WO2013096643A1 (en) 2011-12-23 2013-06-27 Gigagen Methods and apparatuses for droplet mixing
WO2013123125A1 (en) 2012-02-17 2013-08-22 President And Fellows Of Harvard College Assembly of nucleic acid sequences in emulsions
EP2817418B1 (en) 2012-02-24 2017-10-11 Raindance Technologies, Inc. Labeling and sample preparation for sequencing
US9552458B2 (en) 2012-03-16 2017-01-24 The Research Institute At Nationwide Children's Hospital Comprehensive analysis pipeline for discovery of human genetic variation
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US20130317755A1 (en) 2012-05-04 2013-11-28 New York University Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assembly
EP2852687A4 (en) 2012-05-21 2016-10-05 Scripps Research Inst METHODS FOR PREPARING A SAMPLE
CA2881783A1 (en) 2012-08-13 2014-02-20 The Regents Of The University Of California Methods and systems for detecting biological components
US20150005199A1 (en) 2012-08-14 2015-01-01 10X Technologies, Inc. Compositions and methods for sample processing
US20140378349A1 (en) 2012-08-14 2014-12-25 10X Technologies, Inc. Compositions and methods for sample processing
US10221442B2 (en) 2012-08-14 2019-03-05 10X Genomics, Inc. Compositions and methods for sample processing
US9701998B2 (en) 2012-12-14 2017-07-11 10X Genomics, Inc. Methods and systems for processing polynucleotides
US20140378345A1 (en) 2012-08-14 2014-12-25 10X Technologies, Inc. Compositions and methods for sample processing
US10400280B2 (en) 2012-08-14 2019-09-03 10X Genomics, Inc. Methods and systems for processing polynucleotides
US20140378322A1 (en) 2012-08-14 2014-12-25 10X Technologies, Inc. Compositions and methods for sample processing
US10323279B2 (en) 2012-08-14 2019-06-18 10X Genomics, Inc. Methods and systems for processing polynucleotides
US20150005200A1 (en) 2012-08-14 2015-01-01 10X Technologies, Inc. Compositions and methods for sample processing
EP2885418A4 (en) 2012-08-14 2016-03-02 10X Genomics Inc MICROCAPSE COMPOSITIONS AND METHOD THEREFOR
US10273541B2 (en) 2012-08-14 2019-04-30 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10752949B2 (en) 2012-08-14 2020-08-25 10X Genomics, Inc. Methods and systems for processing polynucleotides
US9951386B2 (en) 2014-06-26 2018-04-24 10X Genomics, Inc. Methods and systems for processing polynucleotides
EP2898096B1 (en) 2012-09-21 2024-02-14 The Broad Institute, Inc. Methods for labeling of rnas
WO2014109845A1 (en) 2012-12-03 2014-07-17 Yilin Zhang Single-stranded polynucleotide amplification methods
AU2013359165B2 (en) 2012-12-14 2019-09-12 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10533221B2 (en) 2012-12-14 2020-01-14 10X Genomics, Inc. Methods and systems for processing polynucleotides
US9683230B2 (en) 2013-01-09 2017-06-20 Illumina Cambridge Limited Sample preparation on a solid support
WO2014113736A1 (en) 2013-01-17 2014-07-24 Edico Genome Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
CN105074303B (zh) 2013-01-25 2018-04-10 基纽拜奥股份有限公司 实施液滴膨胀的系统和方法
US10381106B2 (en) 2013-01-28 2019-08-13 Hasso-Plattner-Institut Fuer Softwaresystemtechnik Gmbh Efficient genomic read alignment in an in-memory database
WO2014121241A1 (en) 2013-02-01 2014-08-07 Bio-Rad Laboratories, Inc. System for detection of spaced droplets
EP2954065B1 (en) 2013-02-08 2021-07-28 10X Genomics, Inc. Partitioning and processing of analytes and other species
WO2014138154A1 (en) 2013-03-06 2014-09-12 President And Fellows Of Harvard College Devices and methods for forming relatively monodisperse droplets
CN105189785B (zh) 2013-03-08 2018-04-20 伯乐生命医学产品有限公司 用于聚合酶链反应测定的组合物、方法和系统
US10612088B2 (en) 2013-03-14 2020-04-07 The Broad Institute, Inc. Massively multiplexed RNA sequencing
EP2971097B1 (en) 2013-03-15 2018-08-01 Verinata Health, Inc Generating cell-free dna libraries directly from blood
US9328382B2 (en) * 2013-03-15 2016-05-03 Complete Genomics, Inc. Multiple tagging of individual long DNA fragments
WO2014145760A1 (en) 2013-03-15 2014-09-18 Bio-Rad Laboratories, Inc. Droplet generator with collection tube
EP2981349A4 (en) 2013-04-02 2016-11-16 Raindance Technologies Inc SYSTEMS AND METHODS FOR HANDLING MICROFLUIDIC DROPLETS
SG11201508985VA (en) 2013-05-23 2015-12-30 Univ Leland Stanford Junior Transposition into native chromatin for personal epigenomics
US20160122753A1 (en) 2013-06-12 2016-05-05 Tarjei Mikkelsen High-throughput rna-seq
GB2516684A (en) 2013-07-30 2015-02-04 Sphere Fluidics Ltd Microfluidic devices and systems
CN105705659B (zh) 2013-08-28 2019-11-29 贝克顿迪金森公司 大规模平行单细胞分析
US10395758B2 (en) 2013-08-30 2019-08-27 10X Genomics, Inc. Sequencing methods
GB201317301D0 (en) 2013-09-30 2013-11-13 Linnarsson Sten Method for capturing and encoding nucleic acid from a plurality of single cells
US9824068B2 (en) 2013-12-16 2017-11-21 10X Genomics, Inc. Methods and apparatus for sorting data
DE202015009609U1 (de) 2014-04-10 2018-08-06 10X Genomics, Inc. Mikrofluidisches System zur Erzeugung von Emulsionen
LT3456846T (lt) 2014-04-21 2022-09-12 President And Fellows Of Harvard College Nukleorūgšties unikalios sekos įvedimo sistemos ir būdai
US20150298091A1 (en) 2014-04-21 2015-10-22 President And Fellows Of Harvard College Systems and methods for barcoding nucleic acids
US10975371B2 (en) 2014-04-29 2021-04-13 Illumina, Inc. Nucleic acid sequence analysis from single cells
US9534215B2 (en) 2014-06-11 2017-01-03 Life Technologies Corporation Systems and methods for substrate enrichment
WO2015200541A1 (en) 2014-06-24 2015-12-30 Bio-Rad Laboratories, Inc. Digital pcr barcoding
WO2015200891A1 (en) * 2014-06-26 2015-12-30 10X Technologies, Inc. Processes and systems for nucleic acid sequence assembly
WO2015200869A1 (en) 2014-06-26 2015-12-30 10X Genomics, Inc. Analysis of nucleic acid sequences
EP4053292A1 (en) 2014-06-26 2022-09-07 10X Genomics, Inc. Methods of analyzing nucleic acids from individual cells or cell populations
US10017759B2 (en) 2014-06-26 2018-07-10 Illumina, Inc. Library preparation of tagged nucleic acid
MX2016016898A (es) 2014-06-26 2017-04-25 10X Genomics Inc Metodos y composiciones para analisis de muestras.
US9982295B2 (en) 2014-07-18 2018-05-29 Illumina, Inc. Non-invasive prenatal diagnosis of fetal genetic condition using cellular DNA and cell free DNA
US20160024558A1 (en) 2014-07-23 2016-01-28 10X Genomics, Inc. Nucleic acid binding proteins and uses thereof
WO2016040476A1 (en) 2014-09-09 2016-03-17 The Broad Institute, Inc. A droplet-based method and apparatus for composite single-cell nucleic acid analysis
RU2709655C2 (ru) 2014-10-17 2019-12-19 Иллумина Кембридж Лимитед Транспозиция с сохранением сцепления генов
JP2017532042A (ja) 2014-10-29 2017-11-02 10エックス ゲノミクス,インコーポレイテッド 標的化核酸配列決定のための方法及び組成物
US9975122B2 (en) 2014-11-05 2018-05-22 10X Genomics, Inc. Instrument systems for integrated sample processing
KR102321863B1 (ko) 2015-01-12 2021-11-08 10엑스 제노믹스, 인크. 핵산 시퀀싱 라이브러리의 제조 방법 및 시스템 및 이를 이용하여 제조한 라이브러리
SG11201705425SA (en) 2015-01-13 2017-08-30 10X Genomics Inc Systems and methods for visualizing structural variation and phasing information
EP4112744A1 (en) 2015-02-04 2023-01-04 The Regents of the University of California Sequencing of nucleic acids via barcoding in discrete entities
AU2016219480B2 (en) 2015-02-09 2021-11-11 10X Genomics, Inc. Systems and methods for determining structural variation and phasing using variant call data
US10697000B2 (en) 2015-02-24 2020-06-30 10X Genomics, Inc. Partition processing methods and systems
CN107532202A (zh) 2015-02-24 2018-01-02 10X 基因组学有限公司 用于靶向核酸序列覆盖的方法
EP3277838A1 (en) 2015-03-30 2018-02-07 Verily Life Sciences LLC Methods for combining single cell profiling with combinatorial nanoparticle conjugate library screening
US20160314242A1 (en) 2015-04-23 2016-10-27 10X Genomics, Inc. Sample indexing methods and compositions for sequencing applications
WO2016187179A1 (en) 2015-05-18 2016-11-24 10X Genomics, Inc. Stabilized reducing agents and methods using same
KR20180008493A (ko) 2015-05-18 2018-01-24 10엑스 제노믹스, 인크. 생화학 반응 및 분석에 사용하기 위한 이동성 고체상 조성물
CN107615283B (zh) 2015-05-26 2022-07-05 加利福尼亚太平洋生物科学股份有限公司 用于二倍体基因组组装和单倍型序列重建的方法、软件和系统
JP2018527947A (ja) 2015-07-17 2018-09-27 プレジデント アンド フェローズ オブ ハーバード カレッジ 核酸配列増幅方法
CN108368522A (zh) 2015-10-20 2018-08-03 10X 基因组学有限公司 用于高通量单细胞遗传操作的方法和系统
WO2017087910A1 (en) 2015-11-19 2017-05-26 10X Genomics, Inc. Transformable tagging compositions, methods, and processes incorporating same
DE202016009134U1 (de) 2015-12-04 2022-09-02 10X Genomics, Inc. Systeme und Zusammensetzungen zur Nukleinsäureanalyse
WO2017139690A1 (en) 2016-02-11 2017-08-17 10X Genomics, Inc. Cell population analysis using single nucleotide polymorphisms from single cell transcriptomes
US11680253B2 (en) 2016-03-10 2023-06-20 The Board Of Trustees Of The Leland Stanford Junior University Transposase-mediated imaging of the accessible genome
WO2017197343A2 (en) 2016-05-12 2017-11-16 10X Genomics, Inc. Microfluidic on-chip filters
WO2017197338A1 (en) 2016-05-13 2017-11-16 10X Genomics, Inc. Microfluidic systems and methods of use
WO2018039338A1 (en) 2016-08-23 2018-03-01 10X Genomics, Inc. Microfluidic surface-mediated emulsion stability control
EP3529357B1 (en) 2016-10-19 2022-03-09 10X Genomics, Inc. Methods for barcoding nucleic acid molecules from individual cells
CN110462053A (zh) 2016-12-21 2019-11-15 加利福尼亚大学董事会 使用基于水凝胶的液滴进行单细胞基因组测序
US10815525B2 (en) 2016-12-22 2020-10-27 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10011872B1 (en) 2016-12-22 2018-07-03 10X Genomics, Inc. Methods and systems for processing polynucleotides
US20190177800A1 (en) 2017-12-08 2019-06-13 10X Genomics, Inc. Methods and compositions for labeling cells
WO2018140966A1 (en) 2017-01-30 2018-08-02 10X Genomics, Inc. Methods and systems for droplet-based single cell barcoding
US10347365B2 (en) 2017-02-08 2019-07-09 10X Genomics, Inc. Systems and methods for visualizing a pattern in a dataset
GB201704402D0 (en) 2017-03-20 2017-05-03 Blacktrace Holdings Ltd Single cell DNA sequencing
WO2018191701A1 (en) 2017-04-14 2018-10-18 The Broad Institute, Inc. High-throughput screens for exploring biological functions of microscale biological systems
US20180312822A1 (en) 2017-04-26 2018-11-01 10X Genomics, Inc. Mmlv reverse transcriptase variants
EP4215616B1 (en) 2017-05-18 2024-09-04 10X Genomics, Inc. Methods and systems for sorting droplets and beads
US10544413B2 (en) 2017-05-18 2020-01-28 10X Genomics, Inc. Methods and systems for sorting droplets and beads
CN110870018A (zh) 2017-05-19 2020-03-06 10X基因组学有限公司 用于分析数据集的系统和方法
US10400235B2 (en) 2017-05-26 2019-09-03 10X Genomics, Inc. Single cell analysis of transposase accessible chromatin
WO2018226546A1 (en) 2017-06-05 2018-12-13 10X Genomics, Inc. Gaskets for the distribution of pressures in a microfluidic system
WO2018236615A1 (en) 2017-06-20 2018-12-27 10X Genomics, Inc. METHODS AND SYSTEMS FOR ENHANCED STABILIZATION OF DROPLETS
AU2018312560B2 (en) 2017-08-01 2022-03-10 Illumina, Inc. Hydrogel beads for nucleotide sequencing
US9946577B1 (en) 2017-08-14 2018-04-17 10X Genomics, Inc. Systems and methods for distributed resource management
US10357771B2 (en) 2017-08-22 2019-07-23 10X Genomics, Inc. Method of producing emulsions
US10590244B2 (en) 2017-10-04 2020-03-17 10X Genomics, Inc. Compositions, methods, and systems for bead formation using improved polymers
WO2019084043A1 (en) 2017-10-26 2019-05-02 10X Genomics, Inc. METHODS AND SYSTEMS FOR NUCLEIC ACID PREPARATION AND CHROMATIN ANALYSIS
US20190127731A1 (en) 2017-10-26 2019-05-02 10X Genomics, Inc. Methods for preparing nucleic acid molecules
WO2019083852A1 (en) 2017-10-26 2019-05-02 10X Genomics, Inc. MICROFLUIDIC CHANNEL NETWORKS FOR PARTITIONING
WO2019084165A1 (en) 2017-10-27 2019-05-02 10X Genomics, Inc. METHODS AND SYSTEMS FOR SAMPLE PREPARATION AND ANALYSIS
CN111051523B (zh) 2017-11-15 2024-03-19 10X基因组学有限公司 功能化凝胶珠
US10829815B2 (en) 2017-11-17 2020-11-10 10X Genomics, Inc. Methods and systems for associating physical and genetic properties of biological particles
WO2019108851A1 (en) 2017-11-30 2019-06-06 10X Genomics, Inc. Systems and methods for nucleic acid preparation and analysis
WO2019113235A1 (en) 2017-12-06 2019-06-13 10X Genomics, Inc. Methods and systems for processing nucleic acid molecules
CN111699388B (zh) 2017-12-12 2024-08-02 10X基因组学有限公司 用于单细胞处理的系统和方法
CN118547046A (zh) 2017-12-22 2024-08-27 10X基因组学有限公司 用于处理来自一个或多个细胞的核酸分子的系统和方法
WO2019148042A1 (en) 2018-01-26 2019-08-01 10X Genomics, Inc. Compositions and methods for sample processing
EP3749740B1 (en) 2018-02-05 2023-08-30 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for multiplexed measurements in single and ensemble cells
SG11202007686VA (en) 2018-02-12 2020-09-29 10X Genomics Inc Methods characterizing multiple analytes from individual cells or cell populations
CN112074610A (zh) 2018-02-22 2020-12-11 10X基因组学有限公司 接合介导的核酸分析
WO2019169028A1 (en) 2018-02-28 2019-09-06 10X Genomics, Inc. Transcriptome sequencing through random ligation
WO2019169347A1 (en) 2018-03-02 2019-09-06 10X Genomics, Inc. Systems and apparatus for holding plates
WO2019191321A1 (en) 2018-03-28 2019-10-03 10X Genomics, Inc. Nucleic acid enrichment within partitions
SG11202009889VA (en) 2018-04-06 2020-11-27 10X Genomics Inc Systems and methods for quality control in single cell processing
US20190345636A1 (en) 2018-05-10 2019-11-14 10X Genomics, Inc. Methods and systems for molecular library generation
US20190352717A1 (en) 2018-05-18 2019-11-21 10X Genomics, Inc. Targeted non-invasive prenatal testing
US11932899B2 (en) 2018-06-07 2024-03-19 10X Genomics, Inc. Methods and systems for characterizing nucleic acid molecules
US11703427B2 (en) 2018-06-25 2023-07-18 10X Genomics, Inc. Methods and systems for cell and bead processing
WO2020006183A1 (en) 2018-06-28 2020-01-02 10X Genomics, Inc. Systems and methods for visualization of single-cell resolution characteristics
US20200033366A1 (en) 2018-07-27 2020-01-30 10X Genomics, Inc. Systems and methods for metabolome analysis
US20200032335A1 (en) 2018-07-27 2020-01-30 10X Genomics, Inc. Systems and methods for metabolome analysis
WO2020041148A1 (en) 2018-08-20 2020-02-27 10X Genomics, Inc. Methods and systems for detection of protein-dna interactions using proximity ligation
US12065688B2 (en) 2018-08-20 2024-08-20 10X Genomics, Inc. Compositions and methods for cellular processing
US20200105373A1 (en) 2018-09-28 2020-04-02 10X Genomics, Inc. Systems and methods for cellular analysis using nucleic acid sequencing

Also Published As

Publication number Publication date
US11081208B2 (en) 2021-08-03
CN108779491A (zh) 2018-11-09
US20170235876A1 (en) 2017-08-17
EP3414341A1 (en) 2018-12-19
EP3414341A4 (en) 2019-10-09
SG11201806757XA (en) 2018-09-27
JP2019511908A (ja) 2019-05-09
WO2017138984A1 (en) 2017-08-17
CN108779491B (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
JP6735348B2 (ja) 全ゲノム配列データのデノボアセンブリのためのシステム、方法及び媒体
Weisenfeld et al. Direct determination of diploid genome sequences
EP3304383B1 (en) De novo diploid genome assembly and haplotype sequence reconstruction
Pereira et al. Bioinformatics and computational tools for next-generation sequencing analysis in clinical genetics
Ghurye et al. Modern technologies and algorithms for scaffolding assembled genomes
US20130138358A1 (en) Algorithms for sequence determination
Dutilh et al. Computational pan-genomics: status, promises and challenges
US20190115106A1 (en) Methods for Analysis of Digital Data
Holtgrewe et al. Methods for the detection and assembly of novel sequence in high-throughput sequencing data
WO2015094844A1 (en) String graph assembly for polyploid genomes
Eldem et al. Transcriptome analysis for non-model organism: Current status and best-practices
Goussarov et al. Introduction to the principles and methods underlying the recovery of metagenome‐assembled genomes from metagenomic data
Luo et al. Computational approaches for transcriptome assembly based on sequencing technologies
WO2016205767A1 (en) String graph assembly for polyploid genomes
Song et al. Chrom-pro: A User-Friendly Toolkit for De-novo Chromosome Assembly and Genomic Analysis
WO2020154630A1 (en) Systems and methods for graph based mapping of nucleic acid fragments
Bleidorn et al. Assembly and data quality
Lencz et al. High-depth whole genome sequencing of a large population-specific reference panel: Enhancing sensitivity, accuracy, and imputation
Kefi Improving the Human Genome Annotation Using Integrative Analysis and Deep Learning Methods
Jackman Efficient assembly of large genomes
Yan A high-resolution view of human gene expression and splicing diversity with long-read sequencing
Girilishena Complete computational sequence characterization of mobile element variations in the human genome using meta-personal genome data
Ochkalova et al. Protocol for refining metagenomic binning with BinSPreader
over GRCh38 et al. A complete reference genome improves short-read analysis of human genetic variation
Ning et al. Next‐Generation Sequencing Technologies and the Assembly of Short Reads into Reference Genome Sequences

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190816

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190816

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190816

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200212

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200713

R150 Certificate of patent or registration of utility model

Ref document number: 6735348

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250