JP2023519496A - 核酸シーケンスのインクリメンタル二次解析 - Google Patents
核酸シーケンスのインクリメンタル二次解析 Download PDFInfo
- Publication number
- JP2023519496A JP2023519496A JP2022550209A JP2022550209A JP2023519496A JP 2023519496 A JP2023519496 A JP 2023519496A JP 2022550209 A JP2022550209 A JP 2022550209A JP 2022550209 A JP2022550209 A JP 2022550209A JP 2023519496 A JP2023519496 A JP 2023519496A
- Authority
- JP
- Japan
- Prior art keywords
- reads
- nucleic acid
- data
- mapping
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 150000007523 nucleic acids Chemical group 0.000 title claims abstract description 391
- 238000004458 analytical method Methods 0.000 title claims abstract description 315
- 238000012163 sequencing technique Methods 0.000 claims abstract description 348
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 321
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 321
- 238000013507 mapping Methods 0.000 claims abstract description 202
- 238000000034 method Methods 0.000 claims abstract description 122
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 27
- 239000002773 nucleotide Substances 0.000 claims description 99
- 125000003729 nucleotide group Chemical group 0.000 claims description 99
- 230000009471 action Effects 0.000 claims description 20
- 230000000977 initiatory effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 abstract description 16
- 239000000523 sample Substances 0.000 description 142
- 230000015654 memory Effects 0.000 description 99
- 230000008569 process Effects 0.000 description 62
- 238000012545 processing Methods 0.000 description 46
- 239000012634 fragment Substances 0.000 description 35
- 108020004414 DNA Proteins 0.000 description 29
- 102000053602 DNA Human genes 0.000 description 29
- 238000010586 diagram Methods 0.000 description 22
- 239000003795 chemical substances by application Substances 0.000 description 21
- 238000013473 artificial intelligence Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 18
- 230000008901 benefit Effects 0.000 description 17
- 239000003153 chemical reaction reagent Substances 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 229920002477 rna polymer Polymers 0.000 description 12
- 239000012472 biological sample Substances 0.000 description 9
- 238000011282 treatment Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 7
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 6
- 102000054765 polymorphisms of proteins Human genes 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 230000003321 amplification Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 108091034117 Oligonucleotide Proteins 0.000 description 3
- 239000013614 RNA sample Substances 0.000 description 3
- 238000003559 RNA-seq method Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 229940035893 uracil Drugs 0.000 description 3
- 229930024421 Adenine Natural products 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 102000040430 polynucleotide Human genes 0.000 description 2
- 108091033319 polynucleotide Proteins 0.000 description 2
- 239000002157 polynucleotide Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 108091093088 Amplicon Proteins 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 101001107782 Homo sapiens Iron-sulfur protein NUBPL Proteins 0.000 description 1
- 102100021998 Iron-sulfur protein NUBPL Human genes 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 101100072620 Streptomyces griseus ind2 gene Proteins 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000011901 isothermal amplification Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000009420 retrofitting Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- General Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
核酸シーケンスリードのインクリメンタル二次解析を実行するための、コンピュータプログラムを含む、方法、システム、及び装置。方法は、(i)第1のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することと、(ii)第1のリード間隔の後に実行される第2のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することと、第2のデータが取得されている間に、(a)核酸シーケンシングデバイスによって、第1のデータをマッピング及びアラインメントユニットに入力として提供することと、(b)マッピング及びアラインメントユニットからアラインメント結果を受け取ることと、(c)受け取られたアラインメント結果を格納することと、その後、(iii)マッピング及びアラインメントユニットに、第2の複数のリードを表す第2のデータの参照シーケンスへのアラインメントを開始するように命令することと、を含む。
Description
関連出願の相互参照
本出願は、2020年3月11日に出願された米国仮特許出願第62/988,374号の利益を主張し、その全内容は参照によりその全体が本明細書に組み込まれる。
本出願は、2020年3月11日に出願された米国仮特許出願第62/988,374号の利益を主張し、その全内容は参照によりその全体が本明細書に組み込まれる。
本開示は、核酸シーケンス解析に関する。
核酸シーケンサは、核酸シーケンシングのプロセスを自動化するように構成された器具である。核酸シーケンシングは、核酸シーケンス中のヌクレオチドの順序を決定するプロセスである。核酸は、デオキシリボ核酸(deoxyribonucleic acid、DNA)又はリボ核酸(ribonucleic acid、RNA)を含み得る。
核酸シーケンサは、核酸サンプルを受け取り、核酸サンプル中のヌクレオチドの順序を表す1つ以上の「リード」と呼ばれる出力データを生成するように構成されている。DNAサンプル中のヌクレオチドは、グアニン(G)、シトシン(C)、アデニン(A)、及びチミン(T)を任意の組み合わせで含む1つ以上の塩基を含むことができる。RNAサンプル中のヌクレオチドは、G、C、A、及びウラシル(U)を任意の組み合わせで含む1つ以上の塩基を含むことができる。
DNAシーケンサによって生成されたリードは、マッピング及びアライニングエンジンを使用して、参照ゲノムのヌクレオチドの既知のシーケンスにマッピングできる。参照ゲノムのヌクレオチドの既知のシーケンスに対するリードのマッピングは、ハッシュテーブルインデックスを使用してマッピング及びアラインメントエンジンによって達成できる。
本開示は、インクリメンタル二次解析を実行するためのシステム、方法、及びコンピュータプログラムに関する。インクリメンタル二次解析は、サンプルの核酸シーケンシングが核酸シーケンサによって完了する前に、サンプルの核酸リードに対して1つ以上の二次解析動作を実行するプロセスに関する。1つ以上の二次解析動作は、核酸リードマッピング、核酸リードアラインメント、バリアントコール、又はこれらの任意の組み合わせを含み得る。
本開示の1つの革新的な態様によれば、核酸シーケンスリードのインクリメンタル二次解析を実行するための方法が開示される。一態様では、方法は、(i)第1のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することであって、第1のリードのそれぞれは、ヌクレオチドの第1の順序付けられたシーケンスを表す、ことと、(ii)第1のリード間隔の後に実行される第2のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することであって、第2のリードのそれぞれは、ヌクレオチドの第2の順序付けられたシーケンスを表す、ことと、第2のデータが取得されている間に、(a)核酸シーケンシングデバイスによって、第1のデータをマッピング及びアラインメントユニットに入力として提供することと、(b)マッピング及びアラインメントユニットからアラインメント結果を受け取ることと、(c)受け取られたアラインメント結果を格納することと、その後、(iii)マッピング及びアラインメントユニットに、第2の複数のリードを表す第2のデータの参照シーケンスへのアラインメントを開始するように命令することと、のアクションを含む。
他のバージョンは、コンピュータ可読記憶デバイス上に符号化された命令によって定義される方法のアクションを実行するための、対応するシステム、装置、及びコンピュータプログラムを含む。
これらの及び他のバージョンは、任意選択で、以下の特徴のうちの1つ以上を含んでもよい。例えば、いくつかの実装形態では、マッピング及びアラインメントユニットの少なくとも一部は、プログラマブル論理デバイスを使用して実装される。
いくつかの実装形態では、プログラマブル回路は、フィールドプログラマブルゲートアレイ(FPGA)である。
いくつかの実装形態では、マッピング及びアラインメントユニットの少なくとも一部は、特定用途向け集積回路(ASIC)を使用して実装される。
いくつかの実装形態では、マッピング及びアラインメントユニットは、核酸シーケンシングデバイス内に含まれる。
いくつかの実装形態では、第1のリードのうちの1つ以上は、第1のサンプル識別子を表すデータを含み、第2のリードのうちの1つ以上は、第2のサンプル識別子を表すデータを含む。
いくつかの実装形態では、方法は、第2のデータが取得されている間に、少なくとも第1のサンプル識別子又は第2のサンプル識別子に基づいて、1つ以上の第1のリードをそれぞれの群に組織化することと、組織統計を生成することであって、組織統計は、各サンプル識別子に対応する第1のリードの数を示す、ことと、を更に含み得る。
いくつかの実装形態では、方法は、リードのクラスタの第2の部分をアラインメントする前に、又はリードのクラスタの第2の部分をアラインメントする間に、複数の第1のリードに対応する格納されたアラインメント結果を表す出力データを提供することを更に含むことができる。
いくつかの実装形態では、方法は、マッピング及びアラインメントモジュールに、第1の複数のリードを表すデータの参照シーケンスへの後続のアラインメントを開始するように命令することを更に含み得る。
いくつかの実装形態では、方法は、第2のデータを取得している間に、参照シーケンスにアラインメントされた第1の複数のリードを表す第1のデータの可能性のあるバリアントのセットを決定することを更に含み得る。
いくつかの実装形態では、第2の複数のリードを表す第2のデータの少なくとも一部は、第2の複数のリードを表す第2のデータの少なくとも異なる部分を取得している間にアラインメントされる。
いくつかの実装形態では、マッピング及びアラインメントユニットは、第2のデータを完全に取得する前に、所定の数のシーケンシングサイクルで、第2の複数のリードを表す第2のデータのアラインメントを開始するように命令される。
本開示の別の革新的な態様によれば、核酸シーケンスリードのインクリメンタル二次解析を実行するための別の方法が開示される。一態様では、方法は、(i)複数の第1の実体識別子を生成することであって、各実体の第1の識別子は、第1のリード間隔中に生成される特定のリードに対応する、ことと、(ii)複数の第2の実体識別子を生成することであって、各第2の実体識別子は、第2のリード間隔中に生成される特定のリードに対応する、ことと、(iii)第1のリード間隔中に、複数の異なるサンプルに基づいて、核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することであって、複数の第1のリードのそれぞれは、少なくとも第1の実体識別子又は第2の実体識別子に対応し、第1のデータが取得されている間に、方法は、複数の第1のリードを、第1のリードのそれぞれに関連する第1の実体識別子又は第2の実体識別子に基づいて、組織化された群に組織化することと、核酸シーケンシングデバイスによって、組織化された複数のリードを、ベースコールを参照シーケンスにアラインメントさせるように構成されたマッピング及びアラインメントユニットに提供することと、マッピング及びアラインメントユニットから、アラインメント結果を受け取ることと、受け取られたアラインメント結果を格納することと、を更に含む、ことと、(iv)第1のリード間隔の後に実行される第2のリード間隔中に、複数の異なるサンプルに基づいて、核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することであって、複数の第2のリードのそれぞれは、少なくとも第1の実体識別子又は第2の実体識別子に対応する、ことと、(v)核酸シーケンシングデバイスによって、第2のデータを、第2のデータを参照シーケンスにアラインメントするように構成されたマッピング及びアラインメントユニットに提供することと、のアクションを含むことができる。
他のバージョンは、コンピュータ可読記憶デバイス上に符号化された命令によって定義される方法のアクションを実行するための、対応するシステム、装置、及びコンピュータプログラムを含む。
これらの及び他のバージョンは、任意選択で、以下の特徴のうちの1つ以上を含んでもよい。例えば、いくつかの実装形態では、マッピング及びアラインメントユニットの少なくとも一部は、プログラマブル論理デバイスを使用して実装される。
いくつかの実装形態では、プログラマブル回路は、フィールドプログラマブルゲートアレイ(FPGA)である。
いくつかの実装形態では、マッピング及びアラインメントユニットの少なくとも一部は、特定用途向け集積回路(ASIC)を使用して実装される。
いくつかの実装形態では、マッピング及びアラインメントユニットは、核酸シーケンシングデバイス内に含まれる。
いくつかの実装形態では、複数の第1のリードを組織化することは、各実体識別子に対応するリード数を示すデータを生成することを含む。
いくつかの実装形態では、第2のデータを取得している間に、第1のリードの各組織化されたセットについて、参照シーケンスにアラインメントされた第1のリードの組織化されたセットの可能性のあるバリアントのセットを決定する。
本開示の別の革新的な態様によれば、核酸シーケンスリードのインクリメンタル二次解析を実行するための別の方法が開示される。一態様では、本方法は、第1のシーケンシングランの第1のリード間隔中に、核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することと、第1のリード間隔の後に実行される第1のシーケンシングランの第2のリード間隔中に、核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することと、第2のデータの少なくとも一部を取得している間に、第1のデータ又は第2のデータに対する1つ以上の二次解析動作の実行を開始することと、核酸シーケンシングデバイスを使用して、第2のシーケンシングランを実行することと、核酸シーケンシングデバイスを使用して、第2のシーケンシングランを実行している間に、少なくとも第1のデータ又は第2のデータに対する1つ以上の二次解析動作の実行を継続することと、二次解析動作の結果を表す結果データを格納することと、のアクションを含むことができる。
他のバージョンは、コンピュータ可読記憶デバイス上に符号化された命令によって定義される方法のアクションを実行するための、対応するシステム、装置、及びコンピュータプログラムを含む。
本開示の別の革新的な態様によれば、核酸シーケンスリードの二次解析を実行するための方法が開示される。一態様では、方法は、1つ以上のゲノムワークフロー属性を取得することと、1つ以上のゲノムワークフロー属性に基づいて、プログラマブル回路のワークフローコンテクストスイッチングタイプを決定することであって、ワークフローコンテクストスイッチングタイプは、プログラマブル回路の再構成サイクルを定義する、ことと、決定されたコンテクストスイッチングタイプを使用して、プログラマブル回路のコントローラに二次解析を実行するように命令することと、のアクションを含むことができる。
他のバージョンは、コンピュータ可読記憶デバイス上に符号化された命令によって定義される方法のアクションを実行するための、対応するシステム、装置、及びコンピュータプログラムを含む。
別途定義されない限り、本明細書で使用されるすべての技術用語及び科学用語は、本発明が属する技術分野の当業者によって一般的に理解されるものと同じ意味を有する。本明細書に記載されるものと同様又は同等の方法及び材料を本発明の実施又は試験に使用することができるが、好適な方法及び材料が、以下に記載されている。本明細書で言及されるすべての刊行物、特許出願、特許、及び他の参考文献は、参照によりその全体が本明細書に組み込まれる。矛盾が生じる場合、本明細書が、定義を含めて優先する。加えて、材料、方法、及び実施例は、単なる例示であり、限定することを意図するものではない。
本発明の他の特徴及び利点は、以下の発明を実行するための形態、及び特許請求の範囲から明らかとなるであろう。
核酸シーケンサによる生体サンプルの核酸シーケンシングは、時間とコストがかかるタスクである。従来のシステムは、図1Aに示す線形ワークフローなどの線形ワークフローを用いていた。そのような従来のワークフローは、(i)核酸シーケンスリードを生成するための一次解析と、(ii)アラインメントされたリードとバリアントを生成するための生成された核酸シーケンシングリードの二次解析と、いくつかの場合には、(iii)バリアントコールの間に同定されたバリアントなどの二次解析の結果を用いた三次解析と、を含む動作を、直線的に順番に実行する。三次解析としては、例えば、同定されたバリアントの分類、同定されたバリアントの関連性を決定すること、同定されたバリアントに基づく診断を決定すること、同定されたバリアントに基づく治療を決定すること、などが挙げられる。
図1Aを参照すると、1つ以上のサンプルのシーケンシングラン172Aを実行する従来のワークフロー170Aが記載されている。シーケンシングラン172Aは、時間T1中のクラスタリング動作と、時間T2A中にサンプルの第1のリードを生成するためのシーケンシング動作を含む第1のリード間隔「リード1」と、別の時間T2B中にサンプルの第2のリードを生成するためのシーケンシング動作を含む第2のリード間隔「リード2」と、を含む。シーケンシングラン172Aの間、第1の一次解析100Aは、データを処理して、第1のリード及び第2のリードを生成する。一次解析100Aは、例えば、リードのそれぞれのヌクレオチド又は塩基のシーケンスを生成するための画像の処理を含むことができる。第1の一次解析100Aの完了後、二次解析100Bが始まる。図1Aのこの例では、二次解析100Bは、核酸シーケンサのソフトウェアリソースを使用して実行され、第1のシーケンシングラン172Aの一次解析100A中に生成されたリードをデマルチプレックスする(demultiplex)ことと、デマルチプレックスしたリードをマッピング及びアラインメントすることと、その後にバリアントコールすることと、を含み、これらはすべて時間T3の間に行う。二次解析の完了後にのみ、次の一次解析100Cは核酸シーケンサによって実行することができる。したがって、核酸シーケンサによって従来の二次解析ソフトウェアを使用して従来のワークフローを使用することにより、第1のシーケンシングラン172Aの第1の一次解析100Aを開始してから、第2のシーケンシングラン172Bの第2の一次解析100Cを実行できるまで、少なくともTSUM=T1+T2A+T2B+T3、場合により約56~99時間、を要する。更に、これにより、シーケンサのダウンタイムが生じ、場合によっては少なくとも30~48時間、シーケンサが二次解析を行わず、試薬を消費するため、装置のスループット(一定時間内に処理されるヌクレオチドの数)が低下し、試薬販売による収入源にマイナスの影響を及ぼす。
従来の核酸シーケンサは、一次解析動作及び二次解析動作を並行して実行するための計算リソースを欠くため、従来のシステムはこのように動作する。代わりに、従来の核酸シーケンサのソフトウェア計算リソースは、一次解析中のシーケンシング動作専用であり、その後、これらの同じ計算リソースは、二次解析中のデマルチプレックス、マッピング、アラインメント、及びバリアントコール動作専用となる。いくつかの実装形態では、デマルチプレックスは、ソート動作を含むことができる。
本開示は、ハードウェア回路を使用して1つ以上の二次解析動作を実行するように構成されたハードワイヤードデジタル論理を有するプログラマブル論理ユニットに、二次解析動作の態様をオフロードすることによって、これらの問題に対処する。これは、二次解析動作を実行するために必要な時間、T3、を劇的に低減させる。更に、本開示は、クラスタリング、一次解析、他のシーケンシング動作、又はこれらの組み合わせ、及び本明細書に記載の二次解析などのシーケンシング動作を並列化し、従来の核酸シーケンシングデバイスを改造して本明細書に記載の並列化ワークフロー動作を実行することにより、第1のシーケンシングラン172Aの開始から第2のシーケンシングラン172Bの開始までの全体処理時間TSUMを削減する。
本開示の技術を使用して、複数の他の利点が得られる。最初に、本開示は、シーケンシングラン中に核酸シーケンサによって使用される試薬を節約するために使用され得る。例えば、シーケンシングラン中に二次解析動作を開始し、シーケンシングが完了する前に二次解析動作の少なくとも一部を完了することによって、本開示は、アラインメント統計、デマルチプレックス統計などの統計を生成し、生成された統計を評価して、一次解析中に生成されたリードの品質を測定することができる。統計が、核酸シーケンサによって生成されたリードの品質が不十分であることを示す場合、そこで一次解析を終了することができ、シーケンサへの入力を再構成することができ、核酸シーケンサを使用した別のシーケンシングランを再度開始することができる。したがって、このプロセスは、低品質のシーケンシングランを完了するためにすべての試薬を使用せずに一次解析シーケンシングランを停止することによって、最初の一次解析シーケンシングラン全体を完了するために費やされたであろう試薬の少なくとも一部を節約することができる。
次に、本開示の並列化されたワークフローは、従来のシステムよりも速く三次解析を開始することを可能にし、それによって特定の診断及び治療をより速く同定することができる。例えば、従来の計算アーキテクチャを使用した従来のワークフローは、場合によっては、三次解析を開始するまでにTSUM=約56~99時間かかる。しかしながら、本開示のいくつかの実装形態では、シーケンシングが完了した後、三次解析は、わずか2~12時間、又は数時間で開始することができる。場合によっては、これは、例えば、患者の症状がウイルス又は細菌に関連するかどうかのより速い決定を提供するなど、特に有利であり得る。しかしながら、場合によっては3~4日掛かるのに対して数時間で治療を決定することが、かなりの効果を提供することができるシナリオは複数存在し、例えば、感染症(又は、他の病気)が不可逆的な損傷を引き起こす前に、患者に抗生物質(又は、他の種類の薬剤や治療)を投与する機会を可能にすることである。
これら及び他の利点は、本開示に記載されている特徴から明らかになるであろう。
図1Bは、核酸シーケンサ内に位置する二次解析ユニット140を使用して、1つのサンプル105に対するインクリメンタル二次解析を実行するためのシステム100の一例のコンテクスト図である。システム100は、核酸シーケンサ110と、1つ以上のフローセル120と、1つ以上の二次解析ユニット140と、1つ以上の処理ユニット150と、1つ以上のメモリ160と、を含む。図1Bの例では、二次解析ユニット140は、シーケンサ110内に位置する。ただし、本開示は、そのように限定されない。代わりに、二次解析ユニット140は、LAN、WAN、セルラネットワーク、インターネット若しくはこれらの任意の組み合わせなどの1つ以上の有線又は無線ネットワークを使用してシーケンサ110に通信可能に結合された1つ以上のリモートコンピュータ内に配置することができる。二次解析ユニット140は、メモリ140、プログラマブル回路142、処理ユニット150、メモリ160、又はこれらの任意の組み合わせを含むことができる。本明細書の目的のために、二次解析は、マッピング動作、アラインメント動作、バリアントコール動作、又はこれらの任意のサブセット若しくは組み合わせを含み得る。いくつかの実装形態では、処理ユニット150、メモリ160、又はその両方は、二次解析に関連しない他の動作を実行するために、核酸シーケンサによって使用され得る。
核酸シーケンサ110の1つ以上の処理ユニット150は、ソフトウェア命令によって定義された機能性を実現するために、ソフトウェア命令を実行するように構成された1つ以上のプロセッサを含むことができる。例えば、1つ以上の処理ユニット150は、デマルチプレックスユニット162の機能を実現するために、メモリ160に格納されたデマルチプレックスユニット162を定義するソフトウェア命令を取得し実行することができる。1つ以上の処理ユニット150は、1つ以上の中央処理ユニット(central processing unit、CPU)、1つ以上のグラフィック処理ユニット(graphical processing unit、GPU)、又はこれらの任意の組み合わせを含むことができる。
「ユニット」という用語は、本明細書では、指定された機能を実行するために使用されるソフトウェアモジュール、ハードウェアモジュール、又は両方の組み合わせを説明するために使用される。本明細書に記載の特定の「ユニット」がハードウェア、ソフトウェア、又は両方の組み合わせであるかどうかの判定は、その使用の文脈に基づいて行うことができる。例えば、プログラマブル回路142に常駐する「マッピング及びアラインメントユニット」142aは、ハードウェアユニットであり、その機能は、ハードワイヤードデジタル論理ゲート又はハードワイヤードデジタル論理ブロックによって実現される。別の例として、メモリ160に常駐する「デマルチプレックスユニット」162は、「デマルチプレックスユニット」162を定義するソフトウェア命令を実行する処理ユニット150によって機能が実現されるソフトウェアユニットである。別の例として、「処理ユニット」150は、ソフトウェア命令を処理することによって機能を実現するハードウェアデバイスであり、したがって、その「処理ユニット」150の機能は、ハードウェアとソフトウェアとの組み合わせである。同様に、「二次解析ユニット」140は、ハードワイヤードプログラマブル回路142aと相互作用するために使用されるハードウェアとソフトウェアの組み合わせを含むことができる。
核酸シーケンサ110は、一次解析などのシーケンシング動作を実行するように構成されているデバイスである。一次解析は、核酸シーケンサ110によって、血液サンプル、組織サンプル、又は痰などの生体サンプル105を受け取ることと、核酸シーケンサ110によって、それぞれが受け取った生体サンプルの核酸シーケンスのヌクレオチドの順序を表す1つ以上のリード130-1、130-2、130-3、130-4、132-1、132-2、132-3、132-4、134-1、134-2、134-3、134-4などの出力データを生成することと、を含み得る。核酸シーケンサ110によるシーケンシングは、複数のリード間隔で実行することができ、第1のリード間隔「リード1」は、フローセル120に結合したテンプレート核酸断片のクローン群にクローン的に増幅された核酸シーケンス断片(又は、鎖)の第1の部分、又は末端からのヌクレオチドの順序を表す1つ以上の第1のリードを生成し、第2のリード間隔「リード2」は、フローセル120に結合したテンプレート核酸断片のクローン群にクローン的に増幅された核酸シーケンス断片の第2の部分、例えば、他端からのヌクレオチドの順序をそれぞれ表す1つ以上の第2のリードを生成する。フローセル120に結合したテンプレート核酸断片のそれぞれのクローン群は、本明細書では、クラスタ1 122-1、クラスタ2 122-2、クラスタ3 122-3、クラスタ4 122-4、クラスタ5 122-5、クラスタN 122-Nなどのクラスタと称され得る。
その結果、各リード間隔中に、単一のリードが、それぞれのクラスタでクローン的に増幅された核酸断片の各末端について、核酸シーケンシングデバイス110によって生成されることになる。すなわち、シーケンシングサイクルの第1のリード間隔は、「リード1」を生成し、シーケンシングサイクルの第2のリード間隔は、「リード2」を生成する。いくつかの実装形態では、核酸シーケンスは、リードシーケンスをイメージングする、及びリード配列を決定する、又はリード配列を同定するために同じクラスタ内の核酸断片の複数のクローンをシーケンシングし得る。
したがって、各リードは、特定の核酸シーケンス断片の一部を表す。例えば、約600ヌクレオチドの短い核酸シーケンス断片を想定すると、第1のリードは、核酸シーケンス断片の第1の末端の150の順序付けられたヌクレオチドを表し得、第2のリードは、核酸シーケンス断片のもう一方の末端の150の順序付けられたヌクレオチドを表し得る。しかしながら、これらの数は単なる例であり、核酸シーケンサ110は、本明細書で言及されるものよりも短い核酸シーケンス、及び異なる長さのそれぞれのリードを生成する本開示の趣旨及び範囲と一致する様式で構成され得る。本開示の原理を当業者に伝えるために、この概念の単純なバージョンを図1B、図3、及び図5を参照して示す。具体的には、これらの図は、核酸テンプレートがフローセル120に結合し、クローン的に増幅されたクラスタ化核酸シーケンス断片のそれぞれの末端の、核酸シーケンサ110によって生成されたリードを示す。
いくつかの実装形態では、生体サンプルは、DNAサンプルを含むことができ、核酸シーケンサ110は、DNAを処理できる。そのような実装形態では、核酸シーケンサによって生成されたリード130-1、130-2、130-3、130-4、132-1、132-2、132-3、132-4、134-1、134-2、134-3、134-4のシーケンシングしたヌクレオチドの順序は、グアニン(G)、シトシン(C)、アデニン(A)、及びチミン(T)のうちの1つ以上を任意の組み合わせで含み得る。他の実装形態では、核酸シーケンサ110は、RNAを処理することができ、生体サンプルは、RNAサンプルを含むことができる。このようなRNAの実装形態では、核酸シーケンサによって生成されるリード中のシーケンシングされたヌクレオチドの順序は、G、C、A、及びウラシル(U)のうちの1つ以上を任意の組み合わせで含むことができる。したがって、図1の例は、DNAサンプルに基づいているG、C、A及びTからなるリードを処理することを記載しているが、本開示はそのように限定されない。代わりに、他の実装形態は、RNAサンプルに基づいているC、G、A、及びUからなるリードを処理することができる。
しかしながら、RNAシーケンシングは、RNAシーケンサの使用を必要としない。例えば、いくつかの実装形態では、核酸シーケンサ110は、G、C、A、及びTのうちの1つ以上を有するサンプル及び生成されたリードをシーケンシングするDNAシーケンサであり得る。そうして、そのような実装形態では、核酸シーケンサ110は、生成されたリードをcDNAに転写して、シーケンシングされたサンプルのRNAを表すことができる。そのような実装形態では、リードは、G、C、A、及びウラシル(U)を任意の組み合わせで含む塩基を使用して表される。
いくつかの実装形態では、核酸シーケンサ110は、超並列シーケンシング技術の使用による超高スループット、スケーラビリティ、及び速度を達成する手法で、所与のサンプルについてのリード130-1、130-2、130-3、130-4、132-1、132-2、132-3、132-4、134-1、134-2、134-3、134-4などのシーケンスリードを生成するように構成された次世代シーケンサ(next generation sequencer、NGS)を含むことができる。NGSは、ゲノム全体の迅速なシーケンシングと、深くシーケンシングされた標的領域にズームするか、RNAシーケンシング(RNA-Seq)を利用して、新規RNA変異体及びスプライス部位を発見するか、又は遺伝子発現解析、ゲノムワイドDNAメチル化及びDNA-タンパク質相互作用などのエピジェネティック因子の解析、希少体変異体及び腫瘍サブクローンを研究するための癌サンプルのシーケンシング、並びにヒト又は環境における微生物多様性の研究のためのmRNAを定量化する能力と、を可能にする。
核酸シーケンシングリードを生成するプロセスは、サンプル調製、クラスタ生成、及びシーケンシングの段階を含む。第1の段階は、各DNA断片の末端にアダプタ配列を付加することを含む、サンプル調製を含む。サイクル増幅の減少により、リードが由来するサンプル、及びフローセル120のオリゴに相補的な領域を同定するために使用することができる、任意の必要なインデックスなどの追加のモチーフが導入される。固体支持体上でのサンプル調製の1つ以上の例は、参照によりその全体が本明細書に組み込まれる米国特許第9,683,230号に記載されている。第2の段階はクラスタリングを含み、各DNA断片は、例えば、増幅試薬を使用して等温増幅される。固体支持体上の核酸の等温増幅の1つ以上の例は、参照によりその全体が本明細書に組み込まれる米国特許第7,972,820号により詳細に記載されている。フローセル120は、複数のレーンを有するスライドガラスを含むことができ、各レーンは、2種類のオリゴの芝(lawn)を含む。ハイブリダイゼーションは、2種類のオリゴのうち最初のオリゴがフローセル表面の相補的なオリゴに付着することで可能となる。ポリメラーゼは、ハイブリダイズされた断片の相補体を形成する。DNA断片は、架橋増幅などの技術を使用してクローン的に増幅することができる。システム100及びワークフロー170Bの実装形態では、クラスタリング段階は、ワークフロー170Bの時間T1中に生じる。ただし、本開示は、そのように限定されない。代わりに、いくつかの実装形態では、クラスタリングは、時間T1の前に開始され実行される、オフ・インスツルメントで実行される、又はその両方であってよい。そのような実装形態では、時間T1を実行時間計算から除去することができ、シーケンシングランは、例えば、T2Aで開始することができる。そのような前T1及び/又はオフ・インスツルメントでのクラスタリングは、図1のシステム100、図3のシステム300、図5のシステム500、図7のシステム700、又は本開示の任意の他の実装形態で実装することができる。ブリッジ増幅後、逆断片を切断し、順方向断片のみを残す。
第3の段階は、核酸シーケンサ110による時間T2A及び時間T2B中のシーケンシング動作の実行を含む。時間T2A中、核酸シーケンサ110は、第1のリード間隔「リード1」に関してXサイクルのシーケンシング動作を行い、それぞれのクラスタ122-1、122-2、122-3、122-4、122-5、122-Nでクローン的に増幅されたそれぞれの核酸シーケンス断片の第1の末端に対応する第1のリードを生成し、X及びNは、ゼロより大きい任意の正の整数であり得る。各DNAクラスタの第1のリードは、特定のクラスタに関連するそれぞれのDNAの一部に対応するベースコールのストリングを含む。例えば、リード130-1は、クラスタ1 122-1に関連する核酸断片の第1の末端に対応するベースコールのストリングを含み、リード130-3は、クラスタ2 122-2に関連する核酸断片の第1の末端に対応するベースコールのストリングを含み、リード132-1は、クラスタ3 122-3に関連する核酸断片の第1の末端に対応するベースコールのストリングを含み、リード132-3は、クラスタ4 122-4に関連する核酸断片の第1の末端に対応するベースコールのストリングを含み、リード134-1は、クラスタ5 122-5に関連する核酸断片の第1の末端に対応するベースコールのストリングを含み、リード134-3は、クラスタN 122-Nに関連する核酸断片の第1の末端に対応するベースコールのストリングを含む。各ベースコールは、ヌクレオチドに対応する、又はヌクレオチドを表す。これらのリードは、合成によるシーケンシングなどのシーケンシングプロセスを使用して生成することができる。リード130-1、130-3、132-1、132-3、134-1、及び134-3を表すデータは、核酸シーケンサ110のメモリ160への出力、二次解析ユニット140のメモリ144への入力、又はその両方であり得る。
システム100及び図1Bの実装形態では、ワークフロー170Bの第1のリード間隔の時間T2A中にシーケンシングされたこれらの第1のリード130-1、130-3、132-1、132-3、134-1、及び134-3は、各クラスタに関連するDNA断片の第1の末端のヌクレオチドの数を表す。例えば、いくつかの実装形態では、核酸シーケンサ110によってシーケンシングされたDNA断片は、600のヌクレオチドを含み得る。第1のリード130-1、130-3、132-1、132-3、134-1、及び134-3クラスタは、例えば、それぞれのクラスタで増幅された600のヌクレオチドDNA断片の第1の末端の最初の150のヌクレオチドを表し得る。各リード間隔は、数百万個のDNA断片のクラスタのうちの数百個を同時にシーケンシングする、大規模並行プロセスである。第1のリード間隔がT2Aの終了時に完了すると、核酸シーケンサ110は、各クラスタの各DNA断片の反対側の末端をシーケンシングする時間T2Bの間に第2のリード間隔を開始し、第2のリード130-2、130-4、132-2、132-4、134-2、134-4を生成することができる。例として、リード130-2は、クラスタ1 122-1に関連する核酸断片の第2の末端に対応するベースコールのストリングを含み、リード130-4は、クラスタ2 122-2に関連する核酸断片の第2の末端に対応するベースコールのストリングを含み、リード132-2は、クラスタ3 122-3に関連する核酸断片の第2の末端に対応するベースコールのストリングを含み、リード132-4は、クラスタ4 122-4に関連する核酸断片の第2の末端に対応するベースコールのストリングを含み、リード134-2は、クラスタ5 122-5に関連する核酸断片の第2の末端に対応するベースコールのストリングを含み、リード134-4は、クラスタN 122-Nに関連する核酸断片の第2の末端に対応するベースコールのストリングを含む。システム100及び図1のこの実装形態では、第2のリード間隔は、ワークフロー170Bのおよそ時間=T1+T2Aで開始される。
図1Aを参照して説明した従来のシステムでは、第1のリード130-1、130-3、132-1、132-3、134-1、及び134-3のマッピング及びアライニングなどの二次解析動作は、時間=T1+T2A+T2Bの終了時で第2のリード間隔「リード2」が終了する後まで生じない。しかしながら、本開示によって説明される図1Bのシステム100は、時間=T1+T2Aにて、第1のリード130-1、130-3、132-1、132-3、134-1、134-3の二次解析動作を開始するように構成され、第2のリード間隔「リード2」の間に、第1のリード130-1、130-3、132-1、132-3、134-1、134-3の二次解析が始まって実行され、一方で核酸シーケンサ110は、第2のリード間隔「リード2」のシーケンシング動作を行い、第2のリード130-2、130-4、132-2、132-4、134-2、134-4を生成する。
システム100は、第1のリードの二次解析動作を二次解析ユニット140のプログラマブル回路142aにオフロードすることによって、この並列処理の利点を得る。二次解析ユニット140に二次解析動作をオフロードすることで、核酸シーケンサ110の処理ユニット150、メモリ160、又はその両方を解放し、第2のリード間隔「リード2」の一次解析動作の実行を継続して、第1のリードのうちの1つ以上の二次解析が実行されている間に、DNAクラスタの反対側の末端をシーケンシングすることにより、第2のリード130-2、130-4、132-2、132-4、134-2、134-4を生成する。したがって、本開示は、一次解析などのシーケンシング動作を、1つ以上の二次解析動作と並行して行うことを可能にする。
二次解析ユニット140は、1つ以上の二次解析動作を実行するために、マッピング及びアラインメントユニット142aなどの1つ以上の二次解析動作ユニットを含むように動的に構成され得るプログラマブル回路142を含む。マッピング及びアラインメントユニット142aなどの二次解析動作ユニットを含むように、プログラマブル回路142を動的に構成することは、例えば、プログラマブル回路142に1つ以上の命令を提供することを含むことができ、この1つ以上の命令は、プログラマブル回路142に、プログラマブル回路142のハードウェア論理ゲートを、マッピング及びアラインメントユニット142aの機能をハードウェア論理で実現するように構成されたハードワイヤードデジタル論理構成として構成させる。プログラマブル回路142のハードウェア論理ゲートは、コンパイルしたハードウェア記述言語コードなどを使用して実現され得る。プログラマブル回路142の初期構成及びプログラマブル回路142のその後の再構成は、プログラマブル回路142のホストである核酸シーケンサ110又は他のコンピュータによって満たされるソフトウェアトリガの実行によって開始することができる。例えば、図1Bのシステム100の実装形態では、リード1間隔サイクルの終了時に、核酸シーケンサ110又はプログラマブル回路142のホストである他のコンピュータは、プログラマブル回路の再構成をトリガしてマッピング及びアラインメント動作を実行するソフトウェア命令を実行することができる。前述のソフトウェアトリガのそのような実行は、例えば、プログラマブル回路制御によって実行され、プログラマブル回路142の論理ゲートの再構成を引き起こし得るプログラマブル回路142のメモリへのコンパイルされたハードウェア記述言語コードのロードを引き起こすことができる。マッピング及びアラインメントユニット142aの構成された機能は、第1リード130-1、130-3、1S32-1、132-3、134-1、134-3などの1つ以上のリードを取得することと、得られた第1のリード130-1、130-3、132-1、132-3、134-1、134-3を1つ以上の参照シーケンス位置にマッピングすることと、次に、マッピングされた第1のリード130-1、130-3、132-1、132-3、134-1、134-3を1つ以上の参照シーケンス位置にアラインメントさせることと、を含むことができる。参照シーケンスは、既知のゲノムに対応する組織化された一連のヌクレオチドを含むことができる。
1つ以上の命令に応答して、プログラマブル回路142のハードウェア論理ゲートを構成することは、マッピング及びアラインメントユニット142aのデジタル論理機能を実行するために、ANDゲート、ORゲート、NORゲート、XORゲート、又はこれらの任意の組み合わせなどの論理ゲートを構成すること、を含むことができる。マッピング及びアラインメントユニットの機能を実行するためのFPGAなどのプログラマブル論理回路の使用の例は、例えば、米国特許第9,679,104号、又は米国特許出願公開第2020/0372031号により詳細に記載されており、これらのそれぞれは、その全体が参照により本明細書に組み込まれる。あるいは、又は加えて、ハードウェア論理ゲートを構成することは、加算、乗算、比較などを含む複雑な計算動作を実行するためのカスタマイズ可能なハードウェア論理ユニットを含む動的に構成された論理ブロックを含むことができる。ハードウェア論理ゲート、論理ブロック、又はこれらの組み合わせの正確な構成は、受け取られた命令によって定義される。受け取られた命令は、エンティティによって書かれ、プログラムされる二次解析動作ユニットの概略レイアウトを定義するコンパイルされたハードウェア記述言語(hardware description language、HDL)プログラムコードを含むことができるか、又はコンパイルされたハードウェア記述言語プログラムコードから生成され得る。HDLプログラムコードは、超高速集積回路ハードウェア記述言語(Very High Speed Integrated Circuit Hardware Description Language、VHDL)、Verilogなどの言語で書かれたプログラムコードを含むことができる。エンティティは、HDLプログラムコードをドラフトした1人以上のヒトユーザ、HDLプログラムコードを生成した1つ以上の人工知能エージェント、又はこれらの組み合わせを含むことができる。
いくつかの実装形態では、プログラマブル回路142は、1つ以上のフィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)、複合プログラマブル論理デバイス(complex programmable logic device、CPLD)若しくはプログラマブル論理アレイ(programmable logic array、PLA)、又はこれらの組み合わせを含むことができ、これらは、特定のワークフローを実行するために、必要に応じて、核酸シーケンサ110によって動的に構成可能かつ再構成可能である。例えば、いくつかの実装形態では、上述のように、マッピング及びアラインメントユニット142aとしてプログラマブル論理回路142を使用することが望ましい場合がある。しかしながら、他の実装形態では、プログラマブル回路142を使用して、バリアントコール機能、又は隠れマルコフモデル(Hidden Markov Model、HMM)ユニットなどのバリアントコールを補助するための機能を実行することが望ましい場合がある。更に他の実装形態では、プログラマブル回路142は、圧縮(compression)及び復元(decompression)などの一般的な計算タスクをサポートするように動的に構成されることもでき、これは、プログラマブル回路142のハードウェア論理が、一般的な計算タスク、及び上記で特定された他のタスクを、1つ以上の処理ユニット150によって実行されるソフトウェア命令を使用した同じタスクの実行よりもはるかに速く実行することができるためである。
プログラマブル回路142は、本明細書に記載の本開示の利点を提供することができる、集積回路の一種の一例である。しかしながら、他のタイプの集積回路を、核酸シーケンサ110の二次解析をオフロードして、一次解析のために核酸シーケンサ110のリソースを解放することができる、二次解析ユニット140のハードワイヤードデジタル論理として使用することもできる。例えば、いくつかの実装形態では、二次解析ユニット140は、1つ以上の特定用途向け集積回路(Application-Specific Integrated Circuit、ASIC)を使用するように構成することができる。1つ以上のASICは、再プログラム可能ではないが、二次解析動作の実行を加速かつ並列化するために、マッピング及びアラインメントユニット、バリアントコールユニット、バリアントコール計算支援ユニットなどの1つ以上の二次解析動作ユニットのカスタムハードウェア論理を用いて設計することができる。いくつかの実装形態では、1つ以上の二次解析動作ユニットの機能性を実現する二次解析ユニット140のハードワイヤード論理回路としてのASICを使用することにより、プログラマブル回路を使用するよりも更に速くすることができる。したがって、当業者であれば、ASICが本明細書に記載の実装形態のいずれかにおいてFPGAの代わりに使用され得ることを理解するであろう。
例として、いくつかの実装形態では、プログラマブル論理回路142は、復元ユニットとして動的に構成されるFPGAを用いて実装されてよく、核酸シーケンサから受け取った第1のリード130-1、130-3、132-1、132-3、134-1、134-3を表すデータにアクセスし、第1のリードを表すデータを復元する(例えば、核酸シーケンサから受け取ったリードが圧縮されている場合)。復元ユニットは、メモリ144又はメモリ160に格納された復元リードを格納することができる。そのような実装形態では、FPGAは、それからマッピング及びアラインメントユニット142aとして動的に再構成されて、メモリ144又はメモリ160に格納された復元された第1のリードのマッピング及びアラインメントを実行することができる。そうして、マッピング及びアラインメントユニット142aは、メモリ144又はメモリ160にマッピング及びアラインメントされたリードを表すデータを格納することができる。次に、FGPAは、バリアントコールユニット、又はソフトウェアバリアントコールユニット(例えば、HMMユニット)を補助する機能を実行するように構成されたユニットに動的に再構成され得、バリアントコール動作を実行して、シーケンシングシステム100によって使用され得る出力データを生成し、マッピング及びアラインメントされたリードを表す格納データに基づいてバリアントコールフォーマット(Variant Calling Format、VCF)ファイルを生成することができる。FPGAを使用して実行されるこれらのハードウェアモジュールの高速の実行速度により、リードの二次解析が、従来の方法の30時間~48時間から短縮され、数分で実行できるようになる。復元、マッピング、アラインメント、及びバリアントコール動作を含む一連の動作が説明されているが、本開示は、これらの動作のすべてを実行することに限定されない。代わりに、プログラマブル回路142は、核酸シーケンサ110からオフロードされた二次解析を並列化するために、必要に応じて、任意の順序で任意の動作ユニットを実行するように動的に構成することができる。
図1Aの例を参照すると、核酸シーケンサ110は、マッピング及びアラインメントユニット142aを含むように、二次解析ユニット140のプログラマブル回路142を構成することができる。核酸シーケンサ110は、ヒト、非ヒト動物、又は植物などの実体の核酸などのサンプル105を受け取ることができる。核酸シーケンサ110は、サンプル105を調製し、ワークフロー170Bの時間T1中にクラスタ生成を実行することができる。核酸シーケンサ110は、第1のリード間隔中に合成によるシーケンシング(sequencing-by-synthesis)などのシーケンシング動作を実行して、時間T1に続いて生じる時間T2A中に第1のリード130-1、130-3、132-1、132-3、134-1、134-3を生成することができる。時間T1+T2Aの終了時に、核酸シーケンサ110は、第1のリード130-1、130-3、132-1、132-3、134-1、134-3のシーケンシングを完了し、第2のリード130-2、130-4、132-2、132-4、134-2、134-4のシーケンシングを開始する。
核酸シーケンサ110は、第1のリード130-1、130-3、132-1、132-3、134-1、134-3のマッピング及びアラインメントなどの二次解析動作と、時間T2B中の第2のリード130-2、130-4、132-2、132-4、134-2、134-4を生成するための第2のリード間隔の合成によるシーケンシングなどのシーケンシング動作を並列化するように構成されている。マッピング及びアラインメントユニット142aは、マッピング及びアラインメント結果149を生成し、マッピング及びアラインメント結果を、核酸シーケンサ110のメモリ160、メモリ144、核酸シーケンサ110にアクセス可能ないくつかの他のメモリ、核酸シーケンサ110のユーザにアクセス可能な他のメモリ、又はこれらの組み合わせに格納することができる。結果149は、例えば、マッピング品質の指標、アラインメント品質の指標を提供するアラインメントスコアなどを提供するマッピング品質(Mapping Quality、MAPQ)スコアなどのマッピング及びアラインメント統計を記述するデータを含むことができる。
図1Aの例では、プログラマブル回路142のハードワイヤードデジタル論理を使用して実装されたマッピング及びアラインメントユニット142aの超高速実行時間は、マッピング及びアラインメントユニット142aが、核酸シーケンサ110によって、必要とされる時間のほんの一部で、第1のリード130-1、130-3、132-1、132-3、134-1、134-3のマッピング及びアラインメントを実行して、第2のリード間隔を実行することを可能にする。例えば、いくつかの実装形態では、プログラマブル回路142は、第1のリード130-1、130-3、132-1、132-3、134-1、134-3のマッピング及びアラインメントをほんの数分で実行することができ、第2のリード130-2、130-4、132-2、132-4、134-2、134-4のシーケンシングは、12~24時間であり得る。したがって、マッピング及びアラインメント結果149は、核酸シーケンサ110、核酸シーケンサ110のユーザ、又はその両方によって評価することができ、マッピング及びアラインメント統計によって示されるように、第1のリード130-1、130-3、132-1、132-3、134-1、134-3のマッピング及びアラインメントの品質に基づいて、核酸シーケンサ110が第2のリード130-2、130-4、132-2、132-4、134-2、134-4のシーケンシングを継続すべきかどうかの決定を行うことができる。
第2のリード130-2、130-4、132-2、132-4、134-2、134-4のシーケンシングを継続すべきかどうかに関するこの決定は、核酸シーケンサ110によって自動的に、核酸シーケンサ110のユーザによって手動で、又は両方からの決定を記述するデータに基づいて行うことができる。例として、核酸シーケンサ110は、第1のリード130-1、130-3、132-1、132-3、134-1及び134-3のアラインメントスコアなどのマッピング及びアラインメント統計が、所定の閾値を満たすかどうかを決定するように構成することができる。1つ以上のアラインメントスコアが所定の閾値を満たす場合、次に、核酸シーケンサ110は、第2のリード130-2、130-4、132-2、132-4、134-2、134-4のシーケンシングを継続することができる。あるいは、1つ以上のアラインメントスコアが所定の閾値を満たさないと判定された場合、核酸シーケンサ110は、第2のリード130-2、130-4、132-2、132-4、134-2、134-4のシーケンシングを終了することができる。
異なる例として、いくつかの実装形態では、マッピング及びアラインメント結果149は、核酸シーケンサ110のユーザによって手動でレビューされ得る。そのような例では、ユーザは、アラインメントスコアによって示される第1のリード130-1、130-3、132-1、132-3、134-1、134-3のアラインメントの質に基づいて、核酸シーケンサ110が、第2のリード130-2、130-4、132-2、132-4、134-2、134-4のシーケンシングを継続するかどうかを判定することができる。
更に別の例として、核酸シーケンサ110及びユーザの両方が、マッピング及びアラインメント結果149によって示されるアラインメントスコアによって示される第1のリードのアラインメントの質に基づいて、第2のリードのシーケンシングが継続されるべきかどうか判定を行うこともできる。そのような実装形態では、核酸シーケンサ110及びユーザの決定を記述するデータを取得することができ、いくつかの実装形態では、核酸シーケンサ110は、核酸シーケンサ110及びユーザの両方が、第2のリード間隔が終了すべきであると同意した場合にのみ、第2のリード間隔を終了する。
更に他の実装形態では、2つの判定の加重平均を計算して、核酸シーケンサ110及びユーザの両方の判定を表す総スコアを生成することができる。そのような実装形態では、核酸シーケンサ110は、総スコアが所定の品質閾値を満たすことができない場合にのみ終了することができる。更に他の実装形態では、アラインメント統計を表すデータ、第2のリード間隔のシーケンシングを継続すべきかどうかに関するユーザ判定を表すデータ、第1のリードのうちの1つ以上を表すデータ、サンプル105の特徴を表すデータなどの他のデータ、又はこれらの組み合わせをベクトル化して、核酸シーケンサ110が第2のリード間隔の一次解析を継続すべきかどうかを決定するように訓練されている機械学習モデルなどの人工知能エージェントに入力できる。そのような実装形態では、機械学習モデルは、「第2のリード間隔を終了」若しくは「第2のリード間隔で継続」、又はこれらのそれぞれの同義語としてタグ付けされた、ラベル付けされた訓練データに基づいて予め訓練され得る。ラベル付けされた訓練データは、実行時に機械学習モデルに提供される同じ入力タイプを表すデータを含むことができる。そのような入力タイプは、アラインメント統計を表すデータ、第2のリード間隔のシーケンシングが継続されるべきかどうかに関するユーザ判定を表すデータ、第1のリードのうちの1つ以上を表すデータ、サンプル105の特徴を表すデータなどの他のデータ、又はこれらの組み合わせを含むことができる。
1つ以上の参照シーケンスへの第1のリード130-1、130-3、132-1、132-3、134-1、134-3のマッピング及びアラインメントに基づいて生成されたマッピング及びアラインメント結果149を使用することにより、第2のリード130-2、130-4、132-2、132-4、134-2、134-4を生成する第2のリード間隔中に、核酸シーケンサ110によって使用する試薬の節約(conservation)を可能にする。例えば、第1のリード130-1、130-3、132-1、132-3、134-1、134-3の不十分なアラインメントスコアは、汚染されたサンプル105、シーケンシングエラー、これらの組み合わせなどの多くの問題の存在を示すことができる。したがって、そのような例では、非常に高価であり得る試薬を使用して、第2のリード間隔中に第2のリードをシーケンシングし、一次解析の別のラウンドの実行を開始するのにかかる時間を更に遅らせる代わりに、核酸シーケンサ110にその低品質なシーケンシングランを完遂させるのにかかる時間のほんの一部で、核酸シーケンサ110をシャットダウンし、再構成してから、別のサンプルの一次解析を開始するために使用することができる。いくつかの実装形態では、第1のリードのマッピング及びアラインメントの質が満足のいくものとして決定されると、核酸シーケンサ110は、マッピング及びアラインメント結果149を廃棄することができる。他の実装形態では、第2のリード間隔と並行して実行される第1のリードのマッピング及びアラインメントは、第1のリードの最終データランのマッピング及びアラインメント結果として使用され得る。
図1Bの例を続けると、マッピング及びアラインメント結果が満足できると判定された後、核酸シーケンサ110は、第2のリード間隔の実行を継続して、第2のリードを生成することができる。第2のリード130-2、130-4、132-2、132-4、134-2、134-4が生成されると、核酸シーケンサ110は、二次解析ユニット140に、二次解析ユニット140の最終的な二次解析データランを開始するように命令することができる。最終的な二次解析データランは、二次解析ユニット140を使用して、第1のリード130-1、130-3、132-1、132-3、134-1、134-3、及び第2のリード130-2、130-4、132-2、132-4、134-2、134-4をマッピング及びアラインメントすることを含み得る。これらの二次解析動作は、プログラマブル回路142aを使用して実装されるため、これらの二次解析動作は、第2のシーケンシングランと並行して、第2のシーケンシングランを実行するために必要な時間のほんの一部で実行され得る。
これは、先行するシーケンシングランのリードの二次解析が実行されている間に、後続のシーケンシングランに移動することができる、従来のシステムに対する利点を提供する。すなわち、図1Aに示すように、従来の核酸シーケンサであれば、第1のシーケンシングランの完了後、第2のシーケンシングランを開始する前に、約24~48時間待つ必要があるところ、核酸シーケンサ110は、プログラマブル回路142に実装されたマッピング及びアラインメントユニット142aを使用して、第1のシーケンシングランのリードの二次解析と第2のシーケンシングランの実行を並行化することができる。したがって、図1Bの核酸シーケンサ110は、図1Aに記載のシステム及びワークフローを使用する従来のシステムよりも短期間でより多くのシーケンシングランを実行するために使用することができる。したがって、二次解析計算タスクを二次解析ユニット140のプログラマブル回路142にオフロードすることによるシーケンシングラン及び二次解析の並列化は、追加の試薬販売からの収益の増加を生み出すことができる。
いくつかの実装形態では、核酸シーケンサ110はまた、メモリ160に格納されたデマルチプレックスユニット162及びバリアントコールユニット164などのソフトウェアプログラムを有することができる。核酸シーケンサの1つ以上のプロセッサ150は、これらのユニットの機能を実現するために、これらのユニットのソフトウェア命令を処理することができる。例えば、いくつかの実装形態では、複数のサンプルのDNA断片は、核酸シーケンサ110を使用して同時にシーケンシングされ得る。そのような例では、デマルチプレックスユニット162を使用して、生成されたリードのそれぞれに追加されたバーコードなどのインデックスに基づいてリードを組織化し、各リードに関連付けられたサンプルを同定するデマルチプレックス技術を実装することができる。別の例として、プロセッサ150を使用して、マッピング及びアラインメントされたリードを解析して、一塩基多型(single nucleotide polymorphism、SNP)、挿入/欠失(insertions/deletions、インデル)、構造多型などの任意のバリアントの発生を同定することができるバリアントコールユニット164を実行することができる。いくつかの実装形態では、プログラマブル回路142は、バリアントコール処理を補助するために動的に再構成することができる。例えば、プログラマブル回路142は、マッピング及びアラインメントされたリードの1つ以上の参照位置におけるバリアントが発生する可能性に対して確率計算を実行するために使用され得るHMMユニットを含むように動的に再構成することができる。いくつかの実装形態では、バリアントコールユニット164は、第2のシーケンシングランのシーケンシング動作と並行してリード1の間隔からマッピング及びアラインメントされたリードのバリアントコール動作を実行するように構成することができる。
図1Bの例は、8のヌクレオチドを有するリードを有する例を記載している。ただし、本開示は、そのように限定されない。代わりに、この簡単な例は、本開示の特徴を理解しやすい方法で説明するために提示されている。実際には、本開示のDNA断片はそれぞれ、いくつかの実装形態では、例えば、最大600のヌクレオチド、最大1000のヌクレオチド、又はそれ以上を有し得、断片の各リードは、例えば、DNA断片の各末端から50のヌクレオチド、75のヌクレオチド、150のヌクレオチド、200のヌクレオチド、300のヌクレオチド、500のヌクレオチド、又はそれ以上を有し得る。しかしながら、異なる長さのDNA断片及び異なる長さのリードを有する本開示の実装形態を用いることができる。同様に、図1B又は他の任意の図も、断片のクラスタの数を限定するものとして解釈されるべきではない。例えば、核酸シーケンサ110は、複数の断片の数百万個のクラスタが同時にシーケンシングされる、大規模並列シーケンシングを実行することができる。
図2は、図1Bのワークフロー図に従って、インクリメンタル二次解析を実行するためのプロセス200の一例のフローチャートである。一般に、プロセス200は、第1のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第1のリードを表す第1のデータを取得することと(210)、第1のリード間隔の後に実行される第2のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第2のリードを表す第2のデータを取得することと(220)、段階220で第2のデータが取得されている間に、(I)核酸シーケンサによって生成された複数の第1のリードを表す第1のデータに対して1つ以上の二次解析動作を実行することと、(II)第1の複数のリードの二次解析の結果を格納することと(230)、その後、参照データへの第2の複数のリードを表す得られた第2のデータの二次解析を実行することと、を含む。便宜上、これらの段階は、図1Bのシステム100などのシーケンシングシステムによって実行されるものとして以下でより詳細に説明される。
シーケンシングシステムは、第1のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第1のリードを表す第1のデータを取得すること210によって、プロセス200の実行を開始することができる。第1のデータを取得することは、第1のデータが核酸シーケンシングデバイスによって生成された後に、二次解析ユニットのメモリデバイスなどのメモリデバイス内に複数の第1のリードを表す第1のデータを格納することを含むことができる。二次解析ユニットのメモリデバイスは、二次解析動作を実行するように構成された二次解析ユニットの集積回路によってアクセス可能なメモリユニットであり得る。集積回路は、1つ以上のプログラマブル回路、1つ以上のASIC、又はこれらの組み合わせを含むことができる。複数の第1のリードの各リードは、ヌクレオチドの順序付けられたシーケンスからなり得る。いくつかの実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の第1の末端のヌクレオチドに対応し得る。核酸シーケンシングデバイスは、DNA又はRNAのいずれかをシーケンシングすることができるシーケンサを含む任意の核酸シーケンシングデバイスを含むことができる。
シーケンシングシステムは、第1のリード間隔の後に実行される第2のリード間隔中に、核酸シーケンシングデバイスによって生成された複数の第2のリードを表す第2のデータを取得すること220によって、プロセス200の実行を継続することができる。第2のデータを取得することは、第2のデータがシーケンシングデバイスによって生成された後に、二次解析ユニットのメモリに複数の第2のリードを表す第2のデータを格納することを含むことができる。二次解析ユニットのメモリデバイスは、二次解析動作を実行するように構成された二次解析ユニットの集積回路によってアクセス可能なメモリユニットであり得る。集積回路は、1つ以上のプログラマブル回路、1つ以上のASIC、又はこれらの組み合わせを含むことができる。いくつかの実装形態では、第2のデータの少なくとも一部は、第2のデータの別の部分が核酸シーケンシングデバイスによって生成されている間に、取得される。複数の第2のリードの各リードは、ヌクレオチドの順序付けられたシーケンスからなり得る。いくつかの実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の第1の末端とは反対の核酸断片の第2の末端のヌクレオチドに対応し得る。
シーケンシングシステムが段階220で第2のデータを取得している間、シーケンシングシステムは、段階230で、複数の第1のリードを表す第1のデータに対して1つ以上の二次解析動作を実行することができる。いくつかの実装形態では、複数の第1のリードを表す第1のデータに対して1つ以上の二次解析動作を実行することは、(i)核酸シーケンシングデバイスによって、マッピング及びアラインメントユニットに第1のデータを提供して、複数の第1のリードを表す第1のデータを参照シーケンスにアラインメントすることと、(ii)マッピング及びアラインメントユニットを使用して、参照シーケンスに、複数の第1のリードを表す第1のデータをアラインメントすることと、(iii)マッピング及びアラインメントユニットからアラインメント結果を受け取ることと、(iv)段階204で第2のデータの取得が完了する前に、複数の第1のリードを表す第1のデータの参照シーケンスへのアラインメントの受け取ったアラインメント結果を格納することと、を含むことができる。アラインメント結果は、第1の複数のリードを表す第1のデータの参照シーケンスへのアラインメントの質を記述するアラインメント統計を含むことができる。アラインメント統計は、例えば、MAPQスコア、アラインメントスコアなどのうちの1つ以上を含むことができる。他の実装形態では、アラインメント結果は、潜在的なバリアントの決定のためのバリアントコールへの入力として提供され得るマッピング及びアラインメントされたリードを含み得る。
いくつかの実装形態では、アラインメント結果を記述する出力データは、1人以上のヒトユーザによるレビューのために提供され得る。例えば、アラインメント結果を記述する出力データは、例えば、核酸シーケンシングデバイスに接続されるか、又は別の部屋若しくは建物に提供されるディスプレイ上に出力され得る。あるいは、又は加えて、アラインメント結果を記述する出力データは、例えば、核酸シーケンシングデバイスに直接的又は間接的に通信可能に接続されたプリンタを使用して、アラインメント結果を記述するレポートを印刷するように出力することができる。
いくつかの実装形態では、マッピング及びアラインメントユニットの少なくとも一部は、核酸シーケンシングデバイスに組み込まれたプログラマブル回路又はASICなどの集積回路に実装される。例えば、プログラマブル回路又はASICは、テーブルルックアップ機能、Smith-Watermanアルゴリズム、又は品質スコア判定を実装し得る。しかしながら、他の実装形態では、マッピング及びアラインメントユニットのうちの1つ以上の動作は、核酸シーケンシングデバイスによって実行されるソフトウェアにおいて実行され得る。例えば、プログラマブル回路及びアラインメント結果のソートを制御することは、ソフトウェアに実装され得る。更に他の実装形態では、マッピング及びアラインメントユニットは、1つ以上のネットワークを使用して核酸シーケンシングデバイスに通信可能に接続された1つ以上のリモートコンピュータのプログラマブル回路、ASIC、実行可能ソフトウェア、又はこれらの組み合わせに実装され得る。そのような実装形態では、リード、アラインメント結果などを表すデータは、核酸シーケンシングデバイスと、1つ以上のネットワークを使用してマッピング及びアラインメントユニットのホストである1つ以上のリモートコンピュータとの間で通信することができる。
シーケンシングシステム、他の処理システム、又は1人以上のヒトユーザは、第2のデータが段階220で取得されている間に、アラインメント結果を評価することができる。例えば、アラインメント結果を評価して、アラインメントが段階220で第2のデータを取得することを継続するのに十分な品質であるかどうかを判定することができる。いくつかの実装形態では、第1の複数のリードのアラインメント結果が所定の閾値を満たすことができない場合、核酸シーケンサは、段階220で第2のデータを取得することを停止するように命令され得る。あるいは、第1の複数のリードのアラインメント結果が所定の閾値を満たすと判定された場合、そこで核酸シーケンサは、段階220で第2のデータを取得することを継続することが許可され得る。
他の実装形態では、マッピング及びアラインメントされた第1のリードは、第2のデータが段階220で取得されている間に、マッピング及びアラインメントされた第1のリードと1つ以上の参照シーケンスとの間の潜在的なバリアントの検出について評価され得る。そのような実装形態は、マッピング及びアラインメントされた第1のリードの三次解析を、第1のリード間隔及び第2のリード間隔の両方が完了する後まで三次解析の開始を禁止する従来の方法よりも、迅速に達成することを可能とする。したがって、三次解析に進む前に第2のリード間隔が完了するのを待つ必要がないことから、12~24時間又はそれ以上早く初めの診断を取得して治療を開始し得る。
シーケンスシステムは、段階240で第2データに対する二次解析動作の実行を指示することによって、例えば、第2の複数のリードを表す第2のデータの参照シーケンスへのアラインメントを開始するようマッピング及びアラインメントユニットに指示することによって、プロセス200の実行を継続することができる。いくつかの実装形態では、シーケンシングシステム200は、常に段階240に進むことができる。そのような実装形態は、三次解析を促進し、核酸シーケンシングデバイスのダウンタイムを低減する技術的利点を更に提供する。しかしながら、他の実装形態では、プロセス200の実行は、複数の第1のリードを表す第1のデータのアラインメントの質を記述する受け取られたアラインメント結果が所定の品質閾値を満たすと決定された場合にのみ、第2の複数のリードを表す第2のデータの参照シーケンスへのアラインメントを開始するように、マッピング及びアラインメントユニットに命令することによって継続してもよい。
いくつかの実装形態では、シーケンシングシステムは、第2のデータが取得されている間に、段階220で実行される第1のデータのマッピング及びアラインメント、バリアントコール、又はその両方の二次解析結果に依存し得る。他の実装形態では、段階230で実行された第1のデータに関連するこれらの初めの二次解析結果は、それらが評価されて第1のリード間隔の品質を決定した後に廃棄され得る。そのような例では、シーケンシングシステムは、第2のデータの二次解析を段階240で実行する前又は後のいずれかで、第1のデータの二次解析の第2のイテレーションを開始することができる。
図3は、核酸シーケンサ310から離れて位置する二次解析ユニット340を使用して、1つ以上のサンプルのインクリメンタル二次解析を実行するためのシステム300の一例のコンテクスト図である。システム300は、概して、図1Bを参照して説明したシステム100と同じであり、いくつかの変更が加えてある。1つの変更は、二次解析ユニット340が、核酸シーケンサ310から離れている1つ以上のコンピュータ320に位置することである。明示的に述べられていない図3の任意の参照番号に関して、参照番号によって識別される構成要素は、図1の対応する特徴と同じ特徴を有する。例えば、それぞれのクラスタ322-1、322-2、322-3、322-4、322-5、322-Nは、図3を参照して追加の又は異なる特徴が記載されない限り、図1のそれぞれのクラスタ122-1、122-2、122-3、122-4、122-5、122-Nと同じ意味を有する。
図3の例と図1Bの例との間の別の違いは、図3の例では、複数のサンプルが処理されることである。その結果、システム300の核酸シーケンサ310によって生成されたリードは、各リードについて生成されるインデックスを有する。このインデックスは、各リードに取り付けられたラベルS1、S2、及びS3によって図3で表される。この例では、S2、S2、S3は、それぞれ第1のサンプル、第2のサンプル、又は第3のサンプルに基づいて生成されたリードを同定するために使用されるストリングである。インデックスは、S1、S2、S3という用語を使用して本明細書に記載されているが、これらの用語は、インデックスの概念を説明するために例として使用されているため、本開示は、テキストストリングのサンプル識別子としての使用に限定されない。代わりに、いくつかの実装形態では、バーコード又は他のデータを、リードのサンプル識別子として使用することができる。いくつかの実装形態では、サンプル識別子は、インデックスを表す合成ヌクレオチドを、各生成されたリードに追加することによって生成することができる。
図3の例を参照すると、核酸シーケンサ310又はリモートコンピュータ320は、マッピング及びアラインメントユニット342aを含むように二次解析ユニット340のプログラマブル回路342を構成することができる。核酸シーケンサ310は、複数のサンプル105、サンプル106、サンプル107を受け取ることができる。サンプル105、サンプル106、サンプル107は、例えば、異なる実体からの核酸サンプルを含むことができる。異なる実体は、異なるヒト、異なる動物、異なる植物などであり得る。核酸シーケンサ310は、サンプル105、サンプル106、サンプル107を調製し、ワークフロー370の時間T1中にクラスタ生成を実行することができる。核酸シーケンサ310は、第1のリード間隔の合成によるシーケンシングなどのシーケンシング動作を実行して、時間T1に続いて生じる時間T2A中に第1のリード330-1、330-3、332-1、332-3、334-1、334-3を生成することができる。時間T1+T2Aの終了時に、核酸シーケンサ310は、第1のリード330-1、330-3、332-1、332-3、334-1、334-3のシーケンシングを完了し、時間T3A中、第1のリード間隔中に生成された第1のリードについてインデックス生成を開始する。時間T1+T2A+T3Aの終了時に、核酸シーケンサ310は、第1のリードサイクルについてインデックス生成を完了し、時間T3B中、第2のリード間隔中に生成される第2のリードについてインデックス生成を開始する。時間T1+T2A+T3A+T3Bの終了時に、核酸シーケンサ310は、第2のリード330-2、330-4、332-2、332-4、334-2、334-4のシーケンシングを開始する。
核酸シーケンサ310は、核酸シーケンサ310が、第2のリード間隔の合成によるシーケンシングなどのシーケンシング動作を実行して、時間T2B中に第2のリード330-2、330-4、332-2、332-4、334-2、334-4を生成する間に、第1のリード330-1、330-3、332-1、332-3、334-1、334-3のマッピング及びアラインメントなどの二次解析動作を並列化するように構成されている。このプロセスは、図1Bの例を参照して説明したものと同様である。しかしながら、図3の例では、複数のサンプルがシーケンシングされている。したがって、複数の第1のリードは、マッピング及びアラインメント及びバリアントコールなどの他の二次解析動作に進む前に、各リードのインデックスに基づいて、群にデマルチプレックスされる必要がある。複数の第1のリードがデマルチプレックスされると、第1のリードのデマルチプレックスした群に対して1つ以上の二次解析動作を実行することができる。いくつかの実装形態では、システム300は、デマルチプレックス動作に基づいてデマルチプレックス統計を生成することができ、格納された統計を評価して、シーケンシングされたリードの品質を決定することができる。
図3の例では、時間T3A及びT3B中のインデックス化動作が完了するまで、デマルチプレックスされた群への第1のリードの組織化が起こり得ないため、時間T1+T2A+T3A+T3Bの終了時まで、第1のリードの二次解析を開始することができない。時間T1+T2A+T3A+T3Bの終了時に第2のインデックスが完了すると、核酸シーケンサ310は、ネットワーク112上のリモートコンピュータ320に複数の第1のリードを提供することができる。リモートコンピュータ320は、複数の第1のリードを受け取り、メモリ344内に複数の第1のリードを格納することができる。核酸シーケンサ310は、時間T2B中に第2のリード間隔を実行しているが、二次解析ユニット340は、処理ユニット350を使用して、メモリ344内の複数の第1のリードにアクセスし、デマルチプレックスユニット362を使用して、複数の第1のリード330-1、330-3、332-1、332-3、334-1、334-3を、各リードのインデックス又はサンプル識別子に基づいて群にデマルチプレックスすることができる。デマルチプレックスは、インデックスに基づいて第1のリードを組織化するために、デマルチプレックス動作を使用して達成することができる。デマルチプレックスされた第1のリードは、メモリ344に格納することができる。次いで、マッピング及びアラインメントユニット342aは、メモリ344に格納されたリードにアクセスし、第2のリード間隔中に、デマルチプレックスされた第1のリードに対するマッピング及びアラインメント動作を実行することができる。
二次解析ユニット340は、核酸シーケンサによって生成されたリードの品質を評価するために使用され得る統計を生成することができる。いくつかの実装形態では、二次解析ユニットは、デマルチプレックス動作に基づいて、デマルチプレックス統計を生成することができる。マッピング及びアラインメントユニット342aは、メモリ344に格納された各第1のリードの群についてマッピング及びアラインメント結果並びに統計を生成することができる。マッピング及びアラインメントユニット342aは、結果359をメモリ360に格納するか、又は結果359を核酸シーケンサ310に戻すことができる。
結果359は、デマルチプレックス統計、マッピング及びアラインメント結果、マッピング及びアラインメント統計、バリアントコール統計、又はこれらの任意の組み合わせを含むことができる。デマルチプレックス統計は、各サンプル識別子に対応するリードの数を含むことができる。マッピング及びアラインメント結果は、参照シーケンスへの1つ以上のマッピングされたリードを表すデータを含み得る。マッピング及びアラインメント統計は、例えば、マッピング品質の指標を提供するMAPQスコア、アラインメント品質の指標を提供するアラインメントスコアなどを記述するデータを含み得る。核酸シーケンサ310は、結果359を受け取り、受け取った結果をメモリ160に格納することができる。
図3の例では、プログラマブル回路342のハードワイヤード論理を使用して実装されたマッピング及びアラインメントユニット342aの超高速実行時間は、マッピング及びアラインメントユニット342aが、第2のリード間隔を実行するために核酸シーケンサ310によって必要とされる時間のほんの一部で第1のリード330-1、330-3、332-1、332-3、334-1、334-3のそれぞれのデマルチプレックスされた群のマッピング及びアラインメントを実行することを可能にする。例えば、いくつかの実装形態では、プログラマブル回路342aは、第1のリード330-1、330-3、332-1、332-3、334-1、334-3のデマルチプレックスされた群のマッピング及びアラインメントをほんの数分で行うことができ、一方で、第2のリード間隔中の第2のリード330-2、330-4、332-2、332-4、334-2、334-4のシーケンシングは、12~24時間であり得る。したがって、結果359は、核酸シーケンサ310、リモートコンピュータ320、核酸シーケンサ310のユーザ若しくはリモートコンピュータ320のユーザ、人工知能エージェント若しくはモデル、又はこれらの組み合わせによって評価することができ、第1のリード330-1、330-3、332-1、332-3、334-1、334-3のデマルチプレックスの品質、第1のリード330-1、330-3、332-1、332-3、334-1、334-3のデマルチプレックスした群のマッピング及びアラインメントの品質、又はその両方に基づいて、核酸シーケンサ310が、第2のリード間隔中にシーケンシング動作を継続して、第2のリード330-2、330-4、332-2、332-4、334-2、334-4を生成すべきかどうかの判断を行うことができる。
第2のリード330-2、330-4、332-2、332-4、334-2、334-4を生成するために第2のリード間隔中のシーケンシング動作を継続すべきかどうかの判断は、図1Bの例を参照して説明したように、核酸シーケンサ310によって自動的に、核酸シーケンサのユーザによって手動で、人工知能エージェント若しくはモデルによって自動的に、又はこれらの組み合わせからの判定を記述するデータに基づいて行うことができる。あるいは、又は加えて、リモートコンピュータ320、コンピュータ320のユーザ、若しくは人工知能エージェント若しくはモデル、又はこれらの組み合わせは、結果359に基づいて、第2のリード330-2、330-4、332-2、332-4、334-2、334-4を生成するために第2のリード間隔中のシーケンシングを継続するべきかどうかを判断することができる。結果359のそのような解析は、図1Bの説明で核酸シーケンサ310、核酸シーケンサ310のユーザ、又は人工知能エージェント若しくはモデル、又はこれらの組み合わせによる結果149の評価に関して記載されたのと同様に、リモートコンピュータ320、リモートコンピュータ320のユーザ、人工知能エージェント若しくはモデル、又はこれらの組み合わせによって評価することができる。人工知能エージェント又はモデルの場合、人工知能モデルはまた、図1Bの説明に記載されている他の入力データタイプに加えて、デマルチプレックス特性を含む入力データタイプで訓練され得る。
いくつかの実装形態では、デマルチプレックス統計は、マッピング及びアラインメント統計とは別に、又はマッピング及びアラインメント統計と共に評価されて、核酸シーケンサ310によって生成されるリードの品質を決定することができる。例えば、核酸シーケンサ310又はリモートコンピュータ320は、各サンプル識別子について予想される数のリードを表すデータを格納することができる。次いで、核酸シーケンサ310、リモートコンピュータ320、ユーザ、人工知能エージェント、又はこれらの組み合わせは、デマルチプレックス統計が、各サンプル識別子について予想されるリード数の誤差の閾値量内にある各サンプル識別子に対応するリード数を含むかどうかを判定することができる。デマルチプレックス統計が、各サンプル識別子について予想されるリード数の誤差の閾値量内にある場合、核酸シーケンサ310、リモートコンピュータ320、ヒトユーザ、人工知能エージェント、又はこれらの組み合わせは、シーケンシング動作を継続すべきか決定することができる。あるいは、デマルチプレックス統計が、各サンプル識別子について予想されるリード数の誤差の閾値量内にないと判定された場合、核酸シーケンサ310、リモートコンピュータ320、ユーザ、人工知能エージェント若しくはモデル、又はこれらの組み合わせは、シーケンシングランを終了することを決定することができる。
いくつかの実装形態では、結果359が、リモートコンピュータ320から核酸シーケンサ310に送り返される必要はない場合がある。代わりに、リモートコンピュータ320、リモートコンピュータ320のユーザ、又は人工知能エージェント若しくはモデルは、結果359のコンピュータ320の解析、コンピュータ320のユーザの解析、又は人工知能エージェント若しくはモデルの解析に基づいて、核酸シーケンサ310が第2のリード330-2、330-4、332-2、332-4、334-2、334-4の生成を継続するべきかどうかを示すデータを、核酸シーケンサ310に送り返すことができる。そうして核酸シーケンサは、実際に結果359を受け取ることなく、リモートコンピュータ320から受け取ったデータに基づいて、第2のリード間隔を継続するか、又は終了するかを判定することができる。
更に別の実装形態では、核酸シーケンサは、図1Bを参照して説明したものと同様に、複数の決定を考慮することもできる。例えば、いくつかの実装形態では、核酸シーケンサ310、核酸シーケンサ310のユーザ、リモートコンピュータ320、リモートコンピュータ320のユーザ、人工知能エージェント若しくはモデル、又はこれらの任意の組み合わせの判定を記述するデータを取得することができ、そのような実装形態では、核酸シーケンサ310、核酸シーケンサ310のユーザ、リモートコンピュータ320、リモートコンピュータ320のユーザ、人工知能エージェント若しくはモデル、又はこれらの任意の組み合わせが、第2のリード間隔は終了すべきであると同意した場合のみ、核酸シーケンサ310は、第2のリード間隔を終了する。他の実装形態では、総スコアは、核酸シーケンサ310、核酸シーケンサ310のユーザ、リモートコンピュータ320、リモートコンピュータ320のユーザ、人工知能エージェント、又はこれらの任意の組み合わせのうちの1つ以上の決定の加重平均に基づいて生成され、総スコアに基づいて、第2のリード間隔が終了されるべきかどうか決定され得る。そのような実装形態では、総スコアが所定の閾値を下回る場合、第2のリード間隔を終了させることができる。あるいは、総スコアが所定の閾値を超える場合、第2のリード間隔は継続され得る。
これらの技術を使用して、図3のシステム300は、図1Bを参照して説明した同様の技術的利点を提供する。すなわち、システム300は、第1のリードのアラインメントが低品質のアラインメントであることを結果359が示す場合、第2のリードを生成するために使用される試薬を節約することができる。デマルチプレックス統計の質、マッピング及びアラインメントの結果の質、マッピング及びアラインメント統計の質、又はこれらの組み合わせが十分であると判定されると、核酸シーケンサ310は、結果359を廃棄することができる。他の実装形態では、第2のリードと並行して実行される第1のリードのマッピング及びアラインメントは、最終データランのための第1のリードのマッピング及びアラインメントとして使用され得る。
図3の例を続けると、結果359が満足のいくものであると判定した後、核酸シーケンサ310は、第2のリードの実行を継続することができる。第2のリード330-2、330-4、332-2、332-4、334-2、334-4が生成されると、核酸シーケンサ310は、二次解析ユニット340に最終的な二次解析データランを開始するように命令する命令を、ネットワーク112を使用して、リモートコンピュータ320に送信できる。最終データランは、二次解析ユニット340を使用して、各第2のリードのサンプル識別子に基づいて第2のリード330-2、330-4、332-2、332-4、334-2、334-4を第2のリードの組織化した群にデマルチプレックスすることと、それから第2のリード330-2、330-4、332-2、332-4、334-2、334-4をマッピング及びアラインメントすることと、を含むことができる。いくつかの実装形態では、第1のリードの組織化されたセットのマッピング及びアラインメント結果が廃棄された場合、最終データランは、第1のリード及び第2のリードの両方に対するマッピング及びアラインメント動作を実行することができる。これらの動作は、プログラマブル回路342aを使用して実装されるため、これらの動作は、第2のシーケンシングラン374と並行して、第2のシーケンシングラン374を実行するために必要な時間のほんの一部で実行され得る。これは、前のシーケンシングラン372の二次解析を実行しながら、後続のシーケンシングランを継続することができることにより、図1Aに示される従来のシステムで発生するシーケンサのダウンタイムが低減するという、従来のシステムに対する利点を提供する。
デマルチプレックス並びにマッピング及びアラインメントに加えて、二次解析ユニット340はまた、バリアントコール動作を実行することができる。例として、処理ユニット350を使用して、マッピング及びアラインメントされたリードを解析して、一塩基多型(SNP)、挿入/欠失(インデル)、構造多型などの任意のバリアントの発生を同定することができるバリアントコールユニット364を実行することができる。いくつかの実装形態では、プログラマブル回路342は、例えば、リモートコンピュータ320によって、バリアントコール処理を補助するために動的に再構成することができる。例えば、プログラマブル回路342は、マッピング及びアラインメントされたリードの1つ以上の参照位置におけるバリアントが発生する可能性に対して確率計算を実行するために使用され得るHMMユニットを含むように動的に再構成することができる。バリアントコール動作を実行するためのFPGAなどのプログラマブル回路の使用の例は、例えば、米国特許出願公開第2016/0180019号、米国特許出願公開第2016/0306922号、及び米国特許出願公開第2019-0259468号に更に詳細に記載されており、これらのそれぞれの全内容は、その全体が参照により本明細書に組み込まれる。
図3の例は、8のヌクレオチド及び3のサンプルを有するリードを有する例を記載している。ただし、本開示は、そのように限定されない。代わりに、この簡単な例は、本開示の特徴を理解しやすい方法で説明するために提示されている。実際には、本開示のDNA断片は、いくつかの実装形態では、例えば、最大600のヌクレオチド、最大800のヌクレオチド、最大1,000のヌクレオチド、又はそれ以上を有し得、断片の各リードは、例えば、ヌクレオチドDNA断片の各末端から50のヌクレオチド、75のヌクレオチド、150のヌクレオチド、200のヌクレオチド、300のヌクレオチド、500のヌクレオチド、又はそれ以上を有し得る。同様に、図3又は他の任意の図も、断片のクラスタの数を限定するものとして解釈されるべきではない。例えば、核酸シーケンサ310は、複数の断片の数百万個のクラスタが同時にシーケンシングされる、大規模並列シーケンシングを実行することができる。
図3の例は、インデックス又はサンプル識別子を有するリードを生成するために使用される複数のサンプルに関するが、本開示はそのように限定されない。代わりに、システム300はまた、すべてのリードが同じサンプルに属するためにインデックス付けされないリードを生成する単一サンプルの処理を行うためにも使用され得る。そのような実装形態では、同じ処理が、いかなるインデックスも生成することなく、第1のリード間隔「リード1」の直後に開始される、第2のリード間隔「リード2」を用いて実行され得る。次に、第1のリード間隔「リード1」が完了すると、第1のリードの二次解析を第2のリード間隔と並列化しながら、第2のリード間隔「リード2」を開始することができる。単一のサンプル実装と複数のサンプル実装との間の唯一の実質的な違いは、インデックス生成及びデマルチプレックス段階が単一のサンプルで実行される必要がないことであり、なぜなら、すべてのリードが同じサンプルに関連付けられるためである。
図4は、図3のワークフロー図に従って、インクリメンタル二次解析を実行するためのプロセス400の一例のフローチャートである。一般に、プロセス400は、第1のリード間隔中に、複数の異なるサンプルから核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することと(410)、第1のリード間隔(410)の後に実行される第2のリード間隔中に、複数の異なるサンプルから核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することと(420)、第2のデータを段階420で取得している間に、(I)複数の第1のリードを、第1のリードのそれぞれに関連付けられた少なくとも第1のサンプル識別子又は第2のサンプル識別子に基づいて組織化された群に組織化することと、(II)各第1のリードの組織化された群について、第1のリードの組織化された群に対して二次解析動作を実行することと、(III)各第1のリードの群の二次解析の結果を格納することと(430)、その後、二次解析ユニットに命令して、(A)少なくとも第1のサンプル識別子又は第2のサンプル識別子に基づいて、複数の第2のリードを複数の組織化された群に組織化することと(440)、(B)各第2のリードの組織化された群について、第2のリードの組織化された群、又は第1のリード及び第2のリードの組織化された群に対して二次解析動作を実行することと(450)、を開始させることと、を含む。便宜上、限定されないが、これらの段階は、図3のシステム300などのシーケンシングシステムによって実行されるように、以下でより詳細に説明される。
シーケンシングシステムは、第1のリード間隔中に、複数の異なるサンプルから、核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得する410ことによって、プロセス400の実行を開始することができる。第1のデータを取得することは、第1のデータがシーケンシングデバイスによって生成された後に、複数の第1のリードを表す第1のデータを二次解析ユニットのメモリデバイスなどのメモリデバイス内に格納することを含むことができる。二次解析ユニットのメモリデバイスは、二次解析動作を実行するように構成された二次解析ユニットの集積回路によってアクセス可能なメモリユニットであり得る。集積回路は、1つ以上のプログラマブル回路、1つ以上のASIC、又はこれらの組み合わせを含むことができる。
複数の第1のリードの各リードは、ヌクレオチドの順序付けられたシーケンスからなり得る。いくつかの実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の第1の末端のヌクレオチドに対応し得る。核酸断片は、シーケンシングを促進するためにクローン的に増幅されていてもよく、そのような実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の複数のクローンを解析することによって決定され、リードのヌクレオチドを生成し得る。各第1のリードは、第1のリードを生成するために使用するサンプルを同定するデータを含むことができる。いくつかの実装形態では、サンプルを同定するデータは、バーコードを含むことができる。核酸シーケンシングデバイスは、DNAシーケンサ又はRNAシーケンサを含む任意の核酸シーケンシングデバイスを含み得る。
シーケンシングシステムは、第1のリード間隔の後に実行される第2のリード間隔中に、複数の異なるサンプルから、核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得すること420によって、プロセス400の実行を継続することができる。第2のデータを取得することは、第2のデータがシーケンシングデバイスによって生成された後に、二次解析ユニットのメモリに複数の第1のリードを表す第2のデータを格納することを含むことができる。二次解析ユニットのメモリデバイスは、二次解析動作を実行するように構成された二次解析ユニットの集積回路によってアクセス可能なメモリユニットであり得る。集積回路は、1つ以上のプログラマブル回路、1つ以上のASIC、又はこれらの組み合わせを含むことができる。
いくつかの実装形態では、第2のデータの少なくとも一部は、第2のデータの別の部分が核酸シーケンシングデバイスによって生成されている間に、取得される。複数の第2のリードの各リードは、ヌクレオチドの順序付けられたシーケンスからなり得る。いくつかの実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の第1の末端の反対側の核酸断片の第2の末端のヌクレオチドに対応し得る。核酸断片は、シーケンシングを促進するためにクローン的に増幅されていてもよく、そのような実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の複数のクローンを解析することによって決定され、リードのヌクレオチドを生成し得る。各第2のリードは、第2のリードが発生したサンプルを同定するデータを含むことができる。いくつかの実装形態では、サンプルを同定するデータは、バーコードを含むことができる。
第2のデータは段階420で取得されているが、シーケンシングシステムは、二次解析ユニットを使用して、複数の第1のリードの追加の処理を並列化することができる。いくつかの実装形態では、追加の並列化処理は、(I)複数の第1のリードを表すデータを、第1のリードのそれぞれに関連する少なくとも第1のサンプル識別子又は第2のサンプル識別子に基づいて組織化された群に組織化することと、(II)各第1のリードの組織化された群について、第1のリードの組織化された群に対して二次解析動作を実行することと、(III)各第1のリードの群の二次解析結果を格納することと(430)、を含むことができる。
サンプル識別子に基づいて、複数の第1のリードを組織化された群に組織化することは、シーケンシングされている複数のサンプルがあるときに関連する二次解析処理を取得する必要がある。これは、1つ以上のデマルチプレックス動作を実行して、異なる第1のサンプル識別子を有する第1のリードのセットをそれぞれの組織化された群にマッピングすることを含み得、各第1のリードの組織化された群は、同じサンプル識別子を有する。デマルチプレックス動作の品質を記述するデマルチプレックス統計を生成することができる。例えば、デマルチプレックス統計は、各サンプル識別子に対応する第1のリードの数を示すことができる。いくつかの実装形態では、二次解析ユニットは、結果データを核酸シーケンサに戻すか、結果データを1つ以上の人工知能エージェント若しくはモデルに提供するか、又は結果データをデマルチプレックス統計を記述する1人以上のヒトユーザに出力することができる。そのような例では、シーケンシングシステムは、デマルチプレックス統計によって記述されるデマルチプレックス動作の質に基づいて、プロセス400を継続するか、又はこの時点でプロセス400を終了するかどうかを判定することができる。あるいは、以下に説明するように、マッピング及びアラインメント動作が実行された後、そのようなデマルチプレックス統計を結果データとして戻すことができる。
複数の第1のリードが組織化されると、シーケンシングシステムは、各第1のリードの組織化された群について、第1のリードの組織化された群に対する1つ以上の二次解析動作を実行することができる。第1のリードの組織化された群に対して二次解析動作を実行することは、各第1のリードの組織化された群について、(I)核酸シーケンシングデバイスによって、第1のリードの組織化された群をマッピング及びアラインメントユニットに提供し、第1のリードの組織化された群を参照シーケンスにアラインメントすることと、(II)マッピング及びアラインメントユニットを用いて、第1のリードの組織化された群を参照シーケンスにアラインメントすることと、(iii)マッピング及びアラインメントユニットから結果を受け取ることと、(iv)段階420で第2のデータの取得が完了する前に、受け取った結果データを格納することと、を含むことができる。
結果データは、デマルチプレックス統計、又はマッピング及びアラインメント統計を含むことができる。デマルチプレックス統計は、各サンプル識別子に対応する第1のリードの数などのデマルチプレックス動作の質を記述するデータを含むことができる。マッピング及びアラインメント統計は、各第1のリードの組織化された群のそれぞれの参照シーケンスへのアラインメントの質を記述するデータを含むことができる。マッピング及びアラインメント統計は、例えば、MAPQスコア、アラインメントスコアなどのうちの1つ以上を含むことができる。他の実装形態では、マッピング及びアラインメント結果は、各第1リードの組織化された群のマッピング及びアラインメントされたリードとそれぞれの参照シーケンス間の潜在的バリアントを決定するためのバリアントコーラーへの入力として提供され得る、各第1リードの組織化された群のマッピング及びアラインメントされたリードを含むことができる。
いくつかの実装形態では、各第1のリードの組織化された群についての結果データを記述する出力データは、1人以上のヒトユーザによるレビューのために提供され得る。例えば、各第1のリードの組織化された群についての結果データを記述する出力データは、例えば、核酸シーケンシングデバイスに結合された、又は別の部屋若しくは建物に提供されたディスプレイ上に出力され得る。あるいは、又は加えて、各第1のリードの組織化された群についての結果データを記述する出力データは、例えば、核酸シーケンシングデバイスに直接的又は間接的に通信可能に接続されたプリンタを使用して出力され、各第1のリードの組織化された群についてのアラインメント結果を記述するレポートを印刷することができる。
いくつかの実装形態では、シーケンシングシステム、リモートコンピュータ、1人以上のヒトユーザ、人工知能エージェント若しくはモデル、又はこれらの組み合わせは、第2のデータが段階420で取得されている間、結果データを評価することができる。例えば、結果データを評価して、デマルチプレックスされた第1のリード、第1のリードのマッピング及びアラインメント、又はその両方が、段階420で第2のデータを取得するのを継続するのに十分な品質であるかどうかを判定することができる。いくつかの実装形態では、第1のリードの組織化された群の結果データが1つ以上の所定のルール又は閾値を満たさない場合、核酸シーケンサは、段階420で第2のデータを取得することを停止するように命令され得る。あるいは、第1のリードの組織化された群の結果データが1つ以上の所定のルール又は閾値を満たすと判定された場合、核酸シーケンサは、段階420で第2のデータの取得を継続することが許可され得る。
いくつかの実装形態では、マッピング及びアラインメントされた第1のリードの各組織化された群は、第2のデータが段階420で取得されている間に、潜在的なバリアントの検出について評価することができる。そのような実装形態は、各群について同定されたバリアントの三次解析を、第1のリード間隔及び第2のリード間隔の両方が完了する後まで三次解析の開始を禁止する従来の方法よりも、迅速に達成することを可能にする。したがって、初めの診断は、三次解析に進む前に第2のリード間隔を完了するのを待つ必要がないことから、従来の方法よりも12~24時間早く治療を開始するために取得され得る。
シーケンシングシステムは、段階430で、少なくとも第1のサンプル識別子又は第2のサンプル識別子に基づいて、複数の第2のリードを、第2のリードの複数の組織化された群に組織化することを開始するようにマッピング及びアラインメントユニットに命令することによって、プロセス400の実行を継続することができる。第2のサンプル識別子に基づいて、複数の第2のリードを組織化された群に組織化することは、第2のリードの関連する二次解析処理を取得するために必要である。これは、1つ以上のデマルチプレックス動作を実行して、異なるサンプル識別子を有する第2のリードのセットを異なる組織化された群にマッピングすることを含み得、各第2のリードの組織化された群は、同じ第2のサンプル識別子を有する。シーケンシングシステムは、各第2のリードの組織化された群について、第2のリードの組織化された群に対する二次解析動作を実行する(段階440)プロセス400の実行を継続することができる。いくつかの実装形態では、二次解析動作は、第1のリードと第2のリードとの組み合わせで実行することができる。
いくつかの実装形態では、シーケンシングシステムは、段階430及び段階440に進むことができる。そのような実装形態は、三次解析を促進し、核酸シーケンサのダウンタイムを低減する技術的利点を更に提供する。しかしながら、他の実装形態では、第1のリードの組織化された群のそれぞれについて、第1のリードのデマルチプレックス品質、第1のリードのマッピング及びアラインメント品質、又はその両方を記述する、受け取られた結果データが、1つ以上の所定の品質ルール又は閾値を満たすと判断される場合にのみ、シーケンシングシステムによるプロセス400の実行は、複数の第2のリードを複数の組織化された群に組織化すること(430)を継続することができ、マッピング及びアラインメント、バリアントコール、又はその両方などの二次解析動作を実行することができる。
いくつかの実装形態では、シーケンシングシステムは、第2のデータが取得されている間、段階420で実行される第1のリードの組織化された群のマッピング及びアラインメント、バリアントコール、又はその両方の二次解析結果に依存し得る。他の実装形態では、段階420で実行される第1のリードの組織化された群に関連するこれらの初めの二次解析結果は、それらが評価されて第1のリード間隔の品質を決定した後に廃棄され得る。そのような例では、シーケンシングシステムは、段階430及び段階440で第2のリードの組織化された群の二次解析が完了する前又は完了した後のいずれかで、第1のリードの組織化された群の二次解析の第2のイテレーションを開始することができる。
図5は、核酸シーケンサ内の二次解析ユニットを使用して、1つ以上のサンプルのインクリメンタル二次解析を実行するためのシステム500の一例のコンテクスト図である。システム500は、概して、図3を参照して説明したシステム300と同じであり、いくつかの違いがある。1つの違いは、二次解析ユニット540が、核酸シーケンサ510内に位置することである。明示的に述べられていない図5の任意の参照番号に関して、参照番号によって識別される構成要素は、図1又は図3の対応する特徴と同じ特徴を有する。例として、それぞれのクラスタ522-1、522-2、522-3、522-4、522-5、522-Nは、図5を参照して追加の又は異なる特徴が記載されない限り、図1のそれぞれクラスタ122-1、122-2、122-3、122-4、122-5、122-Nと同じ意味を有する。
図5の例と図3の例との間の別の違いは、核酸シーケンサが、第1のリード間隔の前に、各リードについてサンプル識別子又はインデックスを生成するように構成されていることである。このことは、ワークフロー570に示されており、ワークフロー570は、IND1及びIND2がクラスタリング段階に続いて、ワークフロー570の第1のリード間隔の第1のリード「リード1」の前に生成されることを示す。図3のインデックスが第1のリード間隔の後に生成されるため、これは、図3の例におけるサンプル識別子又はインデックスの生成とは異なる。図5及び図6の実装形態は、「リード1」及び「リード2」に対する生成された別個のサンプル識別子又はインデックスとして説明されているが、本開示はそのように限定されない。代わりに、本開示の実装形態は、特定の断片の「リード1」及び「リード2」の両方を指す単一のサンプル識別子又はインデックス識別子のみを生成し得る。
第1のリード間隔の前にサンプル識別子を生成する利点は、リードが生成される際に、同じサンプル識別子を有するデマルチプレックスされた群にリードを組織化することが実行時に実行され得ることである。すべてのサンプル識別子の生成、及び実行時でのサンプル識別子に基づくリードを組織化する能力を考慮すると、システム500は、第1のリード間隔中に第1のリードの組織化された群の二次解析を開始することができる。そのようなシナリオでは、各第1のリードの組織化された群について、デマルチプレックス統計、マッピング及びアラインメント統計、又はその両方を含む二次解析結果データは、第1のリード間隔中に取得及び評価することができ、そのため、結果データが満足のいく結果を示していない場合、第1のリード間隔を終了するオプションを可能にし、それによって試薬を節約する。
更に、第1のリード間隔中に第1のリードの組織化された群の二次解析の実行を開始する能力は、図1B及び図3を参照して説明したシステムの例よりも、三次解析動作への更に速い移行を可能にする。図5のシステムは、マッピング及びアラインメントされた第1のリードに基づき、かつ三次解析のための入力として使用されるバリアントの最初のセットが第1のリード間隔中に同定可能であることから、図1B及び図3のシステムよりも速く三次解析に移行することができる。これにより、第1のリード間隔の開始から約数時間以内に三次解析の開始が可能になる。これは、図1B及び図3の例とは対照的であり、これらはシーケンシングが完了する後まで、入力としてマッピング及びアラインメントされたリードの同定されたバリアントをそれぞれ使用する三次解析を開始しない可能性がある。
図5の例を参照すると、核酸シーケンサ510は、マッピング及びアラインメントユニット542aを含むように、二次解析ユニット540のプログラマブル回路542を構成することができる。核酸シーケンサ510は、複数のサンプル105、サンプル106、サンプル107を受け取ることができる。サンプル105、サンプル106、サンプル107は、例えば、異なる種からの核酸サンプルを含むことができる。異なる種は、異なるヒト、異なる動物、異なる植物などであり得る。核酸シーケンサ510は、サンプル105、サンプル106、サンプル107を調製し、ワークフロー570の時間T1中にクラスタ生成を実行することができる。
クラスタ段階の終わりに、核酸シーケンサ510は、時間T2A中に核酸シーケンサ510によって生成される各第1のリードについて、インデックス、又はサンプル識別子を生成することを開始する。時間T2Aの終了時に、核酸シーケンサ510は、時間T2B中に核酸シーケンサ510によって生成される各第2のリードの生成インデックス又はサンプル識別子を開始する。各リードのインデックス又はサンプル識別子は、リードとサンプルとの間の論理的関係を作成するために使用され得る任意のデータを含むことができる。したがって、図5の例における時間T1+T2A+T2Bの終了時に、インデックス又はサンプル識別子、インデックスは、第1のリード間隔中に核酸シーケンサ510によって生成される各第1のリードに対して作成されているか、又はインデックス又はサンプル識別子はまた、第2のリード間隔中に核酸シーケンサ510によって生成される各第2のリードに対して作成されている。
核酸シーケンサ510は、第1のリード530-1、530-3、532-1、532-3、534-1、534-3の少なくとも一部のマッピング及びアラインメントなどの二次解析動作を並列化するように構成されており、一方、核酸シーケンサ510は、時間T3中の第1のリード間隔の合成によるシーケンシングなどのシーケンシング動作を実行することを継続する。第1のリード間隔中の第1のリードの少なくとも一部分の二次解析を開始することは、各リードのインデックス又はサンプル識別子が、第1のリード間隔が完了した後まで生成されなかったため、図3の例では達成され得ない。対照的に、図5の例では、核酸シーケンサ510によって生成されるべき各リードのインデックス又はサンプル識別子インデックスは、事前に作成される。
図5の例では、第1のリード間隔は、ワークフロー570の時間T1+T2A+T2Bの完了の後まで開始しない。T1+T2A+T2Bの終了後、核酸シーケンサ570は、第1のリード間隔を開始することができる。第1のリード間隔を開始することは、1つ以上の第1のリード530-1、530-3、532-1、532-3、534-1、534-3を生成するための合成によるシーケンシングなどの一次解析シーケンシング動作を開始することを含み得る。第1のリード間隔「リード1」の開始から時間TXの後、時間TX中に生成された1つ以上の第1のリード530-1、530-3、532-1は、次いで二次解析ユニット540のメモリ544、又は二次解析ユニット540、処理ユニット150、又はその両方によってアクセス可能な他のメモリに格納することができる。
核酸シーケンサ510は複数のサンプルをシーケンシングしているため、核酸シーケンサ510は、1つ以上の第1のリード530-1、530-3、532-1を第1のリードの1つ以上の組織化された群に組織化するために組織化動作を実行する必要がある。第1のリードを組織化することは、デマルチプレックスユニット562を使用して達成することができる。例えば、処理ユニット550は、メモリ544、メモリ560、又は他のメモリに格納された1つ以上のリードにアクセスし、デマルチプレックスユニット562のプログラムされた機能を実行して、1つ以上の第1のリード530-1、530-3、532-1を第1のリードの1つ以上の組織化された群にデマルチプレックスすることができる。デマルチプレックスすることは、それぞれの第1のリードについて、インデックス又はサンプル識別子に基づいて1つ以上の第1のリード530-1、530-3、532-1を組織化するために1つ以上のデマルチプレックス動作を使用して、達成することができる。デマルチプレックスされた第1のリードは、メモリ544、又はマッピング及びアラインメントユニット542aにアクセス可能な他のメモリに格納することができる。
マッピング及びアラインメントユニット542aは、メモリ544に格納した組織化された第1のリードにアクセスし、第1のリード間隔中に、デマルチプレックスされた第1のリードに対するリアルタイムマッピング及びアラインメント動作を実行することができる。二次解析ユニット540は、メモリ544に格納した第1のリードの各群について結果549を生成することができる。結果549は、デマルチプレックス統計、マッピング及びアラインメント統計、マッピング及びアラインメント結果、又はこれらの組み合わせを含むことができる。二次解析ユニット540は、受け取った結果をメモリ560に格納することができる。デマルチプレックス統計は、各サンプル識別子に対応するレコードの数などのデマルチプレックス品質を記述するデータを含むことができる。例えば、第1のリードの各グループのマッピング品質の指標を提供するMAPQスコア、各第1のリードの群のアラインメント品質の指標を提供するアラインメントスコアなどのマッピング及びアラインメント統計である。マッピング及びアラインメント結果549は、マッピング及びアラインメントされたリードを記述するデータを含むことができる。いくつかの実装形態では、これらのマッピング及びアラインメント結果は、より多くの第1のリードが生成され、それぞれの参照シーケンスにマッピング及びアラインメントされると動的に更新され得る。
図5の例では、プログラマブル回路542のハードワイヤード論理を使用して実装されたマッピング及びアラインメントユニット542aの超高速実行時間は、マッピング及びアラインメントユニット542aが、第1のリード間隔を実行するために核酸シーケンサ510によって必要とされる時間のほんの一部で第1のリード530-1、530-3、532-1、532-3、534-1、534-3のそれぞれのデマルチプレックスされた群のマッピング及びアラインメントを実行することを可能にする。例えば、いくつかの実装形態では、プログラマブル回路542aは、第1のリード間隔「リード1」中に、ハードワイヤード論理における時間TXの間に生成された第1のリードのデマルチプレックスした群のマッピング及びアラインメントを数分で又はそれ未満の時間で実行することができ、一方で、処理ユニット150によって実行されるソフトウェアを用いた第1のリード間隔全体の実行は、12時間~24時間かかり得る。したがって、核酸シーケンサ510又は1人以上のヒトユーザは、時間TX中に生成された第1のリードなどの第1のリードの二次解析の結果549を評価することができ、一方で、第1のリードの残りは、時間T3中に核酸シーケンサ510によって生成される。それから核酸シーケンサ510、核酸シーケンサ510のユーザ、人工知能エージェント若しくはモデル、又はこれらの組み合わせは、デマルチプレックス動作の品質、マッピング及びアラインメント動作の品質、又はこれらの両方に基づいて、結果549により、核酸シーケンサ510が第1のリード間隔中にシーケンシング動作の実行を継続するべきかどうか判定を行うことができる。第1のリード間隔中のシーケンシング動作を継続すべきかどうかに関するこの判定は、核酸シーケンサ510によって自動的に、人工知能エージェント又はモデルによって自動的に、核酸シーケンサのユーザ、又は図1Bの例を参照して説明したようにこれらの実体のそれぞれからの判定を記述するデータに基づいて行うことができる。
これらの技術を使用して、図5のシステム500は、図1Bを参照して説明したより良好な技術的利点を提供する。すなわち、結果549が、第1のリード間隔中に既に生成された第1のリードの少なくとも一部のデマルチプレックス、第1のリード間隔中に既に生成された第1のリードの一部のアラインメント、又はその両方が、低品質であることを示す場合、システム500は、第1のリード間隔中に追加のリードの生成を継続するために使用される試薬を節約することができる。既に生成された第1のリードのデマルチプレックス品質、既に生成された第1のリードのマッピング及びアラインメント品質、又はその両方が満足のいくものであるという判定がなされると、核酸シーケンサ510は、マッピング及びアラインメント結果549を廃棄することができる。他の実装形態では、第1のリード間隔と並行して実行される既に生成された第1のリードのマッピング及びアラインメントは、第1のリードの最終データランのマッピング及びアラインメントとして使用され得る。
デマルチプレックス並びにマッピング及びアラインメントに加えて、二次解析ユニット540はまた、第1のリード間隔「リード1」中にマッピング及びアラインメントされた第1のリードのうちの1つ以上の群のバリアントコール動作を実行することができる。例として、処理ユニット550を使用して、マッピング及びアラインメントされたリードを解析して、一塩基多型(SNP)、挿入/欠失(インデル)、構造多型などの任意のバリアントの発生を同定することができるバリアントコールユニット564を実行することができる。いくつかの実装形態では、プログラマブル回路542は、例えば、核酸シーケンサ510によって、バリアントコール処理を補助するために動的に再構成することができる。例えば、プログラマブル回路542は、マッピング及びアラインメントされたリードの1つ以上の参照位置におけるバリアントが発生する可能性に対して確率計算を実行するために使用され得るHMMユニットを含むように動的に再構成することができる。続いて、核酸シーケンサ510、又は他のコンピュータデバイスは、任意の同定されたバリアントを使用して、第1のリード間隔「リード1」中に1つ以上の三次解析動作を実行することができる。これは、三次解析に基づいて、実体への治療を促進するのに役立ち得る。実体は、患者、ヒト、対象、植物、動物などを含むことができる。
システム500の例では、デマルチプレックス統計、マッピング及びアラインメント統計、又はその両方が低品質であるという判定に基づいて第1のリード間隔を終了する判定がなされる場合、システム500はまた、第2のリード間隔「リード2」を終了し得る。したがって、システム500は、低品質のデマルチプレックス結果、マッピング及びアラインメント結果、又はその両方が検出された場合に、更により多くの試薬を節約することができるという点で、図1B又は図3のシステムの例よりも優れた追加の利点を提供する。
しかしながら、システム500の例を参照すると、デマルチプレックス結果、マッピング及びアラインメント結果、又はその両方が品質の閾値レベルを満たすと判定された場合、システム500は、ワークフロー570で示すように、第2のリード間隔「リード2」の実行を開始することができる。いくつかの実装形態では、システム500は、第2のリードの二次解析を並列化することなく、第2のリード間隔「リード2」を生成することができる。例えば、システム500は、第1のリード間隔「リード1」中にシーケンシング品質を既に評価しているため、そのような実行が好ましい場合がある。しかしながら、他の実装形態では、システム500は、第1のリードの二次解析が第1のリード間隔と並列化されたのと同じ方法で、第2のリードの二次解析を並列化することができる。
図5の例は、8のヌクレオチド及び3のサンプルを有するリードを有する例を記載している。ただし、本開示は、そのように限定されない。代わりに、この簡単な例は、本開示の特徴を理解しやすい方法で説明するために提示されている。実際には、本開示のDNA断片は、いくつかの実装形態では、例えば、最大600のヌクレオチド、最大800のヌクレオチド、最大1,000のヌクレオチド、又はそれ以上を有し得、断片の各リードは、例えば、DNA断片の各末端から50のヌクレオチド、75のヌクレオチド、150のヌクレオチド、200のヌクレオチド、300のヌクレオチド、500のヌクレオチド、又はそれ以上を有し得る。同様に、図5又は他の任意の図も、断片のクラスタの数を限定するものとして解釈されるべきではない。例えば、核酸シーケンサ510は、複数の断片の数百万個のクラスタが同時にシーケンシングされる、大規模並列シーケンシングを実行することができる。
図5の例は、インデックス又はサンプル識別子を有するリードを生成するために使用される複数のサンプルに関するが、本開示はそのように限定されない。代わりに、システム500はまた、すべてのリードが同じサンプルに属するためにインデックス付けされないリードを生成する単一サンプルの処理を行うためにも使用され得る。そのような実装形態では、同じプロセスが実行され得、第1のリード間隔は、クラスタリング段階の直後に開始される。そうして第1のリードの一部が第1のリード間隔「リード1」の間に生成されると、システム500は、第1のリードの生成された部分をマッピング及びアラインメントユニット542aにマッピング及びアラインメントのために提供してもよく、一方で、第1のリードの残りの部分は、デマルチプレックス段階を実行する必要なく、第1のリード間隔中に生成される。この実装形態では、第1のリードは、同じサンプルにすべて関連付けられているため、デマルチプレックスされる必要はない。次に同様に、マッピング及びアラインメントされた第1のリードの一部は、上述のように、第1のリード間隔「リード1」を使用してバリアントについて解析され得る。同様の判定は、例示的な図5に関して説明したように、第1のリード間隔及び第2のリード間隔を継続するかどうかに関して行うことができる。要するに、図5のシステム500の単一のサンプル実装形態と図5の複数のサンプル実装形態との間の実質的な差は、単一のサンプル実装形態ではデマルチプレックス段階を実行する必要がないことである。
図6は、図5のワークフロー図に従って、インクリメンタル二次解析を実行するためのプロセス600の一例のフローチャートである。一般に、プロセス600は、複数の第1のサンプル識別子を生成することであって、各第1のサンプル識別子は、第1のリード間隔中に生成される特定のリードに対応する、ことと(610)、複数の第2サンプル識別子を生成することであって、各第2サンプルは、第2リード間隔中に生成される特定のリードに対応する、ことと(620)、第1のリード間隔中に複数の異なるサンプルから核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することであって、複数の第1のリードのそれぞれは、第1のサンプル識別子又は第2のサンプル識別子のうちの少なくとも1つに対応する、ことと(630)、段階630で第1のデータを取得している間に、(I)複数の第1のリードを、第1のリードのそれぞれに関連する少なくとも第1のサンプル識別子又は第2のサンプル識別子に基づいて組織化された群に組織化することと、(II)各第1のリードの組織化された群について、第1のリードの組織化された群に対して二次解析動作を実行することと、(III)各第1のリードの群の二次解析結果を格納することと(640)、第1のリード間隔の後に実行される第2のリード間隔中に複数の異なるサンプルから、核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することであって、複数の第2のリードのそれぞれは、第1のサンプル識別子又は第2のサンプル識別子のうちの少なくとも1つに対応する、ことと(650)、得られた第2のデータに対して二次解析を実行することと(660)、を含む。便宜上、限定されないが、これらの段階は、図5のシステム500などのシーケンシングシステムによって実行されるように、以下でより詳細に説明される。
シーケンシングシステムは、複数の第1のサンプル識別子を生成する610ことによってプロセス600の実行を開始することができ、各第1のサンプル識別子は、第1のリード間隔中に生成される特定のリードに対応する。いくつかの実装形態では、各第1のサンプル識別子は、インデックスタグシーケンスを含むことができる。インデックスタグシーケンスは、それぞれのサンプルがシーケンシングのために固定化される前に、各サンプルの標的ポリヌクレオチドに結合され得る。インデックスタグは、テンプレート調製工程の一部として標的に添加されるヌクレオチドの合成シーケンスであり得る。したがって、ライブラリ特異的インデックスタグは、サンプルの標的分子のそれぞれに結合した核酸シーケンスタグであり、その存在は、標的分子が単離された実体を示すか、又は同定するために使用される。いくつかの実装形態では、インデックスタグシーケンスは、合成シーケンスに埋め込まれたバーコードを含むことができる。
シーケンシングシステムは、段階620で、複数の第2のサンプル識別子を生成することによって、プロセス600の実行を継続することができ、各第2のサンプル識別子は、第1のリード間隔の後に生じる第2のリード間隔中に生成される特定のリードに対応する。いくつかの実装形態では、各第2のサンプル識別子は、インデックスタグシーケンスを含むことができる。インデックスタグシーケンスは、それぞれのサンプルがシーケンシングのために固定化される前に、各サンプルの標的ポリヌクレオチドに結合され得る。インデックスタグは、テンプレート調製工程の一部として標的に添加されるヌクレオチドの合成シーケンスであり得る。したがって、ライブラリ特異的インデックスタグは、サンプルの標的分子のそれぞれに結合した核酸シーケンスタグであり、その存在は、標的分子が単離された実体を示すか、又は同定するために使用される。いくつかの実装形態では、インデックスタグシーケンスは、合成シーケンスに埋め込まれたバーコードを含むことができる。
シーケンシングシステムは、段階630で、核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを、第1のリード間隔中に、複数の異なるサンプルから取得することによって、プロセス600の実行を継続することができ、複数の第1のリードのそれぞれは、第1のサンプル識別子のうちの1つに対応する。第1のデータを取得することは、第1のデータがシーケンシングデバイスによって生成された後に、二次解析ユニットのメモリに1つ以上の第1のリードを表す第1のデータを格納することを含むことができる。二次解析ユニットのメモリデバイスは、二次解析動作を実行するように構成された二次解析ユニットの集積回路によってアクセス可能なメモリユニットであり得る。集積回路は、1つ以上のプログラマブル回路、1つ以上のASIC、又はこれらの組み合わせを含むことができる。いくつかの実装形態では、第1のデータの少なくとも一部は、第1のデータの別の部分が核酸シーケンシングデバイスによって生成されている間に、取得される。すなわち、1つ以上のリードの第1のセットを表すデータを取得し、二次解析ユニットのメモリに格納することができ、一方で、1つ以上の他の第1のリードは、第1のリード間隔中に核酸シーケンシングデバイスによって生成される。
複数の第1のリードの各リードは、ヌクレオチドの順序付けられたシーケンスからなり得る。いくつかの実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の第1の末端のヌクレオチドに対応し得る。核酸断片は、シーケンシングを促進するためにクローン的に増幅されていてもよく、そのような実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の複数のクローンを解析することによって決定され、リードのヌクレオチドを生成し得る。第1のリード間隔の前に生成された各第1のリードの各第1のサンプル識別子は、それぞれ、第1のリードが発生した特定のサンプルに対応する。第1のサンプル識別子は、シーケンシングシステムによって使用され、任意の特定の第1のリードに関連するサンプルを決定することができる。いくつかの実装形態では、サンプルを同定するデータは、バーコードを含むことができる。
第1のリード間隔中に段階630で第1のデータを取得する間に、シーケンシングシステムは、二次解析ユニットを使用して、既に核酸シーケンサによって生成された第1のリードのうちの1つ以上の追加の処理をリアルタイムで並列化することができる。いくつかの実装形態では、追加の処理は、(I)複数の第1のリードを、第1のリードのそれぞれに関連する少なくとも第1のサンプル識別子又は第2のサンプル識別子に基づいて組織化された群に組織化することと、(II)各第1のリードの組織化された群について、第1のリードの組織化された群に対して二次解析動作を実行することと、(III)各第1のリードの群の二次解析結果を格納することと(段階640)、を含むことができる。
サンプル識別子に基づいて1つ以上の第1のリードを組織化された群に組織化することは、複数のサンプルがシーケンシングされたときに関連する二次解析処理を取得するために必要である。これは、1つ以上のデマルチプレックス動作を実行して、異なる第1のサンプル識別子を有する1つ以上の第1のリードをそれぞれの組織化された群にマッピングすることを含み得、各第1のリードの組織化された群は、同じサンプル識別子を有する。デマルチプレックス動作の品質を記述するデマルチプレックス統計を生成することができる。例えば、デマルチプレックス統計は、各サンプル識別子に対応する第1のリードの数を示すことができる。いくつかの実装形態では、二次解析ユニットは、結果データを核酸シーケンサに戻し、結果データを1つ以上の人工知能エージェント若しくはモデルに提供するか、又は結果データをデマルチプレックス統計を記述する1人以上のヒトユーザに出力することができる。そのような例では、シーケンシングシステムは、デマルチプレックス統計によって記述されるデマルチプレックス動作の質に基づいて、プロセス600を継続するか、又はこの時点でプロセス600を終了するかどうかを判定することができる。あるいは、以下に説明するように、マッピング及びアラインメント動作が実行された後、そのようなデマルチプレックス統計を結果データとして戻すことができる。
1つ以上の第1のリードが組織化されると、シーケンシングシステムは、各第1のリードの組織化された群について、第1のリードの組織化された群に対する1つ以上の二次解析動作を、二次解析ユニットを使用して第1のリード間隔の残りの部分と並行して実行することができる。第1のリードの組織化された群に対して二次解析動作を実行することは、各第1のリードの組織化された群について、(I)核酸シーケンシングデバイスによって、第1のリードの組織化された群をマッピング及びアラインメントユニットに提供し、第1のリードの組織化された群を参照シーケンスにアラインメントすることと、(II)マッピング及びアラインメントユニットを用いて、第1のリードの組織化された群を参照シーケンスにアラインメントすることと、(III)マッピング及びアラインメントユニットから結果データを受け取ることと、(IV)段階630で第1のデータの取得が完了する前に、受け取ったアラインメント結果データを格納することと、を含むことができる。
結果データは、デマルチプレックス統計、又はマッピング及びアラインメント統計を含むことができる。デマルチプレックス統計は、各サンプル識別子に対応する第1のリードの数などのデマルチプレックス動作の質を記述するデータを含むことができる。マッピング及びアラインメント統計は、各第1のリードの組織化された群のそれぞれの参照シーケンスへのアラインメントの質を記述するデータを含むことができる。マッピング及びアラインメント統計は、例えば、MAPQスコア、アラインメントスコアなどのうちの1つ以上を含むことができる。他の実装形態では、マッピング及びアラインメント結果は、各第1リードの組織化された群のマッピング及びアラインメントされたリードとそれぞれの参照シーケンス間の潜在的バリアントを決定するためのバリアントコーラーへの入力として提供され得る、各第1リードの組織化された群のマッピング及びアラインメントされたリードを含むことができる。
いくつかの実装形態では、各第1のリードの組織化された群についての結果データを記述する出力データは、1人以上のヒトユーザによるレビューのために提供され得る。例えば、各第1のリードの組織化された群についての結果データを記述する出力データは、例えば、核酸シーケンシングデバイスに結合された、又は別の部屋若しくは建物に提供されたディスプレイ上に出力され得る。あるいは、又は加えて、各第1のリードの組織化された群についてのアラインメント結果を記述する出力データは、例えば、核酸シーケンシングデバイスに直接的又は間接的に通信可能に接続されたプリンタを使用して出力され、各第1のリードの組織化された群についてのアラインメント結果を記述するレポートを印刷することができる。
いくつかの実装形態では、シーケンシングシステム、1人以上のヒトユーザ、1つ以上の人工知能エージェント又はモデル、又はこれらの組み合わせは、第1のデータが段階630で取得されている間に、アラインメント結果を評価することができる。例えば、結果データは、取得された第1のリードのデマルチプレックス、取得された第1のリードのマッピング及びアラインメント、又は両方の組み合わせが、段階630で第1のデータの取得を継続するのに十分な品質であるかどうかを判定するために評価され得る。いくつかの実装形態では、第1のリードの組織化された群の結果データが1つ以上の所定のルール又は閾値を満たさない場合、核酸シーケンサは、段階630で第1のリード間隔中に第1のデータを取得することを停止するように命令され得る。あるいは、第1のリードの組織化された群の結果データが1つ以上の所定のルール又は閾値を満たすと判定された場合、核酸シーケンサは、段階630で第1のリード間隔中に第1のデータの取得を継続することが許可され得る。
いくつかの実装形態では、マッピング及びアラインメントされた第1のリードの各組織化された群は、第1のデータが段階630で取得されている間に、潜在的なバリアントの検出について評価することができる。そのような実装形態は、各群について同定されたバリアントの三次解析を、段階630の第1のリード間隔及び段階650の第2のリード間隔の両方が完了する後まで三次解析の開始を禁止する従来の方法よりも、迅速に達成することを可能にする。したがって、初めの診断は、三次解析に進む前に、第1のリード間隔、第2のリード間隔、第1のリード及び第2のリードのマッピング並びにアラインメントの完了を待つ必要がないことで、図1Aに示される従来の方法より早く治療日を開始するために取得することができる。
段階630の終わりに、シーケンシングシステムは、第1のリード間隔の後に実行される第2のリード間隔中に、複数の異なるサンプルから、核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得すること650によって、プロセス600の実行を継続することができ、複数の第2のリードのそれぞれは、少なくとも第1のサンプル識別子又は第2のサンプル識別子のうちの1つに対応する。第2のデータを取得することは、第2のデータがシーケンシングデバイスによって生成された後に、第2のリード間隔中に生成された1つ以上の第2のリードを表す第2のデータを二次解析ユニットのデバイスのメモリに格納することを含むことができる。二次解析ユニットのメモリデバイスは、二次解析動作を実行するように構成された二次解析ユニットの集積回路によってアクセス可能なメモリユニットであり得る。集積回路は、1つ以上のプログラマブル回路、1つ以上のASIC、又はこれらの組み合わせを含むことができる。いくつかの実装形態では、第2のデータの少なくとも一部は、第2のデータの別の部分が核酸シーケンシングデバイスによって生成されている間に、取得される。すなわち、1つ以上のリードの第2のセットを表すデータを取得し、シーケンシングデバイスのメモリに格納することができ、一方で、1つ以上の他の第2のリードは、第2のリード間隔中に核酸シーケンシングデバイスによって生成される。
複数の第2のリードの各リードは、ヌクレオチドの順序付けられたシーケンスからなり得る。いくつかの実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の第1の末端の反対側の核酸断片の第2の末端のヌクレオチドに対応し得る。核酸断片は、シーケンシングを促進するためにクローン的に増幅されていてもよく、そのような実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の複数のクローンを解析することによって決定され、リードのヌクレオチドを生成し得る。第2のリード間隔の前に生成された各第2のリードの各第2のサンプル識別子は、それぞれ、第2のリードの特定の識別子に対応する。第2のサンプル識別子は、シーケンシングシステムによって使用され、任意の特定の第2のリードに関連するサンプルを決定することができる。いくつかの実装形態では、サンプルを同定するデータは、バーコードを含むことができる。
シーケンシングシステムは、得られた第2のデータの二次解析を実行すること660によって、プロセス600の実行を継続することができる。いくつかの実装形態では、シーケンシングシステムは、段階650の完了後に段階660に進むことができる。プロセス600の文脈において、これは、段階640の第1のリード間隔中にシーケンシング品質を評価することが可能であることによる迅速な三次解析及び核酸シーケンサのダウンタイムの低減などの本開示の利点の少なくともいくつかを達成したままで生じ得る。ただし、本開示は、そのように限定されない。代わりに、いくつかの実装形態では、シーケンシングシステムは、第1のリードの二次解析が第1のリード間隔と並列化されたのと同じ方法で、第2のリードの二次解析を並列化することができる。
いくつかの実装形態では、シーケンシングシステムは、第1のデータが第1のリード間隔中に取得されている間に、段階640で実行される第1のリードの組織化された群のマッピング及びアラインメント、バリアントコール、又はその両方の二次解析結果に依存し得る。他の実装形態では、段階640で実行される第1のリードの組織化された群に関連するこれらの初めの二次解析結果は、それらが評価されて第1のリード間隔の品質を決定した後に廃棄され得る。そのような例では、シーケンシングシステムは、段階660で第2のリードの組織化された群の二次解析が完了する前又は完了した後のいずれかで、第1のリードの組織化された群の二次解析の第2のイテレーションを開始することができる。
図7は、二次解析ユニットを使用してインクリメンタル二次解析を実行するためのプロセス中に実行される動作のワークフローを説明するワークフロー図770の一例である。ワークフロー図770は、図3に示すワークフロー図370と同じである。しかしながら、図7では、最終データラン中に実行される追加の動作のシーケンス710は、ワークフロー図770に重ねて示されている。
いくつかの実装形態では、最終データランは、二次解析、又は信頼性の閾値レベルを有する二次解析結果をもたらす他の追加の処理を含むことができる。従来のシーケンシングシステムでは、最終データランは、第1のリード間隔及び第2のリード間隔の両方が完了するまで、従来のシーケンシングシステムによって達成することができない。更に、そのような従来のシステムはまた、図1Aに示されるように、第1のシーケンシングランの終了と第2のシーケンシングランの開始との間のシーケンサダウンタイムを有する。信頼性の閾値レベルを使用する例示的な実装形態が記載されているが、そのような閾値を利用しない他の実装形態を用いることもできる。
図7の例では、図3又は図5のシーケンシングシステムなどのシーケンシングシステムは、第2のリード間隔の終了前に時間TYで最終データランを開始するように構成され得る。時間TYは、例えば、第2のリード間隔の終了からの所定の数の1つ以上のシーケンシングサイクルであり得、サイクルとは、リードから単一の核酸を生成するのに必要な時間を指す。いくつかの実装形態では、核酸シーケンサは、第2のリード間隔「リード2」の終了から所定の数のシーケンシングサイクルであるときを検出し、第1のリード間隔「リード1」中に生成された1つ以上の第1のリードに対する二次解析の実行を開始するように構成することができる。第1のリードは、図7のワークフローにおける時間T3Bの終わりに以前にデマルチプレックスされた1つ以上の組織化されたリードのセットを含むことができる。二次解析の実行の開始は、例えば、マッピング及びアラインメント、マッピング及びアラインメントしたリードのバリアントコール、又はその両方を実行するように二次解析ユニットに命令することを含み得る。
開始されると、二次解析ユニットは、トリガされた二次解析動作が完了するまで、第1のシーケンシングランの第1のリード間隔及び第2のリード間隔中に生成するリードの二次解析動作の実行を継続することができる。図7に示すように、二次解析ユニットを使用した二次解析動作の実行は、第1のシーケンシングラン中に開始し、第1のシーケンシングランの完了後に始まる第2のシーケンシングラン中に実行を継続することができる。第1のシーケンシングラン中に生成されたリードに対する二次解析動作は、第2のシーケンシングラン中に完了する。したがって、第1のシーケンシングランに対応する二次解析の第2のシーケンシングランの動作へのこの並列化により、核酸シーケンサがシーケンシングランを継続するのを可能にし、シーケンサのダウンタイムがほとんど又は全くないため、試薬消費及びそれから生じる収益が増加する。第1のシーケンシングランの二次解析とオーバーラップする第2のシーケンシングランの動作としては、第2のシーケンシングランのセットアップ、クラスタリング、又は一次解析が挙げられ得るが、これらに限定されない。
図7の例では、第1のシーケンシングランの二次解析と第2のシーケンシングランの動作の並列化は、核酸シーケンサによって生成されたリードの品質を評価し、第2のリード間隔を継続すべきかどうかを判断するために実行されているのではない。代わりに、二次解析と第2のシーケンシングランの動作の並列化は、最終的なデータランの一部として実行され、三次解析中などの後続の動作での使用に適した最終結果データを作成する。
図8は、図7のワークフロー図に従って、インクリメンタル二次解析を実行するためのプロセス800の一例のフローチャートである。一般に、第1のシーケンシングランの第1のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することと(810)、第1のリード間隔の後に実行される第1のシーケンシングランの第2のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することと(820)、段階820で第2のデータの少なくとも一部を取得する間に、少なくとも第1のデータ又は第2のデータに対して1つ以上の二次解析動作の実行を開始することと(830)、核酸シーケンシングデバイスを用いて、第2のシーケンシングランを実行することと(840)、段階840で核酸シーケンシングデバイスを使用して第2のシーケンシングランを実行する間に、(I)第1のデータ又は第2のデータに対して1つ以上の二次解析動作の実行を継続することと、(II)二次解析動作の結果を表す結果データを格納すること(850)。便宜上、限定されないが、これらの段階は、それぞれ図1Aのシステム100、図3のシステム300、又は図5のシステム500などのシーケンシングシステムによって実行されるように、以下でより詳細に説明される。
シーケンシングシステムは、第1のシーケンシングランの第1のリード間隔中に、核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することによって、段階810でプロセス800の実行を開始することができる。第1のデータを取得することは、第1のデータが核酸シーケンシングデバイスによって生成された後に、二次解析ユニットのメモリデバイスなどのメモリデバイス内に複数の第1のリードを記述する第1のデータを格納することを含むことができる。二次解析ユニットのメモリデバイスは、二次解析動作を実行するように構成された二次解析ユニットの集積回路によってアクセス可能なメモリユニットであり得る。集積回路は、1つ以上のプログラマブル回路、1つ以上のASIC、又はこれらの組み合わせを含むことができる。
複数の第1のリードの各リードは、ヌクレオチドの順序付けられたシーケンスからなり得る。いくつかの実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の第1の末端のヌクレオチドに対応し得る。核酸断片は、シーケンシングを促進するためにクローン的に増幅されていてもよく、そのような実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の複数のクローンを解析することによって決定され、リードのヌクレオチドを生成し得る。核酸シーケンシングデバイスは、DNAシーケンサ又はRNAシーケンサを含む任意の核酸シーケンシングデバイスを含み得る。第1のシーケンシングランは、核酸シーケンシングデバイスによる1つ以上の生物学的サンプルの一次解析の完全な実行を含み得る。完全な第1のシーケンシングランの段階の例を図7に示し、それは、クラスタリング段階、第1のリード間隔、及び第2のリード間隔を含む。図7に示されるものなどのいくつかの実装形態では、一次解析はまた、1つ以上のインデックス化段階を含むことができる。
シーケンシングシステムは、段階820で、第1のリード間隔の後に実行される第1のシーケンシングランの第2のリード間隔中に、核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することによって、プロセス800の実行を継続することができる。第2のデータを取得することは、第2のデータがシーケンシングデバイスによって生成された後に、二次解析ユニットのメモリに複数の第2のリードを表す第2のデータを格納することを含むことができる。二次解析ユニットのメモリデバイスは、二次解析動作を実行するように構成された二次解析ユニットの集積回路によってアクセス可能なメモリユニットであり得る。集積回路は、1つ以上のプログラマブル回路、1つ以上のASIC、又はこれらの組み合わせを含むことができる。いくつかの実装形態では、第2のデータの少なくとも一部は、第2のデータの別の部分が核酸シーケンシングデバイスによって生成されている間に、取得される。複数の第2のリードの各リードは、ヌクレオチドの順序付けられたシーケンスからなり得る。いくつかの実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の第1の末端の反対側の核酸断片の第2の末端のヌクレオチドに対応し得る。核酸断片は、シーケンシングを促進するためにクローン的に増幅されていてもよく、そのような実装形態では、ヌクレオチドの順序付けられたシーケンスは、核酸断片の複数のクローンを解析することによって決定され、リードのヌクレオチドを生成し得る。
段階820で第2のデータの少なくとも一部を取得する間に、シーケンシングシステムは、段階830で、第1のデータ又は第2のデータに対する1つ以上の二次解析動作の実行を開始することによって、プロセス800の実行を継続することができる。1つ以上の二次解析動作の実行を開始することは、二次解析動作を実行するためのハードワイヤード論理を含むプログラマブル回路を動的に構成することと、その後第1のシーケンシングラン中に生成された1つ以上のリードについて少なくとも1つの二次解析動作を実行することと、を含むことができる。例えば、シーケンシングシステムは、プログラマブル回路をマッピング及びアラインメントユニットとして動的に構成し、次いでマッピング及びアラインメントユニットのハードワイヤード論理を使用して、第1のシーケンシングラン中に生成された少なくとも1つのリードのマッピング及びアラインメントを実行することができる。他の実装形態では、1つ以上の二次解析動作の実行を開始することは、ASICに、第1のシーケンシングラン中に生成された1つ以上のリードに対する二次解析動作を実行するためにハードワイヤードデジタル論理を実行するように命令することを含み得る。
第1のシーケンシングラン中に複数のサンプルがシーケンシングされた場合などのいくつかの実装形態では、第1のリード又は第2のリードは、マッピング及びアラインメントの前に、デマルチプレックスされた群に組織化される必要があり得る。そのような実装形態では、第1のリード、第2のリード、又はその両方の組織化の少なくとも一部もまた、段階820中に実行され得る。
シーケンシングシステムは、第2のシーケンシングランを実行するために核酸シーケンシングデバイスを使用することによって、段階840で、プロセス800の実行を継続することができる。第2のシーケンシングランは、核酸シーケンシングデバイスによる1つ以上の生物学的サンプルの一次解析の完全な実行を含むことができる。いくつかの実装形態では、第2のシーケンシングランは、第1のシーケンシングラン中にシーケンシングされたこれらの生物学的サンプルとは異なる、1つ以上の生物学的サンプルをシーケンシングすることができる。第2のシーケンシングランは、クラスタリング段階、第1のリード間隔、及び第2のリード間隔を含むことができる。いくつかの実装形態では、一次解析はまた、1つ以上のインデックス化段階を含み得る。
核酸シーケンシングデバイスを使用して、段階840で第2のシーケンシングランを実行する間に、(I)第1のデータ又は第2のデータに対して、1つ以上の二次解析動作の実行を継続することと850、(II)二次解析動作の結果を表す結果データを格納することと、を含む。段階810又は段階820中に生成された第1のデータ又は第2のデータに対するそれぞれ1つ以上の二次解析動作の実行を継続することは、第1のデータ及び第2のデータに対する二次解析が完了するまで、第1のデータ及び第2のデータに対する二次解析の実行を継続することを含むことができる。例えば、第1のシーケンシングラン中に段階830で構成され得るハードワイヤードマッピング及びアラインメントユニットは、第1のリード、第2のリード、又はその両方のマッピング及びアラインメント動作が完了するまで、第2のシーケンシングラン中に、第1のリード、第2のリード、又はその両方のマッピング及びアラインメント動作を実行することを継続することができる。
図9は、動的プログラマブル回路コンテクストスイッチングを実行するためのプロセス900の一例のフローチャートである。一般に、プロセス900は、1つ以上のゲノムワークフロー属性を取得することと(910)、1つ以上のゲノムワークフロー属性に基づいて、プログラマブル回路のワークフローコンテクストスイッチングタイプを決定することであって、ワークフローコンテクストスイッチングタイプは、プログラマブル回路の再構成を定義する、ことと(920)、決定されたコンテクストスイッチングタイプを使用して、プログラマブル回路コントローラに二次解析を実行するように命令することと(930)、を含むことができる。便宜上、限定されないが、これらの段階は、それぞれ図1Aのシステム100、図3のシステム300、又は図5のシステム500などのシーケンシングシステムによって実行されるように、以下でより詳細に説明される。
シーケンシングシステムは、1つ以上のゲノムワークフロー属性を取得することによって、段階910で、プロセス900の実行を開始することができる。いくつかの実装形態では、1つ以上のワークフロー属性は、核酸シーケンサのユーザによって選択されたワークフローを同定するワークフロー識別子を含むことができる。ゲノムワークフローは、例えば、全ゲノムシーケンシングワークフロー、エンリッチメントワークフロー、RNAワークフロー、アンプリコンワークフロー、シングルセルRNAワークフローなどを含み得る。あるいは、又は加えて、1つ以上のワークフロー属性は、核酸シーケンサによってシーケンシングされるサンプルの数を記述するデータを含み得る。あるいは、又は加えて、1つ以上のワークフロー属性は、ワークフローの実行のための所定の時間閾値を含むことができる。あるいは、又は加えて、1つ以上のワークフロー属性は、核酸シーケンサに利用可能な利用可能計算リソースの量を含むことができる。
シーケンシングシステムは、段階920で、1つ以上のゲノムワークフロー属性に基づいて、プログラマブル回路のワークフローコンテクストスイッチングタイプを決定することによって、プロセス900の実行を継続することができ、ワークフローコンテクストスイッチングタイプは、プログラマブル回路の再構成を定義する。ワークフローコンテクストスイッチングタイプを決定することは、1つ以上のワークフロー属性に基づいて、複数のコンテクストスイッチングタイプから特定のワークフローコンテクストスイッチングタイプを選択することを含み得る。
コンテクストスイッチングタイプは、プログラマブル回路が実行時に動的に再構成される方法を定義する。例として、第1のプログラマブル回路コンテクストは、プログラマブル回路インターレーシングアラインメント及びバリアントコール動作を含むことができる。そのような実装形態では、プログラマブル回路は、第1のサンプルに対応するリードを参照シーケンスにアラインメントするマッピング及びアラインメントとして構成されること、第1のアラインメントされたサンプルに対応するリードに対してバリアントコール動作を実行するバリアントコールユニットとして動的に再構成されること、第2サンプルに対応するリードを参照シーケンスにマッピング及びアラインメントするように動的に再構成されること、第2のアラインメントされたサンプルに対応するリードに対してバリアントコール動作を実行するバリアントコールユニットとして動的に再構成されること、などが可能である。この文脈において、プログラマブル回路は、マッピング及びアラインメントとバリアントコール動作との間で双方向に動的に切り替わることができる。この第1のプログラマブル回路コンテクストは、1つのみのサンプル、又は少数のサンプルが存在する場合に好ましい。
別の例として、第2のプログラマブル回路コンテクストは、すべての必要なアラインメントを実行し、次いで、アラインメントしたリードに対してすべての必要なバリアントコール動作を実行するプログラマブル回路を含むことができる。そのような実装形態では、プログラマブル回路は、すべてのサンプルがアラインメントされるまで、マッピング及びアラインメントユニットとして構成され、第1のサンプルをアラインメントさせ、第2のサンプルをアラインメントさせ、第3のものをアラインメントさせるなどすることができ、その後、アラインメントされた第1のサンプルに対してバリアントコール動作を実行するバリアントコールユニットとして動的に再構成され、第2のアラインメントされたサンプルにバリアントコール動作を実行し、第3のアラインメントされたサンプルにバリアントコール動作を実行するなどすることができる。コンテクストスイッチングは計算負荷が高いため、ワークフローのサンプル数が多い場合は、この第2のプログラマブル回路のコンテクストを選択することができる。
いくつかの実装形態では、シーケンシングシステムは、いくつかの方法で前述のコンテクストスイッチングタイプ間で決定することができる。例えば、いくつかの実装形態では、シーケンシングシステムは、核酸シーケンサのユーザによるワークフロー選択を示すワークフロー識別子などのデータを取得することができる。いくつかの実装形態では、シーケンシングシステムは、取得されたワークフロー識別子に論理的に関連する特定のコンテクストスイッチングタイプを自動的に選択するようにプログラムされ得る。論理関係は、例えば、ワークフロー識別子とコンテクストスイッチングタイプとの間の1対1のマッピングを含むことができる。
あるいは、又は加えて、シーケンシングシステムは、サンプルの数に基づいて前述のコンテクストスイッチングタイプ間で決定することができる。例えば、サンプルの所定の閾値数を設定することができる。そうして、核酸シーケンサが、特定のワークフローがサンプルの閾値数を超えると判定した場合、核酸シーケンサは、第2のプログラマブルコンテクストを選択することができる。あるいは、核酸シーケンスがサンプルの数がサンプルの閾値数を超えないと判定した場合、核酸シーケンサは、第1のプログラマブルコンテクストを選択することができる。
あるいは、又は加えて、シーケンシングシステムは、推定される二次解析実行時間に基づいて、前述のコンテクストスイッチングタイプ間で決定することができる。例えば、核酸シーケンサは、受け取ったワークフローを記述するデータを解析し、デフォルトのプログラマブル回路コンテクストを使用して推定される二次解析実行時間を推定するようにプログラムされ得、デフォルトのプログラマブル回路コンテクストは、第1のプログラマブル回路コンテクストである。そのような実装形態では、推定される二次解析実行時間が所定の閾値時間未満である場合、核酸シーケンサは、第1のプログラマブル回路コンテクストを選択することができる。あるいは、推定される二次解析実行時間が所定の閾値時間よりも多い場合、核酸シーケンサは、第2のプログラマブル回路コンテクストを選択することができる。
これらの前述の実装形態は、本開示によって使用され得るプログラマブル回路コンテクストタイプ及びコンテクストスイッチングの単なる例である。これらの例のいずれも、本開示の範囲を限定するものとして見なされるべきではない。代わりに、他のプログラマブル回路コンテクストタイプ及びコンテクストスイッチングタイプは、本開示の範囲内にある。
シーケンシングシステムは、プログラマブル回路コントローラに、決定されたコンテクストスイッチングタイプを使用して二次解析を実行するように命令することによって、段階930でプロセス900の実行を継続することができる。プログラマブル回路コントローラは、プログラマブル回路のプログラマブル論理を構成するソフトウェア、ハードウェア、又は両方の組み合わせを含むことができる。受け取られた命令に基づいて、プログラマブル回路コントローラは、命令によって同定されたコンテクストスイッチングタイプを実行するように構成されたハードワイヤードデジタル論理を含むように、プログラマブル回路を動的に構成することができる。
図10は、インクリメンタル二次解析を実行するためのシステムを実装するために使用することができるシステム構成要素の一例のブロック図である。
計算デバイス1000は、デジタルコンピュータ(例えば、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム及び他の適切なコンピュータ)の種々の形を表すことを意図する。いくつかの実装形態では、計算デバイス1000は、図1、図3、又は図5の核酸シーケンサなどの核酸シーケンサであり得る。モバイル計算デバイス1050は、モバイル機器(例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、移動内蔵型無線システム、無線診断計算デバイス、及び他の類似の計算デバイス)の種々の形を表すことを意図とする。本明細書で示す構成要素、その接続及び関係、並びにその機能は、単なる例を意図しており、制限することを意図したものではない。
計算デバイス1000は、プロセッサ1002、メモリ1004、格納デバイス1006、メモリ1004及び複数の高速拡張ポート1010に接続する高速インタフェース1008、並びに低速拡張ポート1014及び格納デバイス1006に接続する低速インタフェース1012を含む。プロセッサ1002、メモリ1004、格納デバイス1006、高速インタフェース1008、高速拡張ポート1010及び低速インタフェース1012のそれぞれは、種々のバスを使用して相互に接続され、一般のマザーボード上に又は必要に応じて他の方法で載置されてよい。プロセッサ1002は、メモリ1004内に又は格納デバイス1006上に記憶した命令を含む、計算デバイス1000内での実行のための命令を処理して、高速インタフェース1008に連結されたディスプレイ1016などの外部入力/出力デバイス上でGUI用のグラフィカル情報を表示することができる。他の実装形態では、複数のプロセッサ及び/又は複数のバスを、適宜、複数のメモリ及び複数種類のメモリと共に使用できる。更に複数の計算デバイスを接続することができ、各デバイスは動作の一部(例えば、サーババンク、一群のブレードサーバ又はマルチプロセッサシステムとして)を提供する。いくつかの実装形態では、プロセッサ1002は、シングルスレッドプロセッサである。いくつかの実装形態では、プロセッサ1002は、マルチスレッドプロセッサである。いくつかの実装形態では、プロセッサ1002は、量子コンピュータである。
メモリ1004は、計算デバイス1000内に情報を格納する。いくつかの実装形態で、メモリ1004は、揮発性メモリユニット(複数可)である。別の実装形態では、メモリ1004は、不揮発性メモリユニット(複数可)である。メモリ1004はまた、磁気ディスク又は光ディスクなどの別の形態のコンピュータ可読媒体であり得る。
格納デバイス1006は、計算デバイス1000のための大容量ストレージを提供することができる。一実装形態では、格納デバイス1006は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、若しくはテープデバイス、フラッシュメモリ若しくは他の類似のソリッドステートメモリデバイス、又はストレージエリアネットワーク若しくは他の構成内のデバイスを含むデバイスのアレイなど、コンピュータ可読媒体とすることができるか、又はそれを内包することができる。命令は、情報媒体に格納することができる。命令は、1つ以上の処理デバイス(例えば、プロセッサ1002)により実行されるとき、上述のような1つ以上の方法を実行する。命令はまた、コンピュータ又は機械可読媒体(例えば、メモリ1004、格納デバイス1006、又はプロセッサ1002上のメモリ)などの1つ以上の格納デバイスによって格納することができる。高速インタフェース1008は、計算デバイス1000の帯域幅集約動作を管理するが、低速インタフェース1012は、より低い帯域幅集約動作を管理する。このような機能の割り当ては、一例にすぎない。いくつかの実装形態にて、高速インタフェース1008は、メモリ1004、ディスプレイ1016(例えば、グラフィックプロセッサ又はアクセラレータによって)に連結し、及び種々の拡張カード(図示せず)を利用できる高速拡張ポート1010に連結する。この実装形態では、低速コントローラ1012は、格納デバイス1006及び低速拡張ポート1014に連結されている。低速拡張ポート1014(それは、種々通信ポート(例えば、USB、Bluetooth、イーサネット、無線イーサネット)を含むことができる)は、1つ以上の入力/出力デバイス(例えば、キーボード、ポインティングデバイス、スキャナ、又はネットワークデバイス(例えば、スイッチ、又はルータ))に連結できる(例えばネットワークアダプタによって)。
計算デバイス1000は、図に示すように多くの異なる形態で実装することができる。例えば、計算デバイスは、標準サーバ1020として実装され得る、又はこのようなサーバの群にて複数回実装され得る。加えて、計算デバイスは、ラップトップコンピュータ1022などのパーソナルコンピュータに実装できる。計算デバイスはまた、ラックサーバシステム1024の一部として実装できる。あるいは、計算デバイス1000の構成要素は、モバイルデバイス(例えば、モバイル計算デバイス1050)の他の構成要素と組み合わせることができる。このようなデバイスのそれぞれは、計算デバイス1000及びモバイル計算デバイス1050のうちの1つ以上を含むことができ、全システムは、互いに通信する複数の計算デバイスから構成され得る。
モバイル計算デバイス1050は、他の構成要素の中でも、プロセッサ1052、メモリ1064、入力/出力デバイス(例えば、ディスプレイ1054)、通信インタフェース1066、及びトランシーバ1068を含む。モバイル計算デバイス1050は、格納デバイス(例えば、マイクロドライブ又は他のデバイス)を備えて、追加の格納デバイスを提供することができる。プロセッサ1052、メモリ1064、ディスプレイ1054、通信インタフェース1066及びトランシーバ1068のそれぞれは、種々のバスを用いて相互に接続することができ、構成要素のいくつかは、一般のマザーボード上に又は必要に応じて他の方法で載置される。
プロセッサ1052は、メモリ1064に格納される命令を含む、モバイル計算デバイス1050内の命令を実行できる。プロセッサ1052は、別個の及び複数のアナログ並びにデジタルプロセッサを含む、チップのチップセットとして実装され得る。プロセッサ1052は、例えば、モバイル計算デバイス1050の他の構成要素の調整(例えば、ユーザインタフェースの制御、モバイル計算デバイス1050によるアプリケーションの実行、及びモバイル計算デバイス1050による無線通信)を提供できる。
プロセッサ1052は、ディスプレイ1054と連結した制御インタフェース1058及び表示インタフェース1056を通してユーザと通信できる。ディスプレイ1054は、例えば、TFT(薄膜トランジスタ液晶)ディスプレイ、若しくはOLED(有機発光ダイオード)ディスプレイ、又は他の適切なディスプレイ技術でもよい。ディスプレイインタフェース1056は、ディスプレイ1054を駆動して、グラフィック及び他の情報をユーザに示す、適切な回路を含むことができる。制御インタフェース1058は、ユーザからコマンドを受け取り、それをプロセッサ1052への転送のために変換できる。そのうえ、外部インタフェース1062は、他のデバイスとモバイル計算デバイス1050との近距離領域の通信を可能にするように、プロセッサ1052との通信を提供できる。例えば、外部インタフェース1062は、いくつかの実装形態で有線通信を提供でき、又は他の実装形態で無線通信を提供でき、複数のインタフェースも使用できる。
メモリ1064は、モバイル計算デバイス1050内に情報を格納する。メモリ1064は、コンピュータ可読媒体(複数可)、揮発性メモリユニット(複数可)、又は不揮発性メモリユニット(複数可)のうちの1つ以上として実装され得る。また拡張メモリ1074も提供することができ、例えば、SIMM(Single In Line Memory Module、シングルインラインメモリモジュール)カードインタフェースを含むことができる、拡張インタフェース1072を介してモバイル計算デバイス1050に接続することができる。拡張メモリ1074は、増設格納空間をモバイル計算デバイス1050に提供できるか、又はモバイル計算デバイス1050のためのアプリケーション、若しくは他の情報を格納することもできる。具体的には、拡張メモリ1074は、上述のプロセスを実行する、又は補完する命令を含むことができ、セキュアな情報も含み得る。したがって、例えば、拡張メモリ1074は、モバイル計算デバイス1050のためのセキュリティモジュールとして提供されてもよく、モバイル計算デバイス1050のセキュアな使用を可能にする命令を用いてプログラムされてもよい。加えて、セキュアなアプリケーションは、SIMMカードを介して、ハッキング不能な手法でSIMMカード上に識別情報を配置するなど、追加情報と共に提供され得る。
メモリは、例えば、後述するように、フラッシュメモリ及び/又はNVRAMメモリ(不揮発性ランダムアクセスメモリ(nonvolatile randomaccess memory))を含むことができる。いくつかの実装形態では、命令は、1つ以上の処理デバイス(例えば、プロセッサ1052)によって実行されたときに、命令が上述のような1つ以上の方法を実行するように、情報キャリアに格納される。命令はまた、1つ以上のコンピュータ又は機械可読媒体などの1つ以上の格納デバイス(例えば、メモリ1064、拡張メモリ1074、又はプロセッサ1052上のメモリ)によって格納され得る。いくつかの実装形態では、命令は、例えば、トランシーバ1068、又は外部インタフェース1062の伝搬信号で受け取られ得る。
モバイル計算デバイス1050は、いくつかの場合、デジタル信号処理回路を含むことができる、通信インタフェース1066を介して無線で通信され得る。通信インタフェース1066は、とりわけ、GSM音声電話(グローバル・システム・フォー・モバイル・コミュニケーションズ)、SMS(Short Message Service、ショートメッセージサービス)、EMS(Enhanced Messaging Service、拡大メッセージングサービス)、若しくはMMSメッセージング(Multimedia Messaging Service、マルチメディアメッセージングサービス)、CDMA(code division multiple access、符号分割多元接続)、TDMA(time division multiple access、時分割多元接続)、PDC(Personal Digital Cellular、パーソナルデジタルセルラ)、WCDMA(登録商標)(Wideband Code Division Multiple Access、広帯域符号分割多重接続)、CDMA2000、若しくはGPRS(General Packet Radio Service、汎用パケット無線サービス)、LTE、5G/6Gセルラーなどの、様々なモード又はプロトコルの下での通信を提供することができる。そのような通信は、例えば、無線周波数を使用してトランシーバ1068を介して起こり得る。そのうえ、近距離通信は、Bluetooth、Wi-Fi、又は他のこのような送受信機(図示せず)を使用するなどして行われることが可能である。更に、GPS(Global Positioning System、全地球測位システム)受信器モジュール1070は、モバイル計算デバイス1050に対して追加のナビゲーション関連及び位置関連の無線データを提供することができ、モバイル計算デバイス1050上で作動するアプリケーションによって必要に応じて使用され得る。
モバイル計算デバイス1050はまた、ユーザから音声情報を受け取って、それを使用可能なデジタル情報に変換し得るオーディオコーデック1060を使用して、可聴的に通信できる。オーディオコーデック1060は同様に、例えば、モバイル計算デバイス1050のハンドセット内の、スピーカを介するなどして、ユーザのために可聴音を生成することができる。このような音は、音声電話通話からの音を含むことができ、録音された音(例えば、とりわけ、音声メッセージ、音楽ファイル)を含むことができ、また、モバイル計算デバイス1050上で作動するアプリケーションによって生成される音を含むこともできる。
モバイル計算デバイス1050は、図に示すようにいくつかの異なる形態で実装され得る。例えば、計算デバイスは、セルラー電話1080として実装され得る。また、計算デバイスを、スマートフォン1082、パーソナルデジタルアシスタント、又は他の同様のモバイルデバイスの一部として実装することもできる。
いくつかの実装形態を記載してきた。しかしながら、本開示の趣旨及び範囲を逸脱することなく、様々な変更を行い得ることが理解されるであろう。例えば、上述のフローの様々な形態を使用してもよく、工程を再順序付けし、追加し、又は除去してもよい。
本明細書に記載の本発明の実施形態、及び機能動作のすべては、本明細書に開示されている構造、及びこれらの構造的同等物を含む、デジタル電子回路、若しくはコンピュータソフトウェア、ファームウェア若しくはハードウェア、又はこれらのうちの1つ以上の組み合わせに実装することができる。本発明の実施形態は、1つ以上のコンピュータプログラム製品、例えば、データ処理装置による実行のために、又はデータ処理装置の動作を制御するためにコンピュータ可読媒体にコード化されるコンピュータプログラム命令のうちの1つ以上のモジュールとして実装することができる。コンピュータ可読媒体は、機械可読格納デバイス、機械可読格納基板、メモリデバイス、機械可読伝搬信号に影響を及ぼす組成物(composition of matter)、又はこれらのうちの1つ以上の組み合わせであり得る。「データ処理装置」という用語は、例としてプログラマブルプロセッサ、コンピュータ、又は複数のプロセッサ若しくはコンピュータを含む、データを処理するためのすべての装置、デバイス、及び機械を包含することができる。装置は、ハードウェアに加えて、問題のコンピュータプログラムのための実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はこれらのうちの1つ以上の組み合わせを構成するコードを含むことができる。伝播信号は、人工的に生成された信号、例えば、適切な受信装置への伝送のための情報をコード化するために生成される機械生成された電気、光学、又は電磁信号である。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、又はコードとしても知られる)は、コンパイル型言語又はインタープリタ型言語を含む任意の形式のプログラミング言語で記述することができ、スタンドアロンプログラムとして、又はモジュール、コンポーネント、サブルーチンとして、又は計算環境での使用に適した他のユニットとしてを含む任意の形態で展開することができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応しない。プログラムを、他のプログラム若しくはデータを保持するファイルの一部(例えば、マークアップ言語のドキュメントに格納される1つ以上のスクリプト)に、問題のプログラム専用の単一のファイルに、又は複数の連携ファイル(例えば、1つ以上のモジュール、サブプログラム又はコードの一部を保存するファイル)に格納できる。コンピュータプログラムを展開して、1つの場所にある、若しくは複数の場所に分散して、通信網によって相互接続される、1つのコンピュータ又は複数のコンピュータ上で実行することができる。
本明細書に記載のプロセス及び論理フローは、入力データを処理して出力を生成することによって機能を実行するために、1つ以上のコンピュータプログラムを実行する1つ以上のプログラマブルプロセッサによって実行され得る。プロセス及び論理フローはまた、特殊用途論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)、又はASIC(特定用途向け集積回路)によって実行され得、及び装置はまた、特殊用途論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)、又はASIC(特定用途向け集積回路)として実装され得る。
コンピュータプログラムの実行に適しているプロセッサは、例えば汎用及び特殊用途両方のマイクロプロセッサ、並びに任意の種類のデジタルコンピュータのうちの1つ以上の任意のプロセッサを含む。一般にプロセッサは、命令及びデータを、読み取り専用メモリ若しくはランダムアクセスメモリ、又は両方から受け取る。コンピュータの必須の要素は、命令を実行するためのプロセッサ、並びに命令及びデータを格納するための1つ以上のメモリデバイスである。一般に、コンピュータはまた、データを格納するための1つ以上の大容量記憶デバイス、例えば、磁気、光磁気ディスク若しくは光ディスクからデータを受け取る、大容量記憶デバイスへデータを送信する、若しくは両方のために、大容量記憶デバイスを含む、又は大容量記憶デバイスに動作可能に連結される。しかし、コンピュータはこのようなデバイスを備えている必要はない。更にコンピュータは、別のデバイス、例えば、いくつか例を挙げてみると、タブレットコンピュータ、携帯電話、パーソナルデジタルアシスタント(PDA)、携帯オーディオプレーヤ、全地球測位システム(GPS)受信器に組み込むことができる。コンピュータプログラム命令及びデータを格納するのに適したコンピュータ可読媒体には、不揮発性メモリ、媒体、及びメモリデバイスのすべての形態が含まれ、例えば、EPROM、EEPROM、及びフラッシュメモリデバイスなどの半導体メモリデバイス、例えば、内部ハードディスク又は取り外し可能なディスクなどの磁気ディスク、磁気光学ディスク、並びにCD ROM及びDVD-ROMディスクなどが含まれる。プロセッサ及びメモリは、特殊用途論理回路により補うことができる、又は特殊用途論理回路に組み込むことができる。
ユーザとのインタラクションを提供するために、本発明の実施形態は、ユーザに情報を表示するためのディスプレイデバイス、例えば、CRT(cathode ray tube、陰極線管)又はLCD(liquid crystal display、液晶ディスプレイ)モニタ、並びにユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス、例えばマウス又はトラックボールを有するコンピュータ上に実装することができる。他の種類のデバイスを使用して、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックとすることができ、ユーザからの入力は、音響入力、発話入力、又は触覚入力を含む任意の形態で受信することができる。
本発明の実施形態は、例えばデータサーバとしての、バックエンド構成要素を含む計算システムで、又はミドルウェア構成要素、例えば、アプリケーションサーバを含む計算システムで、又はフロントエンド構成要素、例えばユーザが本発明の実装形態とインタラクションできるグラフィカルユーザインタフェース若しくはウェブブラウザを有するクライアントコンピュータを含む計算システムで、又はこのようなバックエンド、ミドルウェア、若しくはフロントエンドの構成要素の任意の組み合わせで、実装できる。システムの構成要素は、デジタルデータ通信、例えば通信ネットワークの任意の形態又は媒体によって相互接続できる。通信ネットワークの例として、ローカルエリアネットワーク(local area network、「LAN」)、及び広域ネットワーク(wide area network、「WAN」)、例えば、インターネットが挙げられる。
計算システムは、クライアント及びサーバを含むことができる。クライアント及びサーバは一般に、互いにリモートであり、通常、通信ネットワークを介してインタラクトする。クライアントとサーバとの関係は、それぞれのコンピュータ上で作動し、かつ互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。
本明細書は多くの詳細を含むが、これらは、本発明の、又は特許請求され得るものの範囲を制限するとして解釈されてはならず、むしろ本発明の特定の実施形態に特有の特徴の説明として解釈されるべきである。別個の実施形態の文脈において本明細書に記載されている特定の特徴はまた、単一の実施形態において組み合わせて実装され得る。逆に、単一の実施形態の文脈で説明される様々な特徴はまた、複数の実施形態で別々に、又は任意の好適な部分組み合わせで実装され得る。更に、特徴が特定の組み合わせで機能するものと上述される場合があり、最初にそのように特許請求されていたとしても、特許請求された組み合わせからの1つ以上の特徴は、場合によっては組み合わせから削除することができ、特許請求された組み合わせは、部分的組み合わせ、又は部分的組み合わせの変形に関し得る。
同様に、動作は、特定の順序で図面に表されるが、このような動作が、所望の結果を得るために、示される特定の順序で若しくは順次実行される、又はすべての例示の動作が実行される必要があると理解されるべきではない。特定の状況では、マルチタスク及び並列処理が有利であり得る。更に、上述の実施形態の種々のシステム構成要素の分離は、すべての実施形態でこのような分離を必要とするとして理解されてはならず、記載したプログラムコンポーネント及びシステムは通常、単一のソフトウェア製品に一緒に統合することができる、又は複数のソフトウェア製品内にパッケージ化することができることを理解すべきである。
特定のファイル形式が言及されている各例では、他のファイルタイプ又はフォーマットで置換され得る。例えば、HTMLファイルは、XML、JSON、プレーンテキスト、又は他のタイプのファイルによって置き換えられ得る。更に、テーブル又はハッシュテーブルなどの特定のデータ構造が言及される場合、言及されたデータ構造の代わりに、他のデータ構造(スプレッドシート、リレーショナルデータベース、又は構造ファイルなど)を使用することができる。
他の実施形態
本発明をその詳細な説明と併せて記載してきたが、上述の説明は、添付の特許請求の範囲によって定義される本発明の範囲を例示し、限定しないように意図されていることが理解されるべきである。他の態様、利点、及び改変も、以下の特許請求の範囲の範囲内である。
本発明をその詳細な説明と併せて記載してきたが、上述の説明は、添付の特許請求の範囲によって定義される本発明の範囲を例示し、限定しないように意図されていることが理解されるべきである。他の態様、利点、及び改変も、以下の特許請求の範囲の範囲内である。
本発明の特定の実施形態を記載してきた。他の実施形態は、以下の特許請求の範囲内にある。例えば、特許請求の範囲に列挙される工程は、異なる順序で実行することができ、それでも望ましい結果を達成することができる。
いくつかの実施形態を記載してきた。しかしながら、本発明の趣旨及び範囲から逸脱することなく、様々な変更を行うことができることが理解されるであろう。加えて、図に描示される論理フローは、所望の結果を達成するために、示される特定の順序、又は連続的な順序を必要としない。加えて、他の工程を提供することができ、又は記載されたフローから工程を排除することができ、記載されたシステムに他の構成要素を追加するか、又は記載されたシステムから除去することができる。したがって、他の実施形態は、以下の特許請求の範囲内にある。
105 サンプル
106 サンプル
107 サンプル
110 核酸シーケンサ
112 ネットワーク
120 フローセル
140 二次解析ユニット
142 プログラマブル回路
144 メモリ
149 結果
150 処理ユニット
160 メモリ
162 デマルチプレックスユニット
164 バリアントコールユニット
170 ワークフロー
172 シーケンシングラン
310 核酸シーケンサ
320 リモートコンピュータ
340 二次解析ユニット
342 プログラマブル回路
344 メモリ
350 処理ユニット
359 結果
360 メモリ
362 デマルチプレックスユニット
364 バリアントコールユニット
510 核酸シーケンサ
540 二次解析ユニット
542 プログラマブル回路
544 メモリ
549 結果
550 処理ユニット
560 メモリ
562 デマルチプレックスユニット
564 バリアントコールユニット
1000 計算デバイス
1002 プロセッサ
1004 メモリ
1006 格納デバイス
1008 高速インタフェース
1010 高速拡張ポート
1012 低速インタフェース
1014 低速拡張ポート
1016 ディスプレイ
1020 標準サーバ
1022 ラップトップコンピュータ
1024 ラックサーバシステム
1050 モバイル計算デバイス
1052 プロセッサ
1054 ディスプレイ
1056 ディスプレイインタフェース
1058 制御インタフェース
1060 オーディオコーデック
1062 外部インタフェース
1064 メモリ
1066 通信インタフェース
1068 トランシーバ
1070 (Global Positioning System、全地球測位システム)受信器モジュール
1072 拡張インタフェース
1074 拡張メモリ
1080 セルラー電話
1082 スマートフォン
106 サンプル
107 サンプル
110 核酸シーケンサ
112 ネットワーク
120 フローセル
140 二次解析ユニット
142 プログラマブル回路
144 メモリ
149 結果
150 処理ユニット
160 メモリ
162 デマルチプレックスユニット
164 バリアントコールユニット
170 ワークフロー
172 シーケンシングラン
310 核酸シーケンサ
320 リモートコンピュータ
340 二次解析ユニット
342 プログラマブル回路
344 メモリ
350 処理ユニット
359 結果
360 メモリ
362 デマルチプレックスユニット
364 バリアントコールユニット
510 核酸シーケンサ
540 二次解析ユニット
542 プログラマブル回路
544 メモリ
549 結果
550 処理ユニット
560 メモリ
562 デマルチプレックスユニット
564 バリアントコールユニット
1000 計算デバイス
1002 プロセッサ
1004 メモリ
1006 格納デバイス
1008 高速インタフェース
1010 高速拡張ポート
1012 低速インタフェース
1014 低速拡張ポート
1016 ディスプレイ
1020 標準サーバ
1022 ラップトップコンピュータ
1024 ラックサーバシステム
1050 モバイル計算デバイス
1052 プロセッサ
1054 ディスプレイ
1056 ディスプレイインタフェース
1058 制御インタフェース
1060 オーディオコーデック
1062 外部インタフェース
1064 メモリ
1066 通信インタフェース
1068 トランシーバ
1070 (Global Positioning System、全地球測位システム)受信器モジュール
1072 拡張インタフェース
1074 拡張メモリ
1080 セルラー電話
1082 スマートフォン
Claims (59)
- 核酸シーケンスリードのインクリメンタル二次解析を実行するための方法であって、前記方法は、
(i)第1のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することであって、前記第1のリードのそれぞれは、ヌクレオチドの第1の順序付けられたシーケンスを表す、ことと、
(ii)前記第1のリード間隔の後に実行される第2のリード間隔中に前記核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することであって、前記第2のリードのそれぞれは、ヌクレオチドの第2の順序付けられたシーケンスを表す、ことと、前記第2のデータが取得されている間に、
(a)前記核酸シーケンシングデバイスによって、前記第1のデータをマッピング及びアラインメントユニットに入力として提供することと、
(b)前記マッピング及びアラインメントユニットからアラインメント結果を受け取ることと、
(c)前記受け取られたアラインメント結果を格納することと、
その後、
(iii)前記マッピング及びアラインメントユニットに、前記複数の第2のリードを表す前記第2のデータの参照シーケンスへのアラインメントを開始するように命令することと、
を含む、方法。 - 前記マッピング及びアラインメントユニットの少なくとも一部が、プログラマブル論理デバイスを使用して実装される、請求項1に記載の方法。
- 前記プログラマブル回路が、フィールドプログラマブルゲートアレイ(FPGA)である、請求項2に記載の方法。
- 前記マッピング及びアラインメントユニットの少なくとも一部が、特定用途向け集積回路(ASIC)を使用して実装される、請求項1に記載の方法。
- 前記マッピング及びアラインメントユニットが、前記核酸シーケンシングデバイス内に含まれる、請求項1に記載の方法。
- 前記第1のリードのうちの1つ以上が、第1のサンプル識別子を表すデータを含み、
前記第2のリードのうちの1つ以上が、第2のサンプル識別子を表すデータを含む、請求項1に記載の方法。 - 前記第2のデータが取得されている間に、
少なくとも第1のサンプル識別子又は第2のサンプル識別子に基づいて、前記1つ以上の第1のリードをそれぞれの群に組織化することと、
組織統計を生成することであって、前記組織統計は、各サンプル識別子に対応する第1のリードの数を示す、ことと、を更に含む、請求項6に記載の方法。 - リードのクラスタの第2の部分をアラインメントする前に、又は前記リードのクラスタの前記第2の部分をアラインメントする間に、前記複数の第1のリードに対応する前記格納されたアラインメント結果を表す出力データを提供すること、を更に含む、請求項1に記載の方法。
- 前記マッピング及びアラインメントモジュールに、前記複数の第1のリードを表す前記データの前記参照シーケンスへの後続のアラインメントを開始するように命令すること、を更に含む、請求項1に記載の方法。
- 前記第2のデータを取得している間に、前記参照シーケンスにアラインメントされた前記複数の第1のリードを表す前記第1のデータの可能性のあるバリアントのセットを決定すること、を更に含む、請求項1に記載の方法。
- 前記複数の第2のリードを表す前記第2のデータの少なくとも一部が、前記複数の第2のリードを表す第2のデータの少なくとも異なる部分を取得している間にアラインメントされる、請求項1に記載の方法。
- 前記マッピング及びアラインメントユニットが、前記第2のデータを完全に取得する前に、所定の数のシーケンシングサイクルで、前記複数の第2のリードを表す前記第2のデータのアラインメントを開始するように命令される、請求項1に記載の方法。
- 核酸シーケンスリードのインクリメンタル二次解析を実行するためのシステムであって、前記システムは、
核酸シーケンシングデバイスと、
前記核酸シーケンシングデバイスの1つ以上のプロセッサによって実行されると、前記核酸シーケンシングデバイスに動作を実行させる命令を格納する1つ以上のメモリデバイスと、を含み、前記動作は、
(i)第1のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することであって、前記第1のリードのそれぞれは、ヌクレオチドの第1の順序付けられたシーケンスを表す、ことと、
(ii)前記第1のリード間隔の後に実行される第2のリード間隔中に前記核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することであって、前記第2のリードのそれぞれは、ヌクレオチドの第2の順序付けられたシーケンスを表す、ことと、前記第2のデータが取得されている間に、
(a)前記核酸シーケンシングデバイスによって、前記第1のデータをマッピング及びアラインメントユニットに入力として提供することと、
(b)前記マッピング及びアラインメントユニットからアラインメント結果を受け取ることと、
(c)前記受け取られたアラインメント結果を格納することと、
その後、
(iii)前記マッピング及びアラインメントユニットに、前記複数の第2のリードを表す前記第2のデータの参照シーケンスへのアラインメントを開始するように命令することと、を含む、システム。 - 前記マッピング及びアラインメントユニットの少なくとも一部が、プログラマブル論理デバイスを使用して実装される、請求項13に記載のシステム。
- 前記プログラマブル回路が、フィールドプログラマブルゲートアレイ(FPGA)である、請求項14に記載のシステム。
- 前記マッピング及びアラインメントユニットの少なくとも一部が、特定用途向け集積回路(ASIC)を使用して実装される、請求項13に記載のシステム。
- 前記マッピング及びアラインメントユニットが、前記核酸シーケンシングデバイス内に含まれる、請求項13に記載のシステム。
- 前記第1のリードのうちの1つ以上が、第1のサンプル識別子を表すデータを含み、
前記第2のリードのうちの1つ以上が、第2のサンプル識別子を表すデータを含む、請求項13に記載のシステム。 - 前記動作が、
前記第2のデータが取得されている間に、
少なくとも第1のサンプル識別子又は第2のサンプル識別子に基づいて、前記1つ以上の第1のリードをそれぞれの群に組織化することと、
組織統計を生成することであって、前記組織統計は、各サンプル識別子に対応する第1のリードの数を示す、ことと、を更に含む、請求項18に記載のシステム。 - 前記動作が、
リードのクラスタの第2の部分をアラインメントする前に、又は前記リードのクラスタの前記第2の部分をアラインメントする間に、前記複数の第1のリードに対応する前記格納されたアラインメント結果を表す出力データを提供すること、を更に含む、請求項13に記載のシステム。 - 前記動作が、
前記マッピング及びアラインメントモジュールに、前記複数の第1のリードを表す前記データの前記参照シーケンスへの後続のアラインメントを開始するように命令すること、を更に含む、請求項13に記載のシステム。 - 前記動作が、
前記第2のデータを取得している間に、前記参照シーケンスにアラインメントされた前記複数の第1のリードを表す前記第1のデータの可能性のあるバリアントのセットを決定すること、を更に含む、請求項13に記載のシステム。 - 前記複数の第2のリードを表す前記第2のデータの少なくとも一部が、前記複数の第2のリードを表す第2のデータの少なくとも異なる部分を取得している間にアラインメントされる、請求項13に記載のシステム。
- 前記マッピング及びアラインメントユニットが、前記第2のデータを完全に取得する前に、所定の数のシーケンシングサイクルで、前記複数の第2のリードを表す前記第2のデータのアラインメントを開始するように命令される、請求項13に記載のシステム。
- 1つ以上のコンピュータによって実行されると、前記1つ以上のコンピュータに動作を実行させる命令を格納するコンピュータ可読記憶媒体であって、前記動作は、
(i)第1のリード間隔中に核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することであって、前記第1のリードのそれぞれは、ヌクレオチドの第1の順序付けられたシーケンスを表す、ことと、
(ii)前記第1のリード間隔の後に実行される第2のリード間隔中に前記核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することであって、前記第2のリードのそれぞれは、ヌクレオチドの第2の順序付けられたシーケンスを表す、ことと、前記第2のデータが取得されている間に、
(a)前記核酸シーケンシングデバイスによって、前記第1のデータをマッピング及びアラインメントユニットに入力として提供することと、
(b)前記マッピング及びアラインメントユニットからアラインメント結果を受け取ることと、
(c)前記受け取られたアラインメント結果を格納することと、
その後、
(iii)前記マッピング及びアラインメントユニットに、前記複数の第2のリードを表す前記第2のデータの参照シーケンスへのアラインメントを開始するように命令することと、を含む、コンピュータ可読記憶媒体。 - 前記第1のリードのうちの1つ以上が、第1のサンプル識別子を表すデータを含み、
前記第2のリードのうちの1つ以上が、第2のサンプル識別子を表すデータを含む、請求項25に記載のコンピュータ可読記憶媒体。 - 前記動作が、
前記第2のデータが取得されている間に、
少なくとも第1のサンプル識別子又は第2のサンプル識別子に基づいて、前記1つ以上の第1のリードをそれぞれの群に組織化することと、
組織統計を生成することであって、前記組織統計は、各サンプル識別子に対応する第1のリードの数を示す、ことと、を含む、請求項26に記載のコンピュータ可読記憶媒体。 - 前記動作が、
リードのクラスタの第2の部分をアラインメントする前に、又は前記リードのクラスタの前記第2の部分をアラインメントする間に、前記複数の第1のリードに対応する前記格納されたアラインメント結果を表す出力データを提供すること、を更に含む、請求項25に記載のコンピュータ可読記憶媒体。 - 前記動作が、
前記マッピング及びアラインメントモジュールに、前記複数の第1のリードを表す前記データの前記参照シーケンスへの後続のアラインメントを開始するように命令すること、を更に含む、請求項25に記載のコンピュータ可読記憶媒体。 - 前記動作が、
前記第2のデータを取得している間に、前記参照シーケンスにアラインメントされた前記複数の第1のリードを表す前記第1のデータの可能性のあるバリアントのセットを決定すること、を更に含む、請求項25に記載のコンピュータ可読記憶媒体。 - 前記複数の第2のリードを表す前記第2のデータの少なくとも一部が、前記複数の第2のリードを表す第2のデータの少なくとも異なる部分を取得している間にアラインメントされる、請求項25に記載のコンピュータ可読記憶媒体。
- 前記マッピング及びアラインメントユニットが、前記第2のデータを完全に取得する前に、所定の数のシーケンシングサイクルで、前記複数の第2のリードを表す前記第2のデータのアラインメントを開始するように命令される、請求項25に記載のコンピュータ可読記憶媒体。
- 核酸シーケンスリードのインクリメンタル二次解析を実行するための方法であって、前記方法は、
(i)複数の第1の実体識別子を生成することであって、各実体の第1の識別子は、第1のリード間隔中に生成される特定のリードに対応する、ことと、
(ii)複数の第2の実体識別子を生成することであって、各第2の実体識別子は、第2のリード間隔中に生成される特定のリードに対応する、ことと、
(iii)第1のリード間隔中に、複数の異なるサンプルに基づいて、核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することであって、前記複数の第1のリードのそれぞれは、少なくとも前記第1の実体識別子又は前記第2の実体識別子に対応し、前記第1のデータが取得されている間に、前記方法は、
前記複数の第1のリードを、前記第1のリードのそれぞれに関連する第1の実体識別子又は第2の実体識別子に基づいて、組織化された群に組織化することと、
前記核酸シーケンシングデバイスによって、前記組織化された複数のリードを、ベースコールを参照シーケンスにアラインメントさせるように構成されたマッピング及びアラインメントユニットに提供することと、
前記マッピング及びアラインメントユニットから、アラインメント結果を受け取ることと、
前記受け取られたアラインメント結果を格納することと、を更に含む、ことと、
(iv)前記第1のリード間隔の後に実行される前記第2のリード間隔中に、複数の異なるサンプルに基づいて、前記核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することであって、前記複数の第2のリードのそれぞれは、少なくとも前記第1の実体識別子又は前記第2の実体識別子に対応する、ことと、
(v)前記核酸シーケンシングデバイスによって、前記第2のデータを、前記第2のデータを参照シーケンスにアラインメントするように構成されたマッピング及びアラインメントユニットに提供することと、を含む、方法。 - 前記マッピング及びアラインメントユニットの少なくとも一部が、プログラマブル論理デバイスを使用して実装される、請求項33に記載の方法。
- 前記プログラマブル回路が、フィールドプログラマブルゲートアレイ(FPGA)である、請求項34に記載の方法。
- 前記マッピング及びアラインメントユニットの少なくとも一部が、特定用途向け集積回路(ASIC)を使用して実装される、請求項33に記載の方法。
- 前記マッピング及びアラインメントユニットが、前記核酸シーケンシングデバイス内に含まれる、請求項33に記載の方法。
- 前記複数の第1のリードを組織化することが、各実体識別子に対応するリード数を示すデータを生成することを含む、請求項33に記載の方法。
- 前記第2のデータを取得している間に、第1のリードの各組織化されたセットについて、前記参照シーケンスにアラインメントされた前記第1のリードの組織化されたセットの可能性のあるバリアントのセットを決定すること、を更に含む、請求項33に記載の方法。
- 核酸シーケンスリードのインクリメンタル二次解析を実行するためのシステムであって、前記システムは、
核酸シーケンシングデバイスと、
前記核酸シーケンシングデバイスの1つ以上のプロセッサによって実行されると、前記核酸シーケンシングデバイスに動作を実行させる命令を格納する1つ以上のメモリデバイスと、を含み、前記動作は、
(i)複数の第1の実体識別子を生成することであって、各実体の第1の識別子は、第1のリード間隔中に生成される特定のリードに対応する、ことと、
(ii)複数の第2の実体識別子を生成することであって、各第2の実体識別子は、第2のリード間隔中に生成される特定のリードに対応する、ことと、
(iii)第1のリード間隔中に、複数の異なるサンプルに基づいて、核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することであって、前記複数の第1のリードのそれぞれは、少なくとも前記第1の実体識別子又は前記第2の実体識別子に対応し、前記第1のデータが取得されている間に、前記方法は、
前記複数の第1のリードを、前記第1のリードのそれぞれに関連する第1の実体識別子又は第2の実体識別子に基づいて、組織化された群に組織化することと、
前記核酸シーケンシングデバイスによって、前記組織化された複数のリードを、ベースコールを参照シーケンスにアラインメントさせるように構成されたマッピング及びアラインメントユニットに提供することと、
前記マッピング及びアラインメントユニットから、アラインメント結果を受け取ることと、
前記受け取られたアラインメント結果を格納することと、を更に含む、ことと、
(iv)前記第1のリード間隔の後に実施される前記第2のリード間隔中に、複数の異なるサンプルに基づいて、前記核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することであって、前記複数の第2のリードのそれぞれは、少なくとも前記第1の実体識別子又は前記第2の実体識別子に対応する、ことと、
(v)前記核酸シーケンシングデバイスによって、前記第2のデータを、前記第2のデータを参照シーケンスにアラインメントするように構成されたマッピング及びアラインメントユニットに提供することと、を含む、システム。 - 前記マッピング及びアラインメントユニットの少なくとも一部が、プログラマブル論理デバイスを使用して実装される、請求項40に記載のシステム。
- 前記プログラマブル回路が、フィールドプログラマブルゲートアレイ(FPGA)である、請求項41に記載のシステム。
- 前記マッピング及びアラインメントユニットの少なくとも一部が、特定用途向け集積回路(ASIC)を使用して実装される、請求項40に記載のシステム。
- 前記マッピング及びアラインメントユニットが、前記核酸シーケンシングデバイス内に含まれる、請求項40に記載のシステム。
- 前記複数の第1のリードを組織化することが、各実体識別子に対応するリード数を示すデータを生成することを含む、請求項40に記載のシステム。
- 前記動作が、
前記第2のデータを取得している間に、第1のリードの各組織化されたセットについて、前記参照シーケンスにアラインメントされた前記第1のリードの組織化されたセットの可能性のあるバリアントのセットを決定すること、を更に含む、請求項40に記載のシステム。 - 1つ以上のコンピュータによって実行されると、前記1つ以上のコンピュータに動作を実行させる命令を格納するコンピュータ可読記憶媒体であって、前記動作は、
(i)複数の第1の実体識別子を生成することであって、各実体の第1の識別子は、第1のリード間隔中に生成される特定のリードに対応する、ことと、
(ii)複数の第2の実体識別子を生成することであって、各第2の実体識別子は、第2のリード間隔中に生成される特定のリードに対応する、ことと、
(iii)第1のリード間隔中に、複数の異なるサンプルに基づいて、核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することであって、前記複数の第1のリードのそれぞれは、少なくとも前記第1の実体識別子又は前記第2の実体識別子に対応し、前記第1のデータが取得されている間に、前記方法は、
前記複数の第1のリードを、前記第1のリードのそれぞれに関連する第1の実体識別子又は第2の実体識別子に基づいて、組織化された群に組織化することと、
前記核酸シーケンシングデバイスによって、前記組織化された複数のリードを、ベースコールを参照シーケンスにアラインメントさせるように構成されたマッピング及びアラインメントユニットに提供することと、
前記マッピング及びアラインメントユニットから、アラインメント結果を受け取ることと、
前記受け取られたアラインメント結果を格納することと、を更に含む、ことと、
(iv)前記第1のリード間隔の後に実行される前記第2のリード間隔中に、複数の異なるサンプルに基づいて、前記核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することであって、前記複数の第2のリードのそれぞれは、少なくとも前記第1の実体識別子又は前記第2の実体識別子に対応する、ことと、
(v)前記核酸シーケンシングデバイスによって、前記第2のデータを、前記第2のデータを参照シーケンスにアラインメントするように構成されたマッピング及びアラインメントユニットに提供することと、を含む、コンピュータ可読記憶媒体。 - 前記マッピング及びアラインメントユニットの少なくとも一部が、プログラマブル論理デバイスを使用して実装される、請求項47に記載のコンピュータ可読記憶媒体。
- 前記プログラマブル回路が、フィールドプログラマブルゲートアレイ(FPGA)である、請求項48に記載のコンピュータ可読記憶媒体。
- 前記マッピング及びアラインメントユニットの少なくとも一部が、特定用途向け集積回路(ASIC)を使用して実装される、請求項47に記載のコンピュータ可読記憶媒体。
- 前記マッピング及びアラインメントユニットが、前記核酸シーケンシングデバイス内に含まれる、請求項47に記載のコンピュータ可読記憶媒体。
- 前記複数の第1のリードを組織化することが、各実体識別子に対応するリード数を示すデータを生成することを含む、請求項47に記載のコンピュータ可読記憶媒体。
- 前記動作が、
前記第2のデータを取得している間に、第1のリードの各組織化されたセットについて、前記参照シーケンスにアラインメントされた前記第1のリードの組織化されたセットの可能性のあるバリアントのセットを決定すること、を更に含む、請求項47に記載のコンピュータ可読記憶媒体。 - 核酸シーケンスリードのインクリメンタル二次解析を実行するための方法であって、前記方法は、
第1のシーケンシングランの第1のリード間隔中に、核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することと、
前記第1のリード間隔の後に実行される第1のシーケンシングランの第2のリード間隔中に、前記核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することと、前記第2のデータの少なくとも一部を取得している間に、
前記第1のデータ又は前記第2のデータに対する1つ以上の二次解析動作の実行を開始することと、
前記核酸シーケンシングデバイスを使用して、第2のシーケンシングランを実行することと、前記核酸シーケンシングデバイスを使用して、前記第2のシーケンシングランを実行している間に、
少なくとも前記第1のデータ又は前記第2のデータに対する前記1つ以上の二次解析動作の実行を継続することと、
前記二次解析動作の結果を表す結果データを格納することと、を含む、方法。 - 核酸シーケンスリードのインクリメンタル二次解析を実行するためのシステムであって、前記システムは、
核酸シーケンシングデバイスと、
前記核酸シーケンシングデバイスの1つ以上のプロセッサによって実行されると、前記核酸シーケンシングデバイスに動作を実行させる命令を格納する1つ以上のメモリデバイスと、を含み、前記動作は、
第1のシーケンシングランの第1のリード間隔中に、核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することと、
前記第1のリード間隔の後に実行される第1のシーケンシングランの第2のリード間隔中に、前記核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することと、前記第2のデータの少なくとも一部を取得している間に、
前記第1のデータ又は前記第2のデータに対する1つ以上の二次解析動作の実行を開始することと、
前記核酸シーケンシングデバイスを使用して、第2のシーケンシングランを実行することと、前記核酸シーケンシングデバイスを使用して、前記第2のシーケンシングランを実行している間に、
少なくとも前記第1のデータ又は前記第2のデータに対する前記1つ以上の二次解析動作の実行を継続することと、
前記二次解析動作の結果を表す結果データを格納することと、を含む、システム。 - 1つ以上のコンピュータによって実行されると、前記1つ以上のコンピュータに動作を実行させる命令を格納するコンピュータ可読記憶媒体であって、前記動作は、
第1のシーケンシングランの第1のリード間隔中に、核酸シーケンシングデバイスによって生成された複数の第1のリードを記述する第1のデータを取得することと、
前記第1のリード間隔の後に実行される第1のシーケンシングランの第2のリード間隔中に、前記核酸シーケンシングデバイスによって生成された複数の第2のリードを記述する第2のデータを取得することと、前記第2のデータの少なくとも一部を取得している間に、
前記第1のデータ又は前記第2のデータに対する1つ以上の二次解析動作の実行を開始することと、
前記核酸シーケンシングデバイスを使用して、第2のシーケンシングランを実行することと、前記核酸シーケンシングデバイスを使用して、前記第2のシーケンシングランを実行している間に、
少なくとも前記第1のデータ又は前記第2のデータに対する前記1つ以上の二次解析動作の実行を継続することと、
前記二次解析動作の結果を表す結果データを格納することと、を含む、コンピュータ可読記憶媒体。 - 核酸シーケンスリードの二次解析を実行するための方法であって、前記方法は、
1つ以上のゲノムワークフロー属性を取得することと、
前記1つ以上のゲノムワークフロー属性に基づいて、プログラマブル回路のワークフローコンテクストスイッチングタイプを決定することであって、前記ワークフローコンテクストスイッチングタイプは、前記プログラマブル回路の再構成サイクルを定義する、ことと、
前記決定されたコンテクストスイッチングタイプを使用して、前記プログラマブル回路のコントローラに二次解析を実行するように命令することと、を含む、方法。 - 核酸シーケンスリードの二次解析を実行するためのシステムであって、前記システムは、
1つ以上のコンピュータと、
1つ以上のプロセッサによって実行されると、前記1つ以上のコンピュータに動作を実行させる命令を格納する1つ以上のメモリデバイスと、を含み、前記動作は、
1つ以上のゲノムワークフロー属性を取得することと、
前記1つ以上のゲノムワークフロー属性に基づいて、プログラマブル回路のワークフローコンテクストスイッチングタイプを決定することであって、前記ワークフローコンテクストスイッチングタイプは、前記プログラマブル回路の再構成サイクルを定義する、ことと、
前記決定されたコンテクストスイッチングタイプを使用して、前記プログラマブル回路のコントローラに二次解析を実行するように命令することと、を含む、システム。 - 1つ以上のコンピュータによって実行されると、前記1つ以上のコンピュータに動作を実行させる命令を格納するコンピュータ可読記憶媒体であって、前記動作は、
1つ以上のゲノムワークフロー属性を取得することと、
前記1つ以上のゲノムワークフロー属性に基づいて、プログラマブル回路のワークフローコンテクストスイッチングタイプを決定することであって、前記ワークフローコンテクストスイッチングタイプは、前記プログラマブル回路の再構成サイクルを定義する、ことと、
前記決定されたコンテクストスイッチングタイプを使用して、前記プログラマブル回路のコントローラに二次解析を実行するように命令することと、を含む、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062988374P | 2020-03-11 | 2020-03-11 | |
US62/988,374 | 2020-03-11 | ||
PCT/US2021/022012 WO2021183833A1 (en) | 2020-03-11 | 2021-03-11 | Incremental secondary analysis of nucleic acid sequences |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023519496A true JP2023519496A (ja) | 2023-05-11 |
JPWO2021183833A5 JPWO2021183833A5 (ja) | 2024-03-21 |
Family
ID=75340274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022550209A Pending JP2023519496A (ja) | 2020-03-11 | 2021-03-11 | 核酸シーケンスのインクリメンタル二次解析 |
Country Status (11)
Country | Link |
---|---|
US (1) | US20210285043A1 (ja) |
EP (1) | EP4118656A1 (ja) |
JP (1) | JP2023519496A (ja) |
KR (1) | KR20220153007A (ja) |
CN (1) | CN115210815A (ja) |
AU (1) | AU2021233015A1 (ja) |
BR (1) | BR112022015194A2 (ja) |
CA (1) | CA3167358A1 (ja) |
IL (1) | IL294741A (ja) |
MX (1) | MX2022010905A (ja) |
WO (1) | WO2021183833A1 (ja) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AR031640A1 (es) | 2000-12-08 | 2003-09-24 | Applied Research Systems | Amplificacion isotermica de acidos nucleicos en un soporte solido |
US9683230B2 (en) | 2013-01-09 | 2017-06-20 | Illumina Cambridge Limited | Sample preparation on a solid support |
US9679104B2 (en) | 2013-01-17 | 2017-06-13 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US10068054B2 (en) | 2013-01-17 | 2018-09-04 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US10691775B2 (en) | 2013-01-17 | 2020-06-23 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US10395758B2 (en) * | 2013-08-30 | 2019-08-27 | 10X Genomics, Inc. | Sequencing methods |
EP3292220B1 (en) * | 2015-05-07 | 2022-07-13 | Pacific Biosciences of California, Inc. | Multiprocessor pipeline architecture |
RU2741807C2 (ru) * | 2016-10-07 | 2021-01-28 | Иллюмина, Инк. | Система и способ вторичного анализа данных секвенирования нуклеотидов |
US20190172553A1 (en) * | 2017-11-08 | 2019-06-06 | Koninklijke Philips N.V. | Using k-mers for rapid quality control of sequencing data without alignment |
NZ759121A (en) | 2018-02-16 | 2024-08-30 | Illumina Inc | Systems and methods for correlated error event mitigation for variant calling |
JP2022533492A (ja) | 2019-05-24 | 2022-07-25 | イルミナ インコーポレイテッド | ハッシュテーブルゲノムマッピングのための柔軟性のあるシード伸長 |
-
2021
- 2021-03-11 JP JP2022550209A patent/JP2023519496A/ja active Pending
- 2021-03-11 IL IL294741A patent/IL294741A/en unknown
- 2021-03-11 CN CN202180017970.0A patent/CN115210815A/zh active Pending
- 2021-03-11 BR BR112022015194A patent/BR112022015194A2/pt unknown
- 2021-03-11 US US17/199,391 patent/US20210285043A1/en active Pending
- 2021-03-11 EP EP21716030.8A patent/EP4118656A1/en active Pending
- 2021-03-11 WO PCT/US2021/022012 patent/WO2021183833A1/en active Application Filing
- 2021-03-11 MX MX2022010905A patent/MX2022010905A/es unknown
- 2021-03-11 AU AU2021233015A patent/AU2021233015A1/en active Pending
- 2021-03-11 CA CA3167358A patent/CA3167358A1/en active Pending
- 2021-03-11 KR KR1020227029202A patent/KR20220153007A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
BR112022015194A2 (pt) | 2022-10-11 |
US20210285043A1 (en) | 2021-09-16 |
KR20220153007A (ko) | 2022-11-17 |
AU2021233015A1 (en) | 2022-07-14 |
WO2021183833A1 (en) | 2021-09-16 |
CA3167358A1 (en) | 2021-09-16 |
IL294741A (en) | 2022-09-01 |
MX2022010905A (es) | 2022-12-15 |
CN115210815A (zh) | 2022-10-18 |
EP4118656A1 (en) | 2023-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2022252718B2 (en) | Bioinformatics systems, apparatus, and methods for performing secondary and/or tertiary processing | |
US20210257052A1 (en) | Bioinformatics Systems, Apparatuses, and Methods for Performing Secondary and/or Tertiary Processing | |
US20210183468A1 (en) | Bioinformatics Systems, Apparatuses, and Methods for Performing Secondary and/or Tertiary Processing | |
Schmidt et al. | Next-generation sequencing: big data meets high performance computing | |
Puckelwartz et al. | Supercomputing for the parallelization of whole genome analysis | |
Souilmi et al. | Scalable and cost-effective NGS genotyping in the cloud | |
WO2017214320A1 (en) | Bioinformatics systems, apparatus, and methods for performing secondary and/or tertiary processing | |
Wells et al. | Extraction of echocardiographic data from the electronic medical record is a rapid and efficient method for study of cardiac structure and function | |
Kienzler et al. | Large-scale DNA sequence analysis in the cloud: a stream-based approach | |
Sharma et al. | Lerna: transformer architectures for configuring error correction tools for short-and long-read genome sequencing | |
JP2023519496A (ja) | 核酸シーケンスのインクリメンタル二次解析 | |
JP2023503739A (ja) | 遺伝子融合の迅速な検出 | |
Versaci et al. | Kafka interfaces for composable streaming genomics pipelines | |
Maheshwari | Algorithm-Hardware Co-Design for Performance-driven Embedded Genomics | |
Dong et al. | MegaKG: Toward an explainable knowledge graph for early drug development | |
Yang | Cloud based computing technologies for genomic medicine | |
TM et al. | Supercomputing for the parallelization of whole genome analysis | |
NZ789149A (en) | Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240311 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240311 |