対象に由来する試験試料中の1つまたは複数の短い遺伝子バリアント、例えば、一塩基多型(SNP)、多塩基多型(MNP)またはインデルを検出するための方法が、本明細書に記載される。試験試料からの試験核酸分子に関連する試験シークエンシングデータは、試験シークエンシングデータと別の配列[例えば、試験配列、候補配列(または候補ハプロタイプ配列および/もしくは参照配列)]とのマッチを判定するために解析され、マッチの近似性を示すマッチスコア(例えば、試験シークエンシングデータを考えると、試験シークエンシングデータが比較配列の核酸分子から生じる尤度)を決定することにより表され得る。したがって、マッチスコアを使用して、試験試料中の短い遺伝子バリアントの存在もしくはアイデンティティー、または非存在をコールすることができる。
試験シークエンシングデータセットは、計算効率の良い解析をもたらすように独特に構造化される。例えば、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより、試験シークエンシングデータセットを生成することができる。したがって、核酸分子の試験シークエンシングデータセットは、特定のヌクレオチドのフローに各々が対応するフロー位置にあるフローシグナルを含む。この独特に構造化されたデータセットを使用して、核酸分子(単数)[または分子(複数)]を、「塩基空間」(「ヌクレオチド空間」または「配列空間」とも呼ばれる)ではなく「フロー空間」で解析することができる。フロー空間データは、塩基空間データが保有しない、フローサイクル順序に関する追加情報に依存する。フロー空間で収集されるデータの解析は、塩基空間に変換されるデータまたは塩基空間で収集されるデータの解析に勝る利点を少なくとも2つ提供する。第1に、試験核酸分子中に最も多く見られるバリアントタイプ(置換SNP)は、フロー空間で参照配列と比較すると2つまたはそれより多くの明確に異なるフローシグナル(これらは全フローサイクルにわたって、またはそれを超えて、伝播し得る)を生じさせる結果となるが、塩基空間で配列を解析するとデータシグナルを1つだけしか入手できない。つまり、塩基空間では、各塩基位置が単一シグナルと関連付けられ、バリアント塩基は、バリアント塩基のシグナルのみに影響を与え、隣接シグナルには影響を与えない。フロー空間では、バリアントは、複数のフロー位置に影響を与えることができ、ある特定のバリアントについては、バリアントは、参照配列と比較してその後のフローグラムシグナルのシフトを誘導することができ、それによって実質的にバリアント検出を継続的に強化し得る。第2に、試験核酸分子の配列と1つまたは複数の候補配列とを直接アラインメントしなくても、フロー空間データを解析して1つまたは複数の候補フロー空間配列とのマッチを判定することができる。配列アラインメントは計算コストが高いが、本明細書に記載されるマッチ解析を使用してそれを単純化することができる。
所与の遺伝子バリアントについてのフロー空間における多重シグナルインジケーターは、塩基空間解析で同定され得る単一シグナルインジケーターと比べてバリアントコール正確度を増加させる。さらに、フローシグナルの相違の数が多いほど、バリアントコールが検出されることになる尤度が増加する。本明細書中でさらに論じられるように、ある特定の状況では、信頼度が高い事前選択されたバリアントをコールすることが望ましく、それらのバリアントおよび/またはフロー順序を、所望の数のフローシグナルの相違が確実に生成されるように選択して、遺伝子バリアントを高い信頼性でコールすることができる。核酸分子のシークエンシングデータセットを候補配列と比較して、試験シークエンシングデータセットが候補配列にマッチする尤度を示すマッチスコアを決定することができる。
決定された配列と候補配列(例えば、候補ハプロタイプ配列)の塩基空間におけるアラインメントは、計算コストが高く、現在のところ、ゲノム解析ツールキット(GATK)HaplotypeCallerでのほぼ計算集約的なステップである。HaplotypeCallerの中のPairHMMは、各シークエンシングリードと各ハプロタイプのアラインメントを行い、塩基の品質をエラーの推定値として使用して、シークエンシングリードが得られハプロタイプの尤度を判定する。しかし、本明細書に記載される方法で使用されるデータセットの構造は、エラーモード尤度を保持し、それによってバリアントコーリングの計算効率がより良くなる。例えば、所与の遺伝子型の尤度を、その遺伝子型を有する配列とアラインする各フロー位置における尤度の積として、簡単に決定することができる。このフロー空間決定尤度は、HaplotypeCallerのPairHMMモジュールを、より計算効率の良いバリアントコールに置き換えることができる。
シークエンシングデータセット内の任意のフロー位置のフローシグナルは、任意の塩基位置の核酸分子をシークエンシングするために使用されるフロー順序がその位置におけるフローシグナルに影響を与え得ることから、フロー順序依存性である。本明細書中でさらに説明されるように、この発見を1つまたは複数の方法で利用することができる。第1に、同じ遺伝子座で重複する核酸分子のランダム断片化(in vivo断片化、例えば無細胞DNA、あるいはin vitro断片化、例えば超音波処理もしくは酵素的消化によるもの)は、それらの核酸分子についての複数の異なるシークエンシング開始部位(遺伝子座に関連して)を生じさせる結果となる。一部のケースでは、異なるフローコンテキストが遺伝子座で入手可能である(例えば、異なるフロー順序で再シークエンシングした場合、または準周期的なフロー順序を使用した場合)。したがって、たとえ他の核酸分子が信頼度のより低いシグナル(例えば、単一フローシグナル変化)を生じさせる結果となっても、バリアントについての高感度フローシグナルを用いて(例えば、参照または非選択候補配列と比較して2つまたはそれより多くのフローシグナルの相違を用いて)単一核酸分子に基づいて、遺伝子座にあるバリアントを正確に検出することができる。第2に、所与の核酸分子を、第1のフロー順序を使用してシークエンシングし、第2の(異なる)フロー順序を使用して再シークエンシングすることができ、この結果として、その核酸分子にわたって異なるフロー配列コンテキストが得られる。1つのフロー順序を使用して、バリアントを有する核酸分子とそのバリアントを有する候補配列との尤度マッチが低かったとしても、第2のフロー順序を使用して、その核酸分子とその候補配列との尤度マッチが高いことがある。第3に、フロー順序は、延長フローサイクル(例えば、サイクル内に4つより多くの塩基タイプがある)であることがあり、これは、そのフロー順序が、単に、4つの塩基タイプA、C、TおよびGの周期的な4フロー反復でないことを意味する。一部のケースでは、反復単位は、4塩基より長く、例えば、すべての可能な2塩基フロー配列(すなわち、すべてのX-Yペアが反復単位内にあり、ここでのXは、4つすべての塩基であり、Yは、非X塩基の各々である)または3塩基フロー配列(すなわち、すべての可能なX-Y-Zパーミュテーションが反復単位内にある)を含むパターンである。第4に、フローシークエンシング順序を、特異的な遺伝子バリアントを標的とするように選択することができる。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するための方法は、(a)1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験試料に由来する試験核酸分子に関連し、試験シークエンシングデータセットが、フロー順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより生成され、試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(b)試験シークエンシングデータセットに関連する試験核酸分子の各々について、試験シークエンシングデータセットが1つまたは複数の候補配列にマッチする尤度を示すマッチスコアを決定するステップ;および(c)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するための方法は、(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するための方法は、(a)1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各第1の試験シークエンシングデータセットが、試験試料に由来する異なる試験核酸分子に関連し、第1の試験シークエンシングデータセットが、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、1つまたは複数の第1の試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(b)1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットと同じ試験核酸分子に関連し、第2の試験シークエンシングデータセットが、第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、第1のフローサイクル順序と第2のフローサイクル順序が異なり、試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(c)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットの各々について、1つまたは複数の候補配列についてのマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列のマッチする尤度を示す、ステップ;および(d)決定されたマッチスコアを使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップを含む。
本明細書に記載される方法は、コンピュータ実装方法であり得、方法の1つまたは複数のステップを、例えば、1または複数台のコンピュータプロセッサーを使用して遂行することができる。
1つまたは複数のプログラムを記憶する非一過性コンピュータ可読記憶媒体であって、1つまたは複数のプログラムが、電子デバイスの1または複数台のプロセッサーにより実行されたとき、電子デバイスに、本明細書に記載される方法のいずれか1つまたは複数を遂行させる命令を含む、非一過性コンピュータ可読記憶媒体も、本明細書で提供される。
1または複数台のプロセッサーと、メモリーと、そのメモリーに記憶された1つまたは複数のプログラムとを含む、電子デバイスであって、1つまたは複数のプログラムが、1または複数台のプロセッサーにより実行されるように構成されている、電子デバイスが、本明細書にさらに記載される。1つまたは複数のプログラムは、本明細書に記載される方法のいずれか1つまたは複数を遂行するための命令を含み得る。
核酸分子をシークエンシングする方法も、本明細書に記載される。例えば、核酸分子をシークエンシングする方法は、核酸分子をプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;5つまたはそれより多くの別々のヌクレオチドフローを含む反復フローサイクル順序に従って別々のヌクレオチドフローで提供される標識された非終結ヌクレオチドを使用してプライマーを伸長するステップ;および取り込まれた標識ヌクレオチドからのシグナルを検出する、またはプライマーがヌクレオチドフローにより伸長された場合のシグナルの非存在を検出するステップを含み得る。
定義
本明細書で使用される場合、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、文脈による別段の明白な指示がない限り、複数形の言及対象を含む。
本明細書での「約」ある値またはパラメーターへの言及は、その値またはパラメーター自体に関する変動を含む(および記載する)。例えば、「約X」に言及する記載は、「X」の記載を含む。
所与の配列についての「予想シークエンシングデータ」または「予想シークエンシングデータセット」は、フロー順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して配列がシークエンシングされた場合に生成されることになる、計算されたシークエンシングデータを指す。予想シークエンシングデータセットまたは予想シークエンシングデータセットを、例えばコンピュータモデリングにより(すなわち、in silico)、決定することができる。
「フロー順序」は、非終結ヌクレオチドを使用して核酸分子をシークエンシングするために使用される別々のヌクレオチドフローの順序を指す。フロー順序を反復単位のサイクルに分けることができ、反復単位のフロー順序は、「フローサイクル順序」と呼ばれる。「フロー位置」は、シークエンシングプロセス中の所与の別々のヌクレオチドフローの逐次的位置を指す。
用語「個体」、「患者」および「対象」は、同義語として使用され、ヒトを含む動物を指す。
用語「標識」は、本明細書で使用される場合、別の部分、例えばヌクレオチドまたはヌクレオチドアナログ、とカップリングされる、またはカップリングされ得る、検出可能な部分を指す。標識は、標識に送達されたシグナルを放出することまたはシグナルを変更することができ、したがって、標識の存在または非存在を検出することができる。一部のケースでは、カップリングは、リンカーを介してのカップリングであり得、リンカーは、切断可能、例えば、光切断可能(例えば、紫外線下で切断可能)、化学的に切断可能(例えば、ジチオトレイトール(DTT)、トリス(2-カルボキシエチル)ホスフィン(TCEP)などの、還元剤によって)、または酵素的に切断可能(例えば、エステラーゼ、リパーゼ、ペプチダーゼもしくはプロテアーゼによって)であり得る。一部の実施形態では、標識は、フルオロフォアである。
「非終結ヌクレオチド」は、ポリメラーゼまたはトランスクリプターゼを使用してポリヌクレオチドの3’末端に結合させることができる、およびポリメラーゼまたはトランスクリプターゼを使用してそれに結合された別の非終結核酸を有することができ、そのヌクレオチドから保護基または可逆的ターミネーターを除去する必要がない、核酸部分である。天然に存在する核酸は、非終結核酸の一種である。非終結核酸は、標識されていることがあり、または未標識であることもある。
「ヌクレオチドフロー」は、一連の1つまたは複数の非終結ヌクレオチド(標識されていることがあり、またはその一部分が標識されていることもある)を指す。
「短い遺伝子バリアント」は、長さが連続する10塩基またはそれ未満(すなわち、長さが10、9、8、7、6、5、4、3、2または1塩基)である遺伝的多型(すなわち、突然変異)を指す。この用語は、長さが連続する10塩基またはそれ未満である、一塩基多型(SNP)、多塩基多型(MNP)およびインデルを含む。
本明細書に記載される本発明の態様および変形形態が、態様および変形形態「からなること」および/または「から本質的になること」を含むことは理解されよう。
値の範囲が提供される場合、その範囲の上限値と下限値の間に介在する各々の値、およびその述べられている範囲内の、任意の他の述べられているまたは介在する値が、本開示の範囲内に包含されることは、理解されるはずである。述べられている範囲が上限値または下限値を含む場合、これらの含まれる限界値のどちらかを含まない範囲もまた、本開示に含まれる。
本明細書に記載される解析方法の一部は、配列を参照配列にマッピングすること、配列情報を判定すること、および/または配列情報を解析することを含む。相補配列を容易に決定および/または解析することができること、ならびに本明細書で提供される説明が、相補配列に関して遂行される解析方法を包含することは、当技術分野では十分に理解されよう。
本明細書で使用される節の見出しは、単に構成のためのものであり、記載される主題を限定するものと解釈すべきでない。この説明は、当業者による本発明の実施および使用を可能にするために提供され、特許出願およびその要件に関連して提供される。記載される実施形態の様々な修飾形態が当業者には容易に分かることになり、本明細書における一般原理を他の実施形態に応用することができる。したがって、本発明は、示される実施形態に限定されるように意図されたものではなく、本発明には、本明細書に記載される原理および特徴に対応する最も広い範囲が与えられる。
図は、様々な実施形態によるプロセスを例証する。これらの例示的プロセスでは、一部のブロックは、必要に応じて組み合わせられ、一部のブロックの順序は、必要に応じて変更され、一部のブロックは、必要に応じて割愛される。一部の例では、追加のステップが例示的プロセスと組み合わせて遂行され得る。したがって、例証される(および下記でより詳細に説明される)ような操作は、本質的に例示的なものであり、したがって、限定と見なすべきではない。
本明細書で言及されるすべての公表文献、特許および特許出願の開示は、これにより各々その全体が参照により本明細書に取り込まれる。参照により取り込まれるいずれかの参考文献が本開示と矛盾する場合には、本開示が優先されるものとする。
フローシークエンシング法
任意の所与のフロー位置において単一のタイプのヌクレオチドが伸長プライマーに到達できる所定のフローサイクルに従って鋳型ポリヌクレオチド分子に結合されたプライマーを伸長するステップを含む、フローシークエンシング法を使用して、シークエンシングデータを生成することができる。一部の実施形態では、特定のタイプのヌクレオチドの少なくとも一部は、標識を含み、標識されたヌクレオチドが伸長プライマーに取り込まれると、この標識が検出可能なシグナルをもたらす。そのようなヌクレオチドが伸長されたプライマーに取り込まれることにより得られる配列は、鋳型ポリヌクレオチド分子の配列の逆相補配列であるはずである。一部の実施形態では、例えば、シークエンシングデータは、標識されたヌクレオチドを使用してプライマーを伸長するステップ、および伸長プライマーに取り込まれた標識されたヌクレオチドの存在または非存在を検出するステップを含むフローシークエンシング法を使用して生成される。フローシークエンシング法は、「自然な合成によるシークエンシング」または「非終結型の合成によるシークエンシング」方法と呼ばれることもある。例示的な方法は、その全体が参照により本明細書に取り込まれる米国特許第8,772,473号に記載されている。以下の説明は、フローシークエンシング法に関して提供されるが、シークエンシングされる領域のすべてまたは一部分をシークエンシングするために他のシークエンシング法が使用され得ることは、理解されよう。例えば、本明細書で論じられるシークエンシングデータを、パイロシークエンシング法を使用して生成することができる。
フローシークエンシングは、ポリヌクレオチドとハイブリダイズされたプライマーを伸長するためのヌクレオチドの使用を含む。所与の塩基タイプのヌクレオチド(例えば、A、C、G、T、Uなど)をハイブリダイズされた鋳型と混合して、相補的塩基が鋳型鎖内に存在する場合には、プライマーを伸長することができる。ヌクレオチドは、例えば、非終結ヌクレオチドであり得る。ヌクレオチドが、非終結ヌクレオチドであるとき、1つより多くの連続する相補的塩基が鋳型鎖内に存在する場合には、1つより多くの連続する塩基を伸長プライマー鎖に取り込むことができる。非終結ヌクレオチドは、3’可逆的ターミネーターを有するヌクレオチドと対照をなし、一般に、連続ヌクレオチドが結合される前にブロッキング基は除去される。相補的塩基が鋳型鎖内に存在しない場合、鋳型鎖内の次の塩基と相補的であるヌクレオチドが導入されるまで、プライマー伸長は停止する。ヌクレオチドの少なくとも一部分に標識することができ、その結果、取り込みを検出することができる。最も一般的には、単一のヌクレオチドタイプのみが一度に導入される(すなわち、個々に付加される)が、ある特定の実施形態では、2つまたは3つの異なるタイプのヌクレオチドが同時に導入されることもある。この方法論は、あらゆる単一塩基の伸長後、ターミネーターが反転されて次に続く塩基の取り込みが可能になるまで、プライマー伸長が停止される、可逆的ターミネーターを使用するシークエンシング法と対比され得る。
プライマー伸長の過程でヌクレオチドをフロー順序で導入することができ、この過程をフローサイクルにさらに分けることができる。フローサイクルは、反復されるヌクレオチドフロー順序であり、任意の長さのものであり得る。ヌクレオチドが段階的に付加され、これにより、付加されたヌクレオチドを鋳型鎖内に存在する相補的塩基のシークエンシングプライマーの末端に取り込むことが可能になる。単に例として、フローサイクルのフロー順序は、A-T-G-Cであることもあり、またはフローサイクル順序は、A-T-C-Gであることもある。代替順序を当業者は容易に企図することができる。フローサイクル順序は、いずれの長さのものであってもよいが、4つの固有の塩基タイプ(任意の順序でA、T、CおよびG)を含有するフローサイクルが最も一般的である。一部の実施形態では、フローサイクルは、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20またはそれより多くの別々のヌクレオチドフローをフローサイクル順序で含む。単に例として、フローサイクル順序は、T-C-A-C-G-A-T-G-C-A-T-G-C-T-A-Gであり得、これら16の別々に提供されるヌクレオチドが数サイクルにわたってこのフローサイクル順序で提供される。異なるヌクレオチドの導入と導入の間に、例えば洗浄液でシークエンシングプラットフォームを洗浄することにより、取り込まれていないヌクレオチドを除去することができる。
ポリメラーゼを使用して、1つまたは複数のヌクレオチドをプライマーの末端に鋳型依存的に取り込むことによりシークエンシングプライマーを伸長させることができる。一部の実施形態では、ポリメラーゼは、DNAポリメラーゼである。ポリメラーゼは、天然に存在するポリメラーゼであることもあり、または合成(例えば、突然変異型)ポリメラーゼであることもある。ポリメラーゼをプライマー伸長の最初のステップで付加させることができるが、補足ポリメラーゼを、必要に応じて、シークエンシング中に、例えば、ヌクレオチドの段階的付加を用いて、またはいくつかのフローサイクル後に、付加させることができる。例示的なポリメラーゼとしては、DNAポリメラーゼ、RNAポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、Bst DNAポリメラーゼ、Bst 2.0 DNAポリメラーゼ、Bst 3.0 DNAポリメラーゼ、Bsu DNAポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼ Φ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、およびSeqAmp DNAポリメラーゼが、挙げられる。
導入されるヌクレオチドは、鋳型鎖の配列を決定する場合、標識ヌクレオチドを含むことができ、取り込まれた標識核酸の存在または非存在を検出して配列を決定することができる。標識は、例えば、光学活性標識(例えば、蛍光標識)または放射性標識であることがあり、標識により放出または変更されたシグナルを、検出器を使用して検出することができる。鋳型ポリヌクレオチドとハイブリダイズされたプライマーに取り込まれた標識ヌクレオチドの存在または非存在を検出することができ、このことによって配列の決定が(例えば、フローグラムを生成することにより)可能になる。一部の実施形態では、標識ヌクレオチドは、蛍光部分、発光部分、または他の光出射部分で標識される。一部の実施形態では、標識は、リンカーを介してヌクレオチドに結合される。一部の実施形態では、リンカーは、例えば、光化学的または化学的切断反応によって、切断可能である。例えば、標識を、検出後かつ連続ヌクレオチドの取り込み前に切断することができる。一部の実施形態では、標識(またはリンカー)は、ヌクレオチド塩基に結合されるか、または新生DNA鎖の延長に干渉しないヌクレオチド上の別の部位に結合される。一部の実施形態では、リンカーは、ジスルフィドまたはPEG含有部分を含む。
一部の実施形態では、導入されるヌクレオチドは、非標識ヌクレオチドのみを含み、一部の実施形態では、ヌクレオチドは、標識ヌクレオチドと非標識ヌクレオチドの混合物を含む。例えば、一部の実施形態では、全ヌクレオチドと比較して標識ヌクレオチドの部分は、約90%もしくはそれ未満、約80%もしくはそれ未満、約70%もしくはそれ未満、約60%もしくはそれ未満、約50%もしくはそれ未満、約40%もしくはそれ未満、約30%もしくはそれ未満、約20%もしくはそれ未満、約10%もしくはそれ未満、約5%もしくはそれ未満、約4%もしくはそれ未満、約3%もしくはそれ未満、約2.5%もしくはそれ未満、約2%もしくはそれ未満、約1.5%もしくはそれ未満、約1%もしくはそれ未満、約0.5%もしくはそれ未満、約0.25%もしくはそれ未満、約0.1%もしくはそれ未満、約0.05%もしくはそれ未満、約0.025%もしくはそれ未満、または約0.01%もしくはそれ未満である。一部の実施形態では、全ヌクレオチドと比較して標識ヌクレオチドの部分は、約100%であり、約95%であるかもしくはそれより多く、約90%であるかもしくはそれより多く、約80%であるかもしくはそれより多く、約70%であるかもしくはそれより多く、約60%であるかもしくはそれより多く、約50%であるかもしくはそれより多く、約40%であるかもしくはそれより多く、約30%であるかもしくはそれより多く、約20%であるかもしくはそれより多く、約10%であるかもしくはそれより多く、約5%であるかもしくはそれより多く、約4%であるかもしくはそれより多く、約3%であるかもしくはそれより多く、約2.5%であるかもしくはそれより多く、約2%であるかもしくはそれより多く、約1.5%であるかもしくはそれより多く、約1%であるかもしくはそれより多く、約0.5%であるかもしくはそれより多く、約0.25%であるかもしくはそれより多く、約0.1%であるかもしくはそれより多く、約0.05%であるかもしくはそれより多く、約0.025%であるかもしくはそれより多く、または約0.01%であるかまたはそれより多い。一部の実施形態では、全ヌクレオチドと比較して標識ヌクレオチドの部分は、約0.01%~約100%、例えば、約0.01%~約0.025%、約0.025%~約0.05%、約0.05%~約0.1%、約0.1%~約0.25%、約0.25%~約0.5%、約0.5%~約1%、約1%~約1.5%、約1.5%~約2%、約2%~約2.5%、約2.5%~約3%、約3%~約4%、約4%~約5%、約5%~約10%、約10%~約20%、約20%~約30%、約30%~約40%、約40%~約50%、約50%~約60%、約60%~約70%、約70%~約80%、約80%~約90%、約90%~100%未満、または約90%~約100%である。
シークエンシングデータを生成する前に、ポリヌクレオチドは、ハイブリダイズされた鋳型を生成するためにシークエンシングプライマーとハイブリダイズされる。ポリヌクレオチドをシークエンシングライブラリー調製中にアダプターにライゲーションすることができる。アダプターは、シークエンシングプライマーとハイブリダイズするハイブリダイゼーション配列を含むことができる。例えば、アダプターのハイブリダイゼーション配列は、複数の異なるポリヌクレオチドにわたって一様な配列であることがあり、シークエンシングプライマーは、一様なシークエンシングプライマーであることがある。これは、シークエンシングライブラリー内の異なるポリヌクレオチドの多重シークエンシングを可能にする。
ポリヌクレオチドをシークエンシングのために表面(例えば、固体支持体)に結合させることができる。ポリヌクレオチドを(例えば、ブリッジ増幅または他の増幅技法により)増幅させて、ポリヌクレオチドシークエンシングコロニーを生成することができる。クラスター内の増幅されたポリヌクレオチドは、実質的に同一または相補的である(増幅プロセス中に多少のエラーが導入されることがあり、その結果、ポリヌクレオチドの一部分は、元のポリヌクレオチドと必ずしも同一でないことがある)。コロニー形成により、検出器が標識ヌクレオチド取り込みをコロニーごとに正確に検出することができるようなシグナル増幅が可能になる。一部のケースでは、コロニーは、エマルジョンPCRを使用してビーズ上に形成され、ビーズがシークエンシング面全体に分配される。シークエンシングのためのシステムおよび方法の例は、その全体が参照により本明細書に取り込まれる米国特許出願第10,344,328号において見つけることができる。
ポリヌクレオチドとハイブリダイズされたプライマーは、フロー順序に従って別々のヌクレオチドフロー(これらは、フローサイクル順序に従って周期的であり得る)を使用して核酸分子を通して伸長され、ヌクレオチドの取り込みを上記の通り検出することができ、それによって、核酸分子についてのシークエンシングデータセットを生成することができる。
フローシークエンシングを使用するプライマー伸長は、長さが数百またはさらには数千ほどもの塩基のロングレンジシークエンシングを可能にする。フローステップまたはサイクルの数を増加または減少させて、所望のシークエンシング長を得ることができる。プライマーの伸長は、1つまたは複数の異なる塩基タイプを有するヌクレオチドを使用するプライマーの段階的伸長のための1つまたは複数のフローステップを含むことができる。一部の実施形態では、プライマー伸長は、1~約1000ステップの間のフローステップ、例えば、1~約10ステップの間のフローステップ、約10~約20ステップの間のフローステップ、約20~約50ステップの間のフローステップ、約50~約100ステップの間のフローステップ、約100~約250ステップの間のフローステップ、約250~約500ステップの間のフローステップ、または約500~約1000ステップの間のフローステップを含む。フローステップを同一のまたは異なるフローサイクルに分割することができる。プライマーに取り込まれる塩基の数は、シークエンシングされる領域の配列、およびプライマーを伸長するために使用されるフロー順序に依存する。一部の実施形態では、シークエンシングされる領域は、長さ約1塩基~約4000塩基、例えば、長さ約1塩基~約10塩基、長さ約10塩基~約20塩基、長さ約20塩基~約50塩基、長さ約50塩基~約100塩基、長さ約100塩基~約250塩基、長さ約250塩基~約500塩基、長さ約500塩基~約1000塩基、長さ約1000塩基~約2000塩基、または長さ約2000塩基~約4000塩基である。
本明細書に記載される方法で使用されるポリヌクレオチドは、任意の好適な生物源、例えば、組織試料、血液試料、血漿試料、唾液試料、糞便試料、または尿試料から得ることができる。ポリヌクレオチドは、DNAポリヌクレオチドであることもあり、またはRNAポリヌクレオチドであることもある。一部の実施形態では、RNAポリヌクレオチドは、ポリヌクレオチドをシークエンシングプライマーとハイブリダイズする前にDNAポリヌクレオチドに逆転写される。一部の実施形態では、ポリヌクレオチドは、無細胞DNA(cfDNA)、例えば、循環腫瘍DNA(ctDNA)または胎児無細胞DNAである。核酸分子を、例えばin vivoで(例えば、cfDNAにおけるように)またはin vitroで(例えば、超音波処理または酵素的断片化により)、ランダムに断片化することができる。
ポリヌクレオチドのライブラリーを公知の方法によって調製することができる。一部の実施形態では、ポリヌクレオチドをアダプター配列にライゲーションすることができる。アダプター配列は、カップリングされたシークエンシングリードペアの生成中に伸長されたプライマーとハイブリダイズしたハイブリダイゼーション配列を含み得る。
一部の実施形態では、シークエンシングデータは、シークエンシングコロニー(シークエンシングクラスターとも呼ばれる)を確立する前に核酸分子を増幅することなく得られる。シークエンシングコロニーを生成するための方法としては、ブリッジ増幅またはエマルジョンPCRが挙げられる。ショットガンシークエンシング、およびコンセンサス配列のコーリングに頼る方法は、一般に、固有分子識別子(UMI)を使用して核酸分子を標識し、その核酸分子を増幅させて、独立してシークエンシングされる同じ核酸分子の非常に多数のコピーを生成する。次いで、増幅された核酸分子を表面に結合させ、ブリッジ増幅させて、独立してシークエンシングされるシークエンシングクラスターを生成し得る。次いで、UMIを使用して、独立してシークエンシングされた核酸分子を関連付けることができる。しかし、増幅プロセスは、例えばDNAポリメラーゼの限られた忠実度に起因して、核酸分子にエラーを導入し得る。一部の実施形態では、核酸分子は、シークエンシングデータを得るためのコロニーを生成するための増幅の前に増幅されない。一部の実施形態では、核酸シークエンシングデータは、固有分子識別子(UMI)を使用せずに得られる。
シークエンシングデータセットおよびバリアント検出
シークエンシングデータを、取り込まれたヌクレオチドの検出およびヌクレオチド導入の順序に基づいて生成することができる。以下の伸長される配列(すなわち、対応する鋳型配列の各逆相補配列):CTG、CAG、CCG、CGT、およびCAT(先行する配列も後続の配列もシークエンシング法に供されないと仮定して)、ならびにT-A-C-Gの反復フローサイクル(つまり、反復サイクル中のT、A、CおよびGヌクレオチドの逐次的付加)を例にとる。所与のフロー位置における特定のタイプのヌクレオチドは、相補的塩基が鋳型ポリヌクレオチド中に存在する場合にのみプライマーに取り込まれることになる。結果として生じる例示的なフローグラムが表1に示され、この表中の1は、導入されたヌクレオチドが取り込まれること示し、0は、導入されたヌクレオチドが取り込まれないことを示す。フローグラムを使用して、鋳型鎖の配列を導出することができる。例えば、本明細書で論じられるシークエンシングデータ(例えば、フローグラム)は、伸長されたプライマー鎖およびその逆相補鎖を表し、この逆相補鎖は、鋳型鎖の配列を表すために容易に決定され得る。表1中のアスタリスク(*)は、伸長されたシークエンシング鎖(例えば、より長い鋳型鎖)に追加のヌクレオチドが取り込まれた場合にシグナルがシークエンシングデータ中に存在し得ることを示す。
フローグラムは、バイナリであることもあり、ノンバイナリであることもある。バイナリフローグラムは、取り込まれたヌクレオチドの存在(1)または非存在(0)を検出する。ノンバイナリフローグラムは、各々の段階的導入から取り込まれたヌクレオチドの数をより定量的に決定することができる。例えば、CCGの伸長された配列は、同じCフローの中の(例えば、フロー位置3における)伸長プライマー内への2つのC塩基の取り込みを含むことになり、標識された塩基により放出されるシグナルは、単一塩基取り込みに相当する強度レベルより高い強度を有することになる。このことが表1に示されている。ノンバイナリフローグラムはまた、塩基の存在または非存在を示し、所与のフロー位置における各伸長プライマーに取り込まれる可能性が高い塩基の数を含む追加情報を提供することができる。値が整数である必要はない。一部のケースでは、値は、所与のフロー位置に取り込まれる塩基の数の不確実性および/または確率を反映していることもある。
一部の実施形態では、シークエンシングデータセットは、各フロー位置に取り込まれているシークエンシングされた核酸分子中の塩基の数を示す塩基カウントを表すフローシグナルを含む。例えば、表1に示されているように、T-A-C-Gフローサイクル順序を使用してCTG配列で伸長されたプライマーは、位置3に1の値を有し、これは、その位置における1の塩基カウントを示す(この1塩基は、シークエンシングされた鋳型鎖内のGと相補的であるCである)。また表1において、T-A-C-Gフローサイクル順序を使用してCCG配列で伸長されたプライマーは、位置3に2の値を有し、これは、このフロー位置にある間の伸長プライマーのその位置における2の塩基カウントを示す。ここで、2塩基は、伸長プライマー配列内のCCG配列の最初のC-C配列を指し、この配列は、鋳型鎖内のG-G配列と相補的である。
シークエンシングデータセット内のフローシグナルは、各フロー位置における1または複数の塩基カウントについての尤度または信頼区間を示す1つまたは複数の統計パラメーターを含み得る。一部の実施形態では、フローシグナルは、シークエンシング中にシークエンシングプライマーに取り込まれる1つまたは複数の塩基の蛍光シグナルなどの、シークエンシングプロセス中に検出されるアナログシグナルから決定される。一部のケースでは、アナログシグナルを処理して統計パラメーターを生成することができる。例えば、その全体が参照により本明細書に取り込まれる公開国際特許出願WO2019084158A1に記載されているように、機械学習アルゴリズムを使用してアナログシークエンシングシグナルのコンテキスト効果について補正することができる。ゼロまたはそれを超える整数の塩基がいずれかの所与のフロー位置に取り込まれるが、所与のアナログシグナルは、そのアナログシグナルと完全にマッチしないことがある。したがって、検出されたシグナルを考えれば、フロー位置に取り込まれる塩基の数の尤度を示す統計パラメーターを決定することができる。単に例として、表1のCCG配列について、フローシグナルがフロー位置3に取り込まれた2塩基を示す尤度は、0.999であり得、フローシグナルがフロー位置3に取り込まれた1塩基を示す尤度は、0.001であり得る。フローシグナルが、各フロー位置における複数の塩基カウントについての尤度を示す統計パラメーターを含む場合、シークエンシングデータセットを疎行列としてフォーマットすることができる。単に例として、T-A-C-Gの反復フローサイクル順序を使用してTATGGTCGTCGA(配列番号1)の配列で伸長されたプライマーは、図1Aに示されているシークエンシングデータセットを生じさせる結果となり得る。統計パラメーターまたは尤度値は、例えば、シークエンシング中のアナログシグナルの検出中に存在するノイズまたは他のアーチファクトによって、異なり得る。一部の実施形態では、統計パラメーターまたは尤度が所定の閾値よりも下であった場合、実質的にゼロである所定の非ゼロ値(すなわち、何らかの非常に小さい値または無視できる値)にパラメーターを設定して、真のゼロ値を用いると計算誤差が生じるか、または可能性の低さのレベル同士、例えば、非常に可能性の低いレベル(0.0001)とあり得ないレベル(0)とが十分に区別されなくなる可能性がある、本明細書でさらに論じられる統計解析を補助することができる。
所与の配列についてのシークエンシングデータセットの尤度を示す値を、配列アラインメントなしにシークエンシングデータセットから決定することができる。例えば、データが得られる可能性の最も高い配列を、図1Bに(図1Aに示されているのと同じデータを使用して)星印により示されているように、各フロー位置において最高尤度を有する塩基カウントを選択することにより決定することができる。したがって、プライマー伸長の配列を、各フロー位置において可能性の最も高い塩基カウントに従って決定することができる:TATGGTCGTCGA(配列番号1)。このことから、逆相補配列(すなわち、鋳型鎖)を容易に決定することができる。さらに、TATGGTCGTCGA(配列番号1)配列(または逆相補配列)が得られる、このシークエンシングデータセットの尤度を、各フロー位置における選択尤度の積として決定することができる。
核酸分子に関連するシークエンシングデータセットを1つまたは複数の(例えば、2、3、4、5、6もしくはそれより多くの)可能性のある候補配列と比較することができる。シークエンシングデータセットと候補配列との(下記で論じられるような、マッチスコアに基づく)近似マッチは、そのシークエンシングデータセットが、近似マッチする候補配列と同じ配列を有する核酸分子から生じた可能性が高いことを示す。一部の実施形態では、シークエンシングされた核酸分子の配列を、参照配列に(例えば、バローズ・ホイーラーアラインメント(BWA)アルゴリズムまたは他の好適なアラインメントアルゴリズムを使用して)マッピングして、その配列についての遺伝子座(または1つもしくは複数の遺伝子座)を決定することができる。上記で論じられたように、フロー空間におけるシークエンシングデータセットを塩基空間に(またはフロー順序が既知である場合には、その逆に)容易に変換することができ、マッピングをフロー空間または塩基空間において行なうことができる。マッピングされた配列に対応する遺伝子座(単数)[または遺伝子座(複数)]を、本明細書に記載される解析方法のための候補配列(またはハプロタイプ配列)として動作することができる1つまたは複数のバリアント配列と、関連付けることができる。本明細書に記載される方法の1つの利点は、一部のケースではアラインメントアルゴリズムを使用するシークエンシングされた核酸分子の配列と各候補配列との一般に計算コストの高いアラインメントを必要としない点である。その代わりに、フロー空間におけるシークエンシングデータを使用して候補配列の各々についてマッチスコアを決定することができ、この操作のほうが、計算効率が良い。
マッチスコアは、シークエンシングデータセットがいかに良く候補配列を支持するかを示す。例えば、シークエンシングデータセットが候補配列にマッチする尤度を示すマッチスコアは、各フロー位置における統計パラメーター(例えば、尤度)であって、候補配列についての予想シークエンシングデータが得られたそのフロー位置における塩基カウントに対応する統計パラメーターを選択することにより、決定することができる。選択された統計パラメーターの積によりマッチスコアを得ることができる。例えば、伸長されたプライマーについて図1Aに示されているシークエンシングデータセット、およびTATGGTCATCGA(配列番号2)の候補プライマー伸長配列を仮定する。図1C(図1Aにおける同じシークエンシングデータセットを示す)は、候補配列(塗りつぶした丸印)についてのトレースを示す。比較として、TATGGTCGTCGA(配列番号1)配列のトレース(図1Bを参照されたい)が、図1Cに白抜きの丸印を使用して示されている。シークエンシングデータが第1の候補配列TATGGTCATCGA(配列番号2)に対応する尤度を示すマッチスコアと、シークエンシングデータが第2の候補配列TATGGTCGTCGA(配列番号1)にマッチする尤度を示すマッチスコアとには、たとえこれらの配列が単一塩基変動分しか変わらなかったとしても、大きな差がある。図1Cで見られるように、トレース間の差は、フロー位置12に見られ、少なくとも9フロー位置(およびシークエンシングデータがさらなるフロー位置にわたって伸長する場合にはより長い可能性がある)にわたって伝播する。1または複数のフローサイクルにわたって継続するこの伝播は、「フローシフト」または「サイクルシフト」と呼ばれることがあり、シークエンシングデータセットが候補配列にマッチする場合、一般に、非常に可能性の低い事象である。
したがって、各シークエンシングデータセットと候補配列(または各候補配列)とのマッチスコアを決定することができる。例えば、シークエンシングデータセットが、所与の候補配列に一致する尤度L(Rj|Hi)は、所与の候補配列についての各フロー位置における選択された塩基カウントの尤度(例えば、その積)を使用して、決定することができる。
マッチスコアを使用して、試験シークエンシングデータ、および/または試験シークエンシングデータに関連する核酸分子を分類することができる。分類子は、核酸分子がバリアント(例えば、候補配列に含まれるバリアント)を含むことを示すこともあり、核酸分子が、バリアントを含まないこと示すこともあり、またはヌルコールを示すこともある。ヌルコールは、試験シークエンシングデータに関連する核酸分子におけるバリアントの存在も非存在も示さず、それどころか、マッチスコアを使用して所望の統計的信頼度でコールを行なうことができないことを示す。試験シークエンシングデータまたは核酸分子は、例えば、マッチスコアが所望の信頼度閾値よりも上であった場合、バリアントを有するものとして分類され得る。逆に、試験シークエンシングデータまたは核酸分子は、例えば、マッチスコアが所望の信頼度閾値よりも下であった場合、バリアントを有さないものとして分類され得る。
上記の解析を応用して、2つまたはそれより多くの異なる候補配列から候補配列を選択することができる。シークエンシングデータセットが各候補配列にマッチする尤度を示すマッチスコアを決定することができる。例えば、シークエンシングデータセット内の各フロー位置における統計パラメーターであって、そのフロー位置における候補配列の塩基カウントに対応する統計パラメーターを、候補配列ごとに選択することができる。一部の実施形態では、この解析は、シークエンシングされた試験核酸分子についてのシークエンシングデータセットを生成するために使用されたのと同じフロー順序を使用して候補配列がシークエンシングされることを仮定して、候補シークエンシングについての予測シークエンシングデータを生成することを含む。このデータは、候補配列を有する核酸分子をシークエンシングすることにより、または候補配列およびフロー順序に基づいて候補シークエンシングデータセットをin silicoで生成することにより、生成することができる。例示的な候補シークエンシングデータセットは、図1Cの試験データシークエンシングデータセットの下に示されており、第1の候補配列[TATGGTCATCGA(配列番号2)]は塗りつぶした丸印トレースに対応し、第2の候補配列[TATGGTCGTCGA(配列番号1)]は白抜きの丸印トレースに対応する。一部の実施形態では、例えば、マッチスコアが2つまたはそれより多くの異なる候補配列について決定される場合、試験シークエンシングデータまたは核酸分子は、2つもしくはそれより多くの候補配列のうちの1つについてのバリアントを有するもの、2つもしくはそれより多くの候補配列のうちの1つについてのバリアントを有さないものとして分類されることがあり、またはヌルコールが2つもしくはそれより多くの候補配列間で得られることもある(例えば、候補配列のいずれについてのコールも得ることができなかった場合、もしくはマッチスコアが、同じ遺伝子座で2つもしくはそれより多くの異なるバリアントを示した場合)。
シークエンシングデータセットのマッチスコアが、候補配列について決定されると、マッチスコアに基づいて短い遺伝子バリアントを有する候補配列(例えば、2つまたはそれより多くの候補配列の中から最高尤度マッチを有するマッチスコアをもたらす候補配列)を選択することができる。短い遺伝子バリアントは、例えば、個体の亜集団内に見られるバリアントもしくは突然変異であることもあり、または単一もしくは特異的個体に固有のバリアントもしくは突然変異であることもある。短い遺伝子バリアントは、生殖細胞系列バリアントであることもあり、または体細胞バリアントであることもある。短い遺伝子バリアントを有する核酸分子の配列から生じるシークエンシングデータは、短い遺伝子バリアントを有する候補配列にマッチすることになり、その候補配列を選択することができるが、棄却された(または非選択)候補配列は、より小さい尤度マッチ(これらの候補配列について決定されたマッチスコアに基づいて)により示されるように、短い遺伝子バリアントを含まない。非選択候補配列と、選択候補配列(シークエンシングされた核酸分子シークエンシングデータセットに最も良くマッチする)とは、2カ所またはそれより多くのフロー位置において異なることがあり、これらの位置は、2カ所もしくはそれより多くの連続するフロー位置であることもあり、または2カ所もしくはそれより多くの非連続のフロー位置であることもある。一部の実施形態では、非選択候補配列と、選択候補配列とは、3カ所もしくはそれより多くの、4カ所もしくはそれより多くの、5カ所もしくはそれより多くの、6カ所もしくはそれより多くの、7カ所もしくはそれより多くの、8カ所もしくはそれより多くの、9カ所もしくはそれより多くの、または10カ所もしくはそれより多くのフロー位置において異なる。一部の実施形態では、非選択候補配列と、選択候補配列とは、1もしくは複数の、2もしくはそれより多くの、3もしくはそれより多くの、4もしくはそれより多くの、または5もしくはそれより多くのフローサイクルにわたって異なる。一部の実施形態では、非選択候補配列と選択候補配列とは、Xカ所の塩基位置において異なり、この場合、核酸分子の配列に関連するシークエンシングデータセットと、非選択候補配列とは、(X+2)カ所またはそれより多くのフロー位置において異なる。シークエンシングされた核酸分子シークエンシングデータセットが選択候補配列に最も良くマッチする、選択候補配列と非選択候補配列とで異なるフロー位置の数の増加は、シークエンシングされた核酸分子シークエンシングデータセットが、非選択候補配列を有する核酸分子のシークエンシングから得られた尤度を低下させる。
シークエンシングされた核酸分子のシークエンシングデータセットが非選択候補配列にマッチする尤度は、好ましくは低く、例えば、0.05未満、0.04未満、0.03未満、0.02未満、0.01未満、0.005未満、0.001未満、0.0005未満、または0.0001未満である。シークエンシングされた核酸分子のシークエンシングデータセットが選択候補配列にマッチする尤度は、好ましくは高く、例えば、0.95より高く、0.96より高く、0.97より高く、0.98より高く、0.99より高く、0.995より高く、または0.999より高い。
試験試料中の短い遺伝子バリアントを検出するための方法は、一部の実施形態では、各試験シークエンシングデータセットが試験試料中の別々の試験核酸分子に関連している、複数の試験シークエンシングデータセットを解析するステップを含み得る。核酸分子は、例えば、核酸分子の配列が参照配列とアラインメントされた場合、ある遺伝子座において少なくとも部分的に重複する。核酸分子の少なくとも一部分は、異なるシークエンシング開始位置(ある遺伝子座に対して)を有することができ、その結果、配列内の所与の塩基について異なるフロー位置、および/または異なるフロー順序コンテキストが生じることになる。このようにして、同じ候補配列を使用して、上記複数のうちの試験シークエンシングデータセットを解析することができる。候補配列ごとに、複数の試験シークエンシングデータセットが候補配列にマッチする尤度を示すマッチスコアを決定することができ、最高尤度マッチを有する(したがって、短い遺伝子バリアントを含む)候補配列を選択することができる。複数の試験シークエンシングデータセットを使用して短い遺伝子バリアントを検出するための例示的解析が、図2A~2Dに示されている。図2Aでは、3つのシークエンシングされた試験核酸分子に対応する配列(伸長されたプライマーの配列により各々表されている、R1、R2およびR3)が、2つの候補配列(H1およびH2)に関連する重複遺伝子座において参照配列とアラインメントされている。図2B、図2Cおよび図2Dは、それぞれ、R1、R2およびR3についての例示的シークエンシングデータセットを、H1の塩基(黒塗りの丸印)またはH2の塩基(白抜きの丸印)に対応するシークエンシングデータセット内の各フロー位置における選択統計パラメーターとともに示す。
1つまたは複数の決定されたマッチスコアを使用して、試験試料についての短い遺伝子バリアントの存在(もしくはアイデンティティー)または非存在をコールすることができる。一部の実施形態では、例えば、バリアントを有するものとして分類される単一核酸分子(または関連試験シークエンシングデータセット)は、例えば、マッチスコアが、所望の信頼度または事前設定された信頼度で候補配列とのマッチを示す場合、バリアントの存在、アイデンティティーまたは非存在をコールするのに十分なものであり得る。一部の実施形態では、所定数の(例えば、1つまたは複数の、2つまたはそれより多くの、3つまたはそれより多くの、4つまたはそれより多くの、5つまたはそれより多くの、などの)核酸分子(または核酸分子に関連する試験シークエンシングデータセット)は、バリアントが試験試料についてコールされる前にバリアントを有するものとして分類される。一部の実施形態では、核酸分子(または核酸分子に関連する試験シークエンシングデータセット)の数は、マッチスコアに依存して動的に選択され、例えば、高い信頼度マッチスコアでバリアントを有するものとして分類された単一核酸分子を使用してバリアントをコールすることもあり、またはより低い信頼度マッチスコアでバリアントを有するものとして分類された2つまたはそれより多くの核酸分子を使用してバリアントをコールすることもある。
必要に応じて、シークエンシングデータセットについての別々のマッチスコアは、複数の試験シークエンシングデータセットのマッチスコアを決定するためにまとめて解析される。例えば、候補配列ごとに各試験シークエンシングデータセットについてのマッチスコアが、本明細書に記載される方法を使用して決定されると、公知のベイズ法を使用して、例えば、ゲノム解析ツールキット(GATK)に含まれているHaplotypeCallerアルゴリズムを使用して、複数の試験シークエンシングデータセットが候補配列にマッチする尤度を示すマッチスコアを決定することができ、最高尤度マッチを有する候補配列を選択することができる。例えば、DePristo et al., A framework for variation discovery and genotyping using next-generation DNA sequencing data, Nature Genetics 43, 491-498 (2011);およびPoplin et al., Scaling accurate genetic variant discovery to tens of thousands of samples, bioRxiv, www.biorxiv.org/content/10.1101/201178v3 (July 24, 2018); Hwang et al., Systematic comparison of variant calling pipelines using gold standard personal exome variants, Scientific Reports, vol. 5, no. 17875 (2015)を参照されたく、これらの各々の内容は、本明細書に取り込まれる。
標的バリアントおよび/またはフローサイクル順序の選択
短い標的遺伝子バリアントを、例えば、フロー順序および/もしくは候補配列を選択するための基礎として(すなわち、短い標的遺伝子バリアントを事前選択することにより)、または下流の解析のための基礎として役立つように、選択することができる。下流の解析は、例えば、同定された短い遺伝子バリアントを含むバイオマーカーパネルをアセンブルすることを含み得る。バイオマーカーパネルを試験試料に関連する個々の対象用に個別化することができる。例として、バイオマーカーパネルは、疾患(例えば、がん)に関連する1つまたは複数の短い遺伝子バリアント、例えば、バリアントシグネチャーを含み得る。別の例では、バイオマーカーパネルは、対象用に個別化され、対象からの試料において以前に検出された1つまたは複数の短い遺伝子バリアントを含み、このバリアントは、対象における疾患(例えば、がん)に起因すると考えられ得る。
本明細書に記載の短い遺伝子バリアントを同定するための方法は、1つまたは複数の短い標的遺伝子バリアントが事前選択される場合、特に有用であり得る。所与の短い遺伝子バリアントの検出限界(LOD)は、核酸分子をシークエンシングするために、および核酸分子のシークエンシングデータセットを生成するために使用される、短い遺伝子バリアントの配列コンテキスト(例えば、短い標的遺伝子バリアント遺伝子座に隣接する核酸分子の配列)、およびフロー順序(またはフローサイクル順序)に依存し得る。つまり、所与のフロー順序、短い遺伝子バリアント、および短い遺伝子バリアントコンテキストを使用して、短い遺伝子バリアントを有する核酸分子および短い遺伝子バリアントを有さない核酸分子(例えば、参照配列)の間の、フロー空間におけるフロー位置のバリアンスの数を決定することができる。これにより、特に感度の良いバリアントの選択、または高感度で特定のバリアントを検出することができるフロー順序の選択が、可能になる。短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットを、短い標的遺伝子バリアントを有さない参照配列に関連する参照シークエンシングデータセットと比較して、標的配列と参照配列間に存在するフロー位置の相違の数を決定することができる。つまり、参照配列は、短い標的遺伝子バリアントを除いて標的配列と同一である。より多いフロー位置の相違数は、そのバリアントに対してより高い感度(すなわち、より低い検出限界)を示す。標的および参照シークエンシングデータセットは、標的配列を有する核酸分子および/もしくは参照配列を有する核酸分子を実際にシークエンシングすることにより決定されることがあり、またはデータセットは、予想シークエンシングデータセット(例えば、in silicoで決定されるような)であることがある。
一例では、特定の対象またはがんの遺伝子指紋が所望されることがあるが、対象のまたはがんのゲノムにおける各々のおよびあらゆる短い遺伝子バリアントを検出する必要はない。その代わりに、所与のフロー順序に対して特に高感度である1つまたは複数の短い遺伝子バリアントを事前選択することができる。感度の良いバリアントを事前選択することにより、試験試料に対してより低いシークエンシング深度を使用してバリアントを高い信頼性でコールすることができる。
一部の実施形態では、試験試料中の短い標的遺伝子バリアントを検出するための方法は、短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所またはそれより多くのフロー位置において異なり、フロー位置がヌクレオチドフローに対応する、ステップを含み得る。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータとは、2カ所またはそれより多くの非連続のフロー位置において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータとは、2カ所またはそれより多くの連続するフロー位置において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータとは、3カ所またはそれより多くのフロー位置において異なり、これらのフロー位置は、連続していることもあり、または非連続であることもある。一部の実施形態では、標的配列と参照配列とは、Xカ所の塩基位置において異なり、標的シークエンシングデータセットと参照シークエンシングデータとは、(X+2)カ所またはそれより多くの連続するフロー位置において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、試験試料中の短い標的遺伝子バリアントを検出するための方法は、短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列および参照配列をシークエンシングすることにより得られた場合、2カ所またはそれより多くのフロー位置において異なり、フロー位置がヌクレオチドフローに対応する、ステップを含み得る。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータとは、2カ所またはそれより多くの非連続のフロー位置において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータとは、2カ所またはそれより多くの連続するフロー位置において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータとは、3カ所またはそれより多くのフロー位置において異なり、これらのフロー位置は、連続していることもあり、または非連続であることもある。一部の実施形態では、標的配列と参照配列とは、Xカ所の塩基位置において異なり、標的シークエンシングデータセットと参照シークエンシングデータとは、(X+2)カ所またはそれより多くの連続するフロー位置において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
選択された、標的となる短い遺伝子バリアントの検出は、一般に上記で論じられたように進行し得る。例えば、一部の実施形態では、短い標的遺伝子バリアントの遺伝子座を有する試験核酸分子に関連する試験シークエンシングデータセットを得ることができる。シークエンシングデータは、標的および参照シークエンシングデータセットを生成するために使用されたのと同じフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより生成される。試験シークエンシングデータセットが短い遺伝子バリアントを有する標的配列にマッチする尤度を示すマッチスコア(または、代替的にもしくは加えて、試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコア)が決定され、決定されたマッチスコアを使用して、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールすることができる。
一部の実施形態では、各試験シークエンシングデータセットが試験試料中の異なる試験核酸分子に関連している、複数の試験シークエンシングデータセットを使用して、試験試料中の短い標的遺伝子バリアントが検出される。解析される試験核酸分子は、短い標的遺伝子バリアント遺伝子座において重複しており、データセットは、短い標的遺伝子バリアントを選択するために使用されたのと同じフローサイクル順序を使用して標的核酸分子をシークエンシングすることにより生成される。複数の試験シークエンシングデータセットが短い遺伝子バリアントを有する標的配列にマッチする尤度を示すマッチスコア(または、代替的にもしくは加えて、複数の試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコア)が決定され、決定されたマッチスコアを使用して、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールすることができる。
一部の実施形態では、シークエンシングデータを生成するために使用されるフロー順序またはフローサイクル順序は、事前選択される。本明細書で論じられるように、フロー順序におけるバリアントのコンテキストは、バリアント配列と比較(例えば、参照)配列とのシグナルの相違に影響を与え得る。選択された標的バリアントを検出する尤度を増加させるように、フロー順序またはフローサイクル順序を事前選択することができる。
図3は、試験試料中の短い遺伝子バリアントを検出するための例示的方法のフローチャートを示す。ステップ302で、短い標的遺伝子バリアントが選択される。短い標的遺伝子バリアントは、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なるように選択され、フロー位置は、ヌクレオチドフローに対応する。ステップ304で、1つまたは複数の試験シークエンシングデータセットは、例えば、1つもしくは複数の試験核酸分子をシークエンシングして1つもしくは複数の試験シークエンシングデータセットを得ることにより、または1つもしくは複数の試験シークエンシングデータセットを受信することにより、得られる。試験シークエンシングデータセットの各々は、試験試料に由来する試験核酸分子に関連している。選択された短い標的遺伝子バリアントの解析のために、試験核酸分子は、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なる。試験シークエンシングデータセットが複数のフロー位置におけるフローシグナルを含む場合、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより、シークエンシングデータセットを決定することができる(または前以て決定しておいてもよい)。ステップ306で、試験シークエンシングデータセットに関連する試験核酸分子ごとに、マッチスコアが決定される。マッチスコアは、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示す。あるいは、マッチスコアは、核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すこともある。ステップ308で、1つまたは複数の決定されたマッチスコアは、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするために使用される。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するための方法は、(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するための方法は、(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングして、複数のフロー位置におけるフローシグナルを含む1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来する、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するための方法は、(a)短い標的遺伝子バリアントを事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、事前選択された短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するための方法は、(a)短い標的遺伝子バリアントを事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングして、複数のフロー位置におけるフローシグナルを含む1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来する、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するための方法は、(a)短い標的遺伝子バリアントおよびフローサイクル順序を事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、事前選択された短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するための方法は、(a)短い標的遺伝子バリアントおよびフローサイクル順序を事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングして、複数のフロー位置におけるフローシグナルを含む1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来する、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
標的バリアントおよび/またはフローサイクル順序の選択
フローサイクル順序は、必ずしも4塩基フローサイクル(例えば、A、G、CおよびTを1つずつ、任意の反復順序で)に限定される必要はなく、サイクル内の塩基タイプが4タイプより多い延長フローサイクルであってもよい。延長サイクル順序を所望のサイクル数、反復して、シークエンシングプライマーを伸長することができる。例として、一部の実施形態では、延長フロー順序は、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20またはそれより多くの別々のヌクレオチドフローをフローサイクル順序で含む。サイクルは、A、G、CおよびTを少なくとも1つずつ含むことができるが、サイクルが反復される前にサイクル内の1または複数の塩基タイプを反復する。
延長フローサイクル順序は、4塩基が反復されるフローサイクル順序よりも小さいゲノムバリアント(例えばSNP)のより大きな割合を検出するのに有用であり得る。例えば、形式XYZ→XQZ[ここで、Q≠Y(およびQ、X、YおよびZは、各々、A、C、GおよびTのいずれかを1つである)]の置換SNPについて192の有効な配置がある。これらの中で、168は、シークエンシングデータセット(例えば、フローグラム)において新しいシグナル(すなわち、新しい非ゼロシグナルまたは新しいゼロシグナル)を生じさせることができる。感度の良いフロー順序と組み合わせられた新しいゼロまたは非ゼロシグナルは、複数のフロー位置にわたって伝播されるシグナル(例えば、サイクルの長さよりも長く延長することができる、フローシフトまたはサイクルシフト)を生じさせることができ、このことにより、バリアントにおいて参照と比較して同一の末尾の配列が得られる。ホモポリマー長変化ではなく、ホモポリマーの挿入または欠失が、シグナルの相違の伝播を生じさせる結果となり得ることは注目される。残りの24のバリアントは、影響を受けたフロー位置においてホモポリマー長変化を引き起こすが、そのような変化は、シグナル変化の伝播を引き起こさない。したがって、SNPの理論上最大87.5%は、2カ所より多くのフロー位置について参照(または候補)配列とは異なる新しいシグナルを生じさせる結果となり得る。上記で論じられたように、シグナルの相違の伝播は、試験シークエンシングデータセットと誤ってマッチした候補配列との尤度差を増加させる。さらに、シグナル変化の伝播は、バリアントに及ぶフロー順序に依存する。
ランダムに断片化された試験試料中の核酸分子のシークエンシングは、シークエンシングプライマーがフロー順序を使用して伸長された場合、バリアントのフロー順序コンテキストのランダムシフトを生じさせる結果となる。つまり、バリアントのフロー位置は、シークエンシングされる核酸分子の開始位置によって変わり得る。たとえ核酸分子配列中のすべてのシークエンシング開始位置が用いられたとしても、SNPの87.5%すべてについて、すべてのフローサイクルの組合せが2カ所より多くのフロー位置においてシグナル変化を検出できるとは限らない。例えば、4塩基フローサイクル順序T-A-C-Gは、SNPの41.7%について2カ所より多くのフロー位置において参照シークエンシングデータセットと異なる試験シークエンシングデータセットを生じさせる結果となり得る。本明細書中でさらに論じられるように、延長フローサイクル順序は、SNPの理論上最大量(すなわち、可能なSNPの87.5%、またはホモポリマー長の変化を生じさせる結果となるもの以外のすべてのSNP)のすべてが、2カ所より多くの位置において試験シークエンシングデータセットと参照シークエンシングデータセットとの差を生じさせることができるように設計されており、このことにより十分な高さのシークエンシング深度(すなわち、十分多い数の出発位置のサンプリング)が得られる。
延長シークエンシングフロー順序は、異なる効率(すなわち、ヒト参照ゲノム配列に使用された場合のフローごとの平均取り込み数)を有し得る。一部の実施形態では、フロー順序は、約0.6のまたはそれを超える(例えば、約0.62もしくはそれを超える、約0.64もしくはそれを超える、約0.65もしくはそれを超える、約0.66もしくはそれを超える、または約0.67もしくはそれを超える)効率を有する。一部の実施形態では、フロー順序は、約0.6~約0.7の効率を有する。フローサイクル順序および対応する推定効率の例は、表2に示されている。
一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも5%についてのSNPパーミュテーションの約50%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置(すなわち、「フロー相」)の少なくとも5%についてのSNPパーミュテーションの約60%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも5%についてのSNPパーミュテーションの約70%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所またはそれより多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも5%についてのSNPパーミュテーションの約80%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。
一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも10%についてのSNPパーミュテーションの約50%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも10%についてのSNPパーミュテーションの約60%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも10%についてのSNPパーミュテーションの約70%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所またはそれより多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも10%についてのSNPパーミュテーションの約80%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。
一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも20%についてのSNPパーミュテーションの約50%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも20%についてのSNPパーミュテーションの約60%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも20%についてのSNPパーミュテーションの約70%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所またはそれより多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも20%についてのSNPパーミュテーションの約80%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。
一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも30%についてのSNPパーミュテーションの約50%~87.5%(または約50%~約80%)がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも30%についてのSNPパーミュテーションの約60%~87.5%(または約60%~約80%)がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも30%についてのSNPパーミュテーションの約70%~87.5%(または約70%~約80%)がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所またはそれより多くのフロー位置において生じさせるように選択される。
一部の実施形態では、延長シークエンシングフロー順序は、表2における延長シークエンシングフロー順序のうちのいずれか1つである。「シフト感度」は、すべての可能なSNPパーミュテーションにわたって2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を2カ所より多くのフロー位置において生じさせる最大感度を指す。「最大シフト感度」は、その感度が維持されるフロー相の最高分率ですべての可能なSNPパーミュテーションにわたって2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間でシグナルの相違を2カ所より多くのフロー位置において生じさせる最大感度を指す。
一部の実施形態では、核酸分子をシークエンシングする方法は、(a)核酸分子をプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;(b)5つまたはそれより多くの別々のヌクレオチドフローを含む反復フローサイクル順序に従って別々のヌクレオチドフローで提供される標識された非終結ヌクレオチドを使用してプライマーを伸長するステップ;および(c)取り込まれた標識ヌクレオチドからのシグナルを検出する、またはプライマーがヌクレオチドフローにより伸長された場合のシグナルの非存在を検出するステップを含む。一部の実施形態では、フローサイクル順序は、2カ所より多くのフロー位置において、ランダムシークエンシング開始位置の5%における可能なSNPパーミュテーションの50%またはそれより多くについてのシグナル変化を誘導する。一部の実施形態では、誘導されるシグナル変化は、シグナル強度の変化、または新しい実質的にゼロ(もしくは新しいゼロ)もしくは新しい実質的に非ゼロ(もしくは新しい非ゼロ)シグナルである。一部の実施形態では、誘導されるシグナル変化は、新しい実質的にゼロ(もしくは新しいゼロ)または新しい実質的に非ゼロ(もしくは新しい非ゼロ)シグナルである。一部の実施形態では、前記フローサイクル順序は、1フロー当り0.6のまたはそれを超える塩基取り込みの効率を有する。一部の実施形態では、フローサイクルは、表2に収載されているフローサイクル順序のうちのいずれか1つである。
異なるフロー順序での再シークエンシング
検出される短い遺伝子バリアントの感度は、核酸分子のシークエンシングに使用されるフローサイクル順序に依存するので、本明細書に記載される方法を、2つまたはそれより多くの異なるフローサイクル順序を使用してシークエンシングされた試験核酸分子(または遺伝子座が重複している複数の核酸分子)の解析に適応させることができる。マッチスコアは、2つまたはそれより多くの異なるシークエンシングデータセット(異なるフローサイクル順序の結果として生じる)と1つまたは複数の候補配列とのマッチに基づいて決定することができる。上記で論じられたようなマッチスコアに基づいて、バリアントの存在または非存在をコールすることおよび/または選択候補配列をコールすることができる。
方法は、第1のフローサイクル順序を使用してシークエンシングされた試験試料に由来する試験核酸分子に関連する第1の試験シークエンシングデータセット、および第2のフローサイクル順序を使用してシークエンシングされた同じ試験核酸分子に関連する第2の試験シークエンシングデータセットを得るステップを含み得る。例えば、試験核酸分子を、第1のフローサイクル順序に従って別々のヌクレオチドフローで非終結核酸分子を提供すること、シークエンシングプライマーを伸長すること、および各ヌクレオチドフローの後にシークエンシングプライマーへのヌクレオチド取り込みの存在または非存在を検出して第1の試験シークエンシングデータセットを生成することにより、シークエンシングし;伸長されたシークエンシングプライマーを除去し;同じ試験核酸分子を、第2のフローサイクル順序に従って別々のヌクレオチドフローで非終結ヌクレオチドを提供すること、シークエンシングプライマーを伸長すること、および各ヌクレオチドフローの後にシークエンシングプライマーへのヌクレオチド取り込みの存在または非存在を検出して第2の試験シークエンシングデータセットを生成することにより、シークエンシングすることができる。
核酸分子は、異なるフローサイクル順序を使用してシークエンシングされるため、シークエンシングデータセットは異なる。図4Aおよび図4Bは、第1のフローサイクル順序(T-A-C-G)(図4A)および第2のフローサイクル順序(A-G-C-T)(図4B)を使用して決定されたTATGGTCGTCGA(配列番号1)の伸長されたプライマー配列を有する核酸分子についての例示的シークエンシングデータセットを示す。見られる通り、図4Aおよび図4Bのシークエンシングデータセットは、たとえ核酸分子配列が変化しなかったとしても、フローサイクル順序の差に起因して異なる。シークエンシングデータセット内で、第1の候補の伸長されたプライマー配列TATGGTCGTCGA(配列番号1)(黒塗りの丸印)および第2の候補の伸長されたプライマー配列TATGGTCATCGA(配列番号2)(白抜きの丸印)の塩基カウントに対応する各フロー位置における統計パラメーターを選択することができる。図4Aおよび図4Bは、フローサイクル順序がバリアント検出感度の有意な変化を来すことを実証する。例えば、第1のフローサイクル順序を使用する第1の候補配列と第2の候補配列間の差がフロー位置12~20で明らかである(図4A)一方で、第1のフローサイクル順序を使用する第1の候補配列と第2の候補配列間の差が位置17および18でのみ明らかである(図4B)。
第1のシークエンシングデータセットおよび第2のシークエンシングデータセットが1つまたは複数の候補配列[例えば、事前選択された短い標的遺伝子バリアントを有する標的配列、事前選択された短い標的遺伝子バリアントのない配列を有する参照配列、または他の可能性のある候補配列(例えば、ハプロタイプ)]にマッチする尤度を示すマッチスコアを決定することができ、短い標的遺伝子バリアントの存在または非存在をコールすることまたは選択候補配列をコールすることができる。
本明細書中で論じられるように、このプロセスは、共通の遺伝子座で重複している複数の異なる試験核酸分子をシークエンシングする場合に使用することができる。例えば、各々が、第1のフローサイクル順序を使用してシークエンシングされた試験核酸分子に関連する試験シークエンシングデータセットである、複数の第1の試験シークエンシングデータセットを得ることができ、各々が、第2のフローサイクル順序を使用してシークエンシングされた同じ核酸分子に関連する試験シークエンシングデータセットである、複数の第2の試験シークエンシングデータセットを得ることができる。第1のフローサイクル順序と第2のフローサイクル順序は、異なる。複数の第1のシークエンシングデータセットおよび複数の第2のシークエンシングデータセットが1つまたは複数の候補配列[例えば、事前選択された短い標的遺伝子バリアントを有する標的配列、事前選択された短い標的遺伝子バリアントのない配列を有する参照配列、または他の可能性のある候補配列(例えば、ハプロタイプ)]にマッチする尤度を示すマッチスコアを決定することができ、短い標的遺伝子バリアントの存在または非存在をコールすることまたは選択候補配列をコールすることができる。
図5は、試験試料中の短い遺伝子バリアントの存在または非存在を検出するための例示的方法を示す。ステップ502で、1つまたは複数の第1の試験シークエンシングデータセットが得られる。1つまたは複数の第1の試験シークエンシングデータセットは、例えば、1つもしくは複数の第1のシークエンシングデータセットを受信することにより、または1つもしくは複数の核酸分子をシークエンシングすることにより、得ることができる。第1の試験シークエンシングデータセットの各々は、試験試料に由来する異なる核酸分子に関連している。第1のシークエンシングデータセットは、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定される。得られた1つまたは複数の第1の試験シークエンシングデータセットの各々は、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む。ステップ504で、1つまたは複数の第2の試験シークエンシングデータセットが得られる。1つまたは複数の第2の試験シークエンシングデータセットは、例えば、1つもしくは複数の第2の試験シークエンシングデータセットを受信することにより、または1つもしくは複数の核酸分子をシークエンシングすることにより、得ることができる。第2の試験シークエンシングデータセットの各々は、第1の試験シークエンシングデータセットと同じ核酸分子に関連している。つまり、核酸分子は、第1のシークエンシングデータセットと第2のシークエンシングデータセットの両方に関連している。第2のシークエンシングデータセットは、第1のフローサイクル順序とは異なる第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定される。得られた1つまたは複数の第2の試験シークエンシングデータセットの各々は、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む。ステップ506で、第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、マッチスコアが決定される。マッチスコアは、第1の試験シークエンシングデータセット、試験シークエンシングデータセット、または両方が、1つまたは複数の候補配列からの候補配列にマッチすることを示す。ステップ508で、決定されたマッチスコアを使用して試験試料中の短い遺伝子バリアントの存在または非存在がコールされる。
図6は、試験試料中の短い遺伝子バリアントの存在または非存在を検出するための別の例示的方法を示す。ステップ602で、短い標的遺伝子バリアントが選択される。短い標的遺伝子バリアントは、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータと、参照配列に関連するシークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、第1のフローサイクル順序または第2のフローサイクル順序または両方に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なるように選択され、第1のフローサイクル順序と第2のフローサイクル順序は異なり、フロー位置はヌクレオチドフローに対応する。ステップ604で、1つまたは複数の第1の試験シークエンシングデータセットが得られる。1つまたは複数の第1の試験シークエンシングデータセットは、例えば、1つもしくは複数の第1のシークエンシングデータセットを受信することにより、または1つもしくは複数の核酸分子をシークエンシングすることにより、得ることができる。第1の試験シークエンシングデータセットの各々は、試験試料に由来する異なる核酸分子に関連している。第1のシークエンシングデータセットは、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定される。得られた1つまたは複数の第1の試験シークエンシングデータセットの各々は、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む。ステップ606で、1つまたは複数の第2の試験シークエンシングデータセットが得られる。1つまたは複数の第2の試験シークエンシングデータセットは、例えば、1つもしくは複数の第2の試験シークエンシングデータセットを受信することにより、または1つもしくは複数の核酸分子をシークエンシングすることにより、得ることができる。第2の試験シークエンシングデータセットの各々は、第1の試験シークエンシングデータセットと同じ核酸分子に関連している。つまり、核酸分子は、第1のシークエンシングデータセットと第2のシークエンシングデータセットの両方に関連している。第2のシークエンシングデータセットは、第1のフローサイクル順序とは異なる第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定される。得られた1つまたは複数の第2の試験シークエンシングデータセットの各々は、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む。ステップ608で、第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、マッチスコアが決定される。マッチスコアは、第1の試験シークエンシングデータセット、試験シークエンシングデータセット、または両方が、1つまたは複数の候補配列(これは参照配列を含み得る)からの候補配列にマッチすることを示す。ステップ610で、決定されたマッチスコアを使用して試験試料中の短い遺伝子バリアントの存在または非存在がコールされる。
一部の実施形態では、試験試料中の短い遺伝子バリアントの存在または非存在を検出するための方法は、(a)1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各第1の試験シークエンシングデータセットが、試験試料に由来する異なる試験核酸分子に関連し、第1の試験シークエンシングデータセットが、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、1つまたは複数の第1の試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(b)1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットと同じ試験核酸分子に関連し、第2の試験シークエンシングデータセットが、第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、第1のフローサイクル順序と第2のフローサイクル順序が異なり、試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(c)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットの各々について、1つまたは複数の候補配列についてのマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列のマッチする尤度を示す、ステップ;および(d)決定されたマッチスコアを使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップを含む。
一部の実施形態では、試験試料中の短い遺伝子バリアントの存在または非存在を検出するための方法は、(a)第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各々の第1の試験シークエンシングデータセットが、異なる試験核酸分子に関連している、ステップ;(b)第1のフローサイクル順序と異なる第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する同じ1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各々の第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットの1つと同じ試験核酸分子に関連している、ステップ;(c)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列に対するマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;および(d)決定されたマッチスコアを使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップを含む。
一部の実施形態では、試験試料中の短い遺伝子バリアントの存在または非存在を検出するための方法は、(a)1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各第1の試験シークエンシングデータセットが、試験試料に由来する異なる試験核酸分子に関連し、第1の試験シークエンシングデータセットが、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、1つまたは複数の第1の試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(b)1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットと同じ試験核酸分子に関連し、第2の試験シークエンシングデータセットが、第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、第1のフローサイクル順序および第2のフローサイクル順序は異なり、試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(c)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列についてのマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;(d)2つまたはそれより多くの異なる候補配列から候補配列を選択するステップであって、選択候補配列が、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方との最高尤度マッチを有する、ステップ;および(e)選択候補配列を使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とは、第1のフローサイクル順序および/または第2のフローサイクル順序によれば、2カ所またはそれより多くの(または3カ所もしくはそれより多くの、または1もしくは複数のフローサイクルにわたっての)フロー位置(これらの位置は、連続的であることもあり、または非連続であることもある)において異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントの存在または非存在を検出するための方法は、(a)第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各々の第1の試験シークエンシングデータセットが、異なる試験核酸分子に関連している、ステップ;(b)第1のフローサイクル順序と異なる第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する同じ1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各々の第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットの1つと同じ試験核酸分子に関連している、ステップ;(c)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列に対するマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;(d)2つまたはそれより多くの異なる候補配列から候補配列を選択するステップであって、選択候補配列が、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方との最高尤度マッチを有する、ステップ;および(e)選択候補配列を使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とは、第1のフローサイクル順序および/または第2のフローサイクル順序によれば、2カ所またはそれより多くの(または3カ所もしくはそれより多くの、または1もしくは複数のフローサイクルにわたっての)フロー位置(これらの位置は、連続的であることもあり、または非連続であることもある)において異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントの存在または非存在を検出するための方法は、(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、第1のフローサイクル順序または第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所またはそれより多くのフロー位置において異なり、第1のフローサイクル順序と第2のフローサイクル順序とが異なり、フロー位置がヌクレオチドフローに対応する、ステップ;(b)1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各第1の試験シークエンシングデータセットが、試験試料に由来する異なる試験核酸分子に関連し、第1の試験シークエンシングデータセットが、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、1つまたは複数の第1の試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(c)1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットと同じ試験核酸分子に関連し、第2の試験シークエンシングデータセットが、第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(d)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列についてのマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;および(e)決定されたマッチスコアを使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップを含む。
一部の実施形態では、試験試料中の短い遺伝子バリアントの存在または非存在を検出するための方法は、(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、第1のフローサイクル順序または第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所またはそれより多くのフロー位置において異なり、第1のフローサイクル順序と第2のフローサイクル順序とが異なり、フロー位置がヌクレオチドフローに対応する、ステップ;(b)第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各々の第1の試験シークエンシングデータセットが、異なる試験核酸分子に関連している、ステップ;(c)第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する同じ1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各々の第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットの1つと同じ試験核酸分子に関連している、ステップ;(d)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列に対するマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;および(e)決定されたマッチスコアを使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップを含む。
一部の実施形態では、試験試料中の短い遺伝子バリアントの存在または非存在を検出するための方法は、(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、第1のフローサイクル順序または第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所またはそれより多くのフロー位置において異なり、第1のフローサイクル順序と第2のフローサイクル順序とが異なり、フロー位置がヌクレオチドフローに対応する、ステップ;(b)1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各第1の試験シークエンシングデータセットが、試験試料に由来する異なる試験核酸分子に関連し、第1の試験シークエンシングデータセットが、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、1つまたは複数の第1の試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(c)1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットと同じ試験核酸分子に関連し、第2の試験シークエンシングデータセットが、第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(d)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列(これは参照配列を含み得る)についてのマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;(e)2つまたはそれより多くの異なる候補配列から候補配列を選択するステップであって、選択候補配列が、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方との最高尤度マッチを有する、ステップ;および(f)選択候補配列を使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とは、第1のフローサイクル順序および/または第2のフローサイクル順序によれば、2カ所またはそれより多くの(または3カ所もしくはそれより多くの、または1もしくは複数のフローサイクルにわたっての)フロー位置(これらの位置は、連続的であることもあり、または非連続であることもある)において異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントの存在または非存在を検出するための方法は、(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、第1のフローサイクル順序または第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所またはそれより多くのフロー位置において異なり、第1のフローサイクル順序と第2のフローサイクル順序とが異なり、フロー位置がヌクレオチドフローに対応する、ステップ;(b)第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各々の第1の試験シークエンシングデータセットが、異なる試験核酸分子に関連している、ステップ;(c)第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する同じ1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各々の第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットの1つと同じ試験核酸分子に関連している、ステップ;(d)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列に対するマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;(e)2つまたはそれより多くの異なる候補配列(これらは参照配列を含み得る)から候補配列を選択するステップであって、選択候補配列が、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方との最高尤度マッチを有する、ステップ;および(f)選択候補配列を使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とは、第1のフローサイクル順序および/または第2のフローサイクル順序によれば、2カ所またはそれより多くの(または3カ所もしくはそれより多くの、または1もしくは複数のフローサイクルにわたっての)フロー位置(これらの位置は、連続的であることもあり、または非連続であることもある)において異なる。
システム、デバイスおよびレポート
図に関連して説明されたものを含む、上記で説明された操作は、図7に描かれている1つまたは複数の構成要素により、必要に応じて実行される。どのようにすれば他のプロセス、例えば、上記で説明された操作のすべてまたは一部の組合せまたは部分的組合せを図7に描かれている構成要素に基づいて実行することができるのかは、当業者には明らかであろう。どのようにすれば本明細書に記載される方法、技法、システムおよびデバイスを互いに、全体として、または部分的に組み合わせることができるのかもまた、それらの方法、技法、システムおよび/またはデバイスが、図7に描かれている構成要素により実行されるか否か、および/または提供されるか否かを問わず、当業者には明らかであろう。
図7は、一実施形態に従ってコンピュータデバイスの例を説明する。デバイス700は、ネットワークに接続されたホストコンピュータであることがある。デバイス700は、クライアントコンピュータまたはサーバーであることもある。図7に示されているように、デバイス700は、任意の好適なタイプのマイクロプロセッサーベースのデバイス、例えば、パーソナルコンピュータ、ワークステーション、サーバー、またはハンドヘルドコンピュータデバイス(携帯用電子デバイス)、例えば電話機もしくはタブレットであり得る。デバイスは、例えば、プロセッサー710、入力デバイス720、出力デバイス730、記憶装置740、および通信デバイス760のうちの1つまたは複数を含み得る。入力デバイス720および出力デバイス730は、一般に、上記のものに対応することができ、コンピュータと接続可能または一体型のどちらかであり得る。
入力デバイス720は、入力を行なう任意の好適なデバイス、例えば、タッチスクリーン、キーボードもしくはキーパッド、マウス、または音声認識デバイスであり得る。出力デバイス730は、出力を行なう任意の好適なデバイス、例えば、タッチパネル、触覚デバイス、またはスピーカーであり得る。
記憶装置740は、RAM、キャッシュメモリー、ハードドライブまたは脱着式保存ディスクを含む、電子、磁気または光メモリーなどの、記憶域を提供する任意の好適なデバイスであり得る。通信デバイス760は、ネットワークを用いてシグナルを送信および受信することができる任意の好適なデバイス、例えば、ネットワークインターフェースチップまたはデバイスを含み得る。コンピュータの構成要素を、任意の好適な方法で、例えば物理的バスを介してまたは無線で、接続することができる。
記憶装置740に記憶され、プロセッサー710により実行され得る、ソフトウェア750は、例えば、本開示の機能性を具現化する(例えば、上記のデバイスで具現化されるような)プログラミングを含むことができる。
上記のものなどの命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、任意の非一過性コンピュータ可読記憶媒体であって、ソフトウェアに関連する命令を命令実行システム、装置またはデバイスから取り出し、命令を実行することができる可読記憶媒体の中に、ソフトウェア750を記憶および/またはトランスポートすることもできる。本開示に関して、コンピュータ可読記憶媒体は、命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、プログラミングを収容または記憶することができる任意の媒体、例えば、記憶装置740であり得る。
上記のものなどの命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、任意のトランスポート媒体であって、ソフトウェアに関連する命令を命令実行システム、装置またはデバイスから取り出し、命令を実行することができるトランスポート媒体の中に、ソフトウェア750を伝播することもできる。本開示に関して、トランスポート媒体は、命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、プログラミングを伝える、伝播するまたはトランスポートすることができる、任意の媒体であり得る。トランスポート可読媒体としては、電子、磁気、光、電磁または赤外有線もしくは無線伝播媒体を挙げることができるが、これらに限定されない。
デバイス700をネットワークに接続することができ、これは任意の好適なタイプの相互接続通信システムであり得る。ネットワークは、任意の好適な通信プロトコルを実行することができ、ネットワークを任意の好適なセキュリティープロトコルにより保護することができる。ネットワークは、ネットワークシグナルの通信および受信を実行することができる任意の好適な構成のネットワークリンク、例えば、無線ネットワーク接続、T1もしくはT3ライン、ケーブルネットワーク、DSL、または電話線を含むことができる。
デバイス700は、ネットワークでの操作に好適な任意の操作システムを実装することができる。ソフトウェア750を任意の好適なプログラミング言語、例えば、C、C++、Java(登録商標)またはPythonで書くことができる。様々な実施形態では、本開示の機能性を具現化するアプリケーションソフトウェアを、例えば、異なる配置で、例えばクライアント/サーバー構成で、またはウェブベースのアプリケーションもしくはウェブサービスのようなウェブブラウザによって、展開することができる。
本明細書に記載される方法は、解析方法を使用して決定された情報を報告するステップ、および/または解析方法を使用して決定された情報を含むレポートを生成するステップを、必要に応じてさらに含む。例えば、一部の実施形態では、方法は、対象に由来する(例えば、対象のゲノム内の)ポリヌクレオチドにおけるバリアントの同定に関する__を報告するステップまたはそれを含むレポートを生成するステップをさらに含む。報告される情報、またはレポートの中の情報は、例えば、参照配列にマッピングされたカップリングされたシークエンシングリードペアの遺伝子座、検出されたバリアント(例えば、検出された構造バリアントまたは検出されたSNP)、1つもしくは複数のアセンブルされたコンセンサス配列、および/または1つもしくは複数のアセンブルされたコンセンサス配列についての検証統計量に関連し得る。受信者、例えば、臨床医、対象または研究者に、レポートを配布することができ、または情報を報告することができる。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)1または複数台のプロセッサーで、短い標的遺伝子バリアントを選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップ。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングして、複数のフロー位置におけるフローシグナルを含む1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来する、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップ。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)短い標的遺伝子バリアントを事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、事前選択された短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップ。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)短い標的遺伝子バリアントを事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングして、複数のフロー位置におけるフローシグナルを含む1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来する、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップ。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)短い標的遺伝子バリアントおよびフローサイクル順序を事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、事前選択された短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップ。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)短い標的遺伝子バリアントおよびフローサイクル順序を事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングして、複数のフロー位置におけるフローシグナルを含む1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来する、ステップ;(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップ。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各第1の試験シークエンシングデータセットが、試験試料に由来する異なる試験核酸分子に関連し、第1の試験シークエンシングデータセットが、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、1つまたは複数の第1の試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(b)1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットと同じ試験核酸分子に関連し、第2の試験シークエンシングデータセットが、第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、第1のフローサイクル順序および第2のフローサイクル順序は異なり、試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(c)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列についてのマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;および(d)決定されたマッチスコアを使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップ。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各々の第1の試験シークエンシングデータセットが、異なる試験核酸分子に関連している、ステップ;(b)第1のフローサイクル順序と異なる第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する同じ1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各々の第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットの1つと同じ試験核酸分子に関連している、ステップ;(c)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列に対するマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;および(d)決定されたマッチスコアを使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップ。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各第1の試験シークエンシングデータセットが、試験試料に由来する異なる試験核酸分子に関連し、第1の試験シークエンシングデータセットが、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、1つまたは複数の第1の試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(b)1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットと同じ試験核酸分子に関連し、第2の試験シークエンシングデータセットが、第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、第1のフローサイクル順序および第2のフローサイクル順序は異なり、試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(c)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列についてのマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;(d)2つまたはそれより多くの異なる候補配列から候補配列を選択するステップであって、選択候補配列が、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方との最高尤度マッチを有する、ステップ;および(e)選択候補配列を使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップ。一部の実施形態では、2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とは、第1のフローサイクル順序および/または第2のフローサイクル順序によれば、2カ所またはそれより多くの(または3カ所もしくはそれより多くの、または1もしくは複数のフローサイクルにわたっての)フロー位置(これらの位置は、連続的であることもあり、または非連続であることもある)において異なる。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各々の第1の試験シークエンシングデータセットが、異なる試験核酸分子に関連している、ステップ;(b)第1のフローサイクル順序と異なる第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する同じ1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各々の第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットの1つと同じ試験核酸分子に関連している、ステップ;(c)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列に対するマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;(d)2つまたはそれより多くの異なる候補配列から候補配列を選択するステップであって、選択候補配列が、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方との最高尤度マッチを有する、ステップ;および(e)選択候補配列を使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップ。一部の実施形態では、2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とは、第1のフローサイクル順序および/または第2のフローサイクル順序によれば、2カ所またはそれより多くの(または3カ所もしくはそれより多くの、または1もしくは複数のフローサイクルにわたっての)フロー位置(これらの位置は、連続的であることもあり、または非連続であることもある)において異なる。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、第1のフローサイクル順序または第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所またはそれより多くのフロー位置において異なり、第1のフローサイクル順序と第2のフローサイクル順序とが異なり、フロー位置がヌクレオチドフローに対応する、ステップ;(b)1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各第1の試験シークエンシングデータセットが、試験試料に由来する異なる試験核酸分子に関連し、第1の試験シークエンシングデータセットが、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、1つまたは複数の第1の試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(c)1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットと同じ試験核酸分子に関連し、第2の試験シークエンシングデータセットが、第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(d)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列についてのマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;および(e)決定されたマッチスコアを使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップ。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、第1のフローサイクル順序または第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所またはそれより多くのフロー位置において異なり、第1のフローサイクル順序と第2のフローサイクル順序とが異なり、フロー位置がヌクレオチドフローに対応する、ステップ;(b)第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各々の第1の試験シークエンシングデータセットが、異なる試験核酸分子に関連している、ステップ;(c)第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する同じ1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各々の第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットの1つと同じ試験核酸分子に関連している、ステップ;(d)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列に対するマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;および(e)決定されたマッチスコアを使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップ。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、第1のフローサイクル順序または第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所またはそれより多くのフロー位置において異なり、第1のフローサイクル順序と第2のフローサイクル順序とが異なり、フロー位置がヌクレオチドフローに対応する、ステップ;(b)1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各第1の試験シークエンシングデータセットが、試験試料に由来する異なる試験核酸分子に関連し、第1の試験シークエンシングデータセットが、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、1つまたは複数の第1の試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(c)1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットと同じ試験核酸分子に関連し、第2の試験シークエンシングデータセットが、第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;(d)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列(これは参照配列を含み得る)についてのマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;(e)2つまたはそれより多くの異なる候補配列から候補配列を選択するステップであって、選択候補配列が、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方との最高尤度マッチを有する、ステップ;および(f)選択候補配列を使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップ。一部の実施形態では、2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とは、第1のフローサイクル順序および/または第2のフローサイクル順序によれば、2カ所またはそれより多くの(または3カ所もしくはそれより多くの、または1もしくは複数のフローサイクルにわたっての)フロー位置(これらの位置は、連続的であることもあり、または非連続であることもある)において異なる。
一部の実施形態では、1または複数台のプロセッサーと、以下についての命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体とを含むシステムが存在する:(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、第1のフローサイクル順序または第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所またはそれより多くのフロー位置において異なり、第1のフローサイクル順序と第2のフローサイクル順序とが異なり、フロー位置がヌクレオチドフローに対応する、ステップ;(b)第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各々の第1の試験シークエンシングデータセットが、異なる試験核酸分子に関連している、ステップ;(c)第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験試料に由来する同じ1つまたは複数の試験核酸分子をシークエンシングして、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各々の第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットの1つと同じ試験核酸分子に関連している、ステップ;(d)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットごとに、1つまたは複数の候補配列に対するマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列にマッチする尤度を示す、ステップ;(e)2つまたはそれより多くの異なる候補配列(これらは参照配列を含み得る)から候補配列を選択するステップであって、選択候補配列が、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方との最高尤度マッチを有する、ステップ;および(f)選択候補配列を使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップ。一部の実施形態では、2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とは、第1のフローサイクル順序および/または第2のフローサイクル順序によれば、2カ所またはそれより多くの(または3カ所もしくはそれより多くの、または1もしくは複数のフローサイクルにわたっての)フロー位置(これらの位置は、連続的であることもあり、または非連続であることもある)において異なる。
一部の実施形態では、本明細書に記載される方法は、図7で説明される構成要素のうちの1つまたは複数を使用して遂行され得る、コンピュータ実装方法である。例えば、一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するためのコンピュータ実装方法は、(a)1または複数台のプロセッサーを使用して、短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1または複数台のプロセッサーで、1つまたは複数の試験シークエンシングデータセットを受信するステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)1または複数台のプロセッサーを使用して、試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1または複数台のプロセッサーおよび1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するためのコンピュータ実装方法は、(a)1または複数台のプロセッサーを使用して、短い標的遺伝子バリアントを事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1または複数台のプロセッサーで、1つまたは複数の試験シークエンシングデータセットを受信するステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、事前選択された短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)1または複数台のプロセッサーで、試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1または複数台のプロセッサーで、1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するためのコンピュータ実装方法は、(a)1または複数台のプロセッサーを使用して、短い標的遺伝子バリアントおよびフローサイクル順序を事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1または複数台のプロセッサーで、1つまたは複数の試験シークエンシングデータセットを受信するステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、事前選択された短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)1または複数台のプロセッサーで、試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1または複数台のプロセッサーで、1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するためのコンピュータ実装方法は、(a)1または複数台のプロセッサーで、短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1または複数台のプロセッサーで、1つまたは複数の試験シークエンシングデータセットを受信するステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)1または複数台のプロセッサーで、試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1または複数台のプロセッサーで、1つまたは複数の決定されたマッチスコアを使用して、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するためのコンピュータ実装方法は、(a)1または複数台のプロセッサーで、短い標的遺伝子バリアントを事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1または複数台のプロセッサーで、1つまたは複数の試験シークエンシングデータセットを受信するステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、事前選択された短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)1または複数台のプロセッサーで、試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1または複数台のプロセッサーで、1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
一部の実施形態では、試験試料中の短い遺伝子バリアントを検出するためのコンピュータ実装方法は、(a)1または複数台のプロセッサーで、短い標的遺伝子バリアントおよびフローサイクル順序を事前選択するステップであって、事前選択された短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;(b)1または複数台のプロセッサーで、1つまたは複数の試験シークエンシングデータセットを受信するステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、事前選択された短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、事前選択されたフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;(c)1または複数台のプロセッサーで、試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および(d)1または複数台のプロセッサーで、1つまたは複数の決定されたマッチスコアを使用して、試験試料中の事前選択された短い標的遺伝子バリアントの存在または非存在をコールするステップを含む。一部の実施形態では、方法は、試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップをさらに含み、このバイオマーカーパネルは、短い標的遺伝子バリアントを含む。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、2カ所より多くのフロー位置(例えば、2カ所より多くの連続するフロー位置、または2カ所より多くの非連続のフロー位置)において異なる。一部の実施形態では、標的シークエンシングデータセットと、参照シークエンシングデータセットとは、1または複数のフローサイクルにわたって異なる。
例示的実施形態
以下の実施形態は、例示的なものであり、請求項記載の本発明の範囲を限定するように意図されたものではない。
実施形態1. 試験試料中の短い遺伝子バリアントを検出するための方法であって、
(a)短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所より多くのフロー位置において異なり、フロー位置が、ヌクレオチドフローに対応する、ステップ;
(b)1つまたは複数の試験シークエンシングデータセットを得るステップであって、各試験シークエンシングデータセットが、試験核酸分子に関連し、各試験核酸分子が、短い標的遺伝子バリアントに関連する遺伝子座に少なくとも部分的に重なり、かつ試験試料に由来し、1つまたは複数の試験シークエンシングデータセットが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることにより決定され、試験シークエンシングデータセットが、複数のフロー位置におけるフローシグナルを含む、ステップ;
(c)試験シークエンシングデータセットに関連する試験核酸分子の各々について、核酸分子に関連する試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコア、または核酸分子に関連する試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定するステップ;および
(d)1つまたは複数の決定されたマッチスコアを使用して、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップ
を含む方法。
実施形態2. 得るステップが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングすることを含む、実施形態1の方法。
実施形態3. 短い標的遺伝子バリアントが、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップの前に事前選択される、実施形態1または実施形態2の方法。
実施形態4. 短い標的遺伝子バリアントが、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップの後にコールの信頼度に基づいて選択される、実施形態1または実施形態2に記載の方法。
実施形態5. 試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップを含み、バイオマーカーパネルが、短い標的遺伝子バリアントを含む、実施形態1から4のいずれか1つの方法。
実施形態6. フローサイクル順序を選択するステップを含む、実施形態1から5のいずれか1つの方法。
実施形態7. 標的シークエンシングデータセットが、予想標的シークエンシングデータセットであり、または参照シークエンシングデータセットが、予想参照シークエンシングデータセットである、実施形態1から6のいずれか1つの方法。
実施形態8. 標的シークエンシングデータセットおよび予想参照シークエンシングデータセットが、標的配列および参照配列をin silicoでシークエンシングすることにより得られる、実施形態7の方法。
実施形態9. 標的シークエンシングデータセットと参照シークエンシングデータとが、2カ所より多くの非連続のフロー位置において異なる、実施形態1から8のいずれか1つの方法。
実施形態10. 標的シークエンシングデータセットと参照シークエンシングデータとが、2カ所より多くの連続するフロー位置において異なる、実施形態1から9のいずれか1つの方法。
実施形態11. 標的配列と参照配列とが、Xカ所の塩基位置において異なり、標的シークエンシングデータセットと参照シークエンシングデータとが、(X+2)カ所またはそれより多くの連続するフロー位置において異なる、実施形態1から10のいずれか1つの方法。
実施形態12. (X+2)カ所のフロー位置の相違が、実質的にゼロに等しい値と実質的にゼロより大きい値の間の相違を含む、実施形態11の方法。
実施形態13. 標的シークエンシングデータセットと参照シークエンシングデータセットとが、1または複数のフローサイクルにわたって異なる、実施形態1から12のいずれか1つの方法。
実施形態14. フローシグナルが、各フロー位置におけるシークエンシングされた試験核酸分子の塩基の数を示す塩基カウントを含む、実施形態1から13のいずれか1つの方法。
実施形態15. フローシグナルが、各フロー位置における少なくとも1塩基カウントの尤度を示す統計パラメーターを含み、塩基カウントが、フロー位置におけるシークエンシングされた試験核酸分子の塩基の数を示す、実施形態1から14のいずれか1つの方法。
実施形態16. フローシグナルが、各フロー位置における複数の塩基カウントの尤度を示す統計パラメーターを含み、各塩基カウントが、フロー位置におけるシークエンシングされた試験核酸分子の塩基の数を示す、実施形態1から15のいずれか1つの方法。
実施形態17. ステップ(c)が、
試験シークエンシングデータセット内の各フロー位置における統計パラメーターであって、そのフロー位置における標的配列の塩基カウントに対応する統計パラメーターを選択すること、および試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコアを決定すること;または
試験シークエンシングデータセット中の各フロー位置における統計パラメーターであって、そのフロー位置における参照配列の塩基カウントに対応する統計パラメーターを選択すること、および試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定すること
を含む、実施形態16の方法。
実施形態18. ステップ(c)で決定されるマッチスコアが、試験シークエンシングデータセット内のフロー位置にわたっての選択された統計パラメーターの組み合わされた値である、実施形態17の方法。
実施形態19. ステップ(c)が、試験シークエンシングデータセットが標的配列にマッチする尤度を示すマッチスコアを決定することを含む、実施形態1から18のいずれか1つの方法。
実施形態20. ステップ(c)が、試験シークエンシングデータセットが参照配列にマッチする尤度を示すマッチスコアを決定することを含む、実施形態1から19のいずれか1つの方法。
実施形態21. 1つまたは複数の試験シークエンシングデータセットが、複数の試験シークエンシングデータセットを含む、実施形態1から20のいずれか1つの方法。
実施形態22. 短い標的遺伝子バリアントの存在または非存在が、1つまたは複数の試験シークエンシングデータセットの各々について別々にコールされる、実施形態21の方法。
実施形態23. 複数の試験シークエンシングデータセットの少なくとも一部分が、異なる試験シークエンシング開始位置を有する異なる試験核酸分子に関連する、実施形態21または22の方法。
実施形態24. フローサイクル順序が、同じ順序で反復される4つの別々のフローを含む、実施形態1から23のいずれか1つの方法。
実施形態25. フローサイクル順序が、5つまたはそれより多くの別々のフローを含む、実施形態1から24のいずれか1つの方法。
実施形態26. 1または複数台のプロセッサーを使用して短い標的遺伝子バリアントを選択するステップ;
1つまたは複数の試験シークエンシングデータセットを1または複数台のプロセッサーで受信することにより、1つまたは複数の試験シークエンシングデータセットを得るステップ;
1または複数台のプロセッサーを使用して1つまたは複数のマッチスコアを決定するステップ;および
1または複数台のプロセッサーを使用して試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップ
を含むコンピュータ実装方法である、実施形態1から25のいずれか1つの方法。
実施形態27. 1または複数台のプロセッサーと、
実施形態1から26のいずれか1つの方法を実行するための命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体と
を含むシステム。
実施形態28. 試験試料中の短い遺伝子バリアントを検出するための方法であって、
(a)1つまたは複数の第1の試験シークエンシングデータセットを得るステップであって、各第1の試験シークエンシングデータセットが、試験試料に由来する異なる試験核酸分子に関連し、第1の試験シークエンシングデータセットが、第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、1つまたは複数の第1の試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;
(b)1つまたは複数の第2の試験シークエンシングデータセットを得るステップであって、各第2の試験シークエンシングデータセットが、第1の試験シークエンシングデータセットと同じ試験核酸分子に関連し、第2の試験シークエンシングデータセットが、第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して1つまたは複数の試験核酸分子をシークエンシングすることにより決定され、第1のフローサイクル順序と第2のフローサイクル順序が異なり、試験シークエンシングデータセットが、ヌクレオチドフローに対応するフロー位置におけるフローシグナルを含む、ステップ;
(c)第1のシークエンシングデータセットおよび第2のシークエンシングデータセットの各々について、1つまたは複数の候補配列についてのマッチスコアを決定するステップであって、マッチスコアが、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方が1つまたは複数の候補配列からの候補配列のマッチする尤度を示す、ステップ;および
(d)決定されたマッチスコアを使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップ
を含む方法。
実施形態29. 第1のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングするステップ、および第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して試験核酸分子をシークエンシングするステップを含む、実施形態28の方法。
実施形態30. マッチスコアが、第1の試験シークエンシングデータセットが候補配列にマッチする尤度、または第2の試験シークエンシングデータセットが候補配列にマッチする尤度を示す、実施形態28または29の方法。
実施形態31. マッチスコアが、第1の試験シークエンシングデータセットと第2のシークエンシングデータセット両方が候補配列にマッチする尤度を示す、実施形態28または29の方法。
実施形態32. 1つまたは複数の候補配列が、2つまたはそれより多くの異なる候補配列を含み、方法が、第1のシークエンシングデータセットおよび第2のシークエンシングデータセットに関連する核酸分子の各々について:
2つまたはそれより多くの異なる候補配列から候補配列を選択するステップであって、選択候補配列が、第1の試験シークエンシングデータセット、第2の試験シークエンシングデータセット、または両方との最高尤度マッチを有する、ステップ;および
選択候補配列を使用して、試験試料中の短い遺伝子バリアントの存在または非存在をコールするステップ
を含む、実施形態28から31のいずれか1つの方法。
実施形態33. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、第1のフローサイクル順序または第2のフローサイクル順序によれば、2カ所またはそれより多くのフロー位置において異なる、実施形態32の方法。
実施形態34. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、第1のフローサイクル順序および第2のフローサイクル順序の両方によれば、2カ所またはそれより多くのフロー位置において異なる、実施形態32の方法。
実施形態35. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、第1のフローサイクル順序または第2のフローサイクル順序によれば、2カ所またはそれより多くの非連続のフロー位置において異なる、実施形態32の方法。
実施形態36. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、第1のフローサイクル順序および第2のフローサイクル順序の両方によれば、2カ所またはそれより多くの非連続のフロー位置において異なる、実施形態32の方法。
実施形態37. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、第1のフローサイクル順序または第2のフローサイクル順序によれば、2カ所またはそれより多くの連続のフロー位置において異なる、実施形態32の方法。
実施形態38. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、第1のフローサイクル順序および第2のフローサイクル順序の両方によれば、2カ所またはそれより多くの連続のフロー位置において異なる、実施形態32の方法。
実施形態39. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、第1のフローサイクル順序または第2のフローサイクル順序によれば、3カ所またはそれより多くのフロー位置において異なる、実施形態32の方法。
実施形態40. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、第1のフローサイクル順序および第2のフローサイクル順序の両方によれば、3カ所またはそれより多くのフロー位置において異なる、実施形態32の方法。
実施形態41. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、Xカ所の塩基位置において異なり、試験核酸分子に関連する試験シークエンシングデータセットと、2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列とが、第1のフローサイクル順序または第2のフローサイクル順序によれば、(X+2)カ所またはそれより多くのフロー位置において異なる、実施形態32の方法。
実施形態42. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、Xカ所の塩基位置において異なり、試験核酸分子に関連する試験シークエンシングデータセットと、2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列とが、第1のフローサイクル順序および第2のフローサイクル順序の両方によれば、(X+2)カ所またはそれより多くのフロー位置において異なる、実施形態32の方法。
実施形態43. (X+2)カ所のフロー位置の相違が、実質的にゼロに等しい値と実質的にゼロより大きい値の間の相違を含む、実施形態41または42の方法。
実施形態44. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、第1のフローサイクル順序または第2のフローサイクル順序によれば、1または複数のフローサイクルにわたって異なる、実施形態32の方法。
実施形態45. 2つまたはそれより多くの異なる候補配列からの少なくとも1つの非選択候補配列と、選択候補配列とが、第1のフローサイクル順序および第2のフローサイクル順序の両方によれば、1または複数のフローサイクルにわたって異なる、実施形態32の方法。
実施形態46. フローシグナルが、各フロー位置におけるシークエンシングされた試験核酸分子の塩基の数を示す塩基カウントを含む、実施形態28から45のいずれか1つの方法。
実施形態47. フローシグナルが、各フロー位置における少なくとも1塩基カウントの尤度を示す統計パラメーターを含み、塩基カウントが、フロー位置におけるシークエンシングされた試験核酸分子の塩基の数を示す、実施形態28から46のいずれか1つの方法。
実施形態48. フローシグナルが、各フロー位置における複数の塩基カウントの尤度を示す統計パラメーターを含み、各塩基カウントが、フロー位置におけるシークエンシングされた試験核酸分子の塩基の数を示す、実施形態28から47のいずれか1つの方法。
実施形態49. マッチスコアを決定するステップが、第1の試験シークエンシングデータセットおよび第2の試験シークエンシングデータセットにおける各フロー位置における統計パラメーターであって、候補配列のそのフロー位置における塩基カウントに対応する統計パラメーターを、1つまたは複数の異なる候補配列の各々について選択することを含む、実施形態48の方法。
実施形態50. 1つまたは複数の異なる候補配列について、各フロー位置における候補配列の塩基カウントを含む候補シークエンシングデータセットを生成するステップを含む、実施形態49の方法。
実施形態51. 候補シークエンシングデータセットが、in silicoで生成される、実施形態50の方法。
実施形態52. マッチスコアが、第1の試験シークエンシングデータセットおよび第2の試験シークエンシングデータセットにおけるフロー位置にわたって選択された統計パラメーターの組み合わされた値である、実施形態49から51のいずれか1つの方法。
実施形態53. 試験核酸分子の少なくとも一部分が、異なるシークエンシング開始位置を有する、実施形態28から52のいずれか1つの方法。
実施形態54. 短い標的遺伝子バリアントを選択するステップであって、短い標的遺伝子バリアントを含む標的配列に関連する標的シークエンシングデータセットと、参照配列に関連する参照シークエンシングデータセットとが、標的シークエンシングデータセットおよび参照シークエンシングデータセットが、第1のフローサイクル順序または第2のフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して標的配列をシークエンシングすることにより得られた場合、2カ所またはそれより多くのフロー位置において異なり、第1のフローサイクル順序と第2のフローサイクル順序とが異なり、フロー位置がヌクレオチドフローに対応する、ステップ
を含み、
1つまたは複数の候補配列が、標的配列および参照配列を含む、
実施形態28から52のいずれか1つの方法。
実施形態55. 短い標的遺伝子バリアントが、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップの前に事前選択される、実施形態54の方法。
実施形態56. 短い標的遺伝子バリアントが、試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップの後にコールの信頼度に基づいて選択される、実施形態54の方法。
実施形態57. 試験試料に関連する対象についての個別化バイオマーカーパネルを生成するステップを含み、バイオマーカーパネルが、試験試料中に存在する短い標的遺伝子バリアントを含む、実施形態56の方法。
実施形態58. 参照シークエンシングデータセットが、第1のフローサイクル順序または第2のフローサイクル順序に従って別々のフローで提供される非終結ヌクレオチドを使用して参照配列がシークエンシングされた場合の予想参照シークエンシングデータセットを決定することにより得られる、実施形態54から57のいずれか1つの方法。
実施形態59. 参照シークエンシングデータセットが、第1のフローサイクル順序および第2のフローサイクル順序の両方に従って別々のフローで提供される非終結ヌクレオチドを使用して参照配列がシークエンシングされた場合の予想参照シークエンシングデータセットを決定することにより得られる、実施形態54から57のいずれか1つの方法。
実施形態60. 標的配列と参照配列とが、第1のフローサイクル順序および第2のフローサイクル順序の両方によれば、2カ所またはそれより多くのフロー位置において異なる、実施形態54から57のいずれか1つの方法。
実施形態61. 標的配列と参照配列とが、第1のフローサイクル順序または第2のフローサイクル順序によれば、2カ所またはそれより多くの非連続のフロー位置において異なる、実施形態54から57のいずれか1つの方法。
実施形態62. 標的配列と参照配列とが、第1のフローサイクル順序および第2のフローサイクル順序の両方によれば、2カ所またはそれより多くの非連続のフロー位置において異なる、実施形態54から57のいずれか1つの方法。
実施形態63. 標的配列と参照配列とが、第1のフローサイクル順序または第2のフローサイクル順序によれば、2カ所またはそれより多くの連続であるフロー位置において異なる、実施形態54から57のいずれか1つの方法。
実施形態64. 標的配列と参照配列とが、第1のフローサイクル順序および第2のフローサイクル順序の両方によれば、2カ所またはそれより多くの連続であるフロー位置において異なる、実施形態54から57のいずれか1つの方法。
実施形態65. 標的配列と参照配列とが、第1のフローサイクル順序または第2のフローサイクル順序によれば、3カ所またはそれより多くのフロー位置において異なる、実施形態54から57のいずれか1つの方法。
実施形態66. 標的配列と参照配列とが、第1のフローサイクル順序および第2のフローサイクル順序の両方によれば、3カ所またはそれより多くのフロー位置において異なる、実施形態54から57のいずれか1つの方法。
実施形態67. 標的配列と参照配列とが、第1のフローサイクル順序または第2のフローサイクル順序によれば、2カ所またはそれより多くのフローサイクルにわたって異なる、実施形態54から57のいずれか1つの方法。
実施形態68. 標的配列と参照配列とが、第1のフローサイクル順序および第2のフローサイクル順序の両方によれば、2カ所またはそれより多くのフローサイクルにわたって異なる、実施形態54から57のいずれか1つの方法。
実施形態69. 第1のフローサイクル順序または第2のフローサイクル順序が、同じ順序で反復される4つの別々のフローを含む、実施形態28から68のいずれか1つの方法。
実施形態70. 第1のフローサイクル順序または第2のフローサイクル順序が、同じ順序で反復される5つまたはそれより多くの別々のフローを含む、実施形態28から68のいずれか1つの方法。
実施形態71. 試験核酸分子をシークエンシングするステップであって、第1のフローサイクル順序に従って別々のヌクレオチドフローで非終結ヌクレオチドを提供することと、シークエンシングプライマーを伸長することと、各ヌクレオチドフローの後にシークエンシングプライマーへのヌクレオチド取り込みの存在または非存在を検出して第1の試験シークエンシングデータセットを生成することとを含むステップ;
伸長されたシークエンシングプライマーを除去するステップ;および
同じ試験核酸分子をシークエンシングするステップであって、第2のフローサイクル順序に従って別々のヌクレオチドフローで非終結ヌクレオチドを提供することと、シークエンシングプライマーを伸長することと、各ヌクレオチドフローの後にシークエンシングプライマーへのヌクレオチド取り込みの存在または非存在を検出して第2の試験シークエンシングデータセットを生成することとを含むステップ
を含む、実施形態28から70のいずれか1つの方法。
実施形態72. 1つまたは複数の第1のシークエンシングデータセットを1または複数台のプロセッサーで受信するステップ;
1つまたは複数の第1のシークエンシングデータセットを1または複数台のプロセッサーで受信するステップ;
1または複数台のプロセッサーを使用してマッチスコアを決定するステップ;および
1または複数台のプロセッサーを使用して試験試料中の短い標的遺伝子バリアントの存在または非存在をコールするステップ
を含むコンピュータ実装方法である、実施形態28から71のいずれか1つの方法。
実施形態73. 1または複数台のプロセッサーと、
実施形態28から72のいずれか1つの方法を実行するための命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体と
を含むシステム。
実施形態74. 別々のフローが、単一の塩基タイプを含む、実施形態1から73のいずれか1つの方法またはシステム。
実施形態75. 別々のフローのうちの少なくとも1つが、2つまたは3つの異なる塩基タイプを含む、実施形態1から74のいずれか1つの方法またはシステム。
実施形態76. 試験試料中の短い遺伝子バリアントの存在、アイデンティティーまたは非存在を示すバリアントコールファイルを生成またはアップデートするステップを含む、実施形態1から75のいずれか1つの方法またはシステム。
実施形態77. 試験試料中の短い遺伝子バリアントの存在、アイデンティティーまたは非存在を示すレポートを生成するステップを含む、実施形態1から76のいずれか1つの方法またはシステム。
実施形態78. レポートが、試験試料中の短い遺伝子バリアントの存在、アイデンティティーまたは非存在を示す、テキスト出力、確率的出力、数値出力またはグラフィック出力を含む、実施形態77の方法またはシステム。
実施形態79. レポートを患者にまたは患者の医療担当者に提供するステップを含む、実施形態77または78の方法またはシステム。
実施形態78. 短い遺伝子バリアントが、一塩基多型またはインデルを含む、実施形態1から77のいずれか1つの方法またはシステム。
実施形態79. 短い遺伝子バリアントが、インデルを含む、実施形態1から77のいずれか1つの方法またはシステム。
実施形態80. 試験試料が、断片化DNAを含む、実施形態1から79のいずれか1つの方法またはシステム。
実施形態81. 試験試料が、無細胞DNAを含む、実施形態1から80のいずれか1つの方法またはシステム。
実施形態82. 無細胞DNAが、循環腫瘍DNA(ctDNA)を含む、実施形態81の方法またはシステム。
実施形態83. 核酸分子をシークエンシングする方法であって、
核酸分子をプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;
5つまたはそれより多くの別々のヌクレオチドフローを含む反復フローサイクル順序に従って別々のヌクレオチドフローで提供される標識された非終結ヌクレオチドを使用してプライマーを伸長するステップ;および
取り込まれた標識ヌクレオチドからのシグナルを検出する、またはプライマーがヌクレオチドフローにより伸長された場合のシグナルの非存在を検出するステップ
を含む、方法。
実施形態84. シグナル、またはシグナルの非存在を、各ヌクレオチドフロー後に検出するステップを含む、実施形態83の方法。
実施形態85. 複数の核酸分子をシークエンシングするステップを含む、実施形態83または84の方法。
実施形態86. 複数のうちの核酸分子が、ある遺伝子座に対して異なるシークエンシング開始位置を有する、実施形態85の方法。
実施形態87. 試験試料が、無細胞DNAである、実施形態83から86のいずれか1つの方法。
実施形態88. 無細胞DNAが、循環腫瘍DNA(ctDNA)を含む、実施形態83から86のいずれか1つの方法。
実施形態89. フローサイクル順序が、2カ所より多くのフロー位置において、ランダムシークエンシング開始位置の5%またはそれより多くにおける可能なSNPパーミュテーションの50%またはそれより多くについてのシグナル変化を誘導する、実施形態83から86のいずれか1つの方法。
実施形態90. フローサイクル順序が、フロー当り0.6のまたはそれを超える塩基取り込みの効率を有する、実施形態83から86のいずれか1つの方法。
本願の例示的実施形態として提供する以下の非限定的実施例を参照することにより、本願をよりよく理解することができる。以下の実施例を、実施形態をより十分に説明するために提示するが、いかなる点においても本願の広い範囲を限定するものと解釈すべきでない。本願のある特定の実施形態を本明細書で示し、説明したが、このような実施形態を単なる例として提供することは明らかであろう。本発明の趣旨および範囲から逸脱しない非常に多くの変形形態、変更形態および置換形態に当業者なら想到するであろう。本明細書に記載する実施形態の様々な代替形態を、本明細書に記載する方法を実施する際に利用することができることは、理解されるはずである。
(実施例1)
SNP検出
フローサイクル順序A-T-G-Cに従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して仮想核酸分子をシークエンシングし、その結果、図1Aに示す試験シークエンシングデータセットを得た。シークエンシングデータセットにおける各値は、各フロー位置における示されている塩基カウントが正しい尤度を示す。シークエンシングデータセットに基づいて、予備配列をTATGGTCGTCGA(配列番号1)として決定し、これを参照ゲノムの遺伝子座にマッピングする。参照ゲノムに遺伝子座を、可能性のあるハプロタイプ配列TATGGTCGTCGA(配列番号1)(H1)およびTATGGTCATCGA(配列番号2)(H2)と関連付ける。各フロー位置についてのハプロタイプ配列の塩基カウントに関連する尤度値を、ハプロタイプごとに選択する。各ハプロタイプに付与されるシークエンシングデータセットの尤度を、各フロー位置についてのハプロタイプ配列の塩基カウントに関連する尤度値を乗じることにより決定する。H1が正しい配列である場合のシークエンシングデータセットのlog尤度は、-0.015であり、H2が正しい配列である場合のシークエンシングデータセットのlog尤度は、-27.008である。したがって、H1の配列をこの核酸分子に選択する。
(実施例2)
インデル検出
フローサイクル順序A-T-G-Cに従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して仮想核酸分子をシークエンシングし、その結果、図8に示す試験シークエンシングデータセットを得た。シークエンシングデータセットにおける各値は、各フロー位置における示されている塩基カウントが正しい尤度を示す。シークエンシングデータセットに基づいて(すなわち、各フロー位置において最も可能性の高い塩基カウントを選択することにより)、予備配列をTATGGTCGATCG(配列番号8)として決定し、これを参照ゲノムの遺伝子座にマッピングする。参照ゲノムの遺伝子座を、可能性のあるハプロタイプ配列TATGGTCG-TCGA(配列番号7)(H1)およびTATGGTCGATCG(配列番号8)(H2)と関連付ける。各フロー位置についてのハプロタイプ配列の塩基カウントに関連する尤度値を、ハプロタイプごとに選択する。各ハプロタイプに付与されるシークエンシングデータセットの尤度を、各フロー位置についてのハプロタイプ配列の塩基カウントに関連する尤度値を乗じることにより決定する。H1が正しい配列である場合のシークエンシングデータセットのlog尤度は、-24.009であり、H2が正しい配列である場合のシークエンシングデータセットのlog尤度は、-0.015である。したがって、H2の配列をこの核酸分子に選択する。
(実施例3)
延長シークエンシングフロー順序
100万を超える延長シークエンシングフロー順序を、すべての可能なSNPのセットにわたって2カ所より多くのフロー位置においてシグナル変化[XYZ→XQZ、ここで、Q≠Y(およびQ、X、YおよびZは、各々、A、C、GおよびTのいずれかを1つである)]を誘導するそれらの尤度について、in silicoで検定した。すべての有効な2塩基フローパーミュテーションで最低12塩基の配列を有するように延長フロー順序を設計し、逐次的塩基反復を有するフロー順序を除去した。フロー順序のすべての可能な開始位置を検定して、2カ所より多くのフロー位置においてシグナル変化を誘導する延長フロー順序の感度を評定した。図9および表2は、この解析の例示的結果を示す。図9中のx軸は、フロー相(または断片化開始位置)の分率を示し、y軸は、2カ所より多くのフロー位置においてシグナル変化を誘導したSNPパーミュテーションの分率を示す。いくつかのフロー順序は、リード(またはフロー開始位置)のおおよそ10%についてすべての可能な(87.5%)SNPパーミュテーションで2つまたはそれより多くのシグナルの相違を誘導する。4塩基周期的フローは、可能なSNPのたった42%でサイクルシフトを誘導するだけであるが、すべてのリードまたはフロー相でこれを行なう。効率の最終評価をヒト参照ゲノムの100万塩基サブセットに対して遂行して、実行可能性を確立した。これは、現実の生物にはパターンおよび偏りがある配列をフロー順序がいかに効率的に伸長するかの実際的な評価基準である。
(実施例4)
SNP検出精度
DNA試料NA12878(コリエル医学研究所(Coriell Institute for Medical Research)から入手可能な試料)のゲノムを、4フローサイクル(T-A-C-G)に従って非終結蛍光標識ヌクレオチドを使用してシークエンシングした。シークエンシング実行により、平均長が176塩基である415,900,002のリードが生成された。399,804,925リードをhg38参照ゲノムと(BWA、バージョン0.7.17-r1188で)アラインメントした。
アラインメント後、参照ゲノムと完全にアラインしたリード(178,634,625リード)、または参照ゲノムとの単一ミスマッチを有し、20のもしくはそれを超えるマッピング品質スコアでアラインしたリード(27,265,661リード)を選択した。つまり、193,904,639は、例えば、インデル、複数のミスマッチ、または参照ゲノムとの誤っている(アーチファクトの)可能性のあるアラインメントを有するため、さらなる解析に含めなかった。したがって、27,265,661リードは、真の陽性NA12878 SNPはもちろん、シークエンシングエラーから生じるあらゆる偽陽性SNPも含むと推定した。27,265,661リードのこのプールから、真の陽性NA12878 SNPバリアントの効果を低下させる1回より多くミスマッチ遺伝子座に及んだシークエンシングリードを除去し、その結果、深度1のミスマッチを有する合計3,413,700リードを得た。
残りの3,413,700リード各々は、(1)フローグラムフローシグナルがフローサイクル順序に基づいて参照に対して1フルサイクル(例えば、4フロー位置)シフトした場合、サイクルシフトを誘導すると予想されるミスマッチ、(2)異なるフローサイクルを使用した場合、サイクルシフトを誘導し得る(例えば、それが、フローグラムで新しいゼロもしくは新しい非ゼロシグナルを生成する)可能性のあるミスマッチ、または(3)フローサイクル順序に関係なくサイクルシフトを誘導することができないであろうミスマッチを含んだ。3,413,700ミスマッチのうち、1,184,954(34%)は、サイクルシフトを誘導したが、1,546,588(43%)は、異なるフロー順序でサイクルシフト(すなわち、「可能性のあるサイクルシフト」)を誘導することがあった。比較して、ランダムミスマッチの理論的予想は、名目上、サイクルシフト42%および可能性のあるサイクルシフトミスマッチ46%を示唆した。全体的に見て、サイクルシフトを誘導するミスマッチ率は、3.7×10
-5事象/塩基であり、可能性のあるサイクルシフトを誘導するミスマッチ率は、4.8×10
-5事象/塩基であった。表3は、サイクルシフトを誘導する10の最高頻度単一ミスマッチ、および発生率の相対パーセンテージを示す。
次いで、3つの異なるクラス(すなわち、サイクルシフトを誘導する、サイクルシフトを誘導する可能性がある、またはサイクルシフトを誘導しないおよび誘導することができない)の各々におけるミスマッチに基づくバリアントコーリングの性能を評価した。BWAを用いてリードを参照ゲノムとアラインメントし、GATK(バージョン4)のHaplotypeCallerツールを使用してバリアントコーリングを遂行した。得られたミスマッチコールを、10塩基より長いホモポリマー内のバリアントコール、または10塩基もしくはそれを超える長さを有するホモポリマーに隣接する10塩基以内のバリアントコールを捨てることにより、フィルター処理した。
ミスマッチコールを、genome-in-the bottle(GIAB)プロジェクトによって同じNA12878について生成されたコールと比較して、ミスマッチのクラスごとに精度#TP/(#FP+#FN+#TP)を決定した。シークエンシングデータを、示した平均ゲノム深度にランダムにダウンサンプリングした。サイクルシフトを誘導するミスマッチ、およびサイクルシフトを誘導する可能性のあるミスマッチは、表4で実証されるように、サイクルシフトを誘導しないミスマッチよりも高い精度を有した。