JP2005510732A

JP2005510732A - 質量分析法によって自動的にタンパク質の配列決定を行うシステムおよび方法

Info

Publication number: JP2005510732A
Application number: JP2003547965A
Authority: JP
Inventors: ヴィルム，マッティアス; ニューバウアー，ジット，ジャッキー
Original assignee: Europaisches Laboratorium fuer Molekularbiologie EMBL
Current assignee: Europaisches Laboratorium fuer Molekularbiologie EMBL
Priority date: 2001-11-30
Filing date: 2001-11-30
Publication date: 2005-04-21
Also published as: WO2003046577A1; AU2002218321A1; CA2468689A1

Abstract

タンデム質量分析法によるデータを分析することによってタンパク質の配列を推定する方法。タンパク質は、非天然存在度のH₂ ^1sOを含む水混合物中で、酵素消化によって部分的な同位体標識化にかける。この消化処理から得られたペプチド・フラグメントに示差走査質量分析を適用する。スペクトル中のピークを分析して、それらのピークが同位体標識したフラグメントから生じたものかどうかを確認する。yイオンからのピークだけを含むフィルタ処理されたスペクトルを計算する。隣接するyイオン・ピーク間の質量差を計算することによって、このペプチドの配列を推定する。

Description

本発明は、一般に、タンパク質のアミノ酸配列を、このタンパク質の同位体標識されたC末端ペプチド・フラグメントの質量スペクトルを自動的に解釈することによって決定する、コンピュータにより実施される方法に関する。

タンパク質中のアミノ酸の直線配置は、タンパク質の配列決定によって明らかになる。タンパク質の配列を知ることは、分子生物学的な技術に不可欠である。例えば、タンパク質配列情報は、DNAクローニングを行うための必要条件であり、オリゴヌクレオチド・プローブおよびPCR(ポリメラーゼ連鎖反応)プライマーを作製するための情報を提供する。さらに、タンパク質の配列決定により、抗体の産生に用いるペプチドを合成することができ、問題のタンパク質を同定することができ、組換え産物を特徴づける助けになる。

ペプチド・サンプルの配列が、既知の関連するペプチド配列などの追加情報なしで推定される場合、その手法はデノボ配列決定として呼ばれている。ゲノムDNA配列決定の発展にも拘わらず、依然として生物学的な研究環境におけるタンパク質およびペプチドのデノボ配列決定が必要とされる。というのは、配列決定されていないゲノムを有する生体内で多くの実験が実施されるからである。

タンパク質の配列決定の基本的な方法は、N末端開裂に基づく3ステップの化学プロセスであるエドマン分解である(Ward、Simpson、「Proteins and Peptides, Isolation for Sequence Analysis of」、Molecular Biology and Biotechnology、Robert A. Meyers監修、VCH Publishers社、(1995)、767頁)。現在では、ラボラトリ・オートメーションによりエドマン法の実施が非常に効率的になったが、非タンパク質汚染物質に対する感度を含めていくつかの欠点がある(例えば、Keen、Findlay、「Protein Sequencing Techniques」、Molecular Biology and Biotechnology、Robert A. Meyers監修、VCH Publishers社、(1995)参照)。

タンパク質のC末端の化学的な配列決定は、チオシアネート法によって実現することができる(Schlack、Kumpf、Physiol. Chem.、(1926) 154、125〜170頁)。N末端がブロックされたタンパク質およびペプチドの配列決定に有用であるが、この方法も、反応条件の厳密性およびタンパク質を固体支持体に結合させる必要性を含めて欠点がある(Bailey、J. Chromatog. A、(1995) 705、47〜65頁)。

最終的には、MS(質量分析法)が、化学的な方法に対する魅力的な代替方法として登場し、タンパク質化学の従来技術では簡単に処理できない配列決定問題を解決するのに用いられている(例えば、Carr、Annan、「Overview of Peptide and Protein Analysis by Mass Spectrometry」、Current Protocols in Molecular Biology、Ausubelら監修、John Wiley&Sons社、(1997)、10.21参照)。質量分析法では、完全な状態の中性分子から形成された気相イオンの分子量を、このイオンのm/z(質量対電荷比)に基づいて分離することによって決定する。

タンパク質の配列決定を行う1つの効果的な方法は、タンパク質の分解消化から生じるものなど、混合物状態のペプチドの分子量を、質量分析法を用いて決定することである。例えばトリプシンなどの特定の酵素でタンパク質を消化すると、特定の部位でタンパク質が開裂する。この部位の位置は、このタンパク質のアミノ酸配列で決まる。その結果、しばしば「フィンガープリント」と呼ばれるシグネチャ質量スペクトルを生じさせるペプチドの集合体が得られる。m/z値の測定精度が0.01%よりも良好なときには、ペプチド・フラグメントのアミノ酸組成を高い信頼性で推定することができる。そのため、フィンガープリントを利用して、タンパク質を明確に同定することもできるし、翻訳産物を既知のタンパク質のペプチド・フィンガープリントのデータベースに含まれる情報と比較することによってこの翻訳産物を検証することもできる。

質量分析法は、単一化学種の質量の測定に限定されず、MS/MS(タンデム質量分析法)技術によって、ペプチド配列を含めて構造情報を明らかにすることもできる。多くの質量分析システムでは、気相イオンは、自発的に、あるいはいわゆるCID(「衝突誘起解離」)でガス分子の衝突によってさらにフラグメント化される。生成されたサブフラグメントも、m/z比によって互いに分離することができる。

タンデム質量分析法特有の利点は、ピコモルまたはフェムトモル・レベルでペプチドのアミノ酸配列情報を提供できることである。この応用例では、タンデム質量分析法は、一般に第1の質量分析器を用いて特定のペプチド・イオンを選別し、それによって、それらのイオンを例えばCIDによるフラグメント化にかけて、親ペプチドまたはペプチド・フラグメントのサブフラグメント・イオンを生成することができる。この技術では、第2の質量分析器も用いて、最初にペプチドのイオン化およびイオン選別を行った後で、サブフラグメント・イオンを分離し分析する。得られた質量スペクトルは、これらのサブフラグメントのm/z比を含む。

例えばCID中に有機分子が受けるフラグメント化の機序はよく研究されている。したがって、親化学種およびそれらのサブフラグメントの質量をともに分析することによって、重要な構造上の情報を明らかにすることができる。具体的には、分子は、弱い化学結合部から先に開裂する傾向があるが、多くの官能基は、フラグメント化プロセス中、完全な状態のままである。ペプチドのアミド結合は、MS/MSで用いられる条件下で特に開裂しやすいことがわかっている。その結果、ペプチドのタンデム質量スペクトルは、単一のアミノ酸残基が互いに異なるサブフラグメントに対応するピークを含み、したがって、配列決定の助けとなり得る(例えば、Huntら、(1986)、Proc. Natl. Acad. Sci. USA、83、6233〜6237頁参照)。

それでも、タンデム質量スペクトルの分析についての問題は、いくつかの理由から依然として厄介なままである。第1に、ペプチド結合のところで開裂すると、1対のフラグメントが生じる。一方はN末端を含み、他方はC末端を含む。フラグメント化の後で、これらのフラグメントのどちらが電荷を担持しているかは予測不可能であり、そのため、ほとんどのスペクトルは、yイオンとして知られる(Y"イオンとも呼ぶ)C末端を含むものと、bイオンとして知られる(Bイオンとも呼ぶ)N末端を含むものの2系列のフラグメントを含む。質量分析法によるデノボ配列決定の主要な挑戦課題は、1系列のフラグメントのイオンを、普通なら複雑なスペクトル中で、高い信頼性で認識することである。

第2に、このフラグメント化プロセスは理想的なものではない。一部のアミド結合は、CID中に開裂せず、そのため、MS/MSスペクトル中でいくつかのピーク間の差は、単一のアミノ酸残基の質量ではなく、2つ以上の残基に対応する。同様に、ある種のフラグメント化がアミノ酸残基中で生じ、質量が、他のサブフラグメントの質量とアミノ酸残基の数だけ正確に異ならないサブフラグメントが生成される。

第3に、ペプチド・サンプルがイオン化される条件では、しばしば多価イオンが生じる。したがって、スペクトル中に、異なる電荷を担持する同じフラグメントのイオンに対応するピーク系列があり得る。このような状況では、単一のアミノ酸残基が異なるフラグメントに対応するピークは、この残基の質量の何分の一かのm/z値だけ異なることになる。

最後に、使用する機器の分解能によって決まる別の問題は、同じフラグメントの異なる同位体で置換された形態に対応する近接して並ぶピークを分解できないことがあることである。

したがって、一般に、ポリペプチドの典型的なデノボMS/MS分析の結果得られるスペクトルは、その解釈が単純明快とは程遠いものであり、そのため、一般にペプチド配列の一部の構成要素は同定されない。

これまで、デノボMS/MSペプチド・スペクトルを解釈する計算的な方法は、部分的にしか成功していない。この理由の一部は、スペクトル自体が、完全な分析を可能にするのに十分な感度または分解能をもっていないことである。別の理由は、用いられるアルゴリズムが、時間がかかり過ぎて現実的でないか、あるいは、精度が十分でなく有用でないことである。例えば、初期の一手法では、同じ開裂特異性を用いて、酵素による消化後のペプチド・フラグメントの質量の測定値を、データベース中の各配列エントリからの理論的なペプチド質量と比較する。この比較によりあるスコアが得られ、このスコアにより一致度の良さを定量化する(例えば、Cottrell、Pept. Res.、(1994)、7、115〜124頁、Matsuiら、Electrophoresis、(1997)、18、409〜417頁を参照)。

別の手法では、多くの可能な配列の理論的なスペクトルを実際のスペクトルに合わせ、これを良好な一致が得られるまで続ける(Eng, J.K.ら、「An Approach to Correlate Tandem Mass Spectral Data of Peptides with Amino Acid Sequences in a Protein Database」、Journal of the American Society of Mass Spectrometry、5、976〜989頁、(1994))。この手法の欠点は、アミノ酸残基の多くの可能な配列を、あるスペクトルを生じさせる組に合わせようと試みることに関連して組合せ上膨大な数があり得ることである。必然的に生じるこのような組合せ上の膨大な数を制限するために近似を用いると、しばしば正しい配列が排除されることがある。

問題のタンパク質が既知の配列を有するタンパク質と高い相同性を有し得る状況では、最近、質量分析法によって得られた部分的な配列データと、大量の配列データベースを探索する効率的な方法とを組み合わせることによって、迅速なタンパク質の同定が行われた(Neubauerら、Proc. Natl. Acad. Sci. USA、(1997)、94、385〜390頁、Neubauerら、Nature Genetics、(1998)、20、46〜50頁)。同様に、大型のタンパク質複合体の直接分析が、コンピュータ・アルゴリズムを用いて、取得されたペプチド・フラグメントの質量スペクトルを、翻訳されたゲノム・データベース中の予想アミノ酸配列に相関させることによって実現された(Linkら、Nature Biotechnology、(1999)、17、676〜682頁)。

ただし、上記技術は、既存の配列データに依存するので、常にデノボ配列決定に影響を及ぼすとは限らない。質量分析法によってデノボ配列決定を行う初期の手法では、スペクトル中の連続した隣接ピーク間の質量差をアミノ酸の質量と順次比較し、一致するものが見つかるまで行われた。ピーク強度に関連するスコアに基づいて配列が推定された(Yatesら、「Computer aided Interpreation of Low Enery MS/MS/Mass Spectra of Peptides」、Techniques In Protein Chemistry II、J.J. Villafranca監修、(1991)、Academic Press社、477頁)。

デノボ配列決定を行う別の手法では、各ピークに頂点を割り当て、アミノ酸残基の質量分だけ質量が異なる頂点の対の間に稜を形成することによって、測定されたスペクトルからいわゆる「スペクトル・グラフ」を導出する(Dancikら、J. Comp. Biol.、(1999)、6、327〜342頁)。スペクトルからノイズが効率的に除去される場合に限り、このグラフの最長経路から正しい配列を推測することができる。しかし、この方法は、それぞれ関連するスコア確率を伴う多数の配列候補を生成し、グラフによる理論的な技術である逆対称最長経路問題を実施することによるものであり、ペプチド長が長くなるとほとんどそれに対応できない。

質量分析法によりタンパク質の配列決定を行う最近の実験的な手法は、ペプチド配列の標識化またはタグ付けを利用している。例えば、メチルエステルの形成によってC末端残基をメチル標識する化学的な方法では、標識したサンプルと標識していないサンプルに関するスペクトルを比較することにより、スペクトル中の特徴的なピーク間隔から配列データを得ることができる(Huntら、Proc. Natl. Acad. Sci. USA、(1986)、83、6233〜6237頁)。化学的な標識化の一般的な欠点は、化学反応ステップを必要とすることと、2つの異なるサンプルについてスペクトルを得る必要があることである。

標識による別の方法では、ペプチド配列に沿って重水素を酸性水素に置換する(Sepetovら、Rapid Commun. In Mass Spect.、(1993)、7、58〜62頁)。この方法により、bイオンとyイオン系列のピーク間ですぐに差をとることができるが、この技術は、短いペプチド配列(10個残基未満)にしか効果的でなく、酸性側鎖を伴う残基に関する追加的な配列情報しか得られない。

MS/MS分析の前に、重水素以外の標識でペプチド配列を同位体標識することは、ある期間望ましい技術であったが、タンデム質量分析法では実現することが難しい感度を必要とし、通常、2つのサンプルに関してスペクトルを比較する必要がある。単一スペクトルから情報を得ることができる技術の例が、Gygiら、「Quantitative analysis of complex protein mixtures using isotope-coded affinity tags」、Nature Biotech.、17、994〜999頁、(1999)に記載されている。この技術では、スルフヒドリル基に対して親和性を有するヨードアセトアミドなどの試薬でタンパク質を標識する。1つのサンプルからのタンパク質を通常の試薬で標識し、別のサンプルからのタンパク質を8個の重水素で置換した試薬で標識する。両方のサンプルを組み合わせて、質量分析法による分析の前にビオチン親和性タグでさらに標識する。これら2つのサンプルからのピークを8質量単位だけ分離する。この方法の欠点は、これらのタンパク質サンプルにシステイン残基を必要とすることである。

4セクタ型タンデム質量分析器を用いて単一サンプルに対して2つのスペクトルが得られる¹⁸O標識の応用例が報告されているが(Takaoら、Anal. Chem.、(1993)、65、2394〜2399頁)、この分析方法は、スペクトルの単純な比較であり、この方法は、報告されているもの(約10個の残基)よりも長い配列に対して急激に実用的でなくなる。したがって、質量分析法によるタンパク質のデノボ配列決定は、かなりの期間、挑戦課題であった。

しかし、最近、同位体標識したペプチドのデノボ配列決定を行うのに必要な感度が、ナノ・エレクトロスプレー・イオン源と4重極飛行時間タンデム質量分析器を組み合わせることによって達成された。この手法は、他のタイプの質量分析器よりも高い感度および分解能が得られる4重極飛行時間装置の固有の特徴を利用する(Shevchenkoら、Rapid Communications in Mass Spectrometry、(1997)、11、1015〜1024頁)。例えば、1:1の¹⁶O/¹⁸O水中におけるタンパク質の酵素消化によりC末端ペプチド・フラグメントを同位体標識することで、これらのフラグメントに関する特徴的で容易に同定することができる同位体分布が得られる(Schnolzerら、Electrophoresis、(1996)、17、945〜953頁)。この方法の原理は、タンデム質量分析にかける前であって、ペプチドのC末端の50%を¹⁸O同位体で、50%を¹⁶O同位体で標識したときに得られる、それらの1:1の¹⁶O/¹⁸O同位体パターンによって、1つのスペクトル中でこのペプチドのC末端フラグメント・イオンを同定することである。2つのスペクトルが必要とされるが、それらはともに同じサンプルから得られる。これら2つのスペクトルの差、すなわち減算結果を分析することは、感度が増強された状態で測定を行うことができ、同位体標識したサブフラグメントからの一連のピークが同定されることを意味する。これらのピークは、1アミノ酸分だけ質量が異なるC末端イオンから生じ、このことから、このアミノ酸配列を明らかにすることができる。

それでも、同位体標識したスペクトルの分析は、いくつかの理由から依然として複雑なままである。既知の割合の¹⁸Oを有する水中でタンパク質を消化する際に得られるものなど、特徴的な同位体分布によるC末端ペプチドの同定は、とりわけ¹³Cおよび¹⁵Nなどの同位体の天然の同位体存在度によって難しくなる。例えば、これらの天然同位体存在度のために、ペプチド質量スペクトル中で2Da(ダルトン)だけ分離された2つのピークが、C末端で¹⁶O原子または¹⁸O原子を有するペプチド・サブフラグメント・イオン若しくはC末端で¹⁶O原子、または1つの¹³C原子と1つの¹⁵N原子、または2つの¹³C原子、または2つの¹⁵N原子を有するペプチド・サブフラグメント・イオンから生じ得る。ペプチドがより大になるにつれ、それほど多くの¹³Cおよび¹⁵N同位体が組み込まれない可能性がより高くなり、C末端ピークを同定してアミノ酸の配列決定を行うことについての問題がますます難しくなる。

まとめると、デノボ・タンパク質配列決定を行う既存の方法はどれも欠点を有する。質量分析法は、タンパク質の配列決定を行うための比較的有望な技術である。というのは、必要なサンプル量がピコモルでよく、あるいはフェムトモルでさえ可能であり、極めて正確なスペクトルが得られるからである。しかし、比較的大型のペプチドおよびタンパク質ではスペクトル解釈上の難点がかなり大きい。したがって、現行技術では、質量スペクトルから大型のペプチドの配列を推定することができる分析技術が求められている。

本明細書で参照文献を引用しても、このような参照文献が本発明に対する従来技術であることを示すと解釈すべきではない。

本発明は、示差走査質量分析法のデータを自動的に分析することによってタンパク質またはペプチドのアミノ酸残基配列を導出することを含む。具体的には、本発明が扱うペプチド配列分析の態様は、質量分析データ中のC末端またはyイオンのピークを自動的に同定することである。yイオンのピークが同定されると、隣接するyイオン・ピーク間の質量差を計算し、各質量差を特定のアミノ酸残基に起因すると考えることによってペプチド配列を推定することができる。ペプチドの質量スペクトルは多数のピークからなるので、1対のスペクトル間の単純な差を人間が検査することによってペプチド配列を導出することは、通常は簡単ではなく、迅速に行えることはまれである。

したがって、本発明の主題は、部分的に同位体標識したサンプルに対して得られる1対のMS/MSスペクトルからペプチドのペプチド配列を推定するコンピュータ・アルゴリズムである。このアルゴリズムでは、C末端の組のサブフラグメント(yイオン系列)だけを含む「フィルタ処理された」スペクトルを計算しようとするものである。その結果からアミノ酸配列を正確に推定することが可能である。

本発明は、ペプチドのアミノ酸残基配列を決定する機器を含む。この機器は、同位体標識が、その天然存在度とは実質的に異なる割合で存在するペプチド・サンプルに示差走査質量分析法を適用することによって得られた質量分析データを受け取るように構成された入力装置と、この質量分析データに対して数学的演算を実行するように構成されたプロセッサと、このプロセッサに接続されたメモリとを備える。このメモリは、質量分析データ中のピークごとに繰り返し実行され、質量分析データ中のピークがペプチドのyイオン・サブフラグメントから得られる確率を生成するようにプロセッサに指示する第1組の命令と、このペプチドのフィルタ処理された質量スペクトルを生成するようにプロセッサに指示し、このフィルタ処理された質量スペクトル中で閾値よりも大きい強度を有する各ピークを、このペプチドのyイオン・サブフラグメントに対応するように予測する第2組の命令と、このフィルタ処理された質量スペクトルからこのペプチドのアミノ酸残基配列を導出し、それをメモリ中に記憶するようにプロセッサに指示する第3組の命令とを記憶する。好ましい実施形態では、同位体標識は¹⁸Oであり、その割合は50%である。

示差走査質量分析法の技術によれば、質量分析データは、同位体標識が存在する場合と存在しない場合のサブフラグメント・イオンからの信号を有する第1質量スペクトルと、同位体標識が存在しないサブフラグメント・イオンからの信号が実質的に抑圧された第2質量スペクトルとを含む。好ましい実施形態では、前記確率は、第1スコア値と第2スコア値の積から計算される。この第1スコア値は、同位体標識が存在しないサブフラグメント・イオンからの信号と、さらに同位体標識が前記割合で存在するサブフラグメント・イオンからの信号とを含む同位体クラスタから、第1質量スペクトル中のピークが生じる尤度（likelihood）に比例する。第2スコア値は、同位体標識が前記割合で存在するサブフラグメント・イオンからのピークを含む同位体クラスタであって、かつ同位体標識が存在しないサブフラグメント・イオンからのピークが第1質量スペクトルと比較して効果的に抑圧される同位体クラスタから、第2質量スペクトル中のピークが生じる尤度に比例する。

本発明は、ペプチドのアミノ酸残基配列を決定する方法をさらに含む。この方法は、同位体標識が、その天然存在度と実質的に異なる割合で存在するペプチド・サンプルに示差走査質量分析法を適用することによって得られた質量分析データを受け取ることと、第1組の命令が質量分析データ中の各ピークごとに繰り返し実行され、質量分析データ中のピークがペプチドのyイオン・サブフラグメントから得られる確率を生成することと、このペプチドのフィルタ処理された質量スペクトルを生成し、このフィルタ処理された質量スペクトル中で閾値よりも大きい強度を有する各ピークを、このペプチドのyイオン・サブフラグメントに対応するように予測することと、このフィルタ処理された質量スペクトルからこのペプチドのアミノ酸残基配列を導出することとを含む。本発明の好ましい実施形態によれば、ペプチドのアミノ酸残基配列を決定する方法は、プログラムの制御下でコンピュータによって実行される。このコンピュータは、このプログラムを記憶するメモリと、質量分析データを受け取るように構成された入力装置と、前記質量分析データに対して数学的演算を実行するように構成されたプロセッサとを含む。

本発明の他の利点は、以下の詳細な説明を読み、図面を参照すれば明らかであろう。

序論
タンデム質量スペクトル中でタンパク質のyイオンのピークを同定する方法を説明する。本明細書では、「タンパク質」という用語は広い意味で用いられ、ペプチド、ポリペプチドおよびオリゴペプチド、ならびにそれらの誘導体、例えば、糖タンパク質、リポタンパク質およびリンタンパク質、ならびに金属タンパク質を含むが、これらには必要に応じて変更が加えられる。このような化学種を識別する主要な特徴は、「タンパク質」が1つまたは複数のペプチド結合(-N(-H)C(=O)-)を含むことである。

この方法の目標は、可能性のあるペプチド配列を提案することができるように、MS/MSスペクトルの分析を簡略化し、かつ自動化することである。この方法は、コンピュータ・アルゴリズムの形で実施される。このアルゴリズムは、既知の割合のH₂ ¹⁸OおよびH₂ ¹⁶Oを含む水混合物中で酵素により消化されたタンパク質サンプルから、ペプチドのフラグメント・イオン・スペクトルを1つだけではなく2つ取得することに基づいている。この水混合物は、H₂ ¹⁸Oの部分組成がH₂ ¹⁸Oの天然存在度よりも実質的に多くなるようにし、その条件は、ペプチド・フラグメントに、そのC末端のところで、この水混合物中に存在するのと同じ割合で¹⁸O標識が組み込まれるというものである。このペプチドの¹⁶O/¹⁸O同位体混合物全体を選別してフラグメント化させることによって、1つのスペクトルが得られ、¹⁸Oで標識したペプチド・イオンだけがフラグメント化された第2スペクトルが得られる。

¹⁶O/¹⁸Oおよび¹⁸Oの質量スペクトルを取得した後で、本発明のコンピュータ・プログラム製品および方法を用いてデータを分析して、yイオンから生じるピークを同定する。2つの基準を用いてこれら2つのスペクトルを比較すると、C末端ペプチド・サブフラグメントに対応するピークを同定することができる。第1の基準は、通常、視覚的な検査で明確に認識するのが難しいか、あるいは不可能である第1スペクトル中のC末端ペプチド・サブフラグメントの¹⁶O/¹⁸O同位体分布である。第2の基準は、第1スペクトルと第2スペクトルを比較したときのC末端サブフラグメント・イオン・ピークの同位体分布の変化である。C末端イオンは、第1スペクトル中では完全な¹⁶O/¹⁸O同位体分布からのピークを含むが、第2スペクトル中では¹⁸O同位体からのピークのみを含むことによって同定される。非C末端イオンは、いずれのスペクトル中でも同位体による表現が同じである。というのは、どちらのスペクトルも、酵素消化によって導入された割合では¹⁸O同位体を含んでいないからである。

すべてのC末端フラグメント・イオンが同定されると、隣接フラグメント間の質量差を計算することによって、かつこのスペクトル中でのこれらのフラグメントの順序からこのペプチド配列を推定することができる。本発明の方法およびコンピュータ・プログラム製品は、減算された質量スペクトルかつフィルタ処理された質量スペクトルの計算をさらに含んでいてもよい。

本発明の方法は、機械が、良好に分解された質量スペクトルを得ることができる分解能を有し、特に、異なる同位体を分解することができる場合に限り、任意の長さのタンパク質またはペプチドに適用することができる。読み取ることができるアミノ酸の数は配列に依存し、そのため、例えば20アミノ酸長のペプチドがあり、そのうち5つのアミノ酸しか読み取れないこともあり、25アミノ酸長の他のペプチドがあり、その25個の残基すべてを読み取れることもある。一般に、ペプチドがあるサイズよりも長くなると、読取り可能な配列は短くなる傾向が見られる。それでも、3kDaのサイズ(残基数約30個)までのペプチドを十分な長さまで配列決定することができる(すなわち、30個のアミノ酸のうち20個を読み取ることが可能である)ことがわかっている。配列決定にはこれより下限は存在しない。

機器
本発明は、図1に示すように、質量分析器130から得られる質量分析データからペプチド配列を推定するためのシステム100を備える。システム100は、プロセッサ102、一般に、高速ランダム・アクセス・メモリおよび不揮発性メモリ(1つまたは複数の磁気ディスク・ドライブなど)をともに含むことになるメモリ領域104、ユーザ固有のパラメータを入力するキーボード、マウスおよび/またはタッチ・スクリーン・ディスプレイを含み得る入力装置106、タンパク質またはペプチドの配列を印刷または表示する出力装置108、ならびに、プロセッサ102、メモリ104、入力装置106および出力装置108を接続する少なくとも1つのバス110を備える。図1には示さないが、システム100は、他のコンピュータおよび他の装置と通信するためのネットワークその他の通信インターフェースも備えることが好ましい。

好ましくは、このメモリは、基本的なシステム・サービスを提供するオペレーティング・システム120、ファイル・システム122、質量分析データを分析するように構成された分析モジュール128、キャッシュ126および任意選択でGUI(グラフィカル・ユーザ・インターフェース)124を格納する。

好ましくは、システム100は、質量分析器130からデータ・チャネル132を介して質量分析データを取得する。本発明の一実施形態では、質量分析器130は、3連4重極質量分析器である。

分析モジュール128は、質量分析データからペプチドまたはタンパク質の配列を推定するように要求を受け取ると、質量分析データ中のどのピークがyイオン系列中のペプチド・サブフラグメントに対応するかを十分な確率で同定することができる命令を実行する。yイオンが同定されると、隣接するyイオン・ピーク間の質量差を計算することによって、アミノ酸配列が決定する。各質量差は、1つのアミノ酸残基の質量に対応する。互いに同じ質量を有するロイシンおよびイソロイシンを除き、ペプチド鎖中のすべてのアミノ酸を区別することができる。当業者に周知の原理を用いて、異なるペプチド・フラグメントのスペクトルから決定された別々のペプチド配列を連結するか、あるいは重ね合わせることによって、タンパク質の配列全体を決定することができる。

このシステムは、質量分析データとともに実験室環境で操作すると、タンパク質またはペプチドのアミノ酸残基配列を推定する効率的で有用な方法を提供することができる。

装置構成
質量分析器は、イオンを、その質量mと電荷zの比であるm/z比に従って分離する。第1段階では、サンプルを、例えば電子衝撃によってイオン化し、後続の段階で、均質でない電磁場によって検出器に向かって加速させるイオンを生成する。一実施形態では、この電磁場により、イオンの軌跡が、そのm/z比に従って摂動する。質量が小さいイオンは、より速く移動し、より重いイオンよりも簡単には摂動を受けない。電荷数が小さいイオンは、電荷数が大きいものよりも大きく摂動することになる。実際、生成されたほとんどのイオンは単一の正電荷しか担持しないが、一部のイオン化技術では、多価イオンが容易に生じ得る。いくつかの理由により、同じサンプルから異なるm/zのイオンが生成される。すなわち、イオン化条件により分子が解離することがあり、イオン自体が後で転移し解離することがあり、また、所与のサンプルの分子中には常に多くの異なる同位体置換基があるからである。

一実施形態では、3連4重極質量分析器を使用して、ペプチド・サブフラグメント・データを取得する。このような機械の例は、PE-Sciex(Perkin Elmer Sciex)社のAPI IIIである。この実施形態では、3つの4重極をイオン・ガイド、質量フィルタおよび衝突セルとして用いる。このような質量分析器300の典型的な配置を図3に示すが、このような質量分析器のコンポーネントの変形形態が、本発明の方法とともに実施することが想定されていることを理解されたい。

タンデム質量分析法では、2段階の質量分析を用いる。第1段階では、イオン化源304から前駆イオンを生成する。好ましい実施形態では、エレクトロスプレー・イオン化法を用いてこれらの前駆イオンを生成する。これらの前駆イオンは、任意選択で、イオン・ガイドとして働く第1の4重極306を通過する。通常、このイオン・ガイドは質量選択性4重極ではなく、通常は、3連4重極型の機械にしか存在しない。前駆イオンは、特定の値のm/z比を有する前駆イオン、あるいは、より一般には、ある狭い範囲の値をとるm/z比の前駆イオンを選別する質量フィルタ310を通過する。現在、最大の感度が得られる質量フィルタ310は、4重極質量フィルタであることがわかっている。あるいは、イオン・トラップを別法として用いることができる。本発明の好ましい実施形態では、質量フィルタ310は、4重極質量フィルタである。4重極質量フィルタが透過させるm/z比の範囲は、透過ウインドウとして知られている。

好ましい実施形態では、ペプチド・サブフラグメント・データを取得するのに用いる質量分析器300は、「Q-TOF」(4重極飛行時間)質量分析器である。このような機械の例は、英国所在のMicromass社の「Q-Tof2」である。このような機械は、2つの4重極を使用する。4重極312は、前駆イオン選別用の質量フィルタとして用いられ、4重極322は、前駆イオンがさらにフラグメント化されてサブフラグメントになる衝突セル310内で用いられる。「TOF」(飛行時間)質量分析器340を使用して、これらのサブフラグメント・イオンを検査する。図8として、本発明を実施するための代表的な質量分析器設計も示す。

イオン化技術
質量分析法の分析用前駆イオンを生成するのに用いられるイオン化技術には、複数のものがある。これらには、電子イオン化法、化学イオン化法、電界イオン化法、電界脱離法、高速原子衝撃法、プラズマ脱離法、レーザ脱離法およびエレクトロスプレー・イオン化法が含まれるが、これらに限定されるものではない。生体分子分析に最も一般的に用いられる2つのイオン化技術は、「MALDI」(マトリックス支援レーザ脱離イオン化法)および「ESI」(エレクトロスプレー・イオン化法)である。本発明の方法は、用いられるイオン化技術に無関係である。

本発明とともに使用する質量分析器の一実施形態では、MALDIを用いる。MALDIは、生体分子を、モル数が大きく過剰な小型紫外光放射吸収有機酸(マトリックス)とともに結晶化させる特定のタイプのレーザ脱離法である。紫外レーザで共結晶を照射すると、マトリックス分子および生体分子は気相になり、そこで陽子がマトリックス分子から生体分子に移動して、分析用の生体分子前駆イオンが形成される。通常、MALDIにより、1価の前駆イオンが生じ、その後、これを「PSD」(ポスト・ソース分解)にかけてフラグメント・イオンを生成する。したがって、通常は、MALDIとともに衝突誘起解離を用いる必要はない。しばしば、MALDI法は、飛行時間型質量分析器とともに用いられ、したがって、本発明の方法とともに用いることができる。

本発明で用いる好ましい実施形態では、イオン化源304はESIによって前駆イオンを生成し、それに従って、微細金属キャピラリの先端から生体分子の希釈溶液を大気圧で吹き付けることによってイオンが形成される。この吹付けにより、微細ミストの液滴が生成され、高電界中で強く帯電する。これらの液滴が蒸発すると、生体分子は、溶媒から1つまたは複数の陽子を受け取って、1つまたは複数の正電荷を有するイオンを形成する。これらの液滴が収縮すると、電荷の反発力により、これらのイオンが液滴表面から蒸発し、次いで、質量分析器中で分析される。本発明とともに用いられる質量分析器の好ましい実施形態では、ESIを用いて前駆イオンを生成する。MALDIでは、サンプルおよび前駆イオンが広範囲にフラグメント化され得るが、ESIでは、ほとんど、あるいは全くフラグメント化が起こらない。さらに、ESI用のサンプルは溶液の状態なので、この技術は、HPLCなどの精製技術を供給させるのに最適である。

質量フィルタ
本発明とともに用いる質量分析器の好ましい実施形態では、4重極質量フィルタ310を用いて前駆イオンを選別する。4重極質量フィルタは、2対の正確に平行に配置された金属ロッドからなる4重極312を備え、対向するロッドは電気的に接続される。「DC」(直流電位)からなる電圧および「RF」(交流高周波)成分が各対のロッドに印加される。この4重極を通過するイオンは、交互にこれらのロッドに引きつけられ、それらから反発して離れるので、これらのイオンは揺動軌跡をとり、ある範囲の運動エネルギーを有するイオンだけが、これらのロッド間を通過し反対側に出る。他のすべてのイオンは、ロッドに衝突する。所与のイオンの運動エネルギーは、そのイオンの質量に比例するので、イオンの選別は質量に依存する。この4重極を通過するイオンが、4重極の透過ウインドウを識別する。DCおよびRFの振幅を、それらの比であるDC/RFを一定に保ちながら一緒に変化させれば、透過ウインドウの中心を他のm/z値にシフトすることができ、異なる質量を有するイオンを「フィルタ処理」して通し、分析にかけることができる。

サブフラグメント・イオンの生成
本発明とともに用いる質量分析器の一実施形態では、特定のm/zを有するフィルタ処理された前駆イオンは、衝突セル320に送られる。3連4重極質量分析器では、衝突セルは第3の4重極を含む。ToFの機械では、一般に、衝突セルは、2つの4重極のうち第2のものを含む。本発明に適合する多くの機械が、4重極を備える衝突セルを使用することを理解されたい。イオン・トラップを利用する機械では、イオン・トラップ自体が衝突セルである。というのは、イオンがイオン・トラップ内部で残りのガス原子と衝突し得るからである。

衝突セル320では、フィルタ処理された前駆イオンが、供給源314から送り込まれたアルゴンまたはキセノンあるいは二窒素などの帯電していないガス分子と衝突する。これらの前駆イオンの運動エネルギーは振動エネルギーに部分的に変換され、それによって、前駆イオンの主要な弱い化学結合が切断される。ペプチドの前駆イオンが、それらのペプチド・アミド結合のところから先にフラグメント化して、ペプチド・サブフラグメントが生成される。得られたサブフラグメント・イオンを、質量分析器340によって分析する。

質量分析器
好ましい実施形態では、用いられる質量分析器は、「TOF」(飛行時間)質量分析器である。このタイプの質量分析器では、サブフラグメント・イオンは、加速プレート342によって加速され、ドリフト・チューブ344として知られる外部電界が存在しない領域中に入る。このドリフト・チューブに入るすべてのサブフラグメント・イオンが、質量m、速度vのイオンに対して1/2mv²で与えられる同じ運動エネルギーを有する場合、速度は質量の平方根に反比例するので、比較的大きな質量を有するサブフラグメント346は、より小さい質量を有するサブフラグメント348よりもゆっくりと移動することになる。したがって、より重いサブフラグメント・イオンは、より軽いサブフラグメント・イオンよりも、ドリフト・チューブの端部にある検出器350に達する時間は遅くなる。TOF分析器は、しばしばMALDI法とともに用いられる。TOF分析器は、事実上質量の範囲の制限がなく、走査速度が高速であるという点で有利である。

好ましい実施形態では、検出器350は、質量スペクトルが効果的に瞬時に表示される電子増倍管である。検出器350は、質量データを送信チャネル132を介してコンピュータ・システム100に送信する。

TOF分析器の制限は、同じサブフラグメント・イオンの集合体の構成要素すべてが同じ運動エネルギーを有するわけではないので、ピークが広がることである。初期エネルギーの広がりは質量で決まるので、より重いサブフラグメント・イオンからのピークはより広くなる。当業者には周知のように、ドリフト・チューブに入るサブフラグメント・イオンの初期運動エネルギー分布は、最終加速電圧を大きくすることによって減少させることができる。ドリフト・チューブの長さを長くすることによって、TOF分析器の分解能も上げることができる。こうすると、異なるm/zのイオンの到着時間差が大きくなるが、同じm/zを有するイオンの到着時間の広がりも大きくなる。本発明とともに用いる質量分析器の別の実施形態では、TOF分析器は、イオンが湾曲した経路をたどる「リフレクトロン」タイプである。リフレクトロン型TOF分析器では、イオンの速度を遅くし、それらを検出器に方向づける前に方向転換させる。イオンが方向転換すると、比較的遅いイオンがより速いイオンに追いつく。

質量分析データ
質量分析データは複数の元素を含み、各元素は、あるm/z値に対して強度値Iを有する。このデータは、ある範囲のm/z値の全域で元素を含む。m/z値に広く用いられる単位名は、Th(「トムソン」)である。トムソンで表したある範囲の強度値を含むデータの集合体を、しばしば「質量スペクトル」と呼ぶ。一般に、質量スペクトル中のm/z値は、0.02Thだけ互いに分離されるが、分解能によっては、0.01Thまたは0.05Thだけ互いに分離され得る。

質量スペクトル中の「ピーク」は、隣接する元素の集合体によって定義され、ピークでは、各強度値は強度閾値よりも大きい。一般に、質量分析データは、バックグラウンド強度と、しばしばノイズと呼ばれる、多くの低強度のデータ片も含む。この強度閾値は、分析中に検討対象からノイズが除去されるように選択する。通常、ピーク強度は、ピークの高さに比例するが、より複雑なスペクトルでは、特に比較的重いイオンでは、この近似は成り立たないこともある。

厳密には、ピークの全体的強度は、ピーク下の面積を計算することによって得られる。一実施形態では、この計算は重心法によって実現される。重心処理では、「FWHM」(半値全幅)で求めた幅が少なくとも0.04Thである任意のピークに対して、幅0.08Thのウインドウ内のデータをこのピークに合わせ加算する。一般に、重心処理は、別のピークが誤って合成され得るため、本発明で必要とされる精度を得るのに十分に満足できるものではない。したがって、好ましい実施形態では、積分法を用いてピーク強度を計算する。好ましくは、この方法は、約±0.02Thのウインドウ内でピークの周りに存在するすべての強度を加算する。同じスペクトル中の異なるサブフラグメント・イオンは異なる電荷数を有し得るで、サブフラグメント・イオンの電荷数に従って異なるウインドウを選択すべきである。したがって、1価のフラグメントでは、好ましくはこのウインドウは0.04Thであり、2価のフラグメントでは、好ましくはこのウインドウは0.02Thである。ピークの積分を実行する際に他のウインドウを選択することは本発明の方法と適合する。実際、異なる領域の質量スペクトルに対して異なるサイズのウインドウを選択することも可能である。

有機分子を構成するほとんどの化学元素は、天然に存在する2つ以上の同位体を有する。下記の表1を参照されたい。質量スペクトルは、多数のイオンによって生成される信号からなるので、このスペクトルは、天然に存在する同位体すべてを統計的にサンプリングすることを含む。分子がより大型になると、1つまたは複数のより重い同位体の原子を有する分子の集合体の割合も大きくなる。その結果、所与のサブフラグメント・イオンは、(人為的に同位体の純度が得られるようにした場合を除いて)スペクトル中で単一の先鋭なピークとして現れなくなる。その代わり、質量スペクトルの所与のイオンのm/z値の周りの部分は複数のピークを含む。というのは、このイオン中に存在する各元素が、それ自体の分布の同位体を天然に有するからである。

したがって、所与のペプチド・サブフラグメントの質量スペクトルは、複数の近接した分離ピークを含むことになる。これらのピークはそれぞれ、このペプチド・サブフラグメントの原子の中でも特定の分布の同位体に対応する。このペプチド・サブフラグメントが、イオン化中に単一の電荷を得る場合、このサブフラグメントに関する近接した分離ピークはそれぞれ、約1m/z単位だけ分離される。同位体の偏差分だけ互いに異なるフラグメントに対応するピークの集合体をクラスタと呼ぶ。質量数が12.0000原子質量単位になるように定義される¹²Cを除いて、整数の質量数を有する同位体はない。1つの¹³C原子を伴うペプチド分子の質量は、1つの¹⁷O原子を伴うが¹³C原子を伴わない同じペプチド分子の質量と厳密には同じではない。したがって、クラスタ内のピークは、きれいに分解されず、大きく重なり合うことがある。

原子がどれも最も多く存在する同位体として存在する分子の質量を「モノアイソトピック質量」と呼ぶ。分子のモノアイソトピック質量は、すべての原子に対して最も多く存在する同位体の正確な質量を合計したものである。一般に、このモノアイソトピック質量に対応するピークは最小質量のものである。というのは、タンパク質またはペプチド中に存在する各元素の最も多く存在する同位体は、すべての同位体の中で最小の質量を有するからである。ただし、このピークは、常に最も強度が大きいとは限らない。

クラスタ内のピークの強度分布を、しばしば「エンベロープ」と呼び、その形状は、多くの寄与ファクタの結果である。極めて大型の分子では、モノアイソトピック質量に対応するピークは、必ずしも強度が最大とは限らない。生体分子の同位体ピーク・パターンに最も大きく寄与するものは¹³Cである。酸素、窒素および硫黄の重い同位体の存在も、同位体エンベロープに寄与する。炭素は、天然に存在する2つの主要な同位体を有する。すなわち、質量が12.000000であり、天然存在度が98.9%の¹²Cと、質量が13.003355であり、天然存在度が1.1%の¹³Cである。ペプチドのサイズに拘わらず、同位体クラスタを分解して得られた第1ピークは、すべての¹²C含有イオンから生じる。質量が約1,800ダルトン未満のペプチド(約100個の炭素原子を含むペプチドに対応する)では、これが最大強度のピークになる。しかし、質量が約1,800ダルトンよりも大きいペプチド(含まれる炭素原子の数が約100個よりも多いペプチドに対応する)では、この同位体クラスタ中の第1ピークは、最大強度のピークではなくなる。というのは、すべての¹²C含有イオンが、もはや最も多く存在するものではなく、すなわち、このサンプル中の分子はどれも、平均して少なくとも1つの¹³C原子を含むことになるからである。このような場合、最大強度のピークを検討し、それを「平均質量」と称するのがより有用となり得る。

データの操作
本発明の特徴は、同じサンプルから得られた2つの質量スペクトルを比較することである。これら2つのスペクトルは、透過ウインドウの中心値分だけ互いに異なる。単純な減算によって同じサンプルに対する2つのスペクトル間の差が簡単に得られることはほとんどなく、いくつかのデータ処理操作を実行すべきである。1つの問題は、位相の不整合のために、減算によりマイナスのピークが生じ得ることである。例として、これら2つのスペクトルのいずれにも、123のm/z値に相当するピークがあり得る。第1スペクトル中で、このピークは、122.85で始まり、123.15で終わるが、第2スペクトル中では、これに対応するピークは、122.88で始まり、123.18で終わる。減算が効果的になるように、これらのスペクトルを正確に位置合わせする必要がある。これは、位相の不整合がこれらのスペクトルの全範囲にわたって一定でない場合、難しくなり得る手順である。実際には、この問題は、「部分的な重心処理」によって対処するのが好ましい。ビン幅を選択するが、これは一般に、0.05Thであり、機器の質量分解能によっては0.02Thという小さい値になることがある。これらのスペクトルを、このビン幅の規則的な間隔に分離する。2つのデータ点がこのビン幅内にある場合には、これらの強度を加算する。

スペクトル減算における第2の複雑さは、(2つの異なるスペクトルで必然的に生じる)わずかに異なる動作条件下では、両方のスペクトルに共通な1対のピークが、必ずしも同じ強度をもたないことである。そのため、位相が揃っているときでさえ、一方のピークを他方のピークから減算しても基線値が得られず、そのため、小さなプラスまたはマイナスのピークが生じる。これらのスペクトルの倍率を変更して互いにピークの高さを合わせることができるが、必要な倍率は、スペクトル範囲全体にわたって変わり得る。好ましい実施形態では、¹⁸O含有ペプチド・サブフラグメントのスペクトルの倍率を変更して、¹⁶O/¹⁸Oスペクトルと重ね合わせる。これらのスペクトルを、典型的には幅20Thのウインドウに分割する。この幅は他の値でもよく、より大きくても小さくてもともに本発明の方法に適合する。このような各ウインドウにおいて、¹⁶O/¹⁸Oスペクトル中の最大ピークが決定され、例えば、m/z値m_p、強度I1とする。(m_p-1,m_p+2)の範囲内の¹⁸Oスペクトルにおいて最大ピークが決定され、その強度をI2とする。¹⁸Oスペクトルの20Th幅のウインドウを、係数I1/I2で倍率変更する。最後に、倍率変更されたスペクトルを倍率変更されていないスペクトルから減算した後で、得られたスペクトルにノイズ・フィルタ処理を適用する。ある閾値、例えば0.05Thよりも幅が小さいピークは除外される。

ペプチドの部分的同位体標識
好ましい実施形態では、本発明のコンピュータ・プログラム製品および方法は、タンパク質のペプチド・フラグメントの部分的同位体標識および示差走査質量分析技術とともに用いられる。ペプチド・フラグメントのC末端の部分的な同位体標識は、当業者に周知の方法によって実現することができる。本発明とともに用いる好ましい実施形態を図3に示す。ペプチドは、とりわけトリプシン、キモトリプシンまたはパパイン、好ましくはトリプシンを用いて、バルク溶媒水中でタンパク質200の酵素消化によって標識する。既知の割合のこのバルク溶媒水は、¹⁸Oで標識した水、すなわちH₂ ¹⁸Oである(ステップ202)。

この既知の割合の標識した水は、天然に見られる標識の割合と実質的に異なる。好ましくは、実質的に異なるという意味は、質量分析測定を行う際に、天然存在度の同位体からの寄与を無意味とする量で存在するということであり、かつ、この標識した水から標識を組み込んだペプチドからの信号が容易に区別されるように質量スペクトルの自動分析を容易にする量で存在するということである。本発明の一実施形態では、このタンパク質は、30体積%の¹⁸Oで標識した水の存在下で、好ましくは33体積%の¹⁸Oで標識した水、より好ましくは40体積%の¹⁸Oで標識した水、最も好ましくは50体積%の¹⁸Oで標識した水の存在下で消化される。一般に、約30体積%〜約75体積%の既知の割合の¹⁸Oで標識した水が、本発明の方法を行うのに適している。約30%〜約75%の¹⁸Oで標識した水の体積比は、¹⁸Oで標識された水の天然存在度と実質的に異なる。

例えば、50%H₂ ¹⁸Oおよび50%H₂ ¹⁶O中でのタンパク質の酵素消化により、多くのペプチド・フラグメントが生成されることが当業者には理解されよう。消化後、これらのペプチド・フラグメントを、例えばゲル電気泳動またはHPLCによって精製し分離する(ステップ204)。生成されたペプチド・フラグメント206を、質量分析法によって分析する。したがって、以下では、ペプチドという用語は、ある種の比較的長いペプチドのフラグメント化によって生成されたペプチドであると理解すれば、ペプチド・フラグメントという用語も含むことになる。

酵素がタンパク質を消化するとき、酵素はペプチドのアミド結合を開裂し、それによって、遊離アミノ基(N末端)を伴う少なくとも1つのペプチド・フラグメントと、付随したカルボニル基(C末端)を伴う対応するペプチド・フラグメントとが残る。バルク溶媒水からの水分子がC末端基に付着して、カルボン酸基が生成される。既知の割合の¹⁸Oで標識した水の存在のために、既知の割合の開裂したペプチド・フラグメントがC末端で¹⁸Oをもつことになる。好ましくは、C末端に¹⁸Oを伴う開裂したペプチド・フラグメントの割合は、バルク溶媒水中の¹⁸Oで標識した水の体積比とほぼ同じである。

好ましい実施形態では、¹⁸Oで標識した水の既知の割合は、50体積%である。50体積%が¹⁸Oで標識した水であるバルク溶媒水中で消化された特定のペプチドでは、C末端に組み込まれた¹⁶O原子を伴う質量mのペプチド・フラグメント分子1個につき、C末端に¹⁸O原子が組み込まれているのでm+2の質量を有する約1個のペプチド・フラグメント分子があることになる。したがって、C末端を含むペプチド・フラグメントおよびペプチド・フラグメントの各サブフラグメントは、質量スペクトル中で特徴的な1:1 ¹⁶O/¹⁸O同位体分布を有することになり、それらは、2質量単位だけ分離された類似の強度の2つのピークとして区別可能なはずである。比較的低い分解能では、このような1対のピークは、単一の分裂したピークに見えることがある。そのため、このようなサンプルのM/Sにおけるyイオンは、分裂したピーク、または類似の強度のピーク対として見えるはずである。遺憾ながら、大半の場合、ペプチド・フラグメントの質量スペクトル中で、1:1 ^16O/¹⁸O同位体パターンを視覚的に見分けることは不可能である。他のイオンにより、このピーク対に似たものが生じるか、あるいはピークの分布を分割することがあり、類似の質量を有する重なり合ったサブフラグメント・イオンがこのパターンを歪めることがある。例えば、すでに述べたように、十分に長いペプチド配列では、1つの¹³C置換分を伴う分子のために、m+1におけるピークは、¹³C置換分がない分子に対応するmにおけるピークと少なくとも同じくらい大きい。このようにしてyイオンのピークを識別することが単純明快であれば、同位体混合物の質量スペクトルを検査することによるペプチドの配列決定は実現可能であろう。

本明細書では、H₂ ¹⁶OおよびH₂ ¹⁸O中でのトリプシンによる消化を利用して¹⁶Oおよび¹⁸OでC末端を標識したペプチドを用いて、本発明の好ましい実施形態を説明してきたが、本発明を、例えば¹⁷Oなどの他の同位体で部分的に標識したペプチド・フラグメントとともに用いることもできるし、本発明でペプチド標識技術の別法を用いることもできることは当業者には理解されよう。他の同位体標識では、組み込むべき標識の量が、¹⁸Oに好ましい量と異なることがあるが、当業者なら、本発明の方法を実施するために用いるべき、天然存在度と異なる標識の量を決定できることを理解されたい。

さらに、原理的には、bイオンに関して類似の標識方式がある。このような実施形態では、好ましくは、N末端に対して標識を行う。N末端における同位体標識は、酵素による消化と同じ時点で容易に実現されるC末端における同位体標識ほど単純明快ではない。¹⁵Nベースの標識方式は理想的なものではない。というのは、ペプチドにこのような同位体標識を導入することができる実用的な反応がほとんどないからである。そのため、好ましくは、N末端における標識化は、例えばアセチル化によって人為的に実現する。アセチル化反応により、N末端でCH₃-C(=O)-基が導入される(例えば、Pfeifer, T.、Rucknagel, P.、Kuellertz, G.、Schierhorn, A.、「A strategy for rapid and efficient sequencing of Lys-C peptides by matrix-assisted laser desorption/ionisation time-of-flight mass spectrometry post-source decay」、Rapid Commun. Mass Spectrom.、13(5)、362〜9頁、(1999)参照)。試薬の混合物とのアセチル化反応を実行すると、一方は通常の同位体、他方はより重い同位体を含むので、N末端における同位体の混合物を導入することができるはずである。このアセチル化反応は、このような方式で実施される追加の反応なので、通常、同位体標識化は、配列決定用のペプチド・フラグメントを生成するために一般に必要とされる酵素消化中に行われるC末端標識化の場合と同じ効率で実現することができない。さらに、好ましくは、同位体により標識する成分は、CH₃-C(=¹⁸O)-または¹³CH₃-¹³C(=O)(いずれも2Daの質量シフトを与える)であり、これらは、容易に購入することができるH₂ ¹⁸Oよりも高価である。

本発明の方法は、タンパク質の酵素消化によって得られるペプチド・フラグメントの配列決定に限定されるものではない。本発明の方法によって、部分的な同位体標識化にかけられた任意のペプチドの配列を決定することができる。

示差走査質量分析法
示差走査質量分析法では、図4に概略を示すように、所与のペプチド・フラグメント400に関する2つのMS/MSスペクトルが得られる。¹⁶Oおよび¹⁸O含有ペプチドおよびそれらのそれぞれのサブフラグメントの混合物に関して、SP1で示す第1スペクトルが得られる(ステップ402)。¹⁸O含有ペプチドおよびそのサブフラグメントだけに関して、SP2で示す第2スペクトルが得られる(ステップ406)。そのため、SP2では、¹⁶O含有ペプチドおよびそのサブフラグメントに関する信号が実質的に抑圧される。好ましい実施形態では、同じペプチド・サンプルに対してこれら2つのスペクトルを収集する。第1および第2スペクトルは、任意の順序で得ることができるが、透過ウインドウのセンタリングをし直すステップ(ステップ404)によって分離される。これら2つのスペクトルの計算分析(ステップ408)では、¹⁶O含有ペプチド・サブフラグメントのC末端系列に関する実質的にきれいなスペクトルを生成することができる。非C末端サブフラグメントから生じるピークは、(酵素消化による¹⁸O標識化に拘わらず)常にそれらの正規の同位体分布を有し、したがって、これら2つのスペクトルが互いに減算されるときに、これらのピークはなくなるはずである。この分析からペプチド配列410を得ることができる。

通常、ペプチド・サンプルは、例えば、酵素消化から生じる異なるペプチド・フラグメント、あるいは、異なる同位体により置換された形態の特定のペプチドまたはペプチド・フラグメントなど、多くの異なる化学種を含む。好ましい実施形態では、異なる同位体により置換された形態の特定のペプチドまたはペプチド・フラグメントにより、質量分析器内に導入されるサンプルが構成される。したがって、透過ウインドウを適切に調節することによって1つまたは複数の前駆イオンを選別すると、特定の化学種またはその化学種すべての限定されたサブセットの分析を行うことができる。

4重極質量フィルタにより前駆イオンの選別を実施するには、必然的に分解能と感度の妥協をすることになる。分解能は、透過ウインドウの幅によって決まる。ウインドウの幅を最も狭くすると最高の分解能が得られるが、分解能を最高にすると、感度も最高にする必要がある。したがって、単一の同位体を選別するように4重極質量フィルタを動作させると、前駆イオンの透過が不十分になり、正確な分析ができなくなる。すなわち、可能な最高の分解能では、用いられる感度レベルで有用なスペクトルを得るのに十分なサンプルが透過しない。ただし、透過ウインドウは均一ではない。すなわち、透過ウインドウ内の値をとるm/z比を有するイオンは、等しい強度で透過しない。質量フィルタの透過ウインドウ全体にわたって強度を変化させる方法を透過曲線と呼ぶ。

示差走査質量分析法は、4重極質量フィルタの透過曲線の形状のために、イオンが効果的に排除され、それに伴って感度が低くならないように透過ウインドウを選択することができるという、本出願人らの意外な発見に部分的に基づいている。特定の理論に拘泥することなく、4重極質量フィルタの透過曲線の形状は、選択されたm/zの付近で対称ではなく、(m/zが小さくなる方向に)鋭く立ち上がる側部と、(m/zが大きくなる方向に)延びた比較的長いテールとを有する。この特徴のために、一定幅の透過ウインドウの中心をセンタリングし直すと、すなわち、1つのm/zからわずかに大きいm/zに移動すると、より小さいm/zは透過しない。そのため、このウインドウをより大きい値に移動させることによって、より軽い¹⁶O同位体はこの透過ウインドウ内に入らず、¹⁸O同位体はそれに入る。この透過ウインドウは、そのm/zの範囲の下側端部で鋭い遮断「境界線（edge）」を有するように振る舞う。

4重極質量フィルタは、例えば3Daに相当する透過ウインドウを選択できるようにする。透過ウインドウが、モノアイソトピック質量に対応するm/z値でセンタリングされる場合、透過ウインドウは、特定のペプチドの¹⁶Oおよび¹⁸O含有イオンをともに透過させ、それによって第1スペクトルSP1が得られる。次いで、この透過ウインドウを、その幅を変更せずに、1質量単位だけ大きい値に対応するm/z値の第2位置付近でセンタリングし直し、それによって、信号対雑音比を小さくせずに第2スペクトルSP2が得られる。この透過ウインドウの第2位置では、透過ウインドウにより、¹⁸O含有イオンの透過に影響を及ぼさずに、¹⁶O含有イオンの透過が効果的に妨げられる。したがって、C末端でより分子量が小さい酸素の同位体を含むペプチドの透過が、第2スペクトルSP2中では本質的に完全に抑圧される。透過ウインドウの第2位置により、モノアイソトピック質量よりも2質量単位分大きい質量を有するイオンを透過させることができる。このような化学種は、¹⁶Oを含む化学種の正規の同位体変形物(例えば、2つの¹³C原子を含むイオン)を含むが、それらの寄与は、酵素消化によって天然の割合でない¹⁸Oを取り込んだペプチド・イオンからの寄与によって重要なものでなくなる。代替実施形態では、この透過ウインドウを、第1位置の前に第2位置でセンタリングすることができる。

図2に示すように、その後、選別された前駆イオンは衝突セル320中に入り、これらの前駆イオンがフラグメント化されて「サブフラグメント」になる。本明細書では、サブフラグメントも「ペプチド・サブフラグメント」または「サブフラグメント・イオン」として同定される。質量分析の第2段階で、前駆イオンから生成されたサブフラグメント・イオンが質量分析器340内に入り、その後、検出器350に至る。

スペクトル中でm/z値から質量を正確に割り当てるために、一般に、質量分析器を較正することが好ましい。当業者には周知のように、較正は、質量が正確にわかっているサンプルに関するスペクトルを記録する形態をとることができる。

3Daの透過ウインドウは、得られたスペクトル中で許容できない感度の損失が生じるほど狭くはない。したがって、50%H₂ ¹⁸Oおよび50%H₂ ¹⁶O中で消化された、¹⁶Oを含む形態の質量がmであるC末端ペプチドの所与のフラグメントにより、第1スペクトル中でほぼ同じ強度の2つのピークが生じ、第2スペクトル中では1つのピークだけが生じることになる。第1スペクトルSP1中のこれら2つのピークは、mおよびm+2の質量を有するフラグメントに対応し、第2スペクトルSP2中の単一のピークは、m+2の質量を有するフラグメント・イオンに対応する。

質量分解能は、しばしば比m/Δmとして表される。ただし、mおよびm+Δmは、質量スペクトル中で分解されてほぼ等しい強度の2つの隣接するピークの質量である。示差走査技術では、質量分析器340および検出器350が、分子量がせいぜい約1または2ダルトンだけ異なるサブフラグメント・イオンについての信号を分解することができる必要がある。具体的には、C末端で¹⁶O原子を有する質量mのペプチド・サブフラグメントと、C末端の¹⁸O原子のために、質量m+2を有する同じペプチド・サブフラグメントはどちらも同じ電荷を有し、それら2つのサブフラグメントから生じるピークがスペクトル中で分解可能でなければならない。ペプチドが大であるほど、サブフラグメント・イオンの質量は大きくなる。したがって、mおよびm+2のピークを分解可能にするためには、分析器の分解能は、比較的大型のペプチドに対してはより高くなければならない。

エレクトロスプレー・イオン化法によって生成された前駆イオンは、しばしば複数の電荷を有し、その結果、それらのm/z値はそれらの質量の何分の一かになる。2価のサブフラグメント・イオンは、m/z値においてはその質量の半分に見えるが、1m/z単位だけ分離された質量mおよびm+2のサブフラグメント・イオンについてのピークを分解することが必要になろう。

データを収集するのに用いる機器の分解能は、C末端イオンを正確に同定するのに影響を及ぼすことになることが当業者には理解されよう。本発明の方法は、3連4重極などの低分解能の機械で実施することができるが、高分解能の機械で実施することが好ましい。

¹⁶O/¹⁸Oスペクトル中のmおよびm+2の2重の特徴的な見かけによって、かつ、¹⁸Oスペクトル中の対応する¹⁶Oピークの抑圧によって、すべてのC末端ペプチド・サブフラグメント・イオンを同定することができる場合、原理上、C末端系列中の連続したピーク間のm/zの差に注目することによって、このスペクトルからペプチドまたはタンパク質の配列216を「読み取る」ことができる。互いに同じ質量を有するロイシンおよびイソロイシンを除くすべてのアミノ酸は、それらの特徴的な質量、したがってm/z値によって互いに区別可能である。

ただし、実際には、示差走査質量分析法を用いたペプチドの配列決定は、スペクトルの単純な比較よりも難しい。通常、C末端ペプチド・サブフラグメント・イオンから生じるピークの同定は、特に比較的長いペプチドでは、視覚的な検査によって実現することができない。本発明のコンピュータ・プログラム製品および方法により、この難点が軽減され、示差走査技術を利用して取得した質量スペクトルの高速で正確な解釈を行うことができ、それによって、以前は未知であったタンパク質のアミノ酸配列が高速かつ正確に決定される。

C末端ペプチド・サブフラグメント・イオンの同定用アルゴリズム
本発明のアルゴリズムが対処する主要な問題は、ペプチドの質量スペクトル中のyイオンの同定である。その全体的な原理は、このペプチドに関するフィルタ処理されたスペクトルSSを計算することである。図5を参照されたい。m_pが¹⁶O含有ペプチドのyイオンに対応する場合、このフィルタ処理されたスペクトルが、m/z値m_pでピークを含むシミュレーションされたスペクトルであると効果的である。フィルタ処理されたスペクトル中のピークの高さは、測定されたスペクトル中の強度に類似するものであるが、このピークがyイオンに対応する尤度を示すファクタの累積的な乗算によって計算される。フィルタ処理されたスペクトルの利点は、このスペクトルが視覚的に満足できるものであり、解釈が簡単なことである。

図5を参照すると、フィルタ処理されたスペクトルSSの生成に先立つステップは、以下のようになる。スペクトルを生じさせるペプチドの電荷数を確認することが好ましい。開始点は、¹⁶O/¹⁸Oの質量スペクトルSP1 500および¹⁸OのスペクトルSP2 502である。これらから、サブフラグメント・イオンの電荷数を推定する(ステップ504)。その後、各サブフラグメントごとに、¹⁶O/¹⁸Oの質量スペクトル中のピークを分析して、そのピークが¹⁸Oで標識したイオンに対応するかどうかを調べ(ステップ506)、各ピークごとにスコア値S1 508を推定する。¹⁸Oの質量スペクトル中のピークも分析して、これらのピークが、¹⁸Oの質量スペクトル中では¹⁶O/¹⁸Oの質量スペクトルと比較して存在が抑圧されている¹⁶O含有ペプチド・サブフラグメントを示しているかどうか調べ、それによって、スコア値S2 512が生成される。本発明の範囲を逸脱することなく、ステップ506および510の順序を逆にすることができることを理解されたい。最後に、スコア値S1およびS2を合成してフィルタ処理されたスペクトルSS514を生成する。次に、前記各ステップをより詳細に説明する。

このアルゴリズムは、¹⁶O/¹⁸OのスペクトルSP1および¹⁸OだけのスペクトルSP2に関するデータを利用する。このアルゴリズムの主要なタスクは、¹⁶O/¹⁸Oスペクトル中の各ピークに、そのピークが¹⁶O含有ペプチド・サブフラグメントのyイオンである確率値を割り当てるスコア・データセットSDを生成することである。次いで、式(1)に従って各m_p値ごとに、フィルタ処理されたスペクトルSSを計算する。

SS(m_p)=SD(m_p)*SP1(m_p) (1)
このアルゴリズムの最終結果は、¹⁶Oのyイオンについて、他のすべてのイオンは除外して計算されたm/z値を含むフィルタ処理されたスペクトルを生成することである。本発明の方法は、測定スペクトルのある部分またはある範囲だけに対応するフィルタ処理されたスペクトルの計算に等しく適用可能であることを理解されたい。本発明の方法は、透過ウインドウのいずれかの位置に対して測定されたスペクトル全体を含むフィルタ処理されたスペクトル、スコア・データ・セットまたはスコア値の計算に限定されると解釈すべきではない。

示差走査質量分析法とともに、本発明のコンピュータ・プログラム製品および方法を用いて、スペクトル中のyイオンの2つの本質的な特徴を認識することによって、yイオンの同定が容易になる。第1に、yイオンは、¹⁶O/¹⁸OスペクトルSP1中で¹⁶O/¹⁸O同位体分布を有する。第2に、yイオンの¹⁶Oのピークは、¹⁸OスペクトルSP2中で抑圧される。これら2つの特徴を用いて、¹⁶O/¹⁸Oスペクトル中の各ピークごとに全体的なスコア値を計算し、その値がスコア・データセットSDの一部を形成する。

第1ステップは、位置m_pでピークを生じさせるフラグメントの質量値mを推定することである。これを実現する方法は、Uttenweiler-Joseph, S.、Neubauer, G.、Christoforidis, S.、Zerial, M.、Wilm, M.、「Automated de novo sequencing of proteins using the differential scanning technique」、Proteomics、1(5)、668〜682頁、(2001)から得られる。これを参照により本明細書に組み込む。用いられるイオン化法のタイプによっては、m_pでピークを生じさせるサブフラグメント・イオンは多重に帯電し得る。一般に、エレクトロスプレー・イオン化法では多価イオンが生じる。電荷数を推定する方法は、当業者には周知である。多価イオンを識別する最も単純明快な方法は、隣接するアイソタイプに関連するピークの間隔を調べることである。例えば、このようなピークが0.5m/z単位離れている場合、これらは2価イオンである。これらのピークが0.33または0.25m/z単位離れている場合、これらはそれぞれ3価イオンまたは4価イオンである。多価イオンの質量スペクトルを解釈するより高度な方法には、Zhouの米国特許第5,072,115号に記載されているものが含まれる。これを参照により本明細書に組み込む。

m_pにおけるピークについての全体的なスコア値SD(m_p)により、このピークが、部分的に標識したペプチド・サブフラグメントから生じる二重線の第1ピークである全体的が確率を求められる。スコア値SD(m_p)は、式(2)の2つのファクタの積から計算する。

SD(m_p)=S1(m_p)*S2(m_p) (2)
S1(m_p)は、¹⁶O/¹⁸Oスペクトル中のm_pにおけるピークの周りのエンベロープ中のピークの分布および強度を、天然の同位体存在度を用いて同じ質量のペプチドについて予想したピークの分布および強度と比較することによって計算された確率である第1スコア値である。したがって、S1(m_p)は、m_pにおけるピークが、50%H₂ ¹⁸Oおよび50%H₂ ¹⁶O中で、あるいは、別の実施形態においては、なんらかの他の割合のH₂ ¹⁸Oを含む水混合物中での酵素消化から得られた¹⁶O/¹⁸O比のフラグメントから生じる確率を示す。

S2(m_p)は、¹⁶O/¹⁸OスペクトルSP1中のm_pにおけるピークの強度を、¹⁸OスペクトルSP2中のm_pにおけるピークの強度と比較し、第2スペクトル中でのこのピークの抑圧の度合いを求めることによって計算された確率である第2スコア値である。したがって、S2(m_p)は、m_pにおけるピークが、ペプチドの¹⁶O含有yイオンに対応する確率を示す。

予想された同位体分布および観察された同位体分布に基づく第1スコア値S1の計算
本発明の方法における第1ステップでは、位置m_pにおける特定のピークが、スペクトルSP1中で¹⁶O/¹⁸O同位体クラスタの第1同位体から生じる第1確率を計算する。この第1確率は第1スコア値として知られている。モノアイソトピック質量がm₀であるペプチドでは、観察された同位体エンベロープは、質量が約m₀+1、m₀+2、m₀+3などのイオンからの寄与を含む。これらのモノアイソトピック化学種がm_pで強度I₀のピークを生じさせる場合、このエンベロープは、それぞれ強度I₁の(m_p+1)、強度I₂の(m_p+2)、強度I₃の(m_p+3)などで示す連続したピークを含むことになる。このクラスタに寄与するこれらのイオンが単一の電荷を有する場合、このエンベロープ中の連続したピークは、約1m/z単位だけ分離される。通常検討される最大質量は、m₀の値に依存する。というのは、比較的大のペプチドは、比較的多数の重い同位体を組み込むと予想され、したがって、この同位体エンベロープ中でより大きなピークを有することになるからである。この同位体エンベロープのピーク強度の観察値I₀、I₁、I₂などは、通常、天然の同位体存在度によって決まる。炭素、窒素、酸素および硫黄の天然の同位体分布(表1)は、ペプチド質量スペクトルの解釈を複雑にした要因であったが、本発明ではそれをいくらか有利に用いることができる。天然存在度は既知なので、この存在度が、例えば、50%H₂ ¹⁸Oおよび50%H₂ ¹⁶Oの混合物中の酵素消化から生じる人為的な¹⁶O/¹⁸O比によって乱れる時点を識別し、この存在度が乱れる程度を定量化するのは単純明快である。

ペプチド・サブフラグメントの同位体エンベロープの理論的な見かけは、存在度で重みづけした各元素の同位体の合計を計算する多項式を解くことによって正確に分子イオン・クラスタにモデル化することができる(Yergey、(1983)、J. Mass Spectrom. Ion Process、52、337〜349頁)。このアルゴリズムが用いる式の例には以下の式が含まれるが、これらに限定されるものではない。

これらの式では、質量M_pepのフラグメントは、その同位体クラスタ中に質量M_pep+nのフラグメントを有する。このエンベロープ中のフラグメントM_pep+nの強度I_nは、項δ_nを加えることによって計算することができる。すべてのI_nの初期値は、I₀を除きゼロである。I₀は1に設定されるので計算は行われない。I₀は、この分子のモノアイソトピック化学種の強度である。I_nは、第1番目以降のn番目同位体の強度(n+1番目の同位体を合わせた)である。

これらの式の適用例を示すために、最初のもの以降の第3同位体を考える。上記で論じたように、どの同位体質量にも2つ以上の寄与があり得る。他の元素からの同位体置換基を有する¹⁶O含有ペプチドからの寄与があり、そのため、δ₃を考慮して寄与を計算する。ただし、¹⁸O含有ペプチドからの寄与もある。¹⁸Oのペプチドは2Daだけ重いので、¹⁸Oで標識したペプチドでは最初のもの以降の第1同位体も同じ質量である。したがって、¹⁸Oで標識したペプチドのピークI₃への寄与に関しては、δ₁を考慮してその寄与を計算しなければならない。この場合、したがって、I₃はδ₁およびδ₃だけ増加する。

これらの式の例は、フラグメントの質量だけによって決まり、元素のタイプ、化学組成または電荷数に依存しない。したがって、このような式を適用する前に、フラグメントの電荷数を推定しなければならず、それによって、その質量を求めることができる。これらの式は、現在知られているペプチド配列の中の平均存在度から得られた近似式である。これらの式を導出するのに適したペプチド配列の最新の編纂物の例には、例えば、EBI(欧州バイオインフォマティクス研究所)によって常に更新されている「非冗長」データベースが含まれる。例えば、http://www.ebi.ac.ukを参照されたい。これは、ftp://ftp.embl-heidelberg.de/pub/databases/nrdbからも利用可能である。NCB1によって編纂された別の類似のデータベースは、http://ncbi.nlm.nih.gov/で得られる。

ペプチド・サブフラグメント・イオンが重くなるほど、エンベロープ中でより多くのピークが大きな強度を有することに留意されたい。モノアイソトピック質量が1100であるペプチド・サブフラグメントのエンベロープは、例えば、強度が第1式によって計算され、質量が1101のフラグメントと、強度が第2式によって計算され、質量が1102のフラグメントとを有することがわかる。質量1100のペプチド・サブフラグメントでは、1103以降の寄与は無視できるほど小さい。

示差走査技術では、yイオンの同位体エンベロープは、¹⁸Oによる部分的な標識化からの特徴的な同位体分布によって乱れる。例えば、m_pにおけるピークが、yイオンの¹⁶O/¹⁸O同位体クラスタ中の第1ピークである場合、ピーク(m_p+2)、(m_p+3)などの強度の観察値は、天然に存在する酸素含有量のサブフラグメントの強度と異なるものになる。¹⁶O/¹⁸O同位体クラスタおよび¹⁸O含有イオンの同位体エンベロープの特徴的な二重線は、¹⁶O含有イオンの同位体エンベロープ上に重ねられることになる。対照的に、非yイオンの同位体エンベロープは、単に予想された天然に存在する形態に従うことになる。その結果、yイオンから生じるペプチド質量スペクトル中でピークを視覚的に割り当てることは極めて難しいが、これらのピークの同位体エンベロープが、天然に存在する同位体分布に関して予想されたエンベロープと大きく異なることを計算で利用することができる。

天然の同位体存在度に基づく¹⁶O含有yイオンについての理論的に予想されたピーク強度を、上記で示したタイプの多項式を用いて計算することができ、それらをI₁ ^*、I₂ ^*、I₃ ^*などで示す。強度の観察値および計算値をそれぞれI₀およびI₀ ^*に対して正規化し、それによって定量的な比較を行うことができる。スコア値S1は、式3に示すように、同位体エンベロープ中の各ピークごとの強度の観察値と計算値の差の関数である。

ただし、

強度の差の絶対値Δ_nは、ピーク(m_p+n)についての強度の観察値であるI_nと、m_pにおけるピークが¹⁶O含有yイオンから生じることを仮定してピーク(m_p+n)について計算された強度であるI_n ^*とから計算される。式(3)中のS1_n(m_p)は、(m_p+n)におけるピークの強度から、m_pにおけるピークのスコア値S1への寄与である。普遍定数e(〜=2.71828...)は自然対数の底である。

式(3)には2つのパラメータがあり、それらは下記の効果を有する。λは「強さ」である。すなわち、スコア値に与えられる重みであり、この判定基準がどのくらい重要になるかに従って調整可能である。σは「鋭さ」のパラメータであり、Δ_nの増加に応じてどのくらい速くS1_nがゼロに落ちるかに影響を及ぼす。式(3)の形を図6(a)に示す。ただし、λ=5、σ=0.25である。Δはx軸上の値であり、S1はy軸上の値である。

鋭さのパラメータσにより、どのくらい速くこれらのスコア値が0.001*λに落ちるかが決まる。好ましくは、σは固定するのではなく、データ自体から計算する。スコア関数の目的は、式(3)の好ましい形に従って、¹⁸O同位体を有するピークにスコア強さλを掛け、この同位体をもたないピークに極めて小さな値である0.001*λを掛けることである。ほとんどのピークは¹⁸O同位体をもたないので(C末端フラグメントしかそれをもたない)、平均ピークには、0.001*λに近い極めて小さな値を掛けるべきである。そのため、σは、平均ピークに約0.003*λが掛けられるように選択するのが好ましい。すなわち、数学的には以下のようになる。

ただし、Δ_avgは、このスペクトルから決定されたすべての値の平均である。

本発明の好ましい実施形態では、λは値10.0に固定する。σおよびλの値は、用いられる機械およびデータの質の影響を受ける。当業者なら、用いられるサンプルおよび機械に応じて、ここで与えられる値と異なるλおよびσの値を選択して、よりよい結果を得ることができよう。

式(3)中の指数項により、強度の観察値および計算値の差(Δ_n)が大きいと、それが自乗されたときに、S1_nの値が確実に小さくなる。スペクトルはともにI₀=I₀ ^*=1に対して正規化されるので、

となることに留意されたい。別の実施形態としては、式(3)中のこれら2つの項の相対的な寄与を、これらの合計が1.0に近いままに維持しながら、これらの係数の値を別々に変更することによって調整することができる。

本発明の原理から逸脱することなく、式(3)の他の形が可能である。

サンプル中のフラグメントの実際の同位体存在度も完全には求めることができないことに留意されたい。これについての2つの大きな理由は、所与のピークは、少数のイオンからの信号しか含まず、そのため、統計的にすべての同位体の置換基の存在度を完全に実現することができないことと、所与のピークは、しばしば他のイオンからの信号によって成長し、それによって予測できない歪みが生じることである。

スペクトル中のクラスタごとに、ペプチド・サブフラグメント・イオンの質量に応じて、寄与S1_n(m_p)がピーク(m_p+n)に対して計算され、それによって、同位体エンベロープが得られる。標識されていないフラグメントの場合、300<m₀<1000では(m_p+1)だけを考慮し、1000<m₀<1800ではピーク(m_p+1)および(m_p+2)を考慮する。潜在的に¹⁸Oで標識したフラグメントを考慮すると、質量m₀+2の同位体も考慮する。そのため、300<M_p<1000では、ピーク(m_p+1)、(m_p+2)および(m_p+3)が含まれる。スペクトル中のあるサブセットのクラスタ全体にわたってS1を計算することによって、本発明の方法を実施することもできることを理解されたい。

このように、第1スコア値S1(m_p)は、m_pにおける所与のピークの周りの同位体エンベロープ中のピーク強度の観察値と、m_pにおけるピークが、SP1中の¹⁶O/¹⁸O同位体クラスタ内の第1同位体であると仮定してこれらのピークについて計算した強度との類似性の尺度である。このスコア値は、yイオンの標識化の度合いだけでなく、同位体の天然存在度も考慮に入れる。従来は、こうすると、大のペプチドの質量スペクトルを複雑にしていた。強度の観察値と計算値の小さな差が、大きなスコア値の形で反映される。スコア値が大きいと、m_pにおけるピークが、¹⁶O含有yイオン、すなわちモノアイソトピック化学種のためである確率が大きいことを示す。

最後のステップで、好ましくは、ピークm_pごとにS1関数を計算した後で、S1関数全体をその最大値で割ることによって、S1の値を1に正規化する。このステップにより、これらのスコア値が確率に効果的に変換される。

第2スペクトル中のピークの抑圧の度合いに基づく第2スコア値の計算
本発明の方法における第2の手順は、スペクトルSP2中で抑圧される¹⁶O同位体を有する¹⁶O/¹⁸O同位体クラスタの第1同位体から、m_pにおける特定のピークが生じる第2確率を計算することである。この第2確率は第2スコア値S2として知られている。この計算は、2つのスペクトルSP1およびSP2を比較し、それによって、SP2中でのピークの抑圧量を決定することによって実現される。

上記で説明したように、4重極質量フィルタの透過ウインドウを、その幅を狭めることなく、より大きなm/z値にセンタリングし直すことができ、それによって、比較的軽い同位体の透過が効果的に妨げられる。透過ウインドウの幅を一定にして用いると、感度が確実に一定になる。こうすると、特定のペプチドの同位体混合物からのSP1と、重い同位体を含むペプチドだけからのSP2の2つの異なるスペクトルは、類似の信号対雑音比を有する。

スペクトルSP1中のm_pにおけるピークおよび強度I₀は、4重極透過ウインドウが¹⁶Oおよび¹⁸Oを含むフラグメントに関する信号を含むときに収集されるが、このm_pにおけるピークおよび強度I₀により、それぞれ強度I_nを有し、(m_p+n)で示す追加のピークが生じる。これは、天然に分布する同位体および置換されたフラグメントの混合物に起因するものである。同様に、第2スペクトル中で、4重極透過ウインドウが、C末端で¹⁸O同位体を含むフラグメント付近でセンタリングされるときに収集されるm_pにおけるピークはK₀で示す強度を有し、同じエンベロープ中のピーク(m_p+n)はK_nで示す強度を有する。

まず、m_pにおけるピークから生じるSP1中のピークの強度をI₀に対して正規化し、m_pにおけるピークから生じるSP2中のピークの強度をK₀に対して正規化する。m_pにおけるピークが、¹⁶O/¹⁸O同位体クラスタ中の第1同位体から生じる場合、このピークは第2スペクトル中で抑圧されるので、K₀<<I<SUB>0になる。K₀=1とすることによって、他のピークの強度K₁、K₂などは人為的に高い値に設定される。

第2スコア値の計算では、¹⁸Oで標識することができるはずのフラグメント・イオンの大量に存在する同位体を平均化することが望ましい。m₀が1,400Da未満のペプチド・フラグメントでは、ピークm_pおよび(m_p+2)を考慮する。標識されていない場合、m₀の第1同位体だけが多く存在する。標識されている場合、同位体m₀およびm₀+2がともに多く存在する。1,400Daよりも大きいm₀では、ピークm_p、(m_p+1)、(m_p+2)および(m_p+3)を考慮する。標識されていない場合、第1同位体だけが多く存在する。¹⁸Oで標識されている場合、m₀からm₀+4までのすべての同位体が多く存在する。これは、上記で説明したように、比較的重いペプチド・イオンでは、複数の同位体置換基を含むサブフラグメントの寄与が増加するからである。1,400Daを選択することは決まっているわけではなく、本発明の趣旨から逸脱することなく、約1,400Daの領域内で他の値を選択することができる。

各スペクトルに対して、考慮するすべてのピークの強度の平均をとることによって、同位体の平均相対強度を計算する。質量m₀を有する特定のイオンに対して、これらの平均値は、スペクトルSP1およびSP2に関してそれぞれI(ave)およびK(ave)である。そのため、m₀<1,400DAでは、I(AVE)=(I<SUB>0+I₂)/2になり、m₀>1,400Daでは、I(ave)=(I₀+I₂+I₃+I₄)/4になる。

m_pにおけるピークが、¹⁶O/¹⁸O同位体クラスタ中の第1同位体である場合、このピークは第2スペクトル中で抑圧され、K(ave)>I(ave)になる。m_pにおけるピークが非yイオンの第1同位体である場合、K(ave)〜=I(ave)になる。

第2スペクトル中のm_pにおけるピークの抑圧の度合いを求める第2スコア値S2についての式を式6で示す。

ただし、パラメータλ₂は、S2(m_p)に与えられるスコア処理の重みであり、Δ_nは、これら2つのスペクトルのピーク強度の差、すなわちピークの抑圧である。好ましい実施形態では、このスコア処理の重みパラメータには値5が与えられる。図6(b)に、λ₂=5、σ₂=0.25についての例を示す。図6(b)では、Δはx軸上の値であり、S2はy軸上の値である。

この抑圧がマイナスの場合、すなわち、第2スペクトル中の所与の同位体の強度が、第1スペクトル中のものよりも大きい場合、Δを(S2=0、すなわち抑圧なしに相当する)ゼロに設定する。S1に関する式の場合と同様に、σ₂は鋭さのパラメータである。というのは、σ₂により、抑圧がない(すなわち、Δ_nが小さい)場合には、どのくらい速くスコア値がゼロに落ちるかが決まるからである。

このスコア処理関数は、¹⁸Oで標識したピークについてはλ₂の値を有するはずである。このようなピークは、第2スペクトル中では抑圧される。ほとんどのピークが標識されていないので、平均ピークは¹⁸Oで標識されているものではない。平均ピーク値については、スコア処理値は、例えば好ましい実施形態における0.002*λ₂といった極めて小さくなるはずである。さらに、好ましくは、平均ピーク値に0.002*λ₂などの小さな係数を掛けるようにσ₂を選択する。これは、数学的には、σが以下の形の関数として表現され得ることを意味する。

Δ_avgは、このスペクトルから決まるすべての値の平均であり、β₂は、好ましくは0.002になるように選択されるパラメータである。もちろん、σに対する他の多くの数学的な形が、本発明の方法と適合する。

I(ave)>K(ave)の場合、S2(m_p)には値ゼロが与えられる。これは第2スペクトル中でm_pにおけるピークの抑圧がなく、したがって、このピークは、¹⁶O/¹⁸O同位体クラスタ中の第1ピークではないことを示す。

S2(m_p)の値が大きいと、このピークがyイオンから生じる確率が高いことを示す。

S2の値を確率に変換するために、すべてのS2の値を計算した後で、これらのスコア値をその最大値で割る。

最後に、フィルタ処理されたスペクトルSSを、式(2)を式(1)に代入することによって得られた式8を用いて計算して、m_pの各値におけるピークについての強度を計算することができる。

SS(m_p)=SP1(m_p)*S1(m_p)*S2(m_p) (8)
ここで説明した手順は、両方のスペクトル中の各ピークごとに、あるいは、対象となるピークとして選択した数に応じて繰り返すことが好ましい。

上記で示したように、各ピークのスコア関数は、(¹⁸Oで標識したピークについての抑圧および予想同位体分布からの偏差などの)ピーク固有のパラメータと、すべての抑圧およびすべての偏差が既知である(すなわち、平均値Δ_avgが得られる)場合にのみ計算し得るパラメータとによって決まる。したがって、好ましい実施形態では、フィルタ処理されたスペクトルの計算は、ピークごとに、すべての偏差および抑圧が計算されるようにすることから開始する。その後、すべてのピークについてのスコア値を計算し、次いで、このスペクトルに、これら2つのスコア関数を掛ける。したがって、どのピークのクラスタも省かないことが好ましい。すべての計算は、すべてのピークについて、各ピークをその特徴に関して、そのピークが¹⁶O/¹⁸Oクラスタの第1ピークであり得るかどうか常に評価しながら行う。ある1つのピークを第1同位体とすることができるはずの場合でも、このクラスタに属するすべてのピークを省くことは早計である。というのは、第1ピークとすでに評価したものが、同じ目的で他のピークを評価する前に本当に第1のピークであると推測的に断定することはできないからである。例えば、第2または第3のピークがはるかに適切な¹⁶O/¹⁸Oクラスタの第1ピークになる可能性がある。

アミノ酸配列の決定
ペプチドの質量スペクトル中の一連のyイオンが同定されると、このスペクトル中の隣接するyイオン・ピーク間の質量差を検討することによって、このペプチドの配列を推定することが可能になる。

本発明のアルゴリズムとともに示差走査法により、この系列のyイオン・サブフラグメントに対応する質量スペクトル中のピークを同定することができる。この系列中の各イオンは、このペプチドのC末端を含む。ペプチドのアミド結合から先に開裂する衝突誘起解離の理想的な条件では、各yイオンは、正確な数のアミノ酸残基を含むペプチド・サブフラグメントに対応する。したがって、衝突チャンバ内で各ペプチドのアミド結合が開裂する場合、この系列中の各yイオンは、最も近接したyイオンと、アミノ酸残基の質量だけ質量が異なる。同じ質量を有するロイシンおよびイソロイシンを除き、すべてのアミノ酸残基は固有の質量を有するので、隣接するyイオンのピーク間の質量差を計算することによって、比較的重いフラグメントから、より軽いフラグメントを生成するために開裂させたアミノ酸残基そのものを同定するか、あるいは、それがロイシンまたはイソロイシンのはずであることを示すことが可能である。

本発明の一実施形態では、1対の隣接したyイオンのピークについて質量差が計算されると、この質量差を、天然に存在する20個の各アミノ酸残基の質量と順次比較し、一致するものが見つかるまでこの比較を行う。この質量差が、これらのアミノ酸残基の1つの質量と同じ場合、このアミノ酸残基に、ペプチド配列中の対応する位置が割り当てられる。質量スペクトル中で隣接する対のyイオン・ピークごとにこの手順を繰り返す。本発明の好ましい実施形態では、2つの隣接するyイオン・ピーク間の質量差が、20個の天然に存在するアミノ酸の1つの質量と対応しない場合、この質量差を、アミノ酸残基のすべての対の質量の合計と比較して、一致するものを探索する。1対のアミノ酸の質量と一致するものが見つかった場合、これら2つのアミノ酸残基をこの配列中に配置する。この対のアミノ酸間のペプチド・アミド結合は、衝突チャンバ内で、この対のそれぞれの残基を含む別のサブフラグメントが生成されるほど十分容易には開裂しなかったものである。この場合、例えば、他の重なり合うフラグメントに関する他の情報が利用可能でない限り、この対のアミノ酸が形成される順序を推測することは不可能である。

本発明の好ましい実施形態では、タンパク質の酵素消化によって生成された別個のペプチドまたはペプチド・フラグメントごとに、隣接するyイオン・ピーク間の質量差を一致させる手順を繰り返す。各ペプチドまたはペプチド・フラグメントの配列が推定され、当業者に周知の方法に従って、各フラグメントの配列を結合または重ね合わせることによって、このタンパク質の配列が推定される(例えば、Mann, M.、「A shortcut to interesting human genes: peptide sequence tags, expressed-sequence tags and computers」、Trends in Biological Science、(1996)、21、494〜495頁参照)。

引用参照文献
本明細書で引用したすべての参照文献を、個々の刊行物あるいは特許または特許出願が、具体的かつ個々に参照により事実上それら全体が組み込まれるように示されるのと同じ程度で、参照により事実上それら全体を本明細書に組み込む。

理解しやすいように図示および例によって上記発明をある程度詳細に説明してきたが、添付の特許請求の範囲の趣旨または範囲から逸脱することなく、本発明にある種の変更および改変を加えることができることが、本発明の教示に照らして当業者には容易に明らかであろう。

本発明の趣旨および範囲から逸脱することなく、本発明の多くの改変および変形を行うことができることが当業者には明らかであろう。本明細書で説明した特定の実施形態は、単なる例として示したものであり、本発明は、添付の特許請求の範囲の文言およびこのような特許請求の範囲が権利を有する均等物の全範囲によってのみ限定されるものとする。

別の実施形態
本発明は、コンピュータ可読記憶媒体中に埋め込まれたコンピュータ・プログラム手順を含むコンピュータ・プログラム製品として実施することができる。例えば、このコンピュータ・プログラム製品は、CD-ROM、磁気ディスク記憶製品その他の任意のコンピュータ可読データまたはプログラム記憶製品に記憶させ得る複数の別々のプログラム・モジュールを含むことができるはずである。コンピュータ・プログラム製品中のこれらのソフトウエア・モジュールは、インターネットその他の手段で、搬送波上で(これらのソフトウエア・モジュールが埋め込まれた)コンピュータ・データ信号を送信することによって電子的に配信することもできる。

いくつかの特定の実施形態を参照して本発明を説明してきたが、この説明は、本発明を例示するためのものであり、本発明を限定すると解釈すべきではない。添付の特許請求の範囲によって定義される本発明の真の趣旨および範囲から逸脱することなく、当業者なら様々な改変形態を想起しよう。

本発明によるコンピュータ・システムを示す図である。本発明の好ましい実施形態で使用する4重極飛行時間型質量分析器を示す図である。本発明の好ましい実施形態とともに用いる部分的な同位体標識処理を示すフローチャートである。示差走査法を示すフローチャートである。本発明によるアルゴリズムを示すフローチャートである。図6Aは、式3を用いて計算したΔ_nの関数としてのスコア値S1_nの代表的な形を示す図であり、図6Bは、式6を用いて計算したΔ_nの関数としてのスコア値S2_nの代表的な形を示す図である。フィルタ処理していないペプチド・サブフラグメント・イオン質量スペクトルと、フィルタ処理したペプチド・サブフラグメント・イオン質量スペクトルとの比較を示すスペクトルを示す図である。本発明を実施する代表的な質量分析器を示す図である。

【配列表】

Claims

同位体標識がその天然存在度と異なる割合で存在する前記ペプチドのサンプルに、示差走査質量分析法を適用することによって得られた質量分析データを受け取るように構成された入力装置と、
前記質量分析データに対して数学的演算を実行するように構成されたプロセッサと、
前記プロセッサに接続され、前記質量分析データ中のピークごとに繰り返し実行され、前記質量分析データ中のピークが、前記ペプチドのyイオン・サブフラグメントから得られる確率を生成するように前記プロセッサに指示する第1組の命令と、前記ペプチドのフィルタ処理された質量スペクトルを生成するように前記プロセッサに指示し、前記フィルタ処理された質量スペクトル中で閾値よりも大きい強度を有する各ピークと、前記ペプチドのyイオン・サブフラグメントに対応するように予測する第2組の命令と、前記フィルタ処理された質量スペクトルから前記ペプチドのアミノ酸残基配列を導出し、前記配列を前記メモリ中に記憶するように前記プロセッサに指示する第3組の命令とを記憶するメモリと
を備えるペプチドのアミノ酸残基配列を決定する装置。
前記質量分析データが、前記同位体標識が存在するサブフラグメント・イオンからの信号と、前記同位体標識が存在しないサブフラグメント・イオンからの信号とを有する第1質量スペクトルと、前記同位体標識が存在しないサブフラグメント・イオンからの信号が実質的に抑制された第2質量スペクトルとを含む、請求項1に記載の装置。
前記同位体標識が¹⁸Oである、請求項1に記載の装置。
前記割合が50%である、請求項3に記載の装置。
前記割合が33%である、請求項3に記載の装置。
前記確率が第1スコア値S1と第2スコア値S2の積から計算され、
(i)前記同位体標識が存在しないサブフラグメント・イオンからの信号を含む同位体クラスタから、前記第1質量スペクトル中のピークが生じる尤度と(ii)前記同位体標識が前記割合で存在するサブフラグメント・イオンからの信号とに前記第1スコア値が比例し、
前記同位体標識が前記割合で存在するサブフラグメント・イオンからのピークを含み、かつ前記同位体標識が存在しないサブフラグメント・イオンからのピークが前記第1質量スペクトルと比較して効果的に抑圧された同位体クラスタから、前記第2質量スペクトル中のピークが生じる尤度に前記第2スコア値が比例する、請求項2に記載の装置。
前記第1スコア値S1が、m_pにおけるピークについて下記関係式から計算され、

ただし、λおよびσはユーザが定義するパラメータであり、

ただし、I_nは、前記第1スペクトル中にピークm_pが生じる同位体クラスタ中のn番目のピークの強度であり、I_n ^*は、天然の同位体存在度によるスペクトル中にピークm_pが生じる同位体クラスタ中のn番目のピークの強度の計算値である、請求項6に記載の装置。
λの値が10.0である、請求項7に記載の装置。
σが、

で与えられる、請求項7に記載の装置。
前記第2スコア値S2が、m_pにおけるピークについて下記関係式から計算され、

ただし、λ₂およびσ₂はユーザが定義するパラメータであり、

ただし、I_nは、前記第1スペクトル中にピークm_pが生じる同位体クラスタ中のn番目のピークの強度であり、I_n ^*は、天然の同位体存在度によるスペクトル中にピークm_pが生じる同位体クラスタ中のn番目のピークの強度の計算値である、請求項7に記載の装置。
λ₂の値が5である、請求項10に記載の装置。
σ₂が、β₂をパラメータとする

で与えられる、請求項10に記載の装置。
前記第3組の命令が、前記フィルタ処理された質量スペクトル中の1対のピーク間の質量差を計算し、前記質量差を天然に存在する20個の各アミノ酸の残基の質量と比較する命令を含む、請求項2に記載の装置。
同位体標識がその天然存在度と異なる割合で存在する前記ペプチドのサンプルに示差走査質量分析法を適用することによって得られた質量分析データを受け取ることと、
前記第1組の命令が前記質量分析データ中のピークごとに繰り返し実行され、前記質量分析データ中のピークが、前記ペプチドのyイオン・サブフラグメントから得られる確率を生成することと、
前記ペプチドのフィルタ処理された質量スペクトルを生成し、前記フィルタ処理された質量スペクトル中で閾値よりも大きい強度を有する各ピークが、前記ペプチドのyイオン・サブフラグメントに対応するように予測することと、
前記フィルタ処理された質量スペクトルから前記ペプチドのアミノ酸残基配列を導出することと
を含むペプチドのアミノ酸残基配列を決定する方法。
前記質量分析データが、前記同位体標識が存在する場合のサブフラグメント・イオンからの信号と、前記同位体標識が存在しない場合のサブフラグメント・イオンからの信号とを有する第1質量スペクトルと、前記同位体標識が存在しないサブフラグメント・イオンからの信号が大きく抑圧された第2質量スペクトルとを含む、請求項14に記載の方法。
前記同位体標識が¹⁸Oである、請求項15に記載の方法。
前記割合が50%である、請求項15に記載の方法。
前記割合が33%である、請求項15に記載の方法。
前記確率を第1スコア値S1と第2スコア値S2の積から計算し、
(i)前記同位体標識が存在しないサブフラグメント・イオンからの信号を含む同位体クラスタから、前記第1質量スペクトル中のピークが生じる尤度と(ii)前記同位体標識が前記割合で存在するサブフラグメント・イオンからの信号とに前記第1スコア値が比例し、
前記同位体標識が前記割合で存在するサブフラグメント・イオンからのピークを含み、かつ前記同位体標識が存在しないサブフラグメント・イオンからのピークが前記第1質量スペクトルと比較して効果的に抑圧される同位体クラスタから、前記第2質量スペクトル中のピークが生じる尤度に前記第2スコア値が比例する、請求項15に記載の方法。
前記第1係数S1が、ピークm_pについて下記関係式から計算され、

ただし、λおよびσはユーザが定義するパラメータであり、

ただし、I_nは、前記第1スペクトル中にピークm_pが生じる同位体クラスタ中のn番目のピークの強度であり、I_n ^*は、天然の同位体存在度に従って計算されたスペクトル中にピークm_pが生じる同位体クラスタ中のn番目のピークの強度である、請求項19に記載の方法。
λの値が10.0である、請求項20に記載の方法。
前記第2スコア値S2が、m_pにおけるピークについて下記関係式から計算され、

ただし、λ₂およびσ₂はユーザが定義するパラメータであり、

ただし、I_nは、前記第1スペクトル中にピークm_pが生じる同位体クラスタ中のn番目のピークの強度であり、I_n ^*は、天然の同位体存在度によるスペクトル中にピークm_pが生じる同位体クラスタ中のn番目のピークの強度の計算値である、請求項20に記載の方法。
λ₂の値が5である、請求項22に記載の方法。
σ₂が、β₂をパラメータとする

で与えられる、請求項22に記載の方法。
前記ペプチドについてフィルタ処理された質量スペクトルを生成するステップが、前記フィルタ処理された質量スペクトル中の1対のピーク間の質量差を計算することと、前記質量差を、天然に存在する20個のアミノ酸の各残基の質量と比較することとを含む、請求項15に記載の方法。
プログラムの制御下でコンピュータによって実行され、前記コンピュータが、前記プログラムを記憶するメモリと、質量分析データを受け取るように構成された入力装置と、前記質量分析データに対して数学的演算を実行するように構成されたプロセッサとを含む、請求項14から25のいずれか一項に記載の方法。