JP2008533619A - 非バイナリ配列比較のためのシステム、方法及びコンピュータプログラム - Google Patents
非バイナリ配列比較のためのシステム、方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2008533619A JP2008533619A JP2008502113A JP2008502113A JP2008533619A JP 2008533619 A JP2008533619 A JP 2008533619A JP 2008502113 A JP2008502113 A JP 2008502113A JP 2008502113 A JP2008502113 A JP 2008502113A JP 2008533619 A JP2008533619 A JP 2008533619A
- Authority
- JP
- Japan
- Prior art keywords
- module
- sequence
- dna
- base
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000004590 computer program Methods 0.000 title description 3
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000005259 measurement Methods 0.000 claims abstract description 5
- 108020004414 DNA Proteins 0.000 claims description 126
- 238000004458 analytical method Methods 0.000 claims description 60
- 239000002773 nucleotide Substances 0.000 claims description 49
- 125000003729 nucleotide group Chemical group 0.000 claims description 49
- 230000006399 behavior Effects 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 18
- 230000000737 periodic effect Effects 0.000 claims description 16
- 238000009795 derivation Methods 0.000 claims description 13
- 238000002864 sequence alignment Methods 0.000 claims description 13
- 238000007726 management method Methods 0.000 claims description 12
- 230000000739 chaotic effect Effects 0.000 claims description 10
- 102000053602 DNA Human genes 0.000 claims description 8
- 238000012300 Sequence Analysis Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 4
- 108020004682 Single-Stranded DNA Proteins 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 2
- 230000003252 repetitive effect Effects 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 claims description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 35
- 108091028043 Nucleic acid sequence Proteins 0.000 description 17
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 12
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 10
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 8
- 238000003491 array Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 230000021615 conjugation Effects 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 6
- 229940113082 thymine Drugs 0.000 description 6
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 5
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 5
- 229930024421 Adenine Natural products 0.000 description 5
- 229960000643 adenine Drugs 0.000 description 5
- 229910052799 carbon Inorganic materials 0.000 description 5
- 229910052729 chemical element Inorganic materials 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 125000004429 atom Chemical group 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 125000000714 pyrimidinyl group Chemical group 0.000 description 4
- 229940035893 uracil Drugs 0.000 description 4
- 229940104302 cytosine Drugs 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 2
- 125000002619 bicyclic group Chemical group 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 125000002950 monocyclic group Chemical group 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 235000011962 puddings Nutrition 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000947840 Alteromonadales Species 0.000 description 1
- 241001565477 Aphyosemion omega Species 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000012884 algebraic function Methods 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000002419 base digestion Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 150000001721 carbon Chemical group 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 125000004430 oxygen atom Chemical group O* 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 150000003212 purines Chemical class 0.000 description 1
- 150000003230 pyrimidines Chemical class 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Theoretical Computer Science (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
生物学的配列の非バイナリ比較を実施するためのシステムおよび方法は、VaSSA−Iと呼ばれるスタンドアロンモジュールにおいて用いられる非バイナリ計算値である新たな測定値Cω0を含む。この測定値は、配列およびそれらの間の比較に関して、従来のバイオインフォマティクス技術で収集するよりも相当多い情報を獲得する。
Description
本明細書は、2005年3月18日に出願された米国暫定特許第60/662,943号からの優先権を主張する。当該暫定特許明細書の全文は参照文献として援用する。
本発明は、全般的にはバイオインフォマティクスに、より具体的には遺伝子配列間の類似性及び相違性の程度を判定する方法に関する。
異なる種のゲノム全体のDNA配列は迅速な速さで判定されている。これらの遺伝子構造の多様性と機能を理解することは、バイオインフォマティクス業界の責務である。また、一部のゲノムデータの完成版は、そこにおいてデータを取得できなかったギャップを含んでいる。これらの多様なゲノム配列データの原案は、その相対的順番と方向の判定が困難なデータ断片を含むこともある。このような不完全なデータを扱うことで、特に2つ或いはそれ以上のゲノムを比較する場合に、統合的システムツールへの新たな需要がもたらされる。バイオインフォマティクス業界は、ギャップをより効率よく扱えるようになる必要がある。
従来の手法では、ゲノム間の比較の取扱いは大きな問題であった。非常に類似した配列では、最適配列を算出するいわゆる「どん欲な」アラインメントが存在する。これらのアルゴリズムではアラインメントにおいてギャップを許容し、かつ非常に効率的であるが、非常に単純なアラインメントスコアリングスキームでのみ十分に機能する。より高いスコア(単独ゲノムの長い部分に関して複数のゲノムを比較する)については、これらの貪欲な方法はダイナミックプログラミングに対して効力が低下する。
従来の3つ或いはそれ以上の配列についてのアラインメント法は、単独のアミノ酸をコードする3個の核酸塩基群である推定コドンに基づくタンパク質配列の比較にほぼ完全に適合化されている。これは数種類の類似した種に由来するゲノム配列について存在する例が少ないという事実によると思われる。また、配列の比較及び相同性分析もバイナリベースで実施される。これはコンピュータリソースを温存するが、生化学的情報を無視する。
従来の配列アラインメント類似性及びゲノム配列比較ツールの欠点を克服する改善ソリューションに対するニーズが存在する。
配列分析を目的としたシステムは、第1のヌクレオチド配列と第2のヌクレオチド配列の間の非バイナリ類似性スコアを算出するよう適合化された分析モジュール、ファイル管理モジュール、及びプロットモジュールを含む。
1つの実施態様では、システムはさらにレポートモジュール、ユーザーオプションモジュールおよび/あるいはユーザーヘルプモジュールも含む。
他の実施形態では、ファイル管理モジュールは少なくとも1つの配列ファイルを読み込むよう適合化された配列読み込みモジュール、配列ファイルをメモリからフラッシュするよう適合化されたアクティブ配列フラッシュモジュール、および読み込まれた配列ファイルをメモリよりフラッシュするよう適合化された読み込み配列フラッシュモジュールを含む。
他の実施形態においては、配列読み込みモジュールは配列を読み込む際にサマリレポートノートブックページを作成(generate)して表示するよう適合化された読み込み配列ディスプレイモジュールであって、サマリレポートノートブックページが配列ファイル名および配列番号を表示するよう適合化されている読み込み配列ディスプレイモジュールを含む。
他の実施形態においては、レポートモジュールは配列サマリ、各読み込み配列の内容のリスト、および/あるいは各読み込み配列の統計情報を作成して表示するよう適合化される。
他の実施形態においては、分析モジュールはターゲット配列をベース配列にアラインメントしてアラインメントレポートを表示するよう適合化された配列アラインメントモジュール、配列についてのω0スコアを算出してω0スコアを表示するよう適合化したω0モジュール、ベース配列中に複数発生したターゲット配列の位置を特定して複数の発生を表示するよう適合化したクエリ反復モジュール、反復ヌクレオチドが2度現れた場合を判定するよう適合化されたクエリオメガ反復モジュール、ベース配列中の各ヌクレオチドの位置についての勾配(slope)を算出して勾配レポートを表示するよう適合化した勾配算出モジュール、およびターゲット配列をベース配列と比較して類似性レポートを表示するよう適合化された配列比較モジュールを含む。
他の実施形態においては、プロットモジュールはベース配列およびターゲット配列について係数をアラインメントしながらプロットするよう適合化したスペクトルアレイモジュール、ベース配列およびターゲット配列について単鎖をプロットするよう適合化した単鎖モジュール、ベース配列中の各ヌクレオチドの位置についての勾配を算出してプロットを表示するよう適合化された勾配モジュール、およびベース配列についてωNを算出しωNのプロットを表示するよう適合化されたωNモジュールを含む。
本発明の他の態様は配列分析方法に関する。方法は、配列ファイルの読み取り、前記ファイルからのターゲットおよびベース配列の選択、ターゲット配列とベース配列の非バイナリ比較であって非バイナリ比較が比較値を作成する非バイナリ比較の実施、および比較値に基づくターゲット配列とベース配列の類似性の判定の手順を含む。
他の実施形態においては、方法はさらにアラインメントした配列の配列ファイルへの書き込みおよびアラインメント百分率の算出の段階も含む。
他の実施形態においては、方法は二次元スペクトルアレイプロットあるいは二次元単鎖プロットのうち少なくとも一方を作成する段階をさらに含む。
他の実施形態においては、非バイナリ比較を実施する段階は2つの配列要素間で考えられる複数の比較についての非バイナリ類似性スコア値を含むルックアップ表の使用を含む。
本発明の前述のおよび他の特性および長所は、参照番号が全般的に同一、機能的に類似、および/または構造的に類似した要素を示すような付属の図面に例示されるような、以下の本発明の好ましい実施形態のより具体的な記載より明らかになるであろう。
本発明の実施形態は、非連続的トポロジー空間にまたがる配列構造の挙動を分析および決定するための統合的システムを提供する。当該技術は、とりわけ正規化、圧縮技術、構造分類およびトポロジー共役法を含む新規改善測定法を提供する。これらの分析法の組み合わせは生物学、化学、および数的管理特性を作成するコンピュータ数学技術、および/あるいはゲノムデータの構造挙動パターンを考慮に入れる。
本発明は幅広いバイオインフォマティクスアプリケーションを用いることができる。本発明の統合的システムおよび方法はほとんどあらゆる長さのヌクレオチド配列(例:50塩基から200万塩基)に関する単配列プロットおよび他のデータを提供する。本発明の統合的システムおよび方法は、処理手順の効率が高いために多数の比較データを提供することができる。例えば、システムは500塩基の500配列を極めて速い速度で処理することが証明されている。1000、10,000、100,000、1,000,000あるいはそれ以上の配列の比較は本発明の範囲内である。
本発明のシステムは、0%(一致なし)から100%(完全一致)の相同範囲内で有意味な比較情報を作成する非バイナリ法を用いる。本発明の非バイナリ法は、典型的なバイナリ比較よりも識別力が高く、かつバイナリ比較では識別不可能であると思われる配列の相違度を分解することができる。
本発明のシステムおよび方法は、あらゆる長さの挿入および欠失が存在するにもかかわらず配列比較に有効である。アラインメントモジュールは意味のある比較を可能にする大域的および局所的最適化を提供する。単鎖プロットおよび比較は、カオス配列あるいはオメガ反復を有するコード(分解可能)領域および非コード(分解不可能)領域において作成することができる。
以下に続く記述においてはDNA塩基(A、T、GおよびC)を用いる。しかし、本発明のシステムおよび方法はDNAのみならずRNA(チミンがウラシルに置換される)、LNA、PNAおよび他の合成ヌクレオチド変異体に適用できることを理解しなければならない。
図面に示す表示はヌクレオチド配列のみを図示することが多い。明らかとなるように、コード領域については、当業者に周知の従来技術を用いてコドンに対応するアミノ酸配列も表示される。
本発明の方法は、ゲノム情報の分析、検索および表示に関する。本発明のシステムおよび方法は、ゲノム、プロテオーム、および医学データの収集、記憶、分析および検索、データマイニングおよびデータの視覚化および表示、配列アラインメントおよびパターン認識、および構造予測のためのツールを提供する。例えば、本発明のシステムおよび方法は予測的生化学モデル、シリコンアレイ、ディストリビューテッドコンピューティング、診断および治療計画の設計を目的として使用することができる。
本発明のシステムは1つあるいはそれ以上のモジュールより構成される。本発明のモジュールおよびシステムは、スタンドアローンコンピュータを操作する個人により、あるいは数人が操作するディストリビューテッドコンピューティング「システム」の一部として実践することができる。本発明は、ハードウェア、ソフトウェア、サブシステム、サブシステムのコンポーネント、およびシステムを用いて作成、編集あるいは配列されたデータ構造などのシステムの多様な側面も包含する。さらに、本発明は関係するデータを収集、作成および表示するための方法および装置および関係する分析機器、さらに機器を操作および使用する方法を包含する。本発明のシステムおよび方法を用いた、配列分析ツールへの登録権の販売などのビジネスメソッドも意図している。
以下にさらに詳述する実施形態の実践は、特に指示しない限り、従来技術の範囲内の従来の微生物学、分子生物学および免疫学の方法を採用する。このような技術は文献において完全に説明される。本明細書に引用する全ての出版物、特許および特許明細書は、上記のものであれ下記のものであれ、その全文を参照文献として本明細書に援用する。
(定義)
本発明の記載においては、以下の用語を採用し、以下に示すように定義することを意図する。
本発明の記載においては、以下の用語を採用し、以下に示すように定義することを意図する。
「VaSSA」はバリエーションシークエンスソフトウェアアプリケーションを指す。
「コンピュータ」は構造化された入力を受け付け、指示された規則に従って構造化された入力を処理し、かつ処理の結果を出力として作成することのできるあらゆる装置を示す。コンピュータは、例えばデータを受け付け、記憶した1つあるいはそれ以上のソフトウェアプログラムに従ってデータを処理し、結果を作成し、かつ典型的に入力、出力、記憶、演算、論理および制御ユニットを含むあらゆる装置を含むことができる。コンピュータの例は、コンピュータ、一般的な用途のコンピュータ、スーパーコンピュータ、メインフレーム、スーパーミニコンピュータ、ミニコンピュータ、ワークステーション、マイクロコンピュータ、サーバ、インタラクティブテレビ、ウェブアプライアンス、インターネットにアクセスするテレコミュニケーションデバイス、コンピュータとインタラクティブテレビのハイブリッド複合機器、ポータブルコンピュータ、パーソナルデジタルアシスタント(PDA)、携帯電話、および例えばプログラマブルゲートアレイ(PGA)あるいはプログラムドデジタルシグナルプロセッサ(DSP)などのコンピュータおよび/あるいはソフトウェアをエミュレートするためのアプリケーション別ハードウェアを含む。コンピュータは固定型でもポータブルでもよい。コンピュータは単独のプロセッサを有することも、平行してかつ/あるいは平行せずに制御できる複数のプロセッサを有することもある。コンピュータは、コンピュータ間で情報を送信あるいは受信するためにネットワークを通じて互いに接続された2つあるいはそれ以上のコンピュータを指すこともある。このようなコンピュータの例は、ネットワークで連結されたコンピュータを通じて情報を処理するためのディストリビューテッドコンピュータシステムを含む。
「マシンがアクセスできるメディア」は、コンピュータがアクセスできるデータを記憶するために用いるあらゆる記憶デバイスを指す。コンピュータで読み取り可能なメディアの例は:磁気ハードディスク、フロッピー(登録商標)ディスク、CD−ROMおよびDVDなどの光学ディスク、磁気テープ、メモリチップ、および電子メールの送信および受信やネットワークへのアクセスに用いるものなどのコンピュータ読み取り可能電子データを運ぶために用いる搬送波を含む。
「ソフトウェア」はコンピュータを制御するための指示された規則を指す。ソフトウェアの例は、ソフトウェア、コードセグメント、命令、ソフトウェアプログラム、コンピュータプログラム、およびプログラム論理を含む。
「コンピュータシステム」はコンピュータを有するシステムであって、コンピュータがコンピュータを制御するためのソフトウェアを組み込むコンピュータが読み取り可能なメディアを含むシステムを指す。
「情報記憶デバイス」は情報を記憶するために用いる製品を指す。情報記憶デバイスは、例えば紙形態や電子形態などの多様な形態を有する。紙形態では、情報記憶デバイスは情報を印刷した紙を含む。電子形態では、情報記憶デバイスはソフトウェア、例えばデータとして情報を記憶するコンピュータが読み取り可能なメディアを含む。
以下の用語は、遺伝学およびバイオインフォマティクスの標準用語集には見られない。
「列」は文字の配列である。配列は、n個で一組のオブジェクト(文字列)として知られるn×1行列と見なすこともある。例えばDNA、RNAあるいは合成あるいは他の変異体などのヌクレオチド配列の場合、各ヌクレオチド要素は非連続的セットである列内で固有の位置を有する。
例:AGCAATATAGGAは長さ12の文字の列である。
列Sの「サブ配列」は、S内で連続する必要はないがSに示されているその順列を保持しているSの文字配列を意味する。
例:ACGはACTCGTのサブ配列である。
「f(n)=O(g(n))」:f(n)およびg(n)を関数とする。このとき全ての十分に大きいnについて|f(n)|≦cg(n)となるような定数cが存在するときかつするときのみf(n)=0(g(n))である。
「S4」は4つのヌクレオチドA、C、GおよびTで設定されたDNA配列である。
式中k=1(1シフトを示す)でありかつLは右から左への移動を示す。従ってσLはS4で定義される連続DNA値の関数である。マップを視覚化する1つの方法は、単純に配列の第1エントリを「忘れ」、焦点を他の全てのエントリを右に(即ち上記の配列の下線を引いた部分)合わせることである。このDNA連続性の直感的概念は、S4におけるDNAサブ配列のあらゆる位置の近傍にある小領域上での上述の漸近的な言語的変動がその位置からの変動がわずかに過ぎないと述べることにより説明することができる。この変動は、近傍部分のサイズを増加あるいは減少させることにより所望するとおりに短くすることも長くすることもできる。
σt,Rはt単位で左にシフトし、右から読み取る上述のもののアナログマップである。これらのマップの連続性によりマップを統合することができる。
配列の前方および後方軌道:サブ配列zの前方軌道は点z、σL(Z)、σ2 L(z)、σ3 L(z)・・・の集合であり、O+(z)で示される。サブ配列zの後方軌道は点z、σL(Z)、σ2 L(z)、σ3 L(z)・・・の集合であり、O−(z)で示される。
固定および周期サブ配列:DNAサブ配列sは、σL(s)=sである場合は固定サブ配列σLである。DNAサブ配列sは、σn L(s)=sである場合は周期nの周期サブ配列である。最少の正のnはsの一次周期と呼ばれる。周期的点の全反復群は周期的軌道を形成する。
最終周期:sが周期的でなくともi≧mとなる毎にσn+i L=σi(s)となるようなm>0が存在する場合、DNAサブ配列sは最終的に周期nで周期的となる。即ち、σi L(s)はt≧mについて周期的である。
前方漸近性:sを周期nで周期的なDNAサブ配列とする。以下の場合、サブ配列xは前方漸近性である。
SS(s)で示される安定群sは、sに対して前方漸近性である全てのサブ配列から構成される。
「アライナ」はマルチ配列アラインメント分析のバージョンである。
「オメガコンパレータ」は、ω0値に基づく単独および複数の配列ベース検索である。
「スペクトルアレイ」は、最適な言語的挙動を探索することを可能とするω0値に関してその特異構造を作成する複数の構造をとる全てのヌクレオチドを比較する一連の計算である。
「DNAω0遺伝子コードビューワ」は、ω0値による遺伝子コードのより精密な分類である。
「安定分析プロファイラ」は、ターゲットサブ配列に対して前方漸近性である全てのサブ配列を定義する技術である。
「不安定分析プロファイラ」は、ターゲットサブ配列に対して後方漸近性である全てのサブ配列を定義する技術である。
カオス:(1)σL(z)がターゲットサブ配列について鋭敏な依存性を有し、(2)σL(z)がトポロジー的に遷移的であり、かつ(3)周期的サブ配列が列あるいはデータセットについて高密度である場合、σL(z)はカオスであると言われる。
「シンボリックDNA軌道」は、インタラクティブなプロセスにおけるある配列中のターゲットサブ配列の非対称的シンボリック挙動である。
「分析的DNA軌道」は、ある配列中のターゲットサブ配列の非対称的言語的挙動である。
「DNA近似分析」は、複雑度の低いサブ配列に対して正確な構造的挙動をもたらす一連の技術である。
「カオス領域分類」は、サブ配列ターゲットを(1)初期条件に鋭敏に依存するターゲット、(2)トポロジー的に遷移的なターゲットおよび(3)DNA配列密度の高い周期的サブ配列の3カテゴリーに独自に分類する技術である。
「DNA派生」は、DNA配列内であるヌクレオチドから次のヌクレオチドへの変化を定性的に観察することを可能とする測定値である。
「DNA分岐」は、各パラメータの元でのサブ配列の変化を観察する技術である。
「DNAトポロジー共役」は、σL(z)の各マッピングが完全に等しい場合を示す技術である。
「信頼性スコア」は、配列ファミリーをターゲット配列に最も近いものから異なるものに分類する指標である。オメガ類似性スコアあるいはω0値は以下のように定義される。
本発明の実施形態は以下で詳細に議論する。具体的典型的実施形態を議論する際は、これは例示的目的のみのために行われることを理解しなければならない。
当該技術分野の当業者は、本発明の趣旨および範囲を離れることなく、他のコンポーネントおよび設定を用いることができることを理解するであろう。
図1は典型的実施形態である。本発明の方法100は、配列ファイルを読み込み(101)、ファイルよりターゲット配列およびベース配列を選択し(103)、非バイナリ比較を用いてターゲット配列とベース配列を比較(105)および類似性スコアを作成し(107)、さらにファイルにアラインメント配列を書き込む(109)段階を含む。方法100は、比較の視覚的表示を作成し(111)、アラインメント百分率を算出、および/あるいは二次元単鎖プロットあるいはスペクトルアレイプロット(113)、複鎖レポート(115)あるいは他のプロット(117)をさらに含んでも良い。
配列ファイルは、1つあるいはそれ以上の遺伝子配列を含むマシン読み込みファイルであっても良い。DNA配列には多様な許容できるフォーマットがある。EMBLフォーマットが許容できる。このフォーマットの配列ファイルは数種類の配列を含むことがある。1つの配列エントリは識別子行(「ID」)により開始し、さらにアノテーション行が続く。配列の開始部分は「SQ」で始まる行でマークし、また配列終了部をスラッシュ2本(「//」)でマークすることもある。FASTAフォーマットも許容できる。FASTAフォーマットされた配列は1行記述で開始し、配列データの行がこれに続く。記述行は、第1列が大なり(>)記号でなければならない。GCG、GenBankおよびIGなどの他の多くの書式も許容できる。
配列データは、例えばASCIIなどのテキスト形式であっても、あるいは本発明の方法を実行するコンピュータが読み込める他の形式であっても良い。配列ファイルの読み込みは、配列の直接タイピング、ディスクからの読み込み、あるいはEntrezなどの周知のインターフェースを用いたパブリックドメインへのアクセスが含まれる。ファイルは保存あるいは分析あるいは「転送時」分析する。ユーザーは単独のファイルあるいは複数のファイル、あるいはデータベース全体、あるいは単独あるいは複数のファイル、あるいはデータベース全体中のあらゆる長さのあらゆるサブ配列の読み込みを選択することができる。
ターゲットはあらゆる長さのサブ配列である。ユーザーは構造的挙動の観察を可能とするデータベース、あるいはファイルで分析を実施することを選択することができる。ターゲットは互いに2段階で識別される。第1の生物学的連関はサブ配列ターゲットを構成するアルファベットである。第2の連関はオメガゼロ生物学連関である。
1つの実施形態では、スペクトルアレイプロットの段階はωNの算出、ラジアル比較、アラインメント係数の抽出、およびアラインメント係数のプロットの段階を含む。
1つの実施形態では、スペクトルアレイプロットの段階はさらにベースあるいはターゲットの一方を逆転およびモードを逆転させる段階をさらに含む。
他の実施形態においては、非バイナリ比較を実施する段階は2つの配列要素間で考えられる複数の比較についての非バイナリ類似性スコア値を含むルックアップ表を用いることを含む。
他の実施形態では、本発明の方法は第1のヌクレオチドと第2のヌクレオチドの分子構造を比較し、前記比較に基づき第1の非バイナリ類似性スコアを決定し、各ヌクレオチドについて類似性スコアと共にルックアップ表を読み込み、かつルックアップ表を使用してヌクレオチドのターゲット配列(t)とヌクレオチドのベース配列を比較する第2の非バイナリ同等性スコアを算出する段階を含む。
図46は本発明の非バイナリ配列比較システム10の例示的実施形態を図示する。システム10は、第1のヌクレオチド配列と第2のヌクレオチド配列の間の非バイナリ類似性スコアを算出するよう適合化された分析モジュール200、ファイル管理モジュール300、プロットモジュール400、および任意のレポートモジュール500、ユーザーオプションモジュール600、および/あるいはユーザーヘルプモジュール700を含む。
本発明の非バイナリ配列比較システム10のファイル管理モジュール300は配列ファイルを管理する。1つの実施形態では、ファイル管理モジュール300は少なくとも1つの配列ファイルを読み込むよう適合化された配列読み込みモジュール310、配列ファイルをメモリからフラッシュするよう適合化されたフラッシュアクティブ配列モジュール320、および読み込まれた配列ファイルをメモリよりフラッシュするよう適合された読み込み配列フラッシュモジュール330を含む。他の実施形態では、配列読み込みモジュール310は配列を読み込む際にサマリレポートノートブックページを作成および表示するよう適応化された読み込み配列ディスプレイモジュール312をさらに含む。サマリレポートノートブックページは配列ファイル名および配列番号を表示するよう適合化される。
他の実施形態においては、非バイナリ比較システム10のプロットモジュール400は、ベース配列およびターゲット配列についてアラインメント係数をプロットするよう適合化されたスペクトル配列モジュール410、ベース配列およびターゲット配列について単鎖をプロットするよう適合化された単鎖モジュール420、ベース配列中の各ヌクレオチドの位置を算出しかつ勾配のプロットを表示するよう適合化された勾配モジュール430、およびベース配列についてのωNを算出しωNのプロットを表示するよう適合化されたωNモジュール440を含む。好ましい実施形態においては、スペクトル配列モジュール410はラジアル比較およびアラインメント係数の抽出のためにωN値を算出するようさらに適合化される。他の好ましい実施形態においては、単鎖モジュール420はベース配列およびターゲット配列についてωN値を算出するようさらに適合化される。
他の実施形態においては、本発明の非バイナリ配列比較システム10のレポートモジュール500は、配列サマリ、読み込んだ各配列の内容のリスト、および/あるいは読み込んだ各配列に関する統計情報を作成しかつ表示するよう適合化される。
他の実施形態においては、非バイナリ配列比較システム10の分析モジュール200は、ターゲット配列をベース配列にアラインメントしてアラインメントレポートを表示するよう適合化した配列アラインメントモジュール201、配列についてのω0スコアを算出してω0スコアを表示するよう適合化したω0モジュール、ベース配列中に複数発生したターゲット配列の位置を特定し、複数の発生を表示するよう適合化したクエリ反復モジュール205、反復ヌクレオチドが重複する場合を判定するよう適合化されたクエリオメガ反復モジュール207、ベース配列中の各ヌクレオチド位置について勾配を算出して勾配レポートを表示するよう適合化した勾配算出モジュール209、およびターゲット配列をベース配列と比較しかつ類似性レポートを表示するよう適合化した配列比較モジュール211を含む。
好ましい実施形態においては、アラインメント配列モジュール201はさらに前記ベース配列を逆転し、モードを逆転し、ベースおよびターゲットを最短の長さにアラインメントし、アラインメント百分率を算出し、および/あるいはオメガ類似性スコアを算出する作業を実施するよう適合化される。
他の好ましい実施形態においては、配列比較モジュール211は、ベース配列を逆転し、ターゲット配列を逆転し、モードを逆転し、各ベースおよびターゲット配列についてωN値を算出し、ベースおよびターゲット配列をバイナリに変換し、ベース配列とターゲット配列の距離を算出し、かつ距離が結合を上回るか否か判定する作業を実施するようさらに適合化される。
図2はVaSSAアーキテクチャのDNA分析部分の好ましいモジュール分解のレイアウトを図示する。分解したモジュールは以下で詳細に論じる。サブモジュールは図35から45にフローチャート形態で図示する。
(VaSSAアーキテクチャのモジュール分解)
DNA分析モジュール群200
SSDA(単鎖DNA分析)モジュール群210
MSDA(複鎖DNA分析)モジュール群240
−−−−−
SSDA(単鎖DNA分析)(図2)
DNA近似モジュール212
カオス領域分類モジュール214
DNA派生モジュール216
DNA分岐モジュール218
DNA軌道モジュール220
分析挙動プロファイラモジュール222
DNAトポロジー共役モジュール224
構造安定領域モジュール226
分解不可能領域モジュール228
DNA複雑度ベースモジュール230
DNAアライナモジュール232
−−−−−
MSDA(複鎖DNA分析)(図2)
DNA近似モジュール242
カオス領域分類モジュール244
DNA派生モジュール246
DNA分岐モジュール248
DNA軌道モジュール250
分析挙動プロファイラモジュール252
DNAトポロジー共役モジュール254
構造安定領域モジュール256
分解不可能領域モジュール258
DNA複雑度ベースモジュール260
DNAアライナモジュール262
−−−−−
DNAトポロジー共役モジュール224および254(図35)
a分析挙動プロファイラモジュール3501
b.分析マッパモジュール(分析マッピングの作成)3503
e.共役比較モジュール3505
d.第1反復分析モジュール3507
e.フェーズポートレートジェネレータモジュール3511
−−−−−
DNA近似モジュール212および242(図36)
a.正則形式ジェネレータモジュール3601
b.近似コンストラクタモジュール3603
c.P&Q係数算出モジュール3605
d.JC−DNA曲線ジェネレータモジュール3607
e.低複雑度ジェネレータモジュール3609
f.ターゲット分類モジュール3611
g.シンボリックDNA軌道モジュール(SSDAおよびMSDAの子モジュールでもある)3613
h.分析DNA軌道モジュール(SSAおよびMSDAの子モジュールでもある)3615
−−−−−
DNA軌道220および250(分析DNA軌道モジュール、図37)
シンボリックDNA軌道モジュール3701
a.シンボリックフロージェネレータモジュール3703
b.行差分ジェネレータモジュール3705
c.軌道ジェネレータモジュール3707
−−−−−
分析DNA軌道モジュール3709
a.前方分析プロファイラモジュール3711
b.後方分析プロファイラモジュール3713
c.DNAアトラクタジェネレータモジュール3715
d.DNAリペラジェネレータモジュール3717
−−−−−
カオス領域分類モジュール214および244(図38)
カオス領域セパレータ3801
a.DNA感受性ジェネレータモジュール3803
b.DNA転送性ジェネレータモジュール3805
c.高密度周期配列ジェネレータモジュール3807
−−−−−
DNA分岐モジュール218および248(図39)
スプリッタセパレータ3901
a.DNA遷移性スプリッタプロファイラモジュール3903
b.DNA高密度スプリッタプロファイラモジュール3905
−−−−−
DNA派生モジュール216および246(図40)
派生ジェネレータモジュール4001
単調ジェネレータモジュール4003
a.陽性測定(positive measure)モジュール4005
b.陰性測定(negative measure)モジュール4007
−−−−−
分析挙動プロファイラモジュール222および252(図41)
DNA近似モジュール4101
カオス領域モジュール4103
DNA派生モジュール4105
DNA分岐モジュール4107
DNA軌道モジュール4109
分析挙動プロファイラモジュール4111
DNAトポロジー共役モジュール4113
構造安定領域モジュール4115
分解不可能領域モジュール4117
DNA複雑性ベースモジュール4119
DNAアライナモジュール4121
代数構造ジェネレータモジュール4123
a.グループジェネレータモジュール4125
b.セミグループジェネレータモジュール4127
c.リングジェネレータモジュール4129
d.分析セットジェネレータモジュール4131
準同型(homomorphism)ジェネレータモジュール4133
同型(isomorphism)ジェネレータモジュール4135
−−−−−
構造安定領域モジュール226および256(図42)
反復ジェネレータモジュール4201
前方漸近性モジュール4203
安定性プロファイラモジュール4205
−−−−−
分解不可能領域モジュール228および258(図43)
DNA軌道分析モジュール4301
非反復ジェネレータモジュール4303
分解不可能プロファイラモジュール4305
−−−−−
DNA複雑度ベースモジュール230および260(図44)
反復ジェネレータモジュール4401
ユニバーサルDNAベースジェネレータモジュール4403
高密度ジェネレータモジュール4405
−−−−−
DNAアライナモジュール232および262(図45)
シンボリックアライナモジュール4501
a.単鎖ジェネレータモジュール4503
b.複−単鎖ジェネレータモジュール4505
オメガ比較アライナモジュール4507
a.オメガ単鎖ジェネレータモジュール4509
b.複−単鎖ジェネレータモジュール4511
DNA分析モジュール群200
SSDA(単鎖DNA分析)モジュール群210
MSDA(複鎖DNA分析)モジュール群240
−−−−−
SSDA(単鎖DNA分析)(図2)
DNA近似モジュール212
カオス領域分類モジュール214
DNA派生モジュール216
DNA分岐モジュール218
DNA軌道モジュール220
分析挙動プロファイラモジュール222
DNAトポロジー共役モジュール224
構造安定領域モジュール226
分解不可能領域モジュール228
DNA複雑度ベースモジュール230
DNAアライナモジュール232
−−−−−
MSDA(複鎖DNA分析)(図2)
DNA近似モジュール242
カオス領域分類モジュール244
DNA派生モジュール246
DNA分岐モジュール248
DNA軌道モジュール250
分析挙動プロファイラモジュール252
DNAトポロジー共役モジュール254
構造安定領域モジュール256
分解不可能領域モジュール258
DNA複雑度ベースモジュール260
DNAアライナモジュール262
−−−−−
DNAトポロジー共役モジュール224および254(図35)
a分析挙動プロファイラモジュール3501
b.分析マッパモジュール(分析マッピングの作成)3503
e.共役比較モジュール3505
d.第1反復分析モジュール3507
e.フェーズポートレートジェネレータモジュール3511
−−−−−
DNA近似モジュール212および242(図36)
a.正則形式ジェネレータモジュール3601
b.近似コンストラクタモジュール3603
c.P&Q係数算出モジュール3605
d.JC−DNA曲線ジェネレータモジュール3607
e.低複雑度ジェネレータモジュール3609
f.ターゲット分類モジュール3611
g.シンボリックDNA軌道モジュール(SSDAおよびMSDAの子モジュールでもある)3613
h.分析DNA軌道モジュール(SSAおよびMSDAの子モジュールでもある)3615
−−−−−
DNA軌道220および250(分析DNA軌道モジュール、図37)
シンボリックDNA軌道モジュール3701
a.シンボリックフロージェネレータモジュール3703
b.行差分ジェネレータモジュール3705
c.軌道ジェネレータモジュール3707
−−−−−
分析DNA軌道モジュール3709
a.前方分析プロファイラモジュール3711
b.後方分析プロファイラモジュール3713
c.DNAアトラクタジェネレータモジュール3715
d.DNAリペラジェネレータモジュール3717
−−−−−
カオス領域分類モジュール214および244(図38)
カオス領域セパレータ3801
a.DNA感受性ジェネレータモジュール3803
b.DNA転送性ジェネレータモジュール3805
c.高密度周期配列ジェネレータモジュール3807
−−−−−
DNA分岐モジュール218および248(図39)
スプリッタセパレータ3901
a.DNA遷移性スプリッタプロファイラモジュール3903
b.DNA高密度スプリッタプロファイラモジュール3905
−−−−−
DNA派生モジュール216および246(図40)
派生ジェネレータモジュール4001
単調ジェネレータモジュール4003
a.陽性測定(positive measure)モジュール4005
b.陰性測定(negative measure)モジュール4007
−−−−−
分析挙動プロファイラモジュール222および252(図41)
DNA近似モジュール4101
カオス領域モジュール4103
DNA派生モジュール4105
DNA分岐モジュール4107
DNA軌道モジュール4109
分析挙動プロファイラモジュール4111
DNAトポロジー共役モジュール4113
構造安定領域モジュール4115
分解不可能領域モジュール4117
DNA複雑性ベースモジュール4119
DNAアライナモジュール4121
代数構造ジェネレータモジュール4123
a.グループジェネレータモジュール4125
b.セミグループジェネレータモジュール4127
c.リングジェネレータモジュール4129
d.分析セットジェネレータモジュール4131
準同型(homomorphism)ジェネレータモジュール4133
同型(isomorphism)ジェネレータモジュール4135
−−−−−
構造安定領域モジュール226および256(図42)
反復ジェネレータモジュール4201
前方漸近性モジュール4203
安定性プロファイラモジュール4205
−−−−−
分解不可能領域モジュール228および258(図43)
DNA軌道分析モジュール4301
非反復ジェネレータモジュール4303
分解不可能プロファイラモジュール4305
−−−−−
DNA複雑度ベースモジュール230および260(図44)
反復ジェネレータモジュール4401
ユニバーサルDNAベースジェネレータモジュール4403
高密度ジェネレータモジュール4405
−−−−−
DNAアライナモジュール232および262(図45)
シンボリックアライナモジュール4501
a.単鎖ジェネレータモジュール4503
b.複−単鎖ジェネレータモジュール4505
オメガ比較アライナモジュール4507
a.オメガ単鎖ジェネレータモジュール4509
b.複−単鎖ジェネレータモジュール4511
(VaSSAのメインモジュールの説明)
(DNA近似モジュール212あるいは242)
このモジュールはVaSSA中にある多項型構築を低下させる。それは全ての係数fが演算に必要であることを示す。また、近接値は複雑度の低いサブ配列の言語構造挙動の視覚化に用いることができるデータを作成する。この手順は生物学的情報を全く失うことなく実施される。近接が迅速でより正確な分析および計算を提供する順位は低く、より正確な分析及び計算がオリジナルの関数へのより良好なフィッティングをもたらす。
(DNA近似モジュール212あるいは242)
このモジュールはVaSSA中にある多項型構築を低下させる。それは全ての係数fが演算に必要であることを示す。また、近接値は複雑度の低いサブ配列の言語構造挙動の視覚化に用いることができるデータを作成する。この手順は生物学的情報を全く失うことなく実施される。近接が迅速でより正確な分析および計算を提供する順位は低く、より正確な分析及び計算がオリジナルの関数へのより良好なフィッティングをもたらす。
(カオス領域分類モジュール214あるいは244)
このモジュールは、非予測性、規則性要素およびより小さなサブ配列に分解できない要素の3つの成分を有する。
このモジュールは、非予測性、規則性要素およびより小さなサブ配列に分解できない要素の3つの成分を有する。
(DNA派生モジュール216あるいは246)
このモジュールは、DNA列を左から右に読み取るおよび/あるいは右から左に読み取るにつれて内容における単調変化が観察できる環境を作り出す。DNA派生が陽性の場合、転送される情報は増加する。DNA派生が陰性の場合、転送される情報は減少する。DNA派生が0の場合、転送される情報は一定である。
このモジュールは、DNA列を左から右に読み取るおよび/あるいは右から左に読み取るにつれて内容における単調変化が観察できる環境を作り出す。DNA派生が陽性の場合、転送される情報は増加する。DNA派生が陰性の場合、転送される情報は減少する。DNA派生が0の場合、転送される情報は一定である。
(DNA分岐モジュール218あるいは248)
このモジュールは、DNAマップがパラメータ変更を受けるに従ってDNAの変化を分析するものである。これらの変更はDNAの周期的サブ配列と関係することが多いが、他の変化とも関係する。
このモジュールは、DNAマップがパラメータ変更を受けるに従ってDNAの変化を分析するものである。これらの変更はDNAの周期的サブ配列と関係することが多いが、他の変化とも関係する。
(DNA軌道モジュール220あるいは250)
DNA配列の分析の性質が数学的であっても、このモジュールは「サブ配列はどこに行きまたそこにたどり着いてから何をするのか?」という幾分非数学的な疑問に答える環境を作り出す。このモジュールは、DNA配列は非連続的群であると仮定してあるサブ配列を他の配列に適用する幾何学的プロセスを意味する。
DNA配列の分析の性質が数学的であっても、このモジュールは「サブ配列はどこに行きまたそこにたどり着いてから何をするのか?」という幾分非数学的な疑問に答える環境を作り出す。このモジュールは、DNA配列は非連続的群であると仮定してあるサブ配列を他の配列に適用する幾何学的プロセスを意味する。
(分析挙動プロファイラモジュール222あるいは252)
このモジュールはその全ての子モジュールを考慮に入れるので、生物学的内容を失わない代数的関数法によりそれらを連結する。そして、子モジュールからのダイナミックな情報を代数学的に同等なクラスに細分化して情報をさらに精緻なものにする。
このモジュールはその全ての子モジュールを考慮に入れるので、生物学的内容を失わない代数的関数法によりそれらを連結する。そして、子モジュールからのダイナミックな情報を代数学的に同等なクラスに細分化して情報をさらに精緻なものにする。
(DNAトポロジー共役モジュール224あるいは254)
このモジュールはデータセットとデータセット、DNAサブ配列とDNAサブ配列、および複数のDNA配列とDNA配列を関連付ける。配列を完全に等しいものと等しくないものに分類する環境を作り出す。
このモジュールはデータセットとデータセット、DNAサブ配列とDNAサブ配列、および複数のDNA配列とDNA配列を関連付ける。配列を完全に等しいものと等しくないものに分類する環境を作り出す。
(構造安定領域モジュール226あるいは256)
このモジュールは全ての軌道の理解、および周期的、最終的に周期的漸近性、等の軌道群を特定することに関する。所与のデータセットを理解する定性的および/あるいは幾何学的技術の実施。
このモジュールは全ての軌道の理解、および周期的、最終的に周期的漸近性、等の軌道群を特定することに関する。所与のデータセットを理解する定性的および/あるいは幾何学的技術の実施。
(分解不可能領域モジュール228あるいは258)
このモジュールは全ての非軌道の理解、および非周期的、最終的に周期的漸近性、等の非軌道群を特定することに関する。所与のデータセットを理解する定性的および/あるいは幾何学的技術の実施。
このモジュールは全ての非軌道の理解、および非周期的、最終的に周期的漸近性、等の非軌道群を特定することに関する。所与のデータセットを理解する定性的および/あるいは幾何学的技術の実施。
(DNA複雑度ベースモジュール230あるいは260)
このモジュールは、非周期的サブ配列が他の配列に任意に近づく様態を観察することのできる普遍的DNA群を作成する。当該モジュールは、言語的挙動が言語的密度の高い軌道を作り出す多くの位置で一致する環境を作り出す。これらの軌道はトポロジー的に遷移的と呼ばれる。
このモジュールは、非周期的サブ配列が他の配列に任意に近づく様態を観察することのできる普遍的DNA群を作成する。当該モジュールは、言語的挙動が言語的密度の高い軌道を作り出す多くの位置で一致する環境を作り出す。これらの軌道はトポロジー的に遷移的と呼ばれる。
(DNAアライナモジュール232あるいは262)
このモジュールは配列アラインメントを分析するツールキットのシステムのVaSSAバージョンである。さらに、モジュールはシンボリックDNA軌道などの追加的生物学的情報モジュールによって拡張される。
このモジュールは配列アラインメントを分析するツールキットのシステムのVaSSAバージョンである。さらに、モジュールはシンボリックDNA軌道などの追加的生物学的情報モジュールによって拡張される。
図3〜図29はVaSSA実行中のVaSSAによるグラフィカルユーザーインターフェース(GUI)の典型的実施形態を図示する。
アラインメントされた配列は配列ファイルに上書きされるか、あるいは別のファイルに書き込まれる。そしてアラインメントされた2つの配列の百分率を示すアラインメント百分率を算出することもできる。
オメガ類似性スコア(ω0である)も算出することができる。ω0の代数的構造は以下のように定義される。
このオメガ類似性スコア、あるいはω0値は2本のヌクレオチド列sとtの非バイナリ比較である。これは前述の方程式のSi/tiをSi/Si+1に置換することによって容易に単鎖分析用に変更することができる。
オメガ類似性スコアは数種類の方法で算出することができる。Si/ti比較の値はDNAヌクレオチドの化学構造の類似性に基づく。DNAにはアデニン(A)、シトシン(C)、グアニン(G)およびチミン(T)の4種類の塩基があると思われる。RNAでは、チミンはウラシル(U)に置換される。これらの塩基の構造は図33に示す。プリン、アデニンおよびグアニンは二環構造を有し、またピリミジン、シトシン、チミンおよびウラシルは単環構造を有する。数値は多様な塩基環の構造の差異を表す。プリン塩基構造には、大きな六員環と小さな五員環と見なすことのできる2つの環がある。ピリミジン構造は1つの環のみを有する。数値はプリン/プリン、ピリミジン/ピリミジン、プリン/ピリミジンおよびピリミジン/プリンの4カテゴリーに分けることができる。
DNA配列を比較する従来の方法は、塩基配列をバイナリ法で比較、即ち塩基が同一であるか異なるか単純に評価することにより実施する。1つの態様においては、本発明は塩基が異なることを考慮に入れるだけでなく、相違度も測定するDNA比較法である。従って、本発明はDNA配列を比較する非バイナリ法を含む。
第1の実施形態においては、主として立体化学的考察が考慮される。この実施形態においては、塩基が同一の場合は数値0を割り当て、プリン/プリン、ピリミジン/ピリミジン配列であって、塩基は異なるが環のサイズが変わらない場合は1を割り当て、塩基環のサイズが変化するプリン/ピリミジンおよびピリミジン/プリンには2を割り当てる。従って、ω0は塩基の同一性の相違だけでなく、プリン類とピリミジン類の化学構造の相違度も反映する。
本発明の第2の実施形態は、さらに分子構造の各部分において塩基tiにない塩基siの要素の数を考慮する。プリン/プリン値は大きな環と小さな環を共に比較する。これは、分子配列が最も類似し、また両方のプリン分子がサイズおよびその化学的要素の配列について同様にふるまう場合である。本明細書でω0と表示する数値は、1つの実施形態では第1の配列中にあって第2の配列にない原子の数を計算することにより算出される。例えば、第1の配列sが位置iにグアニン(「G」)ヌクレオチドを有し第2の配列tが対応する位置にアデニン(「A」)を有する場合、位置i(本明細書ではSi/tiを指す)におけるω0値はsiにあってtiになくかつ/あるいはtiの他の位置にある原子の数を判定することにより算出される。ここで図33を参照すると、グアニン分子においては、酸素原子(1)、大きな環と結合した水素原子(2)およびNH2基の原子(3,4,5)、および小さな環の二重結合の炭素原子の対側に結合した水素(6)および炭素(7)原子は、アデニン分子中に存在しないか、あるいは異なる位置にある。したがって、Si/ti=7である(式中si=Gかつti=A)。そのためω0はプリン類の化学構造の相違度および類似度を反映する。これらの相違性および類似性はヌクレオチド配列のコードおよび非コード領域において生物学的意味を持つ。ω0の算出は、他の実施形態における各化学要素についての結合レベルにおいてより正確な情報により変更することもできる。
オメガ値の算出においては、ω値が0に等しい場合は、化学的に完全に同一である。オメガ値が0に等しくない場合、オメガ値は異なる化学要素の数を表す番号を示す。4つのヌクレオチドについての完全な分析は以下の表2に示す。ピリミジン/ピリミジン分析におけるsi/ti値は、単環のみを考慮する場合を除き、プリン/プリン値と類似した方法で実施される。プリン/ピリミジンあるいはピリミジン/プリン値においては、プリンの大きな環をピリミジン環と比較するが、プリンの大きな環は逆時計回り、ピリミジン環は時計回り(あるいはその逆)として比較を実施した。分子の構造を図33に示す。しかし、ヌクレオチド要素構造は二環対単環などについて実施するので測定値は変化しない。
図34A〜34Cはオメガ数の結果および関与する化学要素のいくつかの例を示す。図はA/GがA/CおよびA/Tよりも類似し、G/AがG/CおよびG/Tに類似…する理由を図示する。ω値が同一のG/AおよびG/T数を作成しても、関与する化学要素は異なる。表の要素の重複は、関与する要素を示す図によって解明される。これらの類似性あるいは相違性の現実的な有意性は、本配列アラインメント検索における従来の生物学的重要度の完全性を損なうことなく、配列群がどの程度類似あるいは相違しているかを記述できるようになる。他の相違行列は他の塩基間の化学的比較に基づいて用いることができる。
本開示の観点より、当業者はRNAおよびタンパク質についての対応する表を構築することができるであろう。
一つの実施形態においては、2つの代替的配列tおよびr:
t=AAGCC
r=AAGAC
を天然配列sと比較する。
s=ATAGC
t=AAGCC
r=AAGAC
を天然配列sと比較する。
s=ATAGC
rおよびtはsに対して3塩基異なることが確認される。しかし、rおよびsは同一でないので、考慮すべき問題は「rとtのいずれがよりsに類似しているか」である。
従来の手法を用いて、tおよびrをそれぞれsと比較するために量S(s,t)およびS(s,r)を定義することができる。S(xi,yj)=s(xi,yj)={+1,xi=yj,−μ,xi≠yj,および以下の式(式中μは定数)である共通BLASTシステムを用いるとき、sとtについての類似性スコアは
S(s,t)=2−3μ
S(s,r)=2−3μ
となる。
S(s,t)=2−3μ
S(s,r)=2−3μ
となる。
見かけ上の差は認められなかった。
上述の本発明の第1の実施形態を表1と共に用いると、ω0(s、r)およびω0(s、t)値は以下の通りに定義される。
ω0(s,r)=(0+2+1+1+0)=4
ω0(s,t)=(0+2+1+2+0)=5
したがって我々は差があると見る。
ω0(s,r)=(0+2+1+1+0)=4
ω0(s,t)=(0+2+1+2+0)=5
したがって我々は差があると見る。
上述の本発明の第2の実施形態を用いて、以下の式(1)を用いてω0(s、r)およびω0(s、t)値を算出する(式中Nは比較する2つの配列のうち短い方の長さをあらわす):
この場合以下の通りに算出される。
セグメントrはtよりもsに類似している。
第2の実施形態の整数が重複しているため、例えばA/Cに対するA/Gの値が同一である配列が発見される可能性もあるが、計算の関与する化学を検討すると非常に異なっている。これは分子が多様なコミュニケーションを行うために同じ情報を伝達しない様態を示す。
ゲノム全体の配列については、正規化法を用いて以下の式2に示す。したがって、ヌクレオチドの各位置のDNA配列は列内の特異的位置を表す。短鎖では、相違度を測定するために分母を用いる。長鎖については、分母の対数的増大を排除する方程式(2)と共に以下に論じる正規化技術を用いる。これによりVaSSAはその独自のアドレスについて各位置をプロットすることができる。これらの固有の位置についてのこのオメガ値は各ヌクレオチドについて固有の構造挙動、およびこれが存在する鎖に関してこれをプロファイリングする方法を作成する。
(コンピュータプログラム製品)
典型的な実施形態においては、本発明の方法は、例えばコンピュータなどのマシンに読み取られるときマシンに上述の方法を実施させる、マシン読み取りメディア上で具現化されることもある。さらに、本発明のこの実施形態は,ユーザーが遺伝物質の配列を比較し、さらに配列および比較結果を分析することを可能とするグラフィカルユーザインターフェース(GUI)を提供することもある。
典型的な実施形態においては、本発明の方法は、例えばコンピュータなどのマシンに読み取られるときマシンに上述の方法を実施させる、マシン読み取りメディア上で具現化されることもある。さらに、本発明のこの実施形態は,ユーザーが遺伝物質の配列を比較し、さらに配列および比較結果を分析することを可能とするグラフィカルユーザインターフェース(GUI)を提供することもある。
例えば図3に見られるように、GUIはファイル管理、レポーティング、分析、プロッティング、ユーザーオプションの設定、およびユーザーヘルプのモジュールを提供することもある。
図4に示すように、ファイル管理モジュール300は、1つあるいはそれ以上の配列ファイルを読み込むファイル読み込みモジュールをさらに含むことがある。ファイルは単独の配列を含むこともあれば複数の配列を含むこともある。これらの配列はディスク、CDなどから読み込むことができる。これらの配列は保存しなくともよく、受信時に「転送時」分析することも可能である。配列ファイルはFASTAフォーマットされることもあれば、他のフォーマットでフォーマットされることもある。読み込みの際は、各配列は独自の参照番号に割り当てられ、全ての文字が有効であることをチェックすることもある。
ファイル管理モジュール300は、メモリからアクティブ配列を削除あるいは「フラッシュ」することのできるアクティブ配列フラッシュモジュールを含むこともある。フラッシュされるとき配列の参照番号は保持される。ファイル管理モジュール300は読み込まれた配列をメモリよりフラッシュするモジュールを含むこともある。アクティブ配列とは、分析が実施されている間、読み込まれた配列がメモリにもある配列でありながら現時点でこれに対して分析が実施されていない配列である。
配列を読み込むモジュールは、配列を読み込む際にサマリレポートノートブックページを作成および表示する、読み込み配列を表示するモジュールを含むこともある。図5に示すように、サマリレポートノートブックページイル名および配列番号を表示することもある。
レポートモジュール500は固有の参照番号、配列ヘッダ、および配列の長さを含む全ての読み込み配列の配列サマリ(図6)、FASTAフォーマットの固有の参照番号および配列内容を含む各読み込み配列の内容のリスト(図7)、および/あるいは固有の参照番号、配列ヘッダ、および各標準配列文字を含む各読み込み配列についての統計情報(図8)を作成および表示する。配列文字が認識されない場合、レポートモジュールはエラー信号を作成して各読み込み配列についての統計情報の「エラー」カラム(図8)にリストアップする。
分析モジュール200は数多くのサブモジュールを含む。例えば、配列アラインメントサブモジュールはターゲット配列をベース配列に対してアラインメントし、アラインメントレポートを表示する(図9)。配列アラインメントモジュールは塩基配列を逆転し、モードを逆転し、ベースおよびターゲットを最短の長さにアラインメントし、アラインメント百分率を算出するか、あるいはオメガ類似性スコアを算出した(図10)。オメガ類似性スコアはターゲットがベースに類似しているか否か、およびどの程度類似しているか判定するために用いることもある。オメガ類似性スコア値が1/2”未満の場合(式中nはsおよびtの2配列のうち最長の長さである)、2配列は同様であるということができる。オメガ類似性スコア値が1/2”を上回る場合、配列は類似していないといわれる。
VaSSA分析のメニューオプションのタスクは以下のものを含むが、これに限定されない。
(1.ベース逆転)
VaSSA分析メニューの下にベース逆転オプションがある。ベース逆転の1つの機能はユーザーが配列の切替えを可能とすることである。例えば配列が5’から3’方向である場合、その後ベース逆転機能で3’から5’方向に切り替える(しかし相補鎖方向ではない)。
VaSSA分析メニューの下にベース逆転オプションがある。ベース逆転の1つの機能はユーザーが配列の切替えを可能とすることである。例えば配列が5’から3’方向である場合、その後ベース逆転機能で3’から5’方向に切り替える(しかし相補鎖方向ではない)。
(2.モード(mod)逆転)
モード逆転オプション機能は、モジュール計算の逆転を可能にすることである。「モード計算を逆転させること」はsi/tiからti/siに変更することを意味する。ω0は定義上対象な操作でないためこれは重要である。
モード逆転オプション機能は、モジュール計算の逆転を可能にすることである。「モード計算を逆転させること」はsi/tiからti/siに変更することを意味する。ω0は定義上対象な操作でないためこれは重要である。
(3.ベースおよびターゲット配列の最短鎖長へのアラインメント)
ベースおよびターゲット配列は長さが異なるかあるいは同一である2配列の列である。列の長さが異なる場合、分析の第一の部分はアラインメントして最短配列の末端で停止することである。同じ長さである場合、配列分析は各列の末端まで実施する。
ベースおよびターゲット配列は長さが異なるかあるいは同一である2配列の列である。列の長さが異なる場合、分析の第一の部分はアラインメントして最短配列の末端で停止することである。同じ長さである場合、配列分析は各列の末端まで実施する。
(4.アルファ数値アラインメント百分率およびオメガ類似性スコア)
アルファ数値アラインメントは、ヌクレオチド総数に対するアラインメントしたヌクレオチドの総数である百分率をもたらすアラインメントである。図13に示すように、オメガサブゼロ(ω0)モジュールは配列についてω0を算出し、ω0スコアを表示する。1塩基を選択することも全ての読み込み配列を選択することもできる。レポートは参照番号、長さあるいはオメガスコアでソートすることができる(図14)。ベース配列およびモードはそれぞれ逆転することができる。
アルファ数値アラインメントは、ヌクレオチド総数に対するアラインメントしたヌクレオチドの総数である百分率をもたらすアラインメントである。図13に示すように、オメガサブゼロ(ω0)モジュールは配列についてω0を算出し、ω0スコアを表示する。1塩基を選択することも全ての読み込み配列を選択することもできる。レポートは参照番号、長さあるいはオメガスコアでソートすることができる(図14)。ベース配列およびモードはそれぞれ逆転することができる。
ω0値は、ベース配列およびターゲット配列について単鎖モジュールにより算出することもできる。方程式6の簡略化バージョンである以下の単鎖方程式(2)を検討すること(方程式の複鎖形は以下で論じる)。
式中
z1は単鎖を表す。即ち、z1=sos1…sk…である(式中各skはA、G、CあるいはTである)。
z1は単鎖を表す。即ち、z1=sos1…sk…である(式中各skはA、G、CあるいはTである)。
Z1 λ1はλi番目の位置およびλi+1番目の位置にあるヌクレオチドに対応する(式中iはl=1、2、3…と設定されたインデックス中の1つの番号である)。
i番目の位置およびi+1番目の位置で係数cλi=Si/Si+1λである(式中iはl=1、2、3…と設定されたインデックス中の1つの番号である)。
したがって、典型的な4つのヌクレオチド鎖z1=ACGT、C1(z1)は係数群[c0、c1、c2]である(式中各係数は鎖中の位置iについてZ1 λi/Z1 λi+1を決定することにより算出され(終末位置を除く)、この場合は[A/C,C/G,G/T]=[6,7,8]に等しい)。これらの係数は鎖中の位置(言い換えれば数値l)がx軸上に表示され、対応する係数がy軸上に表示される鎖zlについて単鎖プロットを形成するために用いることができる(2鎖についての単鎖プロットの例を図27に示す)。
クエリ反復モジュールはベース配列中の複数のユーザー指定ターゲット配列の発生の位置を特定し、複数の発生を表示することができる。ターゲット配列の複数の発生を本明細書で反復と呼ぶ。VaSSAには反復とオメガ反復の2種類の反復がある。反復はシンボルにシフト機能を用いるのみであり、またオメガ反復はオメガ類似性値にシフト機能を用いる。図11に示すように、ユーザーは検索するベース配列および検索対象のターゲット配列を選択することができる。ユーザーは閾値を指定して検索範囲を広げたり絞り込んだりすることもできる。ベースあるいはターゲット配列も逆転することができる。次に、ユーザーが閾値を指定してターゲットあるいはサブターゲットが出現する位置を特定する場合、クエリ反復モジュールでサブターゲットを作成することができる。1つの実施形態では、ターゲットがAGCTである場合、クエリ反復モジュールはAGCおよびGCTサブターゲットを作成することができる。図12に示すように、反復ターゲットおよびサブターゲットはGUIウインドウページのトップメニューで反復ターゲットおよびサブターゲットを検出する回数と共に認識される。ターゲット配列の発生はハットマーク1201によって識別され、サブターゲット配列の発生は星印1202で識別される。
図15および16に示すように、クエリオメガ反復モジュールはクエリ反復モジュールに関して先に述べたものを全て獲得する。しかし、さらに列のセグメント内の反復ヌクレオチドがその列の他のセグメントに多様に(少なくともω値に関して)コミュニケートできる方法も拾い上げる。したがって、クエリオメガ反復は反復が2倍になる場合および反復がない場合を拾い上げることができる。
図17および18に示すように、勾配算出モジュールはベース配列における各ヌクレオチドの位置について勾配を算出し、勾配レポートを表示することもある。典型的な実施形態においては、勾配は以下の式(3)を用いて算出することもある。
式中kはDNA配列におけるヌクレオチドの固有の位置を表す。ωk=Sk/Sk+1であり、ωkは一連のω0のうちk番目である。式は二次元プロフィールの凹んだ部分に関する情報を作成するのに用いることもある。Ωkが正の場合、転送される情報は増加し、二重鎖を連結する結合は延長する(したがって短いものよりも弱くなる傾向にある)。Ωkが負の場合、転送される情報は減少し、二重鎖を連結する結合は短縮する(かつ強くなる傾向にある)。したがって、正および負のプロットはある配列におけるある位置から次の位置への情報の流れのプロフィールである。勾配グラフは情報フローの変化のプロットである。配列内の情報の変化が同じである部分(符号チャートでは0)および異なる部分を示す。情報が全く同じであるが方向が違う部分も示す。グラフ(その例を図30に示す)を作成するために、ヌクレオチドの位置を勾配値に対してプロットする。したがって、方程式3はVaSSAにおいて符号チャートおよび勾配プロットが作成するものである。いずれの例でも、鎖中のヌクレオチド特異位置はX軸に対応し、Ωk値はy軸に相当する。
1つの実施形態においては、AGC配列においてAからGへの変化は以下のように算出される。Aは位置k−1にあり、Gはk、Cはk+1にある。したがって表2の値に基づくOmega(k)はG/C−A/G=10−6=4である。従ってAからGへの変化は正であり、勾配レポートでは「+」で表すこともある。
図19および20に示すように、配列比較サブモジュールはターゲット配列とベース配列を比較して類似性レポートを表示することもある。配列比較サブモジュールは、ベース配列を逆転し、ターゲット配列を逆転し、モードを逆転し、各ベースおよびターゲット配列についてωN値を算出し、ベースおよびターゲット配列をバイナリに変換し、ベース配列とターゲット配列の距離を算出し、かつ距離が結合を上回るか否か判定することもある。
図21〜25に示すように、プロットモジュールは数多くのプロッティングサブモジュールを含む。例えばスペクトルアレイサブモジュールはベース配列およびターゲット配列に対するアラインメント係数をプロットすることもある。スペクトル配列サブモジュールはラジアル比較についてのωn値を算出し、アラインメント係数を抽出することもある。ラジアル比較においては、スペクトルアレイサブモジュールは以下の式(4)及び(5)を用いることもある。
この式はマルチ配列についてのものである。1に関して複数の合計に用いられる概念である固有のスペクトル分析の作成を許容する。これらは、その位置に対してω0に関して作成した各配列において作成した係数である。各配列位置のヌクレオチドはZ1 λiZ2 λ2i…Z1n λniと表示される。
方程式4および5の形成はVaSSAにおけるプロットの作成を許容する。式の係数構造は図25に示す三角形構造で捕捉することができる。スペクトル項増はDNA鎖においてスペースを挿入あるいは欠失することなく最適化を確認することができる三角形である。図24は式を用いる際に係数がどのように作成されるかを2つの鎖について示す。単鎖プロットは同じ構造を有するが数値は異なる。非バイナリ法であるため、プロットが等しい部分と異なる部分を正確に確認することができる。周期性がある場合も正確に確認することができる。関数は分析的であるので、ヌクレオチドの位置の特異性に影響することなくシフトを公式化することもできる。実施形態の1つを図27に示す。VaSSAにおけるスペクトルアレイプロットは図25の三角形構造の中心から右下の係数を用いる。このプロットの例が図22である。そこでのグラフはゼロであるのでダイレクトアラインメントを有する場所の情報を有する。また一定の高さの棘もある。同様の情報は単鎖プロットとして確認することができる。しかし相違度は棘の高さについて視覚化することができる。三角形内のポインタにより最適化を実施する他の手段である完全フェーズポートレートを実施することができる。
図26〜28に示すように、単鎖サブモジュールはベース配列とターゲット配列についての単鎖をプロットすることもある。単鎖サブモジュールはベース配列とターゲット配列の比較についてのωn値を算出することもある。単鎖サブモジュールは方程式(4)を用いて以下の式(6)が方程式(5)の簡略化版であるプロットを算出することもある。
しかしこの方程式は単鎖をプロファイルすることを可能とする。
図29〜30に示すように、勾配モジュールはベース配列における各ヌクレオチドの位置について勾配を算出し、勾配レポートを表示することもある。ωnモジュールはベース配列についてωnを算出してωnプロットを表示することがある。ωnモジュールは方程式(6)を用いることもある。
勾配プロット作成は図30のプロットを作成すると思われる。勾配プロットは情報フローの単調性のグラフである。このプロットによりユーザーは単鎖プロット上に局所的および大域的最大値および最少値を決定することができる。またユーザーは単鎖プロットの局所領域および大域領域においてくぼみを判定することもできる。
本発明の多様な実施形態が上に述べられているが、例示の手段としてのみ提示されているのであって限定ではないことを理解しなければならない。従って、本発明の幅と範囲は上記の典型的実施形態のいずれによっても限定されるべきではなく、その代わり前記の請求項およびこれに等しいものに従って定義されるべきである。
Claims (38)
- 配列分析を目的とするシステムであって、
第1のヌクレオチド配列と第2のヌクレオチド配列の間の非バイナリ類似性スコアを算出するよう適合化された分析モジュール、および
類似性スコアの出力を目的とした分析モジュールと通信する出力を含む前記システム。 - 請求項1に記載のシステムであって、前記類似性スコアが各塩基対の類似性スコアの組み合わせに基づいているシステム。
- 請求項2に記載のシステムであって、前記の塩基対についての類似性スコアが塩基対の化学構造の類似性に依存するシステム。
- 請求項3に記載のシステムであって、塩基対についての前記類似性スコアが前記塩基対の前記ヌクレオチドが一致する場合は第1の数値、前記塩基対の前記ヌクレオチドが一致しないが同じ構造を有する場合は第2の数値であり、かつ前記の第1、第2および第3の数値が異なるシステム。
- 請求項3に記載のシステムであって、塩基対についての前記類似性スコアが塩基対の相対的位置に基づいて決定されるシステム。
- 請求項3に記載のシステムであって、塩基対についての前記類似性スコアが前記第1の配列の前記ヌクレオチド中の前記第2の配列の前記ヌクレオチドに存在しない前記第1の配列の前記ヌクレオチド中の要素の数に基づいているシステム。
- 請求項1に記載のシステムであって、レポートモジュール、ファイル管理モジュール、およびプロットモジュールをさらに含むシステム。
- 請求項7に記載のシステムであって、ユーザーオプションモジュールあるいはユーザーヘルプモジュールあるいはその両者を含むシステム。
- 請求項1に記載のシステムであって、前記ファイル管理モジュールが
少なくとも1つの配列ファイルを読み込むよう適合化された配列読み込みモジュール、
メモリから配列ファイルをフラッシュするよう適合化されたアクティブ配列フラッシュモジュール、および
読み込んだ配列ファイルを前記メモリからフラッシュするよう適合化された読み込み配列フラッシュモジュールを含むシステム。 - 請求項9に記載のシステムであって、前記配列読み込みモジュールが、
配列を読み込む際にサマリレポートノートブックページを作成して表示するよう適合化された読み込み配列ディスプレイモジュールであって、前記サマリレポートノートブックページが配列ファイル名および配列番号を表示するよう適合化された読み込み配列ディスプレイモジュールを含むシステム。 - 請求項1に記載のシステムであって、前記レポートモジュールが、
配列サマリ、各読み込みファイルの内容のリスト、あるいは各読み込み配列に関する統計情報のうち少なくとも1つを作成および表示するよう適合化されるシステム。 - 請求項1に記載のシステムであって、前記分析モジュールが、
ターゲット配列をベース配列にアラインメントしかつアラインメントレポートを表示するよう適合化された配列アラインメントモジュール、
配列についてω0スコアを算出し前記ω0スコアを表示するよう適合化されたω0モジュール、
前記ベース配列中の複数の前記ターゲット配列の発生の位置を特定し、前記複数の発生を表示するよう適合化されたクエリ反復モジュール、
反復ヌクレオチドが重複する場合を判定するよう適合化されたクエリオメガ反復モジュール、
前記ベース配列における各ヌクレオチドの位置について勾配を算出しかつ勾配レポートを表示するよう適合化された勾配算出モジュール、および
前記ターゲット配列を前記ベース配列と比較しかつ類似性レポートを表示するよう適合化された配列比較モジュールを含むシステム。 - 請求項12に記載のシステムであって、前記配列アラインメントモジュールが、前記ベース配列の逆転、モードの逆転、前記ベースおよび前記ターゲットの最短鎖長へのアラインメント、アラインメント百分率の算出、あるいはオメガ類似性スコアの算出のうち少なくとも1つを実行するようさらに適合化されるシステム。
- 請求項12に記載のシステムであって、前記配列比較モジュールが、
前記ベース配列の逆転、
前記ターゲット配列の逆転、
モードの逆転、および
前記ベースおよび前記ターゲット配列のそれぞれについてのω0値の算出のうち少なくとも1つを実行するようさらに適合化されたシステム。 - 請求項1に記載のシステムであって、前記プロットモジュールが、
ベース配列およびターゲット配列に対するアラインメント係数をプロットするよう適合化されたスペクトルアレイモジュール、
前記ベース配列および前記ターゲット配列に対する単鎖をプロットするよう適合化された単鎖モジュール、
前記ベース配列における各ヌクレオチドの位置について勾配を算出しかつ前記勾配のプロットを表示するよう適合化された勾配モジュール、および
前記ベース配列についてωNを算出しかつ前記ωNを表示するよう適合化されたてωNモジュールを含むシステム。 - 請求項15に記載のシステムであって、前記スペクトルアレイモジュールが、
ラジアル比較についてのωN値を算出し、かつ
アラインメント係数を抽出するようさらに適合化されたシステム。 - 請求項15に記載のシステムであって、前記単鎖モジュールが前記ベース配列および前記ターゲット配列についてωN値を算出するようさらに適合化されたシステム。
- 請求項1に記載のシステムであって、前記分析モジュールが単鎖DNA分析モジュールおよび複鎖DNA分析モジュールを含むシステム。
- 請求項18に記載のシステムであって、前記単鎖DNA分析モジュールおよび前記複鎖DNA分析モジュールが、DNA近似モジュール、カオス領域分類モジュール、DNA派生モジュール、DNA分岐モジュール、DNA軌道モジュール、分析挙動プロファイラモジュール、DNAトポロジー共役モジュール、構造安定領域モジュール、分解不可能領域モジュール、DNA複雑度ベースモジュール、およびDNAアライナモジュールからなる群から選択される少なくとも1つのモジュールを含むシステム。
- 請求項19に記載のシステムであって、前記DNA近似モジュールが正則形態ジェネレータモジュール、近似コンストラクタモジュール、P&Q係数算出モジュール、JC−DNA曲線ジェネレータモジュール、低複雑度ジェネレータモジュール、ターゲット分類モジュール、シンボリックDNA軌道モジュール、およびDNA軌道分析モジュールからなる群から選択される少なくとも1つのモジュールをさらに含むシステム。
- 請求項19に記載のシステムであって、前記カオス領域分類モジュールが、DNA感受性ジェネレータモジュール、DNA転送性ジェネレータモジュール、および高密度周期配列ジェネレータモジュールからなる群から選択される少なくとも1つのモジュールをさらに含むシステム。
- 請求項19に記載のシステムであって、前記DNA派生モジュールが派生ジェネレータモジュールおよび単調ジェネレータモジュールからなる群から選択される少なくとも1つのモジュールをさらに含み、かつ前記単調ジェネレータモジュールが陽性測定モジュールおよび陰性測定モジュールを含むシステム。
- 請求項19に記載のシステムであって、前記DNA分岐モジュールがDNA転送性スプリッタプロファイラモジュールおよびDNA高密度スプリッタプロファイラモジュールからなる群より選択される少なくとも1つのモジュールをさらに含むシステム。
- 請求項19に記載のシステムであって、前記DNA軌道モジュールがシンボリックDNA軌道モジュールおよびDNA軌道分析モジュールからなる群より選択される少なくとも1つのモジュールをさらに含むシステム。
- 請求項24に記載のシステムであって、前記シンボリックDNA軌道モジュールが、シンボリックフロージェネレータモジュール、行差分ジェネレータモジュール、および軌道ジェネレータモジュールを含み、かつ前記DNA軌道分析モジュールが前方分析プロファイラモジュール、後方分析プロファイラモジュール、DNAアトラクタジェネレータモジュール、およびDNAリペラジェネレータモジュールを含むシステム。
- 請求項19に記載のシステムであって、前記分析挙動プロファイラモジュールがさらに、代数構造ジェネレータモジュール、準同型ジェネレータモジュール、および同型ジェネレータモジュールからなる群より選択される少なくとも1つのモジュールをさらに含むシステム。
- 請求項19に記載のシステムであって、前記DNAトポロジー共役モジュールが、分析プロファイラモジュール、分析マッパモジュール、共役比較モジュール、第1反復分析モジュール、およびフェーズポートレートジェネレータモジュールからなる群から選択される少なくとも1つのモジュールをさらに含むシステム。
- 請求項19に記載のシステムであって、前記構造安定領域モジュールが、反復ジェネレータモジュール、前方漸近性モジュール、および安定性プロファイラモジュールからなる群から選択される少なくとも1つのモジュールをさらに含むシステム。
- 請求項19に記載のシステムであって、前記分解不可能領域モジュールが、DNA軌道分析モジュール、非反復ジェネレータモジュール、および分解不可能プロファイラモジュールからなる群から選択される少なくとも1つのモジュールをさらに含むシステム。
- 請求項19に記載のシステムであって、前記DNA複雑度ベースモジュールが、反復ジェネレータモジュール、ユニバーサルDNAベースジェネレータモジュール、および高密度ジェネレータモジュールからなる群から選択される少なくとも1つのモジュールをさらに含むシステム。
- 請求項19に記載のシステムであって、前記DNAアライナモジュールがシンボリックアライナモジュールおよびオメガ比較アライナモジュールからなる群より選択される少なくとも1つのモジュールをさらに含むシステム。
- 配列分析を目的とした方法であって、
配列ファイルの読み取り、
前記ファイルからのターゲット配列およびベース配列の選択、
前記ターゲットおよびベース配列の各塩基対間での非バイナリ比較の実施であって、前記非バイナリ比較が各塩基対について比較値を作成する非バイナリ比較の実施、および
前記比較値に基づく前記ターゲットおよび前記ベース配列の間の類似性の判定を含む方法。 - 請求項32に記載の方法であって、
前記ファイルへのアラインメントされた配列の書き込み、および
アラインメント百分率の算出をさらに含む方法。 - 請求項32に記載の方法であって、二次元スペクトルアレイプロットあるいは二次元単鎖プロットのうち少なくとも一方の作成をさらに含む方法。
- 請求項34に記載の方法であって、前記スペクトルアレイプロットの作成が
ωNの算出、
ラジアル比較の実施、
アラインメント係数の抽出、および
前記アラインメント係数のプロッティングを含む方法。 - 請求項35に記載の方法であって、前記ベースあるいは前記ターゲットのうち一方の逆転および計算の逆転をさらに含む方法。
- 請求項32に記載の方法であって、前期非バイナリ比較の実施が2つの配列要素間で考えられる複数の比較についての非バイナリ類似性スコア値を含むルックアップ表の使用を含む方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US66294305P | 2005-03-18 | 2005-03-18 | |
PCT/US2006/009808 WO2006102128A2 (en) | 2005-03-18 | 2006-03-20 | System, method and computer program for non-binary sequence comparison |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008533619A true JP2008533619A (ja) | 2008-08-21 |
JP2008533619A5 JP2008533619A5 (ja) | 2009-03-26 |
Family
ID=37024441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008502113A Pending JP2008533619A (ja) | 2005-03-18 | 2006-03-20 | 非バイナリ配列比較のためのシステム、方法及びコンピュータプログラム |
Country Status (8)
Country | Link |
---|---|
US (5) | US7263444B2 (ja) |
EP (2) | EP2031533A1 (ja) |
JP (1) | JP2008533619A (ja) |
KR (1) | KR20070115964A (ja) |
CN (1) | CN101142479A (ja) |
AU (1) | AU2006227410A1 (ja) |
CA (1) | CA2601890A1 (ja) |
WO (1) | WO2006102128A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011024438A (ja) * | 2009-07-22 | 2011-02-10 | Toppan Printing Co Ltd | 核酸配列の検査方法 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011137368A2 (en) | 2010-04-30 | 2011-11-03 | Life Technologies Corporation | Systems and methods for analyzing nucleic acid sequences |
US8412462B1 (en) | 2010-06-25 | 2013-04-02 | Annai Systems, Inc. | Methods and systems for processing genomic data |
US9268903B2 (en) | 2010-07-06 | 2016-02-23 | Life Technologies Corporation | Systems and methods for sequence data alignment quality assessment |
CN101887493B (zh) * | 2010-08-05 | 2013-02-20 | 湖州瑞万思信息技术有限公司 | 一种基于布尔逻辑的基因比对处理方法 |
US9177100B2 (en) | 2010-08-31 | 2015-11-03 | Annai Systems Inc. | Method and systems for processing polymeric sequence data and related information |
WO2012122549A2 (en) | 2011-03-09 | 2012-09-13 | Lawrence Ganeshalingam | Biological data networks and methods therefor |
EP2864896A4 (en) | 2012-06-22 | 2016-07-20 | Dan Maltbie | SYSTEM AND METHOD FOR THE SAFE HIGH-SPEED TRANSMISSION OF HUGE FILES |
CN102968577A (zh) * | 2012-11-27 | 2013-03-13 | 广州中国科学院先进技术研究所 | 一种基因蛋白质序列关系分析系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003104478A2 (en) * | 2002-06-10 | 2003-12-18 | Isis Pharmaceuticals, Inc. | Detection of rna structural elements |
WO2005024562A2 (en) * | 2003-08-11 | 2005-03-17 | Eloret Corporation | System and method for pattern recognition in sequential data |
-
2006
- 2006-03-20 JP JP2008502113A patent/JP2008533619A/ja active Pending
- 2006-03-20 WO PCT/US2006/009808 patent/WO2006102128A2/en active Application Filing
- 2006-03-20 CN CNA2006800087494A patent/CN101142479A/zh active Pending
- 2006-03-20 CA CA002601890A patent/CA2601890A1/en not_active Abandoned
- 2006-03-20 EP EP08164915A patent/EP2031533A1/en not_active Withdrawn
- 2006-03-20 AU AU2006227410A patent/AU2006227410A1/en not_active Abandoned
- 2006-03-20 US US11/378,284 patent/US7263444B2/en not_active Expired - Fee Related
- 2006-03-20 EP EP06738815A patent/EP1859268A4/en not_active Withdrawn
- 2006-03-20 KR KR1020077021284A patent/KR20070115964A/ko not_active Application Discontinuation
-
2007
- 2007-01-19 US US11/655,170 patent/US7734427B2/en not_active Expired - Fee Related
- 2007-07-09 US US11/774,904 patent/US7805254B2/en not_active Expired - Fee Related
-
2009
- 2009-12-09 US US12/634,354 patent/US8483971B2/en active Active
-
2013
- 2013-06-20 US US13/922,542 patent/US20130297640A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011024438A (ja) * | 2009-07-22 | 2011-02-10 | Toppan Printing Co Ltd | 核酸配列の検査方法 |
Also Published As
Publication number | Publication date |
---|---|
US7263444B2 (en) | 2007-08-28 |
AU2006227410A1 (en) | 2006-09-28 |
KR20070115964A (ko) | 2007-12-06 |
US20070129900A1 (en) | 2007-06-07 |
WO2006102128A2 (en) | 2006-09-28 |
EP2031533A1 (en) | 2009-03-04 |
US7734427B2 (en) | 2010-06-08 |
US8483971B2 (en) | 2013-07-09 |
US20060223095A1 (en) | 2006-10-05 |
CA2601890A1 (en) | 2006-09-28 |
EP1859268A2 (en) | 2007-11-28 |
EP1859268A4 (en) | 2008-08-06 |
CN101142479A (zh) | 2008-03-12 |
WO2006102128A3 (en) | 2007-03-15 |
US20080040048A1 (en) | 2008-02-14 |
US7805254B2 (en) | 2010-09-28 |
US20130297640A1 (en) | 2013-11-07 |
US20100094889A1 (en) | 2010-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008533619A (ja) | 非バイナリ配列比較のためのシステム、方法及びコンピュータプログラム | |
US9165109B2 (en) | Sequence assembly and consensus sequence determination | |
US11347810B2 (en) | Methods of automatically and self-consistently correcting genome databases | |
JP5985040B2 (ja) | データ解析装置、及びその方法 | |
US20200104464A1 (en) | A k-mer database for organism identification | |
US11809498B2 (en) | Optimizing k-mer databases by k-mer subtraction | |
JP5183155B2 (ja) | 大量配列の一括検索方法及び検索システム | |
Mäkinen et al. | Genome-scale algorithm design: bioinformatics in the era of high-throughput sequencing | |
Ndiaye et al. | When less is more: sketching with minimizers in genomics | |
Vaddadi et al. | Read mapping on genome variation graphs | |
Li et al. | Seeding with minimized subsequence | |
Kotamarti et al. | Analyzing taxonomic classification using extensible Markov models | |
US6898530B1 (en) | Method and apparatus for extracting attributes from sequence strings and biopolymer material | |
Chen et al. | CGAP-align: a high performance DNA short read alignment tool | |
Rusinova et al. | Method of genomes comparative analysis using graph DBMS | |
Batzoglou et al. | Physical mapping with repeated probes: The hypergraph superstring problem | |
Pokrzywa | Application of the Burrows-Wheeler Transform for searching for tandem repeats in DNA sequences | |
Kotamarti et al. | Targeted genomic signature profiling with quasi-alignment statistics | |
Frykholm et al. | Detection of structural variations in densely-labelled optical DNA barcodes: A hidden Markov model approach | |
Kaniwa et al. | Repeat finding techniques, data structures and algorithms in DNA sequences: a survey | |
Kalaiselvi et al. | Efficiency of Using Sequence Discovery for Polymorphism in DNA Sequence | |
Huang | Computational Methods Using Large-Scale Population Whole-Genome Sequencing Data | |
Vanitha et al. | An Improved Alignment-Free Method for Oculocutaneous Albinism Sequence Analysis | |
Hoogeboom et al. | Selection of DNA markers | |
Durand et al. | A short course in computational molecular biology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090204 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120124 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120828 |