明 細 書 Specification
遺伝子発現データの処理方法、および、処理プログラム Gene expression data processing method and processing program
技術分野 Technical field
[0001] 本発明は、遺伝子発現データを統計的に解析する手法に関する。 [0001] The present invention relates to a technique for statistically analyzing gene expression data.
背景技術 Background art
[0002] 遺伝子発現データを取得するために、 DNAチップを利用することが知られている。 [0002] It is known to use a DNA chip to obtain gene expression data.
DNAチップとは、スライドガラスなどの基材上に複数の遺伝子を異なるスポットとして 固定させたものである。たとえば、マイクロアレイには、数千力も数万の遺伝子がター ゲットとして固定されている。ターゲットとして、一重鎖の DNAや mRNAなどが利用さ れる。 A DNA chip is obtained by fixing a plurality of genes as different spots on a substrate such as a slide glass. For example, thousands of thousands of genes are fixed as targets in a microarray. Single-stranded DNA or mRNA is used as the target.
[0003] DNAチップの基材として、種々のコーティングを施したガラスなどからなる板、ナイ ロンや-トロセルロース力 なる膜、中空糸、半導体材料、金属材料、有機物質など 核酸を保持できる種々のものが利用できる。また、ターゲットとして、 cDNAの全部或 いはその一部を複製したもの、ゲノム DNAの一部を複製したもの、合成 DNAおよび Zまたは合成 RNAが利用され得る。基材にターゲットを固定するために、フォトリソグ ラフ法によりガラス板上にオリゴ DNAを合成する手法と、スポッタ等を利用して基材 にターゲットを取り付ける手法とが知られて 、る。 [0003] As a base material for a DNA chip, a plate made of glass with various coatings, a membrane made of nylon or -trocellulose, a hollow fiber, a semiconductor material, a metal material, an organic substance, etc. Things are available. In addition, as a target, one obtained by duplicating all or part of cDNA, one duplicating part of genomic DNA, synthetic DNA and Z or synthetic RNA can be used. In order to fix the target to the substrate, a method of synthesizing oligo DNA on a glass plate by a photolithographic method and a method of attaching a target to a substrate using a spotter or the like are known.
[0004] このような DNAチップに、たとえば、蛍光標識をつけた DNAや RNA (解析対象)を ノ、イブリタイズさせる。ターゲットと相補的な解析対象が二重鎖を形成する。解析対象 には蛍光標識が付されているため、ハイブリダィゼーシヨンの後に、蛍光スキャナにて DNAチップを操作した画像データを取得することができる。このようにして取得され た画像データに基づき、何れかのスポットに二重鎖が形成されているかを知ることが 可能となる。より具体的には、得られた画像は、ハイブリダィゼーシヨンの結果、各々 の DNAに由来するスポットが表示される。したがって、スポットの位置を含む所定の 領域のシグナル強度を積算することにより、各スポットのシグナル強度を示す値から なるアレイデータを得ることができる。 [0004] For example, DNA or RNA (analysis target) with a fluorescent label is allowed to be immobilized on such a DNA chip. Analytes that are complementary to the target form a duplex. Since the analysis target is fluorescently labeled, after hybridization, image data obtained by operating the DNA chip with a fluorescent scanner can be acquired. Based on the image data acquired in this way, it is possible to know at which spot a double strand is formed. More specifically, in the obtained image, spots derived from each DNA are displayed as a result of hybridization. Therefore, by integrating the signal intensity of a predetermined region including the spot position, array data composed of values indicating the signal intensity of each spot can be obtained.
[0005] たとえば、数千力も数万のターゲットが固定されているマイクロアレイにより、多数の
遺伝子発現を示すアレイデータを一度の実験操作で得ることができる。この結果、あ る一つの遺伝子発現のデータの増減を測定する際に、その対象として多数の遺伝子 発現を示すデータ (シグナル強度を示す値)の平均を算出し、これに基づ ヽてデータ を標準化するのが一般的である。より具体的には、実験ごとの発現データを比較する 前にデータを標準化する。たとえば、非特許文献 1には、その標準化の一例が開示さ れている。 [0005] For example, a microarray with thousands of targets fixed to tens of thousands of Array data showing gene expression can be obtained in a single experimental operation. As a result, when measuring the increase / decrease in the data of one gene expression, the average of the data (signal intensity value) indicating a number of gene expressions as the target is calculated, and the data is calculated based on this. It is common to standardize. More specifically, standardize data before comparing expression data from experiment to experiment. For example, Non-Patent Document 1 discloses an example of standardization.
[0006] 取得されたデータの確率分布はノンパラメトリックである。し力しながら、たとえば、非 特許文献 2に開示されているように、取得されたデータを標準化するために、 Z—標 準や t 標準、或いは、各スポットのシグナル強度の積算値を全体の数値の算術平 均で除すると 、うような手法が用いられて 、る。 [0006] The probability distribution of the acquired data is nonparametric. However, for example, as disclosed in Non-Patent Document 2, in order to standardize the acquired data, the Z-standard or t-standard, or the integrated value of the signal intensity of each spot, When divided by the arithmetic average of numbers, the following method is used.
[0007] これらはノンパラメトリックな手法ではないため、このような標準化がデータの精度を 著しく損ねているという問題点があった。 [0007] Since these are not non-parametric methods, there is a problem that such standardization significantly impairs data accuracy.
[0008] また、蛍光スキャナにより取得された画像に基づくアレイデータは、必ず、ノ ックグラ ゥンド成分を含む。これは、画像データ全体に存在するノ ックグラウンドのシグナル強 度、および、測定範囲と実際のスポットの大きさや形状が必ずしも一致しないことに起 因する。したがって、取得した画像データの数値からバックグラウンド成分を差し引き 、真のシグナル値力もなるデータを取得することが正確な解析のために重要となる。 他の手法、たとえば、電気信号の検出、放射線の検出により取得されたアレイデータ でも同様である。 [0008] In addition, array data based on an image acquired by a fluorescent scanner always includes a knock ground component. This is because the signal intensity of the knock ground existing in the entire image data, and the measurement range and the actual spot size and shape do not always match. Therefore, it is important for accurate analysis to obtain data having a true signal value by subtracting the background component from the numerical value of the acquired image data. The same applies to array data obtained by other methods such as detection of electrical signals and detection of radiation.
[0009] 従来、バックグラウンド成分を、特定のスポットやスポットされない部分のシグナル強 度をあらわす数値に基づき、画素あたりの平均値や中央値を求め、この値に測定領 域の画素数を乗ずることにより推定していた。 [0009] Conventionally, an average value or median value per pixel is obtained based on a numerical value that represents the signal intensity of a specific spot or a non-spotted background component, and this value is multiplied by the number of pixels in the measurement area. It was estimated by.
[0010] そこで、本発明者は、 DNAチップ力 得られるデータ (遺伝子発現による発光量を 示すデータ)の対数値が 3パラメータ正規分布することを知見し、上記データを対数 変換し、さらに標準化 (たとえば、 Z—標準化)すること、さらには、特許文献 1に示すよ うに、ノ ックグラウンド値を算出して、より好ましいデータを得ることを提案した。 [0010] Therefore, the present inventor has found that the logarithmic value of the data obtained from the DNA chip force (data indicating the amount of luminescence by gene expression) has a three-parameter normal distribution, logarithmically transform the above data, and further normalize ( For example, Z-standardization) and, as shown in Patent Document 1, it has been proposed to calculate a knock ground value to obtain more preferable data.
特許文献 1 :特開 2004— 13573号公報 Patent Document 1: Japanese Unexamined Patent Application Publication No. 2004-13573
非特許文献 1:「cDNAマイクロアレイのための正規化ストラテジー (Normalizationstrate
gies for cDNA microarrays)」、ョノヽネス ·シュフノヽノレト (Johhanes Schuchhardt)他、核酸 リサーチ (Nucleic Asids Reserch) (2000) Vol. 29 No. 10、 2000年 Non-patent document 1: “Normalization strategy for cDNA microarrays” gies for cDNA microarrays), Johanes Schuchhardt et al., Nucleic Asids Reserch (2000) Vol. 29 No. 10, 2000
非特許文献 2 :「夢を追って:植物 ESTマイクロアレイ (Chasing the dream: plant EST microarrays)j、トッド'リッチモンド (ToddRichmond)他、プラントバイオロジーにおける 現在のオピニオン (Current Opinion ni Plant Viology), (2000) Vol. 3、 2000年、 第 108頁〜第 116頁 Non-Patent Document 2: “Chasing the dream: plant EST microarrays”, Todd Richmond, et al., Current Opinion ni Plant Viology, (2000) Vol. 3, 2000, pp. 108-116
非特許文献 3 :小西智ー(Tomokazu KONISHI)、「cDNAマイクロアレイデータに偏 在して見出される 3パラメータ対数分布、および、パラメトリックなデータ処理へのその J心用 (Three— parameterlognormal distribution ubiquitously found in cDNA microarray data and its application to parametric data treatment)」、 BMC Bioinformatics、 200 4年 5月 5日 Non-Patent Document 3: Tomokizu KONISHI, “Three-parameter log normal distribution ubiquitously found in cDNA microarray data and its application to parametric data treatment) '', BMC Bioinformatics, 200 May 5, 2004
発明の開示 Disclosure of the invention
発明が解決しょうとする課題 Problems to be solved by the invention
マイクロアレイの実験において、チップ内のハイブリダィゼーシヨン反応が均一に行 われないことがある。また、反応結果を画像として記録するためのスキャンユングが原 因となって、ひとつの画像のなかで、その画像の部分部分によって、濃度が不均一に なることがある。こうしたムラはデータにノイズとなって影響する。これまではそのムラを 、多くは画像データを目視することで検出していた。そして、画像上でのムラを、チッ プ上の小部分ごとに平均化して補正する手法がとられていた。或いは、確認しないま まに平均化していたのが実情である。これらはたとえば重みつき平均法や、スプライ ン関数を使うことで、全体として均一な画像を得る手法である。場当たり的な使い方が できるので、どんな画像も均一化することができる。 In microarray experiments, the hybridization reaction in the chip may not be performed uniformly. In addition, due to the scan-jung for recording the reaction result as an image, the density may be non-uniform depending on the portion of the image in one image. Such unevenness affects the data as noise. Until now, the unevenness was often detected by visual observation of image data. Then, a technique has been adopted in which the unevenness on the image is corrected by averaging every small part on the chip. Or, the actual situation is that they were averaged without confirmation. These are techniques for obtaining a uniform image as a whole by using, for example, a weighted average method or a spline function. Because it can be used on an ad hoc basis, any image can be made uniform.
し力しながら、このような方法は同時に、新たなノイズ源になる。たとえば、チップ上の スポットは(おおよそ)ランダムにシグナルの強弱をもつものだから、ある確率でそうし た小部分にシグナル強度の高い'あるいは低いスポットが集まることがある。極端に高 However, this method simultaneously becomes a new noise source. For example, spots on the chip (roughly) have random signal strengths, so spots with high or low signal intensity may gather in a small portion of such spots. Extremely high
V、或いは低 、集まりでなくても、ある程度の強弱がランダムに存在するのが真の姿と いえる。均一な画像は、そうした真の姿と異なるものである。そこで、均一な画像への 補正は、エラーの導入につながる。エラーが導入されるとノイズ成分が増え、再現性
が低下する。このため、こうした方法はあまり一般的には用いられてこな力つた。 もちろんムラを知覚しな 、状態、或いは知覚して 、ても改善のための手段を講じな い場合には、そのムラはデータ精度を低下させる。 Even if it is V or low, even if it is not a gathering, it can be said that the true appearance is that some degree of strength is present randomly. A uniform image is different from such a true figure. Therefore, correction to a uniform image leads to the introduction of errors. When errors are introduced, noise components increase and repeatability Decreases. For this reason, these methods have been used with great strength. Of course, if you do not perceive the unevenness, do not perceive the state, or if you do not take measures to improve it, the unevenness will reduce the data accuracy.
そこで、「場当たり的でない」「一般性がない」方法でムラを検出し、除去するのが望 ましい。 Therefore, it is desirable to detect and remove unevenness by methods that are “not hitch” or “not general”.
[0012] 本発明は、適切に DNAチップのデータのムラを検出し、また、可能であればそのム ラを補正する方法、および、プログラムを提供することを目的とする。 [0012] An object of the present invention is to provide a method and a program for appropriately detecting unevenness of data on a DNA chip and correcting the irregularity if possible.
課題を解決するための手段 Means for solving the problem
[0013] 本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記憶装置に 記憶されたアレイデータを処理して、解析可能なデータを取得する遺伝子発現デー タの処理方法であって、 [0013] An object of the present invention is a method for processing gene expression data obtained by processing array data obtained based on the expression level of a gene on a DNA chip and stored in a storage device to obtain analyzable data. There,
前記アレイデータを構成するデータ値を標準化するステップと、 Normalizing data values comprising the array data;
前記 DNAチップを複数の小領域に分割したときの、当該小領域の情報を記憶装 置に記憶するステップと、 Storing the information of the small area in a storage device when the DNA chip is divided into a plurality of small areas;
前記小領域ごとに、当該小領域に含まれるアレイデータの標準化されたデータ値 の代表値を算出するステップと、 For each of the small areas, calculating a representative value of the standardized data values of the array data included in the small area;
前記代表値の分布の標準偏差を算出するステップと、 Calculating a standard deviation of the representative value distribution;
前記標準偏差の増大に基づいて、 DNAチップのアレイデータにおけるムラの存在 を検出するステップと、を備えたことを特徴とする遺伝子発現データの処理方法によ り達成される And detecting the presence of unevenness in the array data of the DNA chip based on the increase in the standard deviation.
[0014] 好ましい実施態様においては、前記ムラの存在を検出するステップが、 In a preferred embodiment, the step of detecting the presence of the unevenness comprises:
所定の基準にしたがったカイ(% )二乗分布の有意水準を算出するステップと、 前記標準偏差とカイ( )二乗分布の有意水準とを比較して、標準偏差がカイ( ) 二乗分布の有意水準より大きい場合には、データにムラが存在すると判断するステツ プと、を有する。 The step of calculating the significance level of the chi (%) square distribution according to a predetermined standard and the standard deviation and the significance level of the chi () square distribution are compared, and the standard deviation is the significance level of the chi () square distribution. If it is larger, there is a step of determining that there is unevenness in the data.
[0015] 別の好ましい実施態様においては、前記ムラの存在を検出するステップが、 [0015] In another preferred embodiment, the step of detecting the presence of the unevenness comprises:
前記標準偏差と、当該標準偏差の平均値の期待値との差異を算出するステップと
前記標準偏差の期待値を算出するステップと、 Calculating a difference between the standard deviation and an expected value of an average value of the standard deviation; and Calculating an expected value of the standard deviation;
前記差異と、前記標準偏差の期待値に基づく所定の値とを比較し、前記差異が、 前記所定の値より大きい場合には、データにムラが存在すると判断するステップと、を 有する。 Comparing the difference with a predetermined value based on an expected value of the standard deviation, and determining that there is unevenness in the data if the difference is greater than the predetermined value.
[0016] たとえば、前記所定の値は、標準偏差の期待値よりも 2 σ大き!/、値である。 [0016] For example, the predetermined value is 2σ larger than the expected value of standard deviation! /.
[0017] さらに別の好ましい実施態様においては、 DNAチップ上の遺伝子の発現量に基 づき得られ、記憶装置に記憶されたアレイデータを処理して、解析可能なデータを取 得する遺伝子発現データの処理方法は、 [0017] In still another preferred embodiment, the gene expression data obtained based on the expression level of the gene on the DNA chip and processed from the array data stored in the storage device to obtain analyzable data. The processing method is
複数の DNAチップのそれぞれを構成するデータ値を標準化するステップと、 前記 DNAチップのそれぞれのデータ値の対数値の標準偏差を算出するステップと 算出された複数の DNAチップの標準偏差の分布についてその中央値を算出する ステップと、 A step of standardizing data values constituting each of the plurality of DNA chips; a step of calculating a standard deviation of logarithmic values of the respective data values of the DNA chips; and a distribution of the calculated standard deviations of the plurality of DNA chips. Calculating the median, and
前記標準偏差の期待値を算出するステップと、 Calculating an expected value of the standard deviation;
DNAチップごとに、当該 DNAチップについての標準偏差と、前記中央値との差異 を算出するステップと、 For each DNA chip, calculating the difference between the standard deviation for the DNA chip and the median;
前記差異が、前記標準偏差の期待値に基づく所定の第 2の値と比較し、前記差異 1S 前記所定の第 2の値より大きい場合には、当該 DNAチップについてのデータに ムラが存在すると判断するステップと、を備える。 The difference is compared with a predetermined second value based on the expected value of the standard deviation, and when the difference 1S is greater than the predetermined second value, it is determined that there is unevenness in the data for the DNA chip. And a step of.
[0018] たとえば、前記所定の第 2の値は、前記標準偏差の期待値より 2 σ大き!/、値である [0018] For example, the predetermined second value is 2σ larger than the expected value of the standard deviation! /, A value
[0019] 別の好ましい実施態様においては、前記ムラの原因となる、ゴミゃ洗浄液の残渣を 画像の測定にともなって検出される、スポット周辺のシグナル強度の分布から、 その中央値を算出するステップと、 In another preferred embodiment, a step of calculating a median value from a distribution of signal intensity around a spot, in which a residue of dust cleaning liquid that causes the unevenness is detected along with measurement of an image. When,
標準偏差をロバストに算出するステップと、 Calculating the standard deviation robustly;
個々の前記シグナル強度と前記中央値との差異を算出するステップと、 前記差異と、前記標準偏差に基づく所定の値とを比較し、前記差異が、前記所定
の値より大きい場合には、当該スポットのデータはムラの影響下にあると判断し、当該 スポットがムラの影響下であることを示す情報を、前記記憶装置に記憶するステップと を有する。 Calculating a difference between each of the signal intensities and the median; comparing the difference with a predetermined value based on the standard deviation; If the value is larger than the value of the spot, it is determined that the spot data is under the influence of unevenness, and information indicating that the spot is under the influence of unevenness is stored in the storage device.
[0020] さらに別の好ましい実施態様においては、前記ロバストに算出された標準偏差のか わりに、複数の DNAチップの、ロバストに算出された標準偏差の中央値を算出する ステップを用いて、前記差異と、前記中央値に基づく所定の値とを比較し、前記差異 力 前記所定の値より大きい場合には、当該スポットのデータはムラの影響下にある と判断するステップとを有する。 [0020] In still another preferred embodiment, instead of the robustly calculated standard deviation, a step of calculating a median of robustly calculated standard deviations of a plurality of DNA chips is used. Comparing with a predetermined value based on the median value, and determining that the data of the spot is under the influence of unevenness when the difference force is greater than the predetermined value.
[0021] また、前記ムラの影響下にあるスポットから、所定の距離以内の位置にあるスポット のデータを、当該スポットの前記差異の値にかかわらず、ムラの影響下にあるとして 判断するステップを有する。たとえば、前記所定の値は、 2スポットである。 [0021] Further, the step of determining the data of the spot located within a predetermined distance from the spot under the influence of the unevenness as being under the influence of the unevenness regardless of the value of the difference of the spot. Have. For example, the predetermined value is 2 spots.
[0022] また、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られたアレイ データを処理して、解析可能なデータを取得する遺伝子発現データの処理方法であ つて、 [0022] Further, an object of the present invention is a method for processing gene expression data, which obtains analyzable data by processing array data obtained based on the expression level of genes on a DNA chip.
前記アレイデータを構成するデータ値を標準化するステップと、 Normalizing data values comprising the array data;
前記 DNAチップを分割するため小領域の形状および配置を決定し、当該小領域 の形状および配置の情報を、前記記憶装置に記憶するステップと、 Determining a shape and arrangement of a small region for dividing the DNA chip, and storing information on the shape and arrangement of the small region in the storage device;
前記配置された小領域群を表わす空間補正関数を決定するステップと、 前記小領域ごとに、小領域に属するデータ値に空間補正関数による関数値を演算 するステップと、 Determining a spatial correction function representing the arranged small area group; calculating a function value by a spatial correction function for a data value belonging to the small area for each small area;
記関数値を前記記憶装置に記憶するステップと、を備えたことを特徴とする遺伝子 発現データの処理方法によっても達成される。 It is also achieved by a method of processing gene expression data, comprising the step of storing a function value in the storage device.
[0023] 好ま 、実施態様にぉ 、ては、前記小領域の形状および配置を決定するステップ が、 [0023] Preferably, according to an embodiment, the step of determining the shape and arrangement of the subregions comprises:
前記 DNAチップを複数の小領域候補に分割したときの、当該小領域候補の情報 を、前記記憶装置に記憶するステップと、 Storing the information of the small region candidates when the DNA chip is divided into a plurality of small region candidates in the storage device;
前記小領域候補に属するデータ値の標準偏差を算出するステップと、 Calculating a standard deviation of data values belonging to the small region candidate;
前記それぞれの小領域についての標準偏差の中央値を算出するステップと、
前記分割するステップ、標準偏差を算出するステップ、中央値を算出するステップ を繰り返し、最小の中央値となるような小領域候補を、前記小領域と決定し、当該決 定された小領域の情報を、前記記憶装置に記憶するステップと、を有する。 Calculating a median standard deviation for each of the subregions; The division step, the standard deviation calculation step, and the median calculation step are repeated to determine a small region candidate that has the smallest median value as the small region, and information on the determined small region Is stored in the storage device.
[0024] また、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記憶装 置に記憶されたアレイデータを処理して、解析可能なデータを取得する遺伝子発現 データの処理方法であって、 [0024] Further, the object of the present invention is to process gene expression data obtained by processing array data obtained based on gene expression levels on a DNA chip and stored in a storage device to obtain analyzable data. A method,
前記 DNAチップをノ、イブリダィゼーシヨンした際のチャンバ一中、気泡の体積およ び溶液の体積を設定するステップと、 Setting the volume of bubbles and the volume of solution in the chamber when the DNA chip is subjected to hybridization.
前記ノ、イブリダィゼーシヨンにおけるチャンバ一の回転に応じて、前記 DNAチップ 上に設定された観測点において、当該観測点が溶液に浸されていた相対的時間を 算出するステップと、 Calculating the relative time that the observation point has been immersed in the solution at the observation point set on the DNA chip in accordance with the rotation of the chamber in the hybridization;
前記アレイデータを構成するデータ値を標準化するステップと、 Normalizing data values comprising the array data;
前記標準化したデータ値を、当該データ値に対応する観測点の相対的時間で除 するステップと、 Dividing the standardized data value by the relative time of the observation point corresponding to the data value;
前記除算されたデータ値を、前記記憶装置に記憶するステップと、を備えたことを 特徴とする遺伝子発現データの処理方法によっても達成される。 It is also achieved by a method of processing gene expression data, comprising the step of storing the divided data value in the storage device.
[0025] さらに、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られたァレ ィデータを処理して、解析可能なデータを取得する遺伝子発現データの処理方法で あって、 [0025] Further, an object of the present invention is a processing method of gene expression data for processing array data obtained based on the expression level of a gene on a DNA chip to obtain analyzable data,
前記 DNAチップを複数の小領域に分割するステップと、 Dividing the DNA chip into a plurality of small regions;
前記アレイデータを構成するデータ値を標準化するステップと、 Normalizing data values comprising the array data;
前記小領域ごとに、当該小領域に属するデータ値の平均値を算出するステップと、 徐々に感度が高くなるような、第 1ないし第 nの有意水準を設定するステップと、 前記小領域のそれぞれについて、前記第 1ないし第 nの有意水準に基づいて、当 該小領域がムラの影響を受けて 、る力否かを判断し、当該小領域がムラの影響を受 けていること示す情報を、前記記憶装置に記憶するステップと、を備えたことを特徴と する遺伝子発現データの処理方法によっても達成される。 For each of the small regions, calculating an average value of data values belonging to the small region, setting first to nth significance levels so that the sensitivity gradually increases, and each of the small regions Information on whether the small area is affected by unevenness based on the first to nth significance levels, and whether or not the small area is affected by unevenness. Is also achieved by a method of processing gene expression data, characterized by comprising the step of storing the above in the storage device.
また、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記憶装
置に記憶されたアレイデータを処理して、解析可能なデータを取得するために、コン ピュータにより読み出し可能な遺伝子発現データの処理プログラムであって、前記コ ンピュータに、 In addition, the object of the present invention is obtained based on the expression level of a gene on a DNA chip. A processing program for gene expression data that can be read out by a computer in order to process the array data stored in the memory and obtain data that can be analyzed.
前記 DNAチップを複数の小領域に分割したときの、当該小領域の情報を記憶装 置に記憶するステップ、 Storing the information of the small area in a storage device when the DNA chip is divided into a plurality of small areas;
前記アレイデータを構成するデータ値を標準化するステップ、 Normalizing the data values comprising the array data;
前記小領域ごとに、当該小領域に属するアレイデータの標準化されたデータ値の 平均値或いは中央値の標準偏差を算出するステップ、並びに、 For each of the small areas, calculating an average value or a standard deviation of median values of standardized data values of the array data belonging to the small area; and
前記標準偏差の増大に基づいて、 DNAチップのアレイデータにおけるムラの存在 を検出するステップを実行させることを特徴とする遺伝子発現データの処理プロダラ ムにより達成される。 This is achieved by a gene expression data processing program characterized by causing a step of detecting the presence of unevenness in DNA chip array data based on the increase in the standard deviation.
[0026] 好ましい実施態様においては、前記ムラの存在を検出するステップにおいて、前記 コンピュータに、 [0026] In a preferred embodiment, in the step of detecting the presence of the unevenness, in the computer,
所定の基準にしたがったカイ(% )二乗分布の有意水準を算出するステップ、並び に、 A step of calculating the significance level of the chi-square distribution according to predetermined criteria,
前記標準偏差とカイ( )二乗分布の有意水準とを比較して、標準偏差がカイ( ) 二乗分布の有意水準より大きい場合には、データにムラが存在すると判断するステツ プを実行させる。 The standard deviation is compared with the significance level of the chi (2) square distribution, and if the standard deviation is greater than the significance level of the chi (2) square distribution, a step of determining that there is unevenness in the data is executed.
[0027] 別の好ましい実施態様においては、前記ムラの存在を検出するステップにおいて、 前記コンピュータに、 [0027] In another preferred embodiment, in the step of detecting the presence of the unevenness, in the computer,
前記標準偏差と、当該標準偏差の平均値の期待値との差異を算出するステップ、 前記標準偏差の期待値を算出するステップ、並びに、 Calculating a difference between the standard deviation and an expected value of an average value of the standard deviation; calculating an expected value of the standard deviation; and
前記差異と、前記標準偏差の期待値に基づく所定の値とを比較し、前記差異が、 前記所定の値より大きい場合には、データにムラが存在すると判断するステップを実 行させる。 The difference is compared with a predetermined value based on the expected value of the standard deviation, and if the difference is larger than the predetermined value, a step of determining that there is unevenness in the data is executed.
[0028] さらに別の好ましい実施態様においては、 DNAチップ上の遺伝子の発現量に基 づき得られ、記憶装置に記憶されたアレイデータを処理して、解析可能なデータを取 得するために、コンピュータにより読み出し可能な遺伝子発現データの処理プロダラ
ムは、前記コンピュータに、 [0028] In still another preferred embodiment, a computer is used to process the array data obtained based on the expression level of the gene on the DNA chip and stored in the storage device to obtain analyzable data. A gene processing data processing readable data readr To the computer,
複数の DNAチップのそれぞれを構成するデータ値を標準化するステップ、 前記 DNAチップのそれぞれのデータ値の標準偏差を算出するステップ、 算出された DNAチップの中央値を算出するステップ、 Standardizing data values constituting each of the plurality of DNA chips; calculating a standard deviation of each data value of the DNA chip; calculating a median value of the calculated DNA chips;
前記標準偏差の期待値を算出するステップ、 Calculating an expected value of the standard deviation;
DNAチップごとに、当該 DNAチップについての標準偏差と、前記中央値との差異 を算出するステップ、並びに、 For each DNA chip, calculating the difference between the standard deviation for the DNA chip and the median, and
前記差異が、前記標準偏差の期待値に基づく所定の第 2の値と比較し、前記差異 1S 前記所定の第 2の値より大きい場合には、当該 DNAチップについてのデータに ムラが存在すると判断するステップを実行させる。 The difference is compared with a predetermined second value based on the expected value of the standard deviation, and when the difference 1S is greater than the predetermined second value, it is determined that there is unevenness in the data for the DNA chip. The step to perform is performed.
[0029] また、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記憶装 置に記憶されたアレイデータを処理して、解析可能なデータを取得する遺伝子発現 データの処理プログラムであって、前記コンピュータに、 [0029] Further, an object of the present invention is to process gene expression data obtained by processing array data obtained based on gene expression levels on a DNA chip and stored in a storage device to obtain analyzable data. A program comprising:
前記アレイデータを構成するデータ値を標準化するステップ、 Normalizing the data values comprising the array data;
前記 DNAチップを分割するため小領域の形状および配置を決定し、当該小領域 の形状および配置の情報を、前記記憶装置に記憶するステップ、 Determining a shape and arrangement of a small region to divide the DNA chip, and storing information on the shape and arrangement of the small region in the storage device;
前記配置された小領域群を表わす空間補正関数を決定するステップ、 前記小領域ごとに、小領域に属するデータ値に空間補正関数による関数値を演算 するステップ、並びに、 Determining a spatial correction function representing the arranged small region group, calculating a function value by the spatial correction function for a data value belonging to the small region for each small region, and
前記関数値を前記記憶装置に記憶するステップを、実行させることを特徴とする遺 伝子発現データの処理プログラムにより達成される。 This is achieved by a gene expression data processing program characterized in that the step of storing the function value in the storage device is executed.
[0030] 好ま 、実施態様にお 、ては、前記小領域の形状および配置を決定するステップ において、前記コンピュータに、 [0030] Preferably, in an embodiment, in the step of determining the shape and arrangement of the small region,
前記 DNAチップを複数の小領域候補に分割したとき、当該小領域候補の情報を 前記記憶装置に記憶するステップ、 Storing the information on the small region candidates in the storage device when the DNA chip is divided into a plurality of small region candidates;
前記小領域候補に属するデータ値の標準偏差を算出するステップ、 Calculating a standard deviation of data values belonging to the small region candidate;
前記それぞれの小領域にっ 、ての標準偏差の中央値を算出するステップ、並びに
前記分割するステップ、標準偏差を算出するステップ、中央値を算出するステップ を繰り返し、最小の中央値となるような小領域候補を、前記小領域と決定するステツ プを実行させる。 Calculating a median of all standard deviations for each of the subregions; and The step of dividing, the step of calculating a standard deviation, and the step of calculating a median value are repeated, and a step of determining a small region candidate having the minimum median value as the small region is executed.
[0031] さらに、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記憶 装置に記憶されたアレイデータを処理して、解析可能なデータを取得する遺伝子発 現データの処理プログラムであって、前記コンピュータに [0031] Furthermore, an object of the present invention is to process gene expression data obtained by processing array data obtained based on the expression level of genes on a DNA chip and stored in a storage device to obtain analyzable data. A program comprising:
前記 DNAチップをノ、イブリダィゼーシヨンした際のチャンバ一中、気泡の体積およ び溶液の体積を設定するステップ、 Setting the volume of bubbles and the volume of solution in the chamber when the DNA chip is subjected to hybridization.
前記ノ、イブリダィゼーシヨンにおけるチャンバ一の回転に応じて、前記 DNAチップ 上に設定された観測点において、当該観測点が溶液に浸されていた相対的時間を 算出するステップ、 Calculating the relative time that the observation point has been immersed in the solution at the observation point set on the DNA chip in accordance with the rotation of the chamber in the hybridization.
前記アレイデータを構成するデータ値を標準化するステップ、 Normalizing the data values comprising the array data;
前記標準化したデータ値を、当該データ値に対応する観測点の相対的時間で除 するステップ、並びに、 Dividing the standardized data value by the relative time of the observation point corresponding to the data value; and
前記除算されたデータ値を、前記記憶装置に記憶するステップを、実行させること を特徴とする遺伝子発現データの処理プログラムにより達成される。 This is achieved by a gene expression data processing program characterized in that the step of storing the divided data value in the storage device is executed.
[0032] また、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られたアレイ データを処理して、解析可能なデータを取得するために、コンピュータにより読み出 し可能な遺伝子発現データの処理プログラムであって、前記コンピュータに、 前記 DNAチップを複数の小領域に分割してたときの、当該小領域の情報を前記 記憶装置に記憶するステップ、 [0032] In addition, an object of the present invention is to process gene data that is obtained based on the expression level of genes on a DNA chip and to obtain data that can be analyzed. A data processing program, wherein the computer stores information on the small area when the DNA chip is divided into a plurality of small areas in the storage device,
前記アレイデータを構成するデータ値を標準化するステップ、 Normalizing the data values comprising the array data;
前記小領域ごとに、当該小領域に属するデータ値の平均値を算出するステップ、 徐々に有意水準が厳しくなるような、第 1ないし第 nの有意水準を設定するステップ For each small area, calculating an average value of data values belonging to the small area, setting first to nth significance levels so that the significance level becomes gradually stricter
、並びに、 As well as
前記小領域のそれぞれについて、前記第 1ないし第 nの有意水準に基づいて、当 該小領域がムラの影響を受けて 、る力否かを判断し、小領域がムラの影響を受けて Vヽることを示す情報を、前記記憶装置に記憶するステップを実行させることを特徴と
する遺伝子発現データの処理プログラムによっても達成される。 For each of the small areas, based on the first to nth significance levels, it is determined whether or not the small area is affected by unevenness, and the small area is affected by unevenness. A step of storing in the storage device information indicating that the device is to speak This is also achieved by a gene expression data processing program.
[0033] さらに、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記憶 装置に記憶されたアレイデータを処理して、解析可能なデータを取得する遺伝子発 現データの処理方法であって、 [0033] Furthermore, an object of the present invention is to process gene expression data obtained by processing array data obtained based on the expression level of genes on a DNA chip and stored in a storage device to obtain analyzable data. A method,
アレイデータを構成するデータ値を正規分布と仮定して、その代表値 Mbおよびス ケール値 Sbを算出するステップと、 Assuming that the data values constituting the array data are normally distributed, calculating the representative value Mb and the scale value Sb;
DNAチップ上のスポットのデータ値にそれぞれ関連付けられて、前記記憶装置に 記憶されたバックグラウンドの実測値である個別バックグラウンド値 Xbiを利用して、 標準値 Zbiを、 Using the individual background value Xbi, which is the actual measured value of the background stored in the storage device, associated with each spot data value on the DNA chip, the standard value Zbi is
Zbi= (Xbi-Mb) /Sb Zbi = (Xbi-Mb) / Sb
により算出するステップと、 A step of calculating by
前記標準値 Zbiが、設定された棄却水準より大きい場合に、当該 Zbiの算出の基礎 となったスポットのデータ値を棄却すべきと判断し、当該スポットのデータを棄却する ことを示す情報を、前記記憶装置に記憶するステップと、を備えたことを特徴とする遺 伝子発現データの処理方法によっても達成される。 When the standard value Zbi is larger than the set rejection level, it is determined that the spot data value that is the basis of the calculation of the Zbi should be rejected, and information indicating that the spot data is rejected, The method is also achieved by a method for processing gene expression data, comprising the step of storing in the storage device.
[0034] スポットのデータ値を棄却すべき力否かを判断する他の実施態様において、 DNA チップ上の遺伝子の発現量に基づき得られ、記憶装置に記憶されたアレイデータを 処理して、解析可能なデータを取得する遺伝子発現データの処理方法は、 [0034] In another embodiment of determining whether or not to reject the spot data value, the array data obtained based on the expression level of the gene on the DNA chip and stored in the storage device is processed and analyzed. The method of processing gene expression data to obtain possible data is:
アレイデータを構成するデータ値を正規分布と仮定して、その代表値 Mbおよびス ケール値 Sbを算出するステップと、 Assuming that the data values constituting the array data are normally distributed, calculating the representative value Mb and the scale value Sb;
DNAチップ上のスポットのデータ値にそれぞれ関連付けられて、前記記憶装置に 記憶されたバックグラウンドの実測値である個別バックグラウンド値 Xbiを利用して、 標準値 Zbiを、 Using the individual background value Xbi, which is the actual measured value of the background stored in the storage device, associated with each spot data value on the DNA chip, the standard value Zbi is
Zbi= (Xbi-Mb) /Sb Zbi = (Xbi-Mb) / Sb
により算出するステップと、 A step of calculating by
全ての標準値 Zbiをソートして、正規分布の理論値に基づくノーマル 'プロバビリテ ィ 'プロットと比較して、前記理論値と所定の範囲内にあるような範囲を特定するステツ プと、
前記標準値 Zbiが、前記特定された範囲の上限より大きい場合に、当該 Zbiの算出 の基礎となったスポットのデータ値を棄却すべきと判断し、当該スポットのデータを棄 却することを示す情報を、前記記憶装置に記憶するステップと、を備える。 Sorting all the standard values Zbi and comparing them with a normal 'Probability' plot based on the theoretical value of the normal distribution to identify a range that falls within the predetermined range with the theoretical value; Indicates that if the standard value Zbi is larger than the upper limit of the specified range, it is judged that the data value of the spot that is the basis of calculation of the Zbi should be rejected, and the data of the spot is rejected. Storing information in the storage device.
[0035] また、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記憶装 置に記憶されたアレイデータを処理して、解析可能なデータを取得する遺伝子発現 データの処理方法であって、 [0035] Further, an object of the present invention is to process gene expression data obtained by processing array data obtained based on gene expression levels on a DNA chip and stored in a storage device to obtain analyzable data. A method,
DNAチップ上のあるスポットである個別スポットの一定範囲の周辺に位置する周辺 スポットのデータ値にそれぞれ関連付けられて、前記記憶装置に記憶されたバックグ ラウンドの実測値である、前記周辺スポットに関する個別バックグラウンド値 Xbiを利 用して、 An individual back relating to the peripheral spot, which is an actual measured value of the background stored in the storage device, associated with the data value of the peripheral spot located around a certain range of the individual spot which is a spot on the DNA chip Use the ground value Xbi
標準値 Zbiを、 Standard value Zbi
Zbi= (Xbi-Mb) /Sb Zbi = (Xbi-Mb) / Sb
により算出するステップと、 A step of calculating by
前記個別スポットと周辺スポットとの間の距離 rを算出するステップと、 Calculating a distance r between the individual spot and a peripheral spot;
前記周辺スポットのそれぞれについて、(ZbiZ 2)を算出し、かつ、算出された値 の総和 Bを算出するステップと、 Calculating (ZbiZ 2) for each of the surrounding spots, and calculating a sum B of the calculated values;
前記総和 Bが、設定された棄却水準より大きい場合に、当該個別スポットのデータ 値を棄却すべきと判断し、当該スポットのデータを棄却することを示す情報を、前記 記憶装置に記憶するステップと、を備えたことを特徴とする遺伝子発現データの処理 方法によっても達成される。 Determining that the data value of the individual spot should be rejected when the sum B is greater than a set rejection level, and storing in the storage device information indicating that the data of the spot is to be rejected; It is also achieved by a method for processing gene expression data characterized by comprising:
[0036] さらに、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記憶 装置に記憶されたアレイデータを処理して、解析可能なデータを取得する遺伝子発 現データの処理方法であって、 [0036] Further, an object of the present invention is to process gene expression data obtained based on the expression level of a gene on a DNA chip and processing array data stored in a storage device to obtain analyzable data. A method,
DNAチップの第 c行第 w列のスポットについて、その 2次元的な位置(Xc, Xw)を 算出するステップと、 Calculating the two-dimensional position (Xc, Xw) of the spot in the c-th row and w-th column of the DNA chip;
(A)第 c行あるいは当該第 c行に隣接する所定範囲の行のスポットのデータ値の最 小値 MINcを算出するステップ、 (A) calculating a minimum value MINc of spot data values in a predetermined range of rows adjacent to the c-th row or the c-th row;
前記 MINcを Xcで近似する連続関数 f (Xc)を算出するステップ、
前記 DNAチップにぉ 、て前記第 c行に属するスポットのデータ値から、前記 f (Xc) を減算するステップ、および、 Calculating a continuous function f (Xc) that approximates the MINc by Xc; Subtracting the f (Xc) from the data value of the spot belonging to the c-th row on the DNA chip; and
前記 f (Xc)が減算されたデータ値を記憶装置に記憶するステップ、 Storing the data value obtained by subtracting f (Xc) in a storage device;
(B)第 w列あるいは当該第 w列に隣接する所定範囲の列のスポットのデータ値の最 小値 MINwを算出するステップ、 (B) calculating a minimum value MINw of spot data values in the w-th column or a predetermined range of columns adjacent to the w-th column;
前記 MINwを Xwで近似する連続関数 g (Xw)を算出するステップ、 Calculating a continuous function g (Xw) that approximates the MINw by Xw;
前記 DNAチップにお!、て前記第 w列に属するスポットのデータ値から、前記 g (Xw )を減算するステップ、および、 Subtracting g (Xw) from the data value of the spot belonging to the w column in the DNA chip; and
前記 g (Xw)が減算されたデータ値を記憶装置に記憶するステップ、 Storing the data value obtained by subtracting g (Xw) in a storage device;
(C)前記 DNAチップのスポットのデータ値のそれぞれを、 (C) Each of the DNA chip spot data values,
z= (log (,x— y ) ~ μ ) / σ z = (log (, x— y) ~ μ) / σ
(上記式において、 γは算出されたバックグラウンド値、 は、中心的傾向の特性値 (In the above equation, γ is the calculated background value, is the characteristic value of the central tendency.
、 σは変動の特定値) , Σ is a specific value of fluctuation)
にしたがって標準化し、前記バックグラウンド値 γを算出するステップ And calculating the background value γ according to
前記スポットのデータ値力 前記バックグラウンド値 yを減算するステップ、 第 c行あるいは当該第 c行に隣接する所定範囲の行のスポットのデータ値の中央値 Data value of the spot Step of subtracting the background value y
MEDcを算出するステップ、 Calculating MEDc,
前記 MEDcを Xcで近似する連続関数 h (Xc)を算出するステップ、 Calculating a continuous function h (Xc) approximating the MEDc by Xc;
前記 DNAチップにぉ 、て前記第 c行に属するスポットのデータ値を、前記 h (Xc) で除算するステップ、および、 Dividing the data value of spots belonging to the c-th row by the DNA chip by the h (Xc), and
前記 h (Xc)で除算されたデータ値を記憶装置に記憶するステップ、 Storing the data value divided by h (Xc) in a storage device;
(D)前記 DNAチップのスポットのデータ値のそれぞれを、 (D) Each of the data values of the spots on the DNA chip is
z= (log (,x— y ) ~ μ ) / σ z = (log (, x— y) ~ μ) / σ
(上記式において、 γは算出されたバックグラウンド値、 は、中心的傾向の特性値 、 σは変動の特定値) (In the above formula, γ is the calculated background value, is the characteristic value of the central tendency, σ is the specific value of the fluctuation)
にしたがって標準化し、前記バックグラウンド値 γを算出するステップ And calculating the background value γ according to
前記スポットのデータ値力 前記バックグラウンド値 yを減算するステップ、 第 w列あるいは当該第 w列に隣接する所定範囲の列のスポットのデータ値の中央
値 MEDwを算出するステップ、 Data value power of the spot Subtracting the background value y Calculating the value MEDw,
前記 MEDwを Xwで近似する連続関数 j (Xw)を算出するステップ、 Calculating a continuous function j (Xw) approximating the MEDw by Xw;
前記 DNAチップにおいて前記第 c行に属するスポットのデータ値を、前記 j (Xw)で 除算するステップ、および、 Dividing the data value of the spot belonging to the c-th row in the DNA chip by the j (Xw); and
前記 j (Xw)で除算されたデータ値を記憶装置に記憶するステップ、 Storing the data value divided by j (Xw) in a storage device;
を含むような、 (A)〜(D)の 1以上を実行するステップと、 Including one or more of (A) to (D),
前記 (A)〜(D)の 1以上の実行結果のそれぞれと、対数正規分布のモデルとを比 較して、その値力 Sもっともモデルと近似するような実行結果を選択するステップと、 選択された実行結果を、前記記憶装置に記憶するステップと、を備えたことを特徴 とする遺伝子発現データの処理方法によっても達成される。 Comparing each of the one or more execution results of (A) to (D) with a lognormal distribution model, and selecting an execution result that approximates the value S most closely to the model; and The method is also achieved by a method for processing gene expression data, comprising the step of storing the executed result in the storage device.
[0037] また、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記憶装 置に記憶されたアレイデータを処理して、解析可能なデータを取得するために、コン ピュータにより読み出し可能な遺伝子発現データの処理プログラムであって、前記コ ンピュータに、 [0037] Further, an object of the present invention is to obtain data that can be analyzed by processing array data obtained based on gene expression levels on a DNA chip and stored in a storage device. A gene expression data processing program readable by
アレイデータを構成するデータ値を正規分布と仮定して、その代表値 Mbおよびス ケール値 Sbを算出するステップと、 Assuming that the data values constituting the array data are normally distributed, calculating the representative value Mb and the scale value Sb;
DNAチップ上のスポットのデータ値にそれぞれ関連付けられて、前記記憶装置に 記憶されたバックグラウンドの実測値である個別バックグラウンド値 Xbiを利用して、 標準値 Zbiを、 Using the individual background value Xbi, which is the actual measured value of the background stored in the storage device, associated with each spot data value on the DNA chip, the standard value Zbi is
Zbi= (Xbi-Mb) /Sb Zbi = (Xbi-Mb) / Sb
により算出するステップと、 A step of calculating by
前記標準値 Zbiが、設定された棄却水準より大きい場合に、当該 Zbiの算出の基礎 となったスポットのデータ値を棄却すべきと判断し、当該スポットのデータを棄却する ことを示す情報を、前記記憶装置に記憶するステップと、を実行させることを特徴とす る遺伝子発現データの処理プログラムによっても達成される。 When the standard value Zbi is larger than the set rejection level, it is determined that the data value of the spot that is the basis of calculation of the Zbi should be rejected, and information indicating that the data of the spot is rejected, It is also achieved by a gene expression data processing program characterized in that the step of storing in the storage device is executed.
[0038] 或 、は、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記 憶装置に記憶されたアレイデータを処理して、解析可能なデータを取得するために、 コンピュータにより読み出し可能な遺伝子発現データの処理プログラムであって、前
記コンピュータに、 Alternatively, an object of the present invention is to obtain arrayable data obtained by processing array data obtained based on the expression level of a gene on a DNA chip and stored in a storage device. A computer-readable program for processing gene expression data, On the computer
アレイデータを構成するデータ値を正規分布と仮定して、その代表値 Mbおよびス ケール値 Sbを算出するステップと、 Assuming that the data values constituting the array data are normally distributed, calculating the representative value Mb and the scale value Sb;
DNAチップ上のスポットのデータ値にそれぞれ関連付けられて、前記記憶装置に 記憶されたバックグラウンドの実測値である個別バックグラウンド値 Xbiを利用して、 標準値 Zbiを、 Using the individual background value Xbi, which is the actual measured value of the background stored in the storage device, associated with each spot data value on the DNA chip, the standard value Zbi is
Zbi= (Xbi-Mb) /Sb Zbi = (Xbi-Mb) / Sb
により算出するステップと、 A step of calculating by
全ての標準値 Zbiをソートして、正規分布の理論値に基づくノーマル 'プロバビリテ ィ 'プロットと比較して、前記理論値と所定の範囲内にあるような範囲を特定するステツ プと、 Sorting all the standard values Zbi and comparing them with a normal 'Probability' plot based on the theoretical value of the normal distribution to identify a range that falls within the predetermined range with the theoretical value;
前記標準値 Zbiが、前記特定された範囲の上限より大きい場合に、当該 Zbiの算出 の基礎となったスポットのデータ値を棄却すべきと判断し、当該スポットのデータを棄 却することを示す情報を、前記記憶装置に記憶するステップと、を実行させることを特 徴とする遺伝子発現データの処理プログラムによって達成される。 Indicates that if the standard value Zbi is larger than the upper limit of the specified range, it is judged that the data value of the spot that is the basis of calculation of the Zbi should be rejected, and the data of the spot is rejected. And a step of storing information in the storage device. This is achieved by a gene expression data processing program.
また、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記憶装 置に記憶されたアレイデータを処理して、解析可能なデータを取得するために、コン ピュータにより読み出し可能な遺伝子発現データの処理プログラムであって、前記コ ンピュータに、 Another object of the present invention is to obtain data that can be analyzed by processing array data obtained based on the expression level of genes on a DNA chip and stored in a storage device, and can be read out by a computer. A program for processing gene expression data,
DNAチップ上のあるスポットである個別スポットの一定範囲の周辺に位置する周辺 スポットのデータ値にそれぞれ関連付けられて、前記記憶装置に記憶されたバックグ ラウンドの実測値である、前記周辺スポットに関する個別バックグラウンド値 Xbiを利 用して、 An individual back relating to the peripheral spot, which is an actual measured value of the background stored in the storage device, associated with the data value of the peripheral spot located around a certain range of the individual spot which is a spot on the DNA chip Use the ground value Xbi
標準値 Zbiを、 Standard value Zbi
Zbi= (Xbi-Mb) /Sb Zbi = (Xbi-Mb) / Sb
により算出するステップと、 A step of calculating by
前記個別スポットと周辺スポットとの間の距離 rを算出するステップと、 Calculating a distance r between the individual spot and a peripheral spot;
前記周辺スポットのそれぞれについて、(ZbiZ 2)を算出し、かつ、算出された値
の総和 Bを算出するステップと、 (ZbiZ 2) is calculated for each of the surrounding spots, and the calculated value Calculating the sum B of
前記総和 Bが、設定された棄却水準より大きい場合に、当該個別スポットのデータ 値を棄却すべきと判断し、当該スポットのデータを棄却することを示す情報を、前記 記憶装置に記憶するステップと、を実行させることを特徴とする遺伝子発現データの 処理プログラムにより達成される。 Determining that the data value of the individual spot should be rejected when the sum B is greater than a set rejection level, and storing in the storage device information indicating that the data of the spot is to be rejected; This is achieved by a gene expression data processing program.
さらに、本発明の目的は、 DNAチップ上の遺伝子の発現量に基づき得られ、記憶 装置に記憶されたアレイデータを処理して、解析可能なデータを取得するために、コ ンピュータにより読み出し可能な遺伝子発現データの処理プログラムであって、前記 コンピュータに、 Furthermore, an object of the present invention is obtained on the basis of the expression level of a gene on a DNA chip, and can be read out by a computer in order to process the array data stored in a storage device to obtain analyzable data. A gene expression data processing program comprising:
DNAチップの第 c行第 w列のスポットについて、その 2次元的な位置(Xc, Xw)を 算出するステップと、 Calculating the two-dimensional position (Xc, Xw) of the spot in the c-th row and w-th column of the DNA chip;
(A)第 c行あるいは当該第 c行に隣接する所定範囲の行のスポットのデータ値の最 小値 MINcを算出するステップ、 (A) calculating a minimum value MINc of spot data values in a predetermined range of rows adjacent to the c-th row or the c-th row;
前記 MINcを Xcで近似する連続関数 f (Xc)を算出するステップ、 Calculating a continuous function f (Xc) that approximates the MINc by Xc;
前記 DNAチップにぉ 、て前記第 c行に属するスポットのデータ値から、前記 f (Xc) を減算するステップ、および、 Subtracting the f (Xc) from the data value of the spot belonging to the c-th row on the DNA chip; and
前記 f (Xc)が減算されたデータ値を記憶装置に記憶するステップ、 Storing the data value obtained by subtracting f (Xc) in a storage device;
(B)第 w列あるいは当該第 w列に隣接する所定範囲の列のスポットのデータ値の最 小値 MINwを算出するステップ、 (B) calculating a minimum value MINw of spot data values in the w-th column or a predetermined range of columns adjacent to the w-th column;
前記 MINwを Xwで近似する連続関数 g (Xw)を算出するステップ、 Calculating a continuous function g (Xw) that approximates the MINw by Xw;
前記 DNAチップにお!、て前記第 w列に属するスポットのデータ値から、前記 g (Xw )を減算するステップ、および、 Subtracting g (Xw) from the data value of the spot belonging to the w column in the DNA chip; and
前記 g (Xw)が減算されたデータ値を記憶装置に記憶するステップ、 Storing the data value obtained by subtracting g (Xw) in a storage device;
(C)前記 DNAチップのスポットのデータ値のそれぞれを、 (C) Each of the DNA chip spot data values,
z= (log (x— y ) ~ μ ) / σ z = (log (x— y) ~ μ) / σ
(上記式において、 γは算出されたバックグラウンド値、 は、中心的傾向の特性値 、 σは変動の特定値) (In the above formula, γ is the calculated background value, is the characteristic value of the central tendency, σ is the specific value of the fluctuation)
にしたがって標準化し、前記バックグラウンド値 γを算出するステップ
前記スポットのデータ値力 前記バックグラウンド値 Ύを減算するステップ、 第 c行あるいは当該第 c行に隣接する所定範囲の行のスポットのデータ値の中央値And calculating the background value γ according to Data value of the spot The step of subtracting the background value 、, the median value of the data values of the spots in the c-th row or a predetermined range of rows adjacent to the c-th row
MEDcを算出するステップ、 Calculating MEDc,
前記 MEDcを Xcで近似する連続関数 h (Xc)を算出するステップ、 Calculating a continuous function h (Xc) approximating the MEDc by Xc;
前記 DNAチップにぉ 、て前記第 c行に属するスポットのデータ値を、前記 h (Xc) で除算するステップ、および、 Dividing the data value of spots belonging to the c-th row by the DNA chip by the h (Xc), and
前記 h (Xc)で除算されたデータ値を記憶装置に記憶するステップ、 Storing the data value divided by h (Xc) in a storage device;
(D)前記 DNAチップのスポットのデータ値のそれぞれを、 (D) Each of the data values of the spots on the DNA chip is
z= (log (x— y ) ~ μ ) / σ z = (log (x— y) ~ μ) / σ
(上記式において、 γは算出されたバックグラウンド値、 は、中心的傾向の特性値 (In the above equation, γ is the calculated background value, is the characteristic value of the central tendency.
、 σは変動の特定値) , Σ is a specific value of fluctuation)
にしたがって標準化し、前記バックグラウンド値 γを算出するステップ And calculating the background value γ according to
前記スポットのデータ値力 前記バックグラウンド値 yを減算するステップ、 第 w列あるいは当該第 w列に隣接する所定範囲の列のスポットのデータ値の中央 値 MEDwを算出するステップ、 Subtracting the background data value y, calculating a median value MEDw of spot data values in a predetermined range of columns adjacent to the w-th column or the w-th column,
前記 MEDwを Xwで近似する連続関数 j (Xw)を算出するステップ、 Calculating a continuous function j (Xw) approximating the MEDw by Xw;
前記 DNAチップにおいて前記第 c行に属するスポットのデータ値を、前記 j (Xw)で 除算するステップ、および、 Dividing the data value of the spot belonging to the c-th row in the DNA chip by the j (Xw); and
前記 j (Xw)で除算されたデータ値を記憶装置に記憶するステップ、 Storing the data value divided by j (Xw) in a storage device;
を含むような、 (A)〜(D)の 1以上を実行するステップと、 Including one or more of (A) to (D),
前記 (A)〜(D)の 1以上の実行結果のそれぞれと、対数正規分布のモデルとを比 較して、その値力 Sもっともモデルと近似するような実行結果を選択するステップと、 選択された実行結果を、前記記憶装置に記憶するステップと、を実行させることを 特徴とする遺伝子発現データの処理プログラムにより達成される。 Comparing each of the one or more execution results of (A) to (D) with a lognormal distribution model, and selecting an execution result that approximates the value S most closely to the model; and And a step of storing the executed result in the storage device. This is achieved by a gene expression data processing program.
発明の効果 The invention's effect
本発明によれば、適切に DNAチップのデータのムラを検出し、また、可能であれば そのムラを補正する方法、および、プログラムを提供することが可能となる。 According to the present invention, it is possible to provide a method and a program for appropriately detecting unevenness of data on a DNA chip and correcting the unevenness if possible.
発明を実施するための最良の形態
[0042] [システムの概略] BEST MODE FOR CARRYING OUT THE INVENTION [0042] [System overview]
以下、添付図面を参照して、本発明の実施の形態について説明する。図 1は、本発 明の実施の形態にかかる遺伝子発現データ処理装置(以下、単に「処理装置」と称 する。)のハードウェア構成図である。図 1に示すように、処理装置 10は、 CPU12と、 マウスやキーボードなどの入力装置 14と、 CRTなど力も構成される表示装置 16と、 R AM(Random Access Memory)18と、 ROM(Read Only Memory)20と、 CD— ROMや DVD— ROMなどの可搬記憶媒体 23をアクセスする可搬記憶媒体ドライバ 22と、ハ ードディスク装置 24と、外部とのデータ授受を制御するインタフェース (IZF) 26とを 備えている。図 1から理解できるように、本実施の形態に力かる処理装置 10として、パ 一ソナルコンピュータなどを利用することができる。 Embodiments of the present invention will be described below with reference to the accompanying drawings. FIG. 1 is a hardware configuration diagram of a gene expression data processing apparatus (hereinafter simply referred to as “processing apparatus”) according to an embodiment of the present invention. As shown in FIG. 1, the processing device 10 includes a CPU 12, an input device 14 such as a mouse and a keyboard, a display device 16 including a force such as a CRT, a RAM (Random Access Memory) 18, and a ROM (Read Only). Memory) 20, a portable storage medium driver 22 for accessing a portable storage medium 23 such as a CD-ROM or a DVD-ROM, a hard disk device 24, and an interface (IZF) 26 for controlling data exchange with the outside. It is equipped with. As can be understood from FIG. 1, a personal computer or the like can be used as the processing apparatus 10 that is effective in the present embodiment.
[0043] IZF26は、ハイブリタイズされた DNAチップ上のスポットの発光量を計測して、計 測された発光量に基づくデータを生成するリーダまたはスキャナ(図示せず)や通信 回路に接続されている。通信回路は、さらに、外部ネットワーク(たとえば、インターネ ット)に接続されている。 [0043] The IZF 26 is connected to a reader or scanner (not shown) or a communication circuit that measures the light emission amount of the spot on the hybridized DNA chip and generates data based on the measured light emission amount. Yes. The communication circuit is further connected to an external network (for example, the Internet).
[0044] 本実施の形態において、可搬記憶媒体 23には、リーダまたはスキャナからのデー タを受け入れて、当該データに対して後述する必要なデータ変換処理を実行するプ ログラム、および、処理が施されたデータを解析するためのプログラムが記憶されて いる。したがって、可搬記憶媒体ドライバ 22が、可搬記憶媒体 23から、上記プロダラ ムを読み出して、これをノヽードディスク装置 24に記憶して、これを起動することにより 、パーソナルコンピュータ力 処理装置 10として作動することが可能となる。或いは、 インターネットなどの外部ネットワークを介して、上記プログラムをダウンロードしても良 い。 [0044] In the present embodiment, the portable storage medium 23 has a program and a process for receiving data from a reader or a scanner and executing necessary data conversion processing to be described later on the data. A program for analyzing the applied data is stored. Therefore, the portable storage medium driver 22 reads out the above-mentioned program from the portable storage medium 23, stores it in the node disk device 24, and activates it to operate as the personal computer force processing device 10. It becomes possible to do. Alternatively, the above program may be downloaded via an external network such as the Internet.
[0045] リーダまたはスキャナからは、 DNAチップを CCDカメラなどで撮影し、スポットごと のシグナル強度を積算した値力 アレイデータとして出力される。或いは、リーダまた はスキャナにおいて、 CCDカメラにて撮影した画像の画像データの値に基づき、バッ クグラウンド値が決定され、各画素のシグナル強度からバックグラウンド値が差し引か れ、既にバックグラウンド補正がなされた画像データから、スポットごとのシグナル強 度が積算されて、アレイデータとして出力される場合もある。本実施の形態において
は、未処理のアレイデータ、上記リーダやスキャナまたは付随するソフトウェアにより 補正処理 (バックグラウンド補正)が施されたデータの何れをも利用することができる。 なお、本明細書において、リーダまたはスキャナ力も伝達される、上記スポットごとの シグナルを累算したデータを、アレイデータ、或いは、本実施の形態に力かるバック グラウンド処理を施すための基礎となるデータという意味で原データと称する。 [0045] From the reader or scanner, a DNA chip is photographed with a CCD camera or the like, and is output as value array data obtained by integrating the signal intensity for each spot. Alternatively, in the reader or scanner, the background value is determined based on the value of the image data of the image taken by the CCD camera, and the background value is subtracted from the signal intensity of each pixel, and the background correction has already been performed. In some cases, the signal intensity for each spot is integrated from the obtained image data and output as array data. In this embodiment Either unprocessed array data or data that has been subjected to correction processing (background correction) by the reader, scanner, or accompanying software can be used. In this specification, data that accumulates the signal for each spot, to which the reader or scanner power is transmitted, is used as array data or data that is used as a basis for performing background processing that is used in this embodiment. This is referred to as original data.
[0046] 図 2は、本実施の形態に力かる処理装置 10の要部の機能ブロックダイヤグラムであ る。図 2においては、遺伝子発現データの解析結果を導き出すための処理を実行す る構成部分が示されている。図 2に示すように、処理装置 10は、データバッファ 30と、 データバッファ 30に一時的に記憶されたデータ (原データ)を読み出して、原データ を標準化する標準化処理部 31と、原データに基づき、ハイブリダィゼーシヨンのムラ を検出するムラ検出部 32と、ムラ検出部 32において、ムラがあると判断された場合、 当該ムラの補正の可否を判断し、可能である場合には、原データを補正する補正処 理部 34と、補正されたデータなどに基づく画像を生成する画像生成部 36と、補正処 理部 34などにより生成された処理結果に相当するデータを記憶する結果記憶部 38 と、を備えている。 [0046] FIG. 2 is a functional block diagram of the main part of the processing apparatus 10 that works according to the present embodiment. In FIG. 2, the components that execute the process to derive the analysis result of gene expression data are shown. As shown in FIG. 2, the processing device 10 reads out the data buffer 30, a standardization processing unit 31 that reads out data (original data) temporarily stored in the data buffer 30 and standardizes the original data, and the original data. Based on the unevenness detection unit 32 for detecting the unevenness of the hybridization, and the unevenness detection unit 32, when it is determined that there is unevenness, it is determined whether the unevenness can be corrected. Correction processing unit 34 that corrects the original data, image generation unit 36 that generates an image based on the corrected data, and result storage that stores data corresponding to the processing result generated by the correction processing unit 34 and the like And part 38.
[0047] データバッファ 30は、 RAM18、場合によってはハードディスク装置 24によりその機 能が実現される。データバッファには、リーダまたはスキャナ力 伝達された、各スポ ットの発光量を示すデータ (原データ)が一時的に記憶される。また、データバッファ 3 0には、ムラ検出部 32、補正処理部 34、画像処理部 36などの処理過程において生 成され、或いは処理の最終結果として生成された、小領域に関する情報 (たとえば、 小領域の形状および配置の情報)、 DNAチップのアレイデータにムラがあることを示 す情報、特定のスポットに関するデータ値にムラが存在することを示す情報、関数値 、標準偏差、中央値、平均値、標準化されたデータ値、補正されたデータ値などが記 憶される。以下に明記しないが、処理において算出された値などは、データノッファ 3 0に一時的に記憶される。また、オペレータにより入力されたパラメータ (たとえば、棄 却水準など)も同様に、データバッファ 30に記憶される。 [0047] The function of the data buffer 30 is realized by the RAM 18, and in some cases, the hard disk device 24. The data buffer temporarily stores data (original data) indicating the amount of light emitted from each spot transmitted to the reader or scanner. The data buffer 30 also includes information on small areas (for example, small areas) generated in the process of the unevenness detection unit 32, the correction processing unit 34, the image processing unit 36, etc., or generated as a final result of the processing. Information on the shape and arrangement of the area), information indicating that the DNA chip array data is uneven, information indicating that there is unevenness in the data value for a specific spot, function value, standard deviation, median, average Values, standardized data values, corrected data values, etc. are stored. Although not specified below, the values calculated in the processing are temporarily stored in the data notifier 30. Similarly, parameters input by the operator (for example, a rejection level) are also stored in the data buffer 30.
[0048] [ムラ検出の原理] [0048] [Principle of unevenness detection]
本実施の形態においては、チップコンテンツはチップ上にほぼランダムに配置され
ており、したがって、データ値も DNAチップ上の位置と無関係であり、その値もランダ ムであることを利用して、チップ上の小領域におけるデータ値のランダムネスの崩れ を検出することで、ハイブリダィゼーシヨンのムラを検出する。このランダムネスの崩れ を、チップ上の小区間ごとに算出した平均値 (或いは中央値)の標準偏差の増大力も 検出する。 In the present embodiment, the chip content is arranged almost randomly on the chip. Therefore, the data value is also independent of the position on the DNA chip, and the randomness of the data value in a small area on the chip is detected by utilizing the fact that the value is also random. Detects unevenness of hybridization. This randomness disruption is also detected by increasing the standard deviation of the average (or median) calculated for each small section on the chip.
[0049] 上記増大は、以下の手法により検出される。 [0049] The increase is detected by the following method.
(1)標準偏差がカイ(% ) 2乗分布することに基づいて判断する。 (1) Judgment is based on the standard deviation of chi (%) square distribution.
(2)標準偏差が概ね正規分布することに基づ!/ヽて判断する。 (2) Judgment based on the normal distribution of standard deviations!
(3)原データを後述する手法で標準化したときに得られる標準偏差が,実験間で安 定していることを利用して、その標準偏差の増大を検出することから判断する。 (3) Judgment is made by detecting that the standard deviation obtained when standardizing the original data by the method described later is stable between experiments, and detecting the increase in the standard deviation.
(4)バックグラウンドの測定値が正規分布することに基づ 、て判断する。 (4) Judge based on the normal distribution of measured values of the background.
[0050] まず、第 1の手法について説明する。 [0050] First, the first method will be described.
[0051] 前述したように、データ (シグナル強度)はチップ上の位置とは無関係である。した がって、チップ上の小領域 (たとえば、 nスポット X nスポットの領域)に着目するとき、 どの小領域も、同じくらいの平均値を持つと予想される。また、その平均値の分散の 期待値は、中心極限定理より予測することができる。 [0051] As described above, the data (signal intensity) is independent of the position on the chip. Therefore, when focusing on a small area on the chip (for example, n-spot X n-spot area), every small area is expected to have the same average value. The expected variance of the average value can be predicted by the central limit theorem.
[0052] ノ、イブリダィゼーシヨンが不均一で、そのため、データにムラが生じたのであれば、 小領域間で平均値 (或いは中央値)に差異が生じる。たとえば、ハイブリダィゼーショ ン中に気泡が生じた場合には、気泡が位置した小領域群のシグナル強度の平均値 は低く測定される。その結果、小領域ごとの平均値が散らばり、分散が大きくなる。 [0052] In this case, the irregularization is non-uniform, and therefore if the data is uneven, the average value (or median value) differs between the small areas. For example, when bubbles are generated during hybridization, the average value of the signal intensity of the small region group where the bubbles are located is measured low. As a result, the average value for each small area is scattered, and the dispersion becomes large.
[0053] [第 1の手法に関する処理] [0053] [Processing for the first method]
以下、より具体的に、本実施の形態に力かる処理装置のムラ検出部 32で実行され る第 1の手法に関する処理を、図 3を参照して説明する。第 1の手法において利用さ れるパラメータは以下の通りである。 Hereinafter, more specifically, the process relating to the first technique executed by the unevenness detection unit 32 of the processing apparatus that works according to the present embodiment will be described with reference to FIG. The parameters used in the first method are as follows.
[0054] X (j = l, · · · , N):スポットごとのシグナル強度 [0054] X (j = l, ···, N): signal intensity for each spot
j j
(i= l, · · · , M) :小領域の平均値 (i = l, ..., M): average of small area
a ms : /z mの標準偏差 a ms: Standard deviation of / z m
N:小領域に含まれるスポットの個数
M :小領域の個数 N: Number of spots included in the small area M: Number of small areas
図 3に示すように、ムラ検出部 32における処理は、原データの標準化 (ステップ 300 )と、概ね、標準偏差 σ msの算出 (ステップ 310)と、標準偏差 σ msの妥当性の判断 (ステップ 320)とから構成される。 As shown in Fig. 3, the processing in the unevenness detection unit 32 is performed by standardizing the original data (step 300), calculating the standard deviation σ ms (step 310), and determining the validity of the standard deviation σ ms (step 3). 320).
[0055] まず、原データの標準化処理 (ステップ 300)について説明する。図 6および図 7は 、本実施の形態に力かる標準化処理部 31により実行される標準化処理をより詳細に 示すフローチャートである。この手法は、特許文献 1に記載されたものと同様である。 First, original data standardization processing (step 300) will be described. FIG. 6 and FIG. 7 are flowcharts showing in more detail the standardization processing executed by the standardization processing unit 31 that works according to the present embodiment. This technique is the same as that described in Patent Document 1.
[0056] 本実施の形態では、原データ (シグナル強度) Xについて、 z—標準化を施す際に、 以下の式を利用する。 In the present embodiment, the following formula is used when z-standardization is performed on the original data (signal intensity) X.
[0057] z = (log (x - γ ) ~ μ ) / σ [0057] z = (log (x-γ) ~ μ) / σ
この式において、 γは算出されたバックグラウンド値、 は、中心的傾向の特性値、 σは変動の特定値である。図 6は、標準化処理のうち、ノ ックグラウンド算出処理をよ り詳細に示すフローチャートである。 In this equation, γ is the calculated background value, is the characteristic value of the central tendency, and σ is the specific value of the fluctuation. FIG. 6 is a flowchart showing the knock ground calculation process in more detail in the standardization process.
[0058] 図 6に示すように、ムラ検出部 32は、オペレータ (場合によっては、「実験者」とも称 する。)の入力装置の操作等による入力にしたがって、バックグラウンド候補値の範囲 、および、当該範囲中の複数のバックグラウンド候補値を決定する (ステップ 601)。 たとえば、オペレータがバックグラウンド候補値の始点(たとえば、「0 (ゼロ)」)と、終 点 (たとえば、中央値や、第 1四分位数)が指定されると、始点と終点との間で等間隔 な (或いは等比的な)所定数の値が決定される。たとえば、「0」と中央値が指定された 場合に、その間で等間隔に 8つの値が取られ、始点および終点を含めて、 10個のバ ックグラウンド候補値が決定される。本処理において、ノ ックグラウンド候補値は、デ ータバッファ 30に記憶され、必要に応じて値が読み出され、また、更新される。 [0058] As shown in FIG. 6, the unevenness detection unit 32 determines the range of background candidate values according to input by an operator (in some cases, also referred to as an “experimenter”), etc. Then, a plurality of background candidate values in the range are determined (step 601). For example, if the operator specifies a starting point for a background candidate value (for example, “0 (zero)”) and an ending point (for example, the median or the first quartile), A predetermined number of values that are evenly spaced (or equivalent) are determined. For example, when “0” and the median value are specified, 8 values are equally spaced between them, and 10 background candidate values including the start point and end point are determined. In this process, the knock ground candidate value is stored in the data buffer 30, and the value is read and updated as necessary.
[0059] 次いで、ムラ検出部 32は、抽出された原データ値 (すなわち、あるシグナル強度の 値)から、いずれかのバックグラウンド候補値を減じ (ステップ 602)、バックグランド候 補値が減じられた原データ値を対数変換する (ステップ 603)。ここで取得された対数 変換値も、後の処理に利用するため、データノッファ 30に記憶される。ステップ 602 および 603は、選択された全て (たとえば、 10個)のバックグランド候補値に関して実 行される。
[0060] 次いで、あるバックグラウンド候補値に関する対数変換値と、以下の手法で算出さ れ、かつ、データノッファ 30に記憶されている、対応する標準値とが比較され、値の 差異を表す指標が算出される (ステップ 604)。ここで、本実施の形態においては、標 準値を以下のように求めて!/、る。 Next, the unevenness detection unit 32 subtracts one of the background candidate values from the extracted original data value (that is, a value of a certain signal intensity) (step 602), and the background candidate value is subtracted. The original data value is logarithmically converted (step 603). The logarithmic conversion value acquired here is also stored in the data notifier 30 for use in later processing. Steps 602 and 603 are performed on all selected background candidate values (eg, 10). [0060] Next, a logarithmic transformation value related to a certain background candidate value is compared with a corresponding standard value calculated by the following method and stored in the data notifier 30, and an index indicating a difference in value is obtained. Calculated (step 604). Here, in the present embodiment, the standard value is obtained as follows!
[0061] 分位数が幅を有して 、るため、統計的な中央値を補正するために、以下の数値を 算出する。 [0061] Since the quantiles have a range, the following numerical values are calculated in order to correct the statistical median value.
[0062] m(i) = (i-0. 3175) / (n+0. 365) [0062] m (i) = (i-0. 3175) / (n + 0. 365)
ここに、 n:データ個数、 i: lから nまでの自然数 Where n: number of data, i: natural number from l to n
次いで、求められた m (i)のそれぞれについて、正規分布関数の逆関数 F_ 1 (r)を 施す。求められた値のそれぞれが、データ値に対応する標準値となる。 Next, the inverse function F _ 1 (r) of the normal distribution function is applied to each m (i) obtained. Each of the obtained values becomes a standard value corresponding to the data value.
[0063] ムラ検出部 32は、各バックグラウンド候補値について、たとえば、上記差異の絶対 値の総和、或いは、差異の二乗の総和を算出する。ここで求められた値力 各バック グラウンド候補値の差異を表わす指標となる。無論、差異を表わす指標として、最小 二乗法の「r」を利用しても良い。実際に、最小二乗法の「r」を利用した場合が、精度 の高 、バックグラウンド値を求めると 、う観点から望まし 、。 [0063] For each background candidate value, the unevenness detection unit 32 calculates, for example, the sum of the absolute values of the differences or the sum of the squares of the differences. The value power obtained here is an index that represents the difference between each background candidate value. Of course, the least-squares method “r” may be used as an indicator of the difference. Actually, when the least square method “r” is used, it is desirable from the viewpoint of obtaining a high accuracy and background value.
[0064] 次いで、画像生成部 36は、ムラ検出部 32からの指示にしたがって、たとえば、バッ クグラウンド候補値を横軸、差異を表わす指標を縦軸としたグラフを生成し、これを表 示装置 16の画面上に表示する(ステップ 605)。 [0064] Next, in accordance with the instruction from the unevenness detection unit 32, the image generation unit 36 generates a graph with the background candidate value as the horizontal axis and the index indicating the difference as the vertical axis, for example. It is displayed on the screen of the device 16 (step 605).
[0065] オペレータは、表示装置 16の画面上に表示されたグラフを参照して、望ましいバッ クグラウンド候補値の範囲、或いは、ノ ックグラウンド値を選択する (ステップ 606)。 選択した値が、ノ ックグラウンド値として十分に満足なものと考えられれば (ステップ 6 07でイエス (Yes))、処理は終了する。その一方、十分に満足なものではない場合に は、新たに選択された、より狭められたバックグラウンド候補値の範囲から、所定数の 新たなバックグラウンド候補値が決定され (ステップ 608)、ステップ 602〜607の処 理が繰り返される。新たなバックグラウンド候補値も、ノ ックグラウンド候補値の範囲の 始点と終点との間を等間隔に分割したような値であっても良いし、等比的に分割した ような値であっても良い。最終的に得られたバックグラウンド値は、結果記憶部 38に The operator refers to the graph displayed on the screen of the display device 16 and selects a desired background candidate value range or knock value (step 606). If the selected value is considered sufficiently satisfactory as a knock ground value (Yes in step 6007), the process ends. On the other hand, if it is not satisfactory, a predetermined number of new background candidate values are determined from the newly selected narrower range of background candidate values (step 608), The processing from 602 to 607 is repeated. The new background candidate value may also be a value obtained by dividing the start point and end point of the range of the knock candidate value at equal intervals, or may be a value obtained by equally dividing the value. good. The finally obtained background value is stored in the result storage unit 38.
SC fedれる。
[0066] 次に、残りのパラメータ算出のための処理につき説明を加える。一般に、対数正規 分布においては、対数をとつたデータの; z (中心的傾向の特性値)として平均値、 σ (変動の特性値)として標準偏差が利用される。し力しながら、 DNAチップ力も得られ るデータにおいては、大きなシグナル強度 (比較的データ値の大きなもの)は正確に 測定され、その一方、小さなシグナル強度 (比較的データ値の小さなもの)は相対的 に大きなノイズを含む。ノイズに隠されて負値となったデータは、対数値を求めること ができないため、これら弱いシグナルの多くは切り捨てられることになる。このような場 合に、上記従来の算出方法を利用することができない。 SC fed. Next, a description will be given of the remaining parameter calculation processing. In general, in the lognormal distribution, the mean value is used as the logarithmic data; z (characteristic value of central tendency), and standard deviation is used as σ (characteristic value of fluctuation). However, in data where DNA chip strength is also obtained, large signal intensities (with relatively large data values) are accurately measured, while small signal intensities (with relatively small data values) are relative. Including large noise. Since data that is negative due to noise cannot be obtained, many of these weak signals will be discarded. In such a case, the conventional calculation method cannot be used.
[0067] 通常、中心的傾向の特性値として平均値をもって求められる。ところが、平均はい わゆるロバストな手法ではなぐ特に、弱いシグナルが選択的に抜け落ちる状況では 高めに算出される。こうした場合には、中央値がより有効であることは知られている。 [0067] Usually, the characteristic value of the central tendency is obtained with an average value. However, the average is calculated higher than the so-called robust method, especially in situations where weak signals are selectively dropped. In these cases, the median is known to be more effective.
[0068] その一方、変動の特性値は標準偏差をもって表される。しかしながら、標準偏差も ロバストな手法ではなぐ上述したような、弱いシグナルが選択的に抜け落ちる状況 では小さめに算出される。その一方、ロバストな手法として、変動の特性値を、四分位 レンジから求める iqrが知られて!/、る。 On the other hand, the characteristic value of fluctuation is expressed with a standard deviation. However, the standard deviation is calculated to be smaller in the situation where weak signals are selectively dropped as described above, which is not a robust method. On the other hand, as a robust method, iqr, which finds the characteristic value of fluctuation from the quartile range, is known!
[0069] しかしながら、中央値はデータ群のうちの一点、 iqrもデータ群のうちの二点から求 めるもので、その精度に難点がある。特に、少ないスポット数力も取得したデータや、 補正のためのデータ数に限りがある場合には、その問題が深刻となる。そこで、本実 施の形態においては、以下の手法により、比較的データ数に限りのある場合でも、精 度の高 、パラメータ算出方法を採用して 、る。 [0069] However, the median is obtained from one point in the data group, and iqr is obtained from two points in the data group. In particular, the problem becomes serious when data with a small number of spots is acquired or when the number of correction data is limited. Therefore, in the present embodiment, the following method is used to adopt a high accuracy and parameter calculation method even when the number of data is relatively limited.
[0070] 図 7は、本実施の形態に力かるパラメータ算出処理を示すフローチャートである。図 5に示すように、ムラ検出部 32は、理想値、および、算出されたバックグラウンド値が 減じられデータ値 (シグナル強度)を取得する (ステップ 701)。理想値は、先のステツ プ 604で求めた標準値に相当する。 FIG. 7 is a flowchart showing a parameter calculation process that works according to the present embodiment. As shown in FIG. 5, the unevenness detection unit 32 obtains a data value (signal intensity) by subtracting the ideal value and the calculated background value (step 701). The ideal value corresponds to the standard value obtained in step 604 above.
[0071] 次いで、画像生成部 36は、ムラ検出部 32からの指示にしたがって、理想値を横軸 にとり、実測値に基づくデータ値 (つまり、ノ ックグラウンド値が減じられたデータ値( シグナル強度)を縦軸にとったグラフを作成し、表示装置の画面上に表示する (ステツ プ 702)。このグラフにおいて、実測値に基づくデータ値力 正確に正規対数分布し
ていれば、このグラフは、 y= xにほぼ一致する。しかしながら、実際に、実測値をプロ ットしたことにより得られたグラフは、「1」以外の傾き(a)および y切片 (b)をもち、かつ 、 Xの値が小さくなるのにしたがって、直線性を失う。 Next, the image generation unit 36 takes the ideal value on the horizontal axis in accordance with the instruction from the unevenness detection unit 32, and the data value based on the actual measurement value (that is, the data value (signal intensity) obtained by subtracting the knock ground value). Is plotted on the vertical axis and displayed on the screen of the display device (Step 702), where the data value force based on the actual measurement value is accurately distributed in a normal logarithm. If so, this graph is almost identical to y = x. However, the graph obtained by actually plotting the measured values has slopes (a) and y-intercepts (b) other than “1”, and as the value of X decreases, Loss linearity.
[0072] し力しながら、このグラフにおいては、ほぼ直線と認められる部分が存在する(たとえ ば、 Xが正となる部分は直線となることが多い)。そこで、本実施の形態においては、 オペレータがグラフを参照して、入力装置を操作して、直線性を持っていると判断す る範囲を指定すると (ステップ 703)、指定された範囲の実測値を用いて、当該実測 値と理想値との間を表す 1次式力 たとえば、最小二乗法により求められる。求められ た 1次式「ax + b」において、傾き「a」が、変動の特性値「 σ」に対応し、 y切片「b」が、 中心的傾向の特性値「 」に対応する (ステップ 704)。 [0072] However, in this graph, there is a portion that is recognized as a substantially straight line (for example, a portion where X is positive is often a straight line). Therefore, in this embodiment, when the operator refers to the graph and operates the input device to specify a range that is determined to have linearity (step 703), the measured value of the specified range is measured. The first-order force between the measured value and the ideal value is calculated using, for example, the least square method. In the obtained linear expression “ax + b”, the slope “a” corresponds to the characteristic value “σ” of the fluctuation, and the y-intercept “b” corresponds to the characteristic value “” of the central tendency (step 704).
[0073] たとえば、処理装置 10の画像生成部 36が、求められた「a」および「b」を用いて、理 想値を横軸にとり、修正された実測値 z = (log (x- Ύ ) - μ ) / σを縦軸にとったダラ フを生成して、これを表示装置の画面上に表示しても良い。オペレータは、表示され たグラフを参照して、満足のいくものでなければ (ステップ 705でノー (No))、もとのグ ラフ中の範囲指定に戻り、ステップ 703以降の処理が再度実行される。 [0073] For example, the image generation unit 36 of the processing device 10 uses the obtained "a" and "b" to take the ideal value on the horizontal axis and the corrected actual measurement value z = (log ( x-- )-μ) / σ A vertical axis may be generated and displayed on the screen of the display device. If the operator is not satisfied with reference to the displayed graph (No in step 705), the operator returns to the range specification in the original graph, and the processing after step 703 is executed again. The
[0074] その一方、グラフが満足のいくものであれば (ステップ 705でイエス (Yes))、先に求 められた「 γ」がバックグラウンド値、切片「b」が「 」、傾き「a」が「 σ」として、 DNAチ ップを特定する情報と関連付けられて、結果記憶部 38に記憶される (ステップ 706)。 このようにして取得されたパラメータを用いて、 DNAチップ力も得られたデータ値 の それぞれについて、 [0074] On the other hand, if the graph is satisfactory (Yes in Step 705), the previously obtained “γ” is the background value, the intercept “b” is “”, and the slope “a” "Is associated with information specifying the DNA chip as" σ "and stored in the result storage unit 38 (step 706). Using the parameters obtained in this way, for each data value for which DNA chip strength was also obtained,
z = (log (x— y ) ~ μ ) / σ z = (log (x— y) ~ μ) / σ
という式を用いて、標準化することが可能となる。ムラ検出部 32は、算出されたパラメ 一タ「 Ύ」、「 ^」および「 σ」を用いて、 DNAチップのデータ値(シグナル強度)を標 準化し、標準化されたデータ値を、データバッファ 30に記憶する (ステップ 707)。 It is possible to standardize using the equation. The unevenness detection unit 32 standardizes the data value (signal intensity) of the DNA chip using the calculated parameters “Ύ”, “^”, and “σ”, and converts the standardized data value into the data buffer. Store in 30 (step 707).
[0075] 上述したような、適切なバックグラウンド値を算出して、ノイズの影響を排除し、かつ 、標準化のための中心的傾向の特性値および変動の特性値を、実測値をプロットし たグラフの直線部分力 求めることにより、よりロバストな標準化を実現することが可能 となる。
[0076] ムラ検出部 32は、各 DNAチップのそれぞれの変動の特性値 σを算出して、データ ノ ッファ 30に記憶する。これらが、それぞれの DNAチップのデータ値の標準偏差 σ ηとなる。 [0075] As described above, an appropriate background value was calculated to eliminate the influence of noise, and the characteristic value of the central tendency and the characteristic value of fluctuation for standardization were plotted with the actual measurement values. By obtaining the straight line partial force of the graph, it is possible to realize more robust standardization. The unevenness detection unit 32 calculates the characteristic value σ of each variation of each DNA chip and stores it in the data notifier 30. These become the standard deviation σ η of the data value of each DNA chip.
[0077] 次のステップ 310において、ムラ検出部 32は、データバッファ 30に記憶された、あ る DNAチップに関する標準化されたデータを読み出す (ステップ 311)。次いで、標 準化された、各小領域に含まれるスポットのシグナル強度の平均値 mi (i= 1, · · · , Μ)を算出する (ステップ 312)。これにより、 Μ個の平均値が得られる。或いは、小領 域の位置を、縦方向或いは横方向に 1スポット分 (或 、は数スポット分)移動させて、 移動された小領域の平均値 (移動平均)を求めるように構成しても良い。 次いで、ム ラ検出部 32は、求められた平均値/ z miの標準偏差 a msを、以下の式にしたがって 算出する (ステップ 313)。 [0077] In the next step 310, the unevenness detection unit 32 reads the standardized data relating to a certain DNA chip stored in the data buffer 30 (step 311). Next, the average value mi (i = 1,..., Μ) of the standardized signal intensity of the spots included in each small region is calculated (step 312). This gives an average value of Μ. Alternatively, the position of the small area may be moved by one spot (or several spots) in the vertical or horizontal direction, and the average value (moving average) of the moved small areas may be obtained. good. Next, the spot detecting unit 32 calculates the standard deviation a ms of the obtained average value / z mi according to the following formula (step 313).
[0078] σ ms2= [lZ (l— M) ] * Σ [ iu m— ( iu mの平均値)] 2 (i= l〜M) [0078] σ ms 2 = [lZ (l—M)] * Σ [ i um— (average of i um)] 2 (i = l to M)
= [1Z (1—M) ] * [∑ iu m 2—M ( iu mの平均値)2] = [1Z (1—M)] * [∑ i um 2 —M (average of i um) 2 ]
次いで、ムラ検出部 32は、ステップ 313にて算出した標準偏差 σ msが妥当である かを判断する (ステップ 320)。ここでは、実験者は、自由度 Mのカイ( X )二乗分布で 近似する有意差の基準を設定して、処理装置 10に入力しておく。たとえば、基準とし て、片側検定となる許容する確率 (たとえば、 5%)などを用いることができる。設定さ れた基準は、記憶装置 (たとえば、ハードディスク装置 24)に記憶しておく。ムラ検出 部 32は、記憶装置に記憶された基準を読み出し (ステップ 321)、設定された基準に したがって、たとえば、自由度 M、片側検定の基準値に相当する確率のときのカイ( % )二乗分布の有意水準(%2)を求める (ステップ 322)。次いで、ムラ検出部 32は、 σ msと % 2とを比較し、「 σ ms > % 2」である場合には (ステップ 323でイエス (Yes))、 ムラがあると判断し、上記原データ中にムラが存在することを示す値 (たとえば、フラ グ)を、原データ或いは標準化されたデータと関連付けて、たとえば、データバッファ 30に記憶する (ステップ 324)。その一方、ステップ 323でノー (No)と判断された場合 には、次の DNAチップに関する標準化されたデータについて処理が続けられる(ス テツプ 325参照)。 Next, the unevenness detection unit 32 determines whether or not the standard deviation σ ms calculated in step 313 is appropriate (step 320). Here, the experimenter sets a criterion for a significant difference approximated by a chi (X) square distribution with M degrees of freedom and inputs it to the processing device 10. For example, the acceptable probability (eg 5%) for a one-sided test can be used as a criterion. The set standard is stored in a storage device (for example, hard disk device 24). The unevenness detection unit 32 reads the reference stored in the storage device (step 321), and, for example, according to the set reference, for example, the degree of freedom M and the chi (%) square when the probability corresponds to the reference value of the one-sided test. Determine the significance level (% 2 ) of the distribution (step 322). Next, the unevenness detection unit 32 compares σ ms with% 2, and if “σ ms>% 2 ” (Yes in step 323), it determines that there is unevenness, and the original data A value (for example, a flag) indicating that unevenness is present therein is stored in, for example, the data buffer 30 in association with the original data or standardized data (step 324). On the other hand, if the answer is no in step 323, the process continues with the standardized data for the next DNA chip (see step 325).
[0079] このようにして、 DNAチップに関する原データにムラがある力否かを判断することが
できる。ムラがある場合のデータの補正にっ 、ては後述する。 [0079] In this way, it is possible to determine whether or not the original data related to the DNA chip has unevenness. it can. The correction of data when there is unevenness will be described later.
[0080] [第 2の手法に関する処理] [0080] [Processing for the second method]
次に、ムラの検出の第 2の手法について説明する。第 2の手法においては、第 1の 手法と同様に、シグナル強度の平均値/ z の標準偏差 σ msを算出するが、 σ msの 分布を正規分布で近似した上で、当該標準偏差 amsの妥当性が判断される。図 4 において、原データの標準化処理 (ステップ 400)および標準偏差 σ msの算出処理 (ステップ 410)は、それぞれ、図 3のステップ 300、 310と同様である。 Next, a second technique for detecting unevenness will be described. In the second method, similar to the first method, the standard deviation σ ms of the average value of signal intensity / z is calculated. After approximating the distribution of σ ms with a normal distribution, the standard deviation ams Validity is judged. In FIG. 4, the original data standardization process (step 400) and the standard deviation σ ms calculation process (step 410) are the same as steps 300 and 310 in FIG. 3, respectively.
[0081] 第 2の手法で利用されるパラメータは以下の通りである。 [0081] Parameters used in the second method are as follows.
[0082] E(ams):標準偏差 σ msの期待値 [0082] E (ams): Expected standard deviation σ ms
Δ σ σ :Ε ( σ ms)— σ ms (期待値 算出された測定値) Δ σ σ: Ε (σ ms) — σ ms (expected value calculated value)
σ σ ms: DNAチップのそれぞれの σ msの標準偏差 σ σ ms: Standard deviation of σ ms of each DNA chip
N:小領域に含まれるスポットの個数 N: Number of spots included in the small area
σ ρ: mRNA母集団の対数値の標準偏差 σ ρ: standard deviation of logarithm of mRNA population
第 2の手法では、標準偏差 σ msの期待値と算出された標準偏差 (測定値) σ msと の差異(Δ σ σ)が所定の基準値より大きいか否かを判断することで、ムラの有無を 検出している。 In the second method, unevenness is determined by determining whether or not the difference (Δ σ σ) between the expected value of the standard deviation σ ms and the calculated standard deviation (measured value) σ ms is greater than a predetermined reference value. The presence or absence of is detected.
[0083] 算出された標準偏差 σ msの妥当性の判断 (ステップ 420)において、ムラ検出部 3 2は、標準偏差 σ msの期待値 Ε ( σ ms)を算出する (ステップ 421)。期待値 E ( σ ms )は、極限定理より、母集団の対数値の標準偏差 σ ρおよびスポットの個数 Νを用い て、以下の式にしたがって算出することができる。 In the determination of the validity of the calculated standard deviation σ ms (step 420), the unevenness detection unit 32 calculates an expected value Ε (σ ms) of the standard deviation σ ms (step 421). The expected value E (σ ms) can be calculated according to the following formula using the standard deviation σ ρ of the population logarithm and the number of spots よ り by the limit theorem.
[0084] Ε ( σ ms) = σ ρ/Ν1/2 [0084] Ε (σ ms) = σ ρ / Ν 1/2
次いで、ムラ検出部 32は、 Δ σ σ (=Ε( σ ms)— σ ms)を算出する (ステップ 422 )。その後、ムラ検出部 32は、 σ amsの期待値 Ε(σ σ ms)を、以下の式にしたがつ て算出する (ステップ 423)。 Next, the unevenness detection unit 32 calculates Δσσ (= Ε (σms) −σms) (step 422). Thereafter, the unevenness detection unit 32 calculates an expected value Ε (σ σ ms) of σ ams according to the following equation (step 423).
[0085] E ( σ σ ms) = σ ρ/Ν1/2/ π 1/4 [0085] E (σ σ ms) = σ ρ / Ν 1/2 / π 1/4
ムラ検出部 32は、ステップ 422で算出された Δ σ σと、所定の基準値、たとえば、 2 *Ε(σ ams)とを比較する。「Δ σ σ >2*Ε(σ σ ms)」である場合には(ステップ 4 24でイエス (Yes))、ムラがあると判断し、上記原データ中にムラが存在することを示す
値 (たとえば、フラグ)を、標準化されたデータ或いは原データと関連付けて、たとえ ば、データバッファ 30に記憶する(ステップ 425)。その一方、ステップ 425でノー (No) と判断された場合には、次の DNAチップに関する標準化された原データについて処 理が続けられる (ステップ 426参照)。 The unevenness detection unit 32 compares Δσσ calculated in step 422 with a predetermined reference value, for example, 2 * Ε (σams). If “Δ σ σ> 2 * Ε (σ σ ms)” (Yes in step 424), it is determined that there is unevenness and indicates that there is unevenness in the original data. The value (eg, flag) is stored in the data buffer 30 in association with the standardized data or the original data (step 425). On the other hand, if the answer is no in step 425, the process continues with the standardized original data for the next DNA chip (see step 426).
[0086] [第 3の手法の原理] [0086] [Principle of the third method]
次に、ムラの検出の第 3の手法について説明する。 DNAチップの原データを、図 6 および図 7に示す処理を施すことにより標準化すると、対数正規分布し、そのときの標 準偏差が実験間で一定であることが本発明者により見出されている (特許文献 1およ び非特許文献 3参照)。あらゆる状態の細胞で標準偏差は一定'固有であり、一つの 実験の大部分が同じ組織 (特定の細胞を特定の割合で含んでいて、その組成が変 化しない)で行われるため、上記標準偏差は一定になると予想される。 Next, a third technique for detecting unevenness will be described. When the original data of the DNA chip is standardized by applying the processing shown in FIGS. 6 and 7, the present inventors have found that the logarithmic normal distribution and the standard deviation at that time are constant between experiments. (See Patent Document 1 and Non-Patent Document 3). The standard deviation is constant and unique for cells in all states, and most of one experiment is done in the same tissue (which contains a specific percentage of cells and its composition does not change). The deviation is expected to be constant.
[0087] ところが、ハイブリダィゼーシヨンが不均一で、そのためチップ上でデータにムラが 生じると、分布にひずみが生じる。たとえば、チップ上の半分の面積で、シグナル強 度が半減するようなムラが生じれば、値の分布は 2つの山をもつバイ'モーダルな形 状となると考えられる。その結果、算出される標準偏差はより大きくなる。 [0087] However, the hybridization is non-uniform, so if the data is uneven on the chip, the distribution will be distorted. For example, if there is unevenness that halves the signal intensity in half the area on the chip, the distribution of values is considered to be bimodal with two peaks. As a result, the calculated standard deviation becomes larger.
[0088] 期待値 (ほかのチップのデータの標準偏差のロバストな平均)よりも大きな標準偏差 が算出されたときに、それが偶然に生じたもの力 或いは、ムラによるものかを判断す る目安として、パラメトリックな検定を利用することができる。すなわち、分散の分布が 予測できるとき、算出された分散の値が、どのくらいの確率で生じるものであるかを算 出することができる。その確率が、予め決めておいた確率を下回ったときに、その値 は偶然生じたものではなぐムラによって生じたものであると判断する。 [0088] When a standard deviation larger than the expected value (a robust average of the standard deviations of data from other chips) is calculated, it is a guideline for judging whether it is due to accidental force or unevenness. As a parametric test can be used. That is, when the distribution of variance can be predicted, it is possible to calculate the probability that the calculated variance value will occur. When the probability falls below a predetermined probability, it is judged that the value is caused by unevenness rather than by chance.
[0089] [第 3の手法に関する処理] [0089] [Process for third method]
第 3の手法で用いられるパラメータは以下の通りである。 The parameters used in the third method are as follows.
[0090] σ n: DNAチップごとのデータ値の標準偏差、これは、第 2の手法における σ ρに相 当する。 [0090] σ n: Standard deviation of data value for each DNA chip, which corresponds to σ ρ in the second method.
[0091] Med σ:実験における標準偏差の中央値 [0091] Med σ: Median standard deviation in the experiment
Ε ( σ η): σ ηの期待値、本手法では、これは、 Med σと一致すると考える。 Ε (σ η): Expected value of σ η, which is considered to be the same as Med σ in this method.
[0092] σ σ η: σ ηのチップ間の標準偏差
E ( σ σ η) : σ σ ηの期待値 [0092] σ σ η: Standard deviation between chips of σ η E (σ σ η): Expected value of σ σ η
NC: DN Aチップのスポットの個数 NC: Number of spots on DN A chip
図 5は、第 3の手法に基づいて、ムラ検出部 32にて実行される処理を示すフローチ ヤートである。図 5に示すように、まず、ムラ検出部 32は、データバッファ 30から、処理 対象となる DNAチップの原データを読み出す (ステップ 501)。次いで、ムラ検出部 3 2は、原データを標準化する (ステップ 502)。標準化は、図 6および図 7に示す処理 により実現できる。 FIG. 5 is a flowchart showing processing executed by the unevenness detection unit 32 based on the third method. As shown in FIG. 5, first, the unevenness detection unit 32 reads the original data of the DNA chip to be processed from the data buffer 30 (step 501). Next, the unevenness detection unit 32 standardizes the original data (step 502). Standardization can be realized by the processes shown in Figs.
[0093] 続いて、ムラ検出部 32は、求められたすべての標準偏差 σ ηの中央値 Med σを求 める(ステップ 503)。 Subsequently, the unevenness detection unit 32 obtains a median value Med σ of all the obtained standard deviations σ η (step 503).
[0094] このようにして、標準偏差 σ ηや中央値 Med σが求められた後に、 DNAチップごと に得られた標準偏差 σ ηが妥当なものか否かが判断される。第 3の手法においては、 σ ηの分布を正規分布で近似する。その平均の期待値 Ε ( σ η)力 Med σと等 U、と 考える。また、平均値の標準偏差の期待値 Ε ( σ σ η)は以下の式で求められる。 Thus, after the standard deviation σ η and the median value Med σ are obtained, it is determined whether or not the standard deviation σ η obtained for each DNA chip is appropriate. In the third method, the distribution of σ η is approximated by a normal distribution. The average expected value Ε (σ η) force Med σ is considered equal to U. Also, the expected value Ε (σ σ η) of the standard deviation of the average value can be obtained by the following formula.
[0095] Ε ( σ σ η) = Med σ /NC1/2/ π 1/4 [0095] Ε (σ σ η) = Med σ / NC 1/2 / π 1/4
ムラ検出部 32は、上記式を利用して標準偏差の期待値 Ε ( σ σ η)を求め(ステップ 504)、その後、それぞれの DNAチップについて、 The unevenness detection unit 32 obtains an expected value Ε (σ σ η) of the standard deviation using the above formula (step 504), and thereafter, for each DNA chip,
Δ σ η= σ n— Med σ Δ σ η = σ n— Med σ
を算出する(ステップ 505)。ムラ検出部 32は、 DNAチップの Δ σ ηと、所定の値 (本 実施の形態では、 2 * Ε ( σ σ η) )とを比較し、「Δ σ η> 2 * Ε ( σ σ η)」である場合 ( ステップ 506でイエス (Yes))には、ムラがあると判断する。この場合、ムラ検出部 32は 、 DNAチップの原データ中にムラがあることを示す値 (たとえばフラグ)を、原データ と関連付けて、たとえばデータバッファ 30に記憶する (ステップ 507)。その一方、ステ ップ 506でノー (No)と判断された場合には、次の DNAチップについて判断するため( ステップ 508参照)、ステップ 505に戻る。 Is calculated (step 505). The unevenness detection unit 32 compares Δ σ η of the DNA chip with a predetermined value (2 * Ε (σ σ η) in this embodiment), and determines that `` Δ σ η> 2 * Ε (σ σ η ) ”(Yes in step 506), it is determined that there is unevenness. In this case, the unevenness detection unit 32 stores a value (for example, a flag) indicating that there is unevenness in the original data of the DNA chip in association with the original data, for example, in the data buffer 30 (step 507). On the other hand, if NO is determined in step 506, the process returns to step 505 to determine the next DNA chip (see step 508).
[0096] 本実施の形態では、ムラの有無を判断する所定の値として、 2 * E ( σ σ n)が設定 される。この値を使用すると、正規分布における「2 σ」と同様に、値の大きい側およ び小さい側で、それぞれ、 2. 2パーセントの確率でしか生じない程度に外れたことに なる。このため、 100枚の DNAチップにおいて、 5パーセント程度の DNAチップにつ
いて、ムラがあるとされることが予想できる。 In the present embodiment, 2 * E (σ σ n) is set as a predetermined value for determining the presence or absence of unevenness. When this value is used, as with “2σ” in the normal distribution, the larger and smaller values are off to a point that only occurs with a probability of 2.2 percent. For this reason, about 5 percent of 100 DNA chips are connected. And can be expected to be uneven.
[0097] その一方、所定の値として、 3 * Ε ( σ σ η)が設定されると、値の大きい側および小 さい側で、それぞれ 0. 1パーセント程度になる。そこで、この所定の値は、オペレータ が所望のように設定できるようにしておくのが望ましい。 On the other hand, when 3 * Ε (σ σ η) is set as the predetermined value, it becomes about 0.1 percent on the large value side and the small value side, respectively. Therefore, it is desirable that the predetermined value can be set as desired by the operator.
[0098] [第 4の手法に関する処理(図 24および図 25) ] [0098] [Process for the fourth method (Figure 24 and Figure 25)]
また、本実施の形態においては、ノ ックグラウンドの読み取り値、或いは、そのため に用意した測定値が正規分布することを利用して、よごれのあるデータを探すことが できる。 Further, in the present embodiment, it is possible to search for dirty data by using the normal distribution of the reading value of the knock ground or the measurement value prepared therefor.
[0099] そのために、たとえば、以下のような測定値が用意される(図 24および図 25参照)。 [0099] For this purpose, for example, the following measurement values are prepared (see FIG. 24 and FIG. 25).
[0100] スポットが正方行列であるときに、スポット間の斜めの位置に、おなじピッチの正方 行列で入り込む場所。 [0100] A place where a square matrix with the same pitch is inserted at an oblique position between spots when the spot is a square matrix.
[0101] 十分にスポットとの距離をとつた、スポットを囲む円周。 [0101] Circumference that surrounds the spot with sufficient distance from the spot.
[0102] また、安全水準を設けるときに、通常はっかわれる 2 σを使わず、スポットの数から 適正に割り出して使うとよい。 次いで、正規性を確認しながら、外れ値を探し、分布 力 外れるか或いは従うかを、視覚化して判断する。ここでは、 probability plotや QQplotが利用される。その際、値のロバストな標準化方法として、値を昇順でソート して、低い方力も数えて順移点を見出しても良い。また、上記判断ではなぐその判 断で棄却されたスポットと、物理的に近い場所にあるスポットのデータは、同じよごれ の影響を受けていることが多い。それらデータを棄却するために、切りしろ'あるいは マージンを設ける。具体的には、上記判断で棄却されたスポットからの一定の距離、 たとえば 2スポットの距離の内側にあるスポットのデータを棄却する。 [0102] In addition, when setting the safety level, it is better to use the 2 σ, which is normally used, by properly calculating from the number of spots. Next, while checking normality, look for outliers and visualize whether it is out of distribution or following. Here, probability plot and QQplot are used. At that time, as a robust standardization method of values, the values may be sorted in ascending order, and a low transition force may be counted to find a transition point. In addition, spot data rejected by the above judgment and spot data that is physically close are often affected by the same dirt. In order to reject the data, set a margin or a margin. Specifically, the spot data within a certain distance from the spot rejected in the above judgment, for example, the distance between two spots, is rejected.
[0103] [現状の手法およびその問題点] [0103] [Current methods and their problems]
実験にゴミゃホコリはっきものであり、それに影響されたデータを解析の早い段階で 削除しないと、データ解析の作業に支障が生ずる。このため、従来、データそのもの のなかから、上端と下端を切るような手法がとられていた。もちろんデータには強いも のと弱いものがあるので、この手法は無意味である。 The dust in the experiment is dusty, and if the affected data is not deleted at an early stage of analysis, it will hinder the data analysis work. For this reason, conventionally, a method has been adopted in which the top and bottom edges are cut from the data itself. Of course, this method is meaningless because there are strong and weak data.
[0104] 或 、は、何回かの実験データのなかから、大きく変わったものを棄却する手法も用 いられている。し力しながら、この場合には、実験を何度も行わないと計算できないと
いう問題がある。さらにはこの手法には、生物学的な意味の大きい、大きく発現の変 化したクローンを棄却してしまう可能性が大きぐそうしたクローンを探す努力を無に するという問題点がある。 [0104] Alternatively, a method of rejecting a large change from experimental data of several times is also used. However, in this case, it can be calculated only after many experiments. There is a problem. Furthermore, this approach has the problem of eliminating the effort to find such clones that have a high biological potential and are highly likely to reject clones with greatly altered expression.
[0105] さら〖こは、一般的には、データを視覚化し、画像を目で見て探すことも行われる。こ の場合、はっきりしたゴミは見つけられる力 判断に迷うことが多いだけでなぐ見過ご すことも多い。客観的な基準を用意できないからだ。 [0105] Sarako generally visualizes data and looks for images visually. In this case, it is often the case that clear garbage is often overlooked. This is because an objective standard cannot be prepared.
[0106] [よごれ発見の原理] [0106] [Dirt-finding principle]
本実施の形態では、 V、わゆる「バックグラウンド測定値」の分布力もよごれを判断す る。ここにいうバックグラウンド測定値とは、図 6、 7における 3パラメータ正規分布にお けるバックグラウンド γではなぐデータ値力も測定するもののことをいう。 In this embodiment, V, a so-called “background measurement value” distribution force is also judged as dirty. The background measurement value here refers to the measurement of the data value force other than the background γ in the three-parameter normal distribution in Figs.
[0107] たとえば、たとえばアジレント社の DNAチップの場合には、 ポットを通らな い場所が、クッキーカッターというアルゴリズムを用いて切り取られている。 DNAのス ポットとスポットの間の、どこか絶対にスポットと重ならない場所を選んで、ノ ックグラウ ンド測定値が測定される。斜め方向にとなりあったスポット間の、ちょうど中心であれ ば、どのスポットにも重ならない。その結果、通常、スポットの数と同じだけのバックグ ラウンド測定値が取得される。 [0107] For example, in the case of an Agilent DNA chip, for example, a portion that does not pass through the pot is cut out using an algorithm called a cookie cutter. Knock ground measurements are taken by choosing a spot between the DNA spot and the spot that does not overlap the spot. It does not overlap any spot as long as it is just in the center between the spots that are diagonal. As a result, there are usually as many background measurements as the number of spots.
[0108] これら実測されたバックグラウンド群は、ほとんどおなじ値をとる。しかし、そこに光る ゴミがあれば、当然そのゴミによる値をひろって、その測定値だけ値が上がる。ノ ック グラウンドは正規分布するので、値が異常に上昇したスポットは、その分布力 外れ るということで見つけ出すことができる。 [0108] These actually measured background groups have almost the same values. However, if there is shining trash there, naturally the value from that trash is increased and the value increases by that measured value. Since the knock ground is normally distributed, a spot with an abnormally high value can be found by deviating from its distribution power.
[0109] これはノイズ的成分であると考えられる。ノ ックはいくつものピクセルで構成され、そ れぞれが読み取り装置やハイブリダィゼーシヨンから影響をうけ、それはランダム性を もっと考えられる。そこで、ノ ックグラウンド測定値は、それらランダムな影響の総和で あるとみなすことができる。ランダム値の和は正規分布する。実際、ノ ックグラウンド値 は概略で正規分布する。 [0109] This is considered to be a noise component. Knocks are made up of a number of pixels, each of which is influenced by the reader and the hybridization, which can be considered more random. Therefore, the knock ground measurement can be regarded as the sum of these random effects. The sum of random values is normally distributed. In fact, the knock ground value is roughly normal.
[0110] DNAがないところに付着したゴミや、ハイブリダィゼーシヨンの洗い液がのこったも のなどは、そのランダムネスを乱し、より高い値への傾向を付与する。それが正規分 布を乱す。そのようにして分布を外れるもの、或いは、分布を乱しているものとして、ゴ
ミを発見することができる。 [0110] Dust adhering to a place where there is no DNA, or a hybridization solution remaining on the surface disturbs the randomness and gives a tendency to higher values. That disturbs the regular distribution. As something that deviates from the distribution or disturbs the distribution, You can discover Mi.
[0111] [実際の手法] [0111] [Actual method]
第 1の手法は、スポット数力 安全水準を出しておくことである。よくこうした水準には 、 2 σが用いられる。しかし、この値では棄却するデータが不必要に多くなりすぎる。 本来、ノ ックグラウンド値は正規分布するので、ある値が発生する確率は予測できる 。たとえば、 2万データ値を有する DNAチップのときに、 10スポットの期待値でデー タを棄却したいときは、 f 1を正規分布の確率密度関数の逆関数とすると、「f 1 (1 0Z20000)」で算出される。 The first method is to create a safety level for the number of spots. 2 σ is often used for these levels. However, this value causes too much data to be rejected. Originally, the knockground value is normally distributed, so the probability that a certain value will occur can be predicted. For example, for a DNA chip with 20,000 data values, if you want to reject the data with the expected value of 10 spots, if f 1 is the inverse function of the probability density function of the normal distribution, `` f 1 (1 0Z20000) Is calculated.
[0112] この値を超えるものを棄却するようにすれば、やみくもにデータを失うことがな 、。実 際、 2 σで棄却されたデータには、許容できるだけの再現性がある。 [0112] If you try to reject anything that exceeds this value, you won't lose data. In fact, data rejected at 2σ has acceptable reproducibility.
[0113] 第 2の手法は、 probability plotを利用して厳密に分布の正規性を確認すること である(図 25参照)。 [0113] The second method is to strictly check the normality of the distribution using probability plots (see Fig. 25).
[0114] 棄却されるデータをトライアル 'インプルーブ法でみつける。仮にこれを X個とする。 [0114] Find the rejected data using the trial 'improve method. Let this be X.
[0115] (測定したデータ数- X) )個のデータについて、 z値として予想される理論値を用意 する。次いで、ノ ック値データをロバストな方法で標準化し、ソートする。 [0115] For (data measured-X)) data, prepare the theoretical value expected as the z value. The knock value data is then standardized and sorted in a robust manner.
[0116] データをソートして、下力 数えて(測定したデータ数 x)Z2番目の値を とする[0116] Sort the data, count downforce (number of measured data x) and let Z2 value be
。 IQRないし MADSを、同じように下から数えて行う。 . Do IQR or MADS from the bottom in the same way.
[0117] アウトライア一は常に値が高くなるので、ロバストなのは低い方力も数えた値になる 力 、理論値のゼロと標準化したデータのゼロ点をあわせて、 normal probability plotをつくる。これが十分な直線性を有するか否かを判断し、必要に応じて、 Xを変化 させる。 [0117] Since the value of the outlier is always high, the robust is the force that counts the low direction force. The normal probability plot is made by combining the zero of the theoretical value and the zero point of the standardized data. Judge whether this has sufficient linearity, and change X if necessary.
[0118] 分布を確認し、一定の大きさを外れた部分を棄却する。 [0118] Check the distribution, and reject the part that deviates from a certain size.
[0119] [切りしろ] [0119] [Cut off]
ノックグラウンド値の分布から、外れ値を判断するときに、その有意水準の決定は、 パラメトリック法の定法として、任意性がある。一般的に、その有意水準を高く設定す れば棄却されるデータが減り、低く設定すれば棄却されるデータが増える。しかし、高 い棄却率は、より安全であることを必ずしも意味しない。水準を低くすると、より大量の データが棄却される力 再現性のないデータが効率よく減っていかない。これは、ノ
ックグラウンドに影響しないように、スポットに影響するケースがある力もだと考えられ る。この場合、むしろ、ノ ックグラウンドが高いスポット集団の外側の、ノ ック値としては あまり問題が見られないような部分に、再現性の低いデータがあることが多い。こうし た場合は、近傍のスポットに棄却されるものがあるかどうかが問題になる。 The determination of the significance level when judging an outlier from the distribution of knock ground values is arbitrary as a parametric method. In general, if the significance level is set high, the number of rejected data decreases, and if it is set low, the number of rejected data increases. However, a high rejection rate does not necessarily mean it is safer. If the level is lowered, the power to reject a larger amount of data is not effectively reduced. This is In order not to affect the ground, it is also considered that there is a force that affects the spot. In this case, rather, there are many data with low reproducibility outside the spot population with a high knock ground, where there are few problems with knock values. In this case, the problem is whether there are any rejected spots in the vicinity.
[0120] そこで、バックグラウンドが高 、まとまりを見つけ出し、そのまとまりに接する、まとまり の外側のデータを棄却すると、再現性のないデータを避けることができる(図 26参照 [0120] Therefore, by finding a cluster with a high background and rejecting data outside the cluster that touches the cluster, non-reproducible data can be avoided (see Figure 26).
) o ) o
[0121] このように、第 1の手法から第 3の手法により、 DNAチップにムラが生じている力否 かを検出することができる。第 4の手法はもっぱら、よごれが原因でおきるムラを、その よごれの箇所とともに検出する方法である。そこで問題は、該当する箇所のデータを 全て棄却することで解決される。 [0121] As described above, it is possible to detect whether or not the DNA chip is uneven by the first method to the third method. The fourth method is exclusively a method of detecting unevenness caused by dirt along with the spot of the dirt. Therefore, the problem can be solved by rejecting all the data at the relevant location.
[0122] 次に、よごれ以外のムラの態様およびムラの位置の特定、および、態様および位置 が特定された場合の対処方法 (補正方法)につ 、て説明する。 [0122] Next, description will be given of how to specify the form of unevenness other than dirt and the position of unevenness, and the coping method (correction method) when the form and position are specified.
[0123] [グラデーションをもつムラの場合] [0123] [In the case of unevenness with gradation]
DNAチップにおいて、一端力もグラデーションをもったムラが生じる場合がある。こ れは、たとえば、蛍光色素の退色などが原因であることが知られている。また、 DNA チップの物理的な精度、たとえば、カバーグラスの湾曲などによっても、グラデーショ ンをもったムラが生じ得る。こういったムラが生じている DNAチップについて、小領域 を、グラデーションに沿うような形状 (たとえば、細長い形状)で設定する。これにより、 小領域ごとに数値化されたムラを、「平面の連続した曲がり」或いは「曲面」として捉え ることができる。この曲面を表わす方程式を生成し、その逆関数を求めることでムラを 補正することが可能となる(図 18および図 19参照)。 In the DNA chip, there may be unevenness in which the force also has gradation. This is known to be caused by, for example, fading of fluorescent dyes. In addition, due to the physical accuracy of the DNA chip, such as the curvature of the cover glass, unevenness with a gradient can also occur. For a DNA chip with such unevenness, set a small area in a shape that conforms to the gradation (for example, an elongated shape). As a result, it is possible to grasp unevenness quantified for each small area as “continuous bending of a plane” or “curved surface”. It is possible to correct the unevenness by generating an equation representing this curved surface and obtaining its inverse function (see FIGS. 18 and 19).
[0124] グラデーションを数値ィ匕するために、ある小領域における代表値を見つける必要が ある。小領域の形状は、そのグラデーションに沿っているのが望ましい。そうでなけれ ば、グラデーションを平均化してしまう。領域をより小さくすることによって、平均化の 問題は解消されるが、その代わり、偶然によるゆらぎに影響されるおそれが大きくなる 。このため、できるだけ大きな小領域を設定するのが望ましぐまた、その形状は重要 である。
[0125] 理想的には、小領域は、その内部に同じ傾向のデータをより多く取り込んでいるよう な形状であるのが望ましぐまた、その形状が DNAチップの位置の関数で表わされる のが望ましい。たとえば、位置の関数を複数用意しておき、用意された複数の関数の 候補から適切なものを選択する。また、その関数のパラメータをチューニングする。そ のための指標として、小領域内のデータ値の標準偏差を利用することができる。標準 偏差が傾向として最も小さくなるような形状が、最も同じ傾向のデータを多く含むよう な囲い方であるということができる。 [0124] In order to enter a numerical value for gradation, it is necessary to find a representative value in a small area. It is desirable that the shape of the small area follows the gradation. Otherwise, it will average the gradation. Making the area smaller eliminates the averaging problem, but instead increases the risk of being affected by accidental fluctuations. For this reason, it is desirable to set as small a region as possible, and the shape is important. [0125] Ideally, it would be desirable for the small region to have a shape that incorporates more data of the same tendency inside, and the shape is expressed as a function of the position of the DNA chip. Is desirable. For example, a plurality of position functions are prepared, and an appropriate one is selected from a plurality of prepared function candidates. Also tune the parameters of the function. The standard deviation of data values in a small area can be used as an index for this purpose. It can be said that the shape in which the standard deviation is the smallest in trend is the enclosure that contains the most data with the same trend.
[0126] [グラデーションをもつムラの検出、補正処理 (ピクセルのデータ値を利用) ] [0126] [Detection and correction of unevenness with gradation (using pixel data values)]
以下、具体的にグラデーションをもつムラの検出およびその場合の補正処理につ いて説明する。原データとして、数ピクセル X数ピクセル(たとえば、 4ピクセル X 4ピ クセル、 5ピクセル X 5ピクセルなど)により 1つのスポットの値が構成されるような、ピク セルのデータが取得される場合に、ピクセルごとのデータ値を利用した処理が可能 である。 Hereinafter, detection of unevenness with gradation and correction processing in that case will be described. When the pixel data is acquired as raw data, the value of one spot is composed of several pixels by several pixels (for example, 4 pixels x 4 pixels, 5 pixels x 5 pixels, etc.) Processing using data values for each pixel is possible.
[0127] ピクセルのデータ値を利用する処理において使用されるパラメータは以下の通りで ある。なお、以下の説明において、「空白」とは、データ値自体が欠落していることを 意味する。 [0127] The parameters used in the processing using the pixel data value are as follows. In the following description, “blank” means that the data value itself is missing.
[0128] NN :小領域におけるピクセル数 [0128] NN: Number of pixels in the small area
ここに、小領域においては、最小でも 9つのスポットを含むのが望ましい。 Here, in a small area, it is desirable to include at least nine spots.
[0129] μ NN :小領域中のピクセルのうち、その値が空白であるものを除いたデータ値の 中央値 [0129] μ NN: Median value of data values excluding pixels in the small area whose value is blank
ここでは、小領域が、最小でも 9以上の空白でないピクセルを含む場合にのみ算出 される。空白でないピクセルの数が 9に満たない場合には、当該小領域に隣接する 全ての小区間の μ NNの平均値が利用される。 Here, it is calculated only when the small area contains at least 9 non-blank pixels. If the number of non-blank pixels is less than 9, the average value of μ NN of all small sections adjacent to the small area is used.
[0130] σ NN :小領域中のピクセルのうち、その値が空白であるものを除いたデータ値の 標準偏差 [0130] σ NN: Standard deviation of the data value excluding pixels in the small area whose value is blank
ここでも、小領域が、最小でも 9以上の空白でないピクセルを含む場合にのみ算出 される。空白でないピクセルの数が 9に満たない場合には、 σ ΝΝは空白として扱う。 Again, this is only calculated if the small area contains at least 9 non-blank pixels. If the number of non-blank pixels is less than 9, σ ΝΝ is treated as blank.
[0131] Med a NN :空白と扱われた σ ΝΝを除く σ ΝΝの中央値
図 8に示すように、まず、ムラ検出部 32は、ピクセルのデータ値力 なる原データを データバッファ 30から読み出す (ステップ 801)。ムラ検出部 32は、原データにおい て、スポットに相当するピクセルのデータ値のみをそのままに維持し、残りのピクセル については、データ値を空白にする(ステップ 802)。その後、ピクセルのデータ値を 標準化する (ステップ 803)。標準化は、図 6および図 7を参照して説明したものと同 様である。ピクセルのデータ値は、概ね、上述した 3パラメータ対数正規分布すること が見込まれる。 [0131] Med a NN: Median of σ 除 く excluding σ 扱 わ treated as blank As shown in FIG. 8, first, the unevenness detector 32 reads the original data as the data value of the pixel from the data buffer 30 (step 801). The unevenness detection unit 32 maintains only the data value of the pixel corresponding to the spot in the original data, and leaves the data value blank for the remaining pixels (step 802). Then, the pixel data value is standardized (step 803). Standardization is similar to that described with reference to Figs. Pixel data values are generally expected to have the three-parameter lognormal distribution described above.
[0132] オペレータは、たとえば、処理装置 10の表示装置 16の画面上に表示された小領 域の候補から、所望の形状を有するものを選択する (ステップ 804)。この小領域候補 の形状は、矩形、方形などが考えられる。また、そのサイズについては、オペレータの ノ ラメータ設定により自由に変更できるのが望ましい。 The operator selects, for example, one having a desired shape from the small region candidates displayed on the screen of the display device 16 of the processing device 10 (step 804). The shape of this small region candidate may be a rectangle or a rectangle. It is desirable that the size can be changed freely according to operator parameter settings.
[0133] たとえば、処理装置 10の表示装置 16の画面上に、ピクセルのデータ値を、色彩の 変化を利用して表示すれば、オペレータは、色彩の変化を参照しつつ、小領域候補 の形状としてふさわしいと思われるものを選択することができる。さらに、小領域候補 を幾分力傾斜させて DNAチップを覆うように配置することも可能である。オペレータ は、小領域候補の向き力 グラデーションの方向(濃淡が現れる方向の垂直方向)に 沿っており、それにより、小領域内のピクセルが一定のデータ値を保つように、小領 域候補の形状および向きを決定するのが望ましい。このような関数については後に 詳述する。 [0133] For example, if the pixel data value is displayed on the screen of the display device 16 of the processing device 10 by using the change in color, the operator can refer to the change in color and the shape of the small region candidate. You can choose what you think is appropriate. Furthermore, the small region candidates can be arranged so as to cover the DNA chip with a slight force inclination. The operator is in the direction of the gradient of the small area candidate (along the direction perpendicular to the direction in which the shading appears), so that the pixels in the small area maintain a constant data value. It is desirable to determine the orientation. Such functions will be described in detail later.
[0134] ムラ検出部 32は、オペレータの設定した形状、サイズおよび向きの小領域候補で、 DNAチップを隙間なく覆うように、各小領域候補に属するピクセルを特定する (ステ ップ 805)。次いで、ムラ検出部 32は、各小領域候補について、標準化したピクセル のデータ値の標準偏差 σ ΝΝを算出する (ステップ 806)。なお、前述したように、小 領域候補が、最小でも 9以上の空白でないピクセルを含む場合にのみ、 σ ΝΝが算 出される。空白でないピクセルの数が 9に満たない場合には、当該小領域候補に隣 接する全ての小領域候補の μ ΝΝの平均値が利用される。 [0134] The unevenness detection unit 32 identifies pixels belonging to each small region candidate so as to cover the DNA chip with no gaps with the small region candidate having the shape, size, and orientation set by the operator (step 805). Next, the unevenness detection unit 32 calculates the standard deviation σ の of the standardized pixel data value for each small region candidate (step 806). As described above, σ ΝΝ is calculated only when the small region candidate includes at least 9 non-blank pixels. If the number of non-blank pixels is less than 9, the average value of μ の of all small region candidates adjacent to the small region candidate is used.
[0135] 全ての小領域候補に関する標準偏差 σ ΝΝが算出されると、その中央値 Med σ Ν Νが算出される(ステップ 807)。ステップ 804〜807の処理力 オペレータの所望な
だけ繰り返される (ステップ 808)。オペレータは、種々の形状、サイズ或いは向きの 小領域候補を設定して、それぞれの小領域候補に関する中央値 Med σ ΝΝを取得 する。 [0135] When the standard deviation σ に 関 す る for all the small region candidates is calculated, the median value Med σ Ν 算出 is calculated (step 807). Processing power of steps 804 to 807 Is repeated only (step 808). The operator sets small area candidates of various shapes, sizes, or orientations, and obtains the median value Med σ に 関 す る for each small area candidate.
[0136] ムラ検出部 32は、それぞれの小領域候補に関する中央値 Med σ ΝΝを比較して、 最も Med σ ΝΝが小さくなるような小領域候補を特定し (ステップ 809)、その形状、サ ィズおよび向きを、結果記憶部 38に記憶する(ステップ 810)。 [0136] The unevenness detection unit 32 compares the median values Med σ に 関 す る with respect to the respective small region candidates, identifies the small region candidate with the smallest Med σ ((step 809), and determines its shape and size. The direction and direction are stored in the result storage unit 38 (step 810).
[0137] [グラデーションをもつムラの検出、補正処理 (スポットのデータ値を利用)] [0137] [Detection and correction of unevenness with gradation (using spot data values)]
原データとして、スポットごとのシグナル強度を示すデータが取得される場合には、 スポットを単位として処理が進められる。このようなデータにおいて、スポットに相当す るデータ値として、シグナル強度に相当する値が設定され、 DNAチップの他のスぺ ースに相当する部分のデータ値は空白になっていると考える。この場合に、処理にお いて使用されるパラメータは以下の通りである。 When the data indicating the signal intensity for each spot is acquired as the original data, the processing proceeds in units of spots. In such data, the value corresponding to the signal intensity is set as the data value corresponding to the spot, and the data value corresponding to the other space of the DNA chip is blank. In this case, the parameters used in the processing are as follows.
[0138] ND :小領域におけるスポット数 [0138] ND: Number of spots in small area
ここに、小領域においては、最小でも 9つのスポットを含むのが望ましい。 Here, in a small area, it is desirable to include at least nine spots.
[0139] μ ND :小領域中のスポットのデータ値のうち、空白であるものを除いたデータ値の 中央値 [0139] μ ND: Median value of the data values of the spot data values in the small area, excluding those that are blank
ここでは、小領域が、最小でも 9以上の空白でないデータ値を含む場合にのみ算出 される。空白でないデータ値の数が 9に満たない場合には、当該小領域に隣接する 全ての小区間の μ NDの平均値が利用される。 Here, it is calculated only when the small area contains at least 9 non-blank data values. If the number of non-blank data values is less than 9, the average value of μ ND of all small sections adjacent to the small area is used.
[0140] σ ND :小領域中のデータ値のうち、空白であるものを除いたデータ値の標準偏差 ここでも、小領域が、最小でも 9以上の空白でないデータ値を含む場合にのみ算出 される。空白でないデータ値の数が 9に満たない場合には、 σ Νϋは空白として扱う。 [0140] σ ND: Standard deviation of data values excluding blank data values in the small area Again, this is calculated only when the small area contains at least 9 non-blank data values. The If the number of non-blank data values is less than 9, σ Νϋ is treated as blank.
[0141] Med σ ND:空白と扱われた σ ΝΝを除く σ NDの中央値 [0141] Med σ ND: Median of σ ND excluding σ れ treated as blank
図 9に示すように、まず、ムラ検出部 32は、原データのデータ値をデータバッファ 30 力も読み出す (ステップ 901)。ムラ検出部 32は、原データのデータ値を標準化する( ステップ 902)。標準化は、図 6および図 7を参照して説明したものと同様である。これ により、データ値は、概ね、上述した 3パラメータ対数正規分布することが見込まれる
[0142] オペレータは、たとえば、処理装置 10の表示装置 16の画面上に表示された小領 域の候補から、所望の形状を有するものを選択する (ステップ 903)。この小領域候補 の形状は、矩形、方形などが考えられる。また、そのサイズについては、オペレータの ノ ラメータ設定により自由に変更できるのが望ましい。 As shown in FIG. 9, first, the unevenness detection unit 32 reads the data value of the original data also from the data buffer 30 (step 901). The unevenness detection unit 32 standardizes the data value of the original data (step 902). Standardization is similar to that described with reference to FIGS. As a result, the data values are generally expected to have the three-parameter lognormal distribution described above. [0142] The operator selects, for example, one having a desired shape from the small area candidates displayed on the screen of the display device 16 of the processing device 10 (step 903). The shape of this small region candidate may be a rectangle or a rectangle. It is desirable that the size can be changed freely according to operator parameter settings.
[0143] 図 8を参照して説明した手法と同様に、たとえば、処理装置 10の表示装置 16の画 面上に、ピクセルのデータ値を、色彩の変化を利用して表示すれば、オペレータは、 色彩の変化を参照しつつ、小領域候補の形状としてふさわ 、と思われるものを選 択することができる。さらに、小領域候補を幾分カゝ傾斜させて DNAチップを覆うように 配置することも可能である。オペレータは、小領域候補の向き力 グラデーションの方 向(濃淡が現れる方向の垂直方向)に沿っており、それにより、小領域内のピクセル が一定のデータ値を保つように、小領域候補の形状および向きを決定するのが望ま しい。 [0143] Similar to the method described with reference to FIG. 8, for example, if the pixel data value is displayed on the screen of the display device 16 of the processing device 10 using the change in color, the operator can By referring to the color change, it is possible to select what seems to be suitable as the shape of the small region candidate. Furthermore, it is possible to arrange the small region candidates so as to cover the DNA chip with a slight inclination. The operator is oriented along the direction of the gradient of the small area candidate (the direction perpendicular to the direction in which the shading appears), so that the pixels in the small area maintain a constant data value. It is desirable to determine the direction and direction.
[0144] ムラ検出部 32は、オペレータの設定した形状、サイズおよび向きの小領域候補で、 DNAチップを隙間なく覆うように、各小領域候補に属するスポットを特定する (ステツ プ 904)。次いで、ムラ検出部 32は、各小領域候補について、標準化したデータ値の 標準偏差 σ NDを算出する (ステップ 905)。 [0144] The unevenness detection unit 32 identifies spots belonging to each small region candidate so as to cover the DNA chip with no gaps with the small region candidate having the shape, size and orientation set by the operator (step 904). Next, the unevenness detection unit 32 calculates a standard deviation σ ND of standardized data values for each small region candidate (step 905).
[0145] 全ての小領域候補に関する標準偏差 σ NDが算出されると、その中央値 Med σ Ν Dが算出される(ステップ 906)。ステップ 903〜906の処理力 オペレータの所望な だけ繰り返される (ステップ 907)。オペレータは、種々の形状、サイズ或いは向きの 小領域候補を設定して、それぞれの小領域候補に関する中央値 Med σ NDを取得 する。 [0145] When the standard deviation σ ND for all the small region candidates is calculated, its median Med σ Ν D is calculated (step 906). The processing power of steps 903 to 906 is repeated as many times as desired by the operator (step 907). The operator sets small area candidates of various shapes, sizes, or orientations, and acquires the median value Med σ ND for each small area candidate.
[0146] ムラ検出部 32は、それぞれの小領域候補に関する中央値 Med σ NDを比較して、 最も Med σ NDが小さくなるような小領域候補を特定し (ステップ 908)、その形状、サ ィズおよび向きを、結果記憶部 38に記憶する(ステップ 909)。 [0146] The unevenness detection unit 32 compares the median values Med σ ND for the respective small region candidates, identifies the small region candidate having the smallest Med σ ND (step 908), and determines its shape and size. The direction and direction are stored in the result storage unit 38 (step 909).
[0147] DNAチップを覆う小領域が決定されると、図 10に示すように、補正処理部 34は、 空間補正関数を決定する (ステップ 1001)。空間補正関数の決定においては、小領 域の関数が参考にされる。小領域の関数は、 DNAチップの X— y平面を指定する関 数と考えることができるため、これに z軸を導入して曲面を表わす関数に拡張する。
[0148] たとえば、上記曲面を表わす関数は以下の一般式で表わすことができる。 [0147] When the small region covering the DNA chip is determined, the correction processing unit 34 determines a spatial correction function as shown in FIG. 10 (step 1001). In determining the spatial correction function, the small area function is referred to. The small area function can be thought of as a function that specifies the XY plane of the DNA chip, so the z-axis is introduced into this function and extended to a function that represents a curved surface. [0148] For example, the function representing the curved surface can be represented by the following general formula.
[0149] f (x) +g (y) +h (z) =c [0149] f (x) + g (y) + h (z) = c
ここに、 zは空間のひずみを表わす補正項であり、 h (z)は可能な限り定式を満たす 関数である。 Here, z is a correction term representing the distortion of space, and h (z) is a function that satisfies the formula as much as possible.
[0150] 小領域の形状および配置力も関数が推定できない場合には、幾つ力の空間を指 定する関数を用意し、オペレータが関数を選択するとともにそのパラメータを調整して も良い。この場合には、図 11に示すように、補正処理部 34は、小領域ごとに、上記定 数 cの範囲の中央値を用いて zの方程式を作成する (ステップ 1101)。これにより、小 領域の数だけ、 zの方程式を得ることができる。補正処理部 34は、取得された zの方 程式を最もよく満たす関数 h (z)および当該関数のパラメータを得る (ステップ 1102) 。次いで、補正処理部 34は、先に算出された NN或いは NDを、 h (z)の変数 zと して用いる(ステップ 1103)。 [0150] If the function cannot be estimated for the shape and the placement force of the small area, a function that specifies the space of several forces may be prepared, and the operator may select the function and adjust its parameters. In this case, as shown in FIG. 11, the correction processing unit 34 creates an equation for z using the median of the range of the constant c for each small region (step 1101). As a result, z equations can be obtained as many as the number of small regions. The correction processing unit 34 obtains a function h (z) that best satisfies the obtained equation of z and a parameter of the function (step 1102). Next, the correction processing unit 34 uses the previously calculated NN or ND as the variable z of h (z) (step 1103).
[0151] このようにして、空間補正関数が求められると、補正処理部 34は、空間補正関数を zについて解く(ステップ 1002)。これにより、 zが Xおよび yの関数として表わされる。 次いで、補正処理部 34は、各スポット或いはピクセルの位置を特定する X— y座標か ら、当該スポット或いはピクセルに対応する zの値を算出する (ステップ 1003)。その 後、補正処理部 34は、標準化されたスポット或いはピクセルのデータ値から、求めら れた、当該位置に対応する zの値を減じる (ステップ 1004)。つまり、この zが補正係 数となる。それぞれ、対応する補正係数が減じられたデータ値は、結果記憶部 38〖こ 記憶される(ステップ 1005)。 [0151] When the spatial correction function is obtained in this way, the correction processing unit 34 solves the spatial correction function with respect to z (step 1002). This represents z as a function of X and y. Next, the correction processing unit 34 calculates the value of z corresponding to the spot or pixel from the XY coordinates that specify the position of each spot or pixel (step 1003). After that, the correction processing unit 34 subtracts the obtained z value corresponding to the position from the standardized spot or pixel data value (step 1004). In other words, this z is the correction factor. Each of the data values obtained by subtracting the corresponding correction coefficient is stored in 38 results storage units (step 1005).
[0152] ムラ検出部 32は、たとえば、前述したムラ検出の第 1の手法(図 3参照)や、第 2の 手法(図 4参照)を利用して、当該 DNAチップのデータ値にムラが存在する力否かを 判断する (ステップ 1006)。ムラが存在すると判断された場合には (ステップ 1007で イエス (Yes))、ムラ検出部 32は、補正前の状態と比較してムラが改善されている力否 かを判断する(ステップ 1008)。ステップ 1008では、第 1の手法で求めた Δ a msや 第 2の手法で求めた Δ σ σが、補正前よりも小さくなつている力否かが判断される。 [0152] The unevenness detection unit 32 uses, for example, the above-described first method for unevenness detection (see Fig. 3) or the second method (see Fig. 4) to detect unevenness in the data value of the DNA chip. Judgment is made whether or not there is power (step 1006). If it is determined that unevenness exists (Yes in step 1007), the unevenness detection unit 32 determines whether or not the force has improved unevenness compared to the state before correction (step 1008). . In step 1008, it is determined whether or not Δ a ms obtained by the first method and Δ σ σ obtained by the second method are smaller than before correction.
[0153] ステップ 1008でノー (No)と判断された場合には、その DNAチップのデータは補正 が不可能であるとして、これらデータを破棄する (ステップ 1009)。その一方、ステツ
プ 1008でイエス (Yes)と判断された場合には、ムラが残って ヽる可能性を示すデータ (たとえば、ムラ残存フラグ)を、補正されたデータに関連付けておき、オペレータが 使用する際に、そのデータにはムラが残っている可能性があることを通知できるように しておく。 [0153] If it is determined NO in step 1008, the data on the DNA chip cannot be corrected, and these data are discarded (step 1009). On the other hand, If the answer is yes in step 1008, data indicating the possibility of remaining unevenness (for example, unevenness remaining flag) is associated with the corrected data and used by the operator. Make sure that you can be notified that there may be some unevenness in the data.
[0154] その一方、ムラが存在しないと判断された場合 (ステップ 1007でノー (No))には、ォ ペレータは、当該補正されたデータを、解析処理に利用すれば良い。 On the other hand, if it is determined that there is no unevenness (No in step 1007), the operator may use the corrected data for analysis processing.
[0155] [特定の位置に一定の強さで出現するムラの場合] [0155] [In the case of unevenness that appears at a certain position with a certain strength]
DNAチップの特定の位置に、シグナル強度が強く或 、は弱く現れるようなムラが生 じることがある。たとえば、ハイブリダィゼーシヨン溶液中の気泡力 その気泡に接して いる部分のシグナル強度を弱め、或いは、完全に阻害する場合があることが知られて いる。このようなムラが生じた場所を特定でき、かつ、その影響が予測できる場合には 、データを補正することが可能となる。影響が予測できない場合であっても、その部 分のデータを棄却することで、誤ったデータのもたらす問題の発生を回避することが 可能となる。 Unevenness may appear at specific positions on the DNA chip, where the signal intensity appears strong or weak. For example, it is known that the bubble force in the hybridization solution may weaken or completely inhibit the signal intensity of the portion in contact with the bubble. When it is possible to identify a place where such unevenness has occurred and to predict the influence thereof, it is possible to correct the data. Even if the impact is unpredictable, it is possible to avoid the occurrence of problems caused by incorrect data by rejecting that part of the data.
[0156] 以下の手法は、たとえば、ハイブリダィゼーシヨンなどの原理から、特定の位置にム ラが存在し得ると考える場合に適用するのが望ま 、。 [0156] The following method is preferably applied to the case where it is considered that a spot may exist at a specific position based on a principle such as hybridization.
[0157] [DNAチップの攪拌のような原理力 ムラを特定する手法] [0157] [Principles such as DNA chip agitation]
たとえば、 DNAチップをハイブリダィゼーシヨンするための、一定体積のチャンバ一 中に気泡力 Sあり、図 12 (a)に示すように、チャンノ ー 1200を、水平軸 1201まわりに 回転させる場合を考える。 For example, there is a bubble force S in a constant volume chamber for hybridization of a DNA chip, and the channel 1200 is rotated around a horizontal axis 1201 as shown in Fig. 12 (a). Think.
[0158] このような場合には、 DNAチップ上のそれぞれの位置におけるハイブリダィゼーシ ヨンの相対有効時間を計算すればよい。ムラの位置を特定するために、以下の変数 が利用される。 [0158] In such a case, the relative effective time of the hybridization at each position on the DNA chip may be calculated. The following variables are used to identify the location of the unevenness.
[0159] Θ:チャンバ一の基準面 1210と、水平面 1211とがなす角(図 12 (b)参照) [0159] Θ: Angle formed by the reference plane 1210 of the chamber and the horizontal plane 1211 (see Fig. 12 (b))
(x、 y): DNAチップ上の位置 (x, y): Position on the DNA chip
b :チャンバ一内の界面を指定する方程式にて利用される変数 b: Variable used in the equation specifying the interface in the chamber
va:チャンバ一内の気泡の体積 va: Volume of bubbles in the chamber
vs:チャンバ一内の溶液の体積
vm:チャンバ一内の容量 vs: Volume of solution in chamber vm: Capacity in the chamber
xo. (i: l, · · ·):各観測点を表わす変数 xo. (i: l, · · ·): Variables representing each observation point
チャンバ一は、大変薄い直方体であると考えることができる。そこで、処理において は、チャンバ一の厚みを無視して、平面 (長方形)と考える。図 13に示すように、ムラ 検出部 32は、模式的に、チャンバ一の一辺(図 12の例では、一方の長辺)を基準線 と設定し (ステップ 1301)、かつ、チャンバ一内に配置された DNAチップのピクセル 或いはスポットに相当する位置に観測点を設定する(ステップ 1302)。したがって、観 測点は、マトリクス上に配置される。 The chamber 1 can be considered as a very thin rectangular parallelepiped. Therefore, in processing, the thickness of the chamber is ignored and the plane (rectangular) is considered. As shown in FIG. 13, the unevenness detector 32 schematically sets one side of the chamber (one long side in the example of FIG. 12) as a reference line (step 1301), An observation point is set at a position corresponding to the pixel or spot of the placed DNA chip (step 1302). Therefore, the observation points are arranged on the matrix.
[0160] 次いで、ムラ検出部 32は、水平線を用いて、上側と下側の大きさの比が、 va:vsに なるようにチャンバ一を区切る。この比は、チャンバ一が軸まわりを回転して種々の向 きになつている場合にも一定である。 [0160] Next, the unevenness detection unit 32 divides the chambers using a horizontal line so that the ratio of the upper and lower sizes is va: vs. This ratio is also constant when the chamber is rotated about its axis in various orientations.
[0161] 次いで、パラメータ iを初期化して (ステップ 1303)、 について、 0を初期化させ た後(ステップ 1304)、一定の値ずつ変化させて、それぞれの Θについて、観測点 X o 1S チャンバ一において、気泡の領域に位置するか、或いは、溶液中の領域に位 置するかを判断し (ステップ 1305)。判断結果をデータバッファ 30に記憶する (ステツ プ 1306)。ステップ 1305、 1306は、 Θ力^)力ら 2 πにいたるまで繰り返される(ステツ プ 1307、 1308)。これにより、観測点 χοが溶液中に存在した時間を取得することが できる。ステップ 1304〜1308は、全ての観測点について実行される(ステップ 1309 、 1310参照)。ステップ 1305においては、チャンバ一の傾き Θにしたがって、上側と 下側の大きさの比が、 va :vsになるような区切り線を想定し、この区切り線より観測点 X oが下側であるか上側であるかで、観測点が、溶液中に存在するか、気泡中に存在 するかが判定できる。 [0161] Next, the parameter i is initialized (step 1303), and after initializing 0 (step 1304), the parameter i is changed by a constant value, and the observation point X o 1S chamber is changed for each Θ. In step 1305, it is determined whether it is located in the bubble region or in the solution region. The determination result is stored in the data buffer 30 (step 1306). Steps 1305 and 1306 are repeated until the Θ force ^) force reaches 2π (steps 1307 and 1308). As a result, the time when the observation point χο was in the solution can be obtained. Steps 1304 to 1308 are executed for all observation points (see steps 1309 and 1310). In step 1305, a dividing line is assumed in which the ratio of the size of the upper side and the lower side becomes va: vs according to the inclination Θ of the chamber. The observation point Xo is below the dividing line. It can be determined whether the observation point is in the solution or in the bubble.
[0162] なお、チャンバ一の回転速度が一定でない場合には、なるべくその一定でない様 子を再現するために、それぞれの時点での角速度に反比例するように Θの増分を決 定すればよい。 [0162] If the rotation speed of the chamber is not constant, the increment of Θ may be determined so as to be inversely proportional to the angular speed at each time point in order to reproduce the non-constant state as much as possible.
[0163] このような処理を実行することにより、各観測点がハイブリダィゼーシヨン中に溶液 中に存在した時間を取得することができる。本実施の形態においては、最終的に、各 観測点について、溶液中に存在した相対的な時間(つまり、溶液中に存在した時間
Zハイブリダィゼーシヨン時間)を結果記憶部 38に記憶する。 [0163] By executing such processing, it is possible to obtain the time during which each observation point was present in the solution during the hybridization. In the present embodiment, finally, for each observation point, the relative time existing in the solution (that is, the time existing in the solution). (Z hybridization time) is stored in the result storage unit 38.
[0164] また、チャンバ一における vsおよび vaが既知ではない場合もある。このような場合に は、以下のような処理が実行される。 [0164] In addition, vs and va in the chamber may not be known. In such a case, the following processing is executed.
[0165] 図 14に示すように、 vaを 0から vmまで増加させて(ステップ 1401、 1407、 1408参 照)、それぞれの vaについて、各観測点が溶液中に存在した相対的な時間を算出す る (ステップ 1402)。ムラ検出部 32は、それぞれの観測点 xoのうち、得られた相対的 時間が「0」であったものを除去し (ステップ 1403)、残りの観測点 xoについて、当該 観測点に対応するデータ値 (標準化されたシグナル強度)を、得られた相対的な時 間で除する(ステップ 1404)。 [0165] As shown in Figure 14, va is increased from 0 to vm (see steps 1401, 1407, 1408), and for each va, the relative time each observation point was in the solution is calculated. (Step 1402). The unevenness detection unit 32 removes each observation point xo whose relative time is “0” (step 1403), and for the remaining observation point xo, data corresponding to the observation point. Divide the value (normalized signal intensity) by the relative time obtained (step 1404).
[0166] 次いで、ムラ検出部 32は、除算により得られた値の標準偏差 σ msを算出し (ステツ プ 1405)、 vaおよび算出された標準偏差 σ msを一時的に記憶する (ステップ 1406) Next, the unevenness detection unit 32 calculates the standard deviation σ ms of the value obtained by the division (step 1405), and temporarily stores va and the calculated standard deviation σ ms (step 1406).
[0167] vaを変化させて、それぞれの vaについて標準偏差 σ msを算出し、これらを対応さ せて記憶した後、ムラ検出部 32は、最も標準偏差 a msが小さな vaを見出し、当該 va と対応付けられた各観測点の相対的時間を、結果記憶部 38に記憶する (ステップ 14 09)。 [0167] After changing va, the standard deviation σ ms is calculated for each va, and these are stored in correspondence with each other. Then, the unevenness detection unit 32 finds the va having the smallest standard deviation a ms, and The relative time of each observation point associated with is stored in the result storage unit 38 (step 1409).
[0168] 次 、で、得られたそれぞれの観測点における相対的な時間を参照して、データ値 が補正可能である力否かを判断する。より具体的には、図 15に示すように、補正処 理部 34は、観測点 xoiにおけるデータ値を、対応する相対的な時間で除する。この 処理を、全ての観測点について実行する (ステップ 1501)。相対的な時間で除算さ れたデータ値は、データバッファ 30に一時的に記憶される(ステップ 1502)。次いで 、ムラ処理部 34は、第 1の手法(図 3参照)や第 2の手法(図 4参照)を用いて、除算さ れたデータ値により、ムラが無くなった力どうかを調べる (ステップ 1503)。ムラが存在 すると判断された場合には (ステップ 1504でイエス (Yes))、ムラ検出部 32は、補正前 と比較してムラが改善されたカゝ否かを判断する (ステップ 1505)。 [0168] Next, with reference to the obtained relative time at each observation point, it is determined whether or not the data value is correctable. More specifically, as shown in FIG. 15, the correction processing unit 34 divides the data value at the observation point xoi by the corresponding relative time. This process is executed for all observation points (step 1501). The data value divided by the relative time is temporarily stored in the data buffer 30 (step 1502). Next, the unevenness processing unit 34 uses the first method (see FIG. 3) or the second method (see FIG. 4) to check whether or not the unevenness is eliminated by using the divided data value (step 1503). ). If it is determined that unevenness exists (Yes in step 1504), the unevenness detection unit 32 determines whether the unevenness has been improved as compared to before correction (step 1505).
[0169] ステップ 1505でノー (No)と判断された場合には、当該補正されたデータ(つまり、除 算された一連のデータ値)を破棄する(ステップ 1506)。その一方、ステップ 1505で イエス (Yes)と判断された場合には、補正されたデータは保持しておく。ステップ 1504
において、ムラが存在すると判断された場合には、ステップ 1505の判断の如何にか かわらず、後述するような、データ自体力 ムラの位置を特定する手法を適用する。 [0169] If it is determined NO in step 1505, the corrected data (that is, a series of data values divided) is discarded (step 1506). On the other hand, if it is determined YES in step 1505, the corrected data is retained. Step 1504 If it is determined that there is unevenness, the method of specifying the position of unevenness of the data itself as described below is applied regardless of the determination in step 1505.
[0170] その一方、ムラが存在しないと判断された場合 (ステップ 1504でノー (No))、ォペレ ータは、当該補正されたデータを、解析処理に利用すればよい。 On the other hand, if it is determined that there is no unevenness (No in step 1504), the operator may use the corrected data for analysis processing.
[0171] [データ自体力 ムラの位置を特定する手法] [0171] [Method of identifying the position of unevenness of data itself]
スポットのシグナル強度力 DNAチップ上の位置と無関係であるときに、 DNAチッ プ上の小領域に着目すると、どの小領域についても、同程度のシグナル強度の平均 値を有すると予想される。また、その平均値は、中央極限定理により正規分布する。 また、その分散の期待値も予測することができる。 When the signal intensity of the spot is independent of the position on the DNA chip, focusing on the small area on the DNA chip, it is expected that the average value of the signal intensity will be the same for any small area. The average value is normally distributed by the central limit theorem. Also, the expected value of the variance can be predicted.
[0172] ノ、イブリダィゼーシヨンが不均一で、そのため DNAチップ上でデータにムラが生じ た場合には、小領域間で、シグナル強度の平均値に差異が生じる。たとえば、気泡 が存在すれば、気泡が位置した部分に該当する小領域群のシグナル強度のそれぞ れの平均値は低く測定される。 [0172] When the hybridization is uneven and the data is uneven on the DNA chip, there is a difference in the average signal intensity between the small areas. For example, if bubbles exist, the average value of the signal intensity of each small region group corresponding to the portion where the bubbles are located is measured low.
[0173] 前述したように、小領域のシグナル強度の平均値は正規分布し、かつ、分散が予 測できるため、ある平均値がどのくらいの確率で起こりえるかを予測することができる 。その確率が、予め決めておいた値を下回ったときに、その値は偶然により生じたも のではなぐムラによって生じたものであると判断する。 [0173] As described above, since the average value of the signal intensity in the small region is normally distributed and the variance can be predicted, it is possible to predict the probability that a certain average value can occur. When the probability falls below a predetermined value, it is determined that the value is caused by unevenness that is not caused by chance.
[0174] ところが、 DNAチップにおいては、たとえば、チップあたり数万という、一般的に大 量のデータ値を使用する。このため、パラメトリック検定でよく使われる「2 σ」、つまり、 5%の確率を感度として設定した場合に、偶然力 その感度を超えるデータの絶対 数が多くなる(α過誤)。たとえば、 DNAチップのスポット数を 3万、 DNAチップ中の 9 (3 X 3)スポットを小領域と考えると、 3千余りの小領域が存在し、その 5%であって も、 170ほどの小領域、つまり、 1500ものスポットのデータ値力 感度を超えるとされ 得る。 [0174] However, a DNA chip generally uses a large amount of data, for example, tens of thousands per chip. For this reason, when “2 σ”, which is often used in parametric tests, is set as a sensitivity of 5%, the absolute number of data exceeding the sensitivity by chance increases (α error). For example, if the number of DNA chip spots is 30,000, and 9 (3 X 3) spots in the DNA chip are considered to be small areas, there are more than 3,000 small areas, and even if it is 5%, about 170 It can be said that the data value force sensitivity of a small area of 1, that is, 1500 spots is exceeded.
[0175] また、この感度域を鈍く設定すると、ムラが検出できないという問題が生じる( β過誤 [0175] If this sensitivity range is set to be dull, there is a problem that unevenness cannot be detected (β error)
) ο ) ο
[0176] 一般的に、 α過誤および j8過誤のいずれをも小さくするような感度設定をすること はできない。本実施の形態においては、複数の水準を設けることにより、上述した問
題を解決する。 [0176] In general, it is not possible to set the sensitivity to reduce both the α error and the j8 error. In this embodiment, the above-mentioned questions are provided by providing a plurality of levels. Solve the problem.
[0177] 第 1の水準 [0177] First level
第 1の水準は、感度をきわめて低く設定される (たとえば、 1Z (小領域数)に対応す る確率)。その感度域を超えるような小領域は、ムラであると判断される。 The first level sets the sensitivity very low (eg probability corresponding to 1Z (number of small areas)). A small region exceeding the sensitivity range is determined to be uneven.
[0178] 第 2の水準 [0178] Second level
第 2の水準は、より感度が高く設定される (たとえば、 0. 05)。その感度域を超える ような小領域は、ムラである可能性が高いと判断される。 The second level is set to be more sensitive (for example, 0.05). Small areas that exceed the sensitivity range are judged to have a high possibility of unevenness.
[0179] 気泡、或いは、気泡の移動範囲の大きさよりも小さい小領域を観察すると、そのよう な小領域に隣接する小領域 (たとえば、小領域が矩形であれば、当該小領域の辺或 いは頂点と接する 8つの小領域)は、気泡の影響を受けていると考えられる。これら小 領域が、ともに、たとえば、 0. 05以下の確率でしかおき得ないような低いシグナル強 度の中央値をもつ可能性は、 0. 052以下である。 [0179] When a bubble or a small region smaller than the size of the bubble movement range is observed, a small region adjacent to the small region (for example, if the small region is rectangular, the side of the small region or Is considered to be affected by bubbles. These small regions are both, for example, it could have a median low signal strength level as not happened only 0.05 or less probability is 0.05 2 or less.
[0180] 一方の小領域が低ぐ他方の小領域が高いシグナル領域にはみ出しているときに はこの限りではない。たとえば、一方の小領域については、上側に棄却され、他方の 小領域が棄却されたときは除外される。 [0180] This does not apply when one small region is low and the other small region protrudes into a high signal region. For example, one small area is rejected when it is rejected upward and the other small area is rejected.
[0181] そこで、隣接する 2つの「ムラである可能性が高い」小領域を、両方ともムラであると 判断する。 [0181] Therefore, it is determined that two adjacent small areas that are likely to be uneven are both uneven.
[0182] 第 nの水準 [0182] nth level
第 nの水準は、さらに感度を高く(たとえば 1Z (小領域数) " ( lZn) )設定される。そ の感度域を超える小領域は、ムラである可能性が高 、と判断される。 The n-th level is set with higher sensitivity (for example, 1Z (the number of small areas) “(lZn)). It is determined that a small area exceeding the sensitivity area is highly likely to be uneven.
[0183] 気泡、或いは、気泡の移動範囲の大きさよりも小さい小領域を観察すると、そのよう な小領域の近傍 (たとえば、半径方向に M個の小領域を含むような円内或 、は円周 上に位置する小領域とする。)に含まれる小領域群が、ムラである可能性が高いと判 断される可能性は、その小領域群において、感度域を超えた小領域の数 mについて[0183] When a bubble or a small region smaller than the size of the bubble movement range is observed, the vicinity of such a small region (for example, in a circle including M small regions in the radial direction or in a circle) The small area group included in the small area group is considered to have a high possibility of unevenness. The number of small areas exceeding the sensitivity range in the small area group About m
、(設定した感度の確率) m以下である。 , (Probability of set sensitivity) m or less.
[0184] この可能性が、予め設定した水準より低ければ、その小領域群すべてがムラである と判断される。 [0184] If this possibility is lower than a preset level, it is determined that all the small area groups are uneven.
[0185] まれに、気泡がハイブリダィゼーシヨン中にほぼ同じコースを、ほぼ決まった速度で
移動する場合がある。このような場合には、上述した水準を利用して、ムラの位置を 特定することが可能となる。 [0185] In rare cases, bubbles are almost the same course during hybridization, at a roughly fixed rate. May move. In such a case, it is possible to specify the position of the unevenness by using the level described above.
[0186] [データ自体からムラの位置を特定する具体的な処理] [0186] [Specific processing for identifying the location of unevenness from the data itself]
図 16に示すように、ムラ検出部 32は、オペレータの指示にしたがって小領域の形 状等の入力を受理して (ステップ 1601)、 DNAチップ上に小領域を配置して、各小 領域に属するデータ値を特定する (ステップ 1602)。なお、小領域は、グラデーション をもつムラの解析などにおいて設定されたものを利用すればよい。或いは、当該小領 域のデータ値の標準偏差ができるだけ小さくなるような小領域を別途設定しても良い As shown in FIG. 16, the unevenness detection unit 32 accepts input such as the shape of the small region according to the operator's instruction (Step 1601), places the small region on the DNA chip, and places the small region in each small region. Identify the data value to which it belongs (step 1602). The small area may be set in the analysis of unevenness with gradation. Alternatively, a small area where the standard deviation of the data value of the small area is as small as possible may be set separately.
[0187] また、図 15のステップ 1505を経て、かつ、ステップ 1506を経ず〖こ、本処理に以降 した場合には、データ値として、補正されたデータ値が利用される。 [0187] In addition, when the processing after step 1505 in Fig. 15 and without passing through step 1506 and after this processing, the corrected data value is used as the data value.
[0188] ムラ検出部 32は、各小領域のデータ値の中央値を求める(ステップ 1603)。次いで 、各小領域の中央値について、期待値からどれだけ離れているかを判断する。たとえ ば、上記第 1の水準に達していれば (ステップ 1604でイエス (Yes))、その小領域は、 ムラであると判断される (ステップ 1605)。また、第 2の水準に達していれば (ステップ 1606でイエス (Yes))、隣接する小領域も、第 2の水準に達しているかどうかを判断す る。隣接する小領域も、同様に第 2の水準に達していれば (ステップ 1607でイエス (Y es))、さらに、それらの確率を掛け合わせた値が第 1の水準以下である力否かが判断 される。乗ぜられた確率が第 1の水準以下であれば (ステップ 1608でイエス (Yes))、 小領域はムラであると判断される (ステップ 1605)。 [0188] The unevenness detection unit 32 obtains the median value of the data values of each small region (step 1603). Next, it is determined how far from the expected value the median value of each small area is. For example, if the first level is reached (Yes in Step 1604), it is determined that the small area is uneven (Step 1605). If the second level has been reached (Yes in step 1606), it is determined whether the adjacent small area has also reached the second level. If the adjacent subregions have also reached the second level (Yes in step 1607), then whether or not the force is less than or equal to the first level is the product of these probabilities. Judged. If the probability of being multiplied is less than or equal to the first level (Yes in Step 1608), it is determined that the small area is uneven (Step 1605).
[0189] このような処理が、第 3、第 4、 · · ·、第 nの水準についても繰り返される。たとえば、 第 n水準において、小領域が第 nの水準に達しており(ステップ 1609でイエス (Yes)) 、隣接する小領域も第 nの水準に達し (ステップ 1610でイエス (Yes))、かつ、それらの 確率を掛け合わせた値が第 1の水準以下であれば (ステップ 1611でイエス (Yes)、小 領域はムラであると判断される (ステップ 1605)。このような判断が全ての小領域につ いて繰り返される(ステップ 1612、 1613) [0189] Such processing is repeated for the third, fourth,..., And nth levels. For example, at the nth level, the subregion has reached the nth level (Yes in step 1609), the adjacent subregion has also reached the nth level (Yes in step 1610), and If the value multiplied by the probabilities is less than or equal to the first level (Yes in Step 1611), the small area is determined to be uneven (Step 1605). Repeated for region (steps 1612, 1613)
図 16の処理の結果、ムラの影響下にあると判断された小領域のデータは全て棄却 される (ステップ 1701)。また、ムラの影響下にあると判断された小領域に隣接する小
領域について、ムラの影響下にある領域に接する側の半分のデータも棄却される (ス テツプ 1702)。さらに、ムラの影響下にある判断された小領域に斜めに隣接する小領 域についても、データを棄却された小領域に最も近い位置にある半分のデータが棄 却される(ステップ 1703)。 As a result of the processing in Fig. 16, all data in the small area determined to be under the influence of unevenness is rejected (step 1701). In addition, a small area adjacent to a small area determined to be under the influence of unevenness. For the area, half of the data that touches the area under the influence of unevenness is also rejected (step 1702). Furthermore, for the small area that is obliquely adjacent to the determined small area under the influence of unevenness, half of the data that is closest to the small area where the data was rejected is rejected (step 1703).
[0190] 近傍にあるデータを棄却するのは、安全のためのマージンである。本実施の形態に おいては、半分のデータを棄却している。これは、半分以上がムラであれば、中央値 もその影響を受けて小領域自体のデータが棄却されると予想されるからである。デー タを棄却された複数の小領域に設定して 、る小領域では、それぞれのデータを棄却 された小領域力もの影響を、別々に考えた上で判断する。 [0190] Rejecting data in the vicinity is a safety margin. In this embodiment, half of the data is rejected. This is because if more than half is uneven, the median is also affected and the data for the small area itself is expected to be rejected. The data is set for multiple rejected small areas, and in each small area, the influence of each rejected small area force is considered separately.
[0191] ステップ 1701〜ステップ 1703によるデータの棄却の後、ムラ処理部 34は、第 1の 手法(図 3参照)や第 2の手法(図 4参照)を用いて、ムラが無くなつたかどうかを調べ る (ステップ 1704)。ムラが存在すると判断された場合には (ステップ 1705でイエス (Y es))、ムラ検出部 32は、補正前と比較してムラが改善されたカゝ否かを判断する (ステツ プ 1706)。 [0191] After rejecting the data in steps 1701 to 1703, the unevenness processing unit 34 uses the first method (see Fig. 3) or the second method (see Fig. 4) to check whether the unevenness has disappeared. (Step 1704). If it is determined that unevenness exists (Yes in step 1705), the unevenness detection unit 32 determines whether the unevenness has been improved compared to before correction (step 1706). .
[0192] ステップ 1706でノー (No)と判断された場合には、ムラ検出部 32は、データ全体を 破棄する (ステップ 1707)。その一方、ステップ 1706でイエス (Yes)と判断された場合 には、データは保持される。その一方、ムラが存在しないと判断された場合 (ステップ 1705でノー (No))、オペレータは、上述したように一部のデータが棄却された残りの データを、解析処理に利用すればよい。 [0192] If it is determined No in step 1706, the unevenness detection unit 32 discards the entire data (step 1707). On the other hand, if the answer is yes in step 1706, the data is retained. On the other hand, if it is determined that there is no unevenness (No in step 1705), the operator may use the remaining data from which some data has been rejected for analysis processing as described above.
[0193] たとえば、気泡が入ったハイブリダィゼーシヨンチャンバ一を水平方向に旋回させて 攪拌した場合、攪拌によっても気泡が動力ゝなカゝつた場合、気泡が入ったハイブリダィ ゼーシヨンチャンバ一を縦方向に回転させて攪拌した場合などにおいて、ムラの位置 や様相が特定できない場合に本手法は有効である。 [0193] For example, when the hybridization chamber 1 containing bubbles is swirled in the horizontal direction and stirred, if the bubbles are powered by the stirring, the hybridization chamber 1 containing bubbles is removed. This method is effective when the position and appearance of the unevenness cannot be specified, such as when stirring in the vertical direction.
[0194] [関数の例] [0194] [Function example]
次に、図 8にお 、て言及した関数にっ 、て説明する。 Next, the function mentioned in FIG. 8 will be described.
[0195] あらゆるひずみに対して、スプライン関数を使って輝度を均一に保つ方法などがあ る。しかし、基本的にチップの画像の輝度はチップの部位によって変化するものなの で、その変換が新たなひずみをもたらすことは避けられな 、。
[0196] チップの位置に関して、ムラは一次関数的に生じる。 DNAチップ上の任意の位置 について、一次関数「(読み取ったデータ) = (真値) *b + a」を表わすパラメータ aおよ び bが存在する。これらパラメータは DNAチップ上の位置の関数であらわされる。そ れら関数はなめらかである、と考えた。 [0195] For any distortion, there is a method to keep the brightness uniform using a spline function. However, since the brightness of the chip image basically changes depending on the part of the chip, it is inevitable that the conversion will introduce new distortion. [0196] Regarding the position of the chip, unevenness occurs in a linear function. For any position on the DNA chip, there are parameters a and b representing the linear function “(read data) = (true value) * b + a”. These parameters are expressed as a function of position on the DNA chip. I thought those functions were smooth.
[0197] ノ メータ a、 bは、それぞれ小区域データの最小値、中央値に基づいて推定するこ とができる。小領域を使うことによるノイズを低減するために、関数のなめら力さを用い る。これらの関数を、ノ ラメータ γおよひ、 の算出の際に、その補正に用いる。これら パラメータ γおよび の補正を通じてムラを補正する。ちなみにパラメータ σは、その 補正したデータから求める。なお、ノ ラメータ γ、 μおよび σは、図 6、図 7において 算出されたデータ標準化のパラメータである。 [0197] The meters a and b can be estimated based on the minimum and median values of the subregion data, respectively. The smoothness of the function is used to reduce the noise caused by using small areas. These functions are used to correct the parameters γ and. Unevenness is corrected through correction of these parameters γ and. Incidentally, parameter σ is obtained from the corrected data. The parameters γ, μ, and σ are the data standardization parameters calculated in Figs.
[0198] [曲線的歪の原理] [0198] [Principle of curvilinear distortion]
洗いの段階でおきるひずみは、一次式的におきる。洗いの際におきえるムラの主原 因は、洗う際に温度差や水流の差が生じることであると考えられる。このムラは、ハイ ブリダィゼーシヨンしたプローブ量で変わるシグナル成分と、そしてノンスぺシフィック にくつつ 、た色素量でかわるノ ックグラウンド成分とで、異なる作用機作で影響すると 考えられる。 The strain that occurs at the washing stage occurs linearly. The main cause of unevenness that can occur during washing is thought to be the difference in temperature and water flow during washing. This unevenness is thought to be affected by different mechanisms of action, depending on the signal component that changes depending on the amount of hybridization, and the knock ground component that changes with the amount of dye that is non-specific.
[0199] つまり、「生データ (原データ)の値 =シグナル成分 +バックグラウンド成分」で表わ される。 [0199] In other words, it is expressed as “raw data (original data) value = signal component + background component”.
[0200] ノ、イブリダィゼーシヨンは結合と解離との平衡状態力 それに近い状態であると考え られるのに対し、洗いは、ほぼ一方的な解離反応である。溶液の量が多量であるため 、解離したプローブが新たな結合をおこす可能性は稀である。また一般的に、洗いの 際の条件はハイブリダィズのときよりも「ストリンジェント」である、すなわちより解離側へ 平衡が移動するような塩濃度で行われる。 [0200] In contrast, the hybridization is considered to be an equilibrium state force between binding and dissociation, whereas washing is an almost one-sided dissociation reaction. Due to the large amount of solution, the dissociated probe is unlikely to form a new bond. In general, washing is performed at a salt concentration that is more “stringent” than that at the time of hybridization, that is, the equilibrium moves to the dissociation side.
[0201] そこで、仮にプローブの濃度が高く保たれて!/、ても、反応は解離方向へ進む。その 際には、プローブが解離する反応は、そのプローブの濃度に比例する。 [0201] Therefore, even if the probe concentration is kept high! /, The reaction proceeds in the dissociation direction. At that time, the reaction of dissociating the probe is proportional to the concentration of the probe.
[0202] プローブが解離する速度は、そのプローブの濃度に比例すると考えられる。解離は 各プローブについて一定の確率過程でおきると予測されるからである。その場合、各 プローブの種類ごとに一次反応をすると予測される。
[0203] よく用いられる仮定と数理モデルではある力 以下の式を考える。 [0202] The rate at which a probe dissociates is thought to be proportional to the concentration of the probe. This is because dissociation is expected to occur in a certain stochastic process for each probe. In that case, a primary reaction is expected for each type of probe. [0203] Commonly used assumptions and mathematical models A force Consider the following equation.
[0204] v= - d [probe] /dt=k [probe] [0204] v =-d [probe] / dt = k [probe]
(lZ[probe]) d[probe」 =一 kdt (lZ [probe]) d [probe "= one kdt
積分:ここで洗!、の時間を tとすると、洗 、の開始からまで Integration: Wash here !, if t is the time, from the start of wash
[probe] = [probeOJ exp (― kt) [probe] = [probeOJ exp (― kt)
[probeO]:洗いの開始時の濃度 [probeO]: Concentration at the start of washing
ここで、チップの各部位で温度差ができ、或いは、水流に差が生じたときには、これ らの違いは「probe」の結合力を現す定数 kに影響する。チップ上で klと k2との定数 を持つ部分のシグナル強度は、もし [probeO]が同じであった場合、 exp{ - (kl -k 2) }t倍の違いとなる。 tは一定であるので、これは結果として、「probe」によるシグナ ル強度が「掛け算的にかわる」であろうことを意味して 、る。 Here, when there is a temperature difference at each part of the chip, or when there is a difference in water flow, these differences affect the constant k representing the “ pro be” binding force. The signal intensity of the part with constants of kl and k2 on the chip is exp {-(kl -k 2)} t times different if [probeO] is the same. Since t is constant, this means that the resulting signal intensity due to “probe” will be “multiplied”.
[0205] ノックグラウンド成分にっ 、ては、以下のように考えられる。シグナルは必ずしもプロ ーブのチップ核酸へのハイブリダィズだけ力 構成されるわけではなぐフリーの色素 やプローブの DNAチップ表面への特異性の低 、結合力 も得られる。これがシグナ ルのいわゆるノックグラウンド成分となる。こうした特異性の低い結合の反応は、ごく 短い時間で完了すると考えられる。そこで、ハイブリダィゼーシヨンの間は平衡状態に あり、その後のハンドリング時には次の平衡状態に迅速に移行すると考えられる。 [0205] The knock ground component can be considered as follows. The signal is not necessarily composed solely of the hybridization of the probe to the chip nucleic acid, but it can also provide a low specificity and binding power of free dyes and probes to the DNA chip surface. This is the so-called knock ground component of the signal. Such a low-specificity binding reaction is expected to be completed in a very short time. Therefore, it is considered that there is an equilibrium state during the hybridization, and the next equilibrium state is quickly shifted during the subsequent handling.
[0206] そうした成分は、チップ上の位置ごとに一定の値をとるはずである。この値はその部 位またはその部位と条件を同じくするそのほかの部位に共通な定数となる。結果とし て、この成分は、そのほかの成分(どれくらいの「probe」がハイブリダィズした力)には 無関係に、「probe」によるシグナル強度に「足し算的に」影響するだろうことを意味し ている。以上は、ハイプリのムラがデータの数値を、一次変換するかたちで変えること を示唆している。 [0206] Such components should have a constant value for each position on the chip. This value is a constant common to that part or other parts that have the same conditions as that part. As a result, this component means that it will “additively” affect the signal intensity due to “probe”, regardless of the other components (how much “probe” has hybridized). The above suggests that high-priority irregularities change the numerical values of the data in the form of primary conversion.
[0207] そうであれば、データは一次式の逆関数で補正できることになる。適切な数値 aを引 いて、その結果を適切な数値 bで割れば、 kの変化によるムラの影響をキャンセルで きる。以下、これら数値の求め方について述べる。 [0207] If so, the data can be corrected with an inverse function of a linear expression. By subtracting the appropriate numerical value a and dividing the result by the appropriate numerical value b, the effect of unevenness due to changes in k can be canceled. The following describes how to obtain these values.
[0208] [足し算的な影響] [0208] [Additive effects]
足し算的な影響は、全てのデータの力さ上げをする。この影響は(3パラメータ正規
分布(図 6および図 7に示す処理により標準化されたデータによる正規分布)のバック グラウンド値であるところの) γへの影響である。この影響が顕著に現れるのはデータ の最小値である。マイクロアレイデータは本質的に対数正規分布をする。この分布の 特徴として、 γに近い、小さい値のデータに度数分布が集中することが挙げられる。 つまりこれら小さい値のデータはほぼ γと同じ値を持つことになる。 The additive effect increases the power of all data. This effect is (3 parameter normal This is an influence on γ, which is the background value of the distribution (normal distribution based on data standardized by the processing shown in Figs. 6 and 7). This effect is most apparent in the minimum data. Microarray data is essentially lognormally distributed. A characteristic of this distribution is that the frequency distribution is concentrated on small values of data close to γ. In other words, these small values have almost the same value as γ.
[0209] DNAチップ上の任意の小領域のデータ群のなかで、度数分布が集中するデータ 範囲「f」から「h」、または最小値「j」は、求める γより少しだけ大きい。これらの値を、 yの推定に用いることができる。 [0209] The data range “f” to “h” or the minimum value “j” in which the frequency distribution is concentrated in the data group of an arbitrary small region on the DNA chip is slightly larger than the required γ. These values can be used to estimate y.
[0210] し力しながら、これには、以下のような問題が存在する。「少しだけ」ではある力 ど れだけ大きいか、という問題である。これは確率の問題で、区域のなかのデータ数が 大きければ、より γに近くなる。データ数かける確率として期待値をもっと考えられる [0210] However, this has the following problems. The question is how much power is “small”. This is a problem of probability. If the number of data in the area is large, it becomes closer to γ. Expectation value can be considered more as the probability to multiply the number of data
[0211] 「f」から「h」の中央値、ないし「j」は、 yの推定値としては、ある確率をもった分布を するノイズをふくむことになる。どうかすると γより小さくなる。このノイズのために、「 ら hの中央値、ないし; j」をそのまま γの推定値に使うと、標準化の精度が悪くなる。そ の問題は、より大きな小領域を使うことで減じることができる。ところが小領域大きくす ると、ムラを見落とすことにつながる。小領域の大きさに関して、ノイズの影響のうけや すさと、ムラを忠実に反映するその忠実さは、背反的な関係にある。このようなジレン マをある程度解決するために、以下のように仮定する。 [0211] The median from "f" to "h" or "j" includes noise with a distribution with a certain probability as an estimate of y. It will be smaller than γ. Because of this noise, using the “median of h or j; The problem can be reduced by using a larger sub-region. However, increasing the small area leads to overlooking unevenness. Regarding the size of the small area, there is a trade-off between the sensitivity of noise and the fidelity that reflects unevenness faithfully. To solve this dilemma to some extent, we assume the following.
[0212] 区間ごとの γ値が近接する区間ごとになめらかにつながると仮定する。ムラは、たと えば温度の不均一は、なめらかにおこるものと考えられるので、これは妥当な仮定だ と思われる。この仮定のもとで、小さめにとつた区間ごとの足し算的な影響を、なめら かな曲線をも、チップ上の位置の関数として表す。その関数をもとに、 γ値を補正す る。 γ値はデータ全体力も算出する力 その算出の際に、その関数をつかってチップ 位置ごとに重みをつける。 [0212] Suppose that the γ value of each interval is smoothly connected to each adjacent interval. For example, unevenness in temperature is considered to occur smoothly, so this seems to be a reasonable assumption. Under this assumption, the additive effect of each interval on a smaller scale is also expressed as a function of the position on the chip. Based on the function, γ value is corrected. The γ value is a force that also calculates the overall force of the data. At the time of the calculation, the function is used to weight each chip position.
[0213] [方法の概説(図 18ないし図 21参照)] [0213] [Outline of the method (see Figure 18 to Figure 21)]
(1) DNAチップ上の小領域ごとにこの「f」から「h」の中央値、な 、し「j」を算出する。 (1) Calculate the median of “h” or “j” from “f” for each small region on the DNA chip.
(2) DNAチップ上の物理的な位置(或いはスポットのたてよこの位置)の関数として、
それらの小区間ごと fから hの中央値、ないし j値をなるベく満足するなめらかな関数を 求める。 (2) As a function of the physical position on the DNA chip (or the position of the spotlight) For each of these sub-intervals, find a smooth function that satisfies the median or j value of f to h.
(3) yの算出の際に、各スポットについて、そのスポットの位置の、その関数の値を、 γにカ卩える。 (3) When calculating y, for each spot, the value of the function of the position of that spot is stored in γ.
(4) γは DNAチップの各部分によって異なる値になる。足し算的な影響をうけて、最 小値がもちあがった箇所では、 γが大きくなる。これが足し算的な影響を補正する。 (4) γ is different depending on each part of the DNA chip. Γ increases when the minimum value rises due to the addition effect. This corrects for the additive effect.
[0214] [具体的な処理] [0214] [Specific processing]
アジレント社の DNAチップについて考えてみる。 DNAチップを洗うときに温度を変 える工程があるとき、チップの保持の方法、または、水流によってチップ表面に温度 勾配が生じる。この勾配が解消されるまでの間、ハイブリダィゼーシヨンは異なる状態 で進むため、結果としてムラを生ずる。 Consider an Agilent DNA chip. When there is a process of changing the temperature when washing the DNA chip, a temperature gradient is generated on the chip surface by the method of holding the chip or by the water flow. Until this gradient is resolved, the hybridization proceeds in different states, resulting in unevenness.
[0215] このムラを、 DNAチップの縦方向および横方向の 2つの成分に分けて考えた。これ は、平面の関数を定義するのが容易ではな力つたので、それを避けるためである。縦 方向と横方向の、 2つの曲線の関数として簡単にした。 [0215] This unevenness was considered by dividing it into two components in the vertical and horizontal directions of the DNA chip. This is to avoid the fact that it is not easy to define a plane function. Simplified as a function of two curves, vertical and horizontal.
[0216] 縦方向に任意の位置で切っても同じような曲線が得られ、かつ、横方向に任意の 位置で切っても同じような曲線が得られるという面を仮定した。このような面は椀のよう な形状である。 [0216] It was assumed that a similar curve could be obtained by cutting at an arbitrary position in the vertical direction, and a similar curve could be obtained by cutting at an arbitrary position in the horizontal direction. Such a surface is shaped like a heel.
[0217] 上記仮定の下で、以下のような小領域を設定することができる。 [0217] Under the above assumption, the following small regions can be set.
[0218] 縦方向に 3列分のデータ群 [0218] Three rows of data in the vertical direction
横方向に 1行分のデータ群 Data group for one row in the horizontal direction
図 19に示すように、補正処理部 34は、まず上述した小領域を設定し、データ群か ら最小値を見出し (ステップ 1901)、チップ位置を X軸、最小値を y軸としてプロットす る (ステップ 1902)。次いで、補正処理部 34は、プロットごとに、最小二乗法でリニア 近似する。ただし、本実施の形態においては、係数は移動平均などを用いて計算し ている。つまり、そのデータを囲む前後 10ずつのデータをもとに、リニア近似した。そ の結果、関数は多数の直線を合成した曲線として表される。このような処理により、縦 位置の関数および横位置の関数を得ることができる。 As shown in FIG. 19, the correction processing unit 34 first sets the small region described above, finds the minimum value from the data group (step 1901), and plots the chip position as the X axis and the minimum value as the y axis. (Step 1902). Next, the correction processing unit 34 performs linear approximation by the least square method for each plot. However, in this embodiment, the coefficient is calculated using a moving average or the like. In other words, linear approximation was performed based on 10 data before and after surrounding the data. As a result, the function is expressed as a curve composed of many straight lines. By such processing, a vertical position function and a horizontal position function can be obtained.
[0219] 全てのデータは縦横 2つの関数をもっている。したがって、あるスポットについての
0を算出する際に、元々算出されている一定値である γにその 2つの関数の値を、 以下のようにそれぞれ加えればょ 、。 [0219] All data has two functions, vertical and horizontal. So for a spot When calculating 0, add the values of the two functions to γ, which is the constant value that was originally calculated, as follows:
[0220] (あるスポットについての特定の γ ) = γ (—定値) +縦関数値 +横関数値 [0220] (specific γ for a spot) = γ (—constant value) + longitudinal function value + transverse function value
[掛け算的な影響(図 18、図 19、図 22、および、図 23参照)] [Multiplicative effects (see Figure 18, Figure 19, Figure 22, and Figure 23)]
掛け算的な影響は、ハイブリダィズした量にのみ影響する。この影響は (3パラメ一 タ正規分布の中央値であるところの) μへの影響である。この影響が顕著に現れるの はデータの中央値である。あらかじめ γを引いておいた DNAチップのデータの中央 値力 チップの各位置によって変化する。 Multiplicative effects only affect the amount of hybridization. This effect is on μ (where it is the median of the three-parameter normal distribution). This effect is evident in the median value of the data. The median force of the data of the DNA chip that has been previously subtracted γ Varies depending on the position of the chip.
[0221] この変化を図るために、 γと同じような小区域を考える。その区域ごとに中央値を算 出し、データの補正に用いる。区域の大きさとノイズ、ムラの補正の忠実さとの背反関 係は、 [足し算的な影響]のケースとまったく同じである。この解決方法も同じものが使 える。 [0221] To make this change, consider a small area similar to γ. The median value is calculated for each area and used to correct the data. The contradictory relationship between the size of the area and the fidelity of noise and unevenness correction is exactly the same as the case of [additive effect]. The same solution can be used.
[0222] [具体的な処理] [0222] [Specific processing]
ムラを、足し算的な影響の場合と同様に、 DNAチップの縦方向および横方向の 2 つの成分に分けて考えた。これは、平面の関数を定義するのが困難であることを考 慮し、それを避けるためである。縦方向と横方向の、 2つの曲線の関数として簡単に した。 As in the case of the additive effect, unevenness was divided into two components in the vertical and horizontal directions of the DNA chip. This is to avoid the fact that it is difficult to define a plane function. Simplified as a function of two curves, vertical and horizontal.
[0223] 縦方向のどの位置で切っても同じような曲線が得られ、かつ、横方向のどの位置で 切っても同じような曲線が得られるという面を仮定した。 [0223] It was assumed that a similar curve could be obtained at any position in the vertical direction, and a similar curve could be obtained at any position in the horizontal direction.
[0224] 上記仮定の下で、以下のような小領域を設定することができる。 [0224] Under the above assumption, the following small regions can be set.
[0225] 縦方向に 3列分のデータ群 [0225] Three rows of data in the vertical direction
横方向に 1行分のデータ群 Data group for one row in the horizontal direction
そこで、補正処理部 34は、小領域を設定し、これらのデータ力 中央値を見つけ出 し、チップ位置を X軸に、最小値を y軸にしてプロットする。次いで、補正処理部 34は 、プロットのデータをゆるやかにつなぐ関数を縦方向、横方向それぞれに見出す。よ り詳細には、補正処理部 34は、プロットごとに、最小二乗法でリニア近似する。ただし 、本実施の形態においては、係数は移動平均などを用いて計算している。つまり、そ のデータを囲む前後 10ずつのデータに基づき、リニア近似している。その結果、関
数は多数の直線を合成した曲線として表された。このような処理により、縦位置の関 数および横位置の関数が得ることができる。 Therefore, the correction processing unit 34 sets a small area, finds the median value of these data forces, and plots the chip position on the X axis and the minimum value on the y axis. Next, the correction processing unit 34 finds a function that gently connects the plot data in the vertical direction and the horizontal direction. More specifically, the correction processing unit 34 performs linear approximation by the least square method for each plot. However, in the present embodiment, the coefficient is calculated using a moving average or the like. In other words, linear approximation is performed based on 10 data before and after surrounding the data. As a result, The number was expressed as a curve composed of a number of straight lines. By such processing, the function of the vertical position and the function of the horizontal position can be obtained.
[0226] 全てのデータは縦横 2つの関数をもっている。あるスポットについての μを算出する 際に、元々算出されている一定値である にその 2つの関数の値を、以下のようにそ れぞれ加えればよい。 [0226] All data has two functions, vertical and horizontal. When calculating μ for a certain spot, the values of the two functions should be added to the fixed values originally calculated as follows.
[0227] (あるスポットについての特定の μ ) = μ (一定値) +縦関数値 +横関数値 [0227] (specific μ for a spot) = μ (constant value) + longitudinal function value + transverse function value
なお、 μは、 log (xi- y )の中央値である。 Μ is the median value of log (xi-y).
[0228] [図 18および図 19の処理のより詳細な説明] [0228] [Detailed description of processing in FIGS. 18 and 19]
以下、図 18および図 19に示す処理についてより詳細に説明する。処理装置 10の ムラ検出部 32は、データバッファ 30から原データを読み出し (ステップ 1801)、ムラ 検出の第 4の方法(図 24および図 25)により、よごれがあると判断されたデータを棄 却する (ステップ 1802)。次いで、ムラ検出部 32は、ムラ検出の第 1の手法〜第 3の 手法(図 3〜図 5)の少なくとも 1以上の処理を実行する (ステップ 1803)。ここで、どの 手法を実行するかはオペレータが判断して、入力装置を操作して、実行すべき 1以 上の手法を入力すればょ 、。 Hereinafter, the processing shown in FIGS. 18 and 19 will be described in more detail. The unevenness detection unit 32 of the processing device 10 reads the original data from the data buffer 30 (step 1801), and rejects data determined to be dirty by the fourth method of unevenness detection (FIGS. 24 and 25). (Step 1802). Next, the unevenness detection unit 32 executes at least one of the first to third methods (FIGS. 3 to 5) of unevenness detection (step 1803). Here, the operator decides which method is to be executed, operates the input device, and inputs one or more methods to be executed.
[0229] ムラが検出されない場合 (ステップ 1804でノー (No))には処理を終了する。その一 方、ムラが検出された場合には (ステップ 1804でイエス (Yes))、補正処理部 34は、原 データのマトリクスへの帰属をチェックする(ステップ 1805)。本実施の形態において 、スポットのデータ値は便宜的に一本のカラムとして一次元的にデータバッファ中に 記憶されている。その一方、もともとは DNAチップにはスポットがマトリクス上に配置さ れている。したがって、ステップ 1805においては、スポットのデータ値をそれぞれ二 次元の配列として扱うための情報が取得される。 If non-uniformity is not detected (No in step 1804), the process ends. On the other hand, when unevenness is detected (Yes in Step 1804), the correction processing unit 34 checks the attribution of the original data to the matrix (Step 1805). In this embodiment, the spot data values are stored one-dimensionally in the data buffer as one column for convenience. On the other hand, spots are originally arranged on the matrix in the DNA chip. Accordingly, in step 1805, information for handling each spot data value as a two-dimensional array is acquired.
[0230] 次!、で、補正処理部 34は、原データを参照して、 DN Aチップの個々のスポットに ついて、もとの DNAチップ上の行および列の情報を取得する(ステップ 1806)。補正 処理部 34は、 DNAチップの第 c行に対応するチップ上の物理的な位置 Xcを求める (ステップ 1807)とともに、第 w列に対応するチップ上の物理的な位置 Xwを求める( ステップ 1808)。ここに本実施の形態において、行は、 DNAチップにおいて縦方向 に連なる一群のスポットを特定し、列は横方向に連なる一群のスポットを特定する。こ
れにより、たとえば、第 c行第 w列のスポットの位置は、(Xc, Xw)で特定すること可能 となる。 [0230] Next !, the correction processing unit 34 refers to the original data, and acquires the row and column information on the original DNA chip for each spot of the DNA chip (step 1806). . The correction processing unit 34 obtains the physical position Xc on the chip corresponding to the c-th row of the DNA chip (step 1807) and obtains the physical position Xw on the chip corresponding to the w-th column (step 1808). ). Here, in the present embodiment, a row specifies a group of spots that are continuous in the vertical direction on the DNA chip, and a column specifies a group of spots that are continuous in the horizontal direction. This Thus, for example, the position of the spot in the c-th row and the w-th column can be specified by (Xc, Xw).
[0231] 次いで、図 19に示すように、補正処理部 34は、オペレータからの指示にしたがって 、以下に説明する補正方法 A〜Dの少なくとも 1以上を実行する (ステップ 1809)。 Next, as shown in FIG. 19, the correction processing unit 34 executes at least one of the correction methods A to D described below in accordance with an instruction from the operator (step 1809).
[0232] 図 20、図 21、図 22および図 23は、それぞれ、補正方法 A〜Dを詳細に示すフロー チャートである。図 20は、「足し算的なムラの補正」であって、かつ、縦行の補正に関 し、図 21は、「足し算的なムラの補正」であって、かつ、横列の補正に関する。また、 図 22は、「掛け算的なムラの補正」であって、かつ、縦行の補正に関し、図 23は、「掛 け算的なムラの補正」であって、かつ、横列の補正に関する。 20, FIG. 21, FIG. 22, and FIG. 23 are flowcharts showing the correction methods A to D in detail, respectively. FIG. 20 shows “additional unevenness correction” and vertical correction, and FIG. 21 shows “additional unevenness correction” and row correction. FIG. 22 is “correction of multiplication unevenness” and relates to correction of vertical lines, and FIG. 23 is “correction of multiplication unevenness” and relates to correction of rows. .
[0233] 図 20の処理において、補正処理部 34は、縦第 c行、或いは、当該第 c行を含む数 行 (たとえば、第 (c 1)行、第 c行および第 (c+ 1)行の 3行)のスポットのデータ値の 最小値 MINcを求め、データバッファ 30に記憶する(ステップ 2001)。最小値 MINc は、すべての行について求められ、データバッファ 30に記憶される。 In the processing of FIG. 20, the correction processing unit 34 performs the vertical c-th row or several rows including the c-th row (for example, the (c 1) -th row, the c-th row, and the (c + 1) -th row). 3), the minimum value MINc of the spot data value is obtained and stored in the data buffer 30 (step 2001). The minimum value MINc is determined for all rows and stored in the data buffer 30.
[0234] 次!、で、補正処理部 34は、 MINcをスポットの X座標である Xcで近似するような、な めらかで連続した関数 f (Xc)を求める (ステップ 2002)。次いで、第 c行のスポットの データ値のそれぞれから、当該第 c行に対応する X座標である Xcを代入した f (Xc)を 減じる (ステップ 2003)。補正処理部 34は、このようにして f (Xc)を減じたデータ値を 、データバッファ 30に記憶する(ステップ 2004)。 [0234] Next !, the correction processing unit 34 obtains a smooth and continuous function f (Xc) that approximates MINc by Xc that is the X coordinate of the spot (step 2002). Next, f (Xc) substituted with Xc, which is the X coordinate corresponding to the c-th row, is subtracted from each data value of the spot on the c-th row (step 2003). The correction processing unit 34 stores the data value obtained by subtracting f (Xc) in this way in the data buffer 30 (step 2004).
[0235] 図 21の処理は、基本的には、図 20の処理と同様である。図 20の処理では、縦第 c 行が利用されているのに対して、図 21の処理では、横第 w列が使用され、 MINwを 、スポットの y座標である Xwで近似する、なめらかで連続する関数 g (Xw)が求められ る(ステップ 2102参照)。補正処理部 34は、第 w列のスポットのデータ値のそれぞれ から、第 w列に対応する y座標である Xwを代入した g (Xw)を減じて (ステップ 2103) 、減算されたデータ値をデータバッファに記憶する (ステップ 2104)。 [0235] The processing in Fig. 21 is basically the same as the processing in Fig. 20. In the process of Fig. 20, the vertical c row is used, while in the process of Fig. 21, the horizontal w column is used, and MINw is approximated by Xw which is the y coordinate of the spot. A continuous function g (Xw) is determined (see step 2102). The correction processing unit 34 subtracts g (Xw) substituted with Xw, which is the y coordinate corresponding to the w-th column, from each of the spot data values in the w-th column (step 2103), and subtracts the subtracted data value. Store in the data buffer (step 2104).
[0236] 図 22に示すように、掛け算的なムラを補正する場合には、補正処理部 34は、足し 算的なムラの補正(図 20、図 21に示す補正)を実行すべきカゝ否かを判断する (ステツ プ 2201)。これは、オペレータによる補正指示に含まれる、実行すべき補正の種別を 参照して判断すればよい。ステップ 2201でノー (No)と判断された場合には、標準化
処理部 31が、データバッファ 30に記憶された原データを読み出して、データを標準 化し、ノ ックルグラウンド値 γを求める(ステップ 2202)。この γは、上述した式 z = (log (x— y ) ~ μ ) / σ [0236] As shown in FIG. 22, in the case of correcting multiplicative unevenness, the correction processing unit 34 should execute correction of additive unevenness (correction shown in FIGS. 20 and 21). Determine whether or not (step 2201). This may be determined by referring to the type of correction to be executed, which is included in the correction instruction from the operator. If NO in step 2201, standardize The processing unit 31 reads the original data stored in the data buffer 30, normalizes the data, and obtains the knock ground value γ (step 2202). This γ is the above-mentioned formula z = (log (x− y) ~ μ) / σ
において利用されるものである。 Is used.
次いで、標準化処理部 31は、原データのデータ値から、算出したバックグラウンド 値 γを減じて、減算されたデータ値をデータバッファ 30に記憶する (ステップ 2203) 。次いで、補正処理部 34は、縦第 c行、或いは、当該第 c行を含む数行のスポットの データ値の中央値 MEDcを求め、データバッファ 30に記憶する(ステップ 2204)。中 央値 MEDcは、全ての行について求められ、データバッファ 30に記憶される。 Next, the standardization processing unit 31 subtracts the calculated background value γ from the data value of the original data, and stores the subtracted data value in the data buffer 30 (step 2203). Next, the correction processing unit 34 obtains the median value MEDc of the data values of the spots in the vertical c-th row or several rows including the c-th row and stores them in the data buffer 30 (step 2204). The median value MEDc is obtained for all rows and stored in the data buffer 30.
[0237] 次いで、補正処理部 34は、 MEDcをスポットの X座標である Xcで近似するような、 なめらかで連続した関数 h (Xc)を求める(ステップ 2205)。次いで、第 c行のスポット のデータ値 (バックグラウンド値 γが減算されたデータ値)のそれぞれを、当該第 c行 に対応する X座標である Xcを代入した h (Xc)で除する (ステップ 2206)。補正処理部 34は、このようにして得られた除算された値を、データバッファ 30に記憶する (ステツ プ 2207)。 Next, the correction processing unit 34 obtains a smooth and continuous function h (Xc) that approximates MEDc with Xc that is the X coordinate of the spot (step 2205). Next, each data value of the spot in the c-th row (data value obtained by subtracting the background value γ) is divided by h (Xc) into which Xc corresponding to the c-th row is substituted (step c). 2206). The correction processing unit 34 stores the divided value thus obtained in the data buffer 30 (step 2207).
[0238] 横列についての補正処理(図 23)は、基本的に図 22の処理と同様である。同様の 処理で得られた、 MEDwを、スポットの y座標である Xwで近似するようななめらかで 連続した関数 j (Xw)が求められ、スポットのデータ値が、 j (Xw)で除算され、除算さ れた値が、データバッファ 30に記憶される。 The correction process (FIG. 23) for the row is basically the same as the process of FIG. A smooth and continuous function j (Xw) that approximates the MEDw obtained by the same process with Xw that is the y coordinate of the spot is obtained, and the data value of the spot is divided by j (Xw), The divided value is stored in the data buffer 30.
[0239] 図 20〜図 23に示す処理の 1以上が実行された後に、標準化処理部 31が、補正後 のデータ値を標準化する (ステップ 1810)。ここにいう標準化は、前述したように以下 の式を用いたものである。 [0239] After one or more of the processes shown in Figs. 20 to 23 are executed, the standardization processing unit 31 standardizes the corrected data values (step 1810). Standardization here uses the following formula as described above.
[0240] z = (log (x - γ ) ~ μ ) / σ [0240] z = (log (x-γ) ~ μ) / σ
これは、図 20〜図 23の処理により補正がされたデータ値は標準化されていないか らである。 This is because the data values corrected by the processes in FIGS. 20 to 23 are not standardized.
[0241] さらに、ムラ検出部 32が、ムラ検出の第 1の手法〜第 3の手法(図 3〜図 5)を実行し て、補正の効果を確認する (ステップ 181 1)。なお、本実施の形態においては、補正 方法 A〜Dのいずれかひとつ、あるいは、 2つ以上の組み合わせのすべてを利用し
て、それぞれ補正後のデータを得る (ステップ 1812)。 [0241] Further, the unevenness detection unit 32 executes the first to third methods (FIGS. 3 to 5) of the unevenness detection to confirm the effect of the correction (Step 1811). In this embodiment, any one of correction methods A to D or a combination of two or more is used. Thus, each corrected data is obtained (step 1812).
[0242] 補正後のデータについて、ムラが発見された場合 (ムラが許容範囲を超えると判断 された場合)には (ステップ 1813でノー (No))、原データが棄却される (ステップ 1816 )。その一方、ムラがない (許容範囲内)と判断された場合には場合 (ステップ 1813で イエス (Yes))、補正されかつ標準化されたデータ値をデータバッファ 30に格納する( ステップ 1815)。以後、解析には、補正され標準化されたデータ値が用いられる。な お、補正方法 A〜Dの複数の組み合わせにより、複数の補正されたデータ値群が存 在する場合には、補正処理部 34は、補正後のデータ値を標準化したものの分布力 対数正規分布にもっとも近似するような補正方法の組み合わせを選択し (ステップ 18 14)、その組み合わせにより補正されたデータ値を、データバッファ 30に記憶する。 [0242] When unevenness is found in the corrected data (when it is determined that the unevenness exceeds the allowable range) (No in Step 1813), the original data is rejected (Step 1816). . On the other hand, if it is determined that there is no unevenness (within the allowable range) (Yes in Step 1813), the corrected and standardized data value is stored in the data buffer 30 (Step 1815). Thereafter, the corrected and standardized data values are used for the analysis. If multiple corrected data value groups exist due to multiple combinations of the correction methods A to D, the correction processing unit 34 uses the distribution power logarithm normal distribution of the standardized data values after correction. A combination of correction methods that most closely approximates the data is selected (step 1814), and the data value corrected by the combination is stored in the data buffer 30.
[0243] [ムラ検出の第 4の手法についてフローチャートのより詳細な説明] [0243] [Detailed description of flowchart for fourth method of unevenness detection]
ムラ検出の第 4の手法には、図 24に示す手法と、図 25に示す手法とが存在する。 これらについて、フローチャートを参照しつつ、より詳細に説明する。 The fourth method of unevenness detection includes the method shown in FIG. 24 and the method shown in FIG. These will be described in more detail with reference to flowcharts.
[0244] 図 24に示すように、ムラ検出部 32は、たとえば、オペレータによる入力に基づいて 棄却水準を決定する。棄却水準としては、たとえば、 2 σを使用すればよい。次いで、 ムラ検出部 32は、データバッファ 30から、処理対象となる DNAチップの原バックダラ ゥンドデータを読み出す (ステップ 2401)。この原バックグラウンドデータについて説 明する。 As shown in FIG. 24, the unevenness detection unit 32 determines the rejection level based on, for example, input by the operator. For example, 2σ should be used as the rejection level. Next, the unevenness detection unit 32 reads the original back-round data of the DNA chip to be processed from the data buffer 30 (step 2401). This original background data will be explained.
[0245] たとえば、アジレント社の DNAチップでは、 ポットを通らない場所がクッキー カッターと 、うアルゴリズムを利用して切り取られる。 DNAチップのスポットとスポットと の間の、スポットとは重ならない場所が選択されて、その場所のデータ値が測定され 、これがバックグラウンド測定値となる。たとえば、斜め方向に隣接するスポット間の中 央であれば、どのスポットにも重ならない。通常、スポット数と同じ数のバックグラウンド 測定値が取得される。本実施の形態でも、スポット数と同じ数のバックグラウンド測定 値がデータバッファ 30に記憶され、これが、ステップ 2401における原バックグラウン ドデータとなる。また、データバッファ 30に記憶されたバックグラウンド測定値は、それ ぞれ、スポットと関連付けられている。 [0245] For example, in an Agilent DNA chip, a portion that does not pass through the pot is cut out using a cookie cutter and a squeeze algorithm. A place between the spots on the DNA chip that does not overlap with the spot is selected, and the data value of the place is measured, which becomes the background measurement value. For example, it does not overlap any spot as long as it is in the middle between diagonally adjacent spots. Usually, the same number of background measurements as the number of spots is taken. Also in this embodiment, the same number of background measurement values as the number of spots are stored in the data buffer 30, and this becomes the original background data in step 2401. Each background measurement stored in the data buffer 30 is associated with a spot.
[0246] なお、実測されたバックグラウンド測定値は、ほとんど同じ値をとる。ところが、チップ
上のその位置に光るゴミなどが存在すれば、当然、ノックグラウンド値は、その光の 影響で、大きくなる。ノックグラウンド値は正規分布するため、その値が異常に上昇し ているバックグラウンド測定値に関するスポットは、その分布力も外れると考えることが できる。 [0246] The actually measured background measurement values are almost the same. However, the chip Naturally, if there is dust or other light that shines on that position, the knock ground value will increase due to the influence of the light. Since the knock ground value is normally distributed, it can be considered that the spot related to the background measurement value in which the value is abnormally rising also deviates from the distribution force.
[0247] ムラ検出部 32は、原バックグラウンドデータが正規分布すると仮定して、代表値 Mb およびスケール値 Sbを算出する(ステップ 2403)。ここに、代表値 Mbとして、中央値 としてロバストに求められるところの平均値を用いることができる。また、スケール値と して、 IQRや MADSなどで計算されるところの、標準偏差を用いることができる。 [0247] The unevenness detection unit 32 calculates the representative value Mb and the scale value Sb on the assumption that the original background data is normally distributed (step 2403). Here, as the representative value Mb, the average value that is robustly obtained as the median value can be used. As the scale value, the standard deviation calculated by IQR or MADS can be used.
[0248] 次に、ムラ検出部 32は、スポットごとのバックグラウンド測定値である個別バックダラ ゥンド値をデータバッファ 30から読み出し (ステップ 2404)、以下の式にしたがってデ 一タ値を標準化する (ステップ 2405)。 [0248] Next, the unevenness detection unit 32 reads an individual back-round value, which is a background measurement value for each spot, from the data buffer 30 (step 2404), and standardizes the data value according to the following formula (step 2404). 2405).
[0249] Zbi = (Xbi Mb) /Sb [0249] Zbi = (Xbi Mb) / Sb
ムラ検出部 32は、算出された Zbiが棄却水準以下力否かを判断する (ステップ 240 The unevenness detection unit 32 determines whether or not the calculated Zbi is below the rejection level (step 240).
6)。ステップ 2406でノー (No)と判断された場合、つまり、 Zbiが棄却水準より大きい場 合には、処理対象となった個別バックグラウンド値と関連付けられたスポットのデータ 値を棄却する (ステップ 2407) 6). If NO in step 2406, that is, if Zbi is greater than the rejection level, reject the spot data value associated with the individual background value being processed (step 2407)
実際には、データバッファ 30中、棄却と判断されたデータ値について、棄却された ことを示すフラグなどを付加すればよい。フラグが付加されたデータ値は、これ以降、 データ解析などに利用されない。 In practice, a flag indicating that the data value is determined to be rejected in the data buffer 30 may be added. The data value with the flag added is no longer used for data analysis.
[0250] 全てのスポットのデータについての個別バックグラウンド値について、ステップ 2405[0250] Step 2405 for individual background values for all spot data
〜ステップ 2407の処理が実行される(ステップ 2408参照)。 To Step 2407 are executed (see Step 2408).
[0251] 次に、図 25の処理について、より詳細に説明する。図 25において、ステップ 2501Next, the process of FIG. 25 will be described in more detail. In Figure 25, step 2501
、 2502ίま、それぞれ、図 24のステップ 2402、 2403にネ目当する。ムラ検出咅 32ίま、 個別バックグラウンド値 Xbiを読み出し (ステップ 2503)、以下の式により個別バックグ ラウンド値 Xbiを標準化する (ステップ 2504)。 , 2502ί, step 2402 and 2403 in Fig. 24 respectively. The individual background value Xbi is read out until uneven detection ί32ί (step 2503), and the individual background value Xbi is standardized by the following formula (step 2504).
[0252] Zbi = (Xbi Mb) /Sb [0252] Zbi = (Xbi Mb) / Sb
この標準化は、図 24のステップ 2405の標準化と同じである。この手法においては、 This standardization is the same as the standardization in step 2405 of FIG. In this method,
DNAチップのすべての個別バックグラウンド値が読み出されて、ノ ックグラウンド値
が標準化される。ムラ検出部 32は、算出された Zbiを降順で並べ替える (ステップ 25 05)。また、ムラ検出部 32は、正規分布モデルの理論値にしたがって、 Normal Pr obability Protを作製する (ステップ 2506)。ムラ検出部 32は、降順に並べられた Z biと、 Normal Probability Protとを比較して、 Zbiの値が理論値と一致するような 範囲を検出する (ステップ 2507)。これは、完全一致でなくてもよぐ一定の誤差の範 囲内であるような Zbiの範囲を検出しても良い。 All individual background values of the DNA chip are read out and knocked out Is standardized. The unevenness detection unit 32 rearranges the calculated Zbi in descending order (step 25 05). Further, the unevenness detection unit 32 creates Normal Probability Prot according to the theoretical value of the normal distribution model (step 2506). The unevenness detection unit 32 compares Z bi arranged in descending order with Normal Probability Prot, and detects a range in which the value of Z bi matches the theoretical value (step 2507). This may detect a Zbi range that does not have to be an exact match but is within a certain range of errors.
[0253] ムラ検出部 32は、標準化された個別バックグラウンド値 Zbiを読み出し (ステップ 25 08)、読み出された Zbiが、理論値と一致する範囲の上限以下である力否かを判断 する(ステップ 2509)。ステップ 2509でノー (No)と判断された場合には、 Zbi算出の 基礎となった個別バックグラウンド値 Xbiに関連付けられたスポットのデータを棄却す る(ステップ 2510)。すべてのスポットのデータについての個別バックグラウンド値を 用いて算出された値 Zbiについて、ステップ 2509、 2510の処理が実行される(ステツ プ 2511参照)。 [0253] The unevenness detection unit 32 reads the standardized individual background value Zbi (step 2508), and determines whether the read Zbi is less than or equal to the upper limit of the range that matches the theoretical value ( Step 2509). If NO in step 2509, the spot data associated with the individual background value Xbi, which is the basis for Zbi calculation, is rejected (step 2510). The processing of steps 2509 and 2510 is performed on the value Zbi calculated using the individual background values for all spot data (see step 2511).
[0254] [きりしろのスポットの診断に関する処理] [0254] [Process for diagnosis of critical spots]
前述したように、ノックグラウンドが高いまとまりを見つけ出し、そのまとまりに接する 、まとまりの外側のデータを棄却すると、再現性のないデータを避けることができる(図 26)。この図 26に示す処理についてより詳細に説明する。 As described above, if a cluster with a high knock ground is found and the data outside the cluster that touches the cluster is rejected, non-reproducible data can be avoided (Figure 26). The processing shown in FIG. 26 will be described in more detail.
[0255] まず、ムラ検出部 32は、オペレータによる入力に基づ!/、て、棄却水準を決定する( ステップ 2601)。棄却水準として、たとえば、 2 σを利用しても良い。無論、他の水準 を採用しても良いことはいうまでもない。次いで、ムラ検出部 32は、処理対象となるス ポットの周辺領域の標準化バックグラウンド値 Zbiを、データバッファ 30から読み出す (ステップ 2602)。この標準化バックグラウンド値 Zbiは、図 24および図 25に説明した ものと同様に、個別バックグラウンド値 Xbiに、 Zbi= (Xbi—Mb) ZSbという演算を施 したものである。また、処理対象となるスポットの周辺領域として、ムラ検出部 32は、 当該スポットを中心とする 5 X 5のマトリクス、 7 X 7のマトリクス、 3 X 3のマトリクスなど を利用することができる。 [0255] First, the unevenness detection unit 32 determines a rejection level based on the input by the operator! (Step 2601). For example, 2σ may be used as the rejection level. Of course, it goes without saying that other levels may be adopted. Next, the unevenness detection unit 32 reads out the standardized background value Zbi of the peripheral area of the spot to be processed from the data buffer 30 (step 2602). The standardized background value Zbi is obtained by performing an operation of Zbi = (Xbi−Mb) ZSb on the individual background value Xbi in the same manner as described in FIGS. Further, as the peripheral region of the spot to be processed, the unevenness detection unit 32 can use a 5 × 5 matrix, a 7 × 7 matrix, a 3 × 3 matrix, or the like centered on the spot.
[0256] この処理対象となるスポットを個別スポット、周辺領域のスポットを周辺スポットとも称 する。次いで、ムラ検出部 32は、個別スポットのマトリクス上の位置と、周辺スポットの
それぞれのマトリクス上の位置とを参照して、個別スポットと周辺スポットとの間の距離 rを以下の式にしたがって求める(ステップ 2603)。 [0256] Spots to be processed are also referred to as individual spots, and spots in the peripheral area are also referred to as peripheral spots. Next, the unevenness detection unit 32 detects the positions of the individual spots on the matrix and the surrounding spots. With reference to the position on each matrix, the distance r between the individual spot and the peripheral spot is obtained according to the following equation (step 2603).
[0257] r= (x"2+y"2) "0. 5 [0257] r = (x "2 + y" 2) "0.5
なお、 x、 yは、それぞれ、行方向の距離の情報、列方向の距離の情報である。距離 の情報として、行番号の差、列番号の差を利用することができる。 X and y are information on the distance in the row direction and information on the distance in the column direction, respectively. As the distance information, the difference in row number and the difference in column number can be used.
[0258] その後、ムラ検出部 32は、周辺スポットの標準化バックグラウンド値 Zbiと距離 rとに 基づいて、(ZbiZr'2)をそれぞれ算出して、その総和値 Bを、個別スポットに割り当 てて、データバッファ 30に記憶する (ステップ 2604)。ムラ検出部 32は、算出された 値 Bが棄却基準以下力否かを判断する(ステップ 2605)。ステップ 2605でノー (No)と 判断された場合には、総和値 Bを割り当てられた個別スポットのデータ値を棄却する( ステップ 2606)。たとえば、データバッファ 30中、棄却と判断されたデータ値につい て、棄却されたことを示すフラグなどを付加すればよい。フラグが付加されたデータ値 は、これ以降、データ解析などに利用されない。 [0258] After that, the unevenness detection unit 32 calculates (ZbiZr'2) based on the standardized background value Zbi of the surrounding spots and the distance r, and assigns the sum B to the individual spots. And stored in the data buffer 30 (step 2604). The unevenness detection unit 32 determines whether or not the calculated value B is less than the rejection criterion (step 2605). If it is determined NO in step 2605, the data value of the individual spot assigned with the total value B is rejected (step 2606). For example, a flag indicating that the data value is determined to be rejected in the data buffer 30 may be added. The data value with the flag added is no longer used for data analysis.
[0259] ムラ検出部 32は、すべてのスポットについて、ステップ 2602〜ステップ 2606の処 理を実行する (ステップ 2607参照)。 [0259] The unevenness detection unit 32 executes the processing of Step 2602 to Step 2606 for all spots (see Step 2607).
[0260] 本発明は、以上の実施の形態に限定されることなぐ特許請求の範囲に記載された 発明の範囲内で、種々の変更が可能であり、それらも本発明の範囲内に包含される ものであることは言うまでもない。 [0260] The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope of the invention described in the claims, and these are also included in the scope of the present invention. Needless to say, it is something.
[0261] たとえば、前記実施の形態において、ムラの検出(たとえば、図 3〜図 7参照)を実 行して、ムラがあると判断された DNAチップについて、ムラの態様 (グラデーションを もつムラであるかなど)を判断し、場合によって、補正或いは一部または全部のデー タの棄却を行っている。し力しながら、これに限定されるものではなぐムラの検出を 経ることなぐムラの態様の判断、補正或いはデータの棄却が実行されても良い。 産業上の利用分野 [0261] For example, in the above embodiment, unevenness detection (for example, unevenness with gradation) is performed on a DNA chip that is determined to have unevenness by performing unevenness detection (for example, see FIGS. 3 to 7). Etc.), and in some cases, amendments or rejects some or all data. However, the present invention is not limited to this, and non-uniformity detection, non-uniformity determination, correction, or data rejection may be executed. Industrial application fields
[0262] 本発明は、 DNAチップの解析のために利用することができる。特に、 DNAチップ 上のムラを検出し、スポットのデータ値を補正し、また、補正が不可能である場合には 、 DNAチップのデータの一部あるいは全部を棄却すべきと判断する。したがって、よ り正確かつ適切な解析が可能となる。
図面の簡単な説明 [0262] The present invention can be used for analysis of DNA chips. In particular, the unevenness on the DNA chip is detected, the spot data value is corrected, and if correction is impossible, it is determined that part or all of the DNA chip data should be rejected. Therefore, more accurate and appropriate analysis is possible. Brief Description of Drawings
[図 1]図 1は、本発明の実施の形態に力かる遺伝子発現データ処理装置のハードウ エア構成図である。 FIG. 1 is a hardware configuration diagram of a gene expression data processing apparatus according to an embodiment of the present invention.
[図 2]図 2は、本実施の形態に力かる処理装置の要部の機能ブロックダイヤグラムで ある。 [FIG. 2] FIG. 2 is a functional block diagram of the main part of the processing apparatus which is effective in the present embodiment.
[図 3]図 3は、ムラ検出部で実行される第 1の手法に力かる処理を示すフローチャート である。 [FIG. 3] FIG. 3 is a flowchart showing a process that works on the first method executed by the unevenness detection unit.
[図 4]図 4は、ムラ検出部で実行される第 2の手法に力かる処理を示すフローチャート である。 [FIG. 4] FIG. 4 is a flowchart showing a process that works on the second method executed by the unevenness detection unit.
[図 5]図 5は、ムラ検出部で実行される第 3の手法に力かる処理を示すフローチャート である。 [FIG. 5] FIG. 5 is a flowchart showing a process that works on a third method executed by the unevenness detection unit.
[図 6]図 6は、本実施の形態に力かる標準化処理部により実行される標準化処理をよ り詳細に示すフローチャートである。 [FIG. 6] FIG. 6 is a flowchart showing in more detail a standardization process executed by a standardization processing unit that works according to the present embodiment.
[図 7]図 7は、本実施の形態に力かる標準化処理部により実行される標準化処理をよ り詳細に示すフローチャートである。 [FIG. 7] FIG. 7 is a flowchart showing in more detail the standardization processing executed by the standardization processing unit working on the present embodiment.
[図 8]図 8は、本実施の形態において、グラデーションをもつムラの検出処理の例を示 すフローチャートである。 [FIG. 8] FIG. 8 is a flowchart showing an example of detection processing of unevenness having gradation in the present embodiment.
[図 9]図 9は、本実施の形態において、グラデーションをもつムラの検出処理の他の例 を示すフローチャートである。 FIG. 9 is a flowchart showing another example of the unevenness detection process with gradation in the present embodiment.
[図 10]図 10は、本実施の形態において、グラデーションをもつムラの補正処理の例を 示すフローチャートである。 FIG. 10 is a flowchart showing an example of correction processing for unevenness with gradation in the present embodiment.
[図 11]図 11は、本実施の形態に力かる空間補正関数の算出処理の例を示すフロー チャートである。 [FIG. 11] FIG. 11 is a flowchart showing an example of a process of calculating a spatial correction function that is useful in the present embodiment.
[図 12]図 12は、ハイブリダィゼーシヨンに用いられるチャンバ一の例を示す図である FIG. 12 is a diagram showing an example of a chamber used for hybridization.
[図 13]図 13は、ハイブリダィゼーシヨンの原理に基づくムラの検出処理の例を示すフ ローチャートである。 FIG. 13 is a flowchart showing an example of unevenness detection processing based on the principle of hybridization.
[図 14]図 14は、ハイブリダィゼーシヨンの原理に基づくムラの検出処理の他の例を示
すフローチャートである。 FIG. 14 shows another example of unevenness detection processing based on the principle of hybridization. It is a flowchart.
[図 15]図 15は、ハイブリダィゼーシヨンの原理に基づくムラの補正処理の例を示すフ ローチャートである。 FIG. 15 is a flowchart showing an example of unevenness correction processing based on the principle of hybridization.
[図 16]図 16は、ムラの位置を検出する処理の例を示すフローチャートである。 FIG. 16 is a flowchart illustrating an example of processing for detecting a position of unevenness.
[図 17]図 17は、ムラの位置を検出する処理の例を示すフローチャートである。 FIG. 17 is a flowchart illustrating an example of processing for detecting the position of unevenness.
[図 18]図 18は、本実施の形態に力かる空間補正関数の算出処理の例を示すフロー チャートである。 [FIG. 18] FIG. 18 is a flowchart showing an example of a spatial correction function calculation process that works on the present embodiment.
[図 19]図 19は、本実施の形態に力かる空間補正関数の算出処理の例を示すフロー チャートである。 [FIG. 19] FIG. 19 is a flowchart showing an example of a spatial correction function calculation process that is useful in the present embodiment.
[図 20]図 20は、本実施の形態に力かる空間補正関数の算出処理にお! 、て、バックグ ラウンドの足し算的なムラの補正の例を示すフローチャートである。 [FIG. 20] FIG. 20 is a flowchart showing an example of correcting background irregularity in the background correction function calculation process according to the present embodiment.
[図 21]図 21は、本実施の形態に力かる空間補正関数の算出処理にお!、て、バックグ ラウンドの足し算的なムラの補正の他の例を示すフローチャートである。 [FIG. 21] FIG. 21 is a flowchart showing another example of correction of background irregularity in the spatial correction function calculation process that is useful in the present embodiment.
[図 22]図 22は、本実施の形態に力かる空間補正関数の算出処理にお!、て、かけ算 的なムラの補正方法の例を示すフローチャートである。 FIG. 22 is a flowchart showing an example of a method of correcting a multiplicative unevenness in the calculation process of the spatial correction function that works according to the present embodiment.
[図 23]図 23は、本実施の形態に力かる空間補正関数の算出処理にお!、て、かけ算 的なムラの補正方法の例を示すフローチャートである。 FIG. 23 is a flowchart showing an example of a method for correcting a multiplicative unevenness in the process of calculating a spatial correction function that works according to this embodiment.
[図 24]図 24は、ムラ検出部で実行される第 4の手法に力かる処理を示すフローチヤ ートである。 [FIG. 24] FIG. 24 is a flow chart showing a process that works on the fourth method executed by the unevenness detection unit.
[図 25]図 25はムラ検出部で実行される第 4の手法に力かる処理のうち、水準をあらか じめ設定しな 、別法を示すフローチャートである。 [FIG. 25] FIG. 25 is a flowchart showing an alternative method in which the level is not set in advance among the processes related to the fourth method executed by the unevenness detection unit.
[図 26]図 26は、はムラ検出部で実行される第 4の手法に力かる処理のうち、きりしろの 判断を示すフローチャートである。 [FIG. 26] FIG. 26 is a flowchart showing a determination of a margin in a process that works on the fourth method executed by the unevenness detection unit.
符号の説明 Explanation of symbols
10 遺伝子発現データ処理装置 10 Gene expression data processor
12 CPU 12 CPU
14 入力装置 14 Input device
16 表示装置
RAM 16 Display device RAM
ROM ROM
データノ ッファ 標準化処理部 ムラ検出部 補正処理部 画像生成部Data notifier Standardization processing unit Unevenness detection unit Correction processing unit Image generation unit
? f、ロ^ e し' 1思 ρβ
? f, b ^ e s' 1 thought ρβ