WO2018235938A1 - Methods for sequencing and analyzing nucleic acids - Google Patents
Methods for sequencing and analyzing nucleic acids Download PDFInfo
- Publication number
- WO2018235938A1 WO2018235938A1 PCT/JP2018/023778 JP2018023778W WO2018235938A1 WO 2018235938 A1 WO2018235938 A1 WO 2018235938A1 JP 2018023778 W JP2018023778 W JP 2018023778W WO 2018235938 A1 WO2018235938 A1 WO 2018235938A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sequence
- nucleic acid
- barcode
- index
- molecular barcode
- Prior art date
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Definitions
- the present invention relates to methods of sequencing and analyzing nucleic acids.
- next-generation sequencer platforms has made it possible to simultaneously analyze the sequences of a large number of nucleic acids in one run.
- a unique molecular barcode to each molecule of nucleic acid molecules present in the sample, the number of unique molecular barcode types can be made to correspond to the number of nucleic acid molecules, and the platform of the next generation sequencer
- Patent Document 1 and Non-Patent Document 1 The way of digital determination of H. pylori was pioneered (Patent Document 1 and Non-Patent Document 1).
- Patent Document 1 By using a molecular barcode as a random base and lengthening the base sequence, it becomes possible to easily add great diversity to the barcode sequence, and the dynamic range of the nucleic acid molecule that can be quantified digitally is expanded (Patent Document 1 and Non Patent Literature 1).
- the sequence of molecular barcodes may change during analysis, whereby newly generated molecular barcodes may affect the accuracy of quantification of nucleic acid molecules.
- the sequence of the molecular barcode is randomly designed, it is difficult to grasp that the sequence has changed.
- due to the randomness of the molecular barcode sequence it is difficult to analyze what kind of error may occur in digital quantification, and it is also difficult to present the solution.
- the present invention provides methods of sequencing and analyzing nucleic acids.
- the present inventors use the index and the barcode in the digital quantification method of the target nucleic acid molecule, when mixing a plurality of samples and quantifying the target nucleic acid molecule, the nucleic acid derived from the sample whose index is different from unexpected It is clarified that a miss index can occur, which is added to We also consider the most frequent pair to be the correct pair when two different indexes are added to the same barcode, and excluding any or all others as miss indexes. , Revealed that the accuracy of the digital quantification method can be improved. We have found that when counting the number of types of barcode sequences, mutations (e.g.
- the present inventors have clarified that the accuracy of the digital quantification method can be improved by clustering sequences having a certain sequence similarity into a group and quantifying a target nucleic acid molecule based on the number of clusters. We have found that when digitally counting nucleic acids, the problem of misidentifying the template can occur. We also identify the most frequent pair as the correct pair and exclude any or all others as false identifications when two different target nucleic acid sequences are added to the same barcode It was revealed that the accuracy of the digital quantification method could be improved.
- step (I) The method according to (1A) above, wherein the target nucleic acid molecule to which at least a molecular barcode has been added is subjected to amplification prior to step (I).
- step (II) A sequence similar to the sequence having a specific molecular barcode in step (II) is a sequence including the sequence having the specific molecular barcode and a mismatched base having a number of bases or less in the molecular barcode sequence portion.
- (4A) The method according to any of the above (1A) to (3A), wherein the molecular barcode has a fixed base at a specific position.
- step (II) that the sequence similar to the sequence having the specific molecular barcode in step (II) contains the fixed base at the specific position, and / or the position of the fixed base is shifted from the specific position
- the method according to (4A) above which is selected based on (6A)
- the method according to (4A) above further comprising excluding from analysis the sequence having a molecular barcode that does not contain the fixed base at the specific position.
- (8A) further comprising the step of determining the number of target nucleic acid molecules contained in the sample from which the target nucleic acid molecule is derived based on the number of groups having a specific molecular barcode or a sequence similar thereto And the method according to any one of (1A) to (7A) above.
- (9A) A method of analyzing nucleic acid: (I) subjecting a mixture of a plurality of nucleic acid molecules to which molecular barcodes have been added to sequencing to obtain sequence information; (II) selecting a sequence having a specific molecular barcode or a sequence similar thereto from the sequence information obtained in (I) above, and creating a group from the selected sequence; Method, including.
- a sequence similar to the sequence having the specific molecular barcode in step (II) is a sequence including the sequence having the specific molecular barcode and a mismatched base having a number of bases or less in the molecular barcode sequence portion.
- step (11A) that the sequence similar to the sequence having the specific molecular barcode in step (II) contains the fixed base at the specific position, and / or the position of the fixed base is shifted from the specific position
- the method according to (11A) above which is selected based on (13A)
- the method according to (11A) further including the step of excluding from analysis the sequence having a molecular barcode which does not contain the fixed base at the specific position.
- (14A) further comprising the step of determining the number of target nucleic acid molecules contained in the sample from which the target nucleic acid molecule is derived based on the number of groups having a specific molecular barcode or a sequence similar thereto And the method according to any one of (9A) to (13A) above.
- step (I) The method according to any one of (9A) to (14A) above, wherein the target nucleic acid molecule to which at least a molecular barcode has been added is subjected to amplification prior to step (I).
- (16A) A method of analyzing nucleic acid: (I) subjecting a mixture of a plurality of nucleic acid molecules to which a molecular barcode having a fixed base at a specific position is added to sequencing to obtain sequence information; (IIa) excluding from analysis a sequence having a molecular barcode which does not contain the fixed base at the specific position; (IIb) obtaining sequence information comprising a sequence comprising the fixed base at the specific position in the step (I) or after the step (I); or (IIc) as the step (II) above Further comprising the step of selecting a sequence having a specific molecular barcode or a sequence similar thereto from the sequence information obtained in 4.), and creating a group according to the selected sequence, and in step (II
- step (E) select an array having a specific index and create a group for each index
- step (F) for nucleic acid sequences having molecular barcodes that appeared in a plurality of groups, the barcode / index pair with the highest number of reads is determined as the correct barcode / index pair, or Determine the highest index and molecular barcode pair as the correct index and molecular barcode pair The method according to (1B) above.
- step (E) select a sequence having a specific molecular barcode to create a group for each molecular barcode
- the highest detection frequency index and molecular bar code pair in the created group is determined as the correct index and molecular bar code pair.
- step (E) select a sequence containing the sequence of the target nucleic acid molecule to create a group
- step (F) a sequence having a specific index is further selected from the group to create a subgroup, and a barcode having the largest number of reads and a nucleic acid sequence having a molecular barcode appearing in a plurality of subgroups Determine the index pair as the correct barcode / index pair, or determine the index / molecular barcode pair with the highest detection frequency as the correct index / molecular barcode pair, The method according to (1B) above.
- step (E) select a sequence containing the sequence of the target nucleic acid molecule to create a group
- step (F) molecules having a specific molecular barcode are further selected from the group to create a subgroup, and the index with the highest detection frequency and molecular barcode in one created subgroup is indexed And determine the correct pair of molecular barcodes, The method according to (1B) above.
- step (F) at least any one or all of the index and molecular barcode pairs other than the determined correct pair are determined as the index and the molecular barcode mispairing, The method according to (2B) to (5B) above.
- step (E) select a molecule having a specific index in step (E) and create a group for each index,
- step (F) with respect to the sequences having molecular barcodes appearing in a plurality of groups, a low detection frequency index and molecular barcode pair is determined as at least any one or all of the indexes and the molecular barcode mispair , The method according to (1B) above.
- step (E) select a sequence having a specific molecular barcode in step (E) to create a group for each molecular barcode,
- the pair of the low detection frequency index and the molecular barcode is determined as the index and / or the molecular barcode, at least any one or all of mispairs, The method according to (1B) above.
- step (F) selecting a sequence containing the target nucleic acid molecule in step (E) to create a group
- molecules having a specific index are further selected from the group to create subgroups, and for nucleic acid molecules having molecular barcodes that appear in a plurality of subgroups, an index with low detection frequency and a molecular barcode Determine at least any one or all of the pairs as the index and the molecule barcode mispairing, The method according to (1B) above.
- step (E) selecting a molecule containing the target nucleic acid molecule in step (E) to create a group
- step (F) a molecule having a specific molecular barcode is selected from the group to create a subgroup, and at least one of a pair of a low detection index and a molecular barcode in one created subgroup Determine one or all of the index and molecular barcodes as a spare The method according to (1B) above.
- step (11B) the step of creating a group creates a group by clustering, as a group, molecules assumed to have the same sequence determined based on sequence identity or similarity Done by The method according to (1B) to (10B) above.
- step (E) clustering is (I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster; (Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster; (Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it is performed by classifying nucleic acid molecule groups having a sequence having a unique molecular barcode and a mismatch up to 3 bases into the same cluster, The method according to (11B) above.
- step (E) clustering is In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence sequenced as having an insertion or deletion (indel) of bases into the same cluster, The method according to (11B) or (12B) above.
- step (E) clustering is In the sequence of the molecular barcode portion, it is performed on a group of nucleic acid molecules obtained excluding the sequence sequenced as having a base insertion or deletion (indel), The method according to (11B) or (12B) above.
- a method of determining the number of target nucleic acid molecules contained in a specific original sample from sequence information (E) selecting a nucleic acid molecule containing the sequence of the target nucleic acid molecule from the obtained sequence information; (F) clustering the nucleic acid molecules selected in (e) above for each unique molecular barcode sequence, and then identifying a cluster having a plurality of sequences in the index nucleic acid molecule portion, (G) In each of the clusters identified in (f), the index with the highest detection frequency and the molecular barcode pair are identified as the correctly indexed target nucleic acid molecules, and the other index and molecular barcode pairs are identified.
- the number of kinds of sequence of the unique molecular barcode linked to the target nucleic acid molecule correctly indexed Is the number of Method.
- clustering is (I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster; (Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster; (Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it is performed by classifying nucleic acid molecule groups having a sequence having a unique molecular barcode and a mismatch up to 3 bases into the same cluster, The method as described in the above (16B).
- clustering is In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence sequenced as having an insertion or deletion (indel) of bases into the same cluster, The method according to (16B) or (17B) above. (19B) In (e), clustering is In the sequence of the molecular barcode portion, it is performed on a group of nucleic acid molecules obtained excluding the sequence sequenced as having a base insertion or deletion (indel), The method according to (16B) or (17B) above.
- (20B) The insertions or deletions of the bases in the position of each of the one or more fixed bases arranged in all the molecular barcode sequences linked to the nucleic acid molecule and in the sequence of the sequenced molecular barcode sequence part The method according to (18B) or (19B) above, further comprising specifying by difference with the position of each of the one or more fixed bases.
- 21B In the digital quantification of a target nucleic acid molecule using a barcode sequence, based on the information on the obtained nucleic acid sequence, the sequence of the molecule barcode after mutation has one group together with other sequences having sequence similarity And clustering the number of target nucleic acid molecules based on the number of clusters obtained.
- clustering is (I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster; (Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster; (Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode A method carried out by classifying nucleic acid molecule groups having sequences having a unique molecular barcode and up to 3 bases of mismatches into the same cluster in the partial sequence.
- a method comprising detecting a base insertion or deletion (indel).
- a unique index for each sample containing a plurality of nucleic acid molecules meaning index sequence nucleic acid molecule, which may contain a plurality of index nucleic acid molecules if unique to each sample) and unique to each nucleic acid molecule Obtained from sequencing (ie, multiplex sequencing) using a mixture of multiple samples containing the target nucleic acid molecule (eg, DNA or RNA) to which or any molecular barcode (barcode sequence nucleic acid molecule) has been added
- a method for determining the correct pair or mispair of an index added to a target nucleic acid molecule and a molecular barcode from the sequence information obtained (A) separately obtaining a plurality of samples containing a nucleic acid molecule (eg, DNA or RNA) and ⁇ at least one of the samples includes a target nucleic acid molecule ⁇ , (B) ⁇ e.g., in each of a plurality of obtained samples ⁇ before amplification
- the sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule And sequencing the nucleic acid molecule to which the molecular barcode of S is added to determine the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the target nucleic acid molecule portion linked thereto as needed for each nucleic acid molecule.
- step (E) select an array having a specific index and create a group for each index
- step (F) for nucleic acid sequences having molecular barcodes that appeared in a plurality of groups, the barcode / index pair with the highest number of reads is determined as the correct barcode / index pair, or Determine the highest index and molecular barcode pair as the correct index and molecular barcode pair
- step (E) select an array having a specific index and create a group for each index
- step (F) for nucleic acid sequences having molecular barcodes that appeared in a plurality of groups, the barcode / index pair with the highest number of reads is determined as the correct barcode / index pair, or Determine the highest index and molecular barcode pair as the correct index and molecular barcode pair
- (1C) Determine the highest index and molecular barcode pair as the correct index and molecular barcode pair
- step (E) select a sequence having a specific molecular barcode and create a group for each molecular barcode,
- step (F) the highest detection frequency index and molecular bar code pair in the created group is determined as the correct index and molecular bar code pair.
- step (E) select a sequence containing the sequence of the target nucleic acid molecule to create a group
- step (F) a sequence having a specific index is further selected from the group to create a subgroup, and a barcode having the largest number of reads and a nucleic acid sequence having a molecular barcode appearing in a plurality of subgroups Determine the index pair as the correct barcode / index pair, or determine the index / molecular barcode pair with the highest detection frequency as the correct index / molecular barcode pair, The method according to (1C) above.
- step (E) select a sequence containing the sequence of the target nucleic acid molecule to create a group
- step (F) molecules having a specific molecular barcode are further selected from the group to create a subgroup, and the index with the highest detection frequency and molecular barcode in one created subgroup is indexed And determine the correct pair of molecular barcodes, The method according to (1C) above.
- step (F) at least any one or all of the index and molecular barcode pairs other than the determined correct pair are determined as the index and molecular barcode mispairing The method according to any one of the above (2C) to (5C).
- step (E) select a molecule having a specific index and create a group for each index
- step (F) with respect to the sequences having molecular barcodes appearing in a plurality of groups, a low detection frequency index and molecular barcode pair (for example, a detection frequency pair lower than a predetermined reference value and constant)
- the reference value includes, but is not limited to, 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, or 1% or less in the group.
- a pair of detection frequency pairs may be determined as a molecule barcode mispair with at least any one or all of the indices. The method according to (1C) above.
- a pair with a low detection frequency index and a molecular barcode for example, a pair with a detection frequency lower than a certain reference value, and a certain reference value is 50% or less in the group 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, or 1% or less, and is not limited thereto, and, for example, even the second and subsequent detection frequency pairs ) Is determined as a mispair of at least one or all of the index and molecular barcodes, The method according to (1C) above.
- step (F) selecting a sequence containing the target nucleic acid molecule in step (E) to create a group
- molecules having a specific index are further selected from the group to create subgroups, and for nucleic acid molecules having molecular barcodes that appear in a plurality of subgroups, an index with low detection frequency and a molecular barcode (Eg, a detection frequency pair lower than a predetermined reference value, and the predetermined reference value is 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less)
- a value of 1% or less but is not limited thereto, and may be, for example, a pair of second or later detection frequency
- at least any one or all of index and mispair of molecular barcode decide The method according to (1C) above.
- step (E) select a molecule containing a target nucleic acid molecule to create a group
- step (F) molecules having specific molecular barcodes are further selected from the group to create subgroups, and a pair of infrequently detected index and molecular barcodes in one created subgroup (eg, constant)
- the detection frequency is lower than the standard value of the group, and the fixed standard value is 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, 1% or less in the group
- at least any one or all of the second and subsequent detection frequency pairs may be determined as the index and the molecular barcode mispair, The method according to (1C) above.
- step (E) the step of creating a group had ⁇ identical sequence determined based on sequence identity or similarity ⁇ preferably in the sequence of the molecular barcode portion ⁇ ⁇ eg, It is carried out by creating a group by clustering molecules presumed to have a sequence change by any of the steps (A) to (D) as a group The method according to (1C) to (10C) above.
- step (E) clustering is In the sequence of the molecular barcode portion, a nucleic acid molecule group having a sequence sequenced as having an insertion or deletion (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) is classified into the same cluster To be done by The method according to (11C) or (12C) above.
- step (E) clustering is A group of nucleic acid molecules obtained by excluding sequences sequenced as having insertions or deletions (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) in the sequence of the molecular barcode portion To be done against The method according to (11C) or (12C) above.
- One or more (eg, one, two, three, four, five or six) insertions or deletions of said bases are arranged in all molecular barcode sequences linked to the nucleic acid molecule.
- each fixed base may be designed to be any one base selected from the group consisting of A, T, G and C; or a combination of A and T, A and T G combination, A and C combination, T and G combination, T and C combination, G and C combination, A, T and G combination, A and T and C combination, A and G and It consists of the combination with C, and the combination with T and G and C It may be designed to be a base selected at random from bases contained in any one combination selected from ⁇ .
- a target nucleic acid molecule eg, a nucleic acid molecule of interest to which a unique index (index sequence nucleic acid molecule) and a molecular barcode unique to each nucleic acid molecule (barcode sequence nucleic acid molecule) are added ,
- the number of target nucleic acid molecules contained in a specific original sample from sequence information obtained by sequencing (ie, multiplex sequencing) using a mixture of multiple samples containing DNA, RNA or How to determine (A) separately obtaining a plurality of samples comprising a nucleic acid molecule (eg, DNA or RNA) and ⁇ at least one of the samples comprising the nucleic acid molecule of interest ⁇ , (B) A target nucleic acid molecule in which an arbitrary molecular barcode is linked to each of the target nucleic acid molecules in each of a plurality of obtained samples before amplification of a nucleic acid molecule contained in the sample, and different molecular barcodes are linked to each other Obtaining (C) Before
- the sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule Sequencing the nucleic acid molecules to which the molecular barcodes have been added to identify the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the nucleic acid molecule portion linked thereto for each nucleic acid molecule; (E) selecting a nucleic acid molecule containing the sequence of the target nucleic acid molecule from the obtained sequence information; (F) clustering the nucleic acid molecules selected in (e) above for each unique molecular barcode sequence, and then identifying a cluster having a plurality of sequences in the index nucleic acid molecule portion, (G) In each of the clusters identified in (f), the index with the highest detection frequency and the molecular barcode pair are identified as the correctly indexed target nucleic acid molecules, and the other
- the target nucleic acid molecule contained in the sample corresponding to the index, the number of kinds of sequence of the unique molecular barcode linked to the target nucleic acid molecule correctly indexed (or the number of clusters of the target nucleic acid molecule correctly indexed) Is the number of Method.
- clustering is (I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster; (Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster; (Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it is performed by classifying nucleic acid molecule groups having a sequence having a unique molecular barcode and a mismatch up to 3 bases into the same cluster, The method as described in the above (16C).
- clustering is In the sequence of the molecular barcode portion, a group of nucleic acid molecules having a sequence sequenced as having an insertion or deletion (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) in the same cluster Done by classification, The method according to (16C) or (17C) above.
- clustering is A nucleic acid molecule obtained by excluding sequences sequenced as having insertions or deletions (indel) of bases (eg, up to 1 base, up to 2 bases, or up to 3 bases) in the sequence of the molecular barcode portion Performed on a group, The method according to (16C) or (17C) above.
- One or more (eg, one, two, three, four, five or six) insertions or deletions of said bases are arranged in all molecular barcode sequences linked to the nucleic acid molecule 20.
- each fixed base can be designed to be any one base selected from the group consisting of A, T, G and C; or a combination of A and T, of A and G Combination, A and C combination, T and G combination, T and C combination, G and C combination, A, T and G combination, A, T and C combination, A, G and C and And the combination of T, G and C from It may be designed to be a base selected at random from bases contained in any one of the combinations to be-option ⁇ .
- FIG. 1 is a diagram for explaining a digital quantification method of nucleic acid molecule and its effectiveness.
- A In panel A of FIG. 1, a scheme of digital counting is shown. Uniquely add a molecular barcode to each target nucleic acid molecule (add a unique molecular barcode). After amplification, both the nucleic acid portion of interest and the barcode portion are sequenced. The copy number is determined not by the read number but by the number of unique barcodes. The dotted frame indicates the experimental design used in this example.
- Panel B of FIG. 1 illustrates that the first requirement for accurate digital counting: each target nucleic acid molecule must be labeled with a different barcode.
- FIG. 1 shows that the second requirement for accurate digital counting: all barcode sequences (at least one lead) attached to the target nucleic acid molecule must be detected FIG. If the number of unique barcodes measured becomes constant as the sequence depth is increased, then the sequence depth of the range meets the second requirement.
- FIG. 2 shows the observed intrinsic features of digital counts with random base barcodes applied to the two requirements for accurate digital quantification.
- Panel A of FIG. 2 represents the dependence of the number of clusters (unique barcodes shown in gray) on the number of random bases (base length). The results of ST1 are shown.
- Gray lines indicate the number of unique barcodes.
- Panel B of FIG. 2 shows the dependence of the number of barcode clusters on the number of random bases.
- C Panel C in FIG.
- Gray lines represent the dependence of the number of unique barcode sequences observed on the number of random bases.
- FIG. 3 shows the results of analysis using Distance and fixed base. In FIG. 3, the results of ST1 with index A (indicated by circles) and index B (indicated by triangles) are shown. The length of the random base barcode was 24.
- Panel A of FIG. 3 shows the effect of clustering at different Distances on the number of clusters.
- FIG. 4 shows the absolute counts of each template.
- Panel C in FIG. 4 shows the correlation between the input (ie, the number of molecules before PCR amplification, x axis) and the output (ie, the result of digital counting, the y axis). The number of outputs was determined from FIGS. 4A and 11 with a coverage of 12.6 to 20.9 indicated by the large symbols.
- the gray line shows a regression line with slope 1 on a logarithmic scale. The circles and triangles correspond to index A and index B, respectively. Pearson's product moment correlation coefficient r of linear regression and determination coefficient R 2 are shown.
- FIG. 5 shows the required number of random bases for digital counting.
- the x-axis indicates the number of inputs of the molecule to be measured, and the y-axis is a relative of 0.95 for each curve in panel B of FIG. 4 and panel B of FIG. Indicates the number of random bases when reaching the target number of clusters.
- FIG. 6A shows a conventional method involving amplification, indexing, mixing and sequencing.
- the barcoded sequence is not used, and a unique index is added to the amplified sequence for each sample, mixed and sequenced. An index may be added before amplification.
- FIG. 6B shows a conventional method involving amplification, indexing, mixing and sequencing. Here, in the conventional method, although miss index addition may occur, the generated miss index can not be identified.
- FIG. 6C shows the use of molecular barcodes. A unique barcode sequence is labeled for each nucleic acid sequence of interest having sequence 1, and each molecule is uniquely labeled.
- FIG. 6A shows a conventional method involving amplification, indexing, mixing and sequencing.
- FIG. 6D illustrates the use of molecular barcodes, including molecular barcode addition, amplification, indexing, mixing and sequencing. Unique barcode attachment to nucleic acid molecules and unique index is added to each sample, showing a scheme for mixing and sequencing multiple samples. An index may be added after amplification of the molecular barcodes, but before amplification.
- FIG. 6E illustrates the use of molecular barcodes, including molecular barcode addition, amplification, indexing, mixing and sequencing. 1 shows a scheme of an example of a method of identifying a miss index in the first embodiment of the present invention. Although a miss index may occur, in the first embodiment of the present invention, the encountered miss index can be identified.
- FIG. 7A shows a scheme for adding a barcode to a target nucleic acid molecule contained in a plurality of samples.
- FIG. 7B shows a scheme of indexing and amplification, and shows the case in which partial switching occurs due to indexes that are contaminated with other indexes.
- FIG. 7C shows the count of the bar code number, confirmation of the same bar code, and identification of an error (index and bar code mispair).
- FIG. 8 is a supplementary drawing of FIG. 2 and shows the observed intrinsic features of digital counts using barcodes with random bases.
- Panel A of FIG. 8 represents the dependence of the number of clusters detected on the number of random bases (base length) for ST1, ST2, LT1 and LT2.
- Gray lines represent the dependence of the number of unique barcode sequences observed on the number of random bases.
- FIG. 9 is a supplementary drawing of FIG. 3 and shows the analysis results using Distance and fixed base for ST2, LT1 and LT2.
- Panel A of FIG. 9 shows the effect of clustering on the number of clusters as in panel A of FIG. 3 but for ST2, LT1 and LT2 with different Distance parameters.
- Panel B of FIG. 9 is the same as panel B of FIG. 3, but shows the dependence of the position of the fixed base on ST2, LT1 and LT2. Asterisks indicate no filtering.
- Panel C of FIG. 9 is the same as panel C of FIG. 3, but shows the dependence of the number of fixed bases on ST2, LT1 and LT2.
- FIG. 9 is a supplementary drawing of FIG. 3 and shows the analysis results using Distance and fixed base for ST2, LT1 and LT2.
- FIG. 10 shows a histogram of the number of reads in each cluster for ST1 with index A (see panel A) and index B (see panel B). The colors correspond to the sample colors of the plot of FIG. 2C.
- FIG. 12 is a supplementary drawing of FIG. 5 and shows an estimation of the required number of random bases for digital counting. This plot is the same as FIG.
- FIG. 13 shows the bar code design and the number of numerator inputs.
- the capital letters in the sequences of LT1 to 6 are binding sites of PCR amplification primers.
- Barcode indicates a random region including random bases and fixed bases, and target indicates a target nucleic acid.
- LT1-6 were PAGE purified products, and the 5 'end of ST1-5 was amine-modified. The fixed base between the random bases helps to avoid long homopolymeric barcodes which may have lower amplification efficiency.
- N represents any one of A, T, G, or C.
- FIG. 14 shows primer sequences for preparation of the library. The underlined part indicates an index array (index A is included in Rv primer 1 and index B is included in Rv primer 2). All primers were PAGE purified.
- FIG. 15 shows the number of leads in each process. * This fraction may be greater than the number of leads in the exclusion of a miss index (eg, contamination index) (see example).
- a "molecular barcode” is a tag having a unique sequence that is attached to each molecule of nucleic acid. Also called “primer ID” and “Ubiquitous Molecular Identifier (UMI)".
- UMI Ubiquitous Molecular Identifier
- This method of determination of nucleic acid molecules has attracted a great deal of attention as a next-generation sequencer platform that has made it possible to analyze a large amount of nucleic acid sequences in a single run, and has become a focus of attention.
- Various methods have been developed to determine the number digitally. Since this method of determining the number of nucleic acid molecules can digitally count the number of molecules as the number of types of barcodes (sometimes referred to as the “number of unique barcodes”), “digital counting method” or “digital quantification method” It is sometimes called "etc.” This digital counting method can accurately determine the absolute number of molecules in a sample, even in the presence of the noise and bias of the measurement system.
- RNA-Seq using molecular barcodes, ie, digital RNA-Seq (dRNA-Seq) or quantitative RNA-Seq.
- dRNA-Seq digital RNA-Seq
- Digital counting is also used for many applications in next generation sequencer platforms that can acquire large amounts of sequence data.
- RNA-Seq single nucleotide resolution UV cross-linked immunoprecipitation
- iCLIP individual cross-link resolution and UV cross-linking and immunoprecipitation
- antibody repertoire analysis genetic analysis of bacterial 16S rRNA, And exonucleases, unique barcodes and single ligation-mediated nucleotide resolution chromatin immunoprecipitation experiments
- ChIP-nexus chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation.
- the same barcode can be applied to multiple nucleic acid molecules present in the original sample.
- the possibility of addition is substantially limited, which allows the number of types of barcode sequences to correspond to the number of nucleic acid molecules present in the sample.
- quantification of nucleic acid molecules present in the sample is possible by using molecular barcodes comprising nucleotide sequences with sufficient diversity.
- Molecular barcodes can be obtained, for example, as nucleic acid groups with random bases.
- the molecular barcode is focused on the number of types of its sequence to determine the number of molecules to be measured, the sequence is random (the sequence is diverse and it is not necessary for humans to recognize the content of the sequence It may be said that they may be synthesized in the same manner.
- the molecular barcode may be a set of nucleic acids of known sequence designed to obtain sufficient diversity.
- a molecular barcode may be simply referred to as a barcode, and a sequence possessed by the molecular barcode may be referred to as a barcode sequence.
- the number of unique barcode sequences is a number that represents the degree of diversity of barcode sequences.
- the number of unique barcode sequences is n if n different barcode sequences are detected ⁇ where n is a natural number ⁇ .
- the number of random bases means the base length of random bases.
- a random base refers to a continuous base having a random sequence.
- the random bases may consist of two bases, three bases or four bases.
- an "index" is a nucleic acid that serves as a unique label attached to a nucleic acid molecule for each sample from which it is derived. For example, an index can be added that has a different nucleotide sequence for each sample.
- samples from which individual nucleic acid molecules are derived based on the sequence of the added index It can be identified. Due to the large capacity of one sequencing on the platform of the next-generation sequencer, it is possible to mix multiple samples and sequence them in one run, for example, the index is useful in such a case is there.
- the addition of the index may be added before, during or after processing (eg, amplification) of the nucleic acid molecule.
- the terms “template”, “target nucleic acid”, “target nucleic acid molecule”, “target nucleic acid” or “target nucleic acid molecule” refer to a nucleic acid molecule (eg, DNA or RNA) to be quantified in digital quantification. Can be used interchangeably.
- the sequence originally possessed by the target nucleic acid molecule ie, the sequence before the barcode or index is added for analysis
- the target nucleic acid sequence is referred to as the target nucleic acid sequence.
- nucleic acid means a macromolecule having a nucleic acid sequence.
- Nucleic acids include deoxyribonucleic acid (DNA) and ribonucleic acid (RNA).
- the ribonucleic acid includes messenger RNA (mRNA), non-coding RNA such as microRNA, transfer RNA (rRNA), and ribosomal RNA (rRNA).
- sequence depth refers to the total amount or total number of molecules to be sequenced. For example, high sequence depth (ie, more sequence information can be obtained) may increase the likelihood that sequences only slightly present in the sample will be detected.
- coverage means the average number of reads of each cluster (read number / cluster) obtained by clustering as originating from the same nucleic acid molecule.
- each molecule means that they differ from one another for at least a portion of the molecules contained in the system.
- the “specific to each molecule” means all molecules contained in the system, substantially all molecules, or most of the molecules (eg, 50% or more, 60% or more, 70% or more, 80% or more, 90% or more) % Or more, 95% or more, 96% or more, 97% or more, 98% or more, or 99% or more).
- nucleic acids target nucleic acid molecules
- DNA eg, complementary DNA or cDNA
- nucleic acids Add molecular barcodes with different sequences for each molecule
- FIG. 6C Such a nucleic acid to which a molecular barcode having a unique sequence for each molecule is added may be referred to as a "barcoded nucleic acid”.
- the barcoded target nucleic acid molecule (cDNA obtained from RNA if the starting nucleic acid is RNA) is amplified (see, eg, FIG. 6D).
- the target nucleic acid sequence of the barcoded and amplified nucleic acid and the barcoded sequence are sequenced in tandem (see, eg, FIG. 6D).
- the number of unique barcodes attached to the target nucleic acid sequence is quantified rather than the number of amplified molecules (the so-called "read number"), and the original The absolute copy number of the nucleic acid molecule of interest (before amplification) can be determined.
- the barcode sequence may be added to the target nucleic acid molecule so as to have a unique sequence for each nucleic acid molecule, and the specific sequence thereof It does not matter what the In digital quantification, barcodes whose specific sequence is known may be used.
- the platform of the next generation sequencer has been developed, and it has become possible to decode a large number of base sequences by one sequencing (run). As a result, single-sample measurements do not run out of sequencing capabilities and the need for sequencing multiple samples simultaneously in a single run is growing. While sequencing multiple samples in a single run, a unique index can be added to each sample to distinguish which sample the nucleic acid came from.
- the index may be added to the target nucleic acid molecule so as to have any sequence unique to each sample, regardless of the specific sequence.
- an index whose specific sequence is known may be used.
- the index may be added to the amplified target nucleic acid molecule after the target nucleic acid molecule is amplified, or added to the target nucleic acid molecule before the target nucleic acid molecule is amplified. It may be done.
- An index may be added after performing amplification on each sample. For example, the addition of an index can be performed on each of the amplification products by adapter ligation. Alternatively, the index may be added while the nucleic acid molecule of interest is amplified.
- the addition of an index can be performed during amplification of the nucleic acid molecule by including it in the sequence of the primer.
- the index when the index is added to the target nucleic acid molecule before amplification, the index may be added to the target nucleic acid molecule before, simultaneously with or after the addition of the barcode sequence.
- the index, the barcode sequence, and the nucleic acid molecule of interest may be linked in any order.
- the index may be provided in conjunction with the barcode array.
- the target nucleic acid molecule derived from the specific sample can be identified using the index as an index, and is added to the target nucleic acid sequence
- the number of unique barcode sequences is quantified to determine the absolute copy number of the original (before amplification) nucleic acid molecule of interest (see, eg, FIG. 6D).
- a nucleic acid derived from a sample having an unexpected index It has become apparent that problems may arise that are added to (see FIG. 6E, FIG. 7B). This problem may occur when using an index, and is referred to as index switching, index hopping, misindexing, and the like. The existence of the index switching problem has already been pointed out (Sinha, R. et al. Index switching causes “spreading-of-signal” among multiplexed samples in Illumina HiSeq 4000 DNA sequencing.
- the present invention provides solutions to each of these problems.
- a digital quantification method that uses a sample-specific index to distinguish samples
- multiple bar codes and indexes are not added to the same bar code for the target nucleic acid molecule to which the index is added. (Since each nucleic acid molecule has a unique barcode attached).
- each nucleic acid molecule has a unique barcode attached.
- the present invention when multiple indexes are found in a cluster of nucleic acid molecules to which the same barcode is added, it can be determined that a miss index has occurred (for example, FIG. 6E). And Figure 7C).
- the number of existing index sequences is compared, and the most frequently occurring index sequence is the correctly indexed sequence.
- this method can be carried out independently of the sequence of the target nucleic acid molecule.
- the method may or may not include decoding the nucleic acid sequence of interest. This method corresponds to the first embodiment described below.
- the index sequence and the barcode sequence have different identifications that affect the accuracy of quantification.
- the barcoded sequence is recognized as a different sequence by mutation (for example, insertion, substitution, and deletion) of bases in the sequence regardless of whether or not an index is added, the number of sequence types is The digital quantification used to determine the original number of molecules before being subjected to amplification etc. makes the determination of the number of molecules inaccurate.
- substitution of bases in a barcode the sequences included in a certain distance (Distance) are clustered as one cluster, and the number of molecules is determined based on the number of clusters.
- the substitution of bases can address the problem of being recognized as an identical but different sequence.
- distance refers to the number of bases that differ between two predetermined barcode sequences. For example, if one barcode sequence is exactly the same as another barcode sequence except for one base change at any one position, the distance between these two barcode sequences is 1 is there. For example, the distance between these two barcode sequences is 2 if exactly the same except for the two base changes at any two positions. For example, if one barcode sequence is exactly the same as another barcode sequence except for three base changes at any three positions, then the distance between these two barcode sequences is 3 It is. It is believed that the accuracy of the method of the first embodiment increases as the diversity of barcode sequences increases.
- the value of Distance is not particularly limited as long as it is appropriately determined according to the present disclosure, but is, for example, 1 to 10, preferably 1 to 5, more preferably 1 to 3, and still more preferably 3. It goes without saying that this method can be carried out independently of the sequence of the target nucleic acid molecule. Thus, the method may or may not include decoding the nucleic acid sequence of interest. This method corresponds to the second embodiment described below. In a system for adding an index, it can be used similarly to determine the difference between the indexes.
- the barcode may or may not be added with an index.
- the base at the fixed position as the fixed base (ie, setting the base at the predetermined position in the barcode sequence as the specific or defined base)
- generation of indel is indicated by the absence of the fixed base at the predetermined position.
- This method may be referred to herein as "fixed base match filtering"). That is, it is determined that insertion or deletion of a base has occurred in the barcode sequence when the sequenced barcode sequence contains a base different from the original base at any of the fixed base positions.
- the number of fixed bases in the barcode sequence is not particularly limited as long as it is appropriately determined according to the present disclosure, but it is, for example, 1 to 15, preferably 2 to 12, more preferably 3 to 10, still more preferably 4 to There are six. It goes without saying that this method can be carried out independently of the sequence of the target nucleic acid molecule. Thus, the method may or may not include decoding the nucleic acid sequence of interest. This method corresponds to the third embodiment described below. In a system for adding an index, it can be used similarly to determine the difference between the indexes.
- a first embodiment of the present invention That is, according to the first embodiment of the present invention, Sequencing using a mixture of multiple samples containing the nucleic acid molecule of interest with an index unique to each sample containing multiple nucleic acid molecules and a unique or arbitrary molecular barcode unique to each nucleic acid molecule (multiplex sequencing)
- a method of determining the correct pair or mispair of an index added to a target nucleic acid molecule and a molecular barcode from sequence information obtained by E) From the obtained sequence information, a sequence having a specific index or a sequence similar thereto, a sequence having a specific molecular barcode or a sequence similar thereto, or a sequence containing a target nucleic acid molecule or a similar Selecting a sequence and creating a group from the selected sequence; (F) In the group created in (E) above, determine the pair with the highest detection frequency index and molecular barcode as the correct pair of index and molecular barcode, and / or the low detection frequency index and molecules Bar
- the method of the invention (A) separately obtaining a plurality of samples containing a nucleic acid molecule (eg, DNA or RNA) and ⁇ at least one of the samples includes a target nucleic acid molecule ⁇ , (B) ⁇ e.g., in each of a plurality of obtained samples ⁇ before amplification of the nucleic acid molecules contained in the sample, each nucleic acid molecule of interest is linked to each of the nucleic acid molecules, or each molecular barcode unique to each nucleic acid molecule is linked; Obtaining a target nucleic acid molecule to which different molecular barcodes are linked; (C) ⁇ For example, before mixing a plurality of samples ⁇ A target nucleic acid molecule in which a unique index is added to the target nucleic acid molecule for each sample containing a plurality of target nucleic acid molecules, and different indexes are linked for each sample derived And (step (C) may be performed after step (B), or step (
- the nucleic acid molecule can be amplified to obtain an amplification product of the target nucleic acid molecule
- the sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule And sequencing the nucleic acid molecule to which the molecular barcode of S is added to determine the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the target nucleic acid molecule portion linked thereto as needed for each nucleic acid molecule.
- It may further include a.
- any index may be used as long as it has a unique base sequence for each sample.
- the index may have a predetermined sequence (eg, it may be possible to determine which sample is derived from by referring to the sequence), but the sequence is unknown. (For example, reference to a sequence makes it impossible to determine which sample it is derived from, and it may be known that different sequences lead to different samples).
- molecular barcodes can be made to have sufficient diversity to the number of nucleic acid molecules in the sample.
- the molecular barcode may have any base sequence as long as it has sufficient diversity to the number of nucleic acid molecules in the sample.
- the sequence of the molecular barcode can be a randomly determined sequence (a randomly determined sequence), for the purpose of saving time and effort of sequence design.
- the molecular barcode may have sufficient diversity by including a plurality of randomly determined bases (ie, random bases). In order to ensure the diversity of molecular barcodes, the length of the base sequence of molecular barcodes can be increased.
- the number of random bases in the base sequence of the required molecular barcode is determined experimentally based on the graph as exemplified in FIG. You may Although the present invention is not limited, for example, by setting the number of random bases in the base sequence of the molecular barcode to 38 or more, sufficient diversity is secured for digitally quantifying the number of molecules covering 10 15 It can be understood from the examples that can be done. If the four bases are randomly arranged and the base length is 38, then the diversity of the molecular barcodes theoretically extends to 4 38 (ie, about 7.56 ⁇ 10 22 ).
- the number of random bases in the molecular barcode is, for example, 6 or more, 7 or more, 8 or more, 9 or more, 10 or more, 11 or more, 12 or more, 12 or more, 13 or more, 14 or more, 15 or more to ensure sequence diversity. , 16 or more, 17 or more, 18 or more, 19 or more, or 20 or more. Alternatively, the number of random bases may be 25 or more, 30 or more, 35 or more, 40 or more.
- the plurality of samples are 2 or more, 3 or more, 4 or more, 5 or more, 6 or more, 7 or more, 8 or more, 9 or more, or 10 or more samples, and It is a distinguishable number, but there is no upper limit to the number.
- a sequence having a specific index, a sequence having a specific molecular barcode, and / or a sequence containing a target nucleic acid molecule based on sequence identity Groups can be formed by the sequences selected and selected.
- a sequence having a specific molecule barcode and forming a group for each molecular barcode by the selected sequence it is possible to form a number of groups corresponding to the number of types of molecular barcodes. .
- a number corresponding to the number of indexes (for example, the number of samples when adding a different index for each sample) can form a group of Also, by selecting a sequence having a specific target nucleic acid and forming a group with the selected sequence, a nucleic acid group including the target nucleic acid can be obtained.
- the step of (E) above comprises creating identical groups ⁇ preferably in the sequence of the molecular barcode portion ⁇ based on sequence identity or similarity This can be performed by creating a group by clustering molecules presumed to be ⁇ eg, the sequence may be changed by any of the steps (A) to (D) ⁇ as a group.
- the above (E) can be implemented in combination with the second embodiment. Details will be described in the second embodiment.
- the above (E) can be implemented in combination with the second embodiment and the third embodiment. Details will be described in the third embodiment.
- the index with the highest detection frequency and the pair of molecular barcodes are the index and the correct pair of molecular barcodes and It can be decided.
- at least any one or all of the low detection frequency index and molecular barcode pairs may be determined as the index and molecular barcode mispairing.
- the highest detection frequency index and molecular barcode pair is determined as the correct index and molecular barcode pair, and at least low frequency detection index and molecular barcode pair Any one or all may be determined as the index and the misplacement of the molecular barcode.
- nucleic acid molecules determined to be mispaired can be excluded from the count of the number of molecules. Determination of the correct pair and determination of the mispair, respectively, can be performed regardless of the sequence of the nucleic acid molecule of interest.
- the target nucleic acid molecule may be selected to determine the correct pair and the mispair, respectively; or the target nucleic acid molecule may be selected after determining the correct pair and the mispair. You may
- step (F) when a sequence having a specific molecular barcode is selected to create a group for each molecular barcode, (i) In step (F), the pair with the highest detection frequency index and molecular barcode among the created groups can be determined as the correct pair of index and molecular barcode; or (ii) Among the groups created in step (F), a pair with a low detection frequency index and a molecular barcode (for example, a pair with a detection frequency lower than a certain reference value Values include 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, and 1% or less, and are not limited to these. May be determined as an index and / or a molecule barcode and / or a mispair of at least one or all of them.
- a pair with a low detection frequency index and a molecular barcode for example, a pair with a detection frequency lower than a certain reference value Values include 50% or less, 40% or less, 30% or less,
- step (F) for nucleic acid sequences having molecular barcodes appearing in a plurality of groups, determine the barcode / index pair with the highest number of reads as the correct barcode / index pair, or The highest detection frequency index and molecular barcode pair can be determined as the correct index and molecular barcode pair; or (iv) In the step (F), a low detection frequency index and molecular barcode pair (for example, a detection frequency pair lower than a predetermined reference value) for sequences having molecular barcodes appearing in a plurality of groups
- the certain reference value includes, but is not limited to, 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, 1% or less in the group.
- the second and subsequent detection frequency pairs may be determined as) at least any one or all of the indices and the mispair of the
- step (F) when a sequence including the target nucleic acid molecule is selected to create a group, (v) In step (F), a sequence having a specific index is further selected from the group to create a subgroup, and the nucleic acid sequence having a molecular barcode appearing in a plurality of subgroups has the highest number of reads
- the barcode and index pair can be determined as the correct barcode and index pair, or the most frequently detected index and molecular barcode pair can be determined as the correct index and molecular barcode pair;
- step (F) further select a molecule having a specific molecular barcode from the group to create a subgroup, and in the created subgroup, the index with the highest detection frequency and the molecular barcode The pair can be determined as the correct pair of index and molecular barcodes;
- molecules having a specific index are further selected from the group to create subgroups, and nucleic acid molecules having molecular barcodes
- the correct pair of barcode and index sequences can be determined and / or mispairing can be determined.
- not counting mispairs can improve the accuracy of digital quantification of a target nucleic acid molecule.
- a second embodiment of the present invention In digital quantification of nucleic acid molecules using barcode sequences, mutations (insertions, substitutions or deletions) occur in the barcode sequences during analysis, and the mutations have a quantitative accuracy. It became clear that the A second embodiment of the present invention is a method for digitally quantifying a target nucleic acid molecule using a barcode sequence, and based on the obtained information on the nucleic acid sequence, has sequence similarity to the sequence possessed by the molecular barcode after mutation. It is related to grouping into 1 group together with the sequence of (clustering). This seeks to minimize the effects of mutations in barcode sequences that occur during analysis.
- similar sequences may be generated by mutation (insertion, substitution or deletion) from the same sequence. It is suggested that this clustering actually improves the accuracy of digital quantification even in the example. More specifically, for example, the step of creating a group had the same sequence ⁇ determined preferably in the sequence of the molecular barcode portion ⁇ sequence identity or similarity ⁇ e.g. When (A) to (D) are performed, it may be possible to create a group by clustering molecules presumed to have a sequence mutation at any of these steps as a group. Therefore, a sequence having similarity with a sequence having a particular index includes a sequence having a particular index and a sequence having similarity to a sequence having a particular index.
- the obtained nucleic acid sequence is indexed, based on sequence similarity, a barcode and / or a target nucleic acid molecule Can be grouped (clustered).
- the obtained nucleic acid sequence is indexed, based on sequence similarity, a barcode and / or a target nucleic acid molecule Can be grouped (clustered).
- the clustering may for example be an insertion or deletion (indel up to 1 base, up to 2 bases or up to 3 bases) in the sequence of the molecular barcode portion (indel)
- the present invention is carried out by classifying nucleic acid molecule groups having sequences sequenced as having C.) into the same cluster.
- the obtained nucleic acid sequence is indexed, based on sequence similarity, a barcode and / or a target nucleic acid molecule Can be grouped (clustered).
- the clustering may for example be an insertion or deletion (indel up to 1 base, up to 2 bases or up to 3 bases) in the sequence of the molecular barcode portion (indel)
- the present invention is performed on a group of nucleic acid molecules obtained excluding the sequences sequenced as having.
- nucleic acid sequences can be selected according to whether the sequences of a particular barcode are similar, and groups can be created from the selected sequences.
- similar means that the sequences differ by one, two, three or more bases (eg, insertion, deletion or substitution), but the other bases are identical.
- the proportion of matching bases between similar base sequences is, for example, 50% or more, 55% or more, 60% or more, 65% or more, 70% or more, 75% or more, 80% or more, 85% or more, 90% or more , 95% or more, 96% or more, 97% or more, 98% or more, or 99% or more.
- insertions or deletions may occur in the resulting nucleic acid sequences.
- a third embodiment of the invention in the detection of indels that may occur to a nucleic acid sequence (in particular a barcode sequence), one or more (eg one) arranged in all barcode sequences linked to the nucleic acid molecule Whether part (one or more) or all of the two, three, four, five or six or more fixed bases are changed to a base other than the predetermined fixed base in the original position Can be detected.
- each fixed base is usually designed to be any one base selected from the group consisting of A, T, G and C.
- each fixed base may be a combination of A and T, a combination of A and G, a combination of A and C, a combination of T and G, a combination of T and C, a combination of G and C, A and T And G combinations,
- A, T and C Can be designed to be a base selected from the bases contained in any one combination selected from the group consisting of: a combination of A, G and C, and a combination of T, G and C ⁇ . This makes it possible to use indel as an indicator that one or more fixed bases are present at a position deviated from the predetermined position, and preferably, as a further index that another base is present at the position where the fixed base should be present. Can be detected.
- nucleic acid molecule group having a sequence sequenced as having indel may be classified into the same cluster as a sequence having no indel, or a nucleic acid molecule group having a sequence sequenced as having indel (Eg, nucleic acid molecules having a sequence sequenced as having indel may be excluded from the obtained sequence information, or nucleic acid molecules having a sequence sequenced as having indel Clusters of nucleic acid molecules may be excluded.
- the fixed bases when two or more fixed bases are present, the fixed bases may preferably have one or more other bases intervened between the fixed bases.
- "fixed base” refers to a common position which is present at a predetermined position from the end (5 'end, or 3' end, or 5 'end and 3' end) of a barcode sequence in a plurality of barcode sequences.
- the common base may be a base determined by design common to a plurality of barcode sequences as described above).
- Method for analysis of nucleic acids (I) subjecting a mixture of a plurality of target nucleic acid molecules to which a molecular barcode and an index have been added to sequencing to obtain sequence information; (II) From the sequence information obtained in (I) above, a sequence having a specific index or a sequence similar thereto, and / or a sequence having a specific molecular barcode or a sequence analogous thereto is selected and selected Creating a group by the arranged array; (III) determining, in the group created in (II) above, the pair of the index with the highest detection frequency and the molecular barcode as the correct pair of the index and the molecular barcode; May be included.
- a second embodiment of the present invention is a method of analyzing nucleic acid: (I) subjecting a mixture of a plurality of nucleic acid molecules to which molecular barcodes have been added to sequencing to obtain sequence information; (II) selecting a sequence having a specific molecular barcode or a sequence similar thereto from the sequence information obtained in (I) above, and creating a group from the selected sequence; May be included.
- a third embodiment of the present invention is a method of analyzing nucleic acid: (I) subjecting a mixture of a plurality of nucleic acid molecules to which a molecular barcode having a fixed base at a specific position is added to sequencing to obtain sequence information; (IIa) excluding from analysis a sequence having a molecular barcode which does not contain the fixed base at the specific position; May be included.
- the target nucleic acid molecule to which at least a molecular barcode has been added may be subjected to amplification prior to step (I).
- at least a target nucleic acid molecule to which a molecular barcode has been added means that an index may be further added if at least a molecular barcode is added, and an index may not be added.
- the molecular barcode is a known method, eg, when amplifying a nucleic acid molecule of interest using a primer comprising the molecular barcode sequence (eg It can be attached to the target nucleic acid molecule by chain reaction).
- an index may be added to the amplification product of the target nucleic acid molecule to which the molecular barcode has been added.
- Methods for adding an index to an amplification product include known methods, for example, adapter ligation using an adapter having an index sequence.
- an index may be added to the target nucleic acid molecule along with the molecular barcode.
- the target nucleic acid molecule is amplified (eg, polymerase chain reaction) using a known method The method is mentioned.
- the sequence similar to the sequence having the specific molecular barcode in step (II) is less than the predetermined number of bases and the sequence having the specific molecular barcode.
- a sequence containing a mismatched base in the molecular barcode sequence portion is an integer in the range of 1 to 10, 1 to 9, 1 to 8, 1 to 7, 1 to 6, 1 to 5, 1 to 4, 1 to 3, or 1 to 2.
- the predetermined number of bases is an integer in the range of 1 to 10, 1 to 9, 1 to 8, 1 to 7, 1 to 6, 1 to 5, 1 to 4, 1 to 3, or 1 to 2.
- the base other than the mismatched base exactly matches the sequence of the specific molecular barcode.
- the method of the first embodiment can be implemented in combination with the third embodiment.
- the method of the second embodiment can be implemented in combination with the third embodiment.
- the molecular barcode may have a fixed base at a particular position.
- a sequence similar to the sequence with the specific molecular barcode in step (II) comprises the fixed base at the specific position, and / or the fixed base May be selected based on the fact that the position of is shifted from the specific position.
- the method may further include excluding, from analysis, a sequence having a molecular barcode that does not include the fixed base at the specific position.
- a sequence having molecular barcodes that do not contain the fixed base at the specific position is analyzed It may further include excluding.
- excluding from the analysis a sequence having a molecular barcode that does not contain the fixed base at the specific position may be before, after or during clustering.
- a sequence having a molecular barcode which does not contain the fixed base at the specific position may be excluded from the sequence information of step (I), which is prepared in step (II) It may be excluded from the analyzed group.
- sequence information consisting of a sequence comprising the fixed base at the specific position in step (I) or after step (I) You may get it.
- a group consisting of a sequence comprising the fixed base at the specific position may be obtained.
- step (IIb): in the step (I), or after step (I) the identification in the molecular barcode portion
- Step (II) a sequence having a specific molecular barcode or similar thereto from step (II): the sequence information obtained in (I) above Select sequences to create a group according to the selected sequences
- step (IIc): in step (II) or after step (II), at the specific position in the molecular barcode portion You may obtain the group which consists of a sequence containing the said fixed base.
- the sequence information or group consisting of the sequence containing the fixed base at the specific position in the molecular barcode portion may consist of the sequence containing the fixed base at all specific positions.
- the sequence information or group consisting of a sequence including the fixed base at the specific position in the molecular barcode portion is n when the number of fixed bases is n (wherein n is a natural number), Alternatively, it may be composed of a sequence including fixed bases at a specific position of nm (where m can be a natural number ranging from 1, 2, 3 or 1 to n-1).
- step (III) the index and molecular barcode pair other than the determined correct pair are determined as the index and the molecular barcode mispair Also, the determined mispair may be excluded from the analysis.
- the nucleic acid analysis method is based on the number of groups created by the sequence having the specific molecular barcode or the sequence similar thereto.
- the method may further comprise the step of determining the number of target nucleic acid molecules contained in the sample from which the molecule is derived.
- first embodiment of the present invention can be combined with the second embodiment of the present invention
- first embodiment of the present invention can be combined with the third embodiment of the present invention.
- the first embodiment of the present invention may be combined with the second and third embodiments of the present invention.
- the second embodiment of the present invention can combine the third embodiment of the present invention.
- a fourth embodiment of the present invention is a method for digitally quantifying a target nucleic acid molecule using a barcode sequence, comprising: And a third embodiment, and a method comprising the implementation of an embodiment selected from the group consisting of these combinations.
- a fourth embodiment of the present invention is a method for digital quantification of a nucleic acid molecule of interest using a barcoded sequence comprising: (E) selecting a nucleic acid molecule containing the sequence of the target nucleic acid molecule from the obtained sequence information; (F) clustering the nucleic acid molecules selected in (e) above for each unique molecular barcode sequence, and then identifying a cluster having a plurality of sequences in the index nucleic acid molecule portion, (G) In each of the clusters identified in (f), the index with the highest detection frequency and the molecular barcode pair are identified as the correctly indexed target nucleic acid molecules, and the other index and molecular barcode pairs are identified.
- the purpose contained in the sample corresponding to the index based on the number of sequence types of the unique molecular barcode linked to the correctly indexed target nucleic acid molecule (or the number of clusters of the target nucleic acid molecule correctly indexed) Determine the number of nucleic acid molecules, It may be a method.
- step (g) the number of kinds of unique molecular barcode sequences linked to the correctly indexed target nucleic acid molecule (or the number of clusters of the target nucleic acid molecule correctly indexed)
- the number may be determined as the number of target nucleic acid molecules contained in the sample corresponding to the index, and it is considered that the accuracy of quantification increases in principle as the number of reads increases.
- the fourth embodiment of the present invention is (A) separately obtaining a plurality of samples comprising a nucleic acid molecule (eg, DNA or RNA) and ⁇ at least one of the samples comprising the nucleic acid molecule of interest ⁇ , (B) A target nucleic acid molecule in which an arbitrary molecular barcode is linked to each of the target nucleic acid molecules in each of a plurality of obtained samples before amplification of a nucleic acid molecule contained in the sample, and different molecular barcodes are linked to each other Obtaining (C) Before mixing a plurality of samples, a unique index is added to the target nucleic acid molecule for each sample containing a plurality of target nucleic acid molecules, and a library of target nucleic acid molecules in which different indexes are linked for each sample derived (The order of step B and step C may be earlier; and after step (b) or (c), the nucleic acid molecule can be amplified to obtain an amplification product of the target nucleic
- the sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule
- sequencing the nucleic acid molecules to which the molecular barcodes have been added to identify the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the nucleic acid molecule portion linked thereto for each nucleic acid molecule. It is also good.
- the clustering is (I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster; (Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster; (Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it may be performed by classifying nucleic acid molecule groups having a sequence of unique molecular barcodes and a sequence having up to 3 bases into the same cluster.
- clustering is In the sequence of the molecular barcode portion, nucleic acid molecules having a sequence sequenced as having an insertion or deletion (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) in the same cluster It may be performed by classification. At this time, the molecular barcode having the fixed base described in the third embodiment may be used.
- indel insertion or deletion
- clustering is A nucleic acid molecule obtained by excluding sequences sequenced as having insertions or deletions (indel) of bases (eg, up to 1 base, up to 2 bases, or up to 3 bases) in the sequence of the molecular barcode portion It may be performed on a group.
- the molecular barcode having the fixed base described in the third embodiment may be used.
- each of the target nucleic acid molecules can be Accurate digital quantification is achieved by labeling and obtaining a sufficiently large number of leads compared to the number of original target nucleic acid molecules and detecting all the molecular barcodes attached to each target nucleic acid molecule. It will be possible.
- RNA-Seq gene expression analysis 2-7 by RNA sequencing, iCLIP (individual-nucleotide resolution UV cross-linking and immunoprecipitation) 8 , antibody repertoire analysis 9 , bacterial 16S rRNA gene analysis 10 , 11 , and ChIP It is used for many applications in next generation sequencing platforms such as -nexus (chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation) 12 . These methods make it possible to digitally accurately determine the absolute number of molecules in a given sample, even in the presence of noise and / or bias in the measurement system.
- RNA-Seq using molecular barcodes ie digital RNA-Seq (dRNA-Seq) 3 or quantitative RNA-Seq 13 is one of the most widely used applications of digital counting.
- dRNA-Seq is often used for single cell gene expression analysis as it works well even for small sample sizes.
- the detection limit is important in such measurement. Because, single cells have been shown to have many low copy RNAs 13,14 , and detection limits indicate that there are many potentially undetected low copy RNAs, which are biological Because it can affect the subsequent interpretation of the phenomenon. Therefore, since the barcode system used determines the detection limit of nucleic acid quantification, the investigation of the efficacy of barcodes for absolute and digital quantification is crucial.
- RNA-Seq studies where barcodes are individual cells in a single sequencing run Because it can be used to identify thousands of cells in 7) .
- the general procedure for digital quantification of nucleic acid molecules is as follows (see FIG. 1, panel A). (I) Uniquely tag each RNA (or complementary DNA or cDNA) or DNA with externally added DNA (molecular barcodes) containing diverse sequences 1-3 . (Ii) Amplify the barcoded DNA or cDNA (produced from RNA when starting from RNA).
- sequence limiting barcodes When sequence limiting barcodes were previously used, the diversity of barcode sequences required for accurate quantitation was estimated by theoretical calculations 16 and for absolute quantitation of barcoded molecules. The capacity of this technology was experimentally confirmed 3,16 .
- sequence limiting barcodes has the following disadvantages: Many different individually designed barcode sequences have to be prepared for the measurement of high dynamic range, which is It is not cost effective. In order to minimize costs while increasing the dynamic range of counting, random (or pseudorandom) base barcodes are used instead 2,4-9,11,12,18,20 . Again, it should be determined that the sequence diversity of the barcode set is sufficient 17, 18 .
- Thermal cycling (ProFlex PCR system; Themo Fisher Scientific Inc.) was performed as follows: half cycle at 98 ° C .; 10 seconds at 98 ° C., 10 seconds at 60 ° C., and 1 minute at 68 ° C. 4 cycles; 19 cycles of 98 ° C. for 10 seconds, 60 ° C. for 2 seconds, and 68 ° C. for 1 minute; 68 cycles of 1 ⁇ 5 of the cycle; Then, the amplified products were twice column purification (DNA Clean & Concentrator TM -5; Zymo Research Corp, CA, USA) , and the length distribution of the amplified product 2100 Bioanalyzer (Agilent Technologies, Inc., CA, USA) and It confirmed using. Concentrations were determined by qPCR kit (KK4602; KAPA Biosystems, Inc., MA, USA) using a real-time PCR system (7500; Themo Fisher Scientific Inc.).
- Sequencing index added two samples (CGCTCATT: index A (index A), GAGATTCC: index B (index B)) for 150 cycle kit v3 (Read 1: 100 cycles, Read 2: 50 cycles, Index 1: 8 Single-run sequencing using MiSeq sequencer (Illumina, Inc.). Read 2 was not used for analysis because the sequence in Read 2 is part of the sequence in Read 1.
- Raw sequence data used for analysis was deposited at GEO database GSE94895.
- the barcode region was 50 bp from the 5 'end for the long template and 30 bp from the 5' end for the short template (see “barcode” in FIG. 13) and these were extracted from the mapped reads.
- the fixed bases in the barcode region (up to 6 bases for short templates and up to 12 bases for long templates; see Figure 13 "barcode") are used for filtering and at least one fixed base mismatch I have excluded the barcode I have.
- the leads with index A and B were integrated prior to clustering when cross-contamination of the index was considered.
- Nucleotide Sequence Clusterizer The in-house software named "Nucleotide Sequence Clusterizer" was coded in C for clustering. This tool performs clustering of DNA sequences using the identified nucleotide positions of each sequence. This tool performs bounded single link clustering: First, each sequence is in its own cluster. If any two sequences differ from each other by no more than D mismatches, their clusters were integrated together. Here, D is a configurable "Distance” parameter. This process continues until there are no more clusters to consolidate, at which point the Nucleotide Sequence Clusterizer reports the number of clusters and the sequences within each cluster. The Nucleotide Sequence Clusterizer is available upon request.
- the LT1-6 nucleic acid molecules are directed from the 5 'end to the 3' end side, It was designed to be the sequence of SEQ ID NO: 1-barcode sequence-target nucleic acid sequence-the sequence of SEQ ID NO: 2.
- the barcode sequences of LT1-6 and the target nucleic acid sequences are shown in SEQ ID NOs: 5-16.
- the nucleic acid molecules of ST1 to 5 are directed from the 5 'end to the 3' end side, It was designed to be the sequence of SEQ ID NO: 3-barcode sequence-target nucleic acid sequence-the sequence of SEQ ID NO: 4.
- the barcode sequences of ST1-5 and the target nucleic acid sequences are shown in SEQ ID NOs: 17-26.
- templates DNAs all contain random base barcodes, shown as molecular barcodes in panel A of FIG. 1, and the long template is downstream of a 50 base barcode consisting of 38 random bases and 12 fixed bases.
- the short template had the target nucleic acid sequence of 8 bases downstream of the barcode of 30 bases consisting of 24 random bases and 6 fixed bases (FIG. 13). reference).
- all templates contained common sequences at both the 5 'and 3' ends used for PCR amplification (see Figures 13 and 14). In this example, 40 000, 40000, 4000, 300, 100 and 20 copies of LT1, LT2, LT3, LT4, LT5 and LT6, 20000 copies of ST1 and ST2, and 4000 copies, respectively, as model measurement samples.
- sequences of index A and B were added to the template by including in the reverse primer for amplification (see FIG. 14).
- Sequence of reverse primer for amplification of index A (Rv primer in FIG. 14): CAAGCAGAGAGACGGCATACGAGAT AATGAGCG GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (SEQ ID NO: 28)
- Sequence of reverse primer for amplification of index B (Rv primer 2 in FIG.
- the plateau should be determined because the number of unique barcodes to be identified should not depend on the coverage (sequence depth) if the coverage reaches a sufficient level Will be observed in the plot of Even if the sequence depth (ie, the number of times each barcode is read) is increased, the measured number of original target nucleic acid sequences should not increase beyond 20000 of the original copy number, so the plateau is 20000. Expected to be. However, this expected plateau was not observed, and the number of unique barcodes determined increased monotonically as coverage increased. This implies that the digital counting system needs improvement under this condition.
- the number of barcode clusters decreased as the position of the fixed base moved away from the sequencing primer site. This is reasonable as fixed base mismatches can detect indel-type sequence changes that occur between the sequence initiation site and the position of the fixed base. Also, the dependence of the number of fixed bases on the number of barcode clusters determined was analyzed. At this time, the fixed base located at the farthest position from the sequence primer site was used (see panel C of FIG. 3 and panel C of FIG. 9). When the number of fixed bases used was small, the number of barcode clusters determined decreased significantly, and as the number of fixed bases used increased, the number of barcode clusters determined became almost constant. To observe the effect of mismatch exclusion on the above two requirements for accurate digital quantification, the number of random bases (panel A in FIG.
- the possibility of being added to the tube is considered to be very small. Therefore, it was considered that either the PCR primer containing the specific index was mixed in the tube, the index sequence had an error, and / or index switching occurred in the sequencing step (Sinha , R. et al., Biorxiv, 10.1101 / 125724 (2017)). To eliminate this effect, first, all the leads sorted into two indices for each template were mixed and clustering was performed on these mixed leads.
- the barcode cluster was counted as having an index including the highest number of reads among the sequenced reads. Using this process, it was finally found that the determined number of clusters showed a plateau as a function of coverage (see panel C of FIG. 2 and yellow lines of panel C of FIG. 8). Importantly, the blue lines in panel C of FIG. 2 and panel C of FIG. 8 show that the number of clusters determined to increase in coverage slightly increases, but the effect of index switching is With the above process excluded, the number of clusters showed a plateau even if the coverage rate increased.
- index switching affects the accuracy of barcode clustering, and exclusion of index switching (miss index) It is shown that the process allows for a digital quantitative system with improved accuracy and accuracy not affected by coverage.
- the number was 4 (for all templates, the 16th, 21st, 24th and 28th from the left used a barcode (FIG. 13) with fixed bases). Cross contamination of the index and misidentification of the template were also considered. It is believed that all of the above quantitative analysis and insights can be used to accurately quantify the nucleic acid molecule of interest using the digital counting scheme of the present invention. Based on these conditions, two requirements were examined for all the molds to determine the dynamic range of this digital counting system (see panels A, B and 11 of FIG. 4). For coverage dependency, use 20 random bases for clustering (panel A and 11 in Figure 4), and for the dependence on the number of random bases, analyze 10% of the original total number of reads We decided to use (panel B of FIG. 4).
- the required number of random bases can be presented to count the absolute number of molecules in the presence of errors (see FIG. 5, panel A).
- the x-axis indicates the number of inputs of the molecule to be measured, and the y-axis indicates the number of random bases when each curve in panel B of FIG. 4 and panel B of FIG. Show.
- Panel B in FIG. 5 shows the dependence of the relative number of clusters on the number of random bases as done in panel B of FIG. Did not have a significant effect). Including these data in panel A of FIG. 5 to show more data in the lower range of a given number of molecules, and, for example, to quantify about 10 5 molecules with an accuracy of over 95% It has been found that at least 16 random bases are required.
- molecular barcodes are used to identify sample cross contamination (caused by physical contamination of primers, errors in the index, and / or index switching in the sequencing process) or misidentification of the target nucleic acid sequence in the alignment process did.
- the former can solve the serious problems reported in the next generation sequencer platform 23, 24 .
- the effectiveness of random base barcodes has been demonstrated in general applications and validation of the barcode usage presented here The strategies for are applicable to various platforms.
- the effectiveness of random base barcodes on barcoded molecules has been demonstrated, so that one skilled in the art, who can vary from application to application, can evaluate the effectiveness or efficacy of barcode addition.
- the present invention includes gene expression analysis, iCLIP 8 , antibody repertoire analysis 9 , bacterial 16S rRNA gene analysis 10 , 11 , count of molecules in ChIP-nexus 12 as well as cells 9 , 25 , 26 , virus 1 and barcodes Can be widely used in digital counting of nucleic acid quantitation using molecular barcodes, for other applications using Recently, commercially available products such as Single Cell Sequencing Solution (Illumina, Inc., CA, US and Bio-Rad Laboratories, Inc., CA, USA) and Chromium Single Cell 3 'Solution (10x Genomics, Inc. CA, USA) An apparatus may be used to perform these applications. We believe that system biology is promoted based on a large amount of quantitative data obtained experimentally.
- SEQ ID NO: 1 Base sequence of 5 'region of LT1 to 6
- SEQ ID NO: 2 Base sequence of 3' region of LT1 to 6
- SEQ ID NO: 3 Base sequence of 5 'region of ST1 to 5
- SEQ ID NO: 4 base sequence of 3 'region of ST1 to 5 barcode of SEQ ID NO: 5: LT1 barcode sequence
- SEQ ID NO: 6 LT1 target nucleic acid sequence
- SEQ ID NO: 8 target nucleic acid sequence of LT2
- 9 LT3 bar code sequence
- SEQ ID NO: 10 LT3 target nucleic acid sequence
- SEQ ID NO 12 LT4 target nucleic acid sequence
- SEQ ID NO: 13 LT5 bar code sequence
- SEQ ID NO 14 LT5
- SEQ ID NO 16 LT
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Genetics & Genomics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
The present invention provides methods for correcting errors which occur in the digital assay of nucleic acids using molecular bar codes. More specifically, provided are: a method for identifying mispairing of molecular bar codes and index sequences in accordance with the detection frequency; a method for identifying molecular bar codes having base substitutions which have been categorized into the same cluster; and a method for identifying molecular bar codes having insertions or deletions using molecular bar codes including fixed bases and random bases.
Description
本願は、米国仮出願第62/523857(出願日:2017年6月23日)の優先権の利益を享受する出願であり、引用することにより上記仮出願の全体は本願明細書に取り込まれたものとする。
This application is an application benefiting from the priority of US Provisional Application No. 62 / 523,857 (filing date: June 23, 2017), which is incorporated herein by reference in its entirety. It shall be.
本発明は、核酸をシークエンシングする方法および解析する方法に関する。
The present invention relates to methods of sequencing and analyzing nucleic acids.
次世代シークエンサープラットフォームの発展により、1回のランで極めて多数の種類の核酸の配列を同時進行で解析できるようになった。サンプル中に存在する核酸分子の1分子毎に固有の分子バーコードを付加すると、固有の分子バーコードの種類の数を核酸分子数に対応させることができ、次世代シークエンサーのプラットフォームによって、核酸分子のデジタル定量の途が切り拓かれた(特許文献1および非特許文献1)。分子バーコードをランダム塩基として、塩基配列を長くすることによりバーコード配列に大きな多様性を付加することが容易にできるようになり、デジタル定量できる核酸分子のダイナミックレンジが拡大した(特許文献1および非特許文献1)。
The development of next-generation sequencer platforms has made it possible to simultaneously analyze the sequences of a large number of nucleic acids in one run. By adding a unique molecular barcode to each molecule of nucleic acid molecules present in the sample, the number of unique molecular barcode types can be made to correspond to the number of nucleic acid molecules, and the platform of the next generation sequencer The way of digital determination of H. pylori was pioneered (Patent Document 1 and Non-Patent Document 1). By using a molecular barcode as a random base and lengthening the base sequence, it becomes possible to easily add great diversity to the barcode sequence, and the dynamic range of the nucleic acid molecule that can be quantified digitally is expanded (Patent Document 1 and Non Patent Literature 1).
しかしながら、デジタル定量では、分析途中に分子バーコードの配列が変化してしまうことがあり、これによって新しく生成された分子バーコードが核酸分子の定量精度に影響を与えることがある。しかしながら、分子バーコードの配列は、ランダムに設計されたものであると、配列が変化したことを把握することが困難である。その他、分子バーコードの配列がランダムであることに起因して、デジタル定量においてどのようなエラーが発生し得るのかの解析が困難であり、その解決策を提示することもまた困難であった。
However, in digital quantification, the sequence of molecular barcodes may change during analysis, whereby newly generated molecular barcodes may affect the accuracy of quantification of nucleic acid molecules. However, if the sequence of the molecular barcode is randomly designed, it is difficult to grasp that the sequence has changed. In addition, due to the randomness of the molecular barcode sequence, it is difficult to analyze what kind of error may occur in digital quantification, and it is also difficult to present the solution.
本発明は、核酸をシークエンシングする方法および解析する方法を提供する。
The present invention provides methods of sequencing and analyzing nucleic acids.
本発明者らは、インデックスとバーコードとを用いた目的核酸分子のデジタル定量方法において、複数のサンプルを混合して目的核酸分子を定量する場合に、インデックスが想定外の異なるサンプルに由来する核酸に付加されてしまう、ミスインデックスが発生し得ることを明らかとした。本発明者らはまた、同一のバーコードに2つの異なるインデックスが付加されている場合に、最も頻度高いペアを正しいペアであるとし、それ以外のいずれかまたは全てをミスインデックスとして除外することにより、デジタル定量法の精度が向上し得ることを明らかにした。
本発明者らは、バーコード配列の種類の数をカウントする際に、バーコード配列内に変異(例えば、挿入、置換、および欠失)が生じ、同じと判断されるべき配列が異なる配列として認識される問題が発生し得ることが明らかになった。本発明者らは、一定の配列類似性を有する配列を一群にクラスタリングし、クラスター数に基づいて目的核酸分子の定量を行うことで、デジタル定量法の精度が向上し得ることを明らかにした。
本発明者らは、核酸をデジタルカウントする際に、鋳型を誤同定してしまう問題が生じ得ることが明らかになった。本発明者らはまた、同一のバーコードに2つの異なる目的核酸配列が付加されている場合に、最も頻度高いペアを正しいペアであるとし、それ以外のいずれかまたは全てを誤同定として除外することにより、デジタル定量法の精度が向上し得ることを明らかにした。 The present inventors use the index and the barcode in the digital quantification method of the target nucleic acid molecule, when mixing a plurality of samples and quantifying the target nucleic acid molecule, the nucleic acid derived from the sample whose index is different from unexpected It is clarified that a miss index can occur, which is added to We also consider the most frequent pair to be the correct pair when two different indexes are added to the same barcode, and excluding any or all others as miss indexes. , Revealed that the accuracy of the digital quantification method can be improved.
We have found that when counting the number of types of barcode sequences, mutations (e.g. insertions, substitutions and deletions) occur in the barcode sequence and the sequences to be judged to be the same are different sequences It has become clear that perceived problems can occur. The present inventors have clarified that the accuracy of the digital quantification method can be improved by clustering sequences having a certain sequence similarity into a group and quantifying a target nucleic acid molecule based on the number of clusters.
We have found that when digitally counting nucleic acids, the problem of misidentifying the template can occur. We also identify the most frequent pair as the correct pair and exclude any or all others as false identifications when two different target nucleic acid sequences are added to the same barcode It was revealed that the accuracy of the digital quantification method could be improved.
本発明者らは、バーコード配列の種類の数をカウントする際に、バーコード配列内に変異(例えば、挿入、置換、および欠失)が生じ、同じと判断されるべき配列が異なる配列として認識される問題が発生し得ることが明らかになった。本発明者らは、一定の配列類似性を有する配列を一群にクラスタリングし、クラスター数に基づいて目的核酸分子の定量を行うことで、デジタル定量法の精度が向上し得ることを明らかにした。
本発明者らは、核酸をデジタルカウントする際に、鋳型を誤同定してしまう問題が生じ得ることが明らかになった。本発明者らはまた、同一のバーコードに2つの異なる目的核酸配列が付加されている場合に、最も頻度高いペアを正しいペアであるとし、それ以外のいずれかまたは全てを誤同定として除外することにより、デジタル定量法の精度が向上し得ることを明らかにした。 The present inventors use the index and the barcode in the digital quantification method of the target nucleic acid molecule, when mixing a plurality of samples and quantifying the target nucleic acid molecule, the nucleic acid derived from the sample whose index is different from unexpected It is clarified that a miss index can occur, which is added to We also consider the most frequent pair to be the correct pair when two different indexes are added to the same barcode, and excluding any or all others as miss indexes. , Revealed that the accuracy of the digital quantification method can be improved.
We have found that when counting the number of types of barcode sequences, mutations (e.g. insertions, substitutions and deletions) occur in the barcode sequence and the sequences to be judged to be the same are different sequences It has become clear that perceived problems can occur. The present inventors have clarified that the accuracy of the digital quantification method can be improved by clustering sequences having a certain sequence similarity into a group and quantifying a target nucleic acid molecule based on the number of clusters.
We have found that when digitally counting nucleic acids, the problem of misidentifying the template can occur. We also identify the most frequent pair as the correct pair and exclude any or all others as false identifications when two different target nucleic acid sequences are added to the same barcode It was revealed that the accuracy of the digital quantification method could be improved.
すなわち、本発明によれば以下の発明が提供される。
(1A)核酸の解析方法であって:
(I)分子バーコードとインデックスが付加された複数の目的核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定のインデックスを有する配列若しくはこれと類似する配列、及び/又は特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(III)上記(II)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する工程と、
を含む、方法。
(2A)少なくとも分子バーコードが付加された目的核酸分子が、工程(I)の前に増幅に供されている、上記(1A)に記載の方法。
(3A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、上記(1A)または(2A)に記載の方法。
(4A)分子バーコードが、特定の位置に固定塩基を有する、上記(1A)~(3A)のいずれかに記載の方法。
(5A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、上記(4A)に記載の方法。
(6A)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含む、上記(4A)に記載の方法。
(7A)工程(III)において、決定された正しいペア以外のインデックスと分子バーコードのペアを、インデックスと分子バーコードのミスペアと決定して除外する、
上記(1A)~(5A)のいずれかに記載の方法。
(8A)特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、上記(1A)~(7A)のいずれかに記載の方法。
(9A)核酸の解析方法であって:
(I)分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
を含む、方法。
(10A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、上記(9A)に記載の方法。
(11A)分子バーコードが、特定の位置に固定塩基を有する、上記(9A)または(10A)に記載の方法。
(12A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、上記(11A)に記載の方法。
(13A)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程をさらに含む、上記(11A)に記載の方法。
(14A)特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、上記(9A)~(13A)のいずれかに記載の方法。
(15A)少なくとも分子バーコードが付加された目的核酸分子が、工程(I)の前に増幅に供されている、上記(9A)~(14A)のいずれかに記載の方法。
(16A)核酸の解析方法であって:
(I)特定の位置に固定塩基を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(IIa)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程;
(IIb)工程(I)において、若しくは、工程(I)の後で、当該特定の位置に当該固定塩基を含む配列からなる配列情報を得る工程;または
(IIc)工程(II)として上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程をさらに含み、かつ工程(II)において、若しくは工程(II)の後で、当該特定の位置に当該固定塩基を含む配列からなる群を得る工程と、
を含む、方法。 That is, according to the present invention, the following inventions are provided.
(1A) A method of analyzing nucleic acid:
(I) subjecting a mixture of a plurality of target nucleic acid molecules to which a molecular barcode and an index have been added to sequencing to obtain sequence information;
(II) From the sequence information obtained in (I) above, a sequence having a specific index or a sequence similar thereto, and / or a sequence having a specific molecular barcode or a sequence analogous thereto is selected and selected Creating a group by the arranged array;
(III) determining, in the group created in (II) above, the pair of the index with the highest detection frequency and the molecular barcode as the correct pair of the index and the molecular barcode;
Method, including.
(2A) The method according to (1A) above, wherein the target nucleic acid molecule to which at least a molecular barcode has been added is subjected to amplification prior to step (I).
(3A) A sequence similar to the sequence having a specific molecular barcode in step (II) is a sequence including the sequence having the specific molecular barcode and a mismatched base having a number of bases or less in the molecular barcode sequence portion. The method according to (1A) or (2A) above.
(4A) The method according to any of the above (1A) to (3A), wherein the molecular barcode has a fixed base at a specific position.
(5A) that the sequence similar to the sequence having the specific molecular barcode in step (II) contains the fixed base at the specific position, and / or the position of the fixed base is shifted from the specific position The method according to (4A) above, which is selected based on
(6A) The method according to (4A) above, further comprising excluding from analysis the sequence having a molecular barcode that does not contain the fixed base at the specific position.
(7A) In step (III), excluding the index and molecular barcode pairs other than the determined correct pairs as the index and molecular barcode mispairing,
The method according to any one of the above (1A) to (5A).
(8A) further comprising the step of determining the number of target nucleic acid molecules contained in the sample from which the target nucleic acid molecule is derived based on the number of groups having a specific molecular barcode or a sequence similar thereto And the method according to any one of (1A) to (7A) above.
(9A) A method of analyzing nucleic acid:
(I) subjecting a mixture of a plurality of nucleic acid molecules to which molecular barcodes have been added to sequencing to obtain sequence information;
(II) selecting a sequence having a specific molecular barcode or a sequence similar thereto from the sequence information obtained in (I) above, and creating a group from the selected sequence;
Method, including.
(10A) A sequence similar to the sequence having the specific molecular barcode in step (II) is a sequence including the sequence having the specific molecular barcode and a mismatched base having a number of bases or less in the molecular barcode sequence portion. The method according to (9A) above.
(11A) The method according to (9A) or (10A) above, wherein the molecular barcode has a fixed base at a specific position.
(12A) that the sequence similar to the sequence having the specific molecular barcode in step (II) contains the fixed base at the specific position, and / or the position of the fixed base is shifted from the specific position The method according to (11A) above, which is selected based on
(13A) The method according to (11A), further including the step of excluding from analysis the sequence having a molecular barcode which does not contain the fixed base at the specific position.
(14A) further comprising the step of determining the number of target nucleic acid molecules contained in the sample from which the target nucleic acid molecule is derived based on the number of groups having a specific molecular barcode or a sequence similar thereto And the method according to any one of (9A) to (13A) above.
(15A) The method according to any one of (9A) to (14A) above, wherein the target nucleic acid molecule to which at least a molecular barcode has been added is subjected to amplification prior to step (I).
(16A) A method of analyzing nucleic acid:
(I) subjecting a mixture of a plurality of nucleic acid molecules to which a molecular barcode having a fixed base at a specific position is added to sequencing to obtain sequence information;
(IIa) excluding from analysis a sequence having a molecular barcode which does not contain the fixed base at the specific position;
(IIb) obtaining sequence information comprising a sequence comprising the fixed base at the specific position in the step (I) or after the step (I); or (IIc) as the step (II) above Further comprising the step of selecting a sequence having a specific molecular barcode or a sequence similar thereto from the sequence information obtained in 4.), and creating a group according to the selected sequence, and in step (II) or After II) obtaining a group consisting of a sequence comprising the fixed base at the particular position;
Method, including.
(1A)核酸の解析方法であって:
(I)分子バーコードとインデックスが付加された複数の目的核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定のインデックスを有する配列若しくはこれと類似する配列、及び/又は特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(III)上記(II)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する工程と、
を含む、方法。
(2A)少なくとも分子バーコードが付加された目的核酸分子が、工程(I)の前に増幅に供されている、上記(1A)に記載の方法。
(3A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、上記(1A)または(2A)に記載の方法。
(4A)分子バーコードが、特定の位置に固定塩基を有する、上記(1A)~(3A)のいずれかに記載の方法。
(5A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、上記(4A)に記載の方法。
(6A)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含む、上記(4A)に記載の方法。
(7A)工程(III)において、決定された正しいペア以外のインデックスと分子バーコードのペアを、インデックスと分子バーコードのミスペアと決定して除外する、
上記(1A)~(5A)のいずれかに記載の方法。
(8A)特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、上記(1A)~(7A)のいずれかに記載の方法。
(9A)核酸の解析方法であって:
(I)分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
を含む、方法。
(10A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、上記(9A)に記載の方法。
(11A)分子バーコードが、特定の位置に固定塩基を有する、上記(9A)または(10A)に記載の方法。
(12A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、上記(11A)に記載の方法。
(13A)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程をさらに含む、上記(11A)に記載の方法。
(14A)特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、上記(9A)~(13A)のいずれかに記載の方法。
(15A)少なくとも分子バーコードが付加された目的核酸分子が、工程(I)の前に増幅に供されている、上記(9A)~(14A)のいずれかに記載の方法。
(16A)核酸の解析方法であって:
(I)特定の位置に固定塩基を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(IIa)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程;
(IIb)工程(I)において、若しくは、工程(I)の後で、当該特定の位置に当該固定塩基を含む配列からなる配列情報を得る工程;または
(IIc)工程(II)として上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程をさらに含み、かつ工程(II)において、若しくは工程(II)の後で、当該特定の位置に当該固定塩基を含む配列からなる群を得る工程と、
を含む、方法。 That is, according to the present invention, the following inventions are provided.
(1A) A method of analyzing nucleic acid:
(I) subjecting a mixture of a plurality of target nucleic acid molecules to which a molecular barcode and an index have been added to sequencing to obtain sequence information;
(II) From the sequence information obtained in (I) above, a sequence having a specific index or a sequence similar thereto, and / or a sequence having a specific molecular barcode or a sequence analogous thereto is selected and selected Creating a group by the arranged array;
(III) determining, in the group created in (II) above, the pair of the index with the highest detection frequency and the molecular barcode as the correct pair of the index and the molecular barcode;
Method, including.
(2A) The method according to (1A) above, wherein the target nucleic acid molecule to which at least a molecular barcode has been added is subjected to amplification prior to step (I).
(3A) A sequence similar to the sequence having a specific molecular barcode in step (II) is a sequence including the sequence having the specific molecular barcode and a mismatched base having a number of bases or less in the molecular barcode sequence portion. The method according to (1A) or (2A) above.
(4A) The method according to any of the above (1A) to (3A), wherein the molecular barcode has a fixed base at a specific position.
(5A) that the sequence similar to the sequence having the specific molecular barcode in step (II) contains the fixed base at the specific position, and / or the position of the fixed base is shifted from the specific position The method according to (4A) above, which is selected based on
(6A) The method according to (4A) above, further comprising excluding from analysis the sequence having a molecular barcode that does not contain the fixed base at the specific position.
(7A) In step (III), excluding the index and molecular barcode pairs other than the determined correct pairs as the index and molecular barcode mispairing,
The method according to any one of the above (1A) to (5A).
(8A) further comprising the step of determining the number of target nucleic acid molecules contained in the sample from which the target nucleic acid molecule is derived based on the number of groups having a specific molecular barcode or a sequence similar thereto And the method according to any one of (1A) to (7A) above.
(9A) A method of analyzing nucleic acid:
(I) subjecting a mixture of a plurality of nucleic acid molecules to which molecular barcodes have been added to sequencing to obtain sequence information;
(II) selecting a sequence having a specific molecular barcode or a sequence similar thereto from the sequence information obtained in (I) above, and creating a group from the selected sequence;
Method, including.
(10A) A sequence similar to the sequence having the specific molecular barcode in step (II) is a sequence including the sequence having the specific molecular barcode and a mismatched base having a number of bases or less in the molecular barcode sequence portion. The method according to (9A) above.
(11A) The method according to (9A) or (10A) above, wherein the molecular barcode has a fixed base at a specific position.
(12A) that the sequence similar to the sequence having the specific molecular barcode in step (II) contains the fixed base at the specific position, and / or the position of the fixed base is shifted from the specific position The method according to (11A) above, which is selected based on
(13A) The method according to (11A), further including the step of excluding from analysis the sequence having a molecular barcode which does not contain the fixed base at the specific position.
(14A) further comprising the step of determining the number of target nucleic acid molecules contained in the sample from which the target nucleic acid molecule is derived based on the number of groups having a specific molecular barcode or a sequence similar thereto And the method according to any one of (9A) to (13A) above.
(15A) The method according to any one of (9A) to (14A) above, wherein the target nucleic acid molecule to which at least a molecular barcode has been added is subjected to amplification prior to step (I).
(16A) A method of analyzing nucleic acid:
(I) subjecting a mixture of a plurality of nucleic acid molecules to which a molecular barcode having a fixed base at a specific position is added to sequencing to obtain sequence information;
(IIa) excluding from analysis a sequence having a molecular barcode which does not contain the fixed base at the specific position;
(IIb) obtaining sequence information comprising a sequence comprising the fixed base at the specific position in the step (I) or after the step (I); or (IIc) as the step (II) above Further comprising the step of selecting a sequence having a specific molecular barcode or a sequence similar thereto from the sequence information obtained in 4.), and creating a group according to the selected sequence, and in step (II) or After II) obtaining a group consisting of a sequence comprising the fixed base at the particular position;
Method, including.
本発明によればまた、以下の発明が提供される。
(1B)複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシングより得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
(E)得られた配列情報から、特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(F)上記(E)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および/または、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法。
(2B)工程(E)において、特定のインデックスを有する配列を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(3B)工程(E)において、特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(4B)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(5B)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(6B)工程(F)において、決定された正しいペア以外のインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てを、インデックスと分子バーコードのミスペアと決定する、
上記(2B)~(5B)に記載の方法。
(7B)工程(E)において特定のインデックスを有する分子を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペアをインデックスの少なくともいずれか1つまたは全てと分子バーコードのミスペアと決定する、
上記(1B)に記載の方法。
(8B)工程(E)において特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において作成された群のうち検出頻度の低いインデックスと分子バーコードのペアをインデックスと分子バーコードの少なくともいずれか1つまたは全てのミスペアと決定する、
上記(1B)に記載の方法。
(9B)工程(E)において目的核酸分子を含む配列を選択して群を作成し、
工程(F)においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1B)に記載の方法。
(10B)工程(E)において目的核酸分子を含む分子を選択して群を作成し、
工程(F)においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1B)に記載の方法。
(11B)工程(E)において、群を作成する工程が、配列同一性または類似性に基づいて判断される同一配列を有していたと推定される分子を一群としてクラスタリングすることによって群を作成することによって行われる、
上記(1B)~(10B)に記載の方法。
(12B)工程(E)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(11B)に記載の方法。
(13B)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(11B)または(12B)に記載の方法。
(14B)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(11B)または(12B)に記載の方法。
(15B)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、位置の相違により特定することをさらに含む、上記(13B)または(14B)に記載の方法。
(16B)複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシングより得られた配列情報から、特定の元々のサンプルに含まれる目的核酸分子の数を決定する方法であって、
(e)得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
(f)上記(e)で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
(g)上記(f)において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)が、当該インデックスに対応するサンプルに含まれる目的核酸分子の数である、
方法。
(17B)前記(f)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16B)に記載の方法。
(18B)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16B)または(17B)に記載の方法。
(19B)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(16B)または(17B)に記載の方法。
(20B)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相違により特定することをさらに含む、上記(18B)または(19B)に記載の方法。
(21B)バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列の情報から、変異後の分子バーコードが有する配列を配列類似性を有する他の配列と一緒に1群にクラスタリングし、得られたクラスター数に基づいて目的核酸分子の数を推定する、方法。
(22B)上記(21B)に記載の方法であって、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、方法。
(23B)上記(21B)または(22B)に記載の方法であって、クラスタリングが、分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、方法。
(24B)上記(21B)~(23B)のいずれか一項に記載の方法であって、
核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することによって塩基の挿入または欠失(indel)を検出し、
クラスタリングが、分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われるか、または、
クラスタリングが、分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、方法。
(25B)バーコード配列を用いた目的核酸分子のデジタル定量法において、バーコード中の塩基の挿入または欠失(indel)を検出する方法であって、核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することによって塩基の挿入または欠失(indel)を検出することを含む、方法。 According to the present invention, the following inventions are also provided.
(1B) obtained by sequencing using a mixture of a plurality of samples containing a target nucleic acid molecule having an index unique to each sample containing a plurality of nucleic acid molecules and a unique or arbitrary molecular barcode unique to each nucleic acid molecule A method for determining the correct pair or mispair of an index added to a target nucleic acid molecule and a molecular barcode from sequence information.
(E) From the obtained sequence information, a sequence having a specific index or a sequence similar thereto, a sequence having a specific molecular barcode or a sequence similar thereto, or a sequence containing a target nucleic acid molecule or a similar Selecting a sequence and creating a group from the selected sequence;
(F) In the group created in (E) above, determine the pair with the highest detection frequency index and molecular barcode as the correct pair of index and molecular barcode, and / or the low detection frequency index and molecules Determining at least any one or all of the barcode pairs as an index and a molecule barcode mispairing;
Method, including.
(2B) In step (E), select an array having a specific index and create a group for each index,
In step (F), for nucleic acid sequences having molecular barcodes that appeared in a plurality of groups, the barcode / index pair with the highest number of reads is determined as the correct barcode / index pair, or Determine the highest index and molecular barcode pair as the correct index and molecular barcode pair
The method according to (1B) above.
(3B) In step (E), select a sequence having a specific molecular barcode to create a group for each molecular barcode,
In the step (F), the highest detection frequency index and molecular bar code pair in the created group is determined as the correct index and molecular bar code pair.
The method according to (1B) above.
(4B) In step (E), select a sequence containing the sequence of the target nucleic acid molecule to create a group,
In step (F), a sequence having a specific index is further selected from the group to create a subgroup, and a barcode having the largest number of reads and a nucleic acid sequence having a molecular barcode appearing in a plurality of subgroups Determine the index pair as the correct barcode / index pair, or determine the index / molecular barcode pair with the highest detection frequency as the correct index / molecular barcode pair,
The method according to (1B) above.
(5B) In step (E), select a sequence containing the sequence of the target nucleic acid molecule to create a group,
In step (F), molecules having a specific molecular barcode are further selected from the group to create a subgroup, and the index with the highest detection frequency and molecular barcode in one created subgroup is indexed And determine the correct pair of molecular barcodes,
The method according to (1B) above.
(6B) In the step (F), at least any one or all of the index and molecular barcode pairs other than the determined correct pair are determined as the index and the molecular barcode mispairing,
The method according to (2B) to (5B) above.
(7B) select a molecule having a specific index in step (E) and create a group for each index,
In the step (F), with respect to the sequences having molecular barcodes appearing in a plurality of groups, a low detection frequency index and molecular barcode pair is determined as at least any one or all of the indexes and the molecular barcode mispair ,
The method according to (1B) above.
(8B) select a sequence having a specific molecular barcode in step (E) to create a group for each molecular barcode,
In the group created in the step (F), the pair of the low detection frequency index and the molecular barcode is determined as the index and / or the molecular barcode, at least any one or all of mispairs,
The method according to (1B) above.
(9B) selecting a sequence containing the target nucleic acid molecule in step (E) to create a group,
In step (F), molecules having a specific index are further selected from the group to create subgroups, and for nucleic acid molecules having molecular barcodes that appear in a plurality of subgroups, an index with low detection frequency and a molecular barcode Determine at least any one or all of the pairs as the index and the molecule barcode mispairing,
The method according to (1B) above.
(10B) selecting a molecule containing the target nucleic acid molecule in step (E) to create a group,
In step (F), a molecule having a specific molecular barcode is selected from the group to create a subgroup, and at least one of a pair of a low detection index and a molecular barcode in one created subgroup Determine one or all of the index and molecular barcodes as a spare
The method according to (1B) above.
(11B) In step (E), the step of creating a group creates a group by clustering, as a group, molecules assumed to have the same sequence determined based on sequence identity or similarity Done by
The method according to (1B) to (10B) above.
(12B) In step (E), clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it is performed by classifying nucleic acid molecule groups having a sequence having a unique molecular barcode and a mismatch up to 3 bases into the same cluster,
The method according to (11B) above.
(13B) In step (E), clustering is
In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence sequenced as having an insertion or deletion (indel) of bases into the same cluster,
The method according to (11B) or (12B) above.
(14B) In step (E), clustering is
In the sequence of the molecular barcode portion, it is performed on a group of nucleic acid molecules obtained excluding the sequence sequenced as having a base insertion or deletion (indel),
The method according to (11B) or (12B) above.
(15B) The insertions or deletions of the bases in the position of each of the one or more fixed bases arranged in all molecular barcode sequences linked to the nucleic acid molecule and in the sequence of the sequenced molecular barcode sequence part The method according to (13B) or (14B) above, further comprising specifying by position differences with the position of each of the one or more fixed bases.
(16B) obtained by sequencing using a mixture of a plurality of samples containing a target nucleic acid molecule having a unique index for each sample containing a plurality of nucleic acid molecules and a specific or arbitrary molecular barcode attached to each nucleic acid molecule A method of determining the number of target nucleic acid molecules contained in a specific original sample from sequence information,
(E) selecting a nucleic acid molecule containing the sequence of the target nucleic acid molecule from the obtained sequence information;
(F) clustering the nucleic acid molecules selected in (e) above for each unique molecular barcode sequence, and then identifying a cluster having a plurality of sequences in the index nucleic acid molecule portion,
(G) In each of the clusters identified in (f), the index with the highest detection frequency and the molecular barcode pair are identified as the correctly indexed target nucleic acid molecules, and the other index and molecular barcode pairs are identified. Determining that it is a mispair, and
Including
The target nucleic acid molecule contained in the sample corresponding to the index, the number of kinds of sequence of the unique molecular barcode linked to the target nucleic acid molecule correctly indexed (or the number of clusters of the target nucleic acid molecule correctly indexed) Is the number of
Method.
(17B) In (f), clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it is performed by classifying nucleic acid molecule groups having a sequence having a unique molecular barcode and a mismatch up to 3 bases into the same cluster,
The method as described in the above (16B).
(18B) In (e), clustering is
In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence sequenced as having an insertion or deletion (indel) of bases into the same cluster,
The method according to (16B) or (17B) above.
(19B) In (e), clustering is
In the sequence of the molecular barcode portion, it is performed on a group of nucleic acid molecules obtained excluding the sequence sequenced as having a base insertion or deletion (indel),
The method according to (16B) or (17B) above.
(20B) The insertions or deletions of the bases in the position of each of the one or more fixed bases arranged in all the molecular barcode sequences linked to the nucleic acid molecule and in the sequence of the sequenced molecular barcode sequence part The method according to (18B) or (19B) above, further comprising specifying by difference with the position of each of the one or more fixed bases.
(21B) In the digital quantification of a target nucleic acid molecule using a barcode sequence, based on the information on the obtained nucleic acid sequence, the sequence of the molecule barcode after mutation has one group together with other sequences having sequence similarity And clustering the number of target nucleic acid molecules based on the number of clusters obtained.
(22B) The method according to (21B) above, wherein clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode A method carried out by classifying nucleic acid molecule groups having sequences having a unique molecular barcode and up to 3 bases of mismatches into the same cluster in the partial sequence.
(23B) The method according to (21B) or (22B) above, wherein the clustering is insertion of bases (eg, up to 1 base, up to 2 bases, or up to 3 bases) in the sequence of the molecular barcode portion A method carried out by classifying nucleic acid molecule groups having sequences sequenced as having a deletion (indel) into the same cluster.
(24B) The method according to any one of (21B) to (23B) above,
The relative position of each of the one or more fixed bases located in all of the molecular barcode sequences linked to the nucleic acid molecule and the position of each of the one or more fixed bases in the sequence of the sequenced molecular barcode sequence portion Detection of base insertions or deletions (indels) by identification by comparing the
Clustering is performed by grouping nucleic acid molecule groups having sequences sequenced as having base insertions or deletions (indels) in the sequence of the molecular barcode portion into the same cluster, or
A method wherein clustering is performed on a group of nucleic acid molecules obtained by excluding sequences sequenced as having a base insertion or deletion (indel) in the sequence of the molecular barcode portion.
(25B) A method for detecting insertion or deletion (indel) of a base in a barcode in digital quantification of a target nucleic acid molecule using the barcode sequence, wherein all molecular barcode sequences linked to the nucleic acid molecule By comparing the relative position of the position of each of the one or more fixed bases located in the and the position of each of the one or more fixed bases in the sequence of the sequenced molecular barcode portion. A method comprising detecting a base insertion or deletion (indel).
(1B)複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシングより得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
(E)得られた配列情報から、特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(F)上記(E)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および/または、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法。
(2B)工程(E)において、特定のインデックスを有する配列を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(3B)工程(E)において、特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(4B)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(5B)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(6B)工程(F)において、決定された正しいペア以外のインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てを、インデックスと分子バーコードのミスペアと決定する、
上記(2B)~(5B)に記載の方法。
(7B)工程(E)において特定のインデックスを有する分子を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペアをインデックスの少なくともいずれか1つまたは全てと分子バーコードのミスペアと決定する、
上記(1B)に記載の方法。
(8B)工程(E)において特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において作成された群のうち検出頻度の低いインデックスと分子バーコードのペアをインデックスと分子バーコードの少なくともいずれか1つまたは全てのミスペアと決定する、
上記(1B)に記載の方法。
(9B)工程(E)において目的核酸分子を含む配列を選択して群を作成し、
工程(F)においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1B)に記載の方法。
(10B)工程(E)において目的核酸分子を含む分子を選択して群を作成し、
工程(F)においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1B)に記載の方法。
(11B)工程(E)において、群を作成する工程が、配列同一性または類似性に基づいて判断される同一配列を有していたと推定される分子を一群としてクラスタリングすることによって群を作成することによって行われる、
上記(1B)~(10B)に記載の方法。
(12B)工程(E)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(11B)に記載の方法。
(13B)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(11B)または(12B)に記載の方法。
(14B)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(11B)または(12B)に記載の方法。
(15B)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、位置の相違により特定することをさらに含む、上記(13B)または(14B)に記載の方法。
(16B)複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシングより得られた配列情報から、特定の元々のサンプルに含まれる目的核酸分子の数を決定する方法であって、
(e)得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
(f)上記(e)で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
(g)上記(f)において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)が、当該インデックスに対応するサンプルに含まれる目的核酸分子の数である、
方法。
(17B)前記(f)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16B)に記載の方法。
(18B)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16B)または(17B)に記載の方法。
(19B)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(16B)または(17B)に記載の方法。
(20B)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相違により特定することをさらに含む、上記(18B)または(19B)に記載の方法。
(21B)バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列の情報から、変異後の分子バーコードが有する配列を配列類似性を有する他の配列と一緒に1群にクラスタリングし、得られたクラスター数に基づいて目的核酸分子の数を推定する、方法。
(22B)上記(21B)に記載の方法であって、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、方法。
(23B)上記(21B)または(22B)に記載の方法であって、クラスタリングが、分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、方法。
(24B)上記(21B)~(23B)のいずれか一項に記載の方法であって、
核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することによって塩基の挿入または欠失(indel)を検出し、
クラスタリングが、分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われるか、または、
クラスタリングが、分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、方法。
(25B)バーコード配列を用いた目的核酸分子のデジタル定量法において、バーコード中の塩基の挿入または欠失(indel)を検出する方法であって、核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することによって塩基の挿入または欠失(indel)を検出することを含む、方法。 According to the present invention, the following inventions are also provided.
(1B) obtained by sequencing using a mixture of a plurality of samples containing a target nucleic acid molecule having an index unique to each sample containing a plurality of nucleic acid molecules and a unique or arbitrary molecular barcode unique to each nucleic acid molecule A method for determining the correct pair or mispair of an index added to a target nucleic acid molecule and a molecular barcode from sequence information.
(E) From the obtained sequence information, a sequence having a specific index or a sequence similar thereto, a sequence having a specific molecular barcode or a sequence similar thereto, or a sequence containing a target nucleic acid molecule or a similar Selecting a sequence and creating a group from the selected sequence;
(F) In the group created in (E) above, determine the pair with the highest detection frequency index and molecular barcode as the correct pair of index and molecular barcode, and / or the low detection frequency index and molecules Determining at least any one or all of the barcode pairs as an index and a molecule barcode mispairing;
Method, including.
(2B) In step (E), select an array having a specific index and create a group for each index,
In step (F), for nucleic acid sequences having molecular barcodes that appeared in a plurality of groups, the barcode / index pair with the highest number of reads is determined as the correct barcode / index pair, or Determine the highest index and molecular barcode pair as the correct index and molecular barcode pair
The method according to (1B) above.
(3B) In step (E), select a sequence having a specific molecular barcode to create a group for each molecular barcode,
In the step (F), the highest detection frequency index and molecular bar code pair in the created group is determined as the correct index and molecular bar code pair.
The method according to (1B) above.
(4B) In step (E), select a sequence containing the sequence of the target nucleic acid molecule to create a group,
In step (F), a sequence having a specific index is further selected from the group to create a subgroup, and a barcode having the largest number of reads and a nucleic acid sequence having a molecular barcode appearing in a plurality of subgroups Determine the index pair as the correct barcode / index pair, or determine the index / molecular barcode pair with the highest detection frequency as the correct index / molecular barcode pair,
The method according to (1B) above.
(5B) In step (E), select a sequence containing the sequence of the target nucleic acid molecule to create a group,
In step (F), molecules having a specific molecular barcode are further selected from the group to create a subgroup, and the index with the highest detection frequency and molecular barcode in one created subgroup is indexed And determine the correct pair of molecular barcodes,
The method according to (1B) above.
(6B) In the step (F), at least any one or all of the index and molecular barcode pairs other than the determined correct pair are determined as the index and the molecular barcode mispairing,
The method according to (2B) to (5B) above.
(7B) select a molecule having a specific index in step (E) and create a group for each index,
In the step (F), with respect to the sequences having molecular barcodes appearing in a plurality of groups, a low detection frequency index and molecular barcode pair is determined as at least any one or all of the indexes and the molecular barcode mispair ,
The method according to (1B) above.
(8B) select a sequence having a specific molecular barcode in step (E) to create a group for each molecular barcode,
In the group created in the step (F), the pair of the low detection frequency index and the molecular barcode is determined as the index and / or the molecular barcode, at least any one or all of mispairs,
The method according to (1B) above.
(9B) selecting a sequence containing the target nucleic acid molecule in step (E) to create a group,
In step (F), molecules having a specific index are further selected from the group to create subgroups, and for nucleic acid molecules having molecular barcodes that appear in a plurality of subgroups, an index with low detection frequency and a molecular barcode Determine at least any one or all of the pairs as the index and the molecule barcode mispairing,
The method according to (1B) above.
(10B) selecting a molecule containing the target nucleic acid molecule in step (E) to create a group,
In step (F), a molecule having a specific molecular barcode is selected from the group to create a subgroup, and at least one of a pair of a low detection index and a molecular barcode in one created subgroup Determine one or all of the index and molecular barcodes as a spare
The method according to (1B) above.
(11B) In step (E), the step of creating a group creates a group by clustering, as a group, molecules assumed to have the same sequence determined based on sequence identity or similarity Done by
The method according to (1B) to (10B) above.
(12B) In step (E), clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it is performed by classifying nucleic acid molecule groups having a sequence having a unique molecular barcode and a mismatch up to 3 bases into the same cluster,
The method according to (11B) above.
(13B) In step (E), clustering is
In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence sequenced as having an insertion or deletion (indel) of bases into the same cluster,
The method according to (11B) or (12B) above.
(14B) In step (E), clustering is
In the sequence of the molecular barcode portion, it is performed on a group of nucleic acid molecules obtained excluding the sequence sequenced as having a base insertion or deletion (indel),
The method according to (11B) or (12B) above.
(15B) The insertions or deletions of the bases in the position of each of the one or more fixed bases arranged in all molecular barcode sequences linked to the nucleic acid molecule and in the sequence of the sequenced molecular barcode sequence part The method according to (13B) or (14B) above, further comprising specifying by position differences with the position of each of the one or more fixed bases.
(16B) obtained by sequencing using a mixture of a plurality of samples containing a target nucleic acid molecule having a unique index for each sample containing a plurality of nucleic acid molecules and a specific or arbitrary molecular barcode attached to each nucleic acid molecule A method of determining the number of target nucleic acid molecules contained in a specific original sample from sequence information,
(E) selecting a nucleic acid molecule containing the sequence of the target nucleic acid molecule from the obtained sequence information;
(F) clustering the nucleic acid molecules selected in (e) above for each unique molecular barcode sequence, and then identifying a cluster having a plurality of sequences in the index nucleic acid molecule portion,
(G) In each of the clusters identified in (f), the index with the highest detection frequency and the molecular barcode pair are identified as the correctly indexed target nucleic acid molecules, and the other index and molecular barcode pairs are identified. Determining that it is a mispair, and
Including
The target nucleic acid molecule contained in the sample corresponding to the index, the number of kinds of sequence of the unique molecular barcode linked to the target nucleic acid molecule correctly indexed (or the number of clusters of the target nucleic acid molecule correctly indexed) Is the number of
Method.
(17B) In (f), clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it is performed by classifying nucleic acid molecule groups having a sequence having a unique molecular barcode and a mismatch up to 3 bases into the same cluster,
The method as described in the above (16B).
(18B) In (e), clustering is
In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence sequenced as having an insertion or deletion (indel) of bases into the same cluster,
The method according to (16B) or (17B) above.
(19B) In (e), clustering is
In the sequence of the molecular barcode portion, it is performed on a group of nucleic acid molecules obtained excluding the sequence sequenced as having a base insertion or deletion (indel),
The method according to (16B) or (17B) above.
(20B) The insertions or deletions of the bases in the position of each of the one or more fixed bases arranged in all the molecular barcode sequences linked to the nucleic acid molecule and in the sequence of the sequenced molecular barcode sequence part The method according to (18B) or (19B) above, further comprising specifying by difference with the position of each of the one or more fixed bases.
(21B) In the digital quantification of a target nucleic acid molecule using a barcode sequence, based on the information on the obtained nucleic acid sequence, the sequence of the molecule barcode after mutation has one group together with other sequences having sequence similarity And clustering the number of target nucleic acid molecules based on the number of clusters obtained.
(22B) The method according to (21B) above, wherein clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode A method carried out by classifying nucleic acid molecule groups having sequences having a unique molecular barcode and up to 3 bases of mismatches into the same cluster in the partial sequence.
(23B) The method according to (21B) or (22B) above, wherein the clustering is insertion of bases (eg, up to 1 base, up to 2 bases, or up to 3 bases) in the sequence of the molecular barcode portion A method carried out by classifying nucleic acid molecule groups having sequences sequenced as having a deletion (indel) into the same cluster.
(24B) The method according to any one of (21B) to (23B) above,
The relative position of each of the one or more fixed bases located in all of the molecular barcode sequences linked to the nucleic acid molecule and the position of each of the one or more fixed bases in the sequence of the sequenced molecular barcode sequence portion Detection of base insertions or deletions (indels) by identification by comparing the
Clustering is performed by grouping nucleic acid molecule groups having sequences sequenced as having base insertions or deletions (indels) in the sequence of the molecular barcode portion into the same cluster, or
A method wherein clustering is performed on a group of nucleic acid molecules obtained by excluding sequences sequenced as having a base insertion or deletion (indel) in the sequence of the molecular barcode portion.
(25B) A method for detecting insertion or deletion (indel) of a base in a barcode in digital quantification of a target nucleic acid molecule using the barcode sequence, wherein all molecular barcode sequences linked to the nucleic acid molecule By comparing the relative position of the position of each of the one or more fixed bases located in the and the position of each of the one or more fixed bases in the sequence of the sequenced molecular barcode portion. A method comprising detecting a base insertion or deletion (indel).
本発明によればまた、以下の発明が提供される。
(1C)複数の核酸分子を含むサンプル毎に固有のインデックス(インデックス配列核酸分子を意味し、各サンプルに固有であれば複数種のインデックス核酸分子を含んでいてもよい)及び各核酸分子に固有のまたは任意の分子バーコード(バーコード配列核酸分子)が付加された目的核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルの混合物を用いたシークエンシング(すなわち、マルチプレックスシークエンシング)より得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
(A)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(B){例えば、得られた複数のサンプルそれぞれにおいて、}サンプルに含まれる核酸分子を増幅する前に、目的核酸分子それぞれに各核酸分子に固有のまたは任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(C){例えば、複数のサンプルを混合する前に、}複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリを得る工程と(工程Bの後に工程Cを行ってもよいし、工程Cの後に工程Bを行ってもよい;また、工程BまたはCの後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(D)上記(B)と(C)の後に得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(C)の後であり、サンプルを混合した後に工程(B)を行っても良く、工程(B)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(B)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列と必要に応じてそれに連結した目的核酸分子部分の配列を決定する工程と、
(E)得られた配列情報から、{例えば、配列同一性または類似性に基づいて行うことができるが}特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(F)上記(E)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および/または、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において99.5%以下、99%以下、90%以下、80%以下、70%以下、60%以下、50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法。
(2C)工程(E)において、特定のインデックスを有する配列を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(3C)工程(E)において、特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(4C)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(5C)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(6C)工程(F)において、決定された正しいペア以外のインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てを、インデックスと分子バーコードのミスペアと決定する、
上記(2C)~(5C)のいずれかに記載の方法。
(7C)工程(E)において特定のインデックスを有する分子を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスの少なくともいずれか1つまたは全てと分子バーコードのミスペアと決定する、
上記(1C)に記載の方法。
(8C)工程(E)において特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において作成された群のうち検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスと分子バーコードの少なくともいずれか1つまたは全てのミスペアと決定する、
上記(1C)に記載の方法。
(9C)工程(E)において目的核酸分子を含む配列を選択して群を作成し、
工程(F)においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1C)に記載の方法。
(10C)工程(E)において目的核酸分子を含む分子を選択して群を作成し、
工程(F)においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1C)に記載の方法。
(11C)工程(E)において、群を作成する工程が、{好ましくは、分子バーコード部分の配列において}配列同一性または類似性に基づいて判断される同一配列を有していた{例えば、工程(A)~(D)の工程のいずれかによって配列が変化することがある}と推定される分子を一群としてクラスタリングすることによって群を作成することによって行われる、
上記(1C)~(10C)に記載の方法。
(12C)工程(E)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群{すなわち、Distance = 0}を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群{すなわち、Distance = 1}を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群{すなわち、Distance = 2}を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群{すなわち、Distance = 3}を同じクラスターに分類することにより行われる、
上記(11C)に記載の方法。
(13C)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(11C)または(12C)に記載の方法。
(14C)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(11C)または(12C)に記載の方法。
(15C)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、位置の相違により特定することをさらに含む、請求項13または14に記載の方法{例えば、それぞれの固定塩基は、A、T、GおよびCからなる群から選択されるいずれか1つの塩基となるように設計され得る;または、AとTの組合せ、AとGの組合せ、AとCの組合せ、TとGの組合せ、TとCの組合せ、GとCの組合せ、AとTとGとの組合せ、AとTとCとの組合せ、AとGとCとの組合せ、およびTとGとCとの組合せからなる群から選択されるいずれか1つの組合せに含まれる塩基からランダムに選択される塩基となるように設計され得る}。
(16C)複数の核酸分子を含むサンプル毎に固有のインデックス(インデックス配列核酸分子)及び各核酸分子に固有のまたは任意の分子バーコード(バーコード配列核酸分子)が付加された目的核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルの混合物を用いたシークエンシング(すなわち、マルチプレックスシークエンシング)より得られた配列情報から、特定の元々(original)のサンプルに含まれる目的核酸分子の数を決定する方法であって、
(a)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(b)サンプルに含まれる核酸分子を増幅する前に、得られた複数のサンプルそれぞれにおいて、目的核酸分子それぞれに任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(c)複数のサンプルを混合する前に、複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリを得る工程と(工程Bと工程Cの順序はどちらが先でもよい;また、工程BまたはCの後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(d)上記(B)と(C)の後得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(C)の後であり、サンプルを混合した後に工程(B)を行っても良く、工程(B)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(B)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列とそれに連結した核酸分子部分の配列を同定する工程と、
(e)得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
(f)上記(e)で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
(g)上記(f)において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み{ここで、ミスペアにおいてインデックスが誤っていると決定することをさらに含んでいてもよい}、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)が、当該インデックスに対応するサンプルに含まれる目的核酸分子の数である、
方法。
(17C)前記(f)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16C)に記載の方法。
(18C)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16C)または(17C)に記載の方法。
(19C)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(16C)または(17C)に記載の方法。
(20C)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相違により特定することをさらに含む、請求項18または19に記載の方法{例えば、それぞれの固定塩基は、A、T、GおよびCからなる群から選択されるいずれか1つの塩基となるように設計され得る;または、AとTの組合せ、AとGの組合せ、AとCの組合せ、TとGの組合せ、TとCの組合せ、GとCの組合せ、AとTとGとの組合せ、AとTとCとの組合せ、AとGとCとの組合せ、およびTとGとCとの組合せからなる群から選択されるいずれか1つの組合せに含まれる塩基からランダムに選択される塩基となるように設計され得る}。 According to the present invention, the following inventions are also provided.
(1C) A unique index for each sample containing a plurality of nucleic acid molecules (meaning index sequence nucleic acid molecule, which may contain a plurality of index nucleic acid molecules if unique to each sample) and unique to each nucleic acid molecule Obtained from sequencing (ie, multiplex sequencing) using a mixture of multiple samples containing the target nucleic acid molecule (eg, DNA or RNA) to which or any molecular barcode (barcode sequence nucleic acid molecule) has been added A method for determining the correct pair or mispair of an index added to a target nucleic acid molecule and a molecular barcode from the sequence information obtained,
(A) separately obtaining a plurality of samples containing a nucleic acid molecule (eg, DNA or RNA) and {at least one of the samples includes a target nucleic acid molecule},
(B) {e.g., in each of a plurality of obtained samples} before amplification of the nucleic acid molecules contained in the sample, each nucleic acid molecule of interest is linked to each of the nucleic acid molecules, or each molecular barcode unique to each nucleic acid molecule is linked; Obtaining a target nucleic acid molecule to which different molecular barcodes are linked;
(C) {For example, before mixing a plurality of samples} A target nucleic acid molecule in which a unique index is added to the target nucleic acid molecule for each sample containing a plurality of target nucleic acid molecules, and different indexes are linked for each sample derived (Step C may be performed after step B, and step B may be performed after step C; and nucleic acid molecules are amplified after step B or C to obtain a target nucleic acid molecule) Amplification products can be obtained),
(D) in a mixture containing the amplification products of the nucleic acid molecule obtained after (B) and (C) above (the sample is mixed after step (C) and after the sample is mixed (B) ) May be performed, or all samples may be mixed after performing step (B), and it is after step (B) that the amplification product of the nucleic acid molecule to which the molecular barcode is linked is obtained. The sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule And sequencing the nucleic acid molecule to which the molecular barcode of S is added to determine the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the target nucleic acid molecule portion linked thereto as needed for each nucleic acid molecule. When,
(E) From the obtained sequence information {eg, which can be done based on sequence identity or similarity} sequence with a specific index or a sequence similar thereto, sequence with a specific molecular barcode or Selecting a sequence similar to this, or a sequence containing a target nucleic acid molecule or a sequence similar thereto, and creating a group according to the selected sequence;
(F) In the group created in (E) above, determine the pair with the highest detection frequency index and molecular barcode as the correct pair of index and molecular barcode, and / or the low detection frequency index and molecules Bar code pair (for example, a detection frequency pair lower than a predetermined reference value, and the predetermined reference value is 99.5% or less, 99% or less, 90% or less, 80% or less, 70% or less, 60% or less) %, 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, or 1% or less, but is not limited thereto. Determining at least any one or all of the following two) as an index and a molecule barcode mispair:
Method, including.
(2C) In step (E), select an array having a specific index and create a group for each index,
In step (F), for nucleic acid sequences having molecular barcodes that appeared in a plurality of groups, the barcode / index pair with the highest number of reads is determined as the correct barcode / index pair, or Determine the highest index and molecular barcode pair as the correct index and molecular barcode pair
The method according to (1C) above.
(3C) In step (E), select a sequence having a specific molecular barcode and create a group for each molecular barcode,
In the step (F), the highest detection frequency index and molecular bar code pair in the created group is determined as the correct index and molecular bar code pair.
The method according to (1C) above.
(4C) In step (E), select a sequence containing the sequence of the target nucleic acid molecule to create a group,
In step (F), a sequence having a specific index is further selected from the group to create a subgroup, and a barcode having the largest number of reads and a nucleic acid sequence having a molecular barcode appearing in a plurality of subgroups Determine the index pair as the correct barcode / index pair, or determine the index / molecular barcode pair with the highest detection frequency as the correct index / molecular barcode pair,
The method according to (1C) above.
(5C) In step (E), select a sequence containing the sequence of the target nucleic acid molecule to create a group,
In step (F), molecules having a specific molecular barcode are further selected from the group to create a subgroup, and the index with the highest detection frequency and molecular barcode in one created subgroup is indexed And determine the correct pair of molecular barcodes,
The method according to (1C) above.
(6C) In step (F), at least any one or all of the index and molecular barcode pairs other than the determined correct pair are determined as the index and molecular barcode mispairing
The method according to any one of the above (2C) to (5C).
(7C) In step (E), select a molecule having a specific index and create a group for each index,
In the step (F), with respect to the sequences having molecular barcodes appearing in a plurality of groups, a low detection frequency index and molecular barcode pair (for example, a detection frequency pair lower than a predetermined reference value and constant) The reference value includes, but is not limited to, 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, or 1% or less in the group. (A pair of detection frequency pairs) may be determined as a molecule barcode mispair with at least any one or all of the indices.
The method according to (1C) above.
(8C) select a sequence having a specific molecular barcode in step (E) to create a group for each molecular barcode,
Among the groups created in step (F), a pair with a low detection frequency index and a molecular barcode (for example, a pair with a detection frequency lower than a certain reference value, and a certain reference value is 50% or less in the group 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, or 1% or less, and is not limited thereto, and, for example, even the second and subsequent detection frequency pairs ) Is determined as a mispair of at least one or all of the index and molecular barcodes,
The method according to (1C) above.
(9C) selecting a sequence containing the target nucleic acid molecule in step (E) to create a group,
In step (F), molecules having a specific index are further selected from the group to create subgroups, and for nucleic acid molecules having molecular barcodes that appear in a plurality of subgroups, an index with low detection frequency and a molecular barcode (Eg, a detection frequency pair lower than a predetermined reference value, and the predetermined reference value is 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less) And a value of 1% or less, but is not limited thereto, and may be, for example, a pair of second or later detection frequency) and at least any one or all of index and mispair of molecular barcode decide,
The method according to (1C) above.
(10C) In step (E), select a molecule containing a target nucleic acid molecule to create a group,
In step (F), molecules having specific molecular barcodes are further selected from the group to create subgroups, and a pair of infrequently detected index and molecular barcodes in one created subgroup (eg, constant) The detection frequency is lower than the standard value of the group, and the fixed standard value is 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, 1% or less in the group In addition, for example, at least any one or all of the second and subsequent detection frequency pairs may be determined as the index and the molecular barcode mispair,
The method according to (1C) above.
(11C) In step (E), the step of creating a group had {identical sequence determined based on sequence identity or similarity {preferably in the sequence of the molecular barcode portion} {eg, It is carried out by creating a group by clustering molecules presumed to have a sequence change by any of the steps (A) to (D) as a group
The method according to (1C) to (10C) above.
(12C) In step (E), clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups {ie, Distance = 0} having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping the unique molecular barcode sequence and the nucleic acid molecule group {ie, Distance = 1} having a sequence having a mismatch up to one base into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups {i.e., Distance = 2} having a sequence of unique molecular barcode and a sequence having up to 2 bases of mismatch into the same cluster; Or (iv) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups {i.e., Distance = 3} having a sequence with a unique molecular barcode sequence and a mismatch of up to 3 bases into the same cluster ,
The method according to (11C) above.
(13C) In step (E), clustering is
In the sequence of the molecular barcode portion, a nucleic acid molecule group having a sequence sequenced as having an insertion or deletion (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) is classified into the same cluster To be done by
The method according to (11C) or (12C) above.
(14C) In step (E), clustering is
A group of nucleic acid molecules obtained by excluding sequences sequenced as having insertions or deletions (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) in the sequence of the molecular barcode portion To be done against
The method according to (11C) or (12C) above.
(15C) One or more (eg, one, two, three, four, five or six) insertions or deletions of said bases are arranged in all molecular barcode sequences linked to the nucleic acid molecule The method according to any one of claims 13 or 14, further comprising specifying the difference in position between each of the fixed bases of the one or more) and the position of each of the fixed bases in the sequence of the sequenced molecular barcode portion. {E.g., each fixed base may be designed to be any one base selected from the group consisting of A, T, G and C; or a combination of A and T, A and T G combination, A and C combination, T and G combination, T and C combination, G and C combination, A, T and G combination, A and T and C combination, A and G and It consists of the combination with C, and the combination with T and G and C It may be designed to be a base selected at random from bases contained in any one combination selected from}.
(16C) A target nucleic acid molecule (eg, a nucleic acid molecule of interest) to which a unique index (index sequence nucleic acid molecule) and a molecular barcode unique to each nucleic acid molecule (barcode sequence nucleic acid molecule) are added , The number of target nucleic acid molecules contained in a specific original sample from sequence information obtained by sequencing (ie, multiplex sequencing) using a mixture of multiple samples containing DNA, RNA or How to determine
(A) separately obtaining a plurality of samples comprising a nucleic acid molecule (eg, DNA or RNA) and {at least one of the samples comprising the nucleic acid molecule of interest},
(B) A target nucleic acid molecule in which an arbitrary molecular barcode is linked to each of the target nucleic acid molecules in each of a plurality of obtained samples before amplification of a nucleic acid molecule contained in the sample, and different molecular barcodes are linked to each other Obtaining
(C) Before mixing a plurality of samples, add a unique index to the target nucleic acid molecule for each sample containing a plurality of target nucleic acid molecules, and obtain a library of target nucleic acid molecules in which different indexes are linked for each sample derived Step and (The order of Step B and Step C may be first; and after Step B or C, the nucleic acid molecule can be amplified to obtain the amplification product of the target nucleic acid molecule),
(D) in a mixture containing the amplification products of the nucleic acid molecule obtained after (B) and (C) above (the sample is mixed after step (C) and after the sample is mixed (B) ) May be performed, or all samples may be mixed after performing step (B), and it is after step (B) that the amplification product of the nucleic acid molecule to which the molecular barcode is linked is obtained. The sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule Sequencing the nucleic acid molecules to which the molecular barcodes have been added to identify the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the nucleic acid molecule portion linked thereto for each nucleic acid molecule;
(E) selecting a nucleic acid molecule containing the sequence of the target nucleic acid molecule from the obtained sequence information;
(F) clustering the nucleic acid molecules selected in (e) above for each unique molecular barcode sequence, and then identifying a cluster having a plurality of sequences in the index nucleic acid molecule portion,
(G) In each of the clusters identified in (f), the index with the highest detection frequency and the molecular barcode pair are identified as the correctly indexed target nucleic acid molecules, and the other index and molecular barcode pairs are identified. Determining that it is a mispair, and
{Wherein it may further include determining that the index is incorrect in Mispair},
The target nucleic acid molecule contained in the sample corresponding to the index, the number of kinds of sequence of the unique molecular barcode linked to the target nucleic acid molecule correctly indexed (or the number of clusters of the target nucleic acid molecule correctly indexed) Is the number of
Method.
(17C) In (f), clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it is performed by classifying nucleic acid molecule groups having a sequence having a unique molecular barcode and a mismatch up to 3 bases into the same cluster,
The method as described in the above (16C).
(18C) In (e), clustering is
In the sequence of the molecular barcode portion, a group of nucleic acid molecules having a sequence sequenced as having an insertion or deletion (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) in the same cluster Done by classification,
The method according to (16C) or (17C) above.
(19C) In (e), clustering is
A nucleic acid molecule obtained by excluding sequences sequenced as having insertions or deletions (indel) of bases (eg, up to 1 base, up to 2 bases, or up to 3 bases) in the sequence of the molecular barcode portion Performed on a group,
The method according to (16C) or (17C) above.
(20C) One or more (eg, one, two, three, four, five or six) insertions or deletions of said bases are arranged in all molecular barcode sequences linked to thenucleic acid molecule 20. The method according to claim 18 or 19, further comprising: identifying by the difference between the positions of each of the fixed bases (or more) and the position of each of the fixed bases in the sequence of the sequenced molecular barcode portion. {E.g., each fixed base can be designed to be any one base selected from the group consisting of A, T, G and C; or a combination of A and T, of A and G Combination, A and C combination, T and G combination, T and C combination, G and C combination, A, T and G combination, A, T and C combination, A, G and C and And the combination of T, G and C from It may be designed to be a base selected at random from bases contained in any one of the combinations to be-option}.
(1C)複数の核酸分子を含むサンプル毎に固有のインデックス(インデックス配列核酸分子を意味し、各サンプルに固有であれば複数種のインデックス核酸分子を含んでいてもよい)及び各核酸分子に固有のまたは任意の分子バーコード(バーコード配列核酸分子)が付加された目的核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルの混合物を用いたシークエンシング(すなわち、マルチプレックスシークエンシング)より得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
(A)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(B){例えば、得られた複数のサンプルそれぞれにおいて、}サンプルに含まれる核酸分子を増幅する前に、目的核酸分子それぞれに各核酸分子に固有のまたは任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(C){例えば、複数のサンプルを混合する前に、}複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリを得る工程と(工程Bの後に工程Cを行ってもよいし、工程Cの後に工程Bを行ってもよい;また、工程BまたはCの後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(D)上記(B)と(C)の後に得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(C)の後であり、サンプルを混合した後に工程(B)を行っても良く、工程(B)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(B)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列と必要に応じてそれに連結した目的核酸分子部分の配列を決定する工程と、
(E)得られた配列情報から、{例えば、配列同一性または類似性に基づいて行うことができるが}特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(F)上記(E)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および/または、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において99.5%以下、99%以下、90%以下、80%以下、70%以下、60%以下、50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法。
(2C)工程(E)において、特定のインデックスを有する配列を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(3C)工程(E)において、特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(4C)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(5C)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(6C)工程(F)において、決定された正しいペア以外のインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てを、インデックスと分子バーコードのミスペアと決定する、
上記(2C)~(5C)のいずれかに記載の方法。
(7C)工程(E)において特定のインデックスを有する分子を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスの少なくともいずれか1つまたは全てと分子バーコードのミスペアと決定する、
上記(1C)に記載の方法。
(8C)工程(E)において特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において作成された群のうち検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスと分子バーコードの少なくともいずれか1つまたは全てのミスペアと決定する、
上記(1C)に記載の方法。
(9C)工程(E)において目的核酸分子を含む配列を選択して群を作成し、
工程(F)においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1C)に記載の方法。
(10C)工程(E)において目的核酸分子を含む分子を選択して群を作成し、
工程(F)においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1C)に記載の方法。
(11C)工程(E)において、群を作成する工程が、{好ましくは、分子バーコード部分の配列において}配列同一性または類似性に基づいて判断される同一配列を有していた{例えば、工程(A)~(D)の工程のいずれかによって配列が変化することがある}と推定される分子を一群としてクラスタリングすることによって群を作成することによって行われる、
上記(1C)~(10C)に記載の方法。
(12C)工程(E)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群{すなわち、Distance = 0}を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群{すなわち、Distance = 1}を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群{すなわち、Distance = 2}を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群{すなわち、Distance = 3}を同じクラスターに分類することにより行われる、
上記(11C)に記載の方法。
(13C)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(11C)または(12C)に記載の方法。
(14C)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(11C)または(12C)に記載の方法。
(15C)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、位置の相違により特定することをさらに含む、請求項13または14に記載の方法{例えば、それぞれの固定塩基は、A、T、GおよびCからなる群から選択されるいずれか1つの塩基となるように設計され得る;または、AとTの組合せ、AとGの組合せ、AとCの組合せ、TとGの組合せ、TとCの組合せ、GとCの組合せ、AとTとGとの組合せ、AとTとCとの組合せ、AとGとCとの組合せ、およびTとGとCとの組合せからなる群から選択されるいずれか1つの組合せに含まれる塩基からランダムに選択される塩基となるように設計され得る}。
(16C)複数の核酸分子を含むサンプル毎に固有のインデックス(インデックス配列核酸分子)及び各核酸分子に固有のまたは任意の分子バーコード(バーコード配列核酸分子)が付加された目的核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルの混合物を用いたシークエンシング(すなわち、マルチプレックスシークエンシング)より得られた配列情報から、特定の元々(original)のサンプルに含まれる目的核酸分子の数を決定する方法であって、
(a)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(b)サンプルに含まれる核酸分子を増幅する前に、得られた複数のサンプルそれぞれにおいて、目的核酸分子それぞれに任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(c)複数のサンプルを混合する前に、複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリを得る工程と(工程Bと工程Cの順序はどちらが先でもよい;また、工程BまたはCの後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(d)上記(B)と(C)の後得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(C)の後であり、サンプルを混合した後に工程(B)を行っても良く、工程(B)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(B)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列とそれに連結した核酸分子部分の配列を同定する工程と、
(e)得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
(f)上記(e)で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
(g)上記(f)において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み{ここで、ミスペアにおいてインデックスが誤っていると決定することをさらに含んでいてもよい}、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)が、当該インデックスに対応するサンプルに含まれる目的核酸分子の数である、
方法。
(17C)前記(f)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16C)に記載の方法。
(18C)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16C)または(17C)に記載の方法。
(19C)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(16C)または(17C)に記載の方法。
(20C)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相違により特定することをさらに含む、請求項18または19に記載の方法{例えば、それぞれの固定塩基は、A、T、GおよびCからなる群から選択されるいずれか1つの塩基となるように設計され得る;または、AとTの組合せ、AとGの組合せ、AとCの組合せ、TとGの組合せ、TとCの組合せ、GとCの組合せ、AとTとGとの組合せ、AとTとCとの組合せ、AとGとCとの組合せ、およびTとGとCとの組合せからなる群から選択されるいずれか1つの組合せに含まれる塩基からランダムに選択される塩基となるように設計され得る}。 According to the present invention, the following inventions are also provided.
(1C) A unique index for each sample containing a plurality of nucleic acid molecules (meaning index sequence nucleic acid molecule, which may contain a plurality of index nucleic acid molecules if unique to each sample) and unique to each nucleic acid molecule Obtained from sequencing (ie, multiplex sequencing) using a mixture of multiple samples containing the target nucleic acid molecule (eg, DNA or RNA) to which or any molecular barcode (barcode sequence nucleic acid molecule) has been added A method for determining the correct pair or mispair of an index added to a target nucleic acid molecule and a molecular barcode from the sequence information obtained,
(A) separately obtaining a plurality of samples containing a nucleic acid molecule (eg, DNA or RNA) and {at least one of the samples includes a target nucleic acid molecule},
(B) {e.g., in each of a plurality of obtained samples} before amplification of the nucleic acid molecules contained in the sample, each nucleic acid molecule of interest is linked to each of the nucleic acid molecules, or each molecular barcode unique to each nucleic acid molecule is linked; Obtaining a target nucleic acid molecule to which different molecular barcodes are linked;
(C) {For example, before mixing a plurality of samples} A target nucleic acid molecule in which a unique index is added to the target nucleic acid molecule for each sample containing a plurality of target nucleic acid molecules, and different indexes are linked for each sample derived (Step C may be performed after step B, and step B may be performed after step C; and nucleic acid molecules are amplified after step B or C to obtain a target nucleic acid molecule) Amplification products can be obtained),
(D) in a mixture containing the amplification products of the nucleic acid molecule obtained after (B) and (C) above (the sample is mixed after step (C) and after the sample is mixed (B) ) May be performed, or all samples may be mixed after performing step (B), and it is after step (B) that the amplification product of the nucleic acid molecule to which the molecular barcode is linked is obtained. The sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule And sequencing the nucleic acid molecule to which the molecular barcode of S is added to determine the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the target nucleic acid molecule portion linked thereto as needed for each nucleic acid molecule. When,
(E) From the obtained sequence information {eg, which can be done based on sequence identity or similarity} sequence with a specific index or a sequence similar thereto, sequence with a specific molecular barcode or Selecting a sequence similar to this, or a sequence containing a target nucleic acid molecule or a sequence similar thereto, and creating a group according to the selected sequence;
(F) In the group created in (E) above, determine the pair with the highest detection frequency index and molecular barcode as the correct pair of index and molecular barcode, and / or the low detection frequency index and molecules Bar code pair (for example, a detection frequency pair lower than a predetermined reference value, and the predetermined reference value is 99.5% or less, 99% or less, 90% or less, 80% or less, 70% or less, 60% or less) %, 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, or 1% or less, but is not limited thereto. Determining at least any one or all of the following two) as an index and a molecule barcode mispair:
Method, including.
(2C) In step (E), select an array having a specific index and create a group for each index,
In step (F), for nucleic acid sequences having molecular barcodes that appeared in a plurality of groups, the barcode / index pair with the highest number of reads is determined as the correct barcode / index pair, or Determine the highest index and molecular barcode pair as the correct index and molecular barcode pair
The method according to (1C) above.
(3C) In step (E), select a sequence having a specific molecular barcode and create a group for each molecular barcode,
In the step (F), the highest detection frequency index and molecular bar code pair in the created group is determined as the correct index and molecular bar code pair.
The method according to (1C) above.
(4C) In step (E), select a sequence containing the sequence of the target nucleic acid molecule to create a group,
In step (F), a sequence having a specific index is further selected from the group to create a subgroup, and a barcode having the largest number of reads and a nucleic acid sequence having a molecular barcode appearing in a plurality of subgroups Determine the index pair as the correct barcode / index pair, or determine the index / molecular barcode pair with the highest detection frequency as the correct index / molecular barcode pair,
The method according to (1C) above.
(5C) In step (E), select a sequence containing the sequence of the target nucleic acid molecule to create a group,
In step (F), molecules having a specific molecular barcode are further selected from the group to create a subgroup, and the index with the highest detection frequency and molecular barcode in one created subgroup is indexed And determine the correct pair of molecular barcodes,
The method according to (1C) above.
(6C) In step (F), at least any one or all of the index and molecular barcode pairs other than the determined correct pair are determined as the index and molecular barcode mispairing
The method according to any one of the above (2C) to (5C).
(7C) In step (E), select a molecule having a specific index and create a group for each index,
In the step (F), with respect to the sequences having molecular barcodes appearing in a plurality of groups, a low detection frequency index and molecular barcode pair (for example, a detection frequency pair lower than a predetermined reference value and constant) The reference value includes, but is not limited to, 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, or 1% or less in the group. (A pair of detection frequency pairs) may be determined as a molecule barcode mispair with at least any one or all of the indices.
The method according to (1C) above.
(8C) select a sequence having a specific molecular barcode in step (E) to create a group for each molecular barcode,
Among the groups created in step (F), a pair with a low detection frequency index and a molecular barcode (for example, a pair with a detection frequency lower than a certain reference value, and a certain reference value is 50% or less in the group 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, or 1% or less, and is not limited thereto, and, for example, even the second and subsequent detection frequency pairs ) Is determined as a mispair of at least one or all of the index and molecular barcodes,
The method according to (1C) above.
(9C) selecting a sequence containing the target nucleic acid molecule in step (E) to create a group,
In step (F), molecules having a specific index are further selected from the group to create subgroups, and for nucleic acid molecules having molecular barcodes that appear in a plurality of subgroups, an index with low detection frequency and a molecular barcode (Eg, a detection frequency pair lower than a predetermined reference value, and the predetermined reference value is 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less) And a value of 1% or less, but is not limited thereto, and may be, for example, a pair of second or later detection frequency) and at least any one or all of index and mispair of molecular barcode decide,
The method according to (1C) above.
(10C) In step (E), select a molecule containing a target nucleic acid molecule to create a group,
In step (F), molecules having specific molecular barcodes are further selected from the group to create subgroups, and a pair of infrequently detected index and molecular barcodes in one created subgroup (eg, constant) The detection frequency is lower than the standard value of the group, and the fixed standard value is 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, 1% or less in the group In addition, for example, at least any one or all of the second and subsequent detection frequency pairs may be determined as the index and the molecular barcode mispair,
The method according to (1C) above.
(11C) In step (E), the step of creating a group had {identical sequence determined based on sequence identity or similarity {preferably in the sequence of the molecular barcode portion} {eg, It is carried out by creating a group by clustering molecules presumed to have a sequence change by any of the steps (A) to (D) as a group
The method according to (1C) to (10C) above.
(12C) In step (E), clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups {ie, Distance = 0} having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping the unique molecular barcode sequence and the nucleic acid molecule group {ie, Distance = 1} having a sequence having a mismatch up to one base into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups {i.e., Distance = 2} having a sequence of unique molecular barcode and a sequence having up to 2 bases of mismatch into the same cluster; Or (iv) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups {i.e., Distance = 3} having a sequence with a unique molecular barcode sequence and a mismatch of up to 3 bases into the same cluster ,
The method according to (11C) above.
(13C) In step (E), clustering is
In the sequence of the molecular barcode portion, a nucleic acid molecule group having a sequence sequenced as having an insertion or deletion (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) is classified into the same cluster To be done by
The method according to (11C) or (12C) above.
(14C) In step (E), clustering is
A group of nucleic acid molecules obtained by excluding sequences sequenced as having insertions or deletions (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) in the sequence of the molecular barcode portion To be done against
The method according to (11C) or (12C) above.
(15C) One or more (eg, one, two, three, four, five or six) insertions or deletions of said bases are arranged in all molecular barcode sequences linked to the nucleic acid molecule The method according to any one of claims 13 or 14, further comprising specifying the difference in position between each of the fixed bases of the one or more) and the position of each of the fixed bases in the sequence of the sequenced molecular barcode portion. {E.g., each fixed base may be designed to be any one base selected from the group consisting of A, T, G and C; or a combination of A and T, A and T G combination, A and C combination, T and G combination, T and C combination, G and C combination, A, T and G combination, A and T and C combination, A and G and It consists of the combination with C, and the combination with T and G and C It may be designed to be a base selected at random from bases contained in any one combination selected from}.
(16C) A target nucleic acid molecule (eg, a nucleic acid molecule of interest) to which a unique index (index sequence nucleic acid molecule) and a molecular barcode unique to each nucleic acid molecule (barcode sequence nucleic acid molecule) are added , The number of target nucleic acid molecules contained in a specific original sample from sequence information obtained by sequencing (ie, multiplex sequencing) using a mixture of multiple samples containing DNA, RNA or How to determine
(A) separately obtaining a plurality of samples comprising a nucleic acid molecule (eg, DNA or RNA) and {at least one of the samples comprising the nucleic acid molecule of interest},
(B) A target nucleic acid molecule in which an arbitrary molecular barcode is linked to each of the target nucleic acid molecules in each of a plurality of obtained samples before amplification of a nucleic acid molecule contained in the sample, and different molecular barcodes are linked to each other Obtaining
(C) Before mixing a plurality of samples, add a unique index to the target nucleic acid molecule for each sample containing a plurality of target nucleic acid molecules, and obtain a library of target nucleic acid molecules in which different indexes are linked for each sample derived Step and (The order of Step B and Step C may be first; and after Step B or C, the nucleic acid molecule can be amplified to obtain the amplification product of the target nucleic acid molecule),
(D) in a mixture containing the amplification products of the nucleic acid molecule obtained after (B) and (C) above (the sample is mixed after step (C) and after the sample is mixed (B) ) May be performed, or all samples may be mixed after performing step (B), and it is after step (B) that the amplification product of the nucleic acid molecule to which the molecular barcode is linked is obtained. The sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule Sequencing the nucleic acid molecules to which the molecular barcodes have been added to identify the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the nucleic acid molecule portion linked thereto for each nucleic acid molecule;
(E) selecting a nucleic acid molecule containing the sequence of the target nucleic acid molecule from the obtained sequence information;
(F) clustering the nucleic acid molecules selected in (e) above for each unique molecular barcode sequence, and then identifying a cluster having a plurality of sequences in the index nucleic acid molecule portion,
(G) In each of the clusters identified in (f), the index with the highest detection frequency and the molecular barcode pair are identified as the correctly indexed target nucleic acid molecules, and the other index and molecular barcode pairs are identified. Determining that it is a mispair, and
{Wherein it may further include determining that the index is incorrect in Mispair},
The target nucleic acid molecule contained in the sample corresponding to the index, the number of kinds of sequence of the unique molecular barcode linked to the target nucleic acid molecule correctly indexed (or the number of clusters of the target nucleic acid molecule correctly indexed) Is the number of
Method.
(17C) In (f), clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it is performed by classifying nucleic acid molecule groups having a sequence having a unique molecular barcode and a mismatch up to 3 bases into the same cluster,
The method as described in the above (16C).
(18C) In (e), clustering is
In the sequence of the molecular barcode portion, a group of nucleic acid molecules having a sequence sequenced as having an insertion or deletion (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) in the same cluster Done by classification,
The method according to (16C) or (17C) above.
(19C) In (e), clustering is
A nucleic acid molecule obtained by excluding sequences sequenced as having insertions or deletions (indel) of bases (eg, up to 1 base, up to 2 bases, or up to 3 bases) in the sequence of the molecular barcode portion Performed on a group,
The method according to (16C) or (17C) above.
(20C) One or more (eg, one, two, three, four, five or six) insertions or deletions of said bases are arranged in all molecular barcode sequences linked to the
本明細書では、「分子バーコード」とは、核酸分子に対して1分子毎に付加される固有の配列を有するタグである。「primer ID」、および「固有分子識別子(UMI)」などとも呼ばれる。核酸分子に対して1分子毎に異なる固有の配列を有する分子バーコードが付加されるようにすると、増幅などの処理に供される前のサンプルに含まれる当該核酸の分子数を、付加されたバーコードの種類の数に基づいて、デジタル的に(または定性的に)決定できることとなる。この核酸分子の決定法は、一度のランで大量の核酸配列の分析を可能とした次世代シークエンサーのプラットフォームが発展したことで一気に注目を浴びるようになり、分子バーコードを活用することで核酸分子数をデジタル的に決定する方法が様々に開発されてきた。この核酸分子数の決定法は、分子数をバーコードの種類の数(「固有のバーコードの数」ということがある)としてデジタル的にカウントできることから、「デジタルカウント法」や「デジタル定量法」等と呼ばれることがある。このデジタルカウント法は、測定系のノイズやバイアスの存在下であっても、サンプル中の分子の絶対数をデジタル的に正確に決定することができる。このデジタルカウント法が最も広く用いられているアプリケーションとしては、分子バーコードを用いたRNA-Seq、すなわち、デジタルRNA-Seq(dRNA-Seq)または定量的RNA-Seqが挙げられる。dRNA-Seqは、サンプルが微量でも良好に機能するため、単一細胞の遺伝子発現解析によく用いられている。
デジタルカウント法はまた、大量のシークエンスデータを取得することができる次世代シークエンサーのプラットフォームにおいて多くの用途に用いられている。そのような用途としては、例えば、RNA-Seqに加えて、単一ヌクレオチド解像度UV架橋免疫沈降(iCLIP:individual-nucleotide resolution UV cross-linking and immunoprecipitation)、抗体レパトワ解析、細菌16S rRNAの遺伝子解析、およびエキソヌクレアーゼ、固有のバーコードおよび単一ライゲーションを介したヌクレオチド解像度のクロマチン免疫沈降実験(ChIP-nexus:chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation)が挙げられる。
このデジタルカウントの方法において、サンプル中に存在する核酸分子の総数に対して十分に多くの種類の分子バーコードを用いることにより、同一のバーコードが元のサンプル中に存在する複数の核酸分子に付加される可能性を実質的に制限し、これによりバーコードの配列の種類数をサンプル中に存在していた核酸分子数に対応付けることができる。このようにして、十分な多様性を有するヌクレオチド配列を含む分子バーコードを用いることによって、サンプル中に存在する核酸分子の定量が可能である。分子バーコードは、例えば、ランダムな塩基を有する核酸群として得られ得る。分子バーコードは、測定する分子数を決定するために、その配列の種類の数に着目されるため、配列がランダム(配列が多様であり、かつ、ヒトが配列の内容を認識する必要がないように)に合成されたものであったとしてもよいということができる。あるいは、分子バーコードは、十分な多様性が得られるように設計された配列既知の核酸群であってもよい。本明細書では、分子バーコードを単にバーコードということがあり、また、分子バーコードの有する配列をバーコード配列ということがある。本明細書では、固有のバーコード配列の数とは、バーコード配列の多様性の程度を表す数である。固有のバーコード配列の数は、n個の異なるバーコード配列が検出された場合には、nとなる{ここで、nは自然数である}。本明細書では、ランダム塩基の数とは、ランダム塩基の塩基長を意味する。本明細書では、ランダム塩基とは、ランダムな配列を有する連続した塩基を意味する。ランダム塩基は、2種類の塩基、3種類の塩基、または4種類の塩基からなるものとし得る。 As used herein, a "molecular barcode" is a tag having a unique sequence that is attached to each molecule of nucleic acid. Also called "primer ID" and "Ubiquitous Molecular Identifier (UMI)". When a molecular barcode having a unique sequence that differs from molecule to molecule is added to a nucleic acid molecule, the number of molecules of the nucleic acid contained in the sample before being subjected to processing such as amplification is added. It can be determined digitally (or qualitatively) based on the number of bar code types. This method of determination of nucleic acid molecules has attracted a great deal of attention as a next-generation sequencer platform that has made it possible to analyze a large amount of nucleic acid sequences in a single run, and has become a focus of attention. Various methods have been developed to determine the number digitally. Since this method of determining the number of nucleic acid molecules can digitally count the number of molecules as the number of types of barcodes (sometimes referred to as the “number of unique barcodes”), “digital counting method” or “digital quantification method” It is sometimes called "etc." This digital counting method can accurately determine the absolute number of molecules in a sample, even in the presence of the noise and bias of the measurement system. The most widely used application of this digital counting method is RNA-Seq using molecular barcodes, ie, digital RNA-Seq (dRNA-Seq) or quantitative RNA-Seq. dRNA-Seq is often used for single cell gene expression analysis because it works well even with a small amount of sample.
Digital counting is also used for many applications in next generation sequencer platforms that can acquire large amounts of sequence data. As such applications, for example, in addition to RNA-Seq, single nucleotide resolution UV cross-linked immunoprecipitation (iCLIP: individual cross-link resolution and UV cross-linking and immunoprecipitation), antibody repertoire analysis, genetic analysis of bacterial 16S rRNA, And exonucleases, unique barcodes and single ligation-mediated nucleotide resolution chromatin immunoprecipitation experiments (ChIP-nexus: chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation).
In this method of digital counting, by using a sufficiently large number of types of molecular barcodes relative to the total number of nucleic acid molecules present in the sample, the same barcode can be applied to multiple nucleic acid molecules present in the original sample. The possibility of addition is substantially limited, which allows the number of types of barcode sequences to correspond to the number of nucleic acid molecules present in the sample. In this way, quantification of nucleic acid molecules present in the sample is possible by using molecular barcodes comprising nucleotide sequences with sufficient diversity. Molecular barcodes can be obtained, for example, as nucleic acid groups with random bases. Since the molecular barcode is focused on the number of types of its sequence to determine the number of molecules to be measured, the sequence is random (the sequence is diverse and it is not necessary for humans to recognize the content of the sequence It may be said that they may be synthesized in the same manner. Alternatively, the molecular barcode may be a set of nucleic acids of known sequence designed to obtain sufficient diversity. In the present specification, a molecular barcode may be simply referred to as a barcode, and a sequence possessed by the molecular barcode may be referred to as a barcode sequence. As used herein, the number of unique barcode sequences is a number that represents the degree of diversity of barcode sequences. The number of unique barcode sequences is n if n different barcode sequences are detected {where n is a natural number}. As used herein, the number of random bases means the base length of random bases. As used herein, a random base refers to a continuous base having a random sequence. The random bases may consist of two bases, three bases or four bases.
デジタルカウント法はまた、大量のシークエンスデータを取得することができる次世代シークエンサーのプラットフォームにおいて多くの用途に用いられている。そのような用途としては、例えば、RNA-Seqに加えて、単一ヌクレオチド解像度UV架橋免疫沈降(iCLIP:individual-nucleotide resolution UV cross-linking and immunoprecipitation)、抗体レパトワ解析、細菌16S rRNAの遺伝子解析、およびエキソヌクレアーゼ、固有のバーコードおよび単一ライゲーションを介したヌクレオチド解像度のクロマチン免疫沈降実験(ChIP-nexus:chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation)が挙げられる。
このデジタルカウントの方法において、サンプル中に存在する核酸分子の総数に対して十分に多くの種類の分子バーコードを用いることにより、同一のバーコードが元のサンプル中に存在する複数の核酸分子に付加される可能性を実質的に制限し、これによりバーコードの配列の種類数をサンプル中に存在していた核酸分子数に対応付けることができる。このようにして、十分な多様性を有するヌクレオチド配列を含む分子バーコードを用いることによって、サンプル中に存在する核酸分子の定量が可能である。分子バーコードは、例えば、ランダムな塩基を有する核酸群として得られ得る。分子バーコードは、測定する分子数を決定するために、その配列の種類の数に着目されるため、配列がランダム(配列が多様であり、かつ、ヒトが配列の内容を認識する必要がないように)に合成されたものであったとしてもよいということができる。あるいは、分子バーコードは、十分な多様性が得られるように設計された配列既知の核酸群であってもよい。本明細書では、分子バーコードを単にバーコードということがあり、また、分子バーコードの有する配列をバーコード配列ということがある。本明細書では、固有のバーコード配列の数とは、バーコード配列の多様性の程度を表す数である。固有のバーコード配列の数は、n個の異なるバーコード配列が検出された場合には、nとなる{ここで、nは自然数である}。本明細書では、ランダム塩基の数とは、ランダム塩基の塩基長を意味する。本明細書では、ランダム塩基とは、ランダムな配列を有する連続した塩基を意味する。ランダム塩基は、2種類の塩基、3種類の塩基、または4種類の塩基からなるものとし得る。 As used herein, a "molecular barcode" is a tag having a unique sequence that is attached to each molecule of nucleic acid. Also called "primer ID" and "Ubiquitous Molecular Identifier (UMI)". When a molecular barcode having a unique sequence that differs from molecule to molecule is added to a nucleic acid molecule, the number of molecules of the nucleic acid contained in the sample before being subjected to processing such as amplification is added. It can be determined digitally (or qualitatively) based on the number of bar code types. This method of determination of nucleic acid molecules has attracted a great deal of attention as a next-generation sequencer platform that has made it possible to analyze a large amount of nucleic acid sequences in a single run, and has become a focus of attention. Various methods have been developed to determine the number digitally. Since this method of determining the number of nucleic acid molecules can digitally count the number of molecules as the number of types of barcodes (sometimes referred to as the “number of unique barcodes”), “digital counting method” or “digital quantification method” It is sometimes called "etc." This digital counting method can accurately determine the absolute number of molecules in a sample, even in the presence of the noise and bias of the measurement system. The most widely used application of this digital counting method is RNA-Seq using molecular barcodes, ie, digital RNA-Seq (dRNA-Seq) or quantitative RNA-Seq. dRNA-Seq is often used for single cell gene expression analysis because it works well even with a small amount of sample.
Digital counting is also used for many applications in next generation sequencer platforms that can acquire large amounts of sequence data. As such applications, for example, in addition to RNA-Seq, single nucleotide resolution UV cross-linked immunoprecipitation (iCLIP: individual cross-link resolution and UV cross-linking and immunoprecipitation), antibody repertoire analysis, genetic analysis of bacterial 16S rRNA, And exonucleases, unique barcodes and single ligation-mediated nucleotide resolution chromatin immunoprecipitation experiments (ChIP-nexus: chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation).
In this method of digital counting, by using a sufficiently large number of types of molecular barcodes relative to the total number of nucleic acid molecules present in the sample, the same barcode can be applied to multiple nucleic acid molecules present in the original sample. The possibility of addition is substantially limited, which allows the number of types of barcode sequences to correspond to the number of nucleic acid molecules present in the sample. In this way, quantification of nucleic acid molecules present in the sample is possible by using molecular barcodes comprising nucleotide sequences with sufficient diversity. Molecular barcodes can be obtained, for example, as nucleic acid groups with random bases. Since the molecular barcode is focused on the number of types of its sequence to determine the number of molecules to be measured, the sequence is random (the sequence is diverse and it is not necessary for humans to recognize the content of the sequence It may be said that they may be synthesized in the same manner. Alternatively, the molecular barcode may be a set of nucleic acids of known sequence designed to obtain sufficient diversity. In the present specification, a molecular barcode may be simply referred to as a barcode, and a sequence possessed by the molecular barcode may be referred to as a barcode sequence. As used herein, the number of unique barcode sequences is a number that represents the degree of diversity of barcode sequences. The number of unique barcode sequences is n if n different barcode sequences are detected {where n is a natural number}. As used herein, the number of random bases means the base length of random bases. As used herein, a random base refers to a continuous base having a random sequence. The random bases may consist of two bases, three bases or four bases.
本明細書では、「インデックス」とは、核酸分子に対して、それが由来するサンプル毎に付加される固有の標識となる核酸である。例えば、サンプル毎に異なるヌクレオチド配列を有するインデックスが付加され得る。あるサンプルに由来する核酸分子には全て同一のインデックスを付加することによって、複数のサンプルを混合してシークエンス解析した場合に、付加されたインデックスの配列に基づいて個々の核酸分子が由来するサンプルを特定することができる。次世代シークエンサーのプラットフォームにおける1回のシークエンスのキャパシティが大きいことから、複数のサンプルを混合して1回のランでシークエンスすることが可能であり、インデックスは、例えば、このような場合に有用である。インデックスの付加は、核酸分子の処理(例えば、増幅)の前、間、または後に付加してもよい。
As used herein, an "index" is a nucleic acid that serves as a unique label attached to a nucleic acid molecule for each sample from which it is derived. For example, an index can be added that has a different nucleotide sequence for each sample. When a plurality of samples are mixed and sequenced by adding the same index to all nucleic acid molecules derived from a certain sample, samples from which individual nucleic acid molecules are derived based on the sequence of the added index It can be identified. Due to the large capacity of one sequencing on the platform of the next-generation sequencer, it is possible to mix multiple samples and sequence them in one run, for example, the index is useful in such a case is there. The addition of the index may be added before, during or after processing (eg, amplification) of the nucleic acid molecule.
本明細書では、「鋳型」、「標的核酸」、「標的核酸分子」、「目的核酸」または「目的核酸分子」とは、デジタル定量法において定量の対象となる核酸分子(例えば、DNAまたはRNA)を意味し、相互互換的に用いられ得る。本明細書では、目的核酸分子が元々有している配列(すなわち、解析のためにバーコードやインデックスが付加される前の配列)は、目的核酸配列と呼ばれる。
As used herein, the terms "template", "target nucleic acid", "target nucleic acid molecule", "target nucleic acid" or "target nucleic acid molecule" refer to a nucleic acid molecule (eg, DNA or RNA) to be quantified in digital quantification. Can be used interchangeably. In the present specification, the sequence originally possessed by the target nucleic acid molecule (ie, the sequence before the barcode or index is added for analysis) is referred to as the target nucleic acid sequence.
本明細書では、「核酸」は、核酸配列を有する高分子を意味する。核酸としては、デオキシリボ核酸(DNA)およびリボ核酸(RNA)が挙げられる。リボ核酸としては、メッセンジャーRNA(mRNA)、ノンコーディングRNA、例えば、マイクロRNA、トランスファーRNA(rRNA)、およびリボソーマルRNA(rRNA)が挙げられる。
As used herein, "nucleic acid" means a macromolecule having a nucleic acid sequence. Nucleic acids include deoxyribonucleic acid (DNA) and ribonucleic acid (RNA). The ribonucleic acid includes messenger RNA (mRNA), non-coding RNA such as microRNA, transfer RNA (rRNA), and ribosomal RNA (rRNA).
本明細書では、「シークエンス深度」は、シークエンスする総量または総分子数を表す。例えば、シークエンス深度が高い(すなわち、より多くのシークエンス情報が得られる)と、サンプル中にわずかしか存在しない配列が検出される可能性が上昇する場合がある。本明細書では、「カバー率」とは、同一核酸分子に由来するとしてクラスタリングされて得られた各クラスターのリード数の平均(リード数/クラスター)を意味する。
As used herein, "sequence depth" refers to the total amount or total number of molecules to be sequenced. For example, high sequence depth (ie, more sequence information can be obtained) may increase the likelihood that sequences only slightly present in the sample will be detected. As used herein, “coverage” means the average number of reads of each cluster (read number / cluster) obtained by clustering as originating from the same nucleic acid molecule.
本明細書では、「分子毎に固有の」とは、系に含まれる分子の少なくとも一部についてそれぞれ互いに異なることを意味する。「分子毎に固有の」とは、系に含まれる全ての分子、実質的に全ての分子、またはその大半の分子(例えば、50%以上、60%以上、70%以上、80%以上、90%以上、95%以上、96%以上、97%以上、98%以上、または99%以上)についてそれぞれ異なることを意味し得る。
As used herein, "specific to each molecule" means that they differ from one another for at least a portion of the molecules contained in the system. The “specific to each molecule” means all molecules contained in the system, substantially all molecules, or most of the molecules (eg, 50% or more, 60% or more, 70% or more, 80% or more, 90% or more) % Or more, 95% or more, 96% or more, 97% or more, 98% or more, or 99% or more).
核酸のデジタル定量法の従来の手順を以下説明する(図1のパネルA参照)。
RNA分子、またはDNA(例えば、相補的DNAまたはcDNA)分子等の核酸(目的核酸分子)のそれぞれに対して、多様な外来配列を含むDNA(分子バーコード)を固有に付加する(すなわち、核酸分子毎に異なる配列を有する分子バーコードを付加する)(例えば、図6C参照)。このように分子毎に固有の配列を有する分子バーコードが付加された核酸を「バーコード付加された核酸」と呼ぶことがある。バーコード付加された目的核酸分子(出発材料の核酸がRNAである場合にはRNAから得られるcDNA)を増幅させる(例えば、図6D参照)。バーコード付加され増幅された核酸の目的核酸配列とバーコード配列をタンデムにシークエンスする(例えば、図6D参照)。理論的に提唱されているように、各々の目的核酸について、増幅された分子の数(いわゆる「リード数」)ではなく目的核酸配列に付加された固有のバーコードの数が定量され、元の(増幅前の)目的核酸分子の絶対的なコピー数が決定できる。このデジタル定量法においては、バーコード配列の種類の数が着目されるため、バーコード配列は、核酸分子毎に固有の配列を有するように目的核酸分子に付加されればよく、その具体的配列がどのようなものかは問われない。デジタル定量法において、具体的配列が既知のバーコードを用いてもよい。
次世代シークエンサーのプラットフォームが発展し、一度のシークエンシング(ラン)で大量の塩基配列を解読可能となった。これにより、単一サンプルの測定では、シークエンシングの能力を使い切れず、1回のランで複数のサンプルを同時にシークエンスすることに対するニーズが高まっている。1回のランで複数のサンプルをシークエンスする一方で、核酸がいずれのサンプルに由来するかを区別するために、サンプル毎に固有のインデックスの付加がなされ得る。本発明によれば、インデックスは、サンプル毎に固有であればどのような配列を有するように目的核酸分子に付加されていてもよく、その具体的配列がどのようなものかは問われない。デジタル定量法において、具体的配列が既知のインデックスを用いてもよい。
本発明によれば、インデックスは、目的核酸分子が増幅された後で増幅された目的核酸分子に対して付加されてもよいし、目的核酸分子が増幅される前に目的核酸分子に対して付加されてもよい。インデックスは、各サンプルで増幅を行った後に付加してもよい。例えば、インデックスの付加は、アダプターライゲーションによって増幅産物それぞれに対して行うことができる。あるいは、インデックスは、目的核酸分子が増幅される間に付加されてもよい。例えば、インデックスの付加は、プライマーの配列に含ませることによって核酸分子の増幅中に行われ得る。
本発明においてインデックスが増幅される前の目的核酸分子に付加される場合には、インデックスは、バーコード配列の付加の前に、同時に、または後で目的核酸分子に付加されてもよい。インデックス、バーコード配列、および目的核酸分子は、いずれの順番で連結されてもよい。インデックスは、バーコード配列と連結した状態で提供されてもよい。分子バーコードを利用して特定のサンプル内に含まれる目的核酸分子をデジタル定量に供する場合には、インデックスを指標として特定サンプルに由来する目的核酸分子を特定することができ、目的核酸配列に付加されたバーコード配列の種類の数(固有のバーコードの数)が定量され、元の(増幅前の)目的核酸分子の絶対的なコピー数が決定される(例えば、図6D参照)。 The conventional procedure of digital quantification of nucleic acids is described below (see panel A of FIG. 1).
Uniquely adds DNA (molecular barcodes) containing various foreign sequences to each of nucleic acids (target nucleic acid molecules) such as RNA molecules or DNA (eg, complementary DNA or cDNA) molecules (ie, nucleic acids Add molecular barcodes with different sequences for each molecule) (see, eg, FIG. 6C). Such a nucleic acid to which a molecular barcode having a unique sequence for each molecule is added may be referred to as a "barcoded nucleic acid". The barcoded target nucleic acid molecule (cDNA obtained from RNA if the starting nucleic acid is RNA) is amplified (see, eg, FIG. 6D). The target nucleic acid sequence of the barcoded and amplified nucleic acid and the barcoded sequence are sequenced in tandem (see, eg, FIG. 6D). As theoretically proposed, for each target nucleic acid, the number of unique barcodes attached to the target nucleic acid sequence is quantified rather than the number of amplified molecules (the so-called "read number"), and the original The absolute copy number of the nucleic acid molecule of interest (before amplification) can be determined. In this digital quantification method, since the number of types of barcode sequences is focused, the barcode sequence may be added to the target nucleic acid molecule so as to have a unique sequence for each nucleic acid molecule, and the specific sequence thereof It does not matter what the In digital quantification, barcodes whose specific sequence is known may be used.
The platform of the next generation sequencer has been developed, and it has become possible to decode a large number of base sequences by one sequencing (run). As a result, single-sample measurements do not run out of sequencing capabilities and the need for sequencing multiple samples simultaneously in a single run is growing. While sequencing multiple samples in a single run, a unique index can be added to each sample to distinguish which sample the nucleic acid came from. According to the present invention, the index may be added to the target nucleic acid molecule so as to have any sequence unique to each sample, regardless of the specific sequence. In digital quantification, an index whose specific sequence is known may be used.
According to the present invention, the index may be added to the amplified target nucleic acid molecule after the target nucleic acid molecule is amplified, or added to the target nucleic acid molecule before the target nucleic acid molecule is amplified. It may be done. An index may be added after performing amplification on each sample. For example, the addition of an index can be performed on each of the amplification products by adapter ligation. Alternatively, the index may be added while the nucleic acid molecule of interest is amplified. For example, the addition of an index can be performed during amplification of the nucleic acid molecule by including it in the sequence of the primer.
In the present invention, when the index is added to the target nucleic acid molecule before amplification, the index may be added to the target nucleic acid molecule before, simultaneously with or after the addition of the barcode sequence. The index, the barcode sequence, and the nucleic acid molecule of interest may be linked in any order. The index may be provided in conjunction with the barcode array. When subjecting a target nucleic acid molecule contained in a specific sample to digital quantification using molecular barcodes, the target nucleic acid molecule derived from the specific sample can be identified using the index as an index, and is added to the target nucleic acid sequence The number of unique barcode sequences (number of unique barcodes) is quantified to determine the absolute copy number of the original (before amplification) nucleic acid molecule of interest (see, eg, FIG. 6D).
RNA分子、またはDNA(例えば、相補的DNAまたはcDNA)分子等の核酸(目的核酸分子)のそれぞれに対して、多様な外来配列を含むDNA(分子バーコード)を固有に付加する(すなわち、核酸分子毎に異なる配列を有する分子バーコードを付加する)(例えば、図6C参照)。このように分子毎に固有の配列を有する分子バーコードが付加された核酸を「バーコード付加された核酸」と呼ぶことがある。バーコード付加された目的核酸分子(出発材料の核酸がRNAである場合にはRNAから得られるcDNA)を増幅させる(例えば、図6D参照)。バーコード付加され増幅された核酸の目的核酸配列とバーコード配列をタンデムにシークエンスする(例えば、図6D参照)。理論的に提唱されているように、各々の目的核酸について、増幅された分子の数(いわゆる「リード数」)ではなく目的核酸配列に付加された固有のバーコードの数が定量され、元の(増幅前の)目的核酸分子の絶対的なコピー数が決定できる。このデジタル定量法においては、バーコード配列の種類の数が着目されるため、バーコード配列は、核酸分子毎に固有の配列を有するように目的核酸分子に付加されればよく、その具体的配列がどのようなものかは問われない。デジタル定量法において、具体的配列が既知のバーコードを用いてもよい。
次世代シークエンサーのプラットフォームが発展し、一度のシークエンシング(ラン)で大量の塩基配列を解読可能となった。これにより、単一サンプルの測定では、シークエンシングの能力を使い切れず、1回のランで複数のサンプルを同時にシークエンスすることに対するニーズが高まっている。1回のランで複数のサンプルをシークエンスする一方で、核酸がいずれのサンプルに由来するかを区別するために、サンプル毎に固有のインデックスの付加がなされ得る。本発明によれば、インデックスは、サンプル毎に固有であればどのような配列を有するように目的核酸分子に付加されていてもよく、その具体的配列がどのようなものかは問われない。デジタル定量法において、具体的配列が既知のインデックスを用いてもよい。
本発明によれば、インデックスは、目的核酸分子が増幅された後で増幅された目的核酸分子に対して付加されてもよいし、目的核酸分子が増幅される前に目的核酸分子に対して付加されてもよい。インデックスは、各サンプルで増幅を行った後に付加してもよい。例えば、インデックスの付加は、アダプターライゲーションによって増幅産物それぞれに対して行うことができる。あるいは、インデックスは、目的核酸分子が増幅される間に付加されてもよい。例えば、インデックスの付加は、プライマーの配列に含ませることによって核酸分子の増幅中に行われ得る。
本発明においてインデックスが増幅される前の目的核酸分子に付加される場合には、インデックスは、バーコード配列の付加の前に、同時に、または後で目的核酸分子に付加されてもよい。インデックス、バーコード配列、および目的核酸分子は、いずれの順番で連結されてもよい。インデックスは、バーコード配列と連結した状態で提供されてもよい。分子バーコードを利用して特定のサンプル内に含まれる目的核酸分子をデジタル定量に供する場合には、インデックスを指標として特定サンプルに由来する目的核酸分子を特定することができ、目的核酸配列に付加されたバーコード配列の種類の数(固有のバーコードの数)が定量され、元の(増幅前の)目的核酸分子の絶対的なコピー数が決定される(例えば、図6D参照)。 The conventional procedure of digital quantification of nucleic acids is described below (see panel A of FIG. 1).
Uniquely adds DNA (molecular barcodes) containing various foreign sequences to each of nucleic acids (target nucleic acid molecules) such as RNA molecules or DNA (eg, complementary DNA or cDNA) molecules (ie, nucleic acids Add molecular barcodes with different sequences for each molecule) (see, eg, FIG. 6C). Such a nucleic acid to which a molecular barcode having a unique sequence for each molecule is added may be referred to as a "barcoded nucleic acid". The barcoded target nucleic acid molecule (cDNA obtained from RNA if the starting nucleic acid is RNA) is amplified (see, eg, FIG. 6D). The target nucleic acid sequence of the barcoded and amplified nucleic acid and the barcoded sequence are sequenced in tandem (see, eg, FIG. 6D). As theoretically proposed, for each target nucleic acid, the number of unique barcodes attached to the target nucleic acid sequence is quantified rather than the number of amplified molecules (the so-called "read number"), and the original The absolute copy number of the nucleic acid molecule of interest (before amplification) can be determined. In this digital quantification method, since the number of types of barcode sequences is focused, the barcode sequence may be added to the target nucleic acid molecule so as to have a unique sequence for each nucleic acid molecule, and the specific sequence thereof It does not matter what the In digital quantification, barcodes whose specific sequence is known may be used.
The platform of the next generation sequencer has been developed, and it has become possible to decode a large number of base sequences by one sequencing (run). As a result, single-sample measurements do not run out of sequencing capabilities and the need for sequencing multiple samples simultaneously in a single run is growing. While sequencing multiple samples in a single run, a unique index can be added to each sample to distinguish which sample the nucleic acid came from. According to the present invention, the index may be added to the target nucleic acid molecule so as to have any sequence unique to each sample, regardless of the specific sequence. In digital quantification, an index whose specific sequence is known may be used.
According to the present invention, the index may be added to the amplified target nucleic acid molecule after the target nucleic acid molecule is amplified, or added to the target nucleic acid molecule before the target nucleic acid molecule is amplified. It may be done. An index may be added after performing amplification on each sample. For example, the addition of an index can be performed on each of the amplification products by adapter ligation. Alternatively, the index may be added while the nucleic acid molecule of interest is amplified. For example, the addition of an index can be performed during amplification of the nucleic acid molecule by including it in the sequence of the primer.
In the present invention, when the index is added to the target nucleic acid molecule before amplification, the index may be added to the target nucleic acid molecule before, simultaneously with or after the addition of the barcode sequence. The index, the barcode sequence, and the nucleic acid molecule of interest may be linked in any order. The index may be provided in conjunction with the barcode array. When subjecting a target nucleic acid molecule contained in a specific sample to digital quantification using molecular barcodes, the target nucleic acid molecule derived from the specific sample can be identified using the index as an index, and is added to the target nucleic acid sequence The number of unique barcode sequences (number of unique barcodes) is quantified to determine the absolute copy number of the original (before amplification) nucleic acid molecule of interest (see, eg, FIG. 6D).
本発明によれば、インデックスとバーコードとを用いた目的核酸分子のデジタル定量方法において、複数のサンプルを混合して目的核酸分子を定量する場合に、インデックスが想定外の異なるサンプルに由来する核酸に付加されてしまう問題が発生し得ることが明らかとなった(図6E参照、図7B参照)。この問題は、インデックスを用いる場合に生じ得るものであり、インデックススイッチング(index switching)、インデックスホッピング(index hopping)、ミスインデックス(misindexing)などといわれる。インデックススイッチングの問題の存在は既に指摘されているが(Sinha, R. et al. Index switching causes “spreading-of-signal” among multiplexed samples in Illumina HiSeq 4000 DNA sequencing. biorxiv, 10.1101/125724 (2017))現在までに有効な解決手段は報告されていない。
本発明によればまた、バーコード配列の種類の数をカウントする際に、バーコード配列内に生じる変異(例えば、挿入、置換、および欠失)によって、同じと判断されるべき配列が異なる配列として認識される問題が発生し得ることが明らかになった。これらの問題は、インデックスを用いるか否かによらず生じ得る。 According to the present invention, in the method for digitally quantifying a target nucleic acid molecule using an index and a barcode, when a plurality of samples are mixed and the target nucleic acid molecule is quantified, a nucleic acid derived from a sample having an unexpected index It has become apparent that problems may arise that are added to (see FIG. 6E, FIG. 7B). This problem may occur when using an index, and is referred to as index switching, index hopping, misindexing, and the like. The existence of the index switching problem has already been pointed out (Sinha, R. et al. Index switching causes “spreading-of-signal” among multiplexed samples inIllumina HiSeq 4000 DNA sequencing. Biorxiv, 10.1101 / 125724 (2017)) To date no effective solution has been reported.
According to the invention, also, when counting the number of types of barcode sequences, sequences that differ as to be judged to be the same due to mutations (eg, insertions, substitutions, and deletions) that occur within the barcode sequence It has become apparent that problems can be encountered as perceived. These problems can occur with or without the use of indexes.
本発明によればまた、バーコード配列の種類の数をカウントする際に、バーコード配列内に生じる変異(例えば、挿入、置換、および欠失)によって、同じと判断されるべき配列が異なる配列として認識される問題が発生し得ることが明らかになった。これらの問題は、インデックスを用いるか否かによらず生じ得る。 According to the present invention, in the method for digitally quantifying a target nucleic acid molecule using an index and a barcode, when a plurality of samples are mixed and the target nucleic acid molecule is quantified, a nucleic acid derived from a sample having an unexpected index It has become apparent that problems may arise that are added to (see FIG. 6E, FIG. 7B). This problem may occur when using an index, and is referred to as index switching, index hopping, misindexing, and the like. The existence of the index switching problem has already been pointed out (Sinha, R. et al. Index switching causes “spreading-of-signal” among multiplexed samples in
According to the invention, also, when counting the number of types of barcode sequences, sequences that differ as to be judged to be the same due to mutations (eg, insertions, substitutions, and deletions) that occur within the barcode sequence It has become apparent that problems can be encountered as perceived. These problems can occur with or without the use of indexes.
本発明は、これらの問題それぞれに対して解決策を提供する。
サンプルの区別のためにサンプルに固有のインデックスを用いるデジタル定量方法においては、バーコードとインデックスが付加された目的核酸分子について、同一のバーコードに対して複数種のインデックスが付加されることはないと仮定できる(核酸一分子毎に固有のバーコードが付加されているためである)。これに対して本発明では、同一のバーコードが付加された核酸分子のクラスター中に複数のインデックスが見出された場合には、ミスインデックスが発生したと決定することができる(例えば、図6Eおよび図7C参照)。同一のバーコードが付加された核酸分子のクラスター中に複数のインデックスが見出された場合には、各インデックス配列の存在数を比較し、最も多く存在したインデックス配列を正しくインデックス付加された配列であると決定する(例えば、図6Eおよび図7C参照)。これにより、(例えば、1つのクラスター中の最も多く存在したインデックス配列以外の配列を除外することによって)ミスインデックスに対応することができる。この方法は、目的核酸分子の配列とは関係なく実施することができることは当然である。従って、この方法は、目的核酸配列を解読することを含まなくてよく、含んでいてもよい。この方法は、下記の第1の実施形態に対応する。 The present invention provides solutions to each of these problems.
In a digital quantification method that uses a sample-specific index to distinguish samples, multiple bar codes and indexes are not added to the same bar code for the target nucleic acid molecule to which the index is added. (Since each nucleic acid molecule has a unique barcode attached). On the other hand, in the present invention, when multiple indexes are found in a cluster of nucleic acid molecules to which the same barcode is added, it can be determined that a miss index has occurred (for example, FIG. 6E). And Figure 7C). When multiple indexes are found in a cluster of nucleic acid molecules to which the same barcode is added, the number of existing index sequences is compared, and the most frequently occurring index sequence is the correctly indexed sequence. It is determined that there is (see, for example, FIGS. 6E and 7C). This can correspond to a miss index (eg, by excluding sequences other than the most frequent index sequence in one cluster). It goes without saying that this method can be carried out independently of the sequence of the target nucleic acid molecule. Thus, the method may or may not include decoding the nucleic acid sequence of interest. This method corresponds to the first embodiment described below.
サンプルの区別のためにサンプルに固有のインデックスを用いるデジタル定量方法においては、バーコードとインデックスが付加された目的核酸分子について、同一のバーコードに対して複数種のインデックスが付加されることはないと仮定できる(核酸一分子毎に固有のバーコードが付加されているためである)。これに対して本発明では、同一のバーコードが付加された核酸分子のクラスター中に複数のインデックスが見出された場合には、ミスインデックスが発生したと決定することができる(例えば、図6Eおよび図7C参照)。同一のバーコードが付加された核酸分子のクラスター中に複数のインデックスが見出された場合には、各インデックス配列の存在数を比較し、最も多く存在したインデックス配列を正しくインデックス付加された配列であると決定する(例えば、図6Eおよび図7C参照)。これにより、(例えば、1つのクラスター中の最も多く存在したインデックス配列以外の配列を除外することによって)ミスインデックスに対応することができる。この方法は、目的核酸分子の配列とは関係なく実施することができることは当然である。従って、この方法は、目的核酸配列を解読することを含まなくてよく、含んでいてもよい。この方法は、下記の第1の実施形態に対応する。 The present invention provides solutions to each of these problems.
In a digital quantification method that uses a sample-specific index to distinguish samples, multiple bar codes and indexes are not added to the same bar code for the target nucleic acid molecule to which the index is added. (Since each nucleic acid molecule has a unique barcode attached). On the other hand, in the present invention, when multiple indexes are found in a cluster of nucleic acid molecules to which the same barcode is added, it can be determined that a miss index has occurred (for example, FIG. 6E). And Figure 7C). When multiple indexes are found in a cluster of nucleic acid molecules to which the same barcode is added, the number of existing index sequences is compared, and the most frequently occurring index sequence is the correctly indexed sequence. It is determined that there is (see, for example, FIGS. 6E and 7C). This can correspond to a miss index (eg, by excluding sequences other than the most frequent index sequence in one cluster). It goes without saying that this method can be carried out independently of the sequence of the target nucleic acid molecule. Thus, the method may or may not include decoding the nucleic acid sequence of interest. This method corresponds to the first embodiment described below.
デジタル定量方法においては、インデックス配列およびバーコード配列はその異同の認定が定量の精度に影響する。例えば、バーコード配列は、インデックスを付加するかしないかに関わらず、配列内の塩基の変異(例えば、挿入、置換、および欠失)によって異なる配列と認識されれば、配列の種類の数を増幅などに供される前の元の分子数の決定に用いるデジタル定量では、分子数の決定が不正確になる。これに対して、本発明では、バーコード内の塩基の置換に対しては、一定の距離(Distance)に含まれる配列を1つのクラスターとしてクラスタリングし、クラスター数に基づいて分子数を決定することで塩基の置換によって本来同一であるが異なる配列と認識される問題に対応することができる。ここで、「距離(Distance)」とは、2つの所定のバーコード配列間で相違する塩基の数を意味する。例えば、あるバーコード配列が別のバーコード配列と、いずれか1つの位置での1つの塩基変化を除けば正確に同一となる場合、これら2つのバーコード配列間の距離(Distance)は1である。例えばまた、いずれか2つの位置での2つの塩基変化を除けば正確に同一となる場合、これら2つのバーコード配列間の距離(Distance)は2である。例えばまた、あるバーコード配列が別のバーコード配列と、いずれか3つの位置での3つの塩基変化を除けば正確に同一となる場合、これら2つのバーコード配列間の距離(Distance)は3である。バーコード配列の多様性が増大するほど、第1の実施形態の方法の精度は高まると考えられる。距離(Distance)の値は本開示に従って適宜決定すればよく限定するものではないが、例えば1~10、好ましくは1~5、より好ましくは1~3、さらに好ましくは3である。この方法は、目的核酸分子の配列とは関係なく実施することができることは当然である。従って、この方法は、目的核酸配列を解読することを含まなくてよく、含んでいてもよい。この方法は、下記の第2の実施形態に対応する。インデックスを付加する系において、インデックスの異同を決定する際にも同様に利用することができる。
In the digital quantification method, the index sequence and the barcode sequence have different identifications that affect the accuracy of quantification. For example, if the barcoded sequence is recognized as a different sequence by mutation (for example, insertion, substitution, and deletion) of bases in the sequence regardless of whether or not an index is added, the number of sequence types is The digital quantification used to determine the original number of molecules before being subjected to amplification etc. makes the determination of the number of molecules inaccurate. On the other hand, in the present invention, for substitution of bases in a barcode, the sequences included in a certain distance (Distance) are clustered as one cluster, and the number of molecules is determined based on the number of clusters. The substitution of bases can address the problem of being recognized as an identical but different sequence. Here, "distance" refers to the number of bases that differ between two predetermined barcode sequences. For example, if one barcode sequence is exactly the same as another barcode sequence except for one base change at any one position, the distance between these two barcode sequences is 1 is there. For example, the distance between these two barcode sequences is 2 if exactly the same except for the two base changes at any two positions. For example, if one barcode sequence is exactly the same as another barcode sequence except for three base changes at any three positions, then the distance between these two barcode sequences is 3 It is. It is believed that the accuracy of the method of the first embodiment increases as the diversity of barcode sequences increases. The value of Distance is not particularly limited as long as it is appropriately determined according to the present disclosure, but is, for example, 1 to 10, preferably 1 to 5, more preferably 1 to 3, and still more preferably 3. It goes without saying that this method can be carried out independently of the sequence of the target nucleic acid molecule. Thus, the method may or may not include decoding the nucleic acid sequence of interest. This method corresponds to the second embodiment described below. In a system for adding an index, it can be used similarly to determine the difference between the indexes.
また、例えば、バーコード配列内の塩基の挿入や欠失(挿入および欠失を総称して「indel」ということがある)に対しては、インデックスを付加するかしないかに関わらず、バーコードの固定位置の塩基を固定塩基とする(すなわち、バーコード配列中の所定の位置における塩基を特定または規定の塩基とする)ことで固定塩基が所定の位置に存在しないことを指標としてindelの発生を検出することができる(本明細書ではこの方法を「固定塩基マッチフィルタリング(fixed base match filtering)」と呼ぶことがある)。すなわち、シークエンスしたバーコード配列において、固定塩基の位置のいずれかに元の塩基と異なる塩基を含んでいる場合に、バーコード配列中で塩基の挿入または欠失が生じたと決定される。バーコード配列中の固定塩基数は本開示に従って適宜決定すればよく限定するものではないが、例えば1~15個、好ましくは2~12個、より好ましくは3~10個、さらに好ましくは4~6個である。この方法は、目的核酸分子の配列とは関係なく実施することができることは当然である。従って、この方法は、目的核酸配列を解読することを含まなくてよく、含んでいてもよい。この方法は、下記の第3の実施形態に対応する。インデックスを付加する系において、インデックスの異同を決定する際にも同様に利用することができる。
Also, for example, for insertions and deletions of bases in a barcode sequence (for insertions and deletions sometimes collectively referred to as "indel"), the barcode may or may not be added with an index. By setting the base at the fixed position as the fixed base (ie, setting the base at the predetermined position in the barcode sequence as the specific or defined base), generation of indel is indicated by the absence of the fixed base at the predetermined position. (This method may be referred to herein as "fixed base match filtering"). That is, it is determined that insertion or deletion of a base has occurred in the barcode sequence when the sequenced barcode sequence contains a base different from the original base at any of the fixed base positions. The number of fixed bases in the barcode sequence is not particularly limited as long as it is appropriately determined according to the present disclosure, but it is, for example, 1 to 15, preferably 2 to 12, more preferably 3 to 10, still more preferably 4 to There are six. It goes without saying that this method can be carried out independently of the sequence of the target nucleic acid molecule. Thus, the method may or may not include decoding the nucleic acid sequence of interest. This method corresponds to the third embodiment described below. In a system for adding an index, it can be used similarly to determine the difference between the indexes.
以下、第1の実施形態、第2の実施形態、および第3の実施形態それぞれについて説明する。なお、これらの実施形態は組み合わせて実施することもでき、本発明は、そのような可能な実施形態の組合せを包含するものである。下記の実施形態は、組み合わせた実施態様の非限定的な例を含むものとなっている。
Hereinafter, each of the first embodiment, the second embodiment, and the third embodiment will be described. Note that these embodiments can also be implemented in combination, and the present invention includes combinations of such possible embodiments. The following embodiments are intended to include non-limiting examples of combined embodiments.
本発明の第1の実施形態
すなわち、本発明の第1の実施形態によれば、
複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシング(マルチプレックスシークエンシング)より得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
(E)得られた配列情報から、特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(F)上記(E)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および/または、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において99.5%以下、99%以下、90%以下、80%以下、70%以下、60%以下、50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば、2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法が提供される。 A first embodiment of the present invention That is, according to the first embodiment of the present invention,
Sequencing using a mixture of multiple samples containing the nucleic acid molecule of interest with an index unique to each sample containing multiple nucleic acid molecules and a unique or arbitrary molecular barcode unique to each nucleic acid molecule (multiplex sequencing) A method of determining the correct pair or mispair of an index added to a target nucleic acid molecule and a molecular barcode from sequence information obtained by
(E) From the obtained sequence information, a sequence having a specific index or a sequence similar thereto, a sequence having a specific molecular barcode or a sequence similar thereto, or a sequence containing a target nucleic acid molecule or a similar Selecting a sequence and creating a group from the selected sequence;
(F) In the group created in (E) above, determine the pair with the highest detection frequency index and molecular barcode as the correct pair of index and molecular barcode, and / or the low detection frequency index and molecules Bar code pair (for example, a detection frequency pair lower than a predetermined reference value, and the predetermined reference value is 99.5% or less, 99% or less, 90% or less, 80% or less, 70% or less, 60% or less) % Or less, 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, or 1% or less, but is not limited thereto. Determining at least any one or all of the frequency pairs) as the index and the molecule barcode mispairing;
Methods are provided.
すなわち、本発明の第1の実施形態によれば、
複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシング(マルチプレックスシークエンシング)より得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
(E)得られた配列情報から、特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(F)上記(E)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および/または、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において99.5%以下、99%以下、90%以下、80%以下、70%以下、60%以下、50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば、2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法が提供される。 A first embodiment of the present invention That is, according to the first embodiment of the present invention,
Sequencing using a mixture of multiple samples containing the nucleic acid molecule of interest with an index unique to each sample containing multiple nucleic acid molecules and a unique or arbitrary molecular barcode unique to each nucleic acid molecule (multiplex sequencing) A method of determining the correct pair or mispair of an index added to a target nucleic acid molecule and a molecular barcode from sequence information obtained by
(E) From the obtained sequence information, a sequence having a specific index or a sequence similar thereto, a sequence having a specific molecular barcode or a sequence similar thereto, or a sequence containing a target nucleic acid molecule or a similar Selecting a sequence and creating a group from the selected sequence;
(F) In the group created in (E) above, determine the pair with the highest detection frequency index and molecular barcode as the correct pair of index and molecular barcode, and / or the low detection frequency index and molecules Bar code pair (for example, a detection frequency pair lower than a predetermined reference value, and the predetermined reference value is 99.5% or less, 99% or less, 90% or less, 80% or less, 70% or less, 60% or less) % Or less, 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, or 1% or less, but is not limited thereto. Determining at least any one or all of the frequency pairs) as the index and the molecule barcode mispairing;
Methods are provided.
本発明の第1の実施形態では、本発明の方法は、
(A)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(B){例えば、得られた複数のサンプルそれぞれにおいて、}サンプルに含まれる核酸分子を増幅する前に、目的核酸分子それぞれに各核酸分子に固有のまたは任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(C){例えば、複数のサンプルを混合する前に、}複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリーを得る工程と(工程(B)の後に工程(C)を行ってもよいし、工程(C)の後に工程(B)を行ってもよい;また、工程(B)または(C)の後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(D)上記(B)と(C)の後に得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(C)の後であり、サンプルを混合した後に工程(B)を行ってもよく、工程(B)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(B)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列と必要に応じてそれに連結した目的核酸分子部分の配列を決定する工程と、
をさらに含んでいてもよい。 In a first embodiment of the invention, the method of the invention
(A) separately obtaining a plurality of samples containing a nucleic acid molecule (eg, DNA or RNA) and {at least one of the samples includes a target nucleic acid molecule},
(B) {e.g., in each of a plurality of obtained samples} before amplification of the nucleic acid molecules contained in the sample, each nucleic acid molecule of interest is linked to each of the nucleic acid molecules, or each molecular barcode unique to each nucleic acid molecule is linked; Obtaining a target nucleic acid molecule to which different molecular barcodes are linked;
(C) {For example, before mixing a plurality of samples} A target nucleic acid molecule in which a unique index is added to the target nucleic acid molecule for each sample containing a plurality of target nucleic acid molecules, and different indexes are linked for each sample derived And (step (C) may be performed after step (B), or step (B) may be performed after step (C); and step (B) or (C)). After the nucleic acid molecule can be amplified to obtain an amplification product of the target nucleic acid molecule),
(D) in a mixture containing the amplification products of the nucleic acid molecule obtained after (B) and (C) above (the sample is mixed after step (C) and after the sample is mixed (B) ) May be performed, or all samples may be mixed after step (B), and it is after step (B) that the amplification product of the nucleic acid molecule to which the molecular barcode is linked is obtained. The sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule And sequencing the nucleic acid molecule to which the molecular barcode of S is added to determine the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the target nucleic acid molecule portion linked thereto as needed for each nucleic acid molecule. When,
It may further include a.
(A)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(B){例えば、得られた複数のサンプルそれぞれにおいて、}サンプルに含まれる核酸分子を増幅する前に、目的核酸分子それぞれに各核酸分子に固有のまたは任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(C){例えば、複数のサンプルを混合する前に、}複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリーを得る工程と(工程(B)の後に工程(C)を行ってもよいし、工程(C)の後に工程(B)を行ってもよい;また、工程(B)または(C)の後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(D)上記(B)と(C)の後に得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(C)の後であり、サンプルを混合した後に工程(B)を行ってもよく、工程(B)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(B)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列と必要に応じてそれに連結した目的核酸分子部分の配列を決定する工程と、
をさらに含んでいてもよい。 In a first embodiment of the invention, the method of the invention
(A) separately obtaining a plurality of samples containing a nucleic acid molecule (eg, DNA or RNA) and {at least one of the samples includes a target nucleic acid molecule},
(B) {e.g., in each of a plurality of obtained samples} before amplification of the nucleic acid molecules contained in the sample, each nucleic acid molecule of interest is linked to each of the nucleic acid molecules, or each molecular barcode unique to each nucleic acid molecule is linked; Obtaining a target nucleic acid molecule to which different molecular barcodes are linked;
(C) {For example, before mixing a plurality of samples} A target nucleic acid molecule in which a unique index is added to the target nucleic acid molecule for each sample containing a plurality of target nucleic acid molecules, and different indexes are linked for each sample derived And (step (C) may be performed after step (B), or step (B) may be performed after step (C); and step (B) or (C)). After the nucleic acid molecule can be amplified to obtain an amplification product of the target nucleic acid molecule),
(D) in a mixture containing the amplification products of the nucleic acid molecule obtained after (B) and (C) above (the sample is mixed after step (C) and after the sample is mixed (B) ) May be performed, or all samples may be mixed after step (B), and it is after step (B) that the amplification product of the nucleic acid molecule to which the molecular barcode is linked is obtained. The sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule And sequencing the nucleic acid molecule to which the molecular barcode of S is added to determine the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the target nucleic acid molecule portion linked thereto as needed for each nucleic acid molecule. When,
It may further include a.
本発明の第1の実施形態では、インデックスは、サンプル毎に固有の塩基配列を有するものであれば、任意の配列を有するものを用いることができる。インデックスは、所定の配列を有するものとすることができるが(例えば、配列を参照することでいずれのサンプルに由来するものかが確定できるようにしてもよいが)、配列が不明なものであってもよい(例えば、配列を参照してもいずれのサンプルに由来するのかは確定できず、配列が異なることで異なるサンプルに由来することが分かるものであってもよい)。
In the first embodiment of the present invention, any index may be used as long as it has a unique base sequence for each sample. The index may have a predetermined sequence (eg, it may be possible to determine which sample is derived from by referring to the sequence), but the sequence is unknown. (For example, reference to a sequence makes it impossible to determine which sample it is derived from, and it may be known that different sequences lead to different samples).
本発明の第1の実施形態では、分子バーコードは、サンプル中の核酸分子数に対して十分な多様性を有するように作製することができる。分子バーコードは、サンプル中の核酸分子数に対して十分な多様性を有する限り、どのような塩基配列を有するものであってもよい。配列の設計の手間を省く目的等のために、分子バーコードの配列は、無作為に決定された配列(ランダムに決定された配列)とすることができる。例えば、分子バーコードは、ランダムに決定された塩基(すなわち、ランダム塩基)を複数含むことによって上記十分な多様性を有するものであってもよい。分子バーコードの多様性を確保するためには、分子バーコードの塩基配列の長さを長くすることができる。所定の多様性を有する目的核酸のデジタル定量においてランダム塩基を用いる場合、必要な分子バーコードの塩基配列中のランダム塩基の数を、図12に例示されるようなグラフに基づいて実験的に決定してもよい。本発明を限定するものではないが、例えば、分子バーコードの塩基配列中のランダム塩基の数を38以上にすることで、1015に及ぶ分子の数をデジタル定量するに十分な多様性を確保することができることが実施例から理解できる。4つの塩基をランダムに配列させると塩基長が38である場合、分子バーコードの多様性は理論上438(すなわち、約7.56×1022)に及ぶ。分子バーコードにおけるランダム塩基の数は、配列の多様性確保のために、例えば、6以上、7以上、8以上、9以上、10以上、11以上、12以上、13以上、14以上、15以上、16以上、17以上、18以上、19以上、または20以上とすることができる。あるいは、ランダム塩基の数は、25以上、30以上、35以上、40以上であってもよい。
In a first embodiment of the invention, molecular barcodes can be made to have sufficient diversity to the number of nucleic acid molecules in the sample. The molecular barcode may have any base sequence as long as it has sufficient diversity to the number of nucleic acid molecules in the sample. The sequence of the molecular barcode can be a randomly determined sequence (a randomly determined sequence), for the purpose of saving time and effort of sequence design. For example, the molecular barcode may have sufficient diversity by including a plurality of randomly determined bases (ie, random bases). In order to ensure the diversity of molecular barcodes, the length of the base sequence of molecular barcodes can be increased. When random bases are used in digital quantification of a target nucleic acid having a predetermined diversity, the number of random bases in the base sequence of the required molecular barcode is determined experimentally based on the graph as exemplified in FIG. You may Although the present invention is not limited, for example, by setting the number of random bases in the base sequence of the molecular barcode to 38 or more, sufficient diversity is secured for digitally quantifying the number of molecules covering 10 15 It can be understood from the examples that can be done. If the four bases are randomly arranged and the base length is 38, then the diversity of the molecular barcodes theoretically extends to 4 38 (ie, about 7.56 × 10 22 ). The number of random bases in the molecular barcode is, for example, 6 or more, 7 or more, 8 or more, 9 or more, 10 or more, 11 or more, 12 or more, 12 or more, 13 or more, 14 or more, 15 or more to ensure sequence diversity. , 16 or more, 17 or more, 18 or more, 19 or more, or 20 or more. Alternatively, the number of random bases may be 25 or more, 30 or more, 35 or more, 40 or more.
本発明の第1の実施形態では、複数のサンプルとは、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、または10以上のサンプルであり、インデックスにより区別可能な数であるが、特に数に上限は無い。
In the first embodiment of the present invention, the plurality of samples are 2 or more, 3 or more, 4 or more, 5 or more, 6 or more, 7 or more, 8 or more, 9 or more, or 10 or more samples, and It is a distinguishable number, but there is no upper limit to the number.
本発明の第1の実施形態では、上記(E)では、配列同一性に基づいて、特定のインデックスを有する配列、特定の分子バーコードを有する配列、および/または、目的核酸分子を含む配列を選択し、選択された配列により群を形成することができる。ここで、特定分子バーコードを有する配列を選択し、選択された配列により分子バーコード毎に群を形成することで、分子バーコードの種類の数に対応した数の群を形成することができる。また、特定のインデックスを有する配列を選択し、選択された配列によりインデックス毎に群を形成することで、インデックスの数(例えば、サンプル毎に異なるインデックスを付加する場合はサンプル数)に対応した数の群を形成することができる。また、特定の目的核酸を有する配列を選択し、選択された配列により群を形成することで、目的核酸を含む核酸群を得ることができる。
In the first embodiment of the present invention, in the above (E), a sequence having a specific index, a sequence having a specific molecular barcode, and / or a sequence containing a target nucleic acid molecule based on sequence identity Groups can be formed by the sequences selected and selected. Here, by selecting a sequence having a specific molecule barcode and forming a group for each molecular barcode by the selected sequence, it is possible to form a number of groups corresponding to the number of types of molecular barcodes. . Also, by selecting an array having a specific index and forming a group for each index according to the selected array, a number corresponding to the number of indexes (for example, the number of samples when adding a different index for each sample) Can form a group of Also, by selecting a sequence having a specific target nucleic acid and forming a group with the selected sequence, a nucleic acid group including the target nucleic acid can be obtained.
本発明の第1の実施形態では、上記(E)は、群を作成する工程が、{好ましくは、分子バーコード部分の配列において}配列同一性または類似性に基づいて同一配列を有していた{例えば、工程(A)~(D)の工程のいずれかによって配列が変化することがある}と推定される分子を一群としてクラスタリングすることによって群を作成することによって行われ得る。
本発明の第1の実施形態では、例えば、上記(E)は、第2の実施形態と組み合わせて実施することもできる。詳細は、第2の実施形態において説明する。
本発明の第1の実施形態ではさらにまた、例えば、上記(E)は、第2の実施形態および第3の実施形態と組み合わせて実施することができる。詳細は、第3の実施形態において説明する。 In the first embodiment of the present invention, the step of (E) above comprises creating identical groups {preferably in the sequence of the molecular barcode portion} based on sequence identity or similarity This can be performed by creating a group by clustering molecules presumed to be {eg, the sequence may be changed by any of the steps (A) to (D)} as a group.
In the first embodiment of the present invention, for example, the above (E) can be implemented in combination with the second embodiment. Details will be described in the second embodiment.
Furthermore, in the first embodiment of the present invention, for example, the above (E) can be implemented in combination with the second embodiment and the third embodiment. Details will be described in the third embodiment.
本発明の第1の実施形態では、例えば、上記(E)は、第2の実施形態と組み合わせて実施することもできる。詳細は、第2の実施形態において説明する。
本発明の第1の実施形態ではさらにまた、例えば、上記(E)は、第2の実施形態および第3の実施形態と組み合わせて実施することができる。詳細は、第3の実施形態において説明する。 In the first embodiment of the present invention, the step of (E) above comprises creating identical groups {preferably in the sequence of the molecular barcode portion} based on sequence identity or similarity This can be performed by creating a group by clustering molecules presumed to be {eg, the sequence may be changed by any of the steps (A) to (D)} as a group.
In the first embodiment of the present invention, for example, the above (E) can be implemented in combination with the second embodiment. Details will be described in the second embodiment.
Furthermore, in the first embodiment of the present invention, for example, the above (E) can be implemented in combination with the second embodiment and the third embodiment. Details will be described in the third embodiment.
本発明の第1の実施形態では、上記(F)では、上記(E)で作成された群それぞれについて、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる。本発明の第1の実施形態では、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定することができる。本発明の第1の実施形態では、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定し、かつ、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定することができる。本発明の第1の実施形態では、ミスペアと決定された核酸分子は、分子数のカウントから除外することができる。正しいペアの決定、およびミスペアの決定はそれぞれ、目的核酸分子の配列に関係なく実施することができる。例えば、目的核酸分子を選択した上で、正しいペアの決定、およびミスペアの決定をそれぞれ行ってもよいが;または、正しいペアの決定、およびミスペアの決定を行った上で、目的核酸分子を選択してもよい。
In the first embodiment of the present invention, in the above (F), for each of the groups created in the above (E), the index with the highest detection frequency and the pair of molecular barcodes are the index and the correct pair of molecular barcodes and It can be decided. In the first embodiment of the present invention, at least any one or all of the low detection frequency index and molecular barcode pairs may be determined as the index and molecular barcode mispairing. In the first embodiment of the present invention, the highest detection frequency index and molecular barcode pair is determined as the correct index and molecular barcode pair, and at least low frequency detection index and molecular barcode pair Any one or all may be determined as the index and the misplacement of the molecular barcode. In a first embodiment of the invention, nucleic acid molecules determined to be mispaired can be excluded from the count of the number of molecules. Determination of the correct pair and determination of the mispair, respectively, can be performed regardless of the sequence of the nucleic acid molecule of interest. For example, the target nucleic acid molecule may be selected to determine the correct pair and the mispair, respectively; or the target nucleic acid molecule may be selected after determining the correct pair and the mispair. You may
例えば、ある態様では、上記(E)において、特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成した場合には、
(i)工程(F)において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;または
(ii)工程(F)において作成された群のうち検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスと分子バーコードの少なくともいずれか1つまたは全てのミスペアと決定することができる。 For example, in one embodiment, in the above (E), when a sequence having a specific molecular barcode is selected to create a group for each molecular barcode,
(i) In step (F), the pair with the highest detection frequency index and molecular barcode among the created groups can be determined as the correct pair of index and molecular barcode; or
(ii) Among the groups created in step (F), a pair with a low detection frequency index and a molecular barcode (for example, a pair with a detection frequency lower than a certain reference value Values include 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, and 1% or less, and are not limited to these. May be determined as an index and / or a molecule barcode and / or a mispair of at least one or all of them.
(i)工程(F)において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;または
(ii)工程(F)において作成された群のうち検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスと分子バーコードの少なくともいずれか1つまたは全てのミスペアと決定することができる。 For example, in one embodiment, in the above (E), when a sequence having a specific molecular barcode is selected to create a group for each molecular barcode,
(i) In step (F), the pair with the highest detection frequency index and molecular barcode among the created groups can be determined as the correct pair of index and molecular barcode; or
(ii) Among the groups created in step (F), a pair with a low detection frequency index and a molecular barcode (for example, a pair with a detection frequency lower than a certain reference value Values include 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, and 1% or less, and are not limited to these. May be determined as an index and / or a molecule barcode and / or a mispair of at least one or all of them.
例えば、ある態様では、上記(E)において、特定のインデックスを有する配列を選択してインデックス毎に群を作成した場合には、
(iii)工程(F)において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;または
(iv)工程(F)において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスの少なくともいずれか1つまたは全てと分子バーコードのミスペアと決定することができる。 For example, in one embodiment, in (E) above, when an array having a specific index is selected and a group is created for each index,
(iii) In the step (F), for nucleic acid sequences having molecular barcodes appearing in a plurality of groups, determine the barcode / index pair with the highest number of reads as the correct barcode / index pair, or The highest detection frequency index and molecular barcode pair can be determined as the correct index and molecular barcode pair; or
(iv) In the step (F), a low detection frequency index and molecular barcode pair (for example, a detection frequency pair lower than a predetermined reference value) for sequences having molecular barcodes appearing in a plurality of groups The certain reference value includes, but is not limited to, 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, 1% or less in the group. The second and subsequent detection frequency pairs may be determined as) at least any one or all of the indices and the mispair of the molecular barcode.
(iii)工程(F)において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;または
(iv)工程(F)において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスの少なくともいずれか1つまたは全てと分子バーコードのミスペアと決定することができる。 For example, in one embodiment, in (E) above, when an array having a specific index is selected and a group is created for each index,
(iii) In the step (F), for nucleic acid sequences having molecular barcodes appearing in a plurality of groups, determine the barcode / index pair with the highest number of reads as the correct barcode / index pair, or The highest detection frequency index and molecular barcode pair can be determined as the correct index and molecular barcode pair; or
(iv) In the step (F), a low detection frequency index and molecular barcode pair (for example, a detection frequency pair lower than a predetermined reference value) for sequences having molecular barcodes appearing in a plurality of groups The certain reference value includes, but is not limited to, 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, 1% or less in the group. The second and subsequent detection frequency pairs may be determined as) at least any one or all of the indices and the mispair of the molecular barcode.
例えば、ある態様では、上記(E)において、目的核酸分子を含む配列を選択して群を作成した場合には、
(v)工程(F)において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;
(vi)工程(F)において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;
(vii)工程(F)においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定することができる;または
(viii)工程(F)においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定することができる。 For example, in one embodiment, in (E) above, when a sequence including the target nucleic acid molecule is selected to create a group,
(v) In step (F), a sequence having a specific index is further selected from the group to create a subgroup, and the nucleic acid sequence having a molecular barcode appearing in a plurality of subgroups has the highest number of reads The barcode and index pair can be determined as the correct barcode and index pair, or the most frequently detected index and molecular barcode pair can be determined as the correct index and molecular barcode pair;
(vi) In the step (F), further select a molecule having a specific molecular barcode from the group to create a subgroup, and in the created subgroup, the index with the highest detection frequency and the molecular barcode The pair can be determined as the correct pair of index and molecular barcodes;
(vii) In the step (F), molecules having a specific index are further selected from the group to create subgroups, and nucleic acid molecules having molecular barcodes appearing in a plurality of subgroups are detected with an index with low detection frequency and Molecular barcode pairs (for example, a detection frequency pair lower than a certain reference value, which means 50% or less, 40% or less, 30% or less, 20% or less, 10% or less in the group) 5% or less, 1% or less, but not limited thereto, and may be, for example, a pair of second or later detection frequency) and at least any one or all of index and molecular barcode Can be determined as
(viii) In step (F), molecules having a specific molecular barcode are selected from the group to create subgroups, and a pair of low detection frequency index and molecular barcodes in one created subgroup ( For example, a pair with a detection frequency lower than a certain reference value, and the certain reference value means 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, 1% The following values may be included, but are not limited thereto, and, for example, at least any one or all of the following may be detected as the index and the molecular barcode mispair: Can.
(v)工程(F)において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;
(vi)工程(F)において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;
(vii)工程(F)においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定することができる;または
(viii)工程(F)においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定することができる。 For example, in one embodiment, in (E) above, when a sequence including the target nucleic acid molecule is selected to create a group,
(v) In step (F), a sequence having a specific index is further selected from the group to create a subgroup, and the nucleic acid sequence having a molecular barcode appearing in a plurality of subgroups has the highest number of reads The barcode and index pair can be determined as the correct barcode and index pair, or the most frequently detected index and molecular barcode pair can be determined as the correct index and molecular barcode pair;
(vi) In the step (F), further select a molecule having a specific molecular barcode from the group to create a subgroup, and in the created subgroup, the index with the highest detection frequency and the molecular barcode The pair can be determined as the correct pair of index and molecular barcodes;
(vii) In the step (F), molecules having a specific index are further selected from the group to create subgroups, and nucleic acid molecules having molecular barcodes appearing in a plurality of subgroups are detected with an index with low detection frequency and Molecular barcode pairs (for example, a detection frequency pair lower than a certain reference value, which means 50% or less, 40% or less, 30% or less, 20% or less, 10% or less in the group) 5% or less, 1% or less, but not limited thereto, and may be, for example, a pair of second or later detection frequency) and at least any one or all of index and molecular barcode Can be determined as
(viii) In step (F), molecules having a specific molecular barcode are selected from the group to create subgroups, and a pair of low detection frequency index and molecular barcodes in one created subgroup ( For example, a pair with a detection frequency lower than a certain reference value, and the certain reference value means 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, 5% or less, 1% The following values may be included, but are not limited thereto, and, for example, at least any one or all of the following may be detected as the index and the molecular barcode mispair: Can.
このようにして、本発明の第1の実施形態では、バーコード配列とインデックス配列との正しいペアを決定することができ、および/または、ミスペアを決定することができる。後述する実施例で示されたように、ミスペアをカウントしないことによって、目的核酸分子のデジタル定量の精度が向上し得る。
In this way, in the first embodiment of the present invention, the correct pair of barcode and index sequences can be determined and / or mispairing can be determined. As shown in Examples described later, not counting mispairs can improve the accuracy of digital quantification of a target nucleic acid molecule.
本発明の第2の実施形態
バーコード配列を用いた核酸分子のデジタル定量法においては、解析中にバーコード配列内に変異(挿入、置換、または欠失)が生じること、および変異が定量精度に影響することが明らかとなった。本発明の第2の実施形態は、バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列の情報から、変異後の分子バーコードが有する配列を配列類似性を有する他の配列と一緒に1群に分類する(クラスタリング)ことに関連する。これにより、解析中に生じるバーコード配列内の変異の影響を最小化しようとするものである。第2の実施形態は、例えば、分子バーコードに類似する配列が含まれる可能性が低い環境下では、類似する配列は、同一配列から変異(挿入、置換、または欠失)によって生じた可能性が高いことに基づくものであり、実際に実施例においてもこのクラスタリングによってデジタル定量の精度が向上することが示唆された。
より具体的には、例えば、群を作成する工程が、{好ましくは、分子バーコード部分の配列において}配列同一性または類似性に基づいて判断される同一配列を有していた{例えば、工程(A)~(D)を実施した場合、これらの工程のいずれかによって配列が変異することがある}と推定される分子を一群としてクラスタリングすることによって群を作成することであり得る。従って、特定のインデックスを有する配列と類似性を有する配列とは、特定のインデックスを有する配列、および、特定のインデックスを有する配列と類似性を有する配列を含む。 Second embodiment of the present invention In digital quantification of nucleic acid molecules using barcode sequences, mutations (insertions, substitutions or deletions) occur in the barcode sequences during analysis, and the mutations have a quantitative accuracy. It became clear that the A second embodiment of the present invention is a method for digitally quantifying a target nucleic acid molecule using a barcode sequence, and based on the obtained information on the nucleic acid sequence, has sequence similarity to the sequence possessed by the molecular barcode after mutation. It is related to grouping into 1 group together with the sequence of (clustering). This seeks to minimize the effects of mutations in barcode sequences that occur during analysis. In the second embodiment, for example, in an environment where it is less likely to contain sequences similar to molecular barcodes, similar sequences may be generated by mutation (insertion, substitution or deletion) from the same sequence. It is suggested that this clustering actually improves the accuracy of digital quantification even in the example.
More specifically, for example, the step of creating a group had the same sequence {determined preferably in the sequence of the molecular barcode portion} sequence identity or similarity {e.g. When (A) to (D) are performed, it may be possible to create a group by clustering molecules presumed to have a sequence mutation at any of these steps as a group. Therefore, a sequence having similarity with a sequence having a particular index includes a sequence having a particular index and a sequence having similarity to a sequence having a particular index.
バーコード配列を用いた核酸分子のデジタル定量法においては、解析中にバーコード配列内に変異(挿入、置換、または欠失)が生じること、および変異が定量精度に影響することが明らかとなった。本発明の第2の実施形態は、バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列の情報から、変異後の分子バーコードが有する配列を配列類似性を有する他の配列と一緒に1群に分類する(クラスタリング)ことに関連する。これにより、解析中に生じるバーコード配列内の変異の影響を最小化しようとするものである。第2の実施形態は、例えば、分子バーコードに類似する配列が含まれる可能性が低い環境下では、類似する配列は、同一配列から変異(挿入、置換、または欠失)によって生じた可能性が高いことに基づくものであり、実際に実施例においてもこのクラスタリングによってデジタル定量の精度が向上することが示唆された。
より具体的には、例えば、群を作成する工程が、{好ましくは、分子バーコード部分の配列において}配列同一性または類似性に基づいて判断される同一配列を有していた{例えば、工程(A)~(D)を実施した場合、これらの工程のいずれかによって配列が変異することがある}と推定される分子を一群としてクラスタリングすることによって群を作成することであり得る。従って、特定のインデックスを有する配列と類似性を有する配列とは、特定のインデックスを有する配列、および、特定のインデックスを有する配列と類似性を有する配列を含む。 Second embodiment of the present invention In digital quantification of nucleic acid molecules using barcode sequences, mutations (insertions, substitutions or deletions) occur in the barcode sequences during analysis, and the mutations have a quantitative accuracy. It became clear that the A second embodiment of the present invention is a method for digitally quantifying a target nucleic acid molecule using a barcode sequence, and based on the obtained information on the nucleic acid sequence, has sequence similarity to the sequence possessed by the molecular barcode after mutation. It is related to grouping into 1 group together with the sequence of (clustering). This seeks to minimize the effects of mutations in barcode sequences that occur during analysis. In the second embodiment, for example, in an environment where it is less likely to contain sequences similar to molecular barcodes, similar sequences may be generated by mutation (insertion, substitution or deletion) from the same sequence. It is suggested that this clustering actually improves the accuracy of digital quantification even in the example.
More specifically, for example, the step of creating a group had the same sequence {determined preferably in the sequence of the molecular barcode portion} sequence identity or similarity {e.g. When (A) to (D) are performed, it may be possible to create a group by clustering molecules presumed to have a sequence mutation at any of these steps as a group. Therefore, a sequence having similarity with a sequence having a particular index includes a sequence having a particular index and a sequence having similarity to a sequence having a particular index.
本発明の第2の実施形態では、例えば、バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列を配列の類似性に基づいてインデックス、バーコードおよび/または目的核酸分子を群に分ける(クラスタリングする)ことができる。本発明の第2の実施形態のある態様では、例えば、クラスタリングは、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=0);
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=1);
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=2);または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=3)。このようにすることで、デジタル定量法において生じ得る0~3塩基の変異による核酸配列の種類の人為的増加を是正する。
第2の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。 In the second embodiment of the present invention, for example, in digital quantification of a target nucleic acid molecule using a barcode sequence, the obtained nucleic acid sequence is indexed, based on sequence similarity, a barcode and / or a target nucleic acid molecule Can be grouped (clustered). In an aspect of the second embodiment of the present invention, for example, clustering is:
(I) In the sequence of the molecular barcode portion, nucleic acid molecules having the same sequence as the unique molecular barcode sequence are classified into the same cluster (ie, Distance = 0);
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence having a unique molecular barcode sequence and a mismatch of up to 1 base into the same cluster (ie, Distance = 1);
(Iii) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence of unique molecular barcode and a sequence having up to 2 bases of mismatch into the same cluster (ie, Distance = 2); Or (iv) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence with a unique molecular barcode sequence and a mismatch up to 3 bases into the same cluster (ie, Distance = 3) . In this way, an artificial increase in the type of nucleic acid sequence due to a 0-3 base mutation that can occur in digital quantification is corrected.
When this aspect of the second embodiment is combined with the first embodiment, it can be implemented in the step (E) above.
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=0);
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=1);
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=2);または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=3)。このようにすることで、デジタル定量法において生じ得る0~3塩基の変異による核酸配列の種類の人為的増加を是正する。
第2の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。 In the second embodiment of the present invention, for example, in digital quantification of a target nucleic acid molecule using a barcode sequence, the obtained nucleic acid sequence is indexed, based on sequence similarity, a barcode and / or a target nucleic acid molecule Can be grouped (clustered). In an aspect of the second embodiment of the present invention, for example, clustering is:
(I) In the sequence of the molecular barcode portion, nucleic acid molecules having the same sequence as the unique molecular barcode sequence are classified into the same cluster (ie, Distance = 0);
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence having a unique molecular barcode sequence and a mismatch of up to 1 base into the same cluster (ie, Distance = 1);
(Iii) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence of unique molecular barcode and a sequence having up to 2 bases of mismatch into the same cluster (ie, Distance = 2); Or (iv) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a sequence with a unique molecular barcode sequence and a mismatch up to 3 bases into the same cluster (ie, Distance = 3) . In this way, an artificial increase in the type of nucleic acid sequence due to a 0-3 base mutation that can occur in digital quantification is corrected.
When this aspect of the second embodiment is combined with the first embodiment, it can be implemented in the step (E) above.
本発明の第2の実施形態では、例えば、バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列を配列の類似性に基づいてインデックス、バーコードおよび/または目的核酸分子を群に分ける(クラスタリングする)ことができる。本発明の第2の実施形態のある態様では、クラスタリングは、例えば、分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる。
第2の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。 In the second embodiment of the present invention, for example, in digital quantification of a target nucleic acid molecule using a barcode sequence, the obtained nucleic acid sequence is indexed, based on sequence similarity, a barcode and / or a target nucleic acid molecule Can be grouped (clustered). In an aspect of the second embodiment of the invention, the clustering may for example be an insertion or deletion (indel up to 1 base, up to 2 bases or up to 3 bases) in the sequence of the molecular barcode portion (indel) The present invention is carried out by classifying nucleic acid molecule groups having sequences sequenced as having C.) into the same cluster.
When this aspect of the second embodiment is combined with the first embodiment, it can be implemented in the step (E) above.
第2の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。 In the second embodiment of the present invention, for example, in digital quantification of a target nucleic acid molecule using a barcode sequence, the obtained nucleic acid sequence is indexed, based on sequence similarity, a barcode and / or a target nucleic acid molecule Can be grouped (clustered). In an aspect of the second embodiment of the invention, the clustering may for example be an insertion or deletion (indel up to 1 base, up to 2 bases or up to 3 bases) in the sequence of the molecular barcode portion (indel) The present invention is carried out by classifying nucleic acid molecule groups having sequences sequenced as having C.) into the same cluster.
When this aspect of the second embodiment is combined with the first embodiment, it can be implemented in the step (E) above.
本発明の第2の実施形態では、例えば、バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列を配列の類似性に基づいてインデックス、バーコードおよび/または目的核酸分子を群に分ける(クラスタリングする)ことができる。本発明の第2の実施形態のある態様では、クラスタリングは、例えば、分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる。
第2の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。 In the second embodiment of the present invention, for example, in digital quantification of a target nucleic acid molecule using a barcode sequence, the obtained nucleic acid sequence is indexed, based on sequence similarity, a barcode and / or a target nucleic acid molecule Can be grouped (clustered). In an aspect of the second embodiment of the invention, the clustering may for example be an insertion or deletion (indel up to 1 base, up to 2 bases or up to 3 bases) in the sequence of the molecular barcode portion (indel) The present invention is performed on a group of nucleic acid molecules obtained excluding the sequences sequenced as having.
When this aspect of the second embodiment is combined with the first embodiment, it can be implemented in the step (E) above.
第2の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。 In the second embodiment of the present invention, for example, in digital quantification of a target nucleic acid molecule using a barcode sequence, the obtained nucleic acid sequence is indexed, based on sequence similarity, a barcode and / or a target nucleic acid molecule Can be grouped (clustered). In an aspect of the second embodiment of the invention, the clustering may for example be an insertion or deletion (indel up to 1 base, up to 2 bases or up to 3 bases) in the sequence of the molecular barcode portion (indel) The present invention is performed on a group of nucleic acid molecules obtained excluding the sequences sequenced as having.
When this aspect of the second embodiment is combined with the first embodiment, it can be implemented in the step (E) above.
また、例えば、第2の実施形態のある態様では核酸配列を特定のバーコードの配列を類似するか否かによって選択し、選択された配列により群を作成することができる。ここで、「類似する」とは、配列が、1塩基、2塩基、3塩基、またはそれ以上異なる(例えば、挿入、欠失または置換)が、それ以外の塩基は一致することを意味する。類似する塩基配列間では一致する塩基の割合が、例えば、50%以上、55%以上、60%以上、65%以上、70%以上、75%以上、80%以上、85%以上、90%以上、95%以上、96%以上、97%以上、98%以上、または99%以上であり得る。
Also, for example, in one aspect of the second embodiment, nucleic acid sequences can be selected according to whether the sequences of a particular barcode are similar, and groups can be created from the selected sequences. Here, “similar” means that the sequences differ by one, two, three or more bases (eg, insertion, deletion or substitution), but the other bases are identical. The proportion of matching bases between similar base sequences is, for example, 50% or more, 55% or more, 60% or more, 65% or more, 70% or more, 75% or more, 80% or more, 85% or more, 90% or more , 95% or more, 96% or more, 97% or more, 98% or more, or 99% or more.
本発明の第3の実施形態
バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列において、挿入または欠失(indel)が生じることがある。本発明の第3の実施形態では、核酸配列(特にバーコード配列)に対して生じ得るindelの検出において、核酸分子に連結する全てのバーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基の一部(1つ以上)または全部が元来の位置において所定の固定塩基以外の塩基に変化しているか否かにより検出され得る。本発明の第3の実施形態ではまた、核酸配列(特にバーコード配列)に対して生じ得るindelの検出において、核酸分子に連結する全てのバーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基それぞれの位置と、配列解読されたバーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することをさらに含み得る{例えば、それぞれの固定塩基は、通常は、A、T、GおよびCからなる群から選択されるいずれか1つの塩基となるように設計され得る;または、それぞれの固定塩基は、AとTの組合せ、AとGの組合せ、AとCの組合せ、TとGの組合せ、TとCの組合せ、GとCの組合せ、AとTとGとの組合せ、AとTとCとの組合せ、AとGとCとの組合せ、およびTとGとCとの組合せからなる群から選択されるいずれか1つの組合せに含まれる塩基から選択される塩基となるように設計され得る}。これによって、1以上の固定塩基が所定の位置からずれた位置に存在することを指標として、および、好ましくは固定塩基が存在するべき位置に他の塩基が存在することを更なる指標として、indelを検出することができる。例えば、1以上、例えば、2以上の固定塩基が所定の位置からそれぞれ同じ塩基数ずれた位置に存在すれば、indelが検出されたと決定することができる。indelが検出されたときには、indelを有するとしてシークエンスされた配列を有する核酸分子群をindelを有しない配列と同じクラスターに分類してもよいし、indelを有するとしてシークエンスされた配列を有する核酸分子群を除外してもよい(例えば、得られた配列情報からindelを有するとしてシークエンスされた配列を有する核酸分子群を除外してもよいし、indelを有するとしてシークエンスされた配列を有する核酸分子群を除外して核酸分子群をクラスタリングしてもよい)。この態様では、固定塩基が2以上存在する場合には、固定塩基同士は、好ましくは、固定塩基間には1塩基以上の他の塩基を介在させ得る。ここで「固定塩基」とは、複数のバーコード配列において、バーコード配列の末端(5’末端、若しくは、3’末端、または、5’末端および3’末端)から所定の位置に存在する共通する塩基を意味する(ここで、共通する塩基は、上記のように複数のバーコード配列間で共通する設計によって決定された塩基としてもよい)。
第3の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。第3の実施形態のこの態様は、第2の実施形態と組み合わせる場合には、indelの検出において実施することができる。 Third Embodiment of the Invention In the digital quantification of nucleic acid molecules of interest using barcode sequences, insertions or deletions (indels) may occur in the resulting nucleic acid sequences. In a third embodiment of the invention, in the detection of indels that may occur to a nucleic acid sequence (in particular a barcode sequence), one or more (eg one) arranged in all barcode sequences linked to the nucleic acid molecule Whether part (one or more) or all of the two, three, four, five or six or more fixed bases are changed to a base other than the predetermined fixed base in the original position Can be detected. Also in the third embodiment of the present invention, in the detection of indels that may occur to a nucleic acid sequence (in particular a barcode sequence), one or more (for example one) arranged in all barcode sequences linked to the nucleic acid molecule. Relative to the position of each of one, two, three, four, five, six or more fixed bases and the position of each one or more fixed bases in the sequence of the barcode sequence portion that has been sequenced It may further include specifying by comparing the target positions {eg, each fixed base is usually designed to be any one base selected from the group consisting of A, T, G and C. Or each fixed base may be a combination of A and T, a combination of A and G, a combination of A and C, a combination of T and G, a combination of T and C, a combination of G and C, A and T And G combinations, A, T and C Can be designed to be a base selected from the bases contained in any one combination selected from the group consisting of: a combination of A, G and C, and a combination of T, G and C} . This makes it possible to use indel as an indicator that one or more fixed bases are present at a position deviated from the predetermined position, and preferably, as a further index that another base is present at the position where the fixed base should be present. Can be detected. For example, if one or more, for example, two or more fixed bases are present at positions deviated from the predetermined position by the same number of bases, it can be determined that indel is detected. When indel is detected, a nucleic acid molecule group having a sequence sequenced as having indel may be classified into the same cluster as a sequence having no indel, or a nucleic acid molecule group having a sequence sequenced as having indel (Eg, nucleic acid molecules having a sequence sequenced as having indel may be excluded from the obtained sequence information, or nucleic acid molecules having a sequence sequenced as having indel Clusters of nucleic acid molecules may be excluded. In this aspect, when two or more fixed bases are present, the fixed bases may preferably have one or more other bases intervened between the fixed bases. Here, "fixed base" refers to a common position which is present at a predetermined position from the end (5 'end, or 3' end, or 5 'end and 3' end) of a barcode sequence in a plurality of barcode sequences. (Here, the common base may be a base determined by design common to a plurality of barcode sequences as described above).
When this aspect of the third embodiment is combined with the first embodiment, it can be implemented in the step (E). This aspect of the third embodiment can be implemented in the detection of indel when combined with the second embodiment.
バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列において、挿入または欠失(indel)が生じることがある。本発明の第3の実施形態では、核酸配列(特にバーコード配列)に対して生じ得るindelの検出において、核酸分子に連結する全てのバーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基の一部(1つ以上)または全部が元来の位置において所定の固定塩基以外の塩基に変化しているか否かにより検出され得る。本発明の第3の実施形態ではまた、核酸配列(特にバーコード配列)に対して生じ得るindelの検出において、核酸分子に連結する全てのバーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基それぞれの位置と、配列解読されたバーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することをさらに含み得る{例えば、それぞれの固定塩基は、通常は、A、T、GおよびCからなる群から選択されるいずれか1つの塩基となるように設計され得る;または、それぞれの固定塩基は、AとTの組合せ、AとGの組合せ、AとCの組合せ、TとGの組合せ、TとCの組合せ、GとCの組合せ、AとTとGとの組合せ、AとTとCとの組合せ、AとGとCとの組合せ、およびTとGとCとの組合せからなる群から選択されるいずれか1つの組合せに含まれる塩基から選択される塩基となるように設計され得る}。これによって、1以上の固定塩基が所定の位置からずれた位置に存在することを指標として、および、好ましくは固定塩基が存在するべき位置に他の塩基が存在することを更なる指標として、indelを検出することができる。例えば、1以上、例えば、2以上の固定塩基が所定の位置からそれぞれ同じ塩基数ずれた位置に存在すれば、indelが検出されたと決定することができる。indelが検出されたときには、indelを有するとしてシークエンスされた配列を有する核酸分子群をindelを有しない配列と同じクラスターに分類してもよいし、indelを有するとしてシークエンスされた配列を有する核酸分子群を除外してもよい(例えば、得られた配列情報からindelを有するとしてシークエンスされた配列を有する核酸分子群を除外してもよいし、indelを有するとしてシークエンスされた配列を有する核酸分子群を除外して核酸分子群をクラスタリングしてもよい)。この態様では、固定塩基が2以上存在する場合には、固定塩基同士は、好ましくは、固定塩基間には1塩基以上の他の塩基を介在させ得る。ここで「固定塩基」とは、複数のバーコード配列において、バーコード配列の末端(5’末端、若しくは、3’末端、または、5’末端および3’末端)から所定の位置に存在する共通する塩基を意味する(ここで、共通する塩基は、上記のように複数のバーコード配列間で共通する設計によって決定された塩基としてもよい)。
第3の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。第3の実施形態のこの態様は、第2の実施形態と組み合わせる場合には、indelの検出において実施することができる。 Third Embodiment of the Invention In the digital quantification of nucleic acid molecules of interest using barcode sequences, insertions or deletions (indels) may occur in the resulting nucleic acid sequences. In a third embodiment of the invention, in the detection of indels that may occur to a nucleic acid sequence (in particular a barcode sequence), one or more (eg one) arranged in all barcode sequences linked to the nucleic acid molecule Whether part (one or more) or all of the two, three, four, five or six or more fixed bases are changed to a base other than the predetermined fixed base in the original position Can be detected. Also in the third embodiment of the present invention, in the detection of indels that may occur to a nucleic acid sequence (in particular a barcode sequence), one or more (for example one) arranged in all barcode sequences linked to the nucleic acid molecule. Relative to the position of each of one, two, three, four, five, six or more fixed bases and the position of each one or more fixed bases in the sequence of the barcode sequence portion that has been sequenced It may further include specifying by comparing the target positions {eg, each fixed base is usually designed to be any one base selected from the group consisting of A, T, G and C. Or each fixed base may be a combination of A and T, a combination of A and G, a combination of A and C, a combination of T and G, a combination of T and C, a combination of G and C, A and T And G combinations, A, T and C Can be designed to be a base selected from the bases contained in any one combination selected from the group consisting of: a combination of A, G and C, and a combination of T, G and C} . This makes it possible to use indel as an indicator that one or more fixed bases are present at a position deviated from the predetermined position, and preferably, as a further index that another base is present at the position where the fixed base should be present. Can be detected. For example, if one or more, for example, two or more fixed bases are present at positions deviated from the predetermined position by the same number of bases, it can be determined that indel is detected. When indel is detected, a nucleic acid molecule group having a sequence sequenced as having indel may be classified into the same cluster as a sequence having no indel, or a nucleic acid molecule group having a sequence sequenced as having indel (Eg, nucleic acid molecules having a sequence sequenced as having indel may be excluded from the obtained sequence information, or nucleic acid molecules having a sequence sequenced as having indel Clusters of nucleic acid molecules may be excluded. In this aspect, when two or more fixed bases are present, the fixed bases may preferably have one or more other bases intervened between the fixed bases. Here, "fixed base" refers to a common position which is present at a predetermined position from the end (5 'end, or 3' end, or 5 'end and 3' end) of a barcode sequence in a plurality of barcode sequences. (Here, the common base may be a base determined by design common to a plurality of barcode sequences as described above).
When this aspect of the third embodiment is combined with the first embodiment, it can be implemented in the step (E). This aspect of the third embodiment can be implemented in the detection of indel when combined with the second embodiment.
また、本発明の第1の実施形態は、
核酸の解析方法であって:
(I)分子バーコードとインデックスが付加された複数の目的核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定のインデックスを有する配列若しくはこれと類似する配列、及び/又は特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(III)上記(II)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する工程と、
を含む、方法であってもよい。 Further, according to the first embodiment of the present invention,
Method for analysis of nucleic acids:
(I) subjecting a mixture of a plurality of target nucleic acid molecules to which a molecular barcode and an index have been added to sequencing to obtain sequence information;
(II) From the sequence information obtained in (I) above, a sequence having a specific index or a sequence similar thereto, and / or a sequence having a specific molecular barcode or a sequence analogous thereto is selected and selected Creating a group by the arranged array;
(III) determining, in the group created in (II) above, the pair of the index with the highest detection frequency and the molecular barcode as the correct pair of the index and the molecular barcode;
May be included.
核酸の解析方法であって:
(I)分子バーコードとインデックスが付加された複数の目的核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定のインデックスを有する配列若しくはこれと類似する配列、及び/又は特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(III)上記(II)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する工程と、
を含む、方法であってもよい。 Further, according to the first embodiment of the present invention,
Method for analysis of nucleic acids:
(I) subjecting a mixture of a plurality of target nucleic acid molecules to which a molecular barcode and an index have been added to sequencing to obtain sequence information;
(II) From the sequence information obtained in (I) above, a sequence having a specific index or a sequence similar thereto, and / or a sequence having a specific molecular barcode or a sequence analogous thereto is selected and selected Creating a group by the arranged array;
(III) determining, in the group created in (II) above, the pair of the index with the highest detection frequency and the molecular barcode as the correct pair of the index and the molecular barcode;
May be included.
さらに、本発明の第2の実施形態は、核酸の解析方法であって:
(I)分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
を含む、方法であってもよい。 Furthermore, a second embodiment of the present invention is a method of analyzing nucleic acid:
(I) subjecting a mixture of a plurality of nucleic acid molecules to which molecular barcodes have been added to sequencing to obtain sequence information;
(II) selecting a sequence having a specific molecular barcode or a sequence similar thereto from the sequence information obtained in (I) above, and creating a group from the selected sequence;
May be included.
(I)分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
を含む、方法であってもよい。 Furthermore, a second embodiment of the present invention is a method of analyzing nucleic acid:
(I) subjecting a mixture of a plurality of nucleic acid molecules to which molecular barcodes have been added to sequencing to obtain sequence information;
(II) selecting a sequence having a specific molecular barcode or a sequence similar thereto from the sequence information obtained in (I) above, and creating a group from the selected sequence;
May be included.
さらに、本発明の第3の実施形態は、核酸の解析方法であって:
(I)特定の位置に固定塩基を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(IIa)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程と、
を含む、方法であってもよい。 Furthermore, a third embodiment of the present invention is a method of analyzing nucleic acid:
(I) subjecting a mixture of a plurality of nucleic acid molecules to which a molecular barcode having a fixed base at a specific position is added to sequencing to obtain sequence information;
(IIa) excluding from analysis a sequence having a molecular barcode which does not contain the fixed base at the specific position;
May be included.
(I)特定の位置に固定塩基を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(IIa)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程と、
を含む、方法であってもよい。 Furthermore, a third embodiment of the present invention is a method of analyzing nucleic acid:
(I) subjecting a mixture of a plurality of nucleic acid molecules to which a molecular barcode having a fixed base at a specific position is added to sequencing to obtain sequence information;
(IIa) excluding from analysis a sequence having a molecular barcode which does not contain the fixed base at the specific position;
May be included.
上記第1、第2、および第3の実施形態のそれぞれにおいて、少なくとも分子バーコードが付加された目的核酸分子が、工程(I)の前に増幅に供されていてもよい。ここで、少なくとも分子バーコードが付加された目的核酸分子とは、少なくとも分子バーコードが付加されていれば、インデックスがさらに付加されていてもよく、インデックスが付加されていなくてもよいことを意味する。
In each of the above first, second and third embodiments, the target nucleic acid molecule to which at least a molecular barcode has been added may be subjected to amplification prior to step (I). Here, at least a target nucleic acid molecule to which a molecular barcode has been added means that an index may be further added if at least a molecular barcode is added, and an index may not be added. Do.
上記第1、第2、および第3の実施形態のそれぞれにおいて、分子バーコードは、周知の方法、例えば、分子バーコード配列を含むプライマーを用いて目的核酸分子を増幅するときに(例えば、ポリメラーゼ連鎖反応によって)目的核酸分子に付加することができる。
上記第1、第2、および第3の実施形態のそれぞれにおいて、インデックスが、分子バーコードが付加された目的核酸分子の増幅産物に対して付加されていてもよい。増幅産物に対してインデックスを付加する方法としては、周知の方法、例えば、インデックス配列を有するアダプターを用いたアダプターライゲーション法が挙げられる。
上記第1、第2、および第3の実施形態のそれぞれにおいて、インデックスは、分子バーコードと一緒に目的核酸分子に付加されてもよい。例えば、目的核酸分子にインデックスおよび分子バーコードを付加する方法としては、周知の方法、例えば、インデックスおよび分子バーコードの配列を含むプライマーを用いて目的核酸分子を増幅(例えば、ポリメラーゼ連鎖反応)する方法が挙げられる。 In each of the above first, second and third embodiments, the molecular barcode is a known method, eg, when amplifying a nucleic acid molecule of interest using a primer comprising the molecular barcode sequence (eg It can be attached to the target nucleic acid molecule by chain reaction).
In each of the first, second and third embodiments, an index may be added to the amplification product of the target nucleic acid molecule to which the molecular barcode has been added. Methods for adding an index to an amplification product include known methods, for example, adapter ligation using an adapter having an index sequence.
In each of the first, second and third embodiments, an index may be added to the target nucleic acid molecule along with the molecular barcode. For example, as a method of adding an index and a molecular barcode to a target nucleic acid molecule, the target nucleic acid molecule is amplified (eg, polymerase chain reaction) using a known method The method is mentioned.
上記第1、第2、および第3の実施形態のそれぞれにおいて、インデックスが、分子バーコードが付加された目的核酸分子の増幅産物に対して付加されていてもよい。増幅産物に対してインデックスを付加する方法としては、周知の方法、例えば、インデックス配列を有するアダプターを用いたアダプターライゲーション法が挙げられる。
上記第1、第2、および第3の実施形態のそれぞれにおいて、インデックスは、分子バーコードと一緒に目的核酸分子に付加されてもよい。例えば、目的核酸分子にインデックスおよび分子バーコードを付加する方法としては、周知の方法、例えば、インデックスおよび分子バーコードの配列を含むプライマーを用いて目的核酸分子を増幅(例えば、ポリメラーゼ連鎖反応)する方法が挙げられる。 In each of the above first, second and third embodiments, the molecular barcode is a known method, eg, when amplifying a nucleic acid molecule of interest using a primer comprising the molecular barcode sequence (eg It can be attached to the target nucleic acid molecule by chain reaction).
In each of the first, second and third embodiments, an index may be added to the amplification product of the target nucleic acid molecule to which the molecular barcode has been added. Methods for adding an index to an amplification product include known methods, for example, adapter ligation using an adapter having an index sequence.
In each of the first, second and third embodiments, an index may be added to the target nucleic acid molecule along with the molecular barcode. For example, as a method of adding an index and a molecular barcode to a target nucleic acid molecule, the target nucleic acid molecule is amplified (eg, polymerase chain reaction) using a known method The method is mentioned.
上記第1の実施形態の方法は、第2の実施形態と組み合わせて実施することができる。例えば、上記第1、および第2の実施形態のそれぞれにおいて、工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列であってもよい。ここで、所定の塩基数とは、1~10、1~9、1~8、1~7、1~6、1~5、1~4、1~3、若しくは1~2の範囲の整数、または0、1、2、若しくは3であり得る。所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列は、ミスマッチ塩基以外の塩基は、特定の分子バーコードの配列と正確に一致する。
The method of the first embodiment can be implemented in combination with the second embodiment. For example, in each of the first and second embodiments, the sequence similar to the sequence having the specific molecular barcode in step (II) is less than the predetermined number of bases and the sequence having the specific molecular barcode. Or a sequence containing a mismatched base in the molecular barcode sequence portion. Here, the predetermined number of bases is an integer in the range of 1 to 10, 1 to 9, 1 to 8, 1 to 7, 1 to 6, 1 to 5, 1 to 4, 1 to 3, or 1 to 2. Or 0, 1, 2, or 3. In a sequence including a mismatched base not more than a predetermined number of bases in the molecular barcode sequence portion, the base other than the mismatched base exactly matches the sequence of the specific molecular barcode.
上記第1の実施形態の方法は、第3の実施形態と組み合わせて実施することができる。また、上記第2の実施形態の方法は、第3の実施形態と組み合わせて実施することができる。
例えば、第1および第2の実施形態のそれぞれにおいて、分子バーコードが、特定の位置に固定塩基を有するものであってもよい。
第1および第2の実施形態のそれぞれにおいて、工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択されてもよい。
第1および第2の実施形態のそれぞれにおいて、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含んでいてもよい。例えば、この実施形態において、分子バーコードをDistance=0でクラスタリングする場合も、Distance=1以上でクラスタリングする場合も、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含んでいてもよい。この場合、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することは、クラスタリングの前でも後でも最中であってもよい。
第1および第2の実施形態のそれぞれにおいて、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を工程(I)の配列情報から除外してもよく、工程(II)で作成した群から除外してもよく、解析から除外してもよい。
あるいはまた、第1、第2、および第3の実施形態のそれぞれにおいて、工程(I)において、または工程(I)の後で、当該特定の位置に当該固定塩基を含む配列からなる配列情報を得てもよい。あるいはまた、第1の実施形態では、工程(II)において、または工程(II)の後で、当該特定の位置に当該固定塩基を含む配列からなる群を得てもよい。すなわち、第3の実施形態の核酸の解析方法では、工程(IIa)に代えて、工程(IIb):工程(I)において、若しくは、工程(I)の後で、分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報を得てもよいし;または、工程(II):上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程を含み、かつ工程(IIc):工程(II)において、若しくは工程(II)の後で、分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる群を得てもよい。分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報または群は、全ての特定の位置に固定塩基を含む配列からなるものであり得る。分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報または群は、固定塩基の数がn個{ここで、nは自然数である}である場合には、n個、またはn-m個{ここで、mは、1、2、3、または1からn-1の範囲の自然数であり得る}の固定塩基を特定の位置に含む配列からなるものであり得る。 The method of the first embodiment can be implemented in combination with the third embodiment. The method of the second embodiment can be implemented in combination with the third embodiment.
For example, in each of the first and second embodiments, the molecular barcode may have a fixed base at a particular position.
In each of the first and second embodiments, a sequence similar to the sequence with the specific molecular barcode in step (II) comprises the fixed base at the specific position, and / or the fixed base May be selected based on the fact that the position of is shifted from the specific position.
In each of the first and second embodiments, the method may further include excluding, from analysis, a sequence having a molecular barcode that does not include the fixed base at the specific position. For example, in this embodiment, in the case of clustering molecular barcodes with Distance = 0 or when clustering with Distance = 1 or more, a sequence having molecular barcodes that do not contain the fixed base at the specific position is analyzed It may further include excluding. In this case, excluding from the analysis a sequence having a molecular barcode that does not contain the fixed base at the specific position may be before, after or during clustering.
In each of the first and second embodiments, a sequence having a molecular barcode which does not contain the fixed base at the specific position may be excluded from the sequence information of step (I), which is prepared in step (II) It may be excluded from the analyzed group.
Alternatively, in each of the first, second and third embodiments, sequence information consisting of a sequence comprising the fixed base at the specific position in step (I) or after step (I) You may get it. Alternatively, in the first embodiment, in step (II) or after step (II), a group consisting of a sequence comprising the fixed base at the specific position may be obtained. That is, in the method of analyzing a nucleic acid according to the third embodiment, in place of step (IIa), step (IIb): in the step (I), or after step (I), the identification in the molecular barcode portion Step (II): a sequence having a specific molecular barcode or similar thereto from step (II): the sequence information obtained in (I) above Select sequences to create a group according to the selected sequences, and step (IIc): in step (II) or after step (II), at the specific position in the molecular barcode portion You may obtain the group which consists of a sequence containing the said fixed base. The sequence information or group consisting of the sequence containing the fixed base at the specific position in the molecular barcode portion may consist of the sequence containing the fixed base at all specific positions. The sequence information or group consisting of a sequence including the fixed base at the specific position in the molecular barcode portion is n when the number of fixed bases is n (wherein n is a natural number), Alternatively, it may be composed of a sequence including fixed bases at a specific position of nm (where m can be a natural number ranging from 1, 2, 3 or 1 to n-1).
例えば、第1および第2の実施形態のそれぞれにおいて、分子バーコードが、特定の位置に固定塩基を有するものであってもよい。
第1および第2の実施形態のそれぞれにおいて、工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択されてもよい。
第1および第2の実施形態のそれぞれにおいて、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含んでいてもよい。例えば、この実施形態において、分子バーコードをDistance=0でクラスタリングする場合も、Distance=1以上でクラスタリングする場合も、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含んでいてもよい。この場合、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することは、クラスタリングの前でも後でも最中であってもよい。
第1および第2の実施形態のそれぞれにおいて、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を工程(I)の配列情報から除外してもよく、工程(II)で作成した群から除外してもよく、解析から除外してもよい。
あるいはまた、第1、第2、および第3の実施形態のそれぞれにおいて、工程(I)において、または工程(I)の後で、当該特定の位置に当該固定塩基を含む配列からなる配列情報を得てもよい。あるいはまた、第1の実施形態では、工程(II)において、または工程(II)の後で、当該特定の位置に当該固定塩基を含む配列からなる群を得てもよい。すなわち、第3の実施形態の核酸の解析方法では、工程(IIa)に代えて、工程(IIb):工程(I)において、若しくは、工程(I)の後で、分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報を得てもよいし;または、工程(II):上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程を含み、かつ工程(IIc):工程(II)において、若しくは工程(II)の後で、分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる群を得てもよい。分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報または群は、全ての特定の位置に固定塩基を含む配列からなるものであり得る。分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報または群は、固定塩基の数がn個{ここで、nは自然数である}である場合には、n個、またはn-m個{ここで、mは、1、2、3、または1からn-1の範囲の自然数であり得る}の固定塩基を特定の位置に含む配列からなるものであり得る。 The method of the first embodiment can be implemented in combination with the third embodiment. The method of the second embodiment can be implemented in combination with the third embodiment.
For example, in each of the first and second embodiments, the molecular barcode may have a fixed base at a particular position.
In each of the first and second embodiments, a sequence similar to the sequence with the specific molecular barcode in step (II) comprises the fixed base at the specific position, and / or the fixed base May be selected based on the fact that the position of is shifted from the specific position.
In each of the first and second embodiments, the method may further include excluding, from analysis, a sequence having a molecular barcode that does not include the fixed base at the specific position. For example, in this embodiment, in the case of clustering molecular barcodes with Distance = 0 or when clustering with Distance = 1 or more, a sequence having molecular barcodes that do not contain the fixed base at the specific position is analyzed It may further include excluding. In this case, excluding from the analysis a sequence having a molecular barcode that does not contain the fixed base at the specific position may be before, after or during clustering.
In each of the first and second embodiments, a sequence having a molecular barcode which does not contain the fixed base at the specific position may be excluded from the sequence information of step (I), which is prepared in step (II) It may be excluded from the analyzed group.
Alternatively, in each of the first, second and third embodiments, sequence information consisting of a sequence comprising the fixed base at the specific position in step (I) or after step (I) You may get it. Alternatively, in the first embodiment, in step (II) or after step (II), a group consisting of a sequence comprising the fixed base at the specific position may be obtained. That is, in the method of analyzing a nucleic acid according to the third embodiment, in place of step (IIa), step (IIb): in the step (I), or after step (I), the identification in the molecular barcode portion Step (II): a sequence having a specific molecular barcode or similar thereto from step (II): the sequence information obtained in (I) above Select sequences to create a group according to the selected sequences, and step (IIc): in step (II) or after step (II), at the specific position in the molecular barcode portion You may obtain the group which consists of a sequence containing the said fixed base. The sequence information or group consisting of the sequence containing the fixed base at the specific position in the molecular barcode portion may consist of the sequence containing the fixed base at all specific positions. The sequence information or group consisting of a sequence including the fixed base at the specific position in the molecular barcode portion is n when the number of fixed bases is n (wherein n is a natural number), Alternatively, it may be composed of a sequence including fixed bases at a specific position of nm (where m can be a natural number ranging from 1, 2, 3 or 1 to n-1).
上記第1、第2、および第3の実施形態のそれぞれにおいて、工程(III)において、決定された正しいペア以外のインデックスと分子バーコードのペアを、インデックスと分子バーコードのミスペアと決定してもよく、または決定されたミスペアを解析から除外してもよい。
In each of the first, second and third embodiments, in step (III), the index and molecular barcode pair other than the determined correct pair are determined as the index and the molecular barcode mispair Also, the determined mispair may be excluded from the analysis.
上記第1、第2、および第3の実施形態のそれぞれにおいて、核酸の解析方法は、特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含んでもよい。
In each of the first, second and third embodiments, the nucleic acid analysis method is based on the number of groups created by the sequence having the specific molecular barcode or the sequence similar thereto. The method may further comprise the step of determining the number of target nucleic acid molecules contained in the sample from which the molecule is derived.
当業者であれば、本発明の第1の実施形態、本発明の第2の実施形態、および本発明の第3の実施形態は、それぞれ自由に組み合わせて実施することができることが理解できる。例えば、本発明の第1の実施形態は、本発明の第2の実施形態と組み合わせることができるし、本発明の第1の実施形態は、本発明の第3の実施形態と組み合わせることもできる。本発明の第1の実施形態は、本発明の第2および第3の実施形態と組み合わせてもよい。さらには、本発明の第2の実施形態は、本発明の第3の実施形態を組み合わせることができる。
Those skilled in the art can understand that the first embodiment of the present invention, the second embodiment of the present invention, and the third embodiment of the present invention can be implemented in free combination. For example, the first embodiment of the present invention can be combined with the second embodiment of the present invention, and the first embodiment of the present invention can be combined with the third embodiment of the present invention. . The first embodiment of the present invention may be combined with the second and third embodiments of the present invention. Furthermore, the second embodiment of the present invention can combine the third embodiment of the present invention.
本発明の第4の実施形態
本発明の第4の実施形態は、バーコード配列を用いた目的核酸分子のデジタル定量法であって、本発明の第1の実施形態、第2の実施形態、および第3の実施形態、並びにこれらの組合せからなる群から選択される実施形態の実施を含む、方法に関する。 Fourth Embodiment of the Present Invention A fourth embodiment of the present invention is a method for digitally quantifying a target nucleic acid molecule using a barcode sequence, comprising: And a third embodiment, and a method comprising the implementation of an embodiment selected from the group consisting of these combinations.
本発明の第4の実施形態は、バーコード配列を用いた目的核酸分子のデジタル定量法であって、本発明の第1の実施形態、第2の実施形態、および第3の実施形態、並びにこれらの組合せからなる群から選択される実施形態の実施を含む、方法に関する。 Fourth Embodiment of the Present Invention A fourth embodiment of the present invention is a method for digitally quantifying a target nucleic acid molecule using a barcode sequence, comprising: And a third embodiment, and a method comprising the implementation of an embodiment selected from the group consisting of these combinations.
本発明の第4の実施形態は、バーコード配列を用いた目的核酸分子のデジタル定量法であって、
(e)得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
(f)上記(e)で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
(g)上記(f)において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み{ここで、ミスペアにおいてインデックスが誤っていると決定することをさらに含んでいてもよい}、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)に基づいて、当該インデックスに対応するサンプルに含まれる目的核酸分子の数を決定する、
方法であり得る。ここで、ある態様では、工程(g)において、正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)を、当該インデックスに対応するサンプルに含まれる目的核酸分子の数と決定してもよく、リード数が増えるにつれて、原理的に定量の精度が高まると考えられる。 A fourth embodiment of the present invention is a method for digital quantification of a nucleic acid molecule of interest using a barcoded sequence comprising:
(E) selecting a nucleic acid molecule containing the sequence of the target nucleic acid molecule from the obtained sequence information;
(F) clustering the nucleic acid molecules selected in (e) above for each unique molecular barcode sequence, and then identifying a cluster having a plurality of sequences in the index nucleic acid molecule portion,
(G) In each of the clusters identified in (f), the index with the highest detection frequency and the molecular barcode pair are identified as the correctly indexed target nucleic acid molecules, and the other index and molecular barcode pairs are identified. Determining that it is a mispair, and
{Wherein it may further include determining that the index is incorrect in Mispair},
The purpose contained in the sample corresponding to the index based on the number of sequence types of the unique molecular barcode linked to the correctly indexed target nucleic acid molecule (or the number of clusters of the target nucleic acid molecule correctly indexed) Determine the number of nucleic acid molecules,
It may be a method. Here, in one embodiment, in step (g), the number of kinds of unique molecular barcode sequences linked to the correctly indexed target nucleic acid molecule (or the number of clusters of the target nucleic acid molecule correctly indexed) The number may be determined as the number of target nucleic acid molecules contained in the sample corresponding to the index, and it is considered that the accuracy of quantification increases in principle as the number of reads increases.
(e)得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
(f)上記(e)で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
(g)上記(f)において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み{ここで、ミスペアにおいてインデックスが誤っていると決定することをさらに含んでいてもよい}、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)に基づいて、当該インデックスに対応するサンプルに含まれる目的核酸分子の数を決定する、
方法であり得る。ここで、ある態様では、工程(g)において、正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)を、当該インデックスに対応するサンプルに含まれる目的核酸分子の数と決定してもよく、リード数が増えるにつれて、原理的に定量の精度が高まると考えられる。 A fourth embodiment of the present invention is a method for digital quantification of a nucleic acid molecule of interest using a barcoded sequence comprising:
(E) selecting a nucleic acid molecule containing the sequence of the target nucleic acid molecule from the obtained sequence information;
(F) clustering the nucleic acid molecules selected in (e) above for each unique molecular barcode sequence, and then identifying a cluster having a plurality of sequences in the index nucleic acid molecule portion,
(G) In each of the clusters identified in (f), the index with the highest detection frequency and the molecular barcode pair are identified as the correctly indexed target nucleic acid molecules, and the other index and molecular barcode pairs are identified. Determining that it is a mispair, and
{Wherein it may further include determining that the index is incorrect in Mispair},
The purpose contained in the sample corresponding to the index based on the number of sequence types of the unique molecular barcode linked to the correctly indexed target nucleic acid molecule (or the number of clusters of the target nucleic acid molecule correctly indexed) Determine the number of nucleic acid molecules,
It may be a method. Here, in one embodiment, in step (g), the number of kinds of unique molecular barcode sequences linked to the correctly indexed target nucleic acid molecule (or the number of clusters of the target nucleic acid molecule correctly indexed) The number may be determined as the number of target nucleic acid molecules contained in the sample corresponding to the index, and it is considered that the accuracy of quantification increases in principle as the number of reads increases.
本発明の第4の実施形態は、
(a)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(b)サンプルに含まれる核酸分子を増幅する前に、得られた複数のサンプルそれぞれにおいて、目的核酸分子それぞれに任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(c)複数のサンプルを混合する前に、複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリーを得る工程と(工程Bと工程Cの順序はどちらが先でもよい;また、工程(b)または(c)の後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(d)上記(b)と(c)の後得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(c)の後であり、サンプルを混合した後に工程(b)を行っても良く、工程(b)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(b)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列とそれに連結した核酸分子部分の配列を同定する工程
をさらに含んでいてもよい。 The fourth embodiment of the present invention is
(A) separately obtaining a plurality of samples comprising a nucleic acid molecule (eg, DNA or RNA) and {at least one of the samples comprising the nucleic acid molecule of interest},
(B) A target nucleic acid molecule in which an arbitrary molecular barcode is linked to each of the target nucleic acid molecules in each of a plurality of obtained samples before amplification of a nucleic acid molecule contained in the sample, and different molecular barcodes are linked to each other Obtaining
(C) Before mixing a plurality of samples, a unique index is added to the target nucleic acid molecule for each sample containing a plurality of target nucleic acid molecules, and a library of target nucleic acid molecules in which different indexes are linked for each sample derived (The order of step B and step C may be earlier; and after step (b) or (c), the nucleic acid molecule can be amplified to obtain an amplification product of the target nucleic acid molecule),
(D) in a mixture containing the amplification products of the nucleic acid molecule obtained after (b) and (c) above (the sample is mixed after step (c) and after the sample is mixed, step (b) ) May be performed, or all the samples may be mixed after performing step (b), and it is after step (b) that the amplification product of the nucleic acid molecule to which the molecular barcode is linked is obtained. The sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule And sequencing the nucleic acid molecules to which the molecular barcodes have been added to identify the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the nucleic acid molecule portion linked thereto for each nucleic acid molecule. It is also good.
(a)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(b)サンプルに含まれる核酸分子を増幅する前に、得られた複数のサンプルそれぞれにおいて、目的核酸分子それぞれに任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(c)複数のサンプルを混合する前に、複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリーを得る工程と(工程Bと工程Cの順序はどちらが先でもよい;また、工程(b)または(c)の後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(d)上記(b)と(c)の後得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(c)の後であり、サンプルを混合した後に工程(b)を行っても良く、工程(b)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(b)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列とそれに連結した核酸分子部分の配列を同定する工程
をさらに含んでいてもよい。 The fourth embodiment of the present invention is
(A) separately obtaining a plurality of samples comprising a nucleic acid molecule (eg, DNA or RNA) and {at least one of the samples comprising the nucleic acid molecule of interest},
(B) A target nucleic acid molecule in which an arbitrary molecular barcode is linked to each of the target nucleic acid molecules in each of a plurality of obtained samples before amplification of a nucleic acid molecule contained in the sample, and different molecular barcodes are linked to each other Obtaining
(C) Before mixing a plurality of samples, a unique index is added to the target nucleic acid molecule for each sample containing a plurality of target nucleic acid molecules, and a library of target nucleic acid molecules in which different indexes are linked for each sample derived (The order of step B and step C may be earlier; and after step (b) or (c), the nucleic acid molecule can be amplified to obtain an amplification product of the target nucleic acid molecule),
(D) in a mixture containing the amplification products of the nucleic acid molecule obtained after (b) and (c) above (the sample is mixed after step (c) and after the sample is mixed, step (b) ) May be performed, or all the samples may be mixed after performing step (b), and it is after step (b) that the amplification product of the nucleic acid molecule to which the molecular barcode is linked is obtained. The sample may be mixed before obtaining the amplification product, and after obtaining the amplification product, the sample containing the amplification product may be mixed), an index unique to each sample, and a unique or optional for each target nucleic acid molecule And sequencing the nucleic acid molecules to which the molecular barcodes have been added to identify the sequence of the index portion, the sequence of the molecular barcode portion, and the sequence of the nucleic acid molecule portion linked thereto for each nucleic acid molecule. It is also good.
本発明の第4の実施形態では例えば、第2の実施形態において説明したように、前記(f)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われてもよい。 In the fourth embodiment of the present invention, for example, as described in the second embodiment, in the (f), the clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it may be performed by classifying nucleic acid molecule groups having a sequence of unique molecular barcodes and a sequence having up to 3 bases into the same cluster.
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われてもよい。 In the fourth embodiment of the present invention, for example, as described in the second embodiment, in the (f), the clustering is
(I) In the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having the same sequence as the unique molecular barcode sequence into the same cluster;
(Ii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecule groups having a unique molecular barcode sequence and a sequence having up to one mismatch into the same cluster;
(Iii) in the sequence of the molecular barcode portion, by grouping nucleic acid molecules having a unique molecular barcode sequence and a sequence having up to 2 bases of mismatch into the same cluster; or (iv) the molecular barcode In the partial sequence, it may be performed by classifying nucleic acid molecule groups having a sequence of unique molecular barcodes and a sequence having up to 3 bases into the same cluster.
本発明の第4の実施形態では例えば、第2の実施形態において説明したように、前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われてもよい。この際に、第3の実施形態で説明した、固定塩基を有する分子バーコードを用いてもよい。 In the fourth embodiment of the present invention, for example, as described in the second embodiment, in (e), clustering is
In the sequence of the molecular barcode portion, nucleic acid molecules having a sequence sequenced as having an insertion or deletion (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) in the same cluster It may be performed by classification. At this time, the molecular barcode having the fixed base described in the third embodiment may be used.
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われてもよい。この際に、第3の実施形態で説明した、固定塩基を有する分子バーコードを用いてもよい。 In the fourth embodiment of the present invention, for example, as described in the second embodiment, in (e), clustering is
In the sequence of the molecular barcode portion, nucleic acid molecules having a sequence sequenced as having an insertion or deletion (indel) of bases (for example, up to 1 base, up to 2 bases, or up to 3 bases) in the same cluster It may be performed by classification. At this time, the molecular barcode having the fixed base described in the third embodiment may be used.
本発明の第4の実施形態では例えば、第2の実施形態において説明したように、前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われてもよい。この際に、第3の実施形態で説明した、固定塩基を有する分子バーコードを用いてもよい。 In the fourth embodiment of the present invention, for example, as described in the second embodiment, in (e), clustering is
A nucleic acid molecule obtained by excluding sequences sequenced as having insertions or deletions (indel) of bases (eg, up to 1 base, up to 2 bases, or up to 3 bases) in the sequence of the molecular barcode portion It may be performed on a group. At this time, the molecular barcode having the fixed base described in the third embodiment may be used.
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われてもよい。この際に、第3の実施形態で説明した、固定塩基を有する分子バーコードを用いてもよい。 In the fourth embodiment of the present invention, for example, as described in the second embodiment, in (e), clustering is
A nucleic acid molecule obtained by excluding sequences sequenced as having insertions or deletions (indel) of bases (eg, up to 1 base, up to 2 bases, or up to 3 bases) in the sequence of the molecular barcode portion It may be performed on a group. At this time, the molecular barcode having the fixed base described in the third embodiment may be used.
このようにすることで、デジタル定量法において、生じ得る核酸配列のエラーを補正し、デジタル定量の精度を改善し得る。すなわち、本発明によれば、サンプル中の元の目的核酸分子の数に比較して十分に多い数の分子バーコードを使用して、各々の目的核酸分子を互いに異なる配列を有する分子バーコードによって標識し、そして、元の目的核酸分子の数に比較して十分に多い数のリードを得て、各々の目的核酸分子に付加された分子バーコードを全て検出することによって、正確なデジタル定量が可能になる。
In this way, in digital quantification, errors in nucleic acid sequences that may occur can be corrected and the accuracy of digital quantification can be improved. That is, according to the present invention, using a sufficiently large number of molecular barcodes as compared to the number of original target nucleic acid molecules in the sample, each of the target nucleic acid molecules can be Accurate digital quantification is achieved by labeling and obtaining a sufficiently large number of leads compared to the number of original target nucleic acid molecules and detecting all the molecular barcodes attached to each target nucleic acid molecule. It will be possible.
現代のビッグデータ時代の生物学において、システムワイドな測定における生物分子の正確な定量が必要とされている。なぜなら、分析の質は最初の生データに高度に依存するからである。このため、DNAタグ(「プライマーID(primer ID)」1、「UMI(unique molecular identifier)」、または「分子バーコード(molecular barcode)」と称する)を使用した核酸分子のデジタル定量がこれまでに開発されている。この技術は、RNAシークエンスによる遺伝子発現解析(RNA-Seq)2-7、iCLIP(individual-nucleotide resolution UV cross-linking and immunoprecipitation)8、抗体レパトワ解析9、細菌16S rRNA遺伝子解析10,11、およびChIP-nexus(chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation)12のような次世代シークエンスプラットフォームにおける多くの応用のために使用されている。これらの方法により、測定系におけるノイズおよび/またはバイアスの存在下であっても、所定のサンプル中の分子の絶対数をデジタル的に正確に決定することが可能になる。分子バーコードを使用するRNA-Seq、すなわち、デジタルRNA-Seq(dRNA-Seq)3または定量的RNA-Seq13は、デジタルカウントの最も広く使用される応用の1つである。dRNA-Seqは、小さなサンプルサイズについてさえも良好に機能するので、単一細胞遺伝子発現解析にしばしば使用されている。このような測定において、検出限界は重要である。なぜなら、単一細胞は多くの低コピーRNAを有することが示されており13,14、そして検出限界は、多くの潜在的に未検出の低コピーRNAが存在することを示し、これが生物学的現象のその後の解釈に影響を及ぼし得るからである。それゆえ、使用されるバーコードシステムが核酸定量の検出限界を決定するので、絶対的かつデジタルの定量のためのバーコードの有効性の調査は重大である。さらに、高コピー数種をカウントするバーコードの能力の同時の有効性もまた重要である。なぜなら、例えば、ランダム塩基バーコードが、数千個のウイルスRNAを標識するために1、そして高スループット単一細胞RNA-Seqの研究(ここで、バーコードは一回のシークエンスランにおいて個々の細胞を区別するために使用される)において数千の細胞を同定するために使用され得るからである7。
核酸分子のデジタル定量の一般的な手順は以下のとおりである(図1のパネルA参照)。(i)各々のRNA(または相補的DNA若しくはcDNA)またはDNAを、多様な配列を含む外部から加えたDNA(分子バーコード)によって固有にタグ化する1-3。(ii)バーコード付加されたDNAまたはcDNA(RNAから出発する場合RNAから生成される)を増幅する。(iii)バーコード付加され増幅された(c)DNAの目的核酸配列およびバーコード配列の両方をタンデムにシークエンスする。(iv)理論的に提唱されているように15、増幅前の元の目的核酸(すなわち、増幅前RNAまたは(c)DNA)の絶対的コピー数を与えるために、各々の目的核酸(または遺伝子)について、増幅された分子の数(いわゆる「リード数」)ではなく固有のバーコードの数が定量される。このスキームによって、システムの測定の間の種々の工程において(例えば、増幅、シークエンス、および/または分析から)生成されるノイズおよび/またはバイアスの影響を除外することができる。デジタルカウントシステムが適切に機能することを確実にするために、各々の目的核酸分子が固有にタグ化されることが保証され(またはほぼ保証され)、固有の分子バーコードの測定される数が所定の目的核酸分子の数と等しくなるように多様なバーコード配列を使用しなければならない16,17(下記の第1の要件)。また、正確なカウントのために十分なシークエンス深度が必要であると経験的に考えられている18,19(下記の第2の要件)。
デジタルカウントスキームにおいて、代表的には以下の2つのタイプのバーコード設計が使用されている:配列限定バーコード(各々のバーコード配列は個別に設計される)および非配列限定バーコード(「ランダム塩基」バーコードと称することがある)。配列限定バーコードが以前に使用されたときに、正確な定量のために必要とされるバーコード配列の多様性が理論計算によって概算され16、そしてバーコード付加された分子の絶対的定量のためのこの技術のキャパシティが実験的に確認された3,16。しかし、配列限定バーコードの使用には以下のような不利益が存在する:高いダイナミックレンジの測定のためには多くの異なる個別に設計されたバーコード配列を調製しなければならず、これは費用対効果が良くない。カウントのダイナミックレンジを増加させながらコストを最小化するために、ランダム(または擬似ランダム)塩基バーコードが代わりに使用されている2,4-9,11,12,18,20。この場合でも同様に、バーコードセットの配列多様性が十分であると決定すべきである17,18。しかし、単に、配列限定バーコードとは異なり、シークエンスおよび/または増幅エラーに起因するバーコードにおける配列変化(これらのエラーの1つから新たに生成されるバーコード配列が偽陽性になり得る)21という理由で、この調査はささいなことではない。すなわち、エラーはサンプル中の分子数の過大評価を引き起こし得る(配列限定バーコードの場合、全ての使用されるバーコード配列は既知であり、このことは全ての未使用のバーコード配列もまた既知であって、エラーから生じる配列を同定しそして除外することができることを意味することに留意のこと)。この問題は、類似のバーコード配列は同じ元のバーコード配列を起源とするエラーを通じて生じるという合理的な仮定に基づいてコンピューター解析を使用してエラーを除外することによってアプローチされる。さらに、Sudberyらは最近、制限されたダイナミックレンジ(100分子まで)についてのエラーのモデリングによるコンピューター解析に基づいてランダム塩基UMI(分子バーコード)の有効性を示した22。しかし、正確なデジタルカウントのためのランダム塩基分子バーコードの有効性は、特に定量的な意味7,20および高いダイナミックレンジで、理論的モデルには存在しない影響を明白に含み得る実験に基づいては、明確に示されたわけではない。
ここで本発明者らは、特定のバーコード設計を使用するときに、および、コンピューター解析の後に、ランダム塩基分子バーコードを、バーコード付加されたDNA分子の絶対数のデジタル定量のために利用することができることを実験的に示す。様々な応用において変動し得るバーコード付加および/または逆転写のような他の影響を除外することによってバーコード自体の有効性を調査するために、本発明者らはバーコード配列を含むDNA分子を合成し、そして増幅分子についてのシークエンスによってそれを定量した(図1のパネルAの点線の枠参照)。正確なデジタルカウントのために、本発明者らは上記2つの要件を定量的に調査した;(i)所定の分子の数と比較して十分に多いバーコード配列のセットを使用すること(上記の通り)(図1のパネルB)、および(ii)所定の分子の数に比較して十分なシークエンス深度が達成されること(図1のパネルC)。次いで、本発明者らは、分子のインプット数および測定される分子のアウトプット数の両方が、2つの要件を満たすモデル測定システムを通じて一貫していることを実験的に示す。これら2つの要件を満たすために、すなわち、デジタルカウントシステムが機能することを確実にするために、本発明者らは、エラー検出のためにランダムバーコード配列内に固定塩基を導入し、インハウス開発したソフトウエアを使用したバーコード配列クラスタリングを実施し、そして分子バーコードからの情報を利用して、異なってインデックス付加されたサンプル間のクロスコンタミネーションおよびマッピングプロセスにおける目的核酸配列(鋳型)の誤同定を同定および除外した。本結果は、任意の所定のサンプル中のバーコード付加された核酸分子の正確な定量が、適切なバーコード設計(最小の必要とされるバーコード長を含む)および十分なシークエンス深度を通じて、高いダイナミックレンジで(1から104超、潜在的には1015分子まで)達成され得ることを示す。
以下、本実施例では、「ランダム」という用語を用いるが、この用語は、本実施例では、配列を設計することなく配列に莫大な多様性を確保するために実験者が無作為に合成したことを意味する。
[方法]
ライブラリーの調製
ランダム塩基を含む一本鎖DNA鋳型をIntegrated DNA Technologies, Inc., Coralville, IA, USAから購入した(図13参照)。各鋳型の濃度は、提供された仕様シート(Integrated DNA Technologies, Inc.)に記載された吸収係数を用い分光光度計(NanoDrop 1000; Thermo Fisher Scientific Inc., MA, USA)を使用して260nmでの吸収により測定した。鋳型DNAは、0.1%(v/v)TWEEN20(Sigma-Aldrich, St. Louis, MO, USA)溶液中で50μMで-30℃で保存した。増幅用のDNA鋳型の濃度を調節するために、全ての鋳型は、水(蒸留水、脱イオン、滅菌、NIPPON GENE CO., LTD., Toyama, Japan)と0.1%TWEEN20で希釈し、下記の最終コピー数になるようPCRチューブ中で混合した。増幅は、25μLサンプル中で0.3μMの各プライマー(図14参照)を用い、MightyAmp (TAKARA BIO INC., Shiga, Japan)を用いてPCRにより実施した。2本のチューブを50μMの鋳型ストックから独立して調製し、プライマーの一つの中に設計されたインデックスによって区別した(図14参照)。熱サイクル(ProFlex PCR system; Themo Fisher Scientific Inc.)は、以下のように実施した:98℃で2分の1サイクル;98℃で10秒、60℃で10秒、および68℃で1分の4サイクル;98℃で10秒、60℃で2秒、および68℃で1分の19サイクル;68℃で5分の1サイクル;その後4℃でインキュベート。次いで、増幅産物を2回カラム精製した(DNA Clean & ConcentratorTM-5; Zymo Research Corp, CA, USA)し、増幅産物の長さ分布を2100 Bioanalyzer (Agilent Technologies, Inc., CA, USA)を用いて確認した。濃度をreal-time PCR system (7500; Themo Fisher Scientific Inc.)を使用してqPCR kit (KK4602; KAPA Biosystems, Inc., MA, USA)によって決定した。 In the modern big data era of biology, accurate quantification of biomolecules in system-wide measurements is required. Because the quality of the analysis is highly dependent on the initial raw data. For this reason, digital quantification of nucleic acid molecules using DNA tags (designated as “primer ID” 1 , “UMI (unique molecular identifier)” or “molecular barcode”) has been It is being developed. This technology includes gene expression analysis (RNA-Seq) 2-7 by RNA sequencing, iCLIP (individual-nucleotide resolution UV cross-linking and immunoprecipitation) 8 , antibody repertoire analysis 9 , bacterial 16S rRNA gene analysis 10 , 11 , and ChIP It is used for many applications in next generation sequencing platforms such as -nexus (chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation) 12 . These methods make it possible to digitally accurately determine the absolute number of molecules in a given sample, even in the presence of noise and / or bias in the measurement system. RNA-Seq using molecular barcodes, ie digital RNA-Seq (dRNA-Seq) 3 or quantitative RNA-Seq 13 is one of the most widely used applications of digital counting. dRNA-Seq is often used for single cell gene expression analysis as it works well even for small sample sizes. The detection limit is important in such measurement. Because, single cells have been shown to have many low copy RNAs 13,14 , and detection limits indicate that there are many potentially undetected low copy RNAs, which are biological Because it can affect the subsequent interpretation of the phenomenon. Therefore, since the barcode system used determines the detection limit of nucleic acid quantification, the investigation of the efficacy of barcodes for absolute and digital quantification is crucial. In addition, the simultaneous effectiveness of the bar code's ability to count high copy numbers is also important. For example, random base barcodes can be used to label thousands of viral RNAs 1 , and high-throughput single cell RNA-Seq studies, where barcodes are individual cells in a single sequencing run Because it can be used to identify thousands of cells in 7) .
The general procedure for digital quantification of nucleic acid molecules is as follows (see FIG. 1, panel A). (I) Uniquely tag each RNA (or complementary DNA or cDNA) or DNA with externally added DNA (molecular barcodes) containing diverse sequences 1-3 . (Ii) Amplify the barcoded DNA or cDNA (produced from RNA when starting from RNA). (Iii) Both the target nucleic acid sequence of the barcoded and amplified (c) DNA and the barcoded sequence are tandemly sequenced. (Iv) As theoretically proposed 15 , each target nucleic acid (or gene) to give an absolute copy number of the original target nucleic acid (that is, RNA before amplification or (c) DNA) before amplification. ), The number of unique barcodes is quantified rather than the number of amplified molecules (the so-called "read number"). This scheme can eliminate the effects of noise and / or bias generated at various steps during measurement of the system (eg, from amplification, sequencing and / or analysis). In order to ensure that the digital counting system works properly, it is ensured (or nearly guaranteed) that each target nucleic acid molecule is uniquely tagged and the measured number of unique molecular barcodes is A variety of barcode sequences must be used to equal the number of target nucleic acid molecules of interest16, 17 (first requirement below). Also, it is empirically considered that sufficient sequence depth is required for accurate counting 18, 19 (second requirement below).
The following two types of barcode designs are typically used in digital counting schemes: sequence limited barcodes (each barcode sequence is designed separately) and non-sequence limited barcodes ("random" Base) sometimes referred to as a barcode). When sequence limiting barcodes were previously used, the diversity of barcode sequences required for accurate quantitation was estimated by theoretical calculations 16 and for absolute quantitation of barcoded molecules. The capacity of this technology was experimentally confirmed 3,16 . However, the use of sequence limiting barcodes has the following disadvantages: Many different individually designed barcode sequences have to be prepared for the measurement of high dynamic range, which is It is not cost effective. In order to minimize costs while increasing the dynamic range of counting, random (or pseudorandom) base barcodes are used instead 2,4-9,11,12,18,20 . Again, it should be determined that the sequence diversity of the barcode set is sufficient 17, 18 . However, unlike sequence-limited barcodes, sequence changes in barcodes due to sequencing and / or amplification errors (barcode sequences newly generated from one of these errors may become false positives) 21 For this reason, this survey is not a trivial matter. That is, errors can cause an overestimation of the number of molecules in the sample (in the case of sequence limited barcodes, all used barcode sequences are known, which is also known as all unused barcode sequences) Note that it means that sequences resulting from errors can be identified and excluded). This problem is approached by using computer analysis to rule out errors based on the rational assumption that similar barcode sequences occur through errors originating from the same original barcode sequence. Furthermore, Sudbery et al. Recently showed the effectiveness of random base UMI (molecular barcodes) based on computer analysis by modeling errors on a limited dynamic range (up to 100 molecules) 22 . However, the effectiveness of random base molecule barcodes for accurate digital counting is based on experiments that may explicitly include effects not present in the theoretical model, especially with a quantitative meaning of 7, 20 and high dynamic range Was not clearly stated.
Here, we use random base molecule barcodes for digital quantitation of absolute numbers of barcoded DNA molecules when using specific barcode designs and after computer analysis We show experimentally what we can do. In order to investigate the effectiveness of the barcode itself by excluding other effects such as barcode addition and / or reverse transcription which may vary in different applications, we have DNA molecules comprising barcode sequences Was synthesized and quantified by sequencing on the amplified molecule (see the dotted box in panel A of FIG. 1). We have investigated the above two requirements quantitatively for accurate digital counts; (i) using a sufficiently large set of barcode sequences compared to the number of given molecules (above (As panel B in FIG. 1), and (ii) that sufficient sequencing depth is achieved as compared to the number of predetermined molecules (panel C in FIG. 1). We then show experimentally that both the number of molecular inputs and the number of measured molecular outputs are consistent through a model measurement system that meets the two requirements. To meet these two requirements, ie to ensure that the digital counting system works, we introduce fixed bases into the random barcode sequence for error detection and in-house Perform barcode sequence clustering using the developed software, and make use of the information from molecular barcodes to target nucleic acid sequences (templates) in the cross contamination and mapping process between differently indexed samples Misidentification was identified and excluded. The present results show that accurate quantification of barcoded nucleic acid molecules in any given sample is high, through proper barcode design (including minimal required barcode length) and sufficient sequencing depth It shows that it can be achieved in the dynamic range (from 1 to over 10 4 and potentially up to 10 15 molecules).
Hereinafter, in this example, the term "random" is used. In this example, this term is randomly synthesized by an experimenter in order to ensure great diversity in the sequence without designing the sequence. It means that.
[Method]
Library Preparation Single stranded DNA templates containing random bases were purchased from Integrated DNA Technologies, Inc., Coralville, IA, USA (see FIG. 13). The concentration of each template is at 260 nm using a spectrophotometer (NanoDrop 1000; Thermo Fisher Scientific Inc., Mass., USA) with the absorption coefficient described in the provided specification sheet (Integrated DNA Technologies, Inc.) It was measured by the absorption of Template DNA was stored at −30 ° C. at 50 μM in 0.1% (v / v) TWEEN 20 (Sigma-Aldrich, St. Louis, Mo., USA) solution. To control the concentration of DNA template for amplification, all templates were diluted with water (distilled water, deionized, sterile, NIPPON GENE CO., LTD., Toyama, Japan) and 0.1% TWEEN 20, The final copy number was mixed in the PCR tube. The amplification was carried out by PCR using MightyAmp (TAKARA BIO INC., Shiga, Japan) using 0.3 μM of each primer (see FIG. 14) in 25 μL samples. Two tubes were prepared independently from 50 μM template stock and distinguished by the designed index in one of the primers (see FIG. 14). Thermal cycling (ProFlex PCR system; Themo Fisher Scientific Inc.) was performed as follows: half cycle at 98 ° C .; 10 seconds at 98 ° C., 10 seconds at 60 ° C., and 1 minute at 68 ° C. 4 cycles; 19 cycles of 98 ° C. for 10 seconds, 60 ° C. for 2 seconds, and 68 ° C. for 1 minute; 68 cycles of 1⁄5 of the cycle; Then, the amplified products were twice column purification (DNA Clean & Concentrator TM -5; Zymo Research Corp, CA, USA) , and the length distribution of the amplified product 2100 Bioanalyzer (Agilent Technologies, Inc., CA, USA) and It confirmed using. Concentrations were determined by qPCR kit (KK4602; KAPA Biosystems, Inc., MA, USA) using a real-time PCR system (7500; Themo Fisher Scientific Inc.).
核酸分子のデジタル定量の一般的な手順は以下のとおりである(図1のパネルA参照)。(i)各々のRNA(または相補的DNA若しくはcDNA)またはDNAを、多様な配列を含む外部から加えたDNA(分子バーコード)によって固有にタグ化する1-3。(ii)バーコード付加されたDNAまたはcDNA(RNAから出発する場合RNAから生成される)を増幅する。(iii)バーコード付加され増幅された(c)DNAの目的核酸配列およびバーコード配列の両方をタンデムにシークエンスする。(iv)理論的に提唱されているように15、増幅前の元の目的核酸(すなわち、増幅前RNAまたは(c)DNA)の絶対的コピー数を与えるために、各々の目的核酸(または遺伝子)について、増幅された分子の数(いわゆる「リード数」)ではなく固有のバーコードの数が定量される。このスキームによって、システムの測定の間の種々の工程において(例えば、増幅、シークエンス、および/または分析から)生成されるノイズおよび/またはバイアスの影響を除外することができる。デジタルカウントシステムが適切に機能することを確実にするために、各々の目的核酸分子が固有にタグ化されることが保証され(またはほぼ保証され)、固有の分子バーコードの測定される数が所定の目的核酸分子の数と等しくなるように多様なバーコード配列を使用しなければならない16,17(下記の第1の要件)。また、正確なカウントのために十分なシークエンス深度が必要であると経験的に考えられている18,19(下記の第2の要件)。
デジタルカウントスキームにおいて、代表的には以下の2つのタイプのバーコード設計が使用されている:配列限定バーコード(各々のバーコード配列は個別に設計される)および非配列限定バーコード(「ランダム塩基」バーコードと称することがある)。配列限定バーコードが以前に使用されたときに、正確な定量のために必要とされるバーコード配列の多様性が理論計算によって概算され16、そしてバーコード付加された分子の絶対的定量のためのこの技術のキャパシティが実験的に確認された3,16。しかし、配列限定バーコードの使用には以下のような不利益が存在する:高いダイナミックレンジの測定のためには多くの異なる個別に設計されたバーコード配列を調製しなければならず、これは費用対効果が良くない。カウントのダイナミックレンジを増加させながらコストを最小化するために、ランダム(または擬似ランダム)塩基バーコードが代わりに使用されている2,4-9,11,12,18,20。この場合でも同様に、バーコードセットの配列多様性が十分であると決定すべきである17,18。しかし、単に、配列限定バーコードとは異なり、シークエンスおよび/または増幅エラーに起因するバーコードにおける配列変化(これらのエラーの1つから新たに生成されるバーコード配列が偽陽性になり得る)21という理由で、この調査はささいなことではない。すなわち、エラーはサンプル中の分子数の過大評価を引き起こし得る(配列限定バーコードの場合、全ての使用されるバーコード配列は既知であり、このことは全ての未使用のバーコード配列もまた既知であって、エラーから生じる配列を同定しそして除外することができることを意味することに留意のこと)。この問題は、類似のバーコード配列は同じ元のバーコード配列を起源とするエラーを通じて生じるという合理的な仮定に基づいてコンピューター解析を使用してエラーを除外することによってアプローチされる。さらに、Sudberyらは最近、制限されたダイナミックレンジ(100分子まで)についてのエラーのモデリングによるコンピューター解析に基づいてランダム塩基UMI(分子バーコード)の有効性を示した22。しかし、正確なデジタルカウントのためのランダム塩基分子バーコードの有効性は、特に定量的な意味7,20および高いダイナミックレンジで、理論的モデルには存在しない影響を明白に含み得る実験に基づいては、明確に示されたわけではない。
ここで本発明者らは、特定のバーコード設計を使用するときに、および、コンピューター解析の後に、ランダム塩基分子バーコードを、バーコード付加されたDNA分子の絶対数のデジタル定量のために利用することができることを実験的に示す。様々な応用において変動し得るバーコード付加および/または逆転写のような他の影響を除外することによってバーコード自体の有効性を調査するために、本発明者らはバーコード配列を含むDNA分子を合成し、そして増幅分子についてのシークエンスによってそれを定量した(図1のパネルAの点線の枠参照)。正確なデジタルカウントのために、本発明者らは上記2つの要件を定量的に調査した;(i)所定の分子の数と比較して十分に多いバーコード配列のセットを使用すること(上記の通り)(図1のパネルB)、および(ii)所定の分子の数に比較して十分なシークエンス深度が達成されること(図1のパネルC)。次いで、本発明者らは、分子のインプット数および測定される分子のアウトプット数の両方が、2つの要件を満たすモデル測定システムを通じて一貫していることを実験的に示す。これら2つの要件を満たすために、すなわち、デジタルカウントシステムが機能することを確実にするために、本発明者らは、エラー検出のためにランダムバーコード配列内に固定塩基を導入し、インハウス開発したソフトウエアを使用したバーコード配列クラスタリングを実施し、そして分子バーコードからの情報を利用して、異なってインデックス付加されたサンプル間のクロスコンタミネーションおよびマッピングプロセスにおける目的核酸配列(鋳型)の誤同定を同定および除外した。本結果は、任意の所定のサンプル中のバーコード付加された核酸分子の正確な定量が、適切なバーコード設計(最小の必要とされるバーコード長を含む)および十分なシークエンス深度を通じて、高いダイナミックレンジで(1から104超、潜在的には1015分子まで)達成され得ることを示す。
以下、本実施例では、「ランダム」という用語を用いるが、この用語は、本実施例では、配列を設計することなく配列に莫大な多様性を確保するために実験者が無作為に合成したことを意味する。
[方法]
ライブラリーの調製
ランダム塩基を含む一本鎖DNA鋳型をIntegrated DNA Technologies, Inc., Coralville, IA, USAから購入した(図13参照)。各鋳型の濃度は、提供された仕様シート(Integrated DNA Technologies, Inc.)に記載された吸収係数を用い分光光度計(NanoDrop 1000; Thermo Fisher Scientific Inc., MA, USA)を使用して260nmでの吸収により測定した。鋳型DNAは、0.1%(v/v)TWEEN20(Sigma-Aldrich, St. Louis, MO, USA)溶液中で50μMで-30℃で保存した。増幅用のDNA鋳型の濃度を調節するために、全ての鋳型は、水(蒸留水、脱イオン、滅菌、NIPPON GENE CO., LTD., Toyama, Japan)と0.1%TWEEN20で希釈し、下記の最終コピー数になるようPCRチューブ中で混合した。増幅は、25μLサンプル中で0.3μMの各プライマー(図14参照)を用い、MightyAmp (TAKARA BIO INC., Shiga, Japan)を用いてPCRにより実施した。2本のチューブを50μMの鋳型ストックから独立して調製し、プライマーの一つの中に設計されたインデックスによって区別した(図14参照)。熱サイクル(ProFlex PCR system; Themo Fisher Scientific Inc.)は、以下のように実施した:98℃で2分の1サイクル;98℃で10秒、60℃で10秒、および68℃で1分の4サイクル;98℃で10秒、60℃で2秒、および68℃で1分の19サイクル;68℃で5分の1サイクル;その後4℃でインキュベート。次いで、増幅産物を2回カラム精製した(DNA Clean & ConcentratorTM-5; Zymo Research Corp, CA, USA)し、増幅産物の長さ分布を2100 Bioanalyzer (Agilent Technologies, Inc., CA, USA)を用いて確認した。濃度をreal-time PCR system (7500; Themo Fisher Scientific Inc.)を使用してqPCR kit (KK4602; KAPA Biosystems, Inc., MA, USA)によって決定した。 In the modern big data era of biology, accurate quantification of biomolecules in system-wide measurements is required. Because the quality of the analysis is highly dependent on the initial raw data. For this reason, digital quantification of nucleic acid molecules using DNA tags (designated as “primer ID” 1 , “UMI (unique molecular identifier)” or “molecular barcode”) has been It is being developed. This technology includes gene expression analysis (RNA-Seq) 2-7 by RNA sequencing, iCLIP (individual-nucleotide resolution UV cross-linking and immunoprecipitation) 8 , antibody repertoire analysis 9 , bacterial 16S rRNA gene analysis 10 , 11 , and ChIP It is used for many applications in next generation sequencing platforms such as -nexus (chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation) 12 . These methods make it possible to digitally accurately determine the absolute number of molecules in a given sample, even in the presence of noise and / or bias in the measurement system. RNA-Seq using molecular barcodes, ie digital RNA-Seq (dRNA-Seq) 3 or quantitative RNA-Seq 13 is one of the most widely used applications of digital counting. dRNA-Seq is often used for single cell gene expression analysis as it works well even for small sample sizes. The detection limit is important in such measurement. Because, single cells have been shown to have many low copy RNAs 13,14 , and detection limits indicate that there are many potentially undetected low copy RNAs, which are biological Because it can affect the subsequent interpretation of the phenomenon. Therefore, since the barcode system used determines the detection limit of nucleic acid quantification, the investigation of the efficacy of barcodes for absolute and digital quantification is crucial. In addition, the simultaneous effectiveness of the bar code's ability to count high copy numbers is also important. For example, random base barcodes can be used to label thousands of viral RNAs 1 , and high-throughput single cell RNA-Seq studies, where barcodes are individual cells in a single sequencing run Because it can be used to identify thousands of cells in 7) .
The general procedure for digital quantification of nucleic acid molecules is as follows (see FIG. 1, panel A). (I) Uniquely tag each RNA (or complementary DNA or cDNA) or DNA with externally added DNA (molecular barcodes) containing diverse sequences 1-3 . (Ii) Amplify the barcoded DNA or cDNA (produced from RNA when starting from RNA). (Iii) Both the target nucleic acid sequence of the barcoded and amplified (c) DNA and the barcoded sequence are tandemly sequenced. (Iv) As theoretically proposed 15 , each target nucleic acid (or gene) to give an absolute copy number of the original target nucleic acid (that is, RNA before amplification or (c) DNA) before amplification. ), The number of unique barcodes is quantified rather than the number of amplified molecules (the so-called "read number"). This scheme can eliminate the effects of noise and / or bias generated at various steps during measurement of the system (eg, from amplification, sequencing and / or analysis). In order to ensure that the digital counting system works properly, it is ensured (or nearly guaranteed) that each target nucleic acid molecule is uniquely tagged and the measured number of unique molecular barcodes is A variety of barcode sequences must be used to equal the number of target nucleic acid molecules of interest16, 17 (first requirement below). Also, it is empirically considered that sufficient sequence depth is required for accurate counting 18, 19 (second requirement below).
The following two types of barcode designs are typically used in digital counting schemes: sequence limited barcodes (each barcode sequence is designed separately) and non-sequence limited barcodes ("random" Base) sometimes referred to as a barcode). When sequence limiting barcodes were previously used, the diversity of barcode sequences required for accurate quantitation was estimated by theoretical calculations 16 and for absolute quantitation of barcoded molecules. The capacity of this technology was experimentally confirmed 3,16 . However, the use of sequence limiting barcodes has the following disadvantages: Many different individually designed barcode sequences have to be prepared for the measurement of high dynamic range, which is It is not cost effective. In order to minimize costs while increasing the dynamic range of counting, random (or pseudorandom) base barcodes are used instead 2,4-9,11,12,18,20 . Again, it should be determined that the sequence diversity of the barcode set is sufficient 17, 18 . However, unlike sequence-limited barcodes, sequence changes in barcodes due to sequencing and / or amplification errors (barcode sequences newly generated from one of these errors may become false positives) 21 For this reason, this survey is not a trivial matter. That is, errors can cause an overestimation of the number of molecules in the sample (in the case of sequence limited barcodes, all used barcode sequences are known, which is also known as all unused barcode sequences) Note that it means that sequences resulting from errors can be identified and excluded). This problem is approached by using computer analysis to rule out errors based on the rational assumption that similar barcode sequences occur through errors originating from the same original barcode sequence. Furthermore, Sudbery et al. Recently showed the effectiveness of random base UMI (molecular barcodes) based on computer analysis by modeling errors on a limited dynamic range (up to 100 molecules) 22 . However, the effectiveness of random base molecule barcodes for accurate digital counting is based on experiments that may explicitly include effects not present in the theoretical model, especially with a quantitative meaning of 7, 20 and high dynamic range Was not clearly stated.
Here, we use random base molecule barcodes for digital quantitation of absolute numbers of barcoded DNA molecules when using specific barcode designs and after computer analysis We show experimentally what we can do. In order to investigate the effectiveness of the barcode itself by excluding other effects such as barcode addition and / or reverse transcription which may vary in different applications, we have DNA molecules comprising barcode sequences Was synthesized and quantified by sequencing on the amplified molecule (see the dotted box in panel A of FIG. 1). We have investigated the above two requirements quantitatively for accurate digital counts; (i) using a sufficiently large set of barcode sequences compared to the number of given molecules (above (As panel B in FIG. 1), and (ii) that sufficient sequencing depth is achieved as compared to the number of predetermined molecules (panel C in FIG. 1). We then show experimentally that both the number of molecular inputs and the number of measured molecular outputs are consistent through a model measurement system that meets the two requirements. To meet these two requirements, ie to ensure that the digital counting system works, we introduce fixed bases into the random barcode sequence for error detection and in-house Perform barcode sequence clustering using the developed software, and make use of the information from molecular barcodes to target nucleic acid sequences (templates) in the cross contamination and mapping process between differently indexed samples Misidentification was identified and excluded. The present results show that accurate quantification of barcoded nucleic acid molecules in any given sample is high, through proper barcode design (including minimal required barcode length) and sufficient sequencing depth It shows that it can be achieved in the dynamic range (from 1 to over 10 4 and potentially up to 10 15 molecules).
Hereinafter, in this example, the term "random" is used. In this example, this term is randomly synthesized by an experimenter in order to ensure great diversity in the sequence without designing the sequence. It means that.
[Method]
Library Preparation Single stranded DNA templates containing random bases were purchased from Integrated DNA Technologies, Inc., Coralville, IA, USA (see FIG. 13). The concentration of each template is at 260 nm using a spectrophotometer (NanoDrop 1000; Thermo Fisher Scientific Inc., Mass., USA) with the absorption coefficient described in the provided specification sheet (Integrated DNA Technologies, Inc.) It was measured by the absorption of Template DNA was stored at −30 ° C. at 50 μM in 0.1% (v / v) TWEEN 20 (Sigma-Aldrich, St. Louis, Mo., USA) solution. To control the concentration of DNA template for amplification, all templates were diluted with water (distilled water, deionized, sterile, NIPPON GENE CO., LTD., Toyama, Japan) and 0.1
シークエンシング
インデックス付加された2つのサンプル(CGCTCATT: インデックスA(index A), GAGATTCC: インデックスB(index B))を150 cycle kit v3 (Read 1: 100サイクル, Read 2: 50サイクル, Index 1: 8サイクル)を使用しMiSeq sequencer (Illumina, Inc.)を用いてシングルランでシークエンスした。Read 2中の配列はRead 1中の配列の一部なので、Read 2は分析には用いなかった。分析に使用した生のシークエンスデータをGEO database GSE94895に寄託した。 Sequencing index added two samples (CGCTCATT: index A (index A), GAGATTCC: index B (index B)) for 150 cycle kit v3 (Read 1: 100 cycles, Read 2: 50 cycles, Index 1: 8 Single-run sequencing using MiSeq sequencer (Illumina, Inc.). Read 2 was not used for analysis because the sequence inRead 2 is part of the sequence in Read 1. Raw sequence data used for analysis was deposited at GEO database GSE94895.
インデックス付加された2つのサンプル(CGCTCATT: インデックスA(index A), GAGATTCC: インデックスB(index B))を150 cycle kit v3 (Read 1: 100サイクル, Read 2: 50サイクル, Index 1: 8サイクル)を使用しMiSeq sequencer (Illumina, Inc.)を用いてシングルランでシークエンスした。Read 2中の配列はRead 1中の配列の一部なので、Read 2は分析には用いなかった。分析に使用した生のシークエンスデータをGEO database GSE94895に寄託した。 Sequencing index added two samples (CGCTCATT: index A (index A), GAGATTCC: index B (index B)) for 150 cycle kit v3 (Read 1: 100 cycles, Read 2: 50 cycles, Index 1: 8 Single-run sequencing using MiSeq sequencer (Illumina, Inc.). Read 2 was not used for analysis because the sequence in
分析
Read 1の配列は、インデックスAおよびBによってソートし、各インデックスに対するfastqファイルをMiSeqを用いて生成した。いくつかの場合では、リードの100%、32%、10%、3.2%、1%、0.32%、および0.1%をランダムにサンプリングした。MiSeqのfastqファイルは、配列長によってフィルターをかけた(短い鋳型に対しては≧34bp長かつ≦39bp長、および長い鋳型に対しては≧90bp長)。目的核酸配列に対するリードのアラインメントは、リファレンスとして11種の鋳型の目的核酸配列を用い(図13の「target」参照)、Bowtie2 v.2.2.927を用いて長い鋳型(LT)および短い鋳型(ST)に対して個別に実施した。基本的に、固有にマップされたリードを次の分析に用いた。バーコード領域は、長い鋳型では5’末端から50bpであり、短い鋳型では5’末端から30bpであり(図13の「barcode」参照)、これらをマップされたリードから抽出した。バーコード領域中の固定塩基(短い鋳型については最大で6塩基であり、長い鋳型については最大で12塩基;図13「barcode」参照)をフィルタリングのために用い、少なくとも1つの固定塩基のミスマッチを有するバーコードを除外した。その後、距離(Distance)=0、1、2、または3でバーコードをクラスタリングするためにインハウスソフトウエアNucleotide Sequence Clusterizerを用いた。クラスターの数は、増幅前の分子の数であると考えられた。インデックスのクロスコンタミネーションを考慮した場合には、クラスタリング前にインデックスAおよびBを伴うリードを統合した。後者において、多重にマップされたリードもその後の分析に用いた。そして、クラスタリングの後で、複数のインデックスを含むクラスターが存在した場合、少数派のリードを除外した。インデックスAのリードとインデックスBのリードの数が同じであった場合には、インデックスAとインデックスBの両方に対して0.5の係数を与えた。同様に、ミスアラインメントも考慮した場合には、インデックスAおよびインデックスBを有する鋳型にマップされた全てのリードをクラスタリング前に統合した。一つのリードが複数の鋳型に対してマップされたときには、各鋳型に対して1/(異なる鋳型の数)の係数を与えた。クラスタリングの後で、複数の目的核酸にマップされたリードおよび/またはインデックスを含むクラスターが存在した場合には、少数派のリードを除外した。異なる鋳型にマップされたリードおよび/またはインデックスの数が同じ場合には、複数にマップされた目的核酸および/またはインデックスのそれぞれに対して、1/(異なる鋳型および/またはインデックスの数)の係数を与えた。各プロセスにおけるリードの数は、図15に示す通りである。Analysis Read 1 sequences were sorted by index A and B and fastq files for each index were generated using MiSeq. In some cases, 100%, 32%, 10%, 3.2%, 1%, 0.32%, and 0.1% of the leads were randomly sampled. MiSeq fastq files were filtered by sequence length (≧ 34 bp and ≦ 39 bp for short templates and 90 90 bp for long templates). Lead alignment to target nucleic acids sequences using the nucleic acid sequence of interest of eleven template as a reference (see "target" in Fig. 13), longer templates using Bowtie2 v.2.2.9 27 (LT) and short templates ( Implemented separately for ST). Basically, uniquely mapped reads were used for the next analysis. The barcode region was 50 bp from the 5 'end for the long template and 30 bp from the 5' end for the short template (see "barcode" in FIG. 13) and these were extracted from the mapped reads. The fixed bases in the barcode region (up to 6 bases for short templates and up to 12 bases for long templates; see Figure 13 "barcode") are used for filtering and at least one fixed base mismatch I have excluded the barcode I have. The in-house software Nucleotide Sequence Clusterizer was then used to cluster barcodes at Distance = 0, 1, 2, or 3. The number of clusters was considered to be the number of molecules before amplification. The leads with index A and B were integrated prior to clustering when cross-contamination of the index was considered. In the latter, multiply mapped reads were also used for further analysis. And, after clustering, if there were clusters containing multiple indexes, we excluded minority leads. If the number of reads of index A and index B was the same, a coefficient of 0.5 was given to both index A and index B. Similarly, if misalignment was also taken into consideration, all reads mapped to the template with index A and index B were integrated before clustering. When one lead was mapped to multiple templates, a factor of 1 / (number of different templates) was given for each template. After clustering, minority leads were excluded if there were clusters containing leads and / or indexes mapped to multiple target nucleic acids. If the number of reads and / or indices mapped to different templates is the same, a factor of 1 / (number of different templates and / or indices) for each of the nucleic acids of interest and / or indices mapped to multiple Gave. The number of leads in each process is as shown in FIG.
Read 1の配列は、インデックスAおよびBによってソートし、各インデックスに対するfastqファイルをMiSeqを用いて生成した。いくつかの場合では、リードの100%、32%、10%、3.2%、1%、0.32%、および0.1%をランダムにサンプリングした。MiSeqのfastqファイルは、配列長によってフィルターをかけた(短い鋳型に対しては≧34bp長かつ≦39bp長、および長い鋳型に対しては≧90bp長)。目的核酸配列に対するリードのアラインメントは、リファレンスとして11種の鋳型の目的核酸配列を用い(図13の「target」参照)、Bowtie2 v.2.2.927を用いて長い鋳型(LT)および短い鋳型(ST)に対して個別に実施した。基本的に、固有にマップされたリードを次の分析に用いた。バーコード領域は、長い鋳型では5’末端から50bpであり、短い鋳型では5’末端から30bpであり(図13の「barcode」参照)、これらをマップされたリードから抽出した。バーコード領域中の固定塩基(短い鋳型については最大で6塩基であり、長い鋳型については最大で12塩基;図13「barcode」参照)をフィルタリングのために用い、少なくとも1つの固定塩基のミスマッチを有するバーコードを除外した。その後、距離(Distance)=0、1、2、または3でバーコードをクラスタリングするためにインハウスソフトウエアNucleotide Sequence Clusterizerを用いた。クラスターの数は、増幅前の分子の数であると考えられた。インデックスのクロスコンタミネーションを考慮した場合には、クラスタリング前にインデックスAおよびBを伴うリードを統合した。後者において、多重にマップされたリードもその後の分析に用いた。そして、クラスタリングの後で、複数のインデックスを含むクラスターが存在した場合、少数派のリードを除外した。インデックスAのリードとインデックスBのリードの数が同じであった場合には、インデックスAとインデックスBの両方に対して0.5の係数を与えた。同様に、ミスアラインメントも考慮した場合には、インデックスAおよびインデックスBを有する鋳型にマップされた全てのリードをクラスタリング前に統合した。一つのリードが複数の鋳型に対してマップされたときには、各鋳型に対して1/(異なる鋳型の数)の係数を与えた。クラスタリングの後で、複数の目的核酸にマップされたリードおよび/またはインデックスを含むクラスターが存在した場合には、少数派のリードを除外した。異なる鋳型にマップされたリードおよび/またはインデックスの数が同じ場合には、複数にマップされた目的核酸および/またはインデックスのそれぞれに対して、1/(異なる鋳型および/またはインデックスの数)の係数を与えた。各プロセスにおけるリードの数は、図15に示す通りである。
ヌクレオチド配列クラスタライザー(Nucleotide Sequence Clusterizer)
クラスタリングのために、「Nucleotide Sequence Clusterizer」と名付けたインハウスソフトウェアをC言語でコードした。このツールは、各配列の特定されたヌクレオチド位置を用いてDNA配列のクラスタリングを実施する。このツールは、有界単リンククラスタリングを実行する:最初に各配列はそれ自身のクラスターに存在する。任意の2つの配列がD個以下のミスマッチで互いに異なる場合、それらのクラスターを一緒に統合した。ここでDは、設定可能な「距離(Distance)」パラメータである。このプロセスは、これ以上統合するクラスターが存在しなくなるまで継続し、この時点でNucleotide Sequence Clusterizerは、クラスター数と各クラスター内の配列を報告する。Nucleotide Sequence Clusterizerは、要求に応じて入手可能である。 Nucleotide Sequence Clusterizer
The in-house software named "Nucleotide Sequence Clusterizer" was coded in C for clustering. This tool performs clustering of DNA sequences using the identified nucleotide positions of each sequence. This tool performs bounded single link clustering: First, each sequence is in its own cluster. If any two sequences differ from each other by no more than D mismatches, their clusters were integrated together. Here, D is a configurable "Distance" parameter. This process continues until there are no more clusters to consolidate, at which point the Nucleotide Sequence Clusterizer reports the number of clusters and the sequences within each cluster. The Nucleotide Sequence Clusterizer is available upon request.
クラスタリングのために、「Nucleotide Sequence Clusterizer」と名付けたインハウスソフトウェアをC言語でコードした。このツールは、各配列の特定されたヌクレオチド位置を用いてDNA配列のクラスタリングを実施する。このツールは、有界単リンククラスタリングを実行する:最初に各配列はそれ自身のクラスターに存在する。任意の2つの配列がD個以下のミスマッチで互いに異なる場合、それらのクラスターを一緒に統合した。ここでDは、設定可能な「距離(Distance)」パラメータである。このプロセスは、これ以上統合するクラスターが存在しなくなるまで継続し、この時点でNucleotide Sequence Clusterizerは、クラスター数と各クラスター内の配列を報告する。Nucleotide Sequence Clusterizerは、要求に応じて入手可能である。 Nucleotide Sequence Clusterizer
The in-house software named "Nucleotide Sequence Clusterizer" was coded in C for clustering. This tool performs clustering of DNA sequences using the identified nucleotide positions of each sequence. This tool performs bounded single link clustering: First, each sequence is in its own cluster. If any two sequences differ from each other by no more than D mismatches, their clusters were integrated together. Here, D is a configurable "Distance" parameter. This process continues until there are no more clusters to consolidate, at which point the Nucleotide Sequence Clusterizer reports the number of clusters and the sequences within each cluster. The Nucleotide Sequence Clusterizer is available upon request.
本実施例では、ランダム塩基バーコードを用いた核酸のデジタルカウントシステムによってサンプル中に含まれるDNA分子の絶対数を正確に測定することができるかどうかを調べた。図13に示すように、6種の長い鋳型(LT1~6)と5種の短い鋳型(ST1~5)の大きく2種類の鋳型DNAを設計した。
In this example, it was examined whether the digital count system of nucleic acid using random base barcode can accurately measure the absolute number of DNA molecules contained in a sample. As shown in FIG. 13, two kinds of template DNAs were designed: six long templates (LT1 to 6) and five short templates (ST1 to 5).
図13に示すように、LT1~6の核酸分子を、5’末端から3’末端側に向けて、
配列番号1の配列 - バーコード配列 - 目的核酸配列 - 配列番号2の配列
となるように設計した。LT1~6のバーコード配列および目的核酸配列を配列番号5~16に示す。
また、図13に示すように、ST1~5の核酸分子を、5’末端から3’末端側に向けて、
配列番号3の配列 - バーコード配列 - 目的核酸配列 - 配列番号4の配列
となるように設計した。ST1~5のバーコード配列および目的核酸配列を配列番号17~26に示す。 As shown in FIG. 13, the LT1-6 nucleic acid molecules are directed from the 5 'end to the 3' end side,
It was designed to be the sequence of SEQ ID NO: 1-barcode sequence-target nucleic acid sequence-the sequence of SEQ ID NO: 2. The barcode sequences of LT1-6 and the target nucleic acid sequences are shown in SEQ ID NOs: 5-16.
Further, as shown in FIG. 13, the nucleic acid molecules of ST1 to 5 are directed from the 5 'end to the 3' end side,
It was designed to be the sequence of SEQ ID NO: 3-barcode sequence-target nucleic acid sequence-the sequence of SEQ ID NO: 4. The barcode sequences of ST1-5 and the target nucleic acid sequences are shown in SEQ ID NOs: 17-26.
配列番号1の配列 - バーコード配列 - 目的核酸配列 - 配列番号2の配列
となるように設計した。LT1~6のバーコード配列および目的核酸配列を配列番号5~16に示す。
また、図13に示すように、ST1~5の核酸分子を、5’末端から3’末端側に向けて、
配列番号3の配列 - バーコード配列 - 目的核酸配列 - 配列番号4の配列
となるように設計した。ST1~5のバーコード配列および目的核酸配列を配列番号17~26に示す。 As shown in FIG. 13, the LT1-6 nucleic acid molecules are directed from the 5 'end to the 3' end side,
It was designed to be the sequence of SEQ ID NO: 1-barcode sequence-target nucleic acid sequence-the sequence of SEQ ID NO: 2. The barcode sequences of LT1-6 and the target nucleic acid sequences are shown in SEQ ID NOs: 5-16.
Further, as shown in FIG. 13, the nucleic acid molecules of ST1 to 5 are directed from the 5 'end to the 3' end side,
It was designed to be the sequence of SEQ ID NO: 3-barcode sequence-target nucleic acid sequence-the sequence of SEQ ID NO: 4. The barcode sequences of ST1-5 and the target nucleic acid sequences are shown in SEQ ID NOs: 17-26.
これらの鋳型DNAはすべて、図1のパネルAにおいて分子バーコード群として示されるランダム塩基バーコードを含み、長い鋳型は38個のランダム塩基と12個の固定塩基からなる50塩基のバーコードの下流に50塩基の目的核酸配列を有し、短い鋳型は、24個のランダム塩基と6個の固定塩基からなる30塩基のバーコードの下流に8塩基の目的核酸配列を有するものとした(図13参照)。また、全ての鋳型は、PCR増幅のために用いる5’末端および3’末端の両方の共通配列を含んだ(図13および図14参照)。本実施例では、モデル測定サンプルとして、それぞれ40000、40000、4000、300、100、および20コピーのLT1、LT2、LT3、LT4、LT5、およびLT6と、20000コピーのST1およびST2、並びに4000コピーのST3、ST4、およびST5を各々が含む、2つの同一サンプルを調製した。2つの異なるインデックス(インデックスAおよびインデックスB)によって区別されたこれら2つのサンプル中のこれらの鋳型を増幅し、MiSeqを用いて増幅産物をシークエンスし、インデックスAに対しては11,992,843リード、インデックスBに対しては15,373,718リードを得た(図15参照)。
These template DNAs all contain random base barcodes, shown as molecular barcodes in panel A of FIG. 1, and the long template is downstream of a 50 base barcode consisting of 38 random bases and 12 fixed bases. The short template had the target nucleic acid sequence of 8 bases downstream of the barcode of 30 bases consisting of 24 random bases and 6 fixed bases (FIG. 13). reference). Also, all templates contained common sequences at both the 5 'and 3' ends used for PCR amplification (see Figures 13 and 14). In this example, 40 000, 40000, 4000, 300, 100 and 20 copies of LT1, LT2, LT3, LT4, LT5 and LT6, 20000 copies of ST1 and ST2, and 4000 copies, respectively, as model measurement samples. Two identical samples were prepared, each containing ST3, ST4 and ST5. Amplify these templates in these two samples distinguished by two different indexes (Index A and Index B) and sequence the amplification products using MiSeq, read 11, 992, 843 for Index A, Index B In contrast, 15,373, 718 leads were obtained (see FIG. 15).
本実施例では、インデックスAおよびBの配列を、増幅用リバースプライマー中に含めることにより、鋳型に対して付加した(図14参照)。
インデックスAの増幅用リバースプライマーの配列(図14におけるRv primer):
CAAGCAGAAGACGGCATACGAGATAATGAGCGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (配列番号28)
インデックスBの増幅用リバースプライマーの配列(図14におけるRv primer2):
CAAGCAGAAGACGGCATACGAGATGGAATCTCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (配列番号29)
なお、上記配列番号28の核酸配列において、下線部がインデックスAの核酸配列に対応し、上記配列番号29の核酸配列において、下線部がインデックスBの核酸配列に対応する。 In this example, the sequences of index A and B were added to the template by including in the reverse primer for amplification (see FIG. 14).
Sequence of reverse primer for amplification of index A (Rv primer in FIG. 14):
CAAGCAGAGAGACGGCATACGAGAT AATGAGCG GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (SEQ ID NO: 28)
Sequence of reverse primer for amplification of index B (Rv primer 2 in FIG. 14):
CAAGCAGAGACGCGATACGAGAT GGA ATCTC GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (SEQ ID NO: 29)
The underlined portion in the nucleic acid sequence of SEQ ID NO: 28 corresponds to the nucleic acid sequence of index A, and the underlined portion in the nucleic acid sequence of SEQ ID NO: 29 corresponds to the nucleic acid sequence of index B.
インデックスAの増幅用リバースプライマーの配列(図14におけるRv primer):
CAAGCAGAAGACGGCATACGAGATAATGAGCGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (配列番号28)
インデックスBの増幅用リバースプライマーの配列(図14におけるRv primer2):
CAAGCAGAAGACGGCATACGAGATGGAATCTCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (配列番号29)
なお、上記配列番号28の核酸配列において、下線部がインデックスAの核酸配列に対応し、上記配列番号29の核酸配列において、下線部がインデックスBの核酸配列に対応する。 In this example, the sequences of index A and B were added to the template by including in the reverse primer for amplification (see FIG. 14).
Sequence of reverse primer for amplification of index A (Rv primer in FIG. 14):
CAAGCAGAGAGACGGCATACGAGAT AATGAGCG GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (SEQ ID NO: 28)
Sequence of reverse primer for amplification of index B (
CAAGCAGAGACGCGATACGAGAT GGA ATCTC GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (SEQ ID NO: 29)
The underlined portion in the nucleic acid sequence of SEQ ID NO: 28 corresponds to the nucleic acid sequence of index A, and the underlined portion in the nucleic acid sequence of SEQ ID NO: 29 corresponds to the nucleic acid sequence of index B.
そして、インデックス(AおよびB)毎に全てのリードをMiSeqでソートし、ソートされたリードを目的核酸配列からなるリファレンスに対してマップし、シークエンスされたリード数(すなわち、増幅された分子数)をカウントする代わりに、固有のバーコードの数(またはバーコードクラスターの数)をカウントすることによってデジタル式に各々のインデックスおよび鋳型に対する分子の数を定量した。
Then, all reads are sorted by MiSeq for each index (A and B), the sorted reads are mapped to the reference consisting of the target nucleic acid sequence, and the number of reads sequenced (ie, the number of amplified molecules) Instead of counting the number of molecules for each index and template was quantified digitally by counting the number of unique barcodes (or the number of barcode clusters).
次に、エラー存在下における正確なデジタル定量のための2つの要件(すなわち、サンプル中の所定の数の分子をカウントするためにバーコード中にいくつのランダム塩基が必要か、および、分子あたりのリード数(「カバー率」と定義される)がいくつ必要か)を調べた(図2および図8)。第1の要件に関して、各鋳型においてランダム塩基の数を計算機上で変更して(LTに対しては4~38塩基、およびSTに対しては4~24塩基)、各々のソートされたインデックスおよび鋳型に対する固有のバーコード数を決定した(図2パネルAおよび図8A;グレーの線)。決定された固有のバーコードの数は、バーコード中のランダム塩基の数を増加させるにつれて劇的に増加した。このことは、所定の数の分子を定量するためには、ある最小の数のランダム塩基が必要であることを示唆するものである。(バーコードの長さを増加させることによって)可能なバーコード配列数を人為的に増加させたとしても、測定される元の目的核酸配列の数は、元のコピー数の20000を超えては増加しないはずであることから、プラトーが20000にあると予想した。しかしながら、より大きなランダム塩基数の領域において予想されたプラトーは観察されず、決定された固有のバーコードの数はランダム塩基の数が増加するにつれて単調に増加した。第2の要件に関して、リードの一部をランダムに除外することによってシークエンシングのカバー率を計算機上で変更し、そして各々のインデックスおよび鋳型に対して残りのリードを用いて固有のバーコードの数を決定した(図2のパネルCおよび図8のパネルC;グレーの線)。もし、デジタルカウントのスキームが機能していれば、カバー率が十分なレベルに達すると、同定される固有のバーコードの数はカバー率(シークエンス深度)に依存しないはずであるため、プラトーがこれらのプロットにおいて観察されることになる。シークエンス深度(すなわち、各バーコードが読み取られる回数)を増加させたとしても、元の目的核酸配列の測定される数が元のコピー数の20000を超えて増加しないはずであるので、プラトーが20000にあると予想した。しかし、予想されたこのプラトーは観察されず、決定された固有のバーコードの数はカバー率が増加するにつれて単調に増加した。このことは、この条件でデジタルカウントシステムに改良が必要であることを示唆するものである。
Second, the two requirements for accurate digital quantitation in the presence of errors (ie how many random bases are needed in a barcode to count a given number of molecules in a sample, and per molecule The number of leads (defined as the “coverage”) was examined (FIGS. 2 and 8). Regarding the first requirement, each sorted index and each random index in each template is changed on the computer (4 to 38 bases for LT and 4 to 24 bases for ST) The unique barcode number for the mold was determined (Figure 2 panel A and Figure 8A; gray line). The number of unique barcodes determined increased dramatically as the number of random bases in the barcodes was increased. This implies that a certain minimum number of random bases is required to quantify a given number of molecules. Even if the number of possible barcode sequences is artificially increased (by increasing the length of the barcode), the number of original target nucleic acid sequences to be measured can not exceed 20000 of the original copy number. The plateau is expected to be at 20000 because it should not increase. However, the expected plateau was not observed in the region of larger number of random bases, and the number of unique barcodes determined increased monotonically as the number of random bases increased. For the second requirement, change the coverage of the sequencing on a computer by randomly excluding some of the reads, and the number of unique barcodes with the remaining reads for each index and template Were determined (panel C in FIG. 2 and panel C in FIG. 8; gray line). If the scheme of digital counting is working, the plateau should be determined because the number of unique barcodes to be identified should not depend on the coverage (sequence depth) if the coverage reaches a sufficient level Will be observed in the plot of Even if the sequence depth (ie, the number of times each barcode is read) is increased, the measured number of original target nucleic acid sequences should not increase beyond 20000 of the original copy number, so the plateau is 20000. Expected to be. However, this expected plateau was not observed, and the number of unique barcodes determined increased monotonically as coverage increased. This implies that the digital counting system needs improvement under this condition.
これらの図(図2のパネルAおよびパネルC、並びに図8のパネルAおよびパネルC)でプラトーが観察されなかった理由は、実際のバーコード配列のインプットと比べて、最終的にシークエンスされたバーコードのアウトプットにおいて、塩基の変化、例えば、置換のエラーおよび挿入-欠失(indel)のエラーによって説明され得る。置換のエラー(おそらくシークエンスのエラーおよび/またはポリメラーゼ増幅のエラーによる)を除外するために、インハウスソフトウェアであるNucleotide Sequence Clusterizerを用いてバーコード配列をクラスタリングした。クラスタリングの手続において、「距離(Distance)」と呼ぶパラメータを導入した:ここで、Distanceは、所定の2つのバーコード配列間で相違する塩基の数を示す。例えば、あるバーコード配列が別のバーコード配列と、いずれか2つの位置での2つの塩基変化を除けば正確に同一となる場合、これら2つのバーコード配列間のDistanceは2である。それゆえ、パラメータとしてDistance=2でクラスタリングした後には、ある所定のクラスターにおける全てのバーコード配列は、そのクラスター中の少なくとも1つの他のバーコード配列からDistance=2以内である(クラスターに含まれる任意の分子が、必ずしも他の全ての配列からDistance=2以内というわけではない)。本質的には、クラスタリングなしで固有のバーコードの数をカウントするための元の分析は、Distance=0でクラスタリングすることによって実施されたと言える。Distance = 0、1、2、または3でバーコードクラスターの数を決定した(図3のパネルAおよび図9のパネルA参照)。所定の分子数に対して十分に多様な種類のバーコードが存在するならばバーコードクラスターの数はDistanceが増加するにつれて一定値に近づくことが予想され、実際にその傾向が観察された。正確なデジタル定量のための2つの要件に対するクラスタリングの効果を観察するために、実施した最も長いDistance(Distance = 3)でのクラスタリングを用いることによって、決定されたバーコードクラスターの数をランダム塩基の数(図2のパネルAおよび図8のパネルAの青の線を参照)とカバー率(図2のパネルCおよび図8のパネルCの青の線を参照)の関数としてプロットした。いずれのプロットに関しても、よりプラトー様の曲線が観察されたが、特にカバー率が増加するにつれて、決定されたバーコードクラスターの数は依然として単調に増加した。
The reason why the plateau was not observed in these figures (panel A and panel C in FIG. 2 and panel A and panel C in FIG. 8) was finally sequenced as compared to the actual barcode sequence input In the output of the barcode, it can be explained by base changes, such as substitution errors and insertion-deletion (indel) errors. The barcoded sequences were clustered using the in-house software Nucleotide Sequence Clusterizer to eliminate substitution errors (probably due to sequence errors and / or polymerase amplification errors). In the clustering procedure, a parameter called "Distance" was introduced: where Distance indicates the number of bases that differ between two given barcode sequences. For example, if one barcode sequence is exactly the same as another barcode sequence except for two base changes at any two positions, then the Distance between these two barcode sequences is 2. Therefore, after clustering with Distance = 2 as a parameter, all barcode sequences in a given cluster are within Distance = 2 from at least one other barcode sequence in that cluster (included in the cluster Any molecule is not necessarily within Distance = 2 from all other sequences). In essence, the original analysis to count the number of unique barcodes without clustering can be said to have been performed by clustering at Distance = 0. The number of barcode clusters was determined with Distance = 0, 1, 2 or 3 (see panel A in Figure 3 and panel A in Figure 9). If there were enough kinds of barcodes for a given number of molecules, the number of barcode clusters would be expected to approach a constant value as Distance increased, and this trend was actually observed. Determine the number of barcode clusters determined by using the clustering with the longest Distance (Distance = 3) performed to identify the effect of clustering on the two requirements for accurate digital quantification. Plotted as a function of number (see panel A of FIG. 2 and blue line of panel A of FIG. 8) and coverage (see panel C of FIG. 2 and blue line of panel C of FIG. 8). More plateau-like curves were observed for both plots, but the number of barcode clusters determined was still monotonically increasing, particularly as coverage was increased.
次に、シークエンスされたリードのうちバーコード配列の固定塩基の位置にミスマッチ塩基を含むリードを除外することによって挿入-欠失(indel)型のエラーの影響を除外することを試みた(図13参照)。もし、バーコード配列アウトプットが、これらの固定塩基の位置のいずれかにミスマッチ塩基を含んでいたならば、固定塩基の位置によって規定される指定の「リーディングフレーム」からの残りの塩基のずれを引き起こす、バーコード配列中の別の位置での塩基の挿入または欠失が分かった。デジタルカウントシステムに対するこのプロセスの効果を調べるために、バーコード配列中の固定塩基の位置依存性を調べた。この除外手順のために1つの固定塩基を用いたときのバーコードクラスターの数を決定した(図3のパネルBおよび図9のパネルB参照)。固定塩基の位置がシークエンスプライマー部位から離れるにつれてバーコードクラスターの数が減少した。固定塩基のミスマッチは、シークエンス開始部位と固定塩基の位置との間で生じるindel型の配列変化を検出し得るものであるため、このことは合理的である。また、決定されたバーコードクラスターの数に対する固定塩基の数の依存性を分析した。この際には、シークエンスプライマー部位から最も遠い位置にある固定塩基を用いた(図3のパネルCおよび図9のパネルC参照)。用いた固定塩基の数が小さいときには、決定されたバーコードクラスターの数は有意に減少し、用いた固定塩基の数が増加するにつれて、決定されたバーコードクラスターの数はほぼ一定になった。正確なデジタル定量のための上記2つの要件に対するミスマッチ除外の効果を観察するために、ランダム塩基の数(図2のパネルAおよび図8のパネルA;緑の線)およびカバー率(図2のパネルCおよび図8のパネルC;緑の線)の関数として、決定されたバーコードクラスターの数をプロットした。使用した中で最も多い固定塩基数(短い鋳型については6塩基、長い鋳型については12塩基)を用いてミスマッチ除外プロセスを実施した。その結果、いずれのプロットについても(図2のパネルAおよびC、図8のパネルAおよびC)、プラトー様の曲線が見られ、このことは固定塩基を用いたindel型エラー除外がデジタル定量をより正確なものにしたことを示す。
Next, an attempt was made to exclude the influence of errors of the insertion-deletion (indel) type by excluding the reads containing mismatched bases at the fixed base position of the barcode sequence among the sequenced reads (FIG. 13). reference). If the barcode sequence output contained a mismatched base at any of these fixed base positions, the remaining base offset from the designated "reading frame" defined by the fixed base position An insertion or deletion of the base at another position in the barcode sequence was found to occur. In order to investigate the effect of this process on the digital counting system, the positional dependence of fixed bases in the barcode sequence was examined. The number of barcode clusters was determined when using one fixed base for this exclusion procedure (see panel B of FIG. 3 and panel B of FIG. 9). The number of barcode clusters decreased as the position of the fixed base moved away from the sequencing primer site. This is reasonable as fixed base mismatches can detect indel-type sequence changes that occur between the sequence initiation site and the position of the fixed base. Also, the dependence of the number of fixed bases on the number of barcode clusters determined was analyzed. At this time, the fixed base located at the farthest position from the sequence primer site was used (see panel C of FIG. 3 and panel C of FIG. 9). When the number of fixed bases used was small, the number of barcode clusters determined decreased significantly, and as the number of fixed bases used increased, the number of barcode clusters determined became almost constant. To observe the effect of mismatch exclusion on the above two requirements for accurate digital quantification, the number of random bases (panel A in FIG. 2 and panel A in FIG. 8; green line) and coverage (FIG. 2) The number of barcode clusters determined was plotted as a function of panel C and panel C of FIG. 8; green line). The mismatch exclusion process was performed using the highest number of fixed bases used (6 bases for short templates, 12 bases for long templates). As a result, a plateau-like curve is seen for any of the plots (panels A and C in FIG. 2 and panels A and C in FIG. 8), which indicates that indel error exclusion with fixed bases causes digital quantification. Indicates that you have made it more accurate.
別の問題として、サンプル間のクロスコンタミネーションが生じることを見出した。これは図2のパネルCおよび図8のパネルCの緑の線におけるプラトー様の相において、観察されるクラスターの数のわずかな増加を引き起こしていると考えられる。PCRの間に増幅プライマーによって異なるインデックス(インデックスAおよびインデックスB)によって2つのサンプルをそれぞれ標識して、2つの別々のチューブ中でPCRによって増幅した2つのサンプルを同時にシークエンスした。インデックスAおよびインデックスBの両方を用いてバーコードをクラスタリングしたときに、両方のインデックスを含むバーコードクラスターの小さな画分を見出した。これは、Jaitinらによっても報告されている5。PCR増幅用のバーコード付加された鋳型は元の鋳型プールからランダムに選択されたものであるため、これはクロスコンタミネーション無しで生じた可能性はある。しかし、短い鋳型の場合であってもバーコード配列の種類は、理論上2.8×1014(=424)存在することから、完全に同一のバーコードを有する元の鋳型が2つの増幅チューブに添加される可能性は非常に小さいと考えられる。従って、特定のインデックスを含むPCRプライマーがチューブに混入したか、インデックス配列がエラーを有していたか、そして/または、シークエンス工程においてインデックススイッチング(index switching)が生じたかのいずれかが考えられた(Sinha, R. et al., biorxiv, 10.1101/125724 (2017))。この影響を除くために、まず、各鋳型について2つのインデックスにソートされた全てのリードを混合し、これらの混合されたリードに対してクラスタリングを実施した。一つのバーコードクラスターの中に複数のインデックス(この場合、2つのインデックス)が見出された場合、シークエンスされたリードのうち最も数の多いリードを含むインデックスを有するとしてバーコードクラスターをカウントした。このプロセスを用いて、決定されたクラスター数がカバー率の関数としてプラトーを示すことを最終的に見出した(図2のパネルCおよび図8のパネルCの黄色の線を参照)。重要なことに、上記図2のパネルCおよび図8のパネルCの青の線では、カバー率が上昇すると決定されるクラスター数が微小に上昇するようすが認められたが、インデックススイッチングの影響を除外する上記プロセスによって、クラスター数は、カバー率が上昇してもプラトーを示した。
As another problem, it was found that cross contamination between samples occurred. This is believed to cause a slight increase in the number of clusters observed in the plateau-like phase in the green lines of panel C of FIG. 2 and panel C of FIG. Two samples were each labeled with different indexes (index A and index B) by amplification primers during PCR, and two samples amplified by PCR in two separate tubes were simultaneously sequenced. When barcodes were clustered using both Index A and Index B, a small fraction of barcode clusters containing both indexes was found. This is also reported by Jaitin et al. 5 This may have occurred without cross contamination since the barcoded template for PCR amplification was randomly selected from the original template pool. However, even in the case of a short template, the type of barcode sequence is theoretically 2.8 × 10 14 (= 4 24 ), so that two original templates having completely the same barcode are amplified. The possibility of being added to the tube is considered to be very small. Therefore, it was considered that either the PCR primer containing the specific index was mixed in the tube, the index sequence had an error, and / or index switching occurred in the sequencing step (Sinha , R. et al., Biorxiv, 10.1101 / 125724 (2017)). To eliminate this effect, first, all the leads sorted into two indices for each template were mixed and clustering was performed on these mixed leads. If multiple indexes (in this case, two indexes) were found in one barcode cluster, the barcode cluster was counted as having an index including the highest number of reads among the sequenced reads. Using this process, it was finally found that the determined number of clusters showed a plateau as a function of coverage (see panel C of FIG. 2 and yellow lines of panel C of FIG. 8). Importantly, the blue lines in panel C of FIG. 2 and panel C of FIG. 8 show that the number of clusters determined to increase in coverage slightly increases, but the effect of index switching is With the above process excluded, the number of clusters showed a plateau even if the coverage rate increased.
同一のバーコード配列が両方のインデックスに使われることは無いと考えられることから、正確なデジタル定量のための第1の要件を確認するために、インデックスAとBとの合計について、決定されたクラスターの数をプロットした(図2のパネルBおよび図8のパネルBの黄色の線を参照)。依然としてプラトーが存在したことから、用いられたランダム塩基の数は、正確なデジタル定量を実施するための許容可能な範囲内であった。
Since the same barcode sequence is considered not to be used for both indexes, it was determined for the sum of indexes A and B to confirm the first requirement for accurate digital quantification The number of clusters was plotted (see the yellow lines in panel B of FIG. 2 and panel B of FIG. 8). Since there was still a plateau, the number of random bases used was within the acceptable range for performing accurate digital quantification.
上記の実施例は、複数のサンプルを混合して解析する際に生じ得る、「インデックススイッチング(index switching)」が、バーコードクラスタリングの精度に影響を与えること、およびインデックススイッチング(ミスインデックス)の除外プロセスが、精度の改善し、カバー率によって精度が影響を受けないデジタル定量システムを可能とすることを示すものである。
The above example may occur when mixing and analyzing a plurality of samples, "index switching" affects the accuracy of barcode clustering, and exclusion of index switching (miss index) It is shown that the process allows for a digital quantitative system with improved accuracy and accuracy not affected by coverage.
サンプル間のクロスコンタミネーションが見出されたので、次いで、リファレンスに対するリードのマッピングプロセスにおける誤同定について調べた。インデックスの問題に関して行ったのと同様のプロセスに従った。ここで、2つのインデックスにソートされ、そしていずれかの鋳型に対してマップされた全リードを混合し、その後、混合されたリードに対してクラスタリングを実行した。次に、一つのバーコードクラスター内に複数の鋳型および/または複数のインデックスが見出されたときには、シークエンスしたリードの中で最も高いリード数を示した鋳型およびインデックスに対するバーコードクラスターをカウントした。しかし、このプロセスを通して、カバー率の関数としての決定されたクラスターの数には有意差は観察されなかった(図2のパネルCおよび図8のパネルCの赤の点線を参照)。このことにより、この系では、誤同定はさほど頻繁には生じないことが示唆された。同一のバーコード配列が両方のインデックスおよび全ての鋳型に用いられることはないと考えられることから、正確なデジタル定量のための第1の要件を確認するために、インデックスA、インデックスBおよび全ての鋳型の合計について、決定されたクラスターの数をプロットした(図2のパネルBおよび図8のパネルBの赤の点線を参照)。依然としてプラトーが存在したことから、用いられたランダム塩基の数は、鋳型の誤同定(misidentification)を説明するときでさえ、正確なデジタルカウントを実施するための許容可能な範囲内であった。本実施例では、誤同定の影響は少なかったが、このプロセスは、より大量のリファレンスが用いられる分析(例えば、RNA-Seq)においては重要になる。これは、このような分析においては、誤同定はより頻繁に生じ得るからである。
As cross contamination between samples was found, we then examined for misidentification in the process of mapping leads to reference. We followed the same process as we did for the index issue. Here, all the leads sorted to two indices and mapped to either template were mixed and then clustering was performed on the mixed leads. Next, when multiple templates and / or multiple indexes were found in one barcode cluster, barcode clusters for the template and index that showed the highest number of reads among the sequenced reads were counted. However, no significant difference was observed in the number of clusters determined as a function of coverage throughout this process (see panel C in FIG. 2 and dotted red in panel C in FIG. 8). This suggested that in this system misidentification does not occur so frequently. Index A, Index B and all to confirm the first requirement for accurate digital quantification, as it is assumed that the same barcode sequence will not be used for both index and all templates The number of clusters determined was plotted for the sum of the molds (see red dotted line in FIG. 2 panel B and FIG. 8 panel B). Because there were still plateaus, the number of random bases used was within the acceptable range for performing accurate digital counts, even when explaining the misidentification of the template. In this example, the effect of misidentification was less, but this process becomes important in analyzes where a larger amount of reference is used (eg, RNA-Seq). This is because misidentification can occur more frequently in such an analysis.
上記分析プロセスにおいて生じていることをさらに理解するために、各プロセスに対してカバー率のヒストグラムを作成した(図10)。固有のバーコードの数をカウントした(上記のいずれの処理もなしで)ヒストグラムは、主に低リードクラスターを含む大きなピークを有した。これらの低リードクラスターは、このデジタルカウント法によって測定すると、目的核酸配列のアウトプットコピー数を人工的に増加させ(シークエンスエラー、indelエラーなどに起因する元のサンプルには存在しない人工的に生じたバーコード配列による)、システムがより正確な定量を行うためにはこれを除外しなければならない(上記2つの要件)。最初の2つの処理工程の後にこのピークは劇的に減少したが、このことは、主にシークエンスエラーによって生成されたバーコード配列はこれらの処理工程によって除外されたことを示唆するものである。
To further understand what happened in the above analysis process, a histogram of coverage was created for each process (Figure 10). Histograms that counted the number of unique barcodes (without any treatment above) had large peaks that mainly included low lead clusters. These low lead clusters, as measured by this digital counting method, artificially increase the output copy number of the target nucleic acid sequence (artificially not present in the original sample due to sequence errors, indel errors, etc.) Bar code sequences), which must be excluded in order for the system to make more accurate quantitation (the two requirements above). Although this peak decreased dramatically after the first two processing steps, this suggests that the barcode sequences generated mainly by sequencing errors were excluded by these processing steps.
4つの具体的鋳型(ST1、ST2、LT1およびLT2)を用いた場合に、上記のバーコード設計およびコンピューター分析が、正確なデジタルカウントのための2つの前記要件を満たすことが示された(図2のパネルA~Cおよび図8のパネルA~C参照)。次に、パラメータを至適化し、そして20~40000の広い範囲のコピー数を含む全ての鋳型についてこれらの分析を適用した。パラメータとしてDistance=2である場合に決定されるクラスターの数が一定値に既に近づいていたので(図3のパネルAおよび図9のパネルA参照)、以後の分析ではDistance=2を用いた。固定塩基の数に関しては、固定塩基の数が4であるときに、決定されるクラスターの数が一定値に近づいていたので(図3のパネルCおよび図9のパネルC参照)、固定塩基の数を4とした(全ての鋳型について、左から16番目、21番目、24番目および28番目が固定塩基であるバーコード(図13)を用いた)。インデックスのクロスコンタミネーションと鋳型の誤同定も考慮した。上記の定量分析および洞察の全てを利用し、本発明のデジタルカウントスキームを使用して目的核酸分子を正確に定量することができると考えられる。これらの条件に基づいて、全ての鋳型について2つの要件を調べ、このデジタルカウントシステムのダイナミックレンジを決定した(図4のパネルA、パネルBおよび図11参照)。カバー率依存性に関しては、クラスタリングのために20個のランダム塩基を用い(図4のパネルAおよび図11)、ランダム塩基数への依存性については、元の総リード数の10%を分析に用いることとした(図4のパネルB)。なぜなら、4つの元の鋳型についてのこれまでの初期的な分析に基づけば、両方のパラメータが依然として機能するはずであると考えられたからである(図2のパネルA、図2のパネルC、図8のパネルAおよび図8のパネルC)。分析用にリードの100%未満を用いる場合には、リードをランダムに選択し、このプロセスを8回繰り返すことによって平均と標準偏差を求めた(図4A~4Cおよび図11)。図4A~4Cおよび図11に示されるように、ランダム塩基の数およびカバー率の関数としてのプロットにおいて、全ての鋳型についてプラトーが存在した。このことにより、選択したパラメータによって、広い範囲のコピー数の鋳型について正確なデジタル定量が可能になることが示唆された。
The above barcode design and computer analysis were shown to meet two of the above requirements for accurate digital counting when using four specific templates (ST1, ST2, LT1 and LT2) (Figure 2 panels AC and FIG. 8 panels AC)). The parameters were then optimized and these analyzes were applied for all templates containing a wide range of copy numbers from 20 to 40,000. Since the number of clusters determined in the case of Distance = 2 as a parameter had already approached a constant value (see panel A of FIG. 3 and panel A of FIG. 9), Distance = 2 was used in the subsequent analysis. As for the number of fixed bases, when the number of fixed bases is 4, the number of clusters to be determined approaches a constant value (see panel C of FIG. 3 and panel C of FIG. 9). The number was 4 (for all templates, the 16th, 21st, 24th and 28th from the left used a barcode (FIG. 13) with fixed bases). Cross contamination of the index and misidentification of the template were also considered. It is believed that all of the above quantitative analysis and insights can be used to accurately quantify the nucleic acid molecule of interest using the digital counting scheme of the present invention. Based on these conditions, two requirements were examined for all the molds to determine the dynamic range of this digital counting system (see panels A, B and 11 of FIG. 4). For coverage dependency, use 20 random bases for clustering (panel A and 11 in Figure 4), and for the dependence on the number of random bases, analyze 10% of the original total number of reads We decided to use (panel B of FIG. 4). Because, based on the previous initial analysis of the four original molds, it was thought that both parameters should still function (panel A in FIG. 2, panel C in FIG. 2, diagram Panel A of FIG. 8 and panel C of FIG. If less than 100% of the leads were used for analysis, the leads were randomly selected and the process repeated eight times to determine the mean and standard deviation (FIGS. 4A-4C and FIG. 11). As shown in FIGS. 4A-4C and FIG. 11, in the plots as a function of number of random bases and coverage, a plateau was present for all templates. This suggested that the chosen parameters allow accurate digital quantification over a wide range of copy number templates.
図4のパネルAおよび図11における決定されたバーコードの数が、12.6~20.9のカバー率で(リードの10%をサンプリングした場合)、PCR増幅前のサンプルチューブに含まれていた鋳型の数と対応していた。これらの値を用いて、光学密度により決定される分子のインプット数と、本発明のデジタルカウント法で決定される分子のアウトプット数とを比較した(図4のパネルC参照)。その結果、インプット分子数の値とアウトプット分子数の値とは高い相関を示した(ピアソンの積率相関係数r = 0.990)。このアウトプット/インプットの比は、長い鋳型(LT)については、0.32~0.45の範囲であり、短い鋳型(ST)については、0.41~0.57であり、実験誤差によって説明され得る(例えば、PCR増幅のための準備における(高々)7段階の鋳型希釈における統計誤差)。このことから、本実施例で提示されたパラメータに基づくデジタルカウントスキームによってPCR増幅前の核酸分子の絶対コピー数を定量することができることが示唆される。
The determined number of barcodes in panel A of Figure 4 and Figure 11 is included in the sample tube prior to PCR amplification with a coverage of 12.6-20.9 (when 10% of the leads are sampled) Correspond to the number of molds. These values were used to compare the number of input molecules determined by optical density with the number of output molecules determined by the digital counting method of the present invention (see panel C of FIG. 4). As a result, the value of the number of input molecules and the value of the number of output molecules showed a high correlation (Pearson's product ratio correlation coefficient r = 0.990). This output / input ratio is in the range of 0.32-0.45 for the long template (LT) and 0.41-0.57 for the short template (ST) and can be explained by experimental error (e.g. PCR amplification) Statistical error in (at most) 7 stages of template dilution in preparation for This suggests that the digital count scheme based on the parameters presented in this example can quantify the absolute copy number of the nucleic acid molecule prior to PCR amplification.
これらの結果に基づいて、エラーの存在下で分子の絶対数をカウントするためのランダム塩基の必要数を提示することができる(図5のパネルA参照)。x軸は測定しようとする分子のインプット数を示し、y軸は図4のパネルBおよび図5のパネルBにおける各々の曲線が0.95の相対的クラスター数に達するときのランダム塩基の数を示す。図5のパネルBは、図4のパネルBでなされたようにランダム塩基の数に対する相対的クラスター数の依存性を示すものであるが、各鋳型に対して誤同定の除外プロセス(クラスター数に対して有意な効果を有しなかった)を行わなかった。所定の分子数のより低い範囲におけるより多くのデータを示すために図5のパネルAにおけるこれらのデータを含め、そして、例えば、95%を超える精度で約105個の分子を定量するためには、少なくとも16個のランダム塩基が必要となることが分かった。
Based on these results, the required number of random bases can be presented to count the absolute number of molecules in the presence of errors (see FIG. 5, panel A). The x-axis indicates the number of inputs of the molecule to be measured, and the y-axis indicates the number of random bases when each curve in panel B of FIG. 4 and panel B of FIG. Show. Panel B in FIG. 5 shows the dependence of the relative number of clusters on the number of random bases as done in panel B of FIG. Did not have a significant effect). Including these data in panel A of FIG. 5 to show more data in the lower range of a given number of molecules, and, for example, to quantify about 10 5 molecules with an accuracy of over 95% It has been found that at least 16 random bases are required.
実験的に、高々84,420個の分子(インプットした全LTの数)が、20個のランダム塩基を用いて正確に定量されたことが示された(図4のパネルB)。この数は、例えば、トランスクリプトーム解析において個々の遺伝子に対するRNA分子の数をカウントするに十分であると考えられる。実際には、測定可能な分子数は、MiSeqシークエンサーのキャパシティによって制限を受ける。
最大で38個のランダム塩基を使用し、所定の分子数に依存して必要とされるランダム塩基の数(図12参照)により、実験的に測定されたデータセットへの単純線形回帰に基づけば、約1015個の分子が本発明の測定システムで定量され得ることが示唆される。このダイナミックレンジは、市販のディープシークエンサーの現在のキャパシティを遙かに超える優れたものである。これにより、広いダイナミックレンジを備えた定量分析のボトルネックは、もはやバーコードの設計によっては制限されず、むしろシークエンスのスループットによって制限される。 Experimentally, it was shown that at most 84,420 molecules (the number of total LTs input) were correctly quantified using 20 random bases (FIG. 4 panel B). This number is considered to be sufficient, for example, to count the number of RNA molecules for individual genes in transcriptome analysis. In practice, the number of molecules that can be measured is limited by the capacity of the MiSeq sequencer.
Based on a simple linear regression on an experimentally measured data set using up to 38 random bases and the number of random bases required depending on the number of molecules given (see Figure 12) It is suggested that about 10 15 molecules can be quantified with the measurement system of the present invention. This dynamic range is superior to the current capacity of commercial deep sequencers. Thus, the bottleneck of quantitative analysis with a wide dynamic range is no longer limited by the barcode design, but rather by the throughput of the sequence.
最大で38個のランダム塩基を使用し、所定の分子数に依存して必要とされるランダム塩基の数(図12参照)により、実験的に測定されたデータセットへの単純線形回帰に基づけば、約1015個の分子が本発明の測定システムで定量され得ることが示唆される。このダイナミックレンジは、市販のディープシークエンサーの現在のキャパシティを遙かに超える優れたものである。これにより、広いダイナミックレンジを備えた定量分析のボトルネックは、もはやバーコードの設計によっては制限されず、むしろシークエンスのスループットによって制限される。 Experimentally, it was shown that at most 84,420 molecules (the number of total LTs input) were correctly quantified using 20 random bases (FIG. 4 panel B). This number is considered to be sufficient, for example, to count the number of RNA molecules for individual genes in transcriptome analysis. In practice, the number of molecules that can be measured is limited by the capacity of the MiSeq sequencer.
Based on a simple linear regression on an experimentally measured data set using up to 38 random bases and the number of random bases required depending on the number of molecules given (see Figure 12) It is suggested that about 10 15 molecules can be quantified with the measurement system of the present invention. This dynamic range is superior to the current capacity of commercial deep sequencers. Thus, the bottleneck of quantitative analysis with a wide dynamic range is no longer limited by the barcode design, but rather by the throughput of the sequence.
上記のように本実施例では、ランダム塩基と固定塩基とを含むバイブリッド型の分子バーコードを設計して使用するデジタルカウントを実施し、所定のサンプル中の分子の数を定量できることを示した。ここで、適切なバーコードの設計、十分なシークエンス深度、適切なパラメータでの分析方法が用いられる。これにより、広く高いダイナミックレンジでかつ低コストで核酸分子の数を測定することが可能となる。この結果に基づいて、エラーの存在下で所定のバーコード分子の数をカウントするために必要なランダム塩基と固定塩基の数を示唆することができる(図5のパネルAおよび図12)。本実施例ではまた、分子バーコードの更なる機能的な利点を定量的に示した。すなわち、分子バーコードを、サンプルのクロスコンタミネーション(プライマーの物理的混入、インデックスにおけるエラー、および/またはシークエンスプロセスにおけるインデックススイッチングによって引き起こされる)の同定や、アラインメントプロセスにおける目的核酸配列の誤同定に利用した。実際、上記の通り、前者は、次世代シークエンサープラットフォームにおける報告されている重大な問題を解決し得るものである23,24。エラーの影響はライブラリーの調製および/またはシークエンスプラットフォームに依存し得るものであるが、ランダム塩基バーコードの有効性が一般的な応用において示されており、そしてここで示したバーコード使用の検証のためのストラテジーは、様々なプラットフォームに適用可能である。さらに、バーコード付加された分子に対するランダム塩基バーコードの有効性を示したので、応用毎に異なり得る当業者であればバーコード付加の効果または有効性を評価することができる。本発明は、遺伝子発現解析、iCLIP8、抗体レパトワ解析9、細菌16S rRNA遺伝子解析10,11、ChIP-nexus12における分子のカウントだけでなく、細胞9,25,26、ウイルス1、およびバーコードを使用する他の応用用途のための、分子バーコードを使用する核酸定量のデジタルカウント法に広く用いることができる。近年、Single Cell Sequencing Solution (Illumina, Inc., CA, USおよびBio-Rad Laboratories, Inc., CA, USA)や、Chromium Single Cell 3’ Solution (10x Genomics, Inc. CA, USA)などの市販の装置を用いてこれらの応用を行い得る。実験的に得られた大量の定量的データに基づいてシステムバイオロジーが促進されると考える。
As described above, in the present example, it has been shown that digital counting can be performed to design and use a hybrid molecular barcode including random bases and fixed bases, and the number of molecules in a predetermined sample can be quantified. . Here, appropriate barcode design, sufficient sequence depth, and analysis method with appropriate parameters are used. This makes it possible to measure the number of nucleic acid molecules in a wide, high dynamic range and at low cost. Based on this result, it is possible to suggest the number of random bases and fixed bases needed to count the number of given barcode molecules in the presence of errors (FIG. 5 panel A and FIG. 12). This example also quantitatively demonstrates the additional functional advantages of molecular barcodes. In other words, molecular barcodes are used to identify sample cross contamination (caused by physical contamination of primers, errors in the index, and / or index switching in the sequencing process) or misidentification of the target nucleic acid sequence in the alignment process did. In fact, as mentioned above, the former can solve the serious problems reported in the next generation sequencer platform 23, 24 . While the impact of errors may be dependent on the library preparation and / or sequencing platform, the effectiveness of random base barcodes has been demonstrated in general applications and validation of the barcode usage presented here The strategies for are applicable to various platforms. Furthermore, the effectiveness of random base barcodes on barcoded molecules has been demonstrated, so that one skilled in the art, who can vary from application to application, can evaluate the effectiveness or efficacy of barcode addition. The present invention includes gene expression analysis, iCLIP 8 , antibody repertoire analysis 9 , bacterial 16S rRNA gene analysis 10 , 11 , count of molecules in ChIP-nexus 12 as well as cells 9 , 25 , 26 , virus 1 and barcodes Can be widely used in digital counting of nucleic acid quantitation using molecular barcodes, for other applications using Recently, commercially available products such as Single Cell Sequencing Solution (Illumina, Inc., CA, US and Bio-Rad Laboratories, Inc., CA, USA) and Chromium Single Cell 3 'Solution (10x Genomics, Inc. CA, USA) An apparatus may be used to perform these applications. We believe that system biology is promoted based on a large amount of quantitative data obtained experimentally.
配列表の内容
配列番号1:LT1~6の5’領域の塩基配列
配列番号2:LT1~6の3’領域の塩基配列
配列番号3:ST1~5の5’領域の塩基配列
配列番号4:ST1~5の3’領域の塩基配列
配列番号5:LT1のバーコード配列
配列番号6:LT1の目的核酸配列
配列番号7:LT2のバーコード配列
配列番号8:LT2の目的核酸配列
配列番号9:LT3のバーコード配列
配列番号10:LT3の目的核酸配列
配列番号11:LT4のバーコード配列
配列番号12:LT4の目的核酸配列
配列番号13:LT5のバーコード配列
配列番号14:LT5の目的核酸配列
配列番号15:LT6のバーコード配列
配列番号16:LT6の目的核酸配列
配列番号17:ST1のバーコード配列
配列番号18:ST1の目的核酸配列
配列番号19:ST2のバーコード配列
配列番号20:ST2の目的核酸配列
配列番号21:ST3のバーコード配列
配列番号22:ST3の目的核酸配列
配列番号23:ST4のバーコード配列
配列番号24:ST4の目的核酸配列
配列番号25:ST5のバーコード配列
配列番号26:ST5の目的核酸配列
配列番号27:増幅用フォワードプライマーの配列
配列番号28:増幅用リバースプライマーの配列(インデックスA用)
配列番号29:増幅用リバースプライマーの配列(インデックスB用) Contents of Sequence Listing SEQ ID NO: 1: Base sequence of 5 'region of LT1 to 6 SEQ ID NO: 2: Base sequence of 3' region of LT1 to 6 SEQ ID NO: 3: Base sequence of 5 'region of ST1 to 5 SEQ ID NO: 4: base sequence of 3 'region of ST1 to 5 barcode of SEQ ID NO: 5: LT1 barcode sequence SEQ ID NO: 6: LT1 target nucleic acid sequence SEQ ID NO: 7: LT2 barcode sequence SEQ ID NO: 8: target nucleic acid sequence of LT2 SEQ ID NO: 9: LT3 bar code sequence SEQ ID NO: 10: LT3 target nucleic acid sequence SEQ ID NO: 11: LT4 bar code sequence SEQ ID NO 12: LT4 target nucleic acid sequence SEQ ID NO: 13: LT5 bar code sequence SEQ ID NO 14: LT5 The target nucleic acid sequence SEQ ID NO: 15: LT6 bar code sequence SEQ ID NO 16: LT6 target nucleic acid sequence SEQ ID NO 17: ST1 bar code sequence SEQ ID NO 18: ST1 target nucleic acid sequence SEQ ID NO 19: ST2 barcode sequence SEQ ID NO: 20: ST2 target nucleic acid sequence SEQ ID NO: 21: ST3 barcode sequence SEQ ID NO: 22: ST3 target nucleic acid sequence SEQ ID NO: 23: ST4 barcode sequence SEQ ID NO 24: ST4 purpose Nucleic acid sequence SEQ ID NO: 25: Bar code sequence of ST 5 SEQ ID NO: 26: Target nucleic acid sequence of ST 5 SEQ ID NO: 27: Sequence of forward primer for amplification SEQ ID NO: 28: Sequence of reverse primer for amplification (for index A)
SEQ ID NO: 29: Sequence of reverse primer for amplification (for index B)
配列番号1:LT1~6の5’領域の塩基配列
配列番号2:LT1~6の3’領域の塩基配列
配列番号3:ST1~5の5’領域の塩基配列
配列番号4:ST1~5の3’領域の塩基配列
配列番号5:LT1のバーコード配列
配列番号6:LT1の目的核酸配列
配列番号7:LT2のバーコード配列
配列番号8:LT2の目的核酸配列
配列番号9:LT3のバーコード配列
配列番号10:LT3の目的核酸配列
配列番号11:LT4のバーコード配列
配列番号12:LT4の目的核酸配列
配列番号13:LT5のバーコード配列
配列番号14:LT5の目的核酸配列
配列番号15:LT6のバーコード配列
配列番号16:LT6の目的核酸配列
配列番号17:ST1のバーコード配列
配列番号18:ST1の目的核酸配列
配列番号19:ST2のバーコード配列
配列番号20:ST2の目的核酸配列
配列番号21:ST3のバーコード配列
配列番号22:ST3の目的核酸配列
配列番号23:ST4のバーコード配列
配列番号24:ST4の目的核酸配列
配列番号25:ST5のバーコード配列
配列番号26:ST5の目的核酸配列
配列番号27:増幅用フォワードプライマーの配列
配列番号28:増幅用リバースプライマーの配列(インデックスA用)
配列番号29:増幅用リバースプライマーの配列(インデックスB用) Contents of Sequence Listing SEQ ID NO: 1: Base sequence of 5 'region of LT1 to 6 SEQ ID NO: 2: Base sequence of 3' region of LT1 to 6 SEQ ID NO: 3: Base sequence of 5 'region of ST1 to 5 SEQ ID NO: 4: base sequence of 3 'region of ST1 to 5 barcode of SEQ ID NO: 5: LT1 barcode sequence SEQ ID NO: 6: LT1 target nucleic acid sequence SEQ ID NO: 7: LT2 barcode sequence SEQ ID NO: 8: target nucleic acid sequence of LT2 SEQ ID NO: 9: LT3 bar code sequence SEQ ID NO: 10: LT3 target nucleic acid sequence SEQ ID NO: 11: LT4 bar code sequence SEQ ID NO 12: LT4 target nucleic acid sequence SEQ ID NO: 13: LT5 bar code sequence SEQ ID NO 14: LT5 The target nucleic acid sequence SEQ ID NO: 15: LT6 bar code sequence SEQ ID NO 16: LT6 target nucleic acid sequence SEQ ID NO 17: ST1 bar code sequence SEQ ID NO 18: ST1 target nucleic acid sequence SEQ ID NO 19: ST2 barcode sequence SEQ ID NO: 20: ST2 target nucleic acid sequence SEQ ID NO: 21: ST3 barcode sequence SEQ ID NO: 22: ST3 target nucleic acid sequence SEQ ID NO: 23: ST4 barcode sequence SEQ ID NO 24: ST4 purpose Nucleic acid sequence SEQ ID NO: 25: Bar code sequence of ST 5 SEQ ID NO: 26: Target nucleic acid sequence of ST 5 SEQ ID NO: 27: Sequence of forward primer for amplification SEQ ID NO: 28: Sequence of reverse primer for amplification (for index A)
SEQ ID NO: 29: Sequence of reverse primer for amplification (for index B)
Claims (16)
- 核酸の解析方法であって:
(I)分子バーコードとインデックスが付加された複数の目的核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定のインデックスを有する配列若しくはこれと類似する配列、及び/又は特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(III)上記(II)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する工程と、
を含む、方法。 Method for analysis of nucleic acids:
(I) subjecting a mixture of a plurality of target nucleic acid molecules to which a molecular barcode and an index have been added to sequencing to obtain sequence information;
(II) From the sequence information obtained in (I) above, a sequence having a specific index or a sequence similar thereto, and / or a sequence having a specific molecular barcode or a sequence analogous thereto is selected and selected Creating a group by the arranged array;
(III) determining, in the group created in (II) above, the pair of the index with the highest detection frequency and the molecular barcode as the correct pair of the index and the molecular barcode;
Method, including. - 少なくとも分子バーコードが付加された目的核酸分子が、工程(I)の前に増幅に供されている、請求項1に記載の方法。 The method according to claim 1, wherein the nucleic acid of interest at least a molecular barcode has been added is subjected to amplification prior to step (I).
- 工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、請求項1または2に記載の方法。 The sequence similar to the sequence having the specific molecular barcode in step (II) is a sequence including a sequence having the specific molecular barcode and a mismatched base having a predetermined number of bases or less in the molecular barcode sequence part. The method of claim 1 or 2.
- 分子バーコードが、特定の位置に固定塩基を有する、請求項1~3のいずれか1項に記載の方法。 The method according to any one of claims 1 to 3, wherein the molecular barcode has a fixed base at a specific position.
- 工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、請求項4に記載の方法。 The sequence similar to the sequence having the specific molecular barcode in step (II) contains the fixed base at the specific position, and / or the position of the fixed base is shifted from the specific position The method according to claim 4, wherein the method is selected on the basis of
- 当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含む、請求項4に記載の方法。 5. The method according to claim 4, further comprising excluding from analysis the sequence having a molecular barcode that does not contain the fixed base at the specific position.
- 工程(III)において、決定された正しいペア以外のインデックスと分子バーコードのペアを、インデックスと分子バーコードのミスペアと決定して除外する、
請求項1~5のいずれか1項に記載の方法。 In step (III), excluding the index and molecular barcode pairs other than the determined correct pair as the index and molecular barcode mispairing,
A method according to any one of the preceding claims. - 特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、請求項1~7のいずれか1項に記載の方法。 Determining the number of target nucleic acid molecules contained in the sample from which the target nucleic acid molecule is derived based on the number of groups generated by the sequence having a specific molecular barcode or a sequence similar thereto. The method according to any one of 1 to 7.
- 核酸の解析方法であって:
(I)分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
を含む、方法。 Method for analysis of nucleic acids:
(I) subjecting a mixture of a plurality of nucleic acid molecules to which molecular barcodes have been added to sequencing to obtain sequence information;
(II) selecting a sequence having a specific molecular barcode or a sequence similar thereto from the sequence information obtained in (I) above, and creating a group from the selected sequence;
Method, including. - 工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、請求項9に記載の方法。 The sequence similar to the sequence having the specific molecular barcode in step (II) is a sequence including a sequence having the specific molecular barcode and a mismatched base having a predetermined number of bases or less in the molecular barcode sequence part. 10. A method according to item 9.
- 分子バーコードが、特定の位置に固定塩基を有する、請求項9または10に記載の方法。 The method according to claim 9 or 10, wherein the molecular barcode has a fixed base at a specific position.
- 工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、請求項11に記載の方法。 The sequence similar to the sequence having the specific molecular barcode in step (II) contains the fixed base at the specific position, and / or the position of the fixed base is shifted from the specific position The method according to claim 11, wherein the method is selected on the basis of
- 当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程をさらに含む、請求項11に記載の方法。 The method according to claim 11, further comprising the step of excluding from analysis a sequence having a molecular barcode that does not contain the fixed base at the specific position.
- 特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、請求項9~13のいずれか一項に記載の方法。 Determining the number of target nucleic acid molecules contained in the sample from which the target nucleic acid molecule is derived based on the number of groups generated by the sequence having a specific molecular barcode or a sequence similar thereto. The method according to any one of 9 to 13.
- 少なくとも分子バーコードが付加された目的核酸分子が、工程(I)の前に増幅に供されている、請求項9~14のいずれか一項に記載の方法。 The method according to any one of claims 9 to 14, wherein the target nucleic acid molecule to which at least a molecular barcode has been added is subjected to amplification prior to step (I).
- 核酸の解析方法であって:
(I)特定の位置に固定塩基を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(IIa)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程;
(IIb)工程(I)において、若しくは、工程(I)の後で、当該特定の位置に当該固定塩基を含む配列からなる配列情報を得る工程;または
(IIc)工程(II)として上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程をさらに含み、かつ工程(II)において、若しくは工程(II)の後で、当該特定の位置に当該固定塩基を含む配列からなる群を得る工程と、
を含む、方法。 Method for analysis of nucleic acids:
(I) subjecting a mixture of a plurality of nucleic acid molecules to which a molecular barcode having a fixed base at a specific position is added to sequencing to obtain sequence information;
(IIa) excluding from analysis a sequence having a molecular barcode which does not contain the fixed base at the specific position;
(IIb) obtaining sequence information comprising a sequence comprising the fixed base at the specific position in the step (I) or after the step (I); or (IIc) as the step (II) above Further comprising the step of selecting a sequence having a specific molecular barcode or a sequence similar thereto from the sequence information obtained in 4.), and creating a group according to the selected sequence, and in step (II) or After II) obtaining a group consisting of a sequence comprising the fixed base at the particular position;
Method, including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019525702A JP7160349B2 (en) | 2017-06-23 | 2018-06-22 | Methods of sequencing and analyzing nucleic acids |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762523857P | 2017-06-23 | 2017-06-23 | |
US62/523,857 | 2017-06-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2018235938A1 true WO2018235938A1 (en) | 2018-12-27 |
Family
ID=64735948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/023778 WO2018235938A1 (en) | 2017-06-23 | 2018-06-22 | Methods for sequencing and analyzing nucleic acids |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7160349B2 (en) |
WO (1) | WO2018235938A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021241721A1 (en) | 2020-05-29 | 2021-12-02 | 国立研究開発法人理化学研究所 | Method for treating cell population and method for analyzing genes included in cell population |
WO2023092872A1 (en) * | 2021-11-26 | 2023-06-01 | 广州达安基因股份有限公司 | High-throughput sequencing method based on internal reference of known tag |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150275289A1 (en) * | 2012-05-31 | 2015-10-01 | Board Of Regents, The University Of Texas System | Method for Accurate Sequencing of DNA |
WO2016002875A1 (en) * | 2014-07-02 | 2016-01-07 | 株式会社Dnaチップ研究所 | Method for counting number of nucleic acid molecules |
JP2017503512A (en) * | 2014-01-16 | 2017-02-02 | イラミーナ インコーポレーテッド | Amplicon preparation and sequencing on solid supports |
JP2017514487A (en) * | 2014-04-29 | 2017-06-08 | イルミナ インコーポレイテッド | Multiple analysis of single cell gene expression using template switching and tagging |
-
2018
- 2018-06-22 JP JP2019525702A patent/JP7160349B2/en active Active
- 2018-06-22 WO PCT/JP2018/023778 patent/WO2018235938A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150275289A1 (en) * | 2012-05-31 | 2015-10-01 | Board Of Regents, The University Of Texas System | Method for Accurate Sequencing of DNA |
JP2017503512A (en) * | 2014-01-16 | 2017-02-02 | イラミーナ インコーポレーテッド | Amplicon preparation and sequencing on solid supports |
JP2017514487A (en) * | 2014-04-29 | 2017-06-08 | イルミナ インコーポレイテッド | Multiple analysis of single cell gene expression using template switching and tagging |
WO2016002875A1 (en) * | 2014-07-02 | 2016-01-07 | 株式会社Dnaチップ研究所 | Method for counting number of nucleic acid molecules |
Non-Patent Citations (4)
Title |
---|
MATSUMOTO, Y. ET AL.: "A framework for digital RNA sequencing (dRNA-seq) and its application for gene expression profiling of small number of immune-related cells", EUROPEAN JOURNAL OF IMMUNOLOGY, vol. 46, no. suppl. 1, 1203, 2016, pages 1162, XP055655719 * |
MATSUMOTO, YUKI ET AL.: "Frame for digital RNA-seq: Accurate quantification of nucleic acid molecule by random barcode and its evaluation criteria (non-official translation)", ABSTRACTS OF COLLABORATIVE CONFERENCE OF THE 38TH ANNUAL CONFERENCE OF THE MOLECULAR BIOLOGY SOCIETY OF JAPAN AND THE 88TH CONFERENCE OF THE JAPANESE BIOCHEMICAL SOCIETY, 2015 * |
SHIROGUCHI, KATSUYUKI: "Development of genome-side digital quantification method for non-coding RNA's wich has single-base identification and single-molecule level quantification", RESEARCH PERFORMANCE REPORT ON KAKENHI, no. 15K14425, 22 March 2018 (2018-03-22) * |
SHIROGUCHI, KATSUYUKI: "Standardization of genome-wide absolute and accurate counting of RNA molecules", RESEARCH PERFORMANCE REPORT ON KAKENHI, no. 26640119, 3 June 2016 (2016-06-03) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021241721A1 (en) | 2020-05-29 | 2021-12-02 | 国立研究開発法人理化学研究所 | Method for treating cell population and method for analyzing genes included in cell population |
EP4159873A4 (en) * | 2020-05-29 | 2024-07-17 | Riken | METHOD FOR PROCESSING A CELL POPULATION AND METHOD FOR ANALYZING GENES INCLUDED IN A CELL POPULATION |
WO2023092872A1 (en) * | 2021-11-26 | 2023-06-01 | 广州达安基因股份有限公司 | High-throughput sequencing method based on internal reference of known tag |
Also Published As
Publication number | Publication date |
---|---|
JP7160349B2 (en) | 2022-10-25 |
JPWO2018235938A1 (en) | 2020-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12006532B2 (en) | Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing | |
US20210375396A1 (en) | Sample analyzer for analyzing nucleic acid sequencing data | |
JP7011392B2 (en) | Methods and compositions for DNA profiling | |
JP7332733B2 (en) | High molecular weight DNA sample tracking tags for next generation sequencing | |
US9334532B2 (en) | Complexity reduction method | |
JP7497879B2 (en) | Methods and Reagents for Analysing Nucleic Acid Mixtures and Mixed Cell Populations and Related Uses - Patent application | |
EP3164489A2 (en) | Tagging and assessing a target sequence | |
CN110878345A (en) | Increasing confidence in allele calls by molecular counting | |
CN107002120B (en) | Sequencing method | |
US20160115544A1 (en) | Molecular barcoding for multiplex sequencing | |
EP2510114B1 (en) | Rna analytics method | |
JP7160349B2 (en) | Methods of sequencing and analyzing nucleic acids | |
WO2011145614A1 (en) | Method for designing probe for detecting nucleic acid reference material, probe for detecting nucleic acid reference material, and nucleic acid detection system having probe for detecting nucleic acid reference material | |
AU2018240559B2 (en) | Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing | |
US20250043350A1 (en) | Methods for detecting inherited mutations using multiplex gene specific pcr |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18820103 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2019525702 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18820103 Country of ref document: EP Kind code of ref document: A1 |