CN110177886B

CN110177886B - 基于胃癌生物学特征的集群分类及预后预测系统

Info

Publication number: CN110177886B
Application number: CN201880004336.1A
Authority: CN
Inventors: 许镛敏
Original assignee: Novomics Co ltd
Current assignee: Novomics Co ltd
Priority date: 2017-04-24
Filing date: 2018-04-24
Publication date: 2024-02-20
Anticipated expiration: 2038-04-24
Also published as: EP3617329A4; WO2018199589A1; KR20180118984A; KR101940657B1; JP6755391B2; US11365450B2; US20190241972A1; JP2019531741A; EP3617329A1; CN110177886A

Abstract

本发明涉及基于胃癌生物学特性的集群分类和预后预测系统，其中开发了利用靶基因集群的mRNA表达水平的定量值在存活率方面预测进展期胃癌患者预后的算法，并且该算法可以用作确定胃癌患者治疗方法的辅助信息。

Description

基于胃癌生物学特征的集群分类及预后预测系统

技术领域

本发明涉及一种基于胃癌生物学特征的组分类及预后预测系统。

背景技术

在全球范围内，胃癌是所有癌症中死亡率第三高的癌症，尤其在韩国，胃癌是除了甲状腺癌外最常见的癌症，而众所周知甲状腺癌预后较好。在韩国，由于国家健康检查的早期检测、手术标准化和抗癌药物的发现等已经使胃癌患者的存活率增加。然而，尽管目前有标准化的治疗，仍有大约一半的II期和III期进展期胃癌患者会复发。

癌症已被认为是基因疾病，随着基因检测技术例如下一代测序(NGS)的发展，人们不再根据现有的解剖学表型和病理学表型对癌症进行分类，而是根据分子生物学特性对癌症进行分类。最近报道，在癌症基因组图谱(TCGA)项目中，胃癌可根据其不同的分子特征而大致分为四种类型。这表明，即使在解剖学意义上的临床分期相同，预后和化疗的获益程度也可能因分子生物学特征而不同。

根据近期报道的TCGA项目中295例胃癌患者的结果，胃癌可分为四类：①爱泼斯坦-巴尔病毒阳性(Epstein-Barr virus positive，EBV阳性)胃癌；②微卫星高度不稳定性(MSI-H)胃癌；③染色体不稳定性(CIN)胃癌；④基因稳定性(GS)胃癌。通过这种大规模的癌症基因组测序，可以看到胃癌被划分为分子遗传学上不同的异质性亚组，而不是单一类型的癌症。因此，为了实现胃癌的个体化治疗，有必要根据分子遗传学和病理学特征来识别亚类，发现并应用相应的靶基因。此外，在胃癌研究中，已经报道了可以根据胃癌的亚型对胃癌的预后进行分类的结果。

如果能够预测患者在胃癌术后进行抗癌药物治疗后的预后，那么这将是能够确定适合每种预后的治疗策略的证据数据。目前，在标准化的治疗实践中，所有II期和III期的进展期胃癌患者均采用术后辅助抗癌疗法治疗。然而，对预后不良的组可能治疗不足。因此，如果能够展开除目前的标准治疗以外的其他治疗方法的策略，那么可能对于预后不良的患者组具有临床意义。

自2010年以来，发现对于II期和III期进展期胃癌的情况，标准化D2胃切除术后的辅助抗癌疗法提高了胃癌患者的存活率，目前这相当于标准化治疗。传统上，根据其解剖表型和病理表型对胃癌进行分类，根据TNM分期分类为II期或以上的病例接受抗癌治疗，但目前除了TNM分期分类外，没有预测化疗治疗的预后的其他方法可以。

发明内容

技术问题

本发明的目的是提供一种预测进展期胃癌预后的组合物，该组合物基于靶基因群的mRNA表达水平的定量值，从而可以预测进展期胃癌患者(II期和III期：基于ACJJ第6版)的术后预后。

本发明的另一个目的是提供一种就患者存活率方面预测预后提供信息的方法，该方法基于靶基因群的mRNA表达水平的定量值，从而可预测进展期胃癌患者的术后预后。

本发明的又另一个目的是提供一种就患者存活率方面预测预后的方法，该方法基于靶基因群的mRNA表达水平的定量值，从而可预测进展期胃癌患者的术后预后的。

技术方案

根据本发明的一个方面，提供预测II期和III期进展期胃癌预后的组合物，该组合物包含：用于测量靶基因群的mRNA表达水平的试剂，该靶基因群包括TFF1、TFF2、VSIG1、CNN1、NEXN、SCRG1、SORBS1、SPARCL1、AURKA、BUB1、CDC20、CEP55、PTTG1、UBE2C、CD8A、GBP1、GBP5、GZMB、NKG7、WARS、ANTXR1、SFRP4、VCAN、CDH17、CDX1和MYO1A；以及用于测量参照基因群的mRNA表达水平的试剂，该参照基因群包括ACTB、ATP5E、GPX1、UBB和HPRT1。

本发明还提供了预测II期和III期进展期胃癌预后的试剂盒，该试剂盒包含上述组合物。

本发明还提供了为预测II期和III期胃癌的预后提供信息的方法或预测II期和III期胃癌预后的方法，所述方法各包括：

在统计学上数量足够显著的从II期和III期进展期胃癌患者中获得的参考样品和生物样品中，

测量靶基因群和参照基因群的mRNA表达水平，该靶基因群包括由TFF1、TFF2和VSIG1组成的胃标签；由CNN1、NEXN、SCRG1、SORBS1和SPARCL1组成的间质标签；由AURKA、BUB1、CDC20、CEP55、PTTG1和UBE2C组成的增殖标签；由CD8A、GBP1、GBP5、GZMB、NKG7和WARS组成的免疫标签；由ANTXR1、SFRP4和VCAN组成的干细胞样(stem-like)标签；以及由CDH17、CDX1和MYO1A组成的肠标签，该参照基因群包括ACTB、ATP5E、GPX1、UBB和HPRT1；

根据以下等式1计算参考样品和生物样品的靶基因群的ΔCq值，并将该值输入到计算机程序中；以及

对输入计算机程序的值进行非负矩阵因子分解(NMF)和基于NMF的聚类以分成多个集群，将每个集群中靶基因群的分数(d′_ik)应用到以下等式2计算出分值(SV)，根据SV将集群分为肠分子亚型、炎性分子亚型、间质分子亚型、混合基质分子亚型和胃分子亚型，并通过分析总体存活率方面的预后来预测生物样品所属的分子亚型的预后，

其中，将胃癌的分子亚型进行分类，使得胃标签SV为最大值的集群被判定为胃分子亚型；在除了被判定为胃分子亚型的集群之外的集群中，间质标签SV为最大值且增殖标签SV为最小值的集群被判定为间质分子亚型；在除了被判定为胃分子亚型的集群和被判定为间质分子亚型的集群外的集群中，免疫标签SV为最大值且肠标签SV为最小值的集群被判定为炎性分子亚型；在除被判定为胃分子亚型的集群、被判定为间质分子亚型的集群和被判定为炎性分子亚型的集群之外的集群中，干细胞样标签SV为最大值的集群被判定为混合基质分子亚型；并且剩余的最后集群被判定为肠分子亚型，并且

在总体存活率方面，胃癌的分子亚型如果是炎性分子亚型，则被预测为预后良好组；如果是肠分子亚型和胃分子亚型，则被预测为预后中等组；如果是混合基质分子亚型和间质分子亚型，则被预测为预后不良组：

[等式1]

ΔCq＝(靶基因的Cq值)-(参照基因群的Cq平均值)

其中，参照基因群的Cq均值表示包括ACTB、ATP5E、GPX1、UBB和HPRT1的参照基因群的Cq值的平均值。

[等式2]

其中，SV是在通过基于NMF的聚类获得的集群中，每种标签的表达平均值，t是属于每种标签的基因(i)的数量，SN₀是标签(θ＝6)，k表示集群的数量，为2至7之间的整数，d′_ik表示基于各基因的总体平均值与各集群平均值之间的距离的分数，并由以下等式3得到：

[等式3]

d′_ik＝sign(d_ik)(|d_ik|-Δ)+

其中，阈值(Δ)设置为0.1，所以根据分子亚型，没有特异性的基因收敛至0，sign(d_ik)表示d_ik的符号，并且d_ik根据以下等式4得到：

[等式4]

其中，表示在分子亚型(k)中基因(i)的表达平均值，是相同基因(i)的总体平均值，m_k表示用于校正的标准误差的自由度S_i表示属于分子亚型(k)的基因(i)的总体样品的标准偏差，以及S₀表示S_i的中值。

有益效果

根据本发明，开发了能够利用靶基因群的mRNA表达水平的定量值来就总体存活率方面预测进展期胃癌预后的算法，通过该方法可预测预后并且这可作为确定胃癌患者治疗方法的辅助信息。

附图说明

图1为本发明的实验分析流程图，其中步骤I是作为一系列分析结果的鉴定胃癌(GC)分子亚型、分类器和GC标签(NMF，非负矩阵因子分解；SAM，微阵列的显著性分析；PAM，微阵列预测分析；GSEA，基因集富集分析；WGCNA，加权基因共表达网络分析)的过程，步骤II是通过构建描述患者样品中胃癌标签表达的一系列探针(迷你分类器-26)来鉴定胃癌标签和分子亚型以使临床功效最大化的过程。

图2示出了用分类器-PAM932得到的NMF一致性聚类结果，其中(a)示出了以分子标签数据库(MSigDB)和先前研究中分析的基因集(消化、解痉多肽表达性化生(SPEM)、肠化生(IM)、免疫系统、基质、上皮-间质转换(EMT)和细胞周期)为特征的训练集I热图(GSE13861p)，这是使用独立测试集I和分类器-PAM932验证NMF一致性聚类的结果(GST，胃亚型；INF，炎症；MSC，间质；INT，肠道；MXD，混合基质分子亚型)。(b)、(c)和(d)分别示出了GSE62254(亚洲癌症研究组，ACRG)、TCGA和GSE15459(新加坡)的热图，并且先前获得的亚型信息在每个热图上一起提供。

图3示出了NMF聚类，在SD＝0.8、SD＝0.9和SD＝1.0下，使用以下来标出样品：(a)集群编号(k)为2至7和具有以下分散截止值的一致性图，(b)同表象相关系数，和(c)轮廓宽度。

图4示出了由WGCNA分析发现的定义亚型的胃癌标签，其中(a)示出了GSE13861p的系统树图，(b)示出了在GSE13861p中检测到的模块，和GSE62254、TCGA和GSE15459的相应模块图，当作为独立测试集的多个队列中的各模块与GSE13861p的模块共有共同基因时，为了视觉上方便，对该模块的颜色进行一对一调整，(c)示出了对训练集的各亚型中前25％高分的PAMgenes的作图结果，(d)示出了由在GC中保守的模块组合表示的6种GC标签，以及(e)示出了使用斯皮尔曼相关性法分析了GC亚型与6种GC标签之间的相关性，其中红色表示与相应亚型正相关的模块，蓝色表示与相应亚型负相关的模块。

图5示出了使用作为步骤II的训练集的Merged 1259(GSE13861p、GSE62254(ACRG)、TCGA和GSE15459(新加坡))的根据五种亚型的总体存活率(OS)(似然比检验；p＝3.42e-09)。在Merged 1259队列的样品中，示出了除61个没有临床信息的样品外的1198个样品的总体存活率曲线，其中，各分子亚型的5年存活率如下：INF为76.1％(95％置信区间，67.7-85.7)，INT为65.1％(95％置信区间：56.2至75.4)，GST为64.6％(95％置信区间：55.0至75.9)，MXD为51.3％(95％置信区间：42.1至62.4)，MSC为46.3％(95％置信区间：38.0至56.5)。

图6示出了用癌细胞系研究胃癌间质标签(n＝26)，其中(a)为结合癌细胞系数据展示训练集中GC亚型的热图，以及(b)为与基质模块本征基因(eigengene)共同排列的热图，箭头表示Hs746、SNU-484(MSC)、MKN-45和NCI-N87(INT)细胞系。

图7通过(a)体外划痕愈合试验、(b)侵袭试验、(c)肿瘤球状体体外形成试验(比例尺，100μm)和(d)体内原位肿瘤形成(n＝3)来比较GC细胞系的MSC和INT类型，其中Hs746T和SNU-48肿瘤的扩散生长以及MKN-45和NCI-N87肿瘤的限制在MRI图像(轴向切片)中以白色虚线为界，黑色虚线框内的图像描述了原位模型构建。通过体外划痕愈合试验(e)、侵袭试验(f)和肿瘤球状体体外形成试验(g)观察到用TGF-β抑制剂(LY2157299(LY))处理的Hs746T细胞的间质行为的抑制。在联合药物治疗(奥沙利铂和氟尿嘧啶)期间，同时给药TGF-β抑制剂的情况下，通过在异种移植小鼠模型(n＝8)中测量Hs746t肿瘤(h)和NCI-N87肿瘤(i)的肿瘤生长来说明体内耐药性试验的结果。

图8示出了在GC中通过迷你分类器26分类的5种分子亚型，其中(a)示出了PAM中5种分子亚型的26个代表性基因的相对差异，(b)为基于NMF的聚类(26个基因)的GC微阵列数据热图(采用Combat方法合并，N＝1259；GSE13861p、GSE15459、TCGA和GSE62254)，(c)为基于NMF聚类(26个基因)的GC qPCR数据热图，(d)和(e)为在(b)和(c)中聚类的5种分子亚型的总体存活率(OS)，(d)示出了在Merged 1259队列样品中，除61个无临床信息的样品外的1198个样品的OS曲线，其中各分子亚型的5年存活率为：INF为67.3％(95％置信区间：61.3至73.9％)，INT为58.8％(95％置信区间：52.9至65.4％)，GST为55.3％(95％置信区间：48.2至63.4％)，MXD为45.0％(95％置信区间：36.5至55.4％)，和MSC为33.0％(95％置信区间：27.3至40.0％)，且(e)为从qPCR325队列的qPCR检测结果中分出的含有26个基因的群的5年存活率OS曲线，其中各分子亚型的5年存活率为：INF为78.5％(95％置信区间：69.4至88.8％)，INT为70.7％(95％置信区间：61.1至81.8％)，GST为68.4％(95％置信区间：55.1至84.9％)，MXD为54.6％(95％置信区间：41.7至71.4％)，和MSC为57.5％(95％置信区间：48.4至68.2％)。

图9为从新鲜冷冻组织的微阵列数据和qPCR数据和福尔马林固定的石蜡包埋样品的qPCR数据中选择和分析26个具有稳定性的基因(迷你分类器-26)的详细流程图。

图10示出了通过NMF聚类得到的五个集群以分子亚型的命名方法。

具体实施方式

下面将具体描述本发明的构成。

本发明涉及一种用于预测II期和III期进展期胃癌预后的组合物，该组合物包含：用于测量靶基因群的mRNA表达水平的试剂，该靶基因群包括TFF1、TFF2、VSIG1、CNN1、NEXN、SCRG1、SORBS1、SPARCL1、AURKA、BUB1、CDC20、CEP55、PTTG1、UBE2C、CD8A、GBP1、GBP5、GZMB、NKG7、WARS、ANTXR1、SFRP4、VCAN、CDH17、CDX1和MYO1A；以及

用于测量参照基因群的mRNA表达水平的试剂，该参照基因群包括ACTB、ATP5E、GPX1、UBB和HPRT1。

本发明的用于预测II期和III期胃癌预后的组合物可通过测量靶基因群mRNA的表达水平来在存活率方面预测进展期胃癌患者的预后。

如本文所用，术语“进展期胃癌”是指相当于基于AJCC第6版的II期至III期的胃癌。

如本文所用，术语“靶基因”或“标志基因”在本说明书中可互换使用，并且是指能够区分正常和病理状态、可预测治疗后5年的存活率或对治疗反应作出客观预测的标记物。在本发明中，靶基因或标志基因是适用于预测进展期胃癌预后的基因，并且是表现出根据预后而增加或减少的不同的mRNA表达水平。根据本发明的一种实施方式，针对具有异质性的胃癌，由新鲜冷冻组织的微阵列数据和qPCR数据以及石蜡包埋样品标本的qPCR数据确保统计学显著性，选择能够分类为5种分子亚型(即肠分子亚型、炎性分子亚型、间质分子亚型、混合基质分子亚型和胃分子亚型)的26种基因，即TFF1、TFF2、VSIG1、CNN1、NEXN、SCRG1、SORBS1、SPARCL1、AURKA、BUB1、CDC20、CEP55、PTTG1、UBE2C、CD8A、GBP1、GBP5、GZMB、NKG7、WARS、ANTXR1、SFRP4、VCAN、CDH17、CDX1和MYO1A。

如本文所用，术语“参照基因”是指始终稳定表达的基因。也就是说，作为在任何组织中恒定地表达的基因，参照基因用于通过比较参照基因的表达量与标志基因表达量来检查标志基因的表达量。也就是说，由于存在样品间的质量差异和取决于储存设施的变化，因此难以基于测定的基因表达量来鉴定生物学变异。因此，通过标准化确定样品之间的基因表达量(ΔCq)。作为常规标准化方法，可以使用利用分位数的方法、全局标准化法、利用参照基因的方法等，但在本发明中使用利用参照基因的标准化方法。此外，由于使用单个基因作为参照基因可能降低精确度，因此可以通过选择多个基因并且检查变异来选择适合于组织特征的参照基因。在本发明中，选择与胃癌相关的文献中公开的基因或现有商业化产品的基因，并评估所选基因是否适合作为目标，然后用作参照基因。根据本发明的一种实施方式，针对于文献中公开的21种参照基因，将食道癌、胰腺癌、胃癌、结肠癌等癌组织与正常组织进行比较，在其中根据qPCR选择变异最小的基因作为参照基因。随后，选择ACTB、ATP5E、GPX1、UBB和HPRT1作为商业化产品中使用的参照基因并进行qPCR，最后，使用ACTB、ATP5E、GPX1、UBB和HPRT1组成的基因群作为用于预测本发明的进展期胃癌的预后或对抗癌药物反应的概率的参照基因。

如本文所用，术语“测量mRNA表达水平”是指通过确认生物样品中预后标志基因的mRNA表达水平的过程以预测进展期胃癌的复发，并且意味着mRNA的量的测量。例如，测量过程可以通过实时定量聚合酶链式反应(qPCR)进行，但本发明并不限于此。

在根据本发明的组合物中，用于测量预后标志基因的mRNA表达水平的试剂包括与预后标志基因的mRNA特异性结合的引物、探针或反义核苷酸。由于根据本发明的预后标志基因的信息在GenBank、UniProt等中是已知的，因此，基于这些信息，本领域普通技术人员可以容易地设计与基因的mRNA特异性结合的引物、探针或反义核苷酸。

如本文所用，术语“引物”是指识别目标基因序列的片段，并且包含成对的正向引物和反向引物，但优选地是成对的提供分析结果以及特异性和灵敏度的引物。由于引物核酸序列是与样品中存在的非靶序列不一致的序列，因此在仅扩增含有互补引物结合位点的靶基因序列并且不引起非特异性扩增的引物的情况下，可以赋予高特异性。根据本发明的一种实施方式，可以使用SEQ ID NO:1至62中列出的引物组。靶基因群和参照基因群中的每个的引物组均列在下表1和表2中。

如本文所用，术语“探针”是指能够与样品中待检测的靶材料特异性结合并且以通过结合来特异性鉴定样品中靶材料的存在的物质。探针的类型没有限制，是本领域常规使用的探针类型，优选地，探针可以是肽核酸(PNA)、锁核酸(LNA)、肽、多肽、蛋白质、RNA或DNA。更特别地，作为生物材料，探针包括来源于生物体的材料、其类似物或体外制造的生物材料，并且探针的实例包括酶、蛋白质、抗体、微生物、动物或植物细胞或器官(细胞器)、神经元、DNA和RNA，DNA的实例包括cDNA、基因组DNA、寡核苷酸，RNA的实例包括基因组RNA、mRNA和寡核苷酸，并且蛋白质的实例包括抗体、抗原、酶、肽等。根据本发明的一种实施方式，可以使用SEQ ID NO:63至93所示的探针。优选地，探针可以是荧光标记的。靶基因群和参照基因群中的每个的探针均列在下表1和表2中。

如本文所用，术语“反义”是指具有核苷酸碱基序列和亚基之间的骨架的寡聚体，该寡聚体通过Watson-Crick碱基对与RNA中的靶序列杂交，以与靶序列中的mRNA形成RNA:寡聚体二聚体。寡聚体可以与靶序列具有精确的序列互补性或近似互补性。

如本文所用，术语“预测预后”旨在包括确定对象对特定疾病或病症的易感性、确定具有特定疾病或病症的对象的预后(例如，鉴定转移前或转移性癌症的状况、确定癌症的阶段、或确定癌症对治疗的反应)、或治疗计量学(therametrics，例如，监测对象的状况以提供关于治疗功效的信息)。本发明的目的是在总体存活率方面预测手术后胃癌患者的预后。

根据本发明的一种实施方式，目标基因的选择如下。首先，通过对进展期胃癌组织进行基于一致性的NMF，确定具有不同分子特征的高度相关的5种亚型，并选择对亚型具有特异性的基因群。

作为降维方法，NMF(非负矩阵因子分解)是将表达模式相似性高的样品按亚型分组成一亚型的方法。

为了确定胃癌的分子亚型，利用降维方法将一个矩阵因式分解为两个非负矩阵，从而通过NMF算法分离公共部分。设实际的信息组为V，待分离矩阵为W和H，满足条件V＝WH，且在该情况下，W表示基矩阵，H表示编码矩阵。V是W的基的和，且V是大小为(n×m)的矩阵，W是大小为(n×r)的矩阵，H是大小为(r×m)的矩阵。由于高阶数据矩阵被分解为低阶系数矩阵和基矩阵，并且各矩阵都具有稀疏性，因此可以基于部分来表示。通过该算法可以将胃癌按照相似性进行分组，以用于胃癌亚型的分类。

[等式图1]

利用R程序的NMF包，基于一致性图和共表型图，选择适合胃癌亚型的集群。确认各自的标准差(SD＝0.8、0.9、1.0)中对k(集群数)的一致性聚类，以最终选择胃癌亚型的数量(如图3)。根据本发明的一种实施方式，K设置为5.

从生物基因集中获得各亚型的特征来识别分子异质性，结果，胃癌被分为五种亚型，即肠分子亚型、炎性分子亚型、间质分子亚型、混合基质分子亚型和胃分子亚型。

作为使用Cox比例风险模型对五种分子亚型进行了存活分析的结果，从总体存活率来看，炎性分子亚型表现出了良好的预后，肠分子亚型和胃分子亚型表现出中等的预后，混合基质亚型和间质分子亚型表现出不良预后。

同时，采用加权相关网络分析法(WGCNA)来分析胃癌的生物学特性。WGCNA是一种基于表现出相似表达模式的基因之间的表达关联对基因进行聚类的分析技术，其中通过WGCNA来搜索模块(高度相关的基因集群)，根据模块的性质和模块之间的关联，选择反映胃癌特征的标签。根据本发明的一种实施方式，鉴定出在胃癌中稳定保留的六种标签，即由TFF1、TFF2和VSIG1组成的胃标签；由CNN1、NEXN、SCRG1、SORBS1和SPARCL1组成的间质标签；由AURKA、BUB1、CDC20、CEP55、PTTG1和UBE2C组成的增殖标签；由CD8A、GBP1、GBP5、GZMB、NKG7和WARS组成的免疫标签；由ANTXR1、SFRP4和VCAN组成的干细胞样标签；由CDH17、CDX1和MYO1A组成的肠标签。

通过斯皮尔曼相关性对比分析，证实了6种标签的代表性基因与5种胃癌分子亚型之间的相关性。通过这一过程，选择出通常保守的基因，然后根据采样方法(新鲜冷冻法、FFPE)以及根据表达测试平台(微阵列法、qPCR法)中选择展示出稳定表达结果的26种基因，即TFF1、TFF2、VSIG1、CNN1、NEXN、SCRG1、SORBS1、SPARCL1、AURKA、BUB1、CDC20、CEP55、PTTG1、UBE2C、CD8A、GBP1、GBP5、GZMB、NKG7、WARS、ANTXR1、SFRP4、VCAN、CDH17、CDX1和MYO1A。

将选定的26种基因表示为靶基因群，利用各靶基因的分数(d′_ik)计算各靶基因群对应的每个标签的表达平均值，并将结果用于鉴定分子亚型。

当根据上述确定胃癌分子的亚型后，基于各分子亚型的存活曲线预测预后。例如，根据总体存活率，分子亚型被分为预后良好组、预后中等组和预后不良组。具体地，在总体存活率方面，炎性分子亚型被预测为预后良好组，肠分子亚型和胃分子亚型被预测为预后中等组，混合基质分子亚型和间质分子亚型则被预测为预后不良组。

本发明用于预测II期和III期胃癌预后的组合物还可以包含药学上可接受的载体。

药学上可接受的载体包括在医药领域中常用的载体和溶媒，其实例包括但不限于离子交换树脂、氧化铝、硬脂酸铝、卵磷脂、血清蛋白(如人血清白蛋白)、缓冲物质(如，各种磷酸盐、甘氨酸、山梨酸、山梨酸钾和饱和植物脂肪酸的部分甘油酯混合物)、水、盐或电解质(如硫酸鱼精蛋白、磷酸氢二钠、磷酸氢钾、氯化钠和锌盐)、硅溶胶、三硅酸镁、聚乙烯吡咯烷酮、基于纤维素的基质、聚乙二醇、羧甲基纤维素钠、聚芳酯、蜡、聚乙二醇和羊毛脂等。

此外，除上述成分外，本发明的组合物还可以包含润滑剂、润湿剂、乳化剂、悬浮剂、防腐剂等。

本发明还提供了预测II期和III期胃癌预后的试剂盒，该试剂盒包含用于预测II期和III期胃癌预后的组合物。

例如，该试剂盒可以是qPCR(实时定量聚合酶链式反应)试剂盒等。

预测II期和III期胃癌预后的试剂盒还可以包括一种或多种适合于分析方法的不同地配制的其他组合物、溶液或装置。优选地，该诊断试剂盒还包括qPCR所需的必要元件。该qPCR试剂盒包含对编码标志蛋白的基因具有特异性的引物对。引物是序列对基因的核酸序列具有特异性的核苷酸，并且长度可以为约7bp至约50bp，更优选为约10bp至约30bp。此外，qPCR试剂盒可包括对对照基因的核酸序列具有特异性的引物。此外，qPCR试剂盒可包括试管或其他适当的容器、反应缓冲液(各种pH和镁浓度)、脱氧核苷酸(dNTP)、酶比如Taq聚合酶和逆转录酶、DNA酶抑制剂、核糖核酸酶抑制剂、DEPC-水、灭菌水等。

此外，本发明用于预测II期和III期胃癌预后的试剂盒可包括用于进行DNA芯片的必要元件。DNA芯片试剂盒可包括附着有与基因或该基因的片段对应的cDNA或寡核苷酸的基板，以及用于制备荧光标记探针的反应物、试剂、酶等。此外，该基板可包括与对照基因或其片段对应的cDNA或寡核苷酸。

本发明还提供了一种为预测II期和III期进展期胃癌的预后提供信息的方法或一种预测II期和III期进展期胃癌预后的方法，各方法包括：

测量靶基因群和参照基因群的mRNA表达水平，该靶基因群包括：由TFF1、TFF2和VSIG1组成的胃标签；由CNN1、NEXN、SCRG1、SORBS1和SPARCL1组成的间质标签；由AURKA、BUB1、CDC20、CEP55、PTTG1和UBE2C组成的增殖标签；由CD8A、GBP1、GBP5、GZMB、NKG7和WARS组成的免疫标签；由ANTXR1、SFRP4和VCAN组成的干细胞样标签；以及由CDH17、CDX1和MYO1A组成的肠标签，该参照基因群包括ACTB、ATP5E、GPX1、UBB和HPRT1；

对于输入计算机程序的值进行非负矩阵因子分解(NMF)和基于NMF的聚类以分成多个集群，将每个集群中靶基因群的分数(d′_ik)应用到以下等式2计算出分值(SV)，根据SV将集群分为肠分子亚型、炎性分子亚型、间质分子亚型、混合基质分子亚型和胃分子亚型，并在总体存活率方面通过分析预后来预测生物样品所属的分子亚型的预后，

[等式1]

ΔCq＝(靶基因的Cq值)-(参照基因群的Cq平均值)

[等式2]

其中，SV是在通过基于NMF的聚类获得的集群中，每种标签的表达平均值，t是属于每种标签的基因(i)的数量，SN₀是标签(θ＝6)，k表示集群的数量，为2至7之间的整数，d′_ik表示基于各基因的总平均值与各集群平均值之间的距离的分数，并由以下等式3得到：

[等式3]

d′_ik＝sign(d_ik)(|d_ik|-Δ)₊

[等式4]

根据本发明，为预测II期和III期胃癌的预后提供信息的方法将逐步详细描述如下。

首先，测量从II期和III期胃肿瘤获得的一定数量的参考样品中的靶基因群的mRNA表达水平，测量从II期和III期胃肿瘤中获得的生物样品中的靶基因群的mRNA表达水平，并将与参考样品和生物样品的靶基因群的mRNA表达水平对应的值输入计算机程序。

所述一定数量，即足以显示统计学显著性的参考样品数量，是指对靶基因群的mRNA表达水平进行非负矩阵因子分解(NMF)时，满足p＜0.01的样品数量。

此外，参考样品的数量必须是足以根据基于NMF的聚类表现出差异化的基因表达模式并且足以分类为多个集群的数量。

根据基于NMF的聚类，参考样品的数量必须足够显示出基因表达模式的不同，并将其划分为多个集群。

满足这些条件的参考样品的数量优选可以为300至10000个。

优选地，用qPCR测量靶基因群的mRNA表达水平，并将通过qPCR测得的mRNA表达水平确定为ΔCq。Cq值是指PCR过程中扩增开始显著增加的循环数，该PCR过程按如下进行：95℃下10分钟(起始变性)；95℃下10秒，进行40次至45次(变性)，60℃下5秒(退火)；然后，72℃下25秒(延伸)。

用每个靶基因群和参照基因群的Cq平均值根据以下等式1计算ΔCq值

[等式1]

ΔCq＝(靶基因的Cq值)-(参照基因群的Cq平均值)

其中，参照基因群的Cq平均值表示包括ACTB、ATP5E、GPX1、UBB和HPRT1的参照基因群的Cq值的平均值。

因此，ΔCq值是与输入计算机程序中的靶基因群的mRNA表达水平对应的值。

第二步是对输入计算机程序的参考样品和生物样品的靶基因群的ΔCq值进行NMF和基于NMF的聚类以分成多个集群，将每个集群中靶基因群的分数(d′_ik)应用到以下等式2中计算出分值(SV)，根据SV将集群分为肠分子亚型、炎性分子亚型、间质分子亚型、混合基质分子亚型和胃分子亚型，并就总体存活率方面通过分析预后来预测生物样品所属的分子亚型的预后。

[等式2]

其中，SV是在通过基于NMF的聚类获得的集群中，每种标签的表达平均值，t是属于每种标签的基因(i)的数量，SN₀是标签(θ＝6)，k表示集群的数量，为2至7之间的整数，d′_ik表示基于各基因的总平均值与各集群平均值之间的距离的分数：

根据本发明，k优选地为5。即当k＝5时，表示通过基于NMF的聚类得到5种集群。

分数(d′_ik)是基于各基因的总体平均值与各集群平均值(即相同基因(i)的t统计值)之间的距离的分数，该分数(d′_ik)通过对属于同一分子亚型的样品基因的表达量加权来进行标准化，并用线性判别分析(LDA)中常用的统计方法根据以下等式3计算而得到：

[等式3]

d′_ik＝sign(d_ik)(|d_ik|-Δ)₊

[等式4]

其中，表示在分子亚型(k)中基因(i)的平均值，是相同基因(i)的总体平均值，m_k表示为了校正的标准误差的自由度S_i表示属于分子亚型(k)的基因(i)的总体样品的标准偏差，以及s₀表示S_i的中值。

在分数(d′_ik)中，正数表示基因高表达，负数表示基因低表达，0表示基因表达无变化。因此，正数的数值越大，基因表达越高，负数的数值越大，基因表达越低。

将胃癌的分子亚型进行分类，使得胃标签SV为最大值的集群被判定为胃分子亚型；在除了被判定为胃分子亚型的集群之外的集群中，间质标签SV为最大值且增殖标签SV为最小值的集群被判定为间质分子亚型；在除了被判定为胃分子亚型的集群和被判定为间质分子亚型的集群外的集群中，免疫标签SV为最大值且肠标签SV为最小值的集群被判定为炎性分子亚型；在除被判定为胃分子亚型的集群、被判定为间质分子亚型的集群和被判定为炎性分子亚型的集群之外的集群中，干细胞样标签SV为最大值的集群被判定为混合基质分子亚型；并且剩余的最后集群被判定为肠分子亚型。

根据分子亚型的存活曲线，在总体存活率方面针对分类的分子亚型预测预后。

如存活曲线中所观察的，胃癌的分子亚型表现出差异化的预后模式，在总体存活率方面，炎性分子亚型可被预测为预后良好组，肠分子亚型和胃分子亚型可被预测为预后中等组，混合基质分子亚型和间质分子亚型可被预测为预后不良组。

因此，通过确定生物样品所属的分子亚型并检查该分子亚型的存活曲线，可以预测预后。

生物样品可以是新鲜肿瘤组织、新鲜冷冻肿瘤组织、福尔马林固定的石蜡包埋肿瘤组织、细针抽吸液、腹水、管清洗液、胸膜液等，且优选为福尔马林固定的石蜡包埋肿瘤组织。

此外，可以通过qPCR检测靶基因群mRNA的表达水平。

在下文中，通过参考示例性实施方式的详细描述和附图，可以清楚地理解本发明的优点和特征以及实现它们的方法。然而，本发明可以以许多不同的形式实施，并且不应当解释为受限于下文所述的实施例。提供这些示例性实施方式是为了使本发明透彻且完整并将本发明的范围完全传达给本发明所属领域的普通技术人员，并且本发明应仅由所附权利要求限定。

[实施例]

(患者和样品)

得到了延世大学Severance医院(YUSH)从2000至2010年在初级治疗中进行了胃癌切除的胃癌患者的新鲜冷冻肿瘤标本及临床资料。所有样品均在获得患者的书面同意后收集，并且该研究获得了YUSH机构审查委员会(Institutional Review Committee of YUSH)的批准。对样品进行了标注，但与可识别患者的信息分开。回顾性地获得临床数据。总体存活(OS)定义为从手术至死亡的时间，无复发存活定义为手术至首次复发的时间。当患者在最后一次接触时还存活并且没有复发，则对数据进行审查。

使用具有48803种基因特征的HumanHT-12v3.0Expression BeadChip阵列(Illumina)获得497个经手术切除的胃癌冷冻组织样品的基因表达谱(GSE13861p)。简单地说，使用RecoverAll^TM总核酸分离试剂盒(Ambion)或mirVana RNA分离标记试剂盒(Ambion)从新鲜冷冻组织中提取总RNA。使用NanoDrop 2000(Thermo Fischer Scientific)在260nm和280nm处(A₂₆₀:A₂₈₀＝1.8)测定RNA的浓度和纯度。利用RNA Nano 6000芯片(Agilent)评估RNA的完整性(RIN>7)。使用TotalPrep^TM RNA扩增试剂盒(Illumina)按照制造商的方案标记500ng总RNA，然后使用BeadChip阵列平台测量基因表达水平。

(GC学习的训练集和测试集)

用于寻找GC分子亚型的训练集I由GSE13861p(n＝497，Illumina HumanHT-12v3.0Expression BeadChip阵列)组成。用于确认GC分子亚型的测试集I由GSE15459(n＝200，Affymetrix Human Genome U133plus 2.0阵列)、TCGA(n＝262，Illumina HiSeq2000)和GSE62254(n＝300，Affymetrix Human Genome U133plus 2.0阵列)数据集组成。

为了选择最终的迷你分类器-26(26个基因)，训练集II由采用Combat法通过合并GSE13861p(n＝497)、GSE15459(n＝200)、TCGA(n＝262)和GSE62254(n＝300)而得到的Merged1259(n＝1259)组成，并通过由qPCR325(n＝325)组成的测试集II鉴定可基于qPCR测得的26个基因。为了获得qPCR325，使用MasterPure^TM全DNA和RNA纯化试剂盒(Epicentre)提取总RNA。用M-MLV逆转录酶(Life Technologies)制备cDNA。用NanoDrop2000测定cDNA的浓度。利用SensiFAST Probe Lo-ROX试剂盒(Bioline)、5'FAM/3'BHQ-1探针(BiosearchTechnologies)、基因特异性引物、ViiA^TM 7Real-Time PCR系统(Applied Biosystems)和5ng总cDNA进行qPCR。

(数据处理)

数据预处理：微阵列数据集主要在R语言环境下进行处理。根据“微阵列数据线性模型(limma)”包的阵列间标准化(分位数)方法，对Illumina BeadChip阵列平台的数据集进行标准化。采用包括鲁棒多阵列平均标准化的R“affy”包对GSE 15459和GSE62254进行标准化。qPCR数据集根据内参进行标准化。对于基因过滤，应考虑平台衍生探针的有效性和基因表达的差异性。对于训练集的情况，数据集先进行批量调整，然后与“结合批量基因表达微阵列数据时的对抗批量效应(ComBat)”方法结合。

基于NMF的分类：采用“非负矩阵因子分解(NMF)算法与框架”包对Combat合并的数据进行分类。集群的数量(k)设置为2至7。采用Brunet方法作为迭代逼近的更新算法。在描述NMF衍生的集群之前，使用“"Silhouette”R包将离群样品从各集群中排除。为了定义代表各NMF集群的基因，SAM和PAM分别使用Bioconductor包“siggenes”和“pamr”进行处理。WGCNA分析：使用R“wgcna”包对497个GC样品进行WGCNA处理。对于网络构造，加权网络邻接由幂为6的共表达相似性来定义。为了避免选择任意的截断，使用WGCNA提供的“软阈值设定步骤”。采用来自R“dynamicTreeCut”包的动态杂交法作为模块检测方法。为了评估各模块是否与存活率和临床病理变量相关，利用了不同的模块特征，如连接性、模块显著性和模块本征基因(eigengene)。

基因集富集分析(GSEA)：使用R“GSEABase”包执行GSEA。现有定义的基因集从分子标签数据库(MSigDB；www.broadinstitute.org/msigdb)获得。使用基因本体联合会(http://geneontology.org)的基因本体进行富集分析。

存活分析：分别采用R“survival”和“meta”包中的Cox比例风险模型和HR的meta分析进行存活分析。

基因表达谱的层次聚类与图示：利用Gene Cluster 3.0对微阵列数据集进行基因聚类。使用R“gplot”包以图形方式使层次聚类的结果可视化。

(统计分析)

采用超几何分布检验/费舍尔精确检验(Fisher’s exact test)、皮尔逊相关分析(Pearson’S correlation)、斯皮尔曼相关分析(Spearman’s correlation)和威尔科克森秩和检验进行统计检验(Wilcoxon rank-sum test)。

(具有原代细胞特异性的基因表达谱化)

原代细胞培养：用含2％抗生素(Welgene LS203-01)的Dulbecco磷酸盐缓冲盐水(Welgene LB00-02)冲洗原生组织并用无菌刀片切碎。用0.2μm注射器过滤后，将切碎的组织与α-MEM(Gibco A10490)和150U/ml胶原酶II(Thermo Fisher Scientific)在37℃下在含5％CO₂的湿润环境中培养24小时。将培养的组织在200×g下离心5分钟然后转移至新鲜培养基中。将收获的细胞在37℃下在5％CO₂气氛中下培养2至3天。

使用Illumina HiSeq 2500测序系统进行总RNA的测序：通过用NanoDrop8000分光光度计分析1μl总RNA提取物来确定RNA的纯度。采用Agilent Technologies2100Bioanalyzer验证总RNA完整性，并且以RNA完整性数值(RIN)与大于200nt的RNA片段分布值(DV200)的百分比表示，。按照厂商说明书(Illumina TruSeq RNA Access Library试剂盒)制备总RNA测序文库。随后，在高温下用二价阳离子将100ng总RNA裂解成小片段。在第一和第二链合成过程中，利用随机引物从裂解的RNA片段中产生cDNA，并将测序衔接子连接到产生的双链cDNA片段上。使用序列特异性探针从该文库中捕获转录组的编码区，以生成最终的文库。用毛细管电泳(Bioanalyzer，Agilent)验证扩增文库的质量。使用SYBR GreenPCR Master Mix(Applied Biosystems)进行qPCR，并将等摩尔量的标有索引的文库合并到池中。在cBot自动集群生成系统(Illumina)的流动池中实现集群的生成。随后将流动池加载到HiSeq 2500测序系统(Illumina)上，以2×100bp的读取长度进行序列分析。

(体内和体外实验验证)

细胞系：人胃癌细胞系SNU-1、SNU-5、SNU-16、SNU-216、SNU-484、SNU-520、SNU-601、SNU-620、SNU-638、SNU-668、SNU-719、MKN-1、MKN-45、MKN-74、KATOIII、NCI-N87和Hs746T购自韩国细胞系库(韩国首尔)；YCC-1、YCC-2、YCC-3、YCC-6、YCC-7、YCC-9、YCC-10、YCC-11和YCC-16购自延世肿瘤研究所(韩国首尔)。SNU-1、SNU-5、SNU-16、SNU-216、SNU-484、SNU-520、SNU-601、SNU-620、SNU-638、SNU-668、SNU-719、MKN-28、MKN-45、MKN-74、KATOIII和NCI-N87在RPMI 1640(Welgene，韩国大邱)中生长；Hs746T在杜氏改良伊格尔培养基(DMEM；Welgene，韩国大邱)中生长；YCC-1、YCC-2、YCC-3、YCC-6、YCC-7、YCC-9、YCC-10、YCC-11和YCC-16在伊格尔最低基础培养基(MEM；Welgene，韩国大邱)中生长。所有细胞均在添加了10％FBS(Gibco)和1％抗生素-抗菌剂溶液(每毫升含10000单位青霉素、10mg链霉素、和25μg两性霉素B，Sigma-Aldrich)的完全培养基中在37℃下含5％CO₂的湿润环境中培养。所有细胞经e-Myco^TM和支原体PCR检测试剂盒(iNtRON Biotechnology，韩国城南)证实均为支原体阴性。

侵袭试验：本试验将2×10⁴个HUVEC细胞置于培养基(M199)中并放至纤维连接蛋白包被的迁移小室(transwell)中，随后在迁移小室的底部涂上0.2％明胶，并将细胞培养48小时直至形成单层。此后，将含有无FBS的CellTracker^TM(分子探针，C2925)的1×10⁵个/50μl Hs746T和NCI-N87细胞分别添加到迁移小室中。将含有10％FBS的培养基添加到下室中。培养48小时后，用棉签取出膜上部的细胞。将膜下部的细胞在200μl裂解缓冲液中，室温下裂解2到3小时。测定Ex/Em 492/517处的荧光。为了检验TGF-β抑制剂对细胞侵袭能力的影响，添加50μM LY2157299(美国加州AdooQ)。

迁移分析：Hs746T和NCI-N87细胞在含10％FBS和1％抗生素的培养基中生长成单层。当细胞单层汇合度达到70％时，用100μl移液管尖端进行刮划。72小时后，测量划痕宽度，并按划刻后立即测得的划痕宽度进行标准化。为了评估TGF-β抑制剂对细胞迁移的影响，添加LY2157299(50μM)。

肿瘤球状体形成分析：将10种细胞培养在96孔板中在添加了bFGF、EGF、B27、10％FBS和1％抗生素的50μl DMEM/F12(Gibco)中培养。细胞培养30天后，计算各孔中的肿瘤球状体数量。此外，为了检查TGF-β抑制剂对肿瘤球状体形成的影响，添加LY2157299(50μM)。

原位小鼠模型的体内肿瘤形成：所有动物实验都是在国际实验动物评估和认可委员会(AAALAC)的批准下进行的。为建立原位异种移植小鼠模型，在约1小时内，将每只BALB/c裸鼠(雄性)的皮肤和腹膜沿上中线切开约5mm，并将1×10⁷个GC细胞(Hs746T和NCI-N87)移植到每只小鼠的外胃壁。将胃放回腹膜，并通过单层伤口缝合来使腹壁闭合。为了观察模型中肿瘤的生长，使用配有Bruker动物线圈(RF SUC 400 1H M-BR-LIN ROAD，BrukerMedical Systems)的9.4T动物核磁共振成像(MRI)仪来监测肿瘤的存在和大小，(MRI测量条件：Echo＝1，TR＝2300ms，TE＝22.0ms，FA＝180deg，TA＝Oh4m54s400ms，NEX＝2，和FOV＝4.00cm)。

异种移植小鼠模型的药物反应：为建立异种移植小鼠模型，将1×10⁷个GC细胞(Hs746T和NCI-N87)移植到每只BALB/c裸鼠(雄性)的股骨近端。当肿瘤体积增长到400mm³时，将带肿瘤的小鼠随机分为三个不同的治疗组(PBS对照组、Oxal+5FU/PBS治疗组和Oxal+5FU/LY2157299(TBF-β抑制剂)治疗组，每组n＝8)。将奥沙利铂(每单次剂量60μg)和氟尿嘧啶(每单次剂量1mg)混合，并将所得混合物每周三次通过腹腔注射到每只小鼠中。对于肿瘤内注射模型，每周注射两次LY2157299(1.5mg/小鼠)。移植瘤大小每周检查三次，并且通过(4/3)×π×(短轴/2)²×(长轴/2)mm³进行计算。

用于qPCR分析的迷你分类器-26的异质性测试：为了检验空间异质性影响本发明从FFPE标本制备组织样品的过程的可能性，从单个FFPE标本中获得了三个组织样品用于RNA提取。制备好cDNA后，进行三次qPCR，得到来源于单个肿瘤标本的三个标本的平均值。通过对每个基因评估方差系数来确定三个样本间的异质性。

(组织微阵列构建)

将每个福尔马林固定的石蜡包埋原发肿瘤中的两个具有代表性的直径为3mm的肿瘤组织核组装成组织微阵列(TMA)块。每个TMA块包含14个肿瘤和1个正常胃粘膜组织核作为标识和内部对照。随后，为了进行免疫组织化学(IHC)分析，从每个TMA块中制备4μm厚的切片。

(免疫组织化学(IHC))

如上所述，采用具有用于MutL同系物1(MLH1，即用型，Roche，瑞士巴塞尔)和MutS蛋白同系物2(MSH2，即用型，克隆G219-1129)的抗体的Ventana XT系统(Ventana公司)进行IHC。在MLH1和MSH2的情况下，将不存在肿瘤细胞核染色的定义为表达缺失，正常表达定义为存在肿瘤细胞核表达。所有IHC结果均在不了解临床病理特征的情况下进行评估。

(爱泼斯坦-巴尔病毒编码RNA原位杂交(EBER ISH))

使用Ventana Bench Mark系统(ISH iView试剂盒，Ventana Corporation，AZ，美国)进行EBER ISH。将福尔马林固定的石蜡包埋组织切片用EZ Prep缓冲液(Ventana公司)脱蜡，并用蛋白酶I消化4分钟。随后，将EBER探针在85℃下变性10分钟，然后在37℃下杂交1小时。杂交后，在57℃下用2x SSC缓冲液清洗组织。随后，与抗荧光素单克隆抗体进行20分钟孵化，然后根据厂商说明书使用碱性蓝检测试剂盒(Ventana公司)。将切片用核固红染色10分钟。

[表1]

靶基因群和参照基因群、引物组和探针列表

[表2]

<实施例1>将进展期胃癌分为五种类型

图1提供本发明的实验流程图。本发明的发明人根据基于一致性的NMF鉴定出五种GC分子亚型。本发明的发明人研究了胃癌(GSE13861p训练集I；HumanHT-12v3.0阵列(Illumina))患者的胃切除样品(n＝497)的基因表达谱。胃癌的5种分子亚型的分类表现出较高的一致性，且热图显示了不同的基因表达模式(参见图2A和3)。本发明的发明人利用微阵列显著性分析(SAM，假发现率(FDR)＝0)，然后利用微阵列预测分析(PAM；总错误率＝0.10)，鉴定出932个亚型特异性基因(分类器-PAM932)。分类器-PAM932用于稳定鉴定胃癌患者的独立基因表达数据集(测试集I)中的分子亚型。

<实施例2>鉴定描述胃癌亚型的6种分子标签

为了扩展现有定义的基因集的标记法，进行另外的按基因无监督聚类。在GSE13861p中，WGCNA检测到32个基因模块(高度关联的基因集群)(参见图4A和4B)。总体来说，观察到(i)数个模块在队列中显著保守(超几何分布检验；P＜0.01)(参见图4B)，(ii)保守模块是由于在前25％的PAMgenes的PAM分析中存在相对差异(参见图4C)，(iii)这些关联与胃癌生物学显著相关(参见图4D)。基于保守模块，6种胃癌标签与5种胃癌亚型显著相关。本发明的发明人对胃癌标签的基因进行了重新提取，结果表明，利用斯皮尔曼相关性，胃癌标签的特定组合可以转化为5种NMF衍生的亚型(参见图4E)。通过基于网络分析的亚型表征，本发明的发明人对5种亚型的注释在生物学上更相关。

<实施例3>5种胃癌亚型的临床特征

检验胃癌亚型与临床病理信息(年龄、性别、肿瘤位置、AJCC分期(第6期)、WHO分类和劳伦类型(Lauren type))之间的关系。对于5种亚型的存活分析，确定了亚型与总体存活率之间的显著相关性(P＝3.42e-09，参见图5)。确认了每种亚型5年存活率：INF为76.1％(95％置信区间，67.7-85.7)，INT为65.1％(95％置信区间：56.2至75.4)，GST为64.6％(95％置信区间：55.0至75.9)，MXD为51.3％(95％置信区间：42.1至62.4)，MSC为46.3％(95％置信区间：38.0至56.5)。在训练集I中，INF亚型的死亡风险显著低于MXD和MSC亚型。

最后，将该分类与亚洲癌症研究组(ACRG)(GSE62254)、癌症基因组图谱(TCGA)和新加坡研究组(GSE15459)所报道的胃癌亚型进行分类异同对比：即，i)MSC亚型是包括ACRGEMT亚型、TCGA GS亚型和新加坡研究组侵袭性亚型的四分类系统中公认的表现出最差临床结果的亚型；ii)在临床结果最好的INF亚型中，包括了大部分爱泼斯坦-巴尔病毒(EBV)阳性患者和由TCGA和ACRG鉴定的部分微卫星高度不稳定性(MSI)组。此外，在新加坡研究组中对GST和INT亚型进行了部分描述。MXD亚型与TCGA中的结构染色体不稳定性有关。在非MSC和非INF胃癌人群中，亚型的匹配在病理上倾向于模糊，这可能是因为TCGA和ACRG使用体细胞拷贝数和TP53活性度作为分类器。

<实施例4>MSC亚型与INT亚型的临床前治疗反应的对比

在模块基质分析中，在劳伦分类中，基质标签与扩散类型以及复发显著相关。这促使利用胃癌细胞系来验证MSC亚型中间质细胞和干细胞的行为。此外，最近的证据表明，与EMT相关的耐药性的获得导致多种类型的癌症预后不良，因此评估了MSC亚型的临床治疗反应。将细胞系的基因表达数据与患者胃癌肿瘤样品的数据合并后，胃癌细胞系(n＝26)可分为5种亚型(距离加权判别法)(参见图6A)。通过基质模块本征基因排序，从MSC亚型细胞系中选择Hs746T和SNU484胃癌细胞系作为模型细胞系。将NCI-N87细胞和MKN-45细胞分配到INT亚型，作为没有基质标签的对照(参见图6B)。在体外侵袭和划痕愈合试验中，Hs746T细胞和SNU484细胞表现出比NCI-N87细胞和MKN-45细胞更强的侵袭性和迁移性(参见图7A和7B)。根据3D球状体形成试验结果，Hs746T细胞和SNU484细胞展现出类似干细胞的特征(参见图7C)。体内原位肿瘤模型的T2加权轴向核磁共振成像显示，当NCI-N87细胞和MKN-45细胞形成局限性肿瘤时，Hs746T和SNU484肿瘤沿胃壁扩散(参见图7E，白色虚线)。此外，观察了TGF-β抑制剂(LY2157299)在Hs746T的基质特性上对比在NCI-N87的基质特性上的作用。使用TGF-β抑制剂进行治疗会延迟体外Hs746T细胞的划痕愈合、侵袭和3D球状体形成的能力(参见图7E-7G)。为了确认与EMT相关的耐药性，将TGF-β抑制剂与抗癌药物组合(奥沙利铂+5-FU)共同给药于用Hs746T细胞建立的体内异种移植小鼠模型中(每组n＝8)。虽然在Hs746T模型中，奥沙利铂+5-FU治疗对抵抗肿瘤生长只有轻微的效果，但TGF-β抑制剂和奥沙利铂+5-FU共同给药却显著降低Hs746T中肿瘤的耐药性和体积(参见图7H)。另一方面，在非基质NCI-N87肿瘤中，在没有TGF-β抑制剂的协助下单独使用抗癌药物组合减少肿瘤生长(参见图7)。

<实施例5>胃癌迷你分类器-26作为临床应用的qPCR探针

将分类器-PAM932改良为迷你分类器-26以作为qPCR探针集，建立稳定且临床上可利用的分类系统(如图8)(图9是迷你分类器-26的选择和分析流程图)。对于分类器选择，考虑了胃癌稳定性的代表性程度。本发明的发明人根据6种胃癌标签(即胃标签、间质标签、增殖标签、免疫标签和肠标签)对迷你分类器亚集进行了分类，并在亚型特异性和队列保守性模块中选择出候选基因。此外，候选基因还通过i)亚型判别分数(PAM分析)和ii)模型内联系性(WGCNA分析)进行筛选。探针的稳定性基于平台(微阵列和qPCR)和采样方法(新鲜冷冻标本和FFPE标本)的独立性而进行评估。最后，利用癌症生物学的先验生物学知识，通过减除基因得到迷你分类器-26的qPCR探针集。此外，还证实所选择的迷你分类器-26探针集不受FFPE标本中可能的空间异质性(方差系数：5％)的影响。

迷你分类器-26探针集利用训练集II(n＝1259，从新鲜冷冻样品在多个平台上获得的Merged1259)建立(参见图8)。使用迷你分类器-26探针集分类得到的胃癌亚型与存活分析中的预后高度相关(LR检验，P＝2.48e-09)(参见图8D)。与通过分类器-PAM932分类得到的亚型相似，INF亚型表现出最好的预后(5年存活率为67.3％，95％CI：61.3至73.9％)，MXD亚型(5年存活率为45.0％，95％CI：36.5至55.4％)和MSC亚型(5年存活率为33.0％，95％CI：27.3至40.0％)表现出最差的预后。在qPCR325测试集中也证实了胃癌亚型(参见图8D)存活曲线趋势的一致性(参见图8E，P＝0.000534)。预后最好的INF亚型的5年存活率为78.5％(95％CI：69.4至88.8％)，预后最差的MXD和MSC亚型的5年存活率分别为54.6％(95％CI：41.7至71.4％)和57.5％(95％CI：48.4至68.2％)。

上述5种已证实的胃癌分子亚型是在个人和公知的数据集(GSE13861p，GSE15459，TCGA，and SGE62254)中鉴定出的。

如图8所示，炎性分子亚型与免疫标签相关，肠分子亚型与肠上皮分化基因的高表达相关，胃分子亚型与胃粘膜特异性基因的高表达相关。混合基质分子亚型表现出异质性的过渡扩增(transit-amplifying)特性，间质分子亚型与EMT和间质特性相关。

表3用分数(d′_ik)描述了图8A中的靶基因表达模式。在表3提供的分数(d′_ik)中，正数表示基因高表达，负数表示基因低表达，0表示基因表达无变化。因此，正数的数值越大，基因表达越高，负数的数值越大，基因表达越低。

[表3]

分子亚型分类参考表，d′_ik

将分数(d′_ik)应用于下面的等式2，计算出分值(SV)，根据SV，胃癌可分为肠分子亚型、炎性分子亚型、间质分子亚型、混合基质分子亚型和胃分子亚型：

[等式2]

其中，SV是在通过基于NMF的聚类获得的集群中，每种标签的表达平均值，t是属于每种标签的基因(i)的数量，SN₀是标签(θ＝6)，k表示集群的数量，为2至7之间的整数，d′_ik表示基于总基因的平均值与各集群平均值之间的距离的分数。

图10说明了5个集群的分子亚型的命名方法，其中胃标签SV为最大值的集群被判定为胃分子亚型；在剩余的四个集群中，间质标签SV为最大值且增殖标签SV为最小值的集群被判定为间质分子亚型；在剩余的三个集群中，免疫标签SV为最大值且肠标签SV为最小值的集群被判定为炎性分子亚型；在剩余的两个集群中，干细胞样标签SV为最大值的集群被判定为混合基质分子亚型；并且最后剩余的集群被判定为肠分子亚型。

表3提供的分数(d′_ik)可以由相应基因(i)的t统计值用阈值进行校正，且该d′_ik值可以根据下面的等式3和4来计算以建立分子亚型化标准：

[等式3]

d_ik＝sign(d_ik)(|d_ik|-Δ)₊

其中在分子亚型(k)中的相应基因(i)的平均值)大部分都是噪声，并且可能与相同基因(i)的总体平均值接近，因此用阈值(Δ)进行校正以便可以排除d′_ik值收敛到0的基因。由此，可以计算出属于分子亚型(k)的相应基因(i)的可靠平均值。等式3中的d′_ik值可通过以下等式4来计算：

[等式4]

其中，分数(d′_ik)是相应基因(i)的t-统计值，该分数(d′_ik)通过对属于同一分子亚型的样品基因表达量加权进行标准化，并且是线性判别分析(LDA)中常用的统计方法。

表3为分子亚型分类参考表，其中红色表示最大值，蓝色表示最小值，该表基于由325个样品中的26个靶基因的分数(d′_ik)通过等式3和等式4计算出的d′_ik制订。

为了确认测试样品的分子亚型，通过将以上等式3和4中计算出的值应用于等式5来计算测试样品的靶基因组的表达值，并且分子亚型分类参考表可用于表3中的分数(d′_ik)，从而判定测试样品(x^*)的分子亚型(k)：

[等式5]

π_k是分子亚型(k)的事前概率

其中，测试样品为通过具有325个样品的测试集II的26个靶基因的Cq值对26个靶基因进行中位数中心化(median centering)获得的值。δ_k(x^*)为对测试样品(x^*)的分子亚型“k”的判别分数，其中，通过选择判别分数最小的测试样品的分子亚型(k)来进行分类。表4是根据δ_k(x^*)测定的325个样品的分子亚型的一致率和错误率。

[表4]

根据分子亚型的NMF和判别分数的一致率和错误率，n＝325

工业应用性

本发明可应用于胃癌预后预测领域。

序列表

<110> 洛博生物科技有限公司

<120> 基于胃癌生物学特征的集群分类及预后预测系统

<130> G18C30C0167P/CN

<150> KR 10-2017-0052365

<151> 2017-04-24

<160> 93

<170> PatentIn version 3.2

<210> 1

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> TFF1正向引物

<400> 1

aaataagggc tgctgtttcg 20

<210> 2

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> TFF1反向引物

<400> 2

gggacgtcga tggtattagg 20

<210> 3

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> TFF2正向引物

<400> 3

ccctcccaaa gcaagagtc 19

<210> 4

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> TFF2反向引物

<400> 4

gggtagccac agtttcttcg 20

<210> 5

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> VSIG1正向引物

<400> 5

catcgtgcca gtgaaagaaa 20

<210> 6

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> VSIG1反向引物

<400> 6

tgtcagattt ccaatgacca a 21

<210> 7

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> CNN1正向引物

<400> 7

agtccaccct cctggcttt 19

<210> 8

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> CNN1反向引物

<400> 8

cttcactccc acgttcacct t 21

<210> 9

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> NEXN正向引物

<400> 9

gcggcaaatg gtaaatgaag 20

<210> 10

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> NEXN反向引物

<400> 10

gggcggtacc ctttaaaaat 20

<210> 11

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> SCRG1正向引物

<400> 11

cccagtgagt gtgagcattt 20

<210> 12

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> SCRG1反向引物

<400> 12

gcttttggcc ctttttcttc 20

<210> 13

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> SORBS1正向引物

<400> 13

gctgtgatga atggcttgg 19

<210> 14

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> SORBS1反向引物

<400> 14

cccagtgcag atttttgtag g 21

<210> 15

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> SPARCL1正向引物

<400> 15

cattccaaac caactgctga 20

<210> 16

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> SPARCL1反向引物

<400> 16

agcttcagcc cataaactgg 20

<210> 17

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> AURKA正向引物

<400> 17

gcagattttg ggtggtcagt 20

<210> 18

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> AURKA反向引物

<400> 18

gtagtccagg gtgccacaga 20

<210> 19

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> BUB1正向引物

<400> 19

ccttcaaaac caaaggagga 20

<210> 20

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> BUB1反向引物

<400> 20

gcagcgaata ccccataca 19

<210> 21

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> CDC20正向引物

<400> 21

cttccctgcc agaccgtat 19

<210> 22

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CDC20反向引物

<400> 22

ccaatccaca aggttcaggt 20

<210> 23

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CEP55正向引物

<400> 23

caagtgggaa aggaaagctg 20

<210> 24

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CEP55反向引物

<400> 24

ctcagcctca aggactcgaa 20

<210> 25

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> PTTG1正向引物

<400> 25

ctgaagctgg ggtctgga 18

<210> 26

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> PTTG1反向引物

<400> 26

aacgtggtgt tgaaacttga ga 22

<210> 27

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> UBE2C正向引物

<400> 27

ccctgctatc accccaac 18

<210> 28

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> UBE2C反向引物

<400> 28

gggcagacca cttttccttc 20

<210> 29

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CD8A正向引物

<400> 29

cagagctacc cgcagagttc 20

<210> 30

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CD8A反向引物

<400> 30

aagaggttga gatggcatgg 20

<210> 31

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> GBP1正向引物

<400> 31

tagaagccag tgctcgtgaa 20

<210> 32

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> GBP1反向引物

<400> 32

gatctctgat gccatgtcca 20

<210> 33

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> GBP5正向引物

<400> 33

ggcctgggag atgtagagaa 20

<210> 34

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> GBP5反向引物

<400> 34

cagtaagagt gccagtgcaa a 21

<210> 35

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> GZMB正向引物

<400> 35

cggtggcttc ctgatacaag 20

<210> 36

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> GZMB反向引物

<400> 36

ttatggagct tccccaacag 20

<210> 37

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> NKG7正向引物

<400> 37

gtccccgtcc tggctatg 18

<210> 38

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> NKG7反向引物

<400> 38

aacgctcaaa actcatcttg c 21

<210> 39

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> WARS正向引物

<400> 39

ttgtggaccc atggacagta 20

<210> 40

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> WARS反向引物

<400> 40

ccaaaccgaa caatgagctt 20

<210> 41

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> ANTXR1正向引物

<400> 41

cagttggctc acaaattcat c 21

<210> 42

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> ANTXR1反向引物

<400> 42

ttcctcgggt ggagaaaac 19

<210> 43

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> SFRP4正向引物

<400> 43

ggagacttcc gacttcctta ca 22

<210> 44

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> SFRP4反向引物

<400> 44

tggccttaca taggctgtcc 20

<210> 45

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> VCAN正向引物

<400> 45

tttgagcatg acttccgttg 20

<210> 46

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> VCAN反向引物

<400> 46

ctgtctggct ggttgggtct 20

<210> 47

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CDH17正向引物

<400> 47

gcaatgtgac tgccaaggat 20

<210> 48

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CDH17反向引物

<400> 48

acctcttgtg tctcccctca 20

<210> 49

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CDX1正向引物

<400> 49

agggaggaac gtggtcaact 20

<210> 50

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CDX1反向引物

<400> 50

tatgatgggg gcaggtagaa 20

<210> 51

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> MYO1A正向引物

<400> 51

ccgcctcttt gactggatag 20

<210> 52

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> MYO1A反向引物

<400> 52

ccttcttctt ttccccgatg 20

<210> 53

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> ACTB正向引物

<400> 53

tcaccctgaa gtaccccatc 20

<210> 54

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> ACTB反向引物

<400> 54

tgtggtgcca gattttctcc 20

<210> 55

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> ATP5E正向引物

<400> 55

atggtggcct actggagaca 20

<210> 56

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> ATP5E反向引物

<400> 56

ctctcactgc ttttgcacag a 21

<210> 57

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> GPX1正向引物

<400> 57

cccgtgcaac cagtttgg 18

<210> 58

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> GPX1反向引物

<400> 58

ggacgtactt gagggaattc aga 23

<210> 59

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> UBB正向引物

<400> 59

tgggtgagct tgtttgtgtc 20

<210> 60

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> UBB反向引物

<400> 60

tttgacctgt tagcggatac c 21

<210> 61

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> HPRT1正向引物

<400> 61

tggtcaggca gtataatcca a 21

<210> 62

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> HPRT1反向引物

<400> 62

cttcgtgggg tccttttcac 20

<210> 63

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> TFF1探针

<400> 63

acgacaccgt tcgtggggtc 20

<210> 64

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> TFF2探针

<400> 64

tcagtgcgtc atggaggtct ca 22

<210> 65

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> VSIG1探针

<400> 65

tcaacccaac caccgggatt 20

<210> 66

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> CNN1探针

<400> 66

cctttcgtct tcgccatgct gg 22

<210> 67

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> NEXN探针

<400> 67

tgaggaaaac caagacacag caaa 24

<210> 68

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> SCRG1探针

<400> 68

tggtcttggc agaggatgct tc 22

<210> 69

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> SORBS1探针

<400> 69

ttgtcttgcc cattgctgcc 20

<210> 70

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> SPARCL1探针

<400> 70

cggtagcacc tgacaacact gc 22

<210> 71

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> AURKA探针

<400> 71

ctccatcttc caggaggacc a 21

<210> 72

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> BUB1探针

<400> 72

ccaaaaactc ttcagcatga ggca 24

<210> 73

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CDC20探针

<400> 73

cctggatgcg cctgaaatcc 20

<210> 74

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> CEP55探针

<400> 74

ttttctccaa aagtctgtgt ctctc 25

<210> 75

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> PTTG1探针

<400> 75

ccttcaatca aagccttaga tggga 25

<210> 76

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> UBE2C探针

<400> 76

cacccagggt aacatatgcc tgg 23

<210> 77

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> CD8A探针

<400> 77

tgcctccagc tctctcagca tga 23

<210> 78

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> GBP1探针

<400> 78

agaaaaagaa cagacaaggg aacagcc 27

<210> 79

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> GBP5探针

<400> 79

tctggatatc attcttgttg tcagcc 26

<210> 80

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> GZMB探针

<400> 80

cgacttcgtg ctgacagctg c 21

<210> 81

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> NKG7探针

<400> 81

cgctcttgcc ttctgctcac a 21

<210> 82

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> WARS探针

<400> 82

tgccttttgc actgcttgtc tg 22

<210> 83

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> ANTXR1探针

<400> 83

aaaggacatt ctcaactgtg ggc 23

<210> 84

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> SFRP4探针

<400> 84

aggcaatgcc cagcctcatc 20

<210> 85

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> VCAN探针

<400> 85

tggcagcaca ctgcaatacg a 21

<210> 86

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> CDH17探针

<400> 86

ccagaaggtc tggacataag c 21

<210> 87

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CDX1探针

<400> 87

tgcctcttcc tgcagcctca 20

<210> 88

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> MYO1A探针

<400> 88

cccaccttga tgctctcatt gattc 25

<210> 89

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> ACTB探针

<400> 89

cggcatcgtc accaactggg 20

<210> 90

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> ATP5E探针

<400> 90

tggactcagc tacatccgat actccca 27

<210> 91

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> GPX1探针

<400> 91

ctcttcgttc ttggcgttct cctgatg 27

<210> 92

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> UBB探针

<400> 92

caccaaccac gtccacccac 20

<210> 93

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> HPRT1探针

<400> 93

tgcaagcttg cgaccttgac c 21

Claims

1.一种预测II期或III期进展期胃癌预后的组合物，所述组合物包含：

用于测量靶基因群的mRNA表达水平的试剂，所述靶基因群由TFF1、TFF2、VSIG1、CNN1、NEXN、SCRG1、SORBS1、SPARCL1、AURKA、BUB1、CDC20、CEP55、PTTG1、UBE2C、CD8A、GBP1、GBP5、GZMB、NKG7、WARS、ANTXR1、SFRP4、VCAN、CDH17、CDX1和MYO1A组成，和

用于测量参照基因群的mRNA表达水平的试剂，所述参照基因群由ACTB、ATP5E、GPX1、UBB和HPRT1组成，

其中所述测量靶基因群的mRNA表达水平的试剂和所述用于测量参照基因群的mRNA表达水平的试剂包含SEQ ID NO:1至62中列出的引物组和SEQ ID NO:63至93中列出的探针。

2.根据权利要求1所述的组合物，其特征在于，所述组合物用于就总体存活率方面预测II期或III期进展期胃癌的预后。

3.一种预测II期或III期进展期胃癌预后的试剂盒，所述试剂盒包含权利要求1所述的组合物。

4.根据权利要求3所述的试剂盒，其特征在于，所述试剂盒包含实时定量聚合酶链式反应(qPCR)试剂。

5.SEQ ID NO:1至62中列出的引物组和SEQ ID NO:63至93中列出的探针在制备用于预测II期或III期胃癌的预后的试剂盒上的用途，所述预测II期或III期胃癌的预后包括：

在统计学上数量足够显著的从II期或III期进展期胃癌患者中获得的参考样品和生物样品中，

使用SEQ ID NO:1至62中列出的引物组和SEQ ID NO:63至93中列出的探针来测量靶基因群和参照基因群的mRNA表达水平，该靶基因群由以下组成：由TFF1、TFF2和VSIG1组成的胃标签；由CNN1、NEXN、SCRG1、SORBS1和SPARCL1组成的间质标签；由AURKA、BUB1、CDC20、CEP55、PTTG1和UBE2C组成的增殖标签；由CD8A、GBP1、GBP5、GZMB、NKG7和WARS组成的免疫标签；由ANTXR1、SFRP4和VCAN组成的干细胞样标签；以及由CDH17、CDX1和MYO1A组成的肠标签，该参照基因群由ACTB、ATP5E、GPX1、UBB和HPRT1组成；

根据以下等式1计算参考样品和生物样品的靶基因群的ΔCq值，并将该ΔCq值输入到计算机程序中；以及

对输入计算机程序的值进行非负矩阵因子分解(NMF)和基于NMF的聚类以分成多个集群，将每个集群中靶基因群的分数(d′_ik)应用到以下等式2计算出分值(SV)，将集群分为肠分子亚型、炎性分子亚型、间质分子亚型、混合基质分子亚型和胃分子亚型，并通过分析总体存活率方面的预后来预测生物样品所属的分子亚型的预后，

[等式1]

ΔCq＝(靶基因的Cq值)-(参照基因群的Cq平均值)

其中，参照基因群的Cq均值表示由ACTB、ATP5E、GPX1、UBB和HPRT1组成的参照基因群的Cq值的平均值，

[等式2]

其中，SV是在通过基于NMF的聚类获得的集群中，每种标签的表达平均值，t是属于每种标签的基因(i)的数量，SN_θ是标签(θ＝6)，k表示集群的数量，为2至7之间的整数，d′_ik表示基于总基因的平均值与各集群平均值之间的距离的分数，并由以下等式3得到：

[等式3]

d′_ik＝sign(d_ik)(|d_ik|-Δ)₊

[等式4]

6.根据权利要求5所述的用途，其特征在于，足以显示统计学显著性的样品数目为300至10000个。

7.根据权利要求5所述的用途，其特征在于，所述生物样品选自新鲜肿瘤组织、新鲜冷冻肿瘤组织、石蜡包埋的肿瘤组织、细针抽吸液、腹水、管清洗液和胸膜液。

8.根据权利要求5所述的用途，其特征在于，所述靶基因群和参照基因群的mRNA表达水平通过实时定量聚合酶链式反应(qPCR)来测量。