Nothing Special   »   [go: up one dir, main page]

CN109585017A - 一种年龄相关性黄斑变性的风险预测算法模型和装置 - Google Patents

一种年龄相关性黄斑变性的风险预测算法模型和装置 Download PDF

Info

Publication number
CN109585017A
CN109585017A CN201910101067.7A CN201910101067A CN109585017A CN 109585017 A CN109585017 A CN 109585017A CN 201910101067 A CN201910101067 A CN 201910101067A CN 109585017 A CN109585017 A CN 109585017A
Authority
CN
China
Prior art keywords
age
macular degeneration
biomarker
risk
amd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910101067.7A
Other languages
English (en)
Other versions
CN109585017B (zh
Inventor
王丽君
高军晖
袁卫兰
龚建兵
刘慧敏
林灵
许骋
张英霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Biotecan Medical Diagnostics Co ltd
Shanghai Biotecan Biology Medicine Technology Co ltd
Original Assignee
Shanghai Biotecan Medical Diagnostics Co ltd
Shanghai Biotecan Biology Medicine Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Biotecan Medical Diagnostics Co ltd, Shanghai Biotecan Biology Medicine Technology Co ltd filed Critical Shanghai Biotecan Medical Diagnostics Co ltd
Priority to CN201910101067.7A priority Critical patent/CN109585017B/zh
Publication of CN109585017A publication Critical patent/CN109585017A/zh
Application granted granted Critical
Publication of CN109585017B publication Critical patent/CN109585017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种年龄相关性黄斑变性(Age‑related macular degeneration,AMD)的风险预测算法模型和装置。具体地,本发明提供了7个相关单核苷酸多态性(Single nucleotide polymorphism,SNP)的基因分型,将基因分型转换为OR(Odd Ratio)值,结合7个临床信息,并采用机器学习方法构建风险预测算法模型与装置。本发明可辅助临床进行AMD的提前预测,早期诊断,对降低AMD发病率,提高其疾病治疗率均具有重大临床意义。

Description

一种年龄相关性黄斑变性的风险预测算法模型和装置
技术领域
本发明涉及医学生物检测领域,具体涉及一种年龄相关性黄斑变性(Age-relatedmacular degeneration,AMD)的风险预测算法模型和装置。
背景技术
年龄相关性黄斑变性(Age-related macular degeneration,AMD)是致老年人失明的主要因素。该病具有与年龄、性别、吸烟、种族及遗传等因素相关的复杂病因,为不可逆性的视觉丧失,目前针对该疾病尚无有效的治疗手段。AMD具有较高的发病率,荟萃分析结果表明全球AMD总的发病率为8.01%,欧洲、非洲及亚洲人群AMD的发病率分别为11.2%、7.1%和6.8%。我国老年人群早期AMD和晚期AMD发病率分别为4.7%-9.2%和0.2%-1.9%。预测至2020年和2040年,全球AMD患者将分别达到1.96亿和2.88亿。随着我国人口老龄化的加快,AMD具有明显的上升趋势。
AMD的发生为环境因素和遗传因素综合作用的结果,其中遗传因素在该疾病的发生风险中占有较高比例,达45-70%。AMD病因复杂,其发病机制与遗传和环境因子均相关,如上所述,遗传因素在该病的发生风险中占有重要比例。显然,若综合考量遗传和环境因素,并结合视力、眼压、眼底检查及眼底血管荧光造影、光学断层扫描等常规及辅助AMD的检查,这必然能够极大提高对AMD的精准诊断与有效风险评估,也将有益于AMD的预防及其早期发现与治疗。
因此,本领域迫切需要开发一种可靠的对AMD进行早期预测和诊断的方法。
发明内容
本发明的目的就是提供一种年龄相关性黄斑变性(Age-related maculardegeneration,AMD)的风险预测算法模型和装置。
在本发明的第一方面,提供了一种生物标志物集合,所述的集合包括选自下组两种的生物标志物:rs2338104、rs754203、或其组合。
在另一优选例中,所述生物标志物集合为用于诊断黄斑变性(AMD)疾病的生物标志物集合,还包括选自下组的生物标志物:rs2284664、rs2071277、rs1999930、rs10490924、rs5749482、或其组合。
在另一优选例中,所述生物标志物集合为用于诊断黄斑变性(AMD)疾病的生物标志物集合,包括选自表A的生物标志物:
表A
编号 染色体位置 突变碱基
rs2338104 12:109457363 C>G
rs754203 14:99691630 A>G
rs2284664 1:196733395 C>T
rs2071277 6:32203906 T>C
rs1999930 6:116065971 C>T
rs10490924 10:122454932 G>T
rs5749482 22:32663679 C>G
在另一优选例中,所述生物标志物集合用于诊断黄斑变性(AMD)疾病,或用于制备一试剂盒或试剂,所述的试剂盒或试剂用于评估待测对象的黄斑变性(AMD)疾病患病风险(易感性)或诊断(包括早期诊断和/或辅助诊断)待测对象黄斑变性(AMD)疾病。
在另一优选例中,所述的集合包括选自表B的生物标志物:
表B
在另一优选例中,所述的集合包括生物标志物b1~b2。
在另一优选例中,所述的集合还包括生物标志物b3~b7。
在另一优选例中,所述的集合还包括生物标志物:rs551397、rs800292、rs10737680、rs3753396、rs1410996、rs2284664、rs1065489、或其组合。
在另一优选例中,所述的生物标志物或生物标志物集合来源于血液、血浆、血清或口腔拭子样品。
在另一优选例中,通过PCR对各个生物标志物进行检测。
在另一优选例中,应用荧光定量PCR进行DNA片段的扩增及单碱基的延伸。
在另一优选例中,应用MassARRAT Analyzer 4system进行生物标准物的检测。
在另一优选例中,所述PCR包括QPCR、荧光定量PCR。
在另一优选例中,所述的集合用于AMD患病风险的评估或诊断。
在另一优选例中,所述的评估待测对象的AMD患病风险包括AMD的早期筛查。
在本发明的第二方面,提供一种用于AMD患病风险的评估或诊断的试剂组合,所述试剂组合包括用于检测如本发明第一方面所述的集合中各个生物标志物的试剂。
在本发明的第三方面,提供一种试剂盒,所述的试剂盒包括如本发明第一方面所述的集合和/或如本发明第二方面所述的试剂组合。
在另一优选例中,如本发明第一方面所述的集合中各个生物标记物用作标准品。
在另一优选例中,所述的试剂盒还包括一说明书。
在本发明的第四方面,提供一种生物标志物集合的用途,用于制备一试剂盒,所述的试剂盒用于AMD患病风险的评估或诊断,其中,所述生物标志物集合包括选自下组的两种生物标志物:rs2338104、rs754203、或其组合。
在另一优选例中,用于AMD患病风险的评估或诊断时,所述生物标志物集合还包括选自下组的生物标志物:rs2284664、rs2071277、rs1999930、rs10490924、rs5749482、或其组合。
在另一优选例中,所述的评估包括步骤:
(1)提供一来源于待测对象的样品,对样品中所述集合中各个生物标记物的SNP分型值(即表2的A1或者A2)进行检测;
(2)将步骤(1)测得的位点信息与一参考数据集进行比较;
较佳地,所述的参考数据集包括来源于AMD患者和健康对照者的如所述集合中各个生物标记物的;
在另一优选例中,所述的样品选自下组:血液、血浆、血清和口腔拭子。
在另一优选例中,所述的将步骤(1)测得的位点信息与一参考数据集进行比较,还包括建立有监督机器学习的多元统计模型从而输出患病可能性的步骤,较佳地,所述的机器学习模型为Xgboost分析模型。
在另一优选例中,如果所述的患病可能性>0.5,所述的对象被判定为具有AMD疾病患病风险或患有AMD疾病。
在另一优选例中,在步骤(1)之前,所述的方法还包括对样品进行处理的步骤。
在本发明的第五方面,提供一种用于评估或诊断待测对象的AMD患病风险的的方法,包括步骤:
(1)提供一来源于待测对象的样品,对样品中所述集合中各个生物标记物的位点信息(如SNP分型值(即表2的A1或者A2))进行检测;
(2)将步骤(1)测得的分型与一参考数据集进行比较;
较佳地,所述的参考数据集包括来源于AMD患者和健康对照者的如所述集合中各个生物标记物的数据;
在另一优选例中,所述的样品选自下组:血液、血浆、血清和口腔拭子。
在另一优选例中,所述的将步骤(1)测得分型计算出相应的数据与一参考数据集进行比较,还包括建立有监督集成学习的机器学习模型从而输出患病可能性的步骤,较佳地,所述的机器学习模型为Xgboost分析模型。
在另一优选例中,如果所述的患病可能性>0.5,所述的对象被判定为具有AMD疾病患病风险或患有AMD疾病。
在另一优选例中,在步骤(1)之前,所述的方法还包括对样品进行处理的步骤。
在本发明的第六方面,提供一种筛选用于评估或诊断AMD患病风险候选化合物的方法,包括步骤:
(1)在测试组中,向待测对象施用测试化合物,检测测试组中来源于所述对象的样品中集合中各个生物标记物的水平V1;在对照组中,向待测对象施用空白对照(包括溶媒),检测对照组中来源于所述对象的样品中所述集合中各个生物标记物的水平V2;
(2)对上一步骤检测得到的水平V1和水平V2进行比较,从而确定所述测试化合物是否是治疗AMD的候选化合物,其中所述集合包括两种或多种选自下组的生物标志物:rs2338104、rs1999930、rs10490924。
在另一优选例中,所述的待测对象患有AMD。
在另一优选例中,如果一个或多个选自子集H的生物标志物的水平V1显著低于水平V2,表明测试化合物为治疗AMD的候选化合物。
在另一优选例中,所述“显著低于”指水平V1/水平V2的比值≤0.8,较佳地≤0.6,更佳地,≤0.4。
在本发明的第七方面,提供一种生物标志物集合的用途,用于筛选评估或诊断AMD患病风险的候选化合物和/或用于评估候选化合物对AMD的治疗效果,其中,所述生物标志物集合选自下组的两种生物标志物:rs2338104、rs754203、或其组合。
在另一优选例中,所述生物标志物还包括:rs2284664、rs2071277、rs1999930、rs10490924、rs5749482、或其组合。
在本发明的第八方面,提供一种AMD早期辅助筛查系统,其特征在于,所述系统包括:
(a)AMD相关疾病特征输入模块,所述AMD相关疾病特征输入模块用于输入某一对象的AMD相关疾病特征;
其中所述的AMD相关疾病特征包括选自下组A的位点信息(如SNP分型值(即表2的A1或者A2))的两种或多种:rs2284664、rs2071277、rs1999930、rs10490924、rs2338104、rs754203、rs5749482、或其组合;
(b)AMD相关疾病判别处理模块,所述处理模块对于输入的AMD相关疾病特征,按预定的判断标准进行评分处理,从而获得风险度评分;并且将所述风险度评分与AMD相关疾病的风险度阈值进行比较,从而得出辅助筛查结果,其中,当所述风险度评分高于所述风险度阈值时,则提示该对象患AMD相关疾病的风险高于正常人群;和
(c)辅助筛查结果输出模块,所述输出模块用于输出所述的辅助筛查结果。
在另一优选例中,所述步骤(a)中,还包括以下AMD相关疾病特征:年龄、糖尿病情况、身体质量指数(BMI指数)、肾损伤情况、动脉粥样硬化、饮酒情况、是否经常在户外情况。
在另一优选例中,所述的对象是人。
在另一优选例中,所述的对象包括婴幼儿、青少年或成年人。
在另一优选例中,在所述处理模块中,如下进行风险度评分处理:
在另一优选例中,所述的特征输入模块包括样本采集仪。
在另一优选例中,所述的特征输入模块选自下组:MassARRAT Analyzer 4 system分型输出模块、Askme模块。
在另一优选例中,所述的AMD相关疾病的判别处理模块包括一处理器,以及一储存器,其中所述的储存器中存储有基于AMD相关疾病特征的AMD相关疾病的风险度阈值数据或模型。
在另一优选例中,所述的输出模块包括报告系统(如Askme的报告系统)。
应理解,在本发明范围内中,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成新的或优选的技术方案。限于篇幅,在此不再一一累述。
附图说明
图1显示了本发明的技术路线。
图2显示了应用MassARRAT Analyzer 4system进行基因SNP分型实验步骤。
图3显示了Logistic回归,随机森林,Adaboost,以及Xgboost分类器的重复1000次随机拆分训练集和测试集,测试集平均结果做ROC曲线,特征变量包含临床信息和位点信息(SNP+CC)。
图4显示了Xgboost重复1000次学习和预测,测试集的平均预测结果做ROC曲线,“CC”为特征变量只有临床信息数据、“SNP”为特征变量只有SNP位点,SNP+CC为特征变量包含临床信息和位点信息。
图5显示了Xgboost输出的前10个特征变量的重要性分数。
图6显示了变量数目与ROC-AUC分数的关系。过程是根据Xgboost模型得到变量特征的重要性(Feature-importance)分数,根据该分数再次优化筛选模型,逐个按照重要性分数从大到小增加特征变量的数目并输入模型进行训练和测试,得到测试的ROC-AUC最优所需要的变量数目,图中所示最优ROC-AUC对应的变量数目为4,即可将重要性分数的前四个特征变量当成输入变量,此时ROC-AUC得分最高。
图7显示了将Xgboost作为机器学习模型,年龄,rs754203,rs2338104,糖尿病作为变量,将1000次的测试集平均值做ROC曲线。
具体实施方式
本发明人经过广泛而深入的研究,首次开发了一种年龄相关性黄斑变性(Age-related macular degeneration,AMD)的风险预测算法模型和装置。本发明采用7个相关SNP的风险(Odd ratio)值,结合7个临床信息,并采用机器学习方法构建风险预测算法模型与装置。本发明可辅助临床进行AMD的提前预测,早期诊断,对降低AMD发病率,提高其疾病治疗率均具有重大临床意义。在此基础上完成了本发明。
术语
rs2338104:序列
TGAAAAAGTTCTAAAATTAGATAGT[C/G]GTTATGGCCTCACAACTTGTGAATA,染色体位置12:109457363,参与基因KCTD10
rs754203:序列
GTGCTGTCCTGGGGCCCAGGAGCCC[C/T]GGGGGCAAGGCTCTGCCCTGTTGCT,染色体位置14:99691630,参与基因CYP46A1(GeneView)
rs2284664:序列
AGAAAAATACCAGTCTCCATAGATC[A/G/T]TAAAGCAAATAGATGGTCTTAAAAT,染色体位置1:196733395,参与基因CFH
rs2071277:序列
GGCAGTGACTGATGCAGTGTGTGAC[A/G]TCTAATCTCCCCCATAATTACAGGC,染色体位置6:32203906,参与基因NOTCH4
rs1999930:序列
ATAGGACAGATTCTAGATTTTCCTT[A/C/G/T]TGATACAGAGAAATATAAGACATAA,染色体位置6:116065971,参与基因FRK
rs10490924:序列
TTTATCACACTCCATGATCCCAGCT[G/T]CTAAAATCCACACTGAGCTCTGCTT,染色体位置10:122454932,参与基因ARMS2
rs5749482:序列
TGGGAACTGACTAATACAGCATGTA[C/G]GAACTATGAAATATGAATTGTGTAA,染色体位置:32663679,参与基因LOC105373002、SYN3
年龄相关性黄斑变性(Age-related macular degeneration,AMD)
为黄斑区结构的衰老性改变。主要表现为视网膜色素上皮细胞对视细胞外节盘膜吞噬消化能力下降,使未被完全消化的盘膜残余小体潴留于基底部细胞原浆中,并向细胞外排出,沉积于Bruch膜,形成玻璃膜疣,由此继发的种种病理改变后,则导致黄斑部变性发生,或者引起Bruch膜本断裂,脉络膜毛细血管通过破裂的Bruch膜进入RPE下及视网膜神经上皮下,形成脉络膜新生血管。由于新生血管壁的结构异常,导致血管的渗漏和出血,进而引发一系列的继发性病理改变。老年性黄斑变性大多发生于45岁以上,其患病率随年龄增长而增高,是当前老年人致盲的重要疾病。
单核苷酸多态性(Single nucleotide polymorphism,SNP)
主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP在人类基因组中广泛存在,平均每个碱基对中就有1个,估计其总数可达300万个甚至更多。SNP是一种二态的标记,由单个碱基的转换或颠换所引起,也可由碱基的插入或缺失所致。SNP既可能在基因序列内,也可能在基因以外的非编码序列上。
Xgboost
一种boosting的有监督集成学习模型,由多个相关联的CART树联合构成。CART是一种二叉决策树,每次分枝时,是穷举每一个特征列的每一个阈值,根据GINI系数找到使不纯性降低最大的特性列以及其阀值,然后按照特征列<=阈值,和特征列>阈值分成的两个分枝,每个分支包含符合分支条件的样本;用同样方法继续分枝直到该分支下的所有样本都属于统一类别,或达到预设的终止条件,若最终叶子节点中的类别不唯一,则以多数样本的类别作为该叶子节点的类别。Xgboost可表示为如下公式:
为预测值,F表示所有可能的CART树,f表示一棵具体的CART树。
模型的目标函数为如下公式:
为损失函数和,∑Ω(fk)为正则项,Obj(θ)取最小值的点就是这个节点的预测值,最小的函数值为最小损失函数。Xgboost采用加法训练法,分步骤优化目标函数,首先优化第一棵树,再优化第二棵树,直至优化完k棵树。
ROC-AUC
一种评价模型准确性的方法,ROC曲线为受试者工作特征曲线(Receiveroperating characteristic curve),以假阳性概率(False positive rate)为横轴,真阳性(True positive rate)为纵轴所组成的坐标图,是反映敏感性和特异性连续变量的综合指标。AUC为ROC曲线下方面积(Area under the curve)。ROC-AUC值在1.0和0.5之间,越接近于1,说明诊断效果越好,在0.5~0.7时有较低准确性,在0.7~0.9时有一定准确性,AUC在0.9以上时有较高准确性。AUC=0.5时,说明诊断方法完全不起作用,无诊断价值。AUC<0.5不符合真实情况,在实际中极少出现。
本发明的主要优点包括:
1)本发明在临床领域首次以位点信息和临床数据预测AMD风险值,适合于高通量样本的检测;
2)本发明预测未来年龄患AMD的风险,可提示改变生活习惯等对风险值的作用,对于AMD疾病有预防警示的作用。
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件,例如Sambrook等人,分子克隆:实验室手册(New York:Cold Spring HarborLaboratory Press,1989)中所述的条件,或按照制造厂商所建议的条件。除非另外说明,否则百分比和份数是重量百分比和重量份数。
实施例1.
从108个备选SNP位点数据通过统计分析筛选出算法模型和装置需要用的AMD疾病相关的7个位点数据。
招募实验训练组和对照组进行SNP统计和临床信息学分析,通过大量筛选,找到108个SNP位点,SNP位点见表1。SNP分型数据由以下步骤得到:
1.样本采集:采用下方两种采集方式。
a)血液样本采集方式:全血采集2-4mL于EDTA抗凝管中。
b)口腔拭子采集方式:尼龙植绒口腔拭子刮取受检人员口腔上颚及口腔两侧黏膜,至口腔拭子尼龙植绒部位全部湿润为止,将采好样的口腔拭子样本放入盛有样本保护液(1-2mL)的试管中保存。
2.样本运输:在放有样本的泡沫盒中加入冰袋低温运输。
3.应用7500荧光定量PCR进行DNA片段的扩增及单碱基的延伸。首先配置染料MIX:1)、配置染料时,应多配几个孔,配置完成后放入-20℃保存;其次染料法和探针法的混合液离心管管壁上应做上标记,避免两种染料混淆;再按顺序加入试剂,即MIXTURE(17μL),引物1(1μL)样本(2μL);最后封膜,上机,完成。
4.应用MassARRAT Analyzer 4system进行基因SNP分型,操作步骤如图2所示。
5.通过全基因组范围内SNP关联分析(GWAS)技术得到AMD相关的SNP位点,关联分析包含以下几个假设:
1)Genotypic Model(基因型模型),假设A为次等位基因,a为主等位基因,3种不同的基因型有不同的影响。
2)Dominant Model(显性模型),即AA/Aa与aa基因型有不同的影响。
3)Recessive Model(隐性模型),即AA与Aa/aa有不同的影响
4)Allelic Model(等位模型),即A和a有不同的影响
基于上述假设,计算卡方值。O为观测频率,E为预期频率。如(2)的假设,第一步我们计算出AA或者Aa(两者满足一个)基因型在正常人中的观测频率和预期频率之差,除以预期频率得到的值V1,第二步按照正常人的计算方法计算出AA或者Aa在疾病当中的值V2,第三步分别按照上述方法得到aa在正常人中的值V3以及在疾病当中的值V4,计算出卡方值则为V1+V2+V3+V4。通过卡方值得到其相关性的p值,根据p值小于0.05筛选得到14个相关位点。
这14个相关位点内部有存在共线性的染色体,通过算法排除共线性大的7个位点,具体算法如下:做50个SNP位点的划窗(window),该划窗每次移动5个SNP,计算其中1个与其他各位点的多重相关指数R2,计算1/(1-R2)的VIF指数,若该指数大于2,则排除这些SNP位点。排除掉rs551397、rs800292、rs10737680、rs3753396、rs1410996、rs2284664、rs1065489位点,最终得到rs2284664,rs2071277,rs1999930,rs10490924,rs2338104,rs754203,rs5749482位点。
上述流程后,得到了所需要的位点,其信息见表2。
6.SNP位点基因型清洗数据变成相应的数值,该数值定位计算出的AMD7个相关位点的OR值(Odd ratio)。OR值(Odd ratio)是指事物发生的概率与不发生的概率之比。公式如下:
OR=(nA/na)/(mA/ma)=(nA×ma)/(mA×na)
假设A为次等位基因,nA为疾病中A的基因个数,na为疾病中不是A的基因个数,mA为对照中A的基因个数,ma为对照中不是A的基因个数。它有以下作用:
a)OR>1时,说明病例组的A的频率大于非病例组的,即A有较高的发病危险性。
b)OR<1时,说明病例组的A的频率低于非病例组的,即A有保护作用。
c)疾病与A等位联系愈密切,比值比的数值愈大。
表1.初始选定的SNP位点编号
(美国国立生物技术信息中心(NCBI)数据库的dbSNP的统一编号)
表2.基因组范围内SNP关联分析(GWAS)技术得到AMD相关的SNP位点信息
CHR SNP A1 F_A F_U A2 CHISQ P OR SE L95 U95
1 rs2284664 T 0.2687 0.3762 C 4.25 0.03924 0.6091 0.2414 0.3795 0.9777
6 rs2071277 C 0.3672 0.4471 T 7.591 0.022470 0.7175 0.2304 0.4568 1.127
6 rs1999930 T 0.03676 0.004587 C 5.204 0.02253 8.282 1.101 0.9571 71.67
10 rs10490924 T 0.5397 0.4231 G 4.286 0.03842 1.599 0.2273 1.024 2.496
12 rs2338104 G 0.4206 0.2905 C 5.951 0.01471 1.773 0.2359 1.117 2.816
14 rs754203 G 0.2868 0.3773 A 7.925 0.019020 0.6636 0.2352 0.4186 1.052
22 rs5749482 G 0.2353 0.3636 C 6.42 0.01128 0.5385 0.246 0.3325 0.872
第一列CHR为位点的染色体信息,第二列为SNP位点的编号,第三列(A1)为次等位基因型,第四列F_A为A1基因型疾病观察到的频率,第五列为F_U为A1等位基因在健康人中观察到的频率,第六列为另一个等位基因型即主等位基因(A2),第七列CHISQ为卡方值,第八列P为卡方值换算得到的P值,第九列OR则为OR风险值,剩下十、十一、十二则为OR值的标准误及其上95%置信区间的上值和下值。
后续基因型将由次等位基因的OR值进行替换,例如假设A为次等位基因,a为主等位基因,包含一个次等位基因(Aa)替换为OR值,包含两个次等位基因(AA)将替换为OR值得平方,如没有该次等位基因(aa)则替换为1.
实施例2.
根据受试者在问卷情况整理获得年龄、身高体重指数(BMI)、高血压情况、高血脂情况、糖尿病情况、肾损伤情况、是否经常在户外、是否素食、从来没有吸过烟、从来没有饮过酒、动脉粥样硬化情况、眼睛手术情况、性别情况等13个临床调查数据。
实施例3.
机器学习算法可分为三类:监督学习,非监督学习和半监督学习。监督学习为通过一部分输入数据和输出数据之间的相应关系,生成函数,将输入映射到合适的输出,比如分类。本发明的样本数据都已在临床确诊,带有已分类好的标签,因此将在有监督的机器学习分类模型中进行探索选择。分别将所有样本只有SNP位点信息的数据(SNP),所有样本只有临床信息的数据(CC),以及结合SNP位点和临床信息的综合数据(SNP+CC)作为输入数据,样本的诊断结果作为输出分类标签。
根据以下步骤进行算法构建:
a)将所有数据随机分成75%的训练集和25%的测试集。
b)构建机器学习分类器。用SNP+CC作为输入数据,先后尝试Logistic回归,随机森林,Adaboost,以及Xgboost。
c)交叉验证调参,选取得分最好的参数。
d)用测试集进行结果验证。
e)模型评价。上述步骤重复1000次,计算测试集的平均受试者曲线的曲线下方面积(ROC-AUC)。选取最高ROC-AUC得分的Xgboost为最佳模型(见图3)。
f)特征变量筛选。分别将临床信息(CC),位点信息(SNP),结合临床信息与位点信息(SNP+CC)作为输入数据,通过Xgboost进行分类,重复1000次,测试集平均受试者曲线见图4,可以看出SNP+CC的ROC-AUC最高。
g)进一步优化特征筛选。Xgboost模型得到变量特征的重要性(Feature-importance)分数(例如前10个的重要性见图5),根据该分数再次优化筛选模型,将改分数从大到小,逐个增加变量数目去训练和测试模型,从而得到变量数目与ROC-AUC分数的关系图(见图6)。结果显示,输入4个最重要的变量(年龄,rs754203,rs2338104,糖尿病)的数据训练并测试模型,模型测试得到的ROC-AUC分数最高。
h)将Xgboost作为机器学习模型,年龄,rs754203,rs2338104,糖尿病作为输入变量,得到1000次的平均ROC-AUC为(0.800±0.06)。
i)存储模型,用于后续测量数据的AMD风险预测。
j)风险值输出:即学习训练完的算法模型预测输入的测试数据在0(对照)和1(患AMD疾病)之间的概率,最终将1(患疾病)概率值确认为风险值,将风险值超过0.5的判定为患AMD疾病。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
序列表
<110> 上海宝藤生物医药科技股份有限公司
上海宝藤医学检验所有限公司
<120> 一种年龄相关性黄斑变性的风险预测算法模型和装置
<130> P2018-2112
<160> 7
<170> SIPOSequenceListing 1.0
<210> 1
<211> 52
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
tgaaaaagtt ctaaaattag atagtcggtt atggcctcac aacttgtgaa ta 52
<210> 2
<211> 52
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
gtgctgtcct ggggcccagg agcccctggg ggcaaggctc tgccctgttg ct 52
<210> 3
<211> 53
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
agaaaaatac cagtctccat agatcagtta aagcaaatag atggtcttaa aat 53
<210> 4
<211> 52
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
ggcagtgact gatgcagtgt gtgacagtct aatctccccc ataattacag gc 52
<210> 5
<211> 54
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
ataggacaga ttctagattt tccttacgtt gatacagaga aatataagac ataa 54
<210> 6
<211> 52
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
tttatcacac tccatgatcc cagctgtcta aaatccacac tgagctctgc tt 52
<210> 7
<211> 52
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
tgggaactga ctaatacagc atgtacggaa ctatgaaata tgaattgtgt aa 52

Claims (9)

1.一种生物标志物集合,其特征在于,所述的集合包括选自下组两种的生物标志物:rs2338104、rs754203、或其组合。
2.如权利要求1所述的生物标志物集合,其特征在于,所述集合还包括选自下组的生物标志物:rs2284664、rs2071277、rs1999930、rs10490924、rs5749482、或其组合。
3.如权利要求1所述的生物标志物集合,其特征在于,所述的集合还包括生物标志物:rs551397、rs800292、rs10737680、rs3753396、rs1410996、rs2284664、rs1065489、或其组合。
4.一种用于年龄相关性黄斑变性患病风险的评估或诊断的试剂组合,其特征在于,所述试剂组合包括用于检测如权利要求1所述的集合中各个生物标志物的试剂。
5.一种试剂盒,其特征在于,所述的试剂盒包括如权利要求1所述的集合和/或如权利要求4所述的试剂组合。
6.一种生物标志物集合的用途,其特征在于,用于制备一试剂盒,所述的试剂盒用于年龄相关性黄斑变性患病风险的评估或诊断,其中,所述生物标志物集合包括选自下组的两种生物标志物:rs2338104、rs754203、或其组合。
7.一种筛选用于评估或诊断年龄相关性黄斑变性患病风险候选化合物的方法,其特征在于,包括步骤:
(1)在测试组中,向待测对象施用测试化合物,检测测试组中来源于所述对象的样品中集合中各个生物标记物的水平V1;在对照组中,向待测对象施用空白对照,检测对照组中来源于所述对象的样品中所述集合中各个生物标记物的水平V2;
(2)对上一步骤检测得到的水平V1和水平V2进行比较,从而确定所述测试化合物是否是治疗年龄相关性黄斑变性的候选化合物,其中所述集合包括两种或多种选自下组的生物标志物:rs2338104、rs1999930、rs10490924。
8.一种生物标志物集合的用途,其特征在于,用于筛选评估或诊断年龄相关性黄斑变性患病风险的候选化合物和/或用于评估候选化合物对年龄相关性黄斑变性的治疗效果,其中,所述生物标志物集合选自下组的两种生物标志物:rs2338104、rs754203、或其组合。
9.一种年龄相关性黄斑变性早期辅助筛查系统,其特征在于,所述系统包括:
(a)年龄相关性黄斑变性相关疾病特征输入模块,所述年龄相关性黄斑变性相关疾病特征输入模块用于输入某一对象的年龄相关性黄斑变性相关疾病特征;
其中所述的年龄相关性黄斑变性相关疾病特征包括选自下组A的位点信息的两种或多种:rs2284664、rs2071277、rs1999930、rs10490924、rs2338104、rs754203、rs5749482、或其组合;
(b)年龄相关性黄斑变性相关疾病判别处理模块,所述处理模块对于输入的年龄相关性黄斑变性相关疾病特征,按预定的判断标准进行评分处理,从而获得风险度评分;并且将所述风险度评分与年龄相关性黄斑变性相关疾病的风险度阈值进行比较,从而得出辅助筛查结果,其中,当所述风险度评分高于所述风险度阈值时,则提示该对象患年龄相关性黄斑变性相关疾病的风险高于正常人群;和
(c)辅助筛查结果输出模块,所述输出模块用于输出所述的辅助筛查结果。
CN201910101067.7A 2019-01-31 2019-01-31 一种年龄相关性黄斑变性的风险预测算法模型和装置 Active CN109585017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910101067.7A CN109585017B (zh) 2019-01-31 2019-01-31 一种年龄相关性黄斑变性的风险预测算法模型和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910101067.7A CN109585017B (zh) 2019-01-31 2019-01-31 一种年龄相关性黄斑变性的风险预测算法模型和装置

Publications (2)

Publication Number Publication Date
CN109585017A true CN109585017A (zh) 2019-04-05
CN109585017B CN109585017B (zh) 2023-12-12

Family

ID=65918525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910101067.7A Active CN109585017B (zh) 2019-01-31 2019-01-31 一种年龄相关性黄斑变性的风险预测算法模型和装置

Country Status (1)

Country Link
CN (1) CN109585017B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110042156A (zh) * 2019-04-22 2019-07-23 苏州亿康医学检验有限公司 一种判断子宫内膜容受性的方法及其应用
CN111471753A (zh) * 2020-04-22 2020-07-31 优生贝(北京)生物技术有限公司 一种基于风险评估模型的女性生育遗传风险基因检测方法
CN113906296A (zh) * 2019-04-23 2022-01-07 中国医学科学院北京协和医院 基于机器学习的使用代谢物作为标记物的孤独症谱系障碍诊断方法和装置
CN114283883A (zh) * 2021-12-27 2022-04-05 河北北方学院附属第一医院 基于分子标记的肝癌肿瘤筛查模型及应用
CN114373547A (zh) * 2022-01-11 2022-04-19 平安科技(深圳)有限公司 疾病患病风险的预测方法及系统
CN116179682A (zh) * 2022-12-29 2023-05-30 温州谱希基因科技有限公司 一种检测年龄相关性黄斑变性的试剂盒及其应用

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101173314A (zh) * 2006-10-18 2008-05-07 四川省医学科学院(四川省人民医院) 检测老年黄斑变性疾病的试剂盒
CN101501194A (zh) * 2006-06-13 2009-08-05 英国贝尔法斯特女王大学 老年性黄斑变性的预防和治疗
CN101550451A (zh) * 2008-03-04 2009-10-07 四川省医学科学院(四川省人民医院) 检测老年黄斑变性疾病的试剂盒
CN101748189A (zh) * 2008-12-22 2010-06-23 上海基康生物技术有限公司 一种老年痴呆相关位点检测方法
CN101857899A (zh) * 2009-04-03 2010-10-13 四川省医学科学院(四川省人民医院) 老年黄斑变性疾病的检测试剂盒
CN103201393A (zh) * 2010-11-01 2013-07-10 霍夫曼-拉罗奇有限公司 使用多基因计分预测向晚期老年性黄斑变性的进展
CN203307338U (zh) * 2012-09-25 2013-11-27 浙江爱易生物医学科技有限公司 黄斑变性相关基因位点检测试剂盒
CN104334173A (zh) * 2012-05-01 2015-02-04 特兰斯拉图姆医学公司 用于治疗和诊断致盲性眼病的方法
US20170091425A1 (en) * 2010-07-19 2017-03-30 Pathway Genomics Corporation Genetic based health management systems for weight and nutrition control
CN107974500A (zh) * 2018-01-22 2018-05-01 常熟市第二人民医院 lncRNAGAS5作为年龄相关黄斑变性诊断标志物中的应用

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101501194A (zh) * 2006-06-13 2009-08-05 英国贝尔法斯特女王大学 老年性黄斑变性的预防和治疗
CN101173314A (zh) * 2006-10-18 2008-05-07 四川省医学科学院(四川省人民医院) 检测老年黄斑变性疾病的试剂盒
CN101550451A (zh) * 2008-03-04 2009-10-07 四川省医学科学院(四川省人民医院) 检测老年黄斑变性疾病的试剂盒
CN101748189A (zh) * 2008-12-22 2010-06-23 上海基康生物技术有限公司 一种老年痴呆相关位点检测方法
CN101857899A (zh) * 2009-04-03 2010-10-13 四川省医学科学院(四川省人民医院) 老年黄斑变性疾病的检测试剂盒
US20170091425A1 (en) * 2010-07-19 2017-03-30 Pathway Genomics Corporation Genetic based health management systems for weight and nutrition control
CN103201393A (zh) * 2010-11-01 2013-07-10 霍夫曼-拉罗奇有限公司 使用多基因计分预测向晚期老年性黄斑变性的进展
CN104334173A (zh) * 2012-05-01 2015-02-04 特兰斯拉图姆医学公司 用于治疗和诊断致盲性眼病的方法
CN203307338U (zh) * 2012-09-25 2013-11-27 浙江爱易生物医学科技有限公司 黄斑变性相关基因位点检测试剂盒
CN107974500A (zh) * 2018-01-22 2018-05-01 常熟市第二人民医院 lncRNAGAS5作为年龄相关黄斑变性诊断标志物中的应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张敏: "KCTD10对神经胶质瘤侵袭及迁移的影响", 《中国优秀硕士学位论文全文数据库<医药卫生科技辑>》 *
张敏: "KCTD10对神经胶质瘤侵袭及迁移的影响", 《中国优秀硕士学位论文全文数据库<医药卫生科技辑>》, 28 February 2017 (2017-02-28), pages 2 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110042156A (zh) * 2019-04-22 2019-07-23 苏州亿康医学检验有限公司 一种判断子宫内膜容受性的方法及其应用
CN110042156B (zh) * 2019-04-22 2021-12-28 苏州亿康医学检验有限公司 一种判断子宫内膜容受性的方法及其应用
CN113906296A (zh) * 2019-04-23 2022-01-07 中国医学科学院北京协和医院 基于机器学习的使用代谢物作为标记物的孤独症谱系障碍诊断方法和装置
CN111471753A (zh) * 2020-04-22 2020-07-31 优生贝(北京)生物技术有限公司 一种基于风险评估模型的女性生育遗传风险基因检测方法
CN114283883A (zh) * 2021-12-27 2022-04-05 河北北方学院附属第一医院 基于分子标记的肝癌肿瘤筛查模型及应用
CN114283883B (zh) * 2021-12-27 2022-11-22 上海华测艾普医学检验所有限公司 基于分子标记的用于肝癌筛查和风险预测的系统及应用
CN114373547A (zh) * 2022-01-11 2022-04-19 平安科技(深圳)有限公司 疾病患病风险的预测方法及系统
CN114373547B (zh) * 2022-01-11 2024-10-25 平安科技(深圳)有限公司 疾病患病风险的预测方法及系统
CN116179682A (zh) * 2022-12-29 2023-05-30 温州谱希基因科技有限公司 一种检测年龄相关性黄斑变性的试剂盒及其应用
CN116179682B (zh) * 2022-12-29 2024-02-06 温州谱希基因科技有限公司 一种检测年龄相关性黄斑变性的试剂盒及其应用

Also Published As

Publication number Publication date
CN109585017B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
CN109585017A (zh) 一种年龄相关性黄斑变性的风险预测算法模型和装置
van Koolwijk et al. Genetic contributions to glaucoma: heritability of intraocular pressure, retinal nerve fiber layer thickness, and optic disc morphology
CN107075446B (zh) 用于肥胖症相关疾病的生物标记物
CN107058521A (zh) 一种检测人体免疫状态的检测系统
CN107338324A (zh) 用于诊断不明原因复发性流产的血清lncRNA标志物、引物组及应用和试剂盒
CN107254531A (zh) 早发性结直肠癌辅助诊断的遗传生物标志物及其应用
CN108531597A (zh) 一种用于口腔鳞癌早期诊断的检测试剂盒
CN117418025A (zh) 肠道菌群标志物在自闭症诊断和治疗中的应用
CN109234385A (zh) 检测阿尔茨海默症基因突变的引物组及试剂盒
CN111647673A (zh) 微生物菌群在急性胰腺炎中的应用
CN110358849A (zh) 源于肠道的诊断胰腺炎的生物标志物、筛选方法及其用途
CN102251045A (zh) 一种检测高度近视的筛查试剂盒
CN107557468B (zh) 一种与原发性肺癌辅助诊断相关的癌-睾丸基因遗传标志物及其应用
CN107075586A (zh) 用于鉴定多种癌症类型和亚型的糖基转移酶基因表达谱
CN114525336A (zh) 一组用于近视诊断及右眼柱镜筛查的snp组合标志物及其应用
CN115505638A (zh) 一种生物标志物组合在高度近视男性易感人群风险预测中的应用
CN115678986A (zh) 用于女性高度近视风险预测以及女性高度近视辅助诊断的生物标志物组合及其应用
CN114783613A (zh) 一种近视的预测分析方法
WO2016049927A1 (en) Biomarkers for obesity related diseases
EP3636771A1 (en) Three molecular markers for diagnosis of glaucoma, kit, and application
US20210285047A1 (en) Two molecular markers, kits and applications for glaucoma diagnosis
WO2023197442A2 (zh) 一组近视、高度近视相关的snp标志物及其应用
CN114574574A (zh) 一组右眼等效球镜数量性状相关的snp标志物及其应用
CN113151512B (zh) 利用肠道细菌检测早期肺癌
CN114807347A (zh) 一组用于近视右眼球镜筛查的snp标志物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant