CN113113085B

CN113113085B - 基于智能宏基因组测序数据肿瘤检测的分析系统及方法

Info

Publication number: CN113113085B
Application number: CN202110278297.8A
Authority: CN
Inventors: 丁文超; 薛继统; 韩序; 周逸文; 王珺
Original assignee: Hangzhou Jieyi Biotechnology Co ltd
Current assignee: Hangzhou Jieyi Biotechnology Co ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2022-08-19
Anticipated expiration: 2041-03-15
Also published as: CN113113085A

Abstract

本发明公开了一种基于人工智能的用宏基因组测序数据进行肿瘤检测的分析系统，包括：用于过滤低质量序列的数据过滤模块、用于将序列比对至人参考基因组上的数据比对模块、用于获取样本的染色体波动变异情况的染色体波动分析模块、用于判断样本是否含有肿瘤信号的基于人工智能的肿瘤信号识别模块。本发明的分析系统具有分析时间短、准确性高的优点，可以利用常规mNGS测序数据来检测肿瘤，实现一份样本在检测病原体的情况下同时进行肿瘤检测的功能。

Description

基于智能宏基因组测序数据肿瘤检测的分析系统及方法

技术领域

本发明属于生物检测领域，具体涉及基于人工智能的用宏基因组测序数据进行肿瘤检测的分析系统及分析方法。

背景技术

不明原因发热(FUO)，俗称发热待查，一般是指发热3周以上，体温多次超过38.3℃，经过至少1周深入细致的检查仍不能明确的一组疾病。随着宏基因组测序技术的发展及推广，临床在近年常用高通量测序技术对病人样本进行测序来寻找病原体，排查感染原因。在发热待查病人中，除了感染因素以外，肿瘤往往也是一个重要原因。很多情况下，即使采用了CT、磁共振、PET等全身扫描技术，肿瘤排查也非常困难。很多患者进行了长时间的抗感染治疗，经过各种排查以后才发现是肿瘤患者，贻误了诊疗时间。

已有的研究表明肿瘤细胞通常有大量的染色体波动变异，包括一条及以上的染色体非整倍体或变异程度不等的波动，而这些特征可以作为识别肿瘤细胞的标识(图1.a)。现有的研究也通常根据这一特征，选择波动变异相关的指标或基于此的统计检验值来判断被检测样本是否来源于肿瘤样本。但这一判断方式有一些局限性：1.不同的肿瘤样本，其波动变异区域、长度和幅度各不相同，难以通过某个固定的阈值来包含所有情况；2.某些肿瘤样本并不具有明显的波动变异，而是呈现出其他较难识别的染色体异常，比如染色体末端的异常(图1.b)以及染色体波动信号呈小幅波浪形等(图1.c)。这些染色体异常不同于常见的波动，因此无法通过常规的波动变异相关方法进行检测，容易导致假阴性。3.由于检测样本的来源、所使用检测试剂和实验操作流程的区别，也会导致检测得到的波动信号模式呈现一定程度的不同，如序列GC含量变化导致的染色体波动，人们也往往难以将其与肿瘤导致的波动加以区分(图1.d)；4.在样本检出小范围波动时，难以区分是肿瘤性波动还是遗传性变异。某些肿瘤样本可能并没有明显的大片段的染色体波动异常，而只有小片段波动，但这些波动区域往往包含了某些关键的癌基因(图1.e)。对于这种情况，仅用染色体波动相关指标来判断，容易忽略这些包含关键癌基因的变异，导致假阴性；5.样本质量和实验操作会直接影响检出的波动信号。在样本质量较差或者实验操作不理想的情况下，非肿瘤样本也可能检测出一些波动异常信号，需要与真实肿瘤样本的波动变异信号加以区分(图 1.f)。

基于上述问题，我们认识到，单纯通过波动检测以及设定波动变异相关的阈值来识别肿瘤样本无法满足实际临床诊断需求。因此，我们需要建立一个基于人工智能的分析系统，用于识别肿瘤样本中各种染色体波动变异的模式，并与其他原因导致的波动变异信号进行区分，自动判断检测样本是否含有肿瘤信号。

发明内容

本发明针对宏基因组高通量测序得到的人源序列进行人基因组的染色体波动变异分析，并通过人工智能方法来自动判断样本是否含有肿瘤信号。

基于人工智能的用宏基因组测序数据进行肿瘤检测的分析系统，其特征在于，所述分析系统包括：

(1)用于过滤低质量序列的数据过滤模块；

(2)用于将序列比对至人参考基因组上的数据比对模块；

(3)用于获取样本的染色体波动信息及波动变异情况的染色体波动分析模块；

(4)用于判断样本是否含有肿瘤信号的基于人工智能的肿瘤信号识别模块。

本发明的分析系统具有分析时间短、准确性高的优点，可以利用常规mNGS 测序数据来检测肿瘤，实现一份样本在检测病原体的情况下同时进行肿瘤检测的功能。

进一步地，所述数据过滤模块负责对输入的高通量测序数据进行质控，去除低质量数据，保证进入后续分析流程的数据质量可靠；具体过滤条件为：1)去除含有测序接头序列的读长序列(reads)；2)去除包含两个及以上的N的reads；

3)去除含有最低质量值的碱基数超过10％的reads。

进一步地，所述数据比对模块负责将通过质控的干净数据与人类参考基因组序列比对，只选取能唯一比对到人类参考基因组序列且不允许错配的reads数据进行后续波动变异分析，将基因组分割成固定长度的连续窗口片段(bin)，统计比对到每个窗口中的reads数量。

进一步地，所述染色体波动分析模块通过分析基因组上各窗口比对上的 reads数，得到样本的染色体波动信号，并检测样本中的染色体波动。

更进一步地，所述染色体波动分析模块的具体分析方法包括：

①数据归一化

计算唯一比对到所有常染色体上的序列数量(TotalUniq)，将样本的常染色体上的唯一比对数据量归一化至5M，并对每个窗口进行归一化。

BIN_ij是染色体i上第j个窗口的唯一比对读长序列数量；

binRC_ij是归一化后染色体i上第j个窗口的唯一比对读长序列数量；

②计算染色体波动信号

计算第i条染色体第j个窗口待测样本与参考集数据量的比值(fold change,fd值)，计算公式如下：

其中binRC_ij是归一化后染色体i上第j个窗口的唯一比对读长序列数量，binlibRC_i,j代表参考集中归一化后染色体i上第j个窗口的的唯一比对读长序列数量。

③Waviness的计算

用所有bin的标准差之和表示样本的波动情况，计算公式如下：

其中n代表位点总数，μ代表位点平均数；

④PCA-HMM方法分析样本染色体波动

PCA(主成分分析)利用正交变换依次寻找使得数据投影方差最大的方向，得到一系列线性不相关变量(主成分)；利用PCA获得步骤②中计算得到的染色体波动信号中方差最大的几个主成分，去除噪声，平滑数据；

数据平滑后，基于参考集计算出样本每个bin的z值，接着采用HMM(隐马尔可夫模型)估算每个bin含有波动变异的概率。

进一步地，所述肿瘤信号识别模块通过预先训练好的神经网络，根据染色体波动分析模块输出的结果，判断样本是否含有肿瘤信号。

更进一步地，所述肿瘤信号识别模块的识别方法为：

①数据标准化

肿瘤信号识别模块的输入特征包括染色体波动信号数据、唯一比对数据量、 GC含量、性别，将性别数据以外的其他各项特征通过下述公式进行标准化，使得数据分布在-1到1的区间内：

其中x表示某个特征，μ表示该特征的整体平均值，σ表示该特征的整体标准差，z为标准化的结果；

②构建特征提取网络

将样本的唯一比对数据量、GC含量、性别输入到深度神经网络中，经过多个级联的全连接层，提取样本QC数据集波动总体结果特征；

③构建波动信号卷积神经网络

将样本染色体波动信号(fd值)输入到卷积神经网络(CNN)，经过多个级联的卷积和最大池化变换后，得到波动信号信息；

④构建肿瘤信号识别网络

将特征提取网络和波动信号卷积神经网络的输出结果通过连接层整合为一个矩阵，经过全连接层和有监督学习二分类器，输出最终的判断结果；

⑤模型迭代与评估

将训练集数据输入到模型中进行训练，共训练50轮(epoch)，并计算每一轮的F1-score，选取其中F1-score最高的轮次，且训练集的准确度(accuracy) 要超过0.95作为最优模型；F1-score的计算公式如下：

其中precision和recall的计算公式如下，其中TP表示预测结果中真阳性的数量，FP为结果中假阳性的数量，FN为结果中假阴性的数量：

本发明还公开一种基于人工智能的用宏基因组测序数据进行染色体波动分析的方法，包括以下步骤：

(1)用数据过滤模块过滤低质量序列，去除低质量数据：具体过滤条件为： 1)去除含有测序接头序列的读长序列(reads)；2)去除包含两个及以上的N的 reads；3)去除含有最低质量值的碱基数超过10％的reads；

(2)用数据比对模块将序列比对至人参考基因组上：将通过质控的干净数据与人类参考基因组序列比对，只选取能唯一比对到人类参考基因组序列且不允许错配的reads数据进行后续波动变异分析，将基因组分割成固定长度的连续窗口片段(bin)，统计比对到每个窗口中的reads数量；

(3)用染色体波动分析模块获取样本的染色体波动信息：通过分析基因组上各窗口比对上的reads数，得到样本的染色体波动信号，并检测样本中的波动。

进一步地，步骤(3)中染色体波动分析模块的具体分析方法包括：

①数据归一化

BIN_ij是染色体i上第j个窗口的唯一比对读长序列数量；

②计算染色体波动信号

③Waviness的计算

其中n代表位点总数，μ代表位点平均数；

④PCA-HMM方法分析样本染色体波动

我们收集了包含各种染色体变异的肿瘤样本作为阳性样本集，除了具有明显波动变异的外，还包括染色体两端异常、染色体波动信号呈波浪形、含有包括关键癌基因的小片段波动的肿瘤样本；同时收集了阴性样本集，除了正常的阴性样本外，还包括GC含量异常导致染色体波动信号呈波浪形、含有不同长度的遗传性染色体变异、以及由于样本质量或实验操作问题导致检出大量波动变异的阴性样本。通过训练，AI在识别常规肿瘤样本的基础上，还能够较好地识别这些常规方法难以分辨的模式。

附图说明

图1是常规波动检测方法识别肿瘤的局限性示意图。其中，a.大量染色体异常，临床确诊腹膜后肿瘤.b.染色体两端异常，临床确诊食管癌.c.染色体波动信号呈波浪形，临床确诊淋巴瘤.d.染色体波动信号呈波浪形，文库GC含量高(43.8％)，临床未确诊肿瘤.e.7号染色体上检出7p11.2(dup_1.7Mb)，包含EGFR 基因，临床确诊肺癌.f.检出大量波动，临床未确诊肿瘤。

图2是本发明分析流程示意图。

图3是HMM模型示意图。a.包含三种染色体波动隐含状态的HMM模型示意图.b.HMM转换概率矩阵，包含了三个隐含状态间两两转换的概率.c.考虑了波动间距的HMM转换概率矩阵，f为由波动间距d和波动平均间距D决定的概率衰减因子.d.包含n个bin的序列及对应的z值信号链.e.HMM输出概率矩阵，分别使用中心为0,3,-3的正态分布作为三种染色体波动隐含状态的输出概率函数dnorm代表正态分布函数.f.计算第n个bin含有波动变异的概率。

图4是CNN与FC结合的神经网络模型示意图。其中CNN block中包含6 个covd2d层，3个max_pooling2d层，3个Dropout层，一个用于输出的Dense 层和一个flatten层用于打平网络。DNN block，则包含两个Dense层和一个 Dropout层。

图5是模型训练过程示意图。a表示训练集和测试集F1 score在50轮次的训练中的变化情况，b表示准确率Accuracy在50轮次中的变化情况，超过橙色线条的epoch中F1score最高点的模型权重被我们选用。

图6是实施例2分析结果示意图。

具体实施方式：

下面结合实施例对本发明进一步说明，可以帮助本领域的技术人员更全面的理解本发明。但不以任何方式限制本发明，凡依照本发明的内容所做的任何本领域的等同替换均属于本发明的保护范围之内。

实施例1

本发明分析系统主要由数据过滤模块，数据比对模块，染色体波动分析模块，基于人工智能的肿瘤信号识别模块构成(如图2所示)。

1.数据过滤模块

数据过滤模块负责对输入的高通量测序数据进行质控，去除低质量数据，保证进入后续分析流程的数据质量可靠。具体过滤条件为：1)去除含有测序接头序列的读长序列(reads)；2)去除包含两个及以上的N的reads；3)去除含有最低质量值的碱基数超过10％的reads。

2.数据比对模块

数据比对模块负责将通过质控的干净数据与人类参考基因组序列比对，只选取能唯一比对到人类参考基因组序列且不允许错配的reads数据进行后续波动变异分析。将基因组分割成固定长度的连续窗口片段(bin)，统计比对到每个窗口中的reads数量。

3.染色体波动分析模块

染色体波动分析模块通过分析基因组上各窗口比对上的reads数，得到样本的染色体波动信号，并检测样本中的波动。

3.1数据归一化

BIN_ij是染色体i上第j个窗口的唯一比对读长序列数量；

binRC_ij是归一化后染色体i上第j个窗口的唯一比对读长序列数量。

3.2计算染色体波动信号

3.3 Waviness的计算

用所有bin的标准差之和表示样本的波动情况，一般情况下含有肿瘤细胞的样本波动较大。计算公式如下：

其中n代表位点总数，μ代表位点平均数。

3.4 PCA-HMM方法分析样本染色体波动

PCA(主成分分析)利用正交变换依次寻找使得数据投影方差最大的方向，得到一系列线性不相关变量(主成分)。我们利用PCA获得3.2中计算得到的染色体波动信号中方差最大的几个主成分，去除噪声，平滑数据。

数据平滑后，基于参考集计算出样本每个bin的z值，接着采用HMM(隐马尔可夫模型)估算每个bin含有波动变异的概率(图3)。

4.基于人工智能的肿瘤信号识别模块

肿瘤信号识别模块通过预先训练好的神经网络，根据染色体波动分析模块输出的结果，判断样本是否含有肿瘤信号。

4.1数据标准化

肿瘤信号识别模块的输入特征包括染色体波动信号数据、唯一比对数据量、GC含量、性别。我们将性别数据以外的其他各项特征通过下述公式进行标准化，使得数据分布在1-到1的区间内：

其中x表示某个特征，μ表示该特征的整体平均值，σ表示该特征的整体标准差，z为标准化的结果。

4.2构建特征提取网络

将样本的唯一比对数据量、GC含量、性别输入到深度神经网络中，经过多个级联的全连接层，提取样本QC数据集波动总体结果特征。

4.3构建波动信号卷积神经网络

将样本染色体波动信号(fd值)输入到卷积神经网络(CNN)，经过多个级联的卷积和最大池化变换后，得到波动信号信息。

4.4构建肿瘤信号识别网络

将特征提取网络和波动信号卷积神经网络的输出结果通过连接层整合为一个矩阵，经过全连接层和有监督学习二分类器，输出最终的判断结果，如图4。

4.5模型迭代与评估

将训练集数据输入到模型中进行训练，共训练50轮(epoch)，并计算每一轮的F1-score，选取其中F1-score最高的轮次，且训练集的准确度(accuracy) 要超过0.95作为最优模型(F1在训练过程中的变化情况如图5)。F1-score的计算公式如下：

其中precision和recall的计算公式如下(其中TP表示预测结果中真阳性的数量，FP为结果中假阳性的数量，FN为结果中假阴性的数量)：

实施例2

为了评估本发明的分析性能，确定嵌合肿瘤样本的检测限，我们用25种肿瘤细胞系与25个阴性样本分别做了0％、5％、10％、20％、50％和100％肿瘤细胞比例的嵌合样本，按mNGS实验流程建库上机后，用本系统分析生成的测序数据并得到肿瘤判断结果。

肿瘤细胞比例(％)	判断正确	假阳	假阴
				100	25	0	0
50	25	0	0
				20	25	0	0
10	21	0	4
				5	16	0	9
0	25	0	0

如上表和图6所示，分析得到，本发明的准确率、精度、敏感性与特异性分别为92.6％，100％，91.3％与100％。嵌合比例在20％及以上的样本的准确率为 100％，嵌合样本的检出限在5％左右。

Claims

1.基于人工智能的用宏基因组测序数据进行肿瘤检测的分析系统，其特征在于，所述分析系统包括：

(1)用于过滤低质量序列的数据过滤模块；

(2)用于将序列比对至人参考基因组上的数据比对模块；

(3)用于获取样本的染色体波动情况的染色体波动分析模块；

(4)用于判断样本是否含有肿瘤信号的基于人工智能的肿瘤信号识别模块；

所述染色体波动分析模块通过分析基因组上各窗口比对上的reads数，得到样本的染色体波动信号，并检测样本中的染色体波动情况；

所述染色体波动分析模块的具体分析方法包括：

①数据归一化

计算唯一比对到所有常染色体上的序列数量TotalUniq，将样本的常染色体上的唯一比对数据量归一化至5M，并对每个窗口进行归一化；

BIN_ij是染色体i上第j个窗口的唯一比对读长序列数量；

②计算染色体波动信号

计算第i条染色体第j个窗口待测样本与参考集数据量的比值fd值，计算公式如下：

其中binRC_ij是归一化后染色体i上第j个窗口的唯一比对读长序列数量，binlibRC_i,j代表参考集中归一化后染色体i上第j个窗口的唯一比对读长序列数量；

③Waviness的计算

其中n代表位点总数，μ代表位点平均数；

④PCA-HMM方法分析样本染色体波动

PCA(主成分分析)利用正交变换依次寻找使得数据投影方差最大的方向，得到一系列线性不相关变量；利用PCA获得步骤②中计算得到的染色体波动信号中方差最大的几个主成分，去除噪声，平滑数据；

2.如权利要求1所述的分析系统，其特征在于，所述数据过滤模块负责对输入的高通量测序数据进行质控，去除低质量数据，保证进入后续分析流程的数据质量可靠；具体过滤条件为：1)去除含有测序接头序列的读长序列reads；2)去除包含两个及以上的N的reads；3)去除含有最低质量值的碱基数超过10％的reads。

3.如权利要求1所述的分析系统，其特征在于所述数据比对模块负责将通过质控的干净数据与人类参考基因组序列比对，只选取能唯一比对到人类参考基因组序列且不允许错配的reads数据进行后续染色体波动分析，将基因组分割成固定长度的连续窗口片段bin，统计比对到每个窗口中的reads数量。

4.如权利要求1所述的分析系统，其特征在于，所述肿瘤信号识别模块通过预先训练好的神经网络，根据染色体波动分析模块输出的结果，判断样本是否含有肿瘤信号。

5.如权利要求4所述的分析系统，其特征在于，所述肿瘤信号识别模块的识别方法为：

①数据标准化

肿瘤信号识别模块的输入特征包括染色体波动信号数据、唯一比对数据量、GC含量、性别，将性别数据以外的其他各项特征通过下述公式进行标准化，使得数据分布在-1到1的区间内：

②构建特征提取网络

③构建波动信号卷积神经网络

将样本染色体波动信号fd值输入到卷积神经网络(CNN)，经过多个级联的卷积和最大池化变换后，得到波动信号信息；

④构建肿瘤信号识别网络

⑤模型迭代与评估

将训练集数据输入到模型中进行训练，共训练50轮，并计算每一轮的F1-score，选取其中F1-score最高的轮次，且训练集的准确度要超过0.95作为最优模型；F1-score的计算公式如下：

6.基于人工智能的用宏基因组测序数据进行肿瘤检测的分析方法，其特征在于包括以下步骤：

(1)用数据过滤模块过滤低质量序列，去除低质量数据：具体过滤条件为：1)去除含有测序接头序列的读长序列reads；2)去除包含两个及以上的N的reads；3)去除含有最低质量值的碱基数超过10％的reads；

(2)用数据比对模块将序列比对至人参考基因组上：将通过质控的干净数据与人类参考基因组序列比对，只选取能唯一比对到人类参考基因组序列且不允许错配的reads数据进行后续波动变异分析，将基因组分割成固定长度的连续窗口片段bin，统计比对到每个窗口中的reads数量；

(3)用染色体波动分析模块获取样本的染色体波动信息：通过分析基因组上各窗口比对上的reads数，得到样本的染色体波动信号，并检测样本中的波动；

其中染色体波动分析模块的具体分析方法包括：

①数据归一化

计算唯一比对到所有常染色体上的序列数量TotalUniq，将样本的常染色体上的唯一比对数据量归一化至5M，并对每个窗口进行归一化：

BIN_ij是染色体i上第j个窗口的唯一比对读长序列数量；

②计算染色体波动信号

③Waviness的计算

其中n代表位点总数，μ代表位点平均数；

④PCA-HMM方法分析样本染色体波动