CN113611367A

CN113611367A - 一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法

Info

Publication number: CN113611367A
Application number: CN202110898820.7A
Authority: CN
Inventors: 彭绍亮; 向伟铭; 陈东
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-05
Anticipated expiration: 2041-08-05
Also published as: CN113611367B

Abstract

本发明公开了一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法，包括S1、采用Pair编码对训练数据进行处理；S2、采用H‑VAE模型对步骤S1中处理后的数据进行预训练以获得隐变量分布的参数；S3、采用给定的后验分布并结合隐变量分布的参数采样新的正样本；S4、将新采样的正样本与之前的训练数据融合，在保留原始信息模型的信息提取模块的基础上，将最后的全连接层进行替换，使用融合后的数据进行联合训练；S5、利用训练好的任务分类结果，对新的输入任务进行脱靶预测。本发明解决了类不平衡数据所带来的学习不稳定等问题。

Description

一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法

技术领域

本发明涉及计算机科学技术领域，更具体地说，特别涉及一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法。

背景技术

由于CRISPR/Cas9脱靶数据的获取需要通过生物实验而来，但生物实验存在一些固有的缺点，例如：成本高、速度慢、不可控因素多等原因，这会导致CRISPR/Cas9的脱靶数据非常少，使得模型的训练变得困难。CRISPR/Cas9脱靶数据的其中一个问题即是正负样本的数量非常悬殊，这对常规深度学习算法的训练提出了一个非常有挑战性的问题。在不平衡数据集上训练的常规模型对于大多数类来说很容易达到较高的准确率。然而，这种高准确率是不实用的。因为结果表明这样的模型对于真正重要的正样本分类精度往往表现较差。在以往的研究中，DeepCRISPR采用过采样方法，通过复制正样本以达到于负样本相匹配的数量，或者使用SMOTE算法生成新的正样本数据，以补充正样本不足的问题。

发明内容

本发明的目的在于提供一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法，以克服现有技术所存在的缺陷。

为了达到上述目的，本发明采用的技术方案如下：

一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法，包括以下步骤：

S1、采用Pair编码对训练数据进行处理；

S2、采用H-VAE模型对步骤S1中处理后的数据进行预训练以获得隐变量分布的参数；

S3、采用给定的后验分布并结合隐变量分布的参数采样新的正样本；

S4、将新采样的正样本与之前的训练数据融合，在保留原始信息模型的信息提取模块的基础上，将最后的全连接层进行替换，使用融合后的数据进行联合训练；

S5、利用训练好的任务分类结果，对新的输入任务进行脱靶预测。

进一步地，在步骤S1具体为，采用Pair编码对训练数据中的sgRNA和靶向DNA进行一一对应的配对处理。

进一步地，所述步骤S2中的H-VAE模型的框架包括Embedding层、Encoder和Decoder层；其中，所述Embedding层由一个词嵌入矩阵组成，其输入经过Embedding层的映射从Nx24的输入变为Nx24xd_h的张量，作为Encoder层的输入；所述Encoder层由四个Block组成，每一个Block是由卷积-批归一化-激活函数三种操作而组成；所述Decoder层由四个Block组成，每个Block是由反卷积-批归一化-激活函数三种操作组成。

进一步地，所述H-VAE模型的训练步骤包括：

S21、对任意一批输入样本{x₁,...,x_n}用X来表示，X的维度为R^Nx24，N为批次的大小，每一个样本经过序列编码模块后得到的输出长度为24，其包含着错配、插入和缺失三种情况的序列样本，将样本X输入到词嵌入层中，得到维度为

大小的张量X₁，其中d_e是词嵌入层的维度；

S22、经过词嵌入的张量X₁经过Encoder层的一系列卷积操作得到后验分布的均值μ和方差σ²并在该后验分布上采样数据，利用重参数技巧进行变换将采样操作变换成采样结果参与计算，其计算公式如下：

其中，

是服从均值为0、方差为1的高斯分布。从N(μ,σ²)中采样z，相当于从N(0,1)中采样一个ξ，并使z＝μ+ξ×σ；

S23、在得到采样后的结果后，将结果输入到Decoder层中，经过反卷积操作可以得到

k用来表示出每个样本x对应的采样z，g可以看做是一个反卷积的过程。

是一个重构的x；

S24、采用重构损失

来约束生成器，使生成器根据隐变量恢复出原有的输入数据，其中：

在训练计算时，使用

来进行计算：

进一步地，在步骤S24中还包括增加损失函数来约束生成器，所述损失函数的公式如下：

其中，d为隐变量的维度，μ_(i)和

分别代表第i个分量的均值和方差。

进一步地，所述步骤S3具体为，使用隐变量分布的参数选择多个不同的概率分布，并将多个不同的概率分布相结合对正样本进行采样。

与现有技术相比，本发明的优点在于：本发明针对现有模型对碱基对的匹配信息提取能力弱的问题，提出了一种基于Pair编码的深度学习框架，使得模型能充分利用到sgRNA-DNA碱基对的匹配信息。同时，该编码方式也能够处理错配脱靶以外的类型。针对数据类别极度不平衡造成模型训练极不稳定的问题，提出了一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法，首先使用训练数据集中的所有数据进行训练，此时训练并不会带入类标签信息，编码器需要将原始数据编码成隐空间信息，然后解码器将隐空间信息恢复成原始数据，最后以最小化平方损失函数为目标。训练收敛后可以得到少数类隐空间信息高斯分布的均值和方差。在数据扩充阶段，生成相应高斯分布的随机数，并确定采样变量；输入所述采样变量到变分编码器的解码器中生成相似样本，最后的分类模型将生成的样本与真实数据进行混合训练，从而达到缓解类不平衡数据所带来的学习不稳定等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于VAE数据增强的CRISPR/Cas9脱靶预测方法的流程图。

图2是本发明中Pair序列表示方法图。

图3是本发明中H-VAE预训练模块图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

参阅图1所示，本实施例公开了一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法，包括以下步骤：

步骤S1、采用Pair编码对训练数据进行处理。

结合图2所示，由于碱基序列和文本序列有着天然的相似性，利用词嵌入表示的模型能取得非常好的效果，同时也证明了词嵌入方法有着强大的表示能力，因此采用词嵌入方法来表示序列，与传统方法不同的是在编码时不再对sgRNA和DNA这两个不同的序列进行分开编码，而是编码sgRNA和DNA的配对信息。本实施例将sgRNA和靶向DNA进行一一对应，并将indel考虑在内，则可以得到共25种不同的碱基组合方式。通过考虑序列之间的匹配信息，本实施例可以得到一种高效的配对表示方式。在得到编码信息后，将其输入词嵌入层，得到每对碱基在高维空间的表达，使模型在预训练模块就能有较大的假设空间，提高模型的表达能力。

步骤S2、采用H-VAE模型对步骤S1中处理后的数据进行预训练以获得隐变量分布的参数。

VAE在图像生成与序列生成任务上往往都是使用单一的卷积神经网络或递归神经网络进行编码和解码，由于序列对的信息使用图像编码太过单一，为了增强模型的表达能力，本实施例使用基于混合词嵌入与卷积神经网络的VAE模型(H-VAE)对正样本的隐变量进行学习，从而得到正样本隐变量分布的参数。因此，在训练过程中利用学习到的分布产生的数据作为原数据的补充，以缓解类不平衡问题。

H-VAE模型的预训练的框架分为Embedding层、Encoder和Decoder层，下面分别介绍。

Embedding层：Embedding层是由一个词嵌入矩阵组成，输入经过Embedding层的映射从Nx24的输入变为Nx24xd_h的张量，作为Encoder层的输入。

Encoder层：Encoder层由四个Block组成，每一个Block是由卷积-批归一化-激活函数三种操作而组成。卷积操作是由卷积核(convolutional kernel)来提取数据特征。在卷积核内部的区域称为“感受野”(receptive field)，感受野的大小即为卷积核的大小。卷积操作分为两个步骤，局部聚合和窗口滑动。在局部聚合时，利用卷积核里的参数对感受野内的数据做矩阵元素的乘法后进行加和输出到特征图(Feature map)中。在经过局部聚合后，卷积核滑动到下一个区域，而滑动的步长是提前指定的。

在经过卷积操作后，下一个操作是LeakyReLU激活，该操作的作用是是将卷积线性变换的结果进行非线性映射，LeakyReLU与传统的ReLU激活函数不同，它不会将小于0的数置0，而是将其进行放缩。会在一定程度上缓解ReLU引起的梯度消失等问题。

其中a_i是认为设置的一个值，用来控制放缩比例。

最后一个操作是批归一化(Batch Normalization)操作。批归一化的作用是通过对隐藏层输入进行标准化操作，使得得到的输出在激活函数的非饱和区，这有利于梯度下降的进行，加快了网络训练的速率。

本实施例中，假设隐变量的后验分布是一个正态分布，Encoder层的目标是学习到这个分布。而后面的Decoder层是把从p(z|x_k)采样得到的z还原为x_k。如果能得到隐变量的后验分布，就能从p(z|x_k)随机采样一系列样本，而这些样本是相似于x_k的。经过四个Block的操作后，最后得到的输出分别经过两个全连接层，输出隐变量后验分布的均值和方差。

Decoder层：Decoder层也由四个Block组成，每个Block是由反卷积-批归一化-激活函数三种操作组成。由于在解码层需要生成数据，所以需要将得到的隐层输入进行反卷积操作，批归一化和激活函数同Encoder层一致。

本实施例中，H-VAE模型的训练步骤包括：

S21、对于一批输入样本{x₁,...,x_n}，整体用X来表示，X的维度为，N为批次的大小。每一个样本是经过序列编码模块后得到的输出，长度为24，包含着错配、插入和缺失三种情况的序列样本。将X输入到词嵌入层中，得到维度为

大小的张量，其中是词嵌入层的维度。

S22、经过词嵌入的张量X1经过Encoder层的一系列卷积操作得到后验分布的均值μ和方差σ²，为了得到Decoder层的输入，需要在此分布上采样数据，由于采样的操作不可导。为了训练网络，利用重参数技巧(Reparameterizationtrick)进行变换，使得将采样操作变换成采样结果参与计算：

其中

是服从均值为0、方差为1的高斯分布，因此从N(μ,σ²)中采样z，N(μ,σ²)是一个给出均值和方差的高斯(正态)分布，众多模型常用的一种分布，相当于从N(0,I)中采样一个ξ，并使z＝μ+ξ×σ。因此在原分布采样数据变成在N(0,I)分布采样一系列数据，经过变换得到原分布采样的结果，这样使得采样的操作不需要参加梯度下降，而改成采样的结果参与，使得模型可以正常训练了。

S23、在得到采样后的结果后，将结果输入到Decoder层中，因为得到的z_k是特定于x_k的，因此经过生成器中一系列反卷积操作可以得到

S24、为了使生成器学习到p(x_k|z_k)，类似于AE模型，需要用重构损失

来约束生成器，使得生成器能够根据隐变量恢复出原有的输入数据。对于模型的训练，本文选择L2距离函数作为重构损失D。除此之外，不同于传统的AE模型，VAE进行重构的过程会有噪声。如果单纯地使用重构损失去对模型进行优化，模型最终会使隐变量的方差会降为0，以尽量降低噪声的影响，因此模型会退化为普通的AE模型。因此，除了重构损失之外，VAE还让所有的p(z|x)都趋向于标准正态分布，为了实现这个目标，在计算重构损失之外，再加入一个额外的损失函数即两个正态分布的KL散度：

其中，d为隐变量的维度，μ_(i)和

分别代表第i个分量的均值和方差。因此最终的loss函数为：

经过一定的训练步骤，直到loss值不再下降则停机。训练完成后，可以得到正样本隐变量分布的均值和方差。

步骤S3、采用给定的后验分布并结合隐变量分布的参数采样新的正样本，也就是：使用隐变量的参数，选择多个不同的概率分布，将多个不同的概率分布相结合对正样本进行采样，从而缓解正样本过少的问题。

步骤S4、将新采样的正样本与之前的训练数据融合，在保留原始信息模型的信息提取模块的基础上，将最后的全连接层进行替换，使用融合后的数据进行联合训练。

具体的，本实施例在H-VAE预训练完成之后，为了训练最终的CRISPR/Cas9脱靶预测任务，在保留原始信息模型的信息提取模块的基础上，将最后的全连接层进行替换，使其能够预测CRISPR/Cas9的脱靶活性。同时在每一批次的训练过程中，加入从预训练得到的正样本分布中采样出来的生成样本进行联合训练。

步骤S5、利用训练好的任务分类结果，对新的输入任务进行脱靶预测。

具体的，本实施例利用前面步骤处理得到的最终训练好的模型，结合手工特征，对新的数据进行处理和预测。

本发明针对现有模型对碱基对的匹配信息提取能力弱的问题，提出了一种基于Pair编码的深度学习框架，使得模型能充分利用到sgRNA-DNA碱基对的匹配信息。同时，该编码方式也能够处理错配脱靶以外的类型。针对数据类别极度不平衡造成模型训练极不稳定的问题，提出了一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法，首先使用训练数据集中的所有数据进行训练，此时训练并不会带入类标签信息，编码器需要将原始数据编码成隐空间信息，然后解码器将隐空间信息恢复成原始数据，最后以最小化平方损失函数为目标。训练收敛后可以得到少数类隐空间信息高斯分布的均值和方差。在数据扩充阶段，生成相应高斯分布的随机数，并确定采样变量；输入所述采样变量到变分编码器的解码器中生成相似样本，最后的分类模型将生成的样本与真实数据进行混合训练，从而达到缓解类不平衡数据所带来的学习不稳定等问题。

虽然结合附图描述了本发明的实施方式，但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改，只要不超过本发明的权利要求所描述的保护范围，都应当在本发明的保护范围之内。

Claims

1.一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法，其特征在于，包括以下步骤：

S1、采用Pair编码对训练数据进行处理；

2.根据权利要求1所述的基于VAE数据增强的CRISPR/Cas9脱靶预测方法，其特征在于，在步骤S1具体为，采用Pair编码对训练数据中的sgRNA和靶向DNA进行一一对应的配对处理。

3.根据权利要求1所述的基于VAE数据增强的CRISPR/Cas9脱靶预测方法，其特征在于，所述步骤S2中的H-VAE模型的框架包括Embedding层、Encoder和Decoder层；其中，所述Embedding层由一个词嵌入矩阵组成，其输入经过Embedding层的映射从Nx24的输入变为Nx24xd_h的张量，作为Encoder层的输入；所述Encoder层由四个Block组成，每一个Block是由卷积-批归一化-激活函数三种操作而组成；所述Decoder层由四个Block组成，每个Block是由反卷积-批归一化-激活函数三种操作组成。

4.根据权利要求3所述的基于VAE数据增强的CRISPR/Cas9脱靶预测方法，其特征在于，所述H-VAE模型的训练步骤包括：