Nothing Special   »   [go: up one dir, main page]

CN113611367A - 一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法 - Google Patents

一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法 Download PDF

Info

Publication number
CN113611367A
CN113611367A CN202110898820.7A CN202110898820A CN113611367A CN 113611367 A CN113611367 A CN 113611367A CN 202110898820 A CN202110898820 A CN 202110898820A CN 113611367 A CN113611367 A CN 113611367A
Authority
CN
China
Prior art keywords
data
vae
training
layer
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110898820.7A
Other languages
English (en)
Other versions
CN113611367B (zh
Inventor
彭绍亮
向伟铭
陈东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110898820.7A priority Critical patent/CN113611367B/zh
Publication of CN113611367A publication Critical patent/CN113611367A/zh
Application granted granted Critical
Publication of CN113611367B publication Critical patent/CN113611367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法,包括S1、采用Pair编码对训练数据进行处理;S2、采用H‑VAE模型对步骤S1中处理后的数据进行预训练以获得隐变量分布的参数;S3、采用给定的后验分布并结合隐变量分布的参数采样新的正样本;S4、将新采样的正样本与之前的训练数据融合,在保留原始信息模型的信息提取模块的基础上,将最后的全连接层进行替换,使用融合后的数据进行联合训练;S5、利用训练好的任务分类结果,对新的输入任务进行脱靶预测。本发明解决了类不平衡数据所带来的学习不稳定等问题。

Description

一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法
技术领域
本发明涉及计算机科学技术领域,更具体地说,特别涉及一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法。
背景技术
由于CRISPR/Cas9脱靶数据的获取需要通过生物实验而来,但生物实验存在一些固有的缺点,例如:成本高、速度慢、不可控因素多等原因,这会导致CRISPR/Cas9的脱靶数据非常少,使得模型的训练变得困难。CRISPR/Cas9脱靶数据的其中一个问题即是正负样本的数量非常悬殊,这对常规深度学习算法的训练提出了一个非常有挑战性的问题。在不平衡数据集上训练的常规模型对于大多数类来说很容易达到较高的准确率。然而,这种高准确率是不实用的。因为结果表明这样的模型对于真正重要的正样本分类精度往往表现较差。在以往的研究中,DeepCRISPR采用过采样方法,通过复制正样本以达到于负样本相匹配的数量,或者使用SMOTE算法生成新的正样本数据,以补充正样本不足的问题。
发明内容
本发明的目的在于提供一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法,以克服现有技术所存在的缺陷。
为了达到上述目的,本发明采用的技术方案如下:
一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法,包括以下步骤:
S1、采用Pair编码对训练数据进行处理;
S2、采用H-VAE模型对步骤S1中处理后的数据进行预训练以获得隐变量分布的参数;
S3、采用给定的后验分布并结合隐变量分布的参数采样新的正样本;
S4、将新采样的正样本与之前的训练数据融合,在保留原始信息模型的信息提取模块的基础上,将最后的全连接层进行替换,使用融合后的数据进行联合训练;
S5、利用训练好的任务分类结果,对新的输入任务进行脱靶预测。
进一步地,在步骤S1具体为,采用Pair编码对训练数据中的sgRNA和靶向DNA进行一一对应的配对处理。
进一步地,所述步骤S2中的H-VAE模型的框架包括Embedding层、Encoder和Decoder层;其中,所述Embedding层由一个词嵌入矩阵组成,其输入经过Embedding层的映射从Nx24的输入变为Nx24xdh的张量,作为Encoder层的输入;所述Encoder层由四个Block组成,每一个Block是由卷积-批归一化-激活函数三种操作而组成;所述Decoder层由四个Block组成,每个Block是由反卷积-批归一化-激活函数三种操作组成。
进一步地,所述H-VAE模型的训练步骤包括:
S21、对任意一批输入样本{x1,...,xn}用X来表示,X的维度为RNx24,N为批次的大小,每一个样本经过序列编码模块后得到的输出长度为24,其包含着错配、插入和缺失三种情况的序列样本,将样本X输入到词嵌入层中,得到维度为
Figure BDA0003198964110000021
大小的张量X1,其中de是词嵌入层的维度;
S22、经过词嵌入的张量X1经过Encoder层的一系列卷积操作得到后验分布的均值μ和方差σ2并在该后验分布上采样数据,利用重参数技巧进行变换将采样操作变换成采样结果参与计算,其计算公式如下:
Figure BDA0003198964110000022
其中,
Figure BDA0003198964110000023
是服从均值为0、方差为1的高斯分布。从N(μ,σ2)中采样z,相当于从N(0,1)中采样一个ξ,并使z=μ+ξ×σ;
S23、在得到采样后的结果后,将结果输入到Decoder层中,经过反卷积操作可以得到
Figure BDA0003198964110000024
k用来表示出每个样本x对应的采样z,g可以看做是一个反卷积的过程。
Figure BDA0003198964110000025
是一个重构的x;
S24、采用重构损失
Figure BDA0003198964110000026
来约束生成器,使生成器根据隐变量恢复出原有的输入数据,其中:
Figure BDA0003198964110000027
在训练计算时,使用
Figure BDA0003198964110000028
来进行计算:
Figure BDA0003198964110000029
进一步地,在步骤S24中还包括增加损失函数来约束生成器,所述损失函数的公式如下:
Figure BDA00031989641100000210
其中,d为隐变量的维度,μ(i)
Figure BDA0003198964110000031
分别代表第i个分量的均值和方差。
进一步地,所述步骤S3具体为,使用隐变量分布的参数选择多个不同的概率分布,并将多个不同的概率分布相结合对正样本进行采样。
与现有技术相比,本发明的优点在于:本发明针对现有模型对碱基对的匹配信息提取能力弱的问题,提出了一种基于Pair编码的深度学习框架,使得模型能充分利用到sgRNA-DNA碱基对的匹配信息。同时,该编码方式也能够处理错配脱靶以外的类型。针对数据类别极度不平衡造成模型训练极不稳定的问题,提出了一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法,首先使用训练数据集中的所有数据进行训练,此时训练并不会带入类标签信息,编码器需要将原始数据编码成隐空间信息,然后解码器将隐空间信息恢复成原始数据,最后以最小化平方损失函数为目标。训练收敛后可以得到少数类隐空间信息高斯分布的均值和方差。在数据扩充阶段,生成相应高斯分布的随机数,并确定采样变量;输入所述采样变量到变分编码器的解码器中生成相似样本,最后的分类模型将生成的样本与真实数据进行混合训练,从而达到缓解类不平衡数据所带来的学习不稳定等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于VAE数据增强的CRISPR/Cas9脱靶预测方法的流程图。
图2是本发明中Pair序列表示方法图。
图3是本发明中H-VAE预训练模块图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
参阅图1所示,本实施例公开了一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法,包括以下步骤:
步骤S1、采用Pair编码对训练数据进行处理。
结合图2所示,由于碱基序列和文本序列有着天然的相似性,利用词嵌入表示的模型能取得非常好的效果,同时也证明了词嵌入方法有着强大的表示能力,因此采用词嵌入方法来表示序列,与传统方法不同的是在编码时不再对sgRNA和DNA这两个不同的序列进行分开编码,而是编码sgRNA和DNA的配对信息。本实施例将sgRNA和靶向DNA进行一一对应,并将indel考虑在内,则可以得到共25种不同的碱基组合方式。通过考虑序列之间的匹配信息,本实施例可以得到一种高效的配对表示方式。在得到编码信息后,将其输入词嵌入层,得到每对碱基在高维空间的表达,使模型在预训练模块就能有较大的假设空间,提高模型的表达能力。
步骤S2、采用H-VAE模型对步骤S1中处理后的数据进行预训练以获得隐变量分布的参数。
VAE在图像生成与序列生成任务上往往都是使用单一的卷积神经网络或递归神经网络进行编码和解码,由于序列对的信息使用图像编码太过单一,为了增强模型的表达能力,本实施例使用基于混合词嵌入与卷积神经网络的VAE模型(H-VAE)对正样本的隐变量进行学习,从而得到正样本隐变量分布的参数。因此,在训练过程中利用学习到的分布产生的数据作为原数据的补充,以缓解类不平衡问题。
H-VAE模型的预训练的框架分为Embedding层、Encoder和Decoder层,下面分别介绍。
Embedding层:Embedding层是由一个词嵌入矩阵组成,输入经过Embedding层的映射从Nx24的输入变为Nx24xdh的张量,作为Encoder层的输入。
Encoder层:Encoder层由四个Block组成,每一个Block是由卷积-批归一化-激活函数三种操作而组成。卷积操作是由卷积核(convolutional kernel)来提取数据特征。在卷积核内部的区域称为“感受野”(receptive field),感受野的大小即为卷积核的大小。卷积操作分为两个步骤,局部聚合和窗口滑动。在局部聚合时,利用卷积核里的参数对感受野内的数据做矩阵元素的乘法后进行加和输出到特征图(Feature map)中。在经过局部聚合后,卷积核滑动到下一个区域,而滑动的步长是提前指定的。
在经过卷积操作后,下一个操作是LeakyReLU激活,该操作的作用是是将卷积线性变换的结果进行非线性映射,LeakyReLU与传统的ReLU激活函数不同,它不会将小于0的数置0,而是将其进行放缩。会在一定程度上缓解ReLU引起的梯度消失等问题。
Figure BDA0003198964110000041
其中ai是认为设置的一个值,用来控制放缩比例。
最后一个操作是批归一化(Batch Normalization)操作。批归一化的作用是通过对隐藏层输入进行标准化操作,使得得到的输出在激活函数的非饱和区,这有利于梯度下降的进行,加快了网络训练的速率。
本实施例中,假设隐变量的后验分布是一个正态分布,Encoder层的目标是学习到这个分布。而后面的Decoder层是把从p(z|xk)采样得到的z还原为xk。如果能得到隐变量的后验分布,就能从p(z|xk)随机采样一系列样本,而这些样本是相似于xk的。经过四个Block的操作后,最后得到的输出分别经过两个全连接层,输出隐变量后验分布的均值和方差。
Decoder层:Decoder层也由四个Block组成,每个Block是由反卷积-批归一化-激活函数三种操作组成。由于在解码层需要生成数据,所以需要将得到的隐层输入进行反卷积操作,批归一化和激活函数同Encoder层一致。
本实施例中,H-VAE模型的训练步骤包括:
S21、对于一批输入样本{x1,...,xn},整体用X来表示,X的维度为,N为批次的大小。每一个样本是经过序列编码模块后得到的输出,长度为24,包含着错配、插入和缺失三种情况的序列样本。将X输入到词嵌入层中,得到维度为
Figure BDA0003198964110000051
大小的张量,其中是词嵌入层的维度。
S22、经过词嵌入的张量X1经过Encoder层的一系列卷积操作得到后验分布的均值μ和方差σ2,为了得到Decoder层的输入,需要在此分布上采样数据,由于采样的操作不可导。为了训练网络,利用重参数技巧(Reparameterizationtrick)进行变换,使得将采样操作变换成采样结果参与计算:
Figure BDA0003198964110000052
其中
Figure BDA0003198964110000053
是服从均值为0、方差为1的高斯分布,因此从N(μ,σ2)中采样z,N(μ,σ2)是一个给出均值和方差的高斯(正态)分布,众多模型常用的一种分布,相当于从N(0,I)中采样一个ξ,并使z=μ+ξ×σ。因此在原分布采样数据变成在N(0,I)分布采样一系列数据,经过变换得到原分布采样的结果,这样使得采样的操作不需要参加梯度下降,而改成采样的结果参与,使得模型可以正常训练了。
S23、在得到采样后的结果后,将结果输入到Decoder层中,因为得到的zk是特定于xk的,因此经过生成器中一系列反卷积操作可以得到
Figure BDA0003198964110000054
S24、为了使生成器学习到p(xk|zk),类似于AE模型,需要用重构损失
Figure BDA0003198964110000055
来约束生成器,使得生成器能够根据隐变量恢复出原有的输入数据。对于模型的训练,本文选择L2距离函数作为重构损失D。除此之外,不同于传统的AE模型,VAE进行重构的过程会有噪声。如果单纯地使用重构损失去对模型进行优化,模型最终会使隐变量的方差会降为0,以尽量降低噪声的影响,因此模型会退化为普通的AE模型。因此,除了重构损失之外,VAE还让所有的p(z|x)都趋向于标准正态分布,为了实现这个目标,在计算重构损失之外,再加入一个额外的损失函数即两个正态分布的KL散度:
Figure BDA0003198964110000061
其中,d为隐变量的维度,μ(i)
Figure BDA0003198964110000062
分别代表第i个分量的均值和方差。因此最终的loss函数为:
Figure BDA0003198964110000063
经过一定的训练步骤,直到loss值不再下降则停机。训练完成后,可以得到正样本隐变量分布的均值和方差。
步骤S3、采用给定的后验分布并结合隐变量分布的参数采样新的正样本,也就是:使用隐变量的参数,选择多个不同的概率分布,将多个不同的概率分布相结合对正样本进行采样,从而缓解正样本过少的问题。
步骤S4、将新采样的正样本与之前的训练数据融合,在保留原始信息模型的信息提取模块的基础上,将最后的全连接层进行替换,使用融合后的数据进行联合训练。
具体的,本实施例在H-VAE预训练完成之后,为了训练最终的CRISPR/Cas9脱靶预测任务,在保留原始信息模型的信息提取模块的基础上,将最后的全连接层进行替换,使其能够预测CRISPR/Cas9的脱靶活性。同时在每一批次的训练过程中,加入从预训练得到的正样本分布中采样出来的生成样本进行联合训练。
步骤S5、利用训练好的任务分类结果,对新的输入任务进行脱靶预测。
具体的,本实施例利用前面步骤处理得到的最终训练好的模型,结合手工特征,对新的数据进行处理和预测。
本发明针对现有模型对碱基对的匹配信息提取能力弱的问题,提出了一种基于Pair编码的深度学习框架,使得模型能充分利用到sgRNA-DNA碱基对的匹配信息。同时,该编码方式也能够处理错配脱靶以外的类型。针对数据类别极度不平衡造成模型训练极不稳定的问题,提出了一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法,首先使用训练数据集中的所有数据进行训练,此时训练并不会带入类标签信息,编码器需要将原始数据编码成隐空间信息,然后解码器将隐空间信息恢复成原始数据,最后以最小化平方损失函数为目标。训练收敛后可以得到少数类隐空间信息高斯分布的均值和方差。在数据扩充阶段,生成相应高斯分布的随机数,并确定采样变量;输入所述采样变量到变分编码器的解码器中生成相似样本,最后的分类模型将生成的样本与真实数据进行混合训练,从而达到缓解类不平衡数据所带来的学习不稳定等问题。
虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。

Claims (6)

1.一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法,其特征在于,包括以下步骤:
S1、采用Pair编码对训练数据进行处理;
S2、采用H-VAE模型对步骤S1中处理后的数据进行预训练以获得隐变量分布的参数;
S3、采用给定的后验分布并结合隐变量分布的参数采样新的正样本;
S4、将新采样的正样本与之前的训练数据融合,在保留原始信息模型的信息提取模块的基础上,将最后的全连接层进行替换,使用融合后的数据进行联合训练;
S5、利用训练好的任务分类结果,对新的输入任务进行脱靶预测。
2.根据权利要求1所述的基于VAE数据增强的CRISPR/Cas9脱靶预测方法,其特征在于,在步骤S1具体为,采用Pair编码对训练数据中的sgRNA和靶向DNA进行一一对应的配对处理。
3.根据权利要求1所述的基于VAE数据增强的CRISPR/Cas9脱靶预测方法,其特征在于,所述步骤S2中的H-VAE模型的框架包括Embedding层、Encoder和Decoder层;其中,所述Embedding层由一个词嵌入矩阵组成,其输入经过Embedding层的映射从Nx24的输入变为Nx24xdh的张量,作为Encoder层的输入;所述Encoder层由四个Block组成,每一个Block是由卷积-批归一化-激活函数三种操作而组成;所述Decoder层由四个Block组成,每个Block是由反卷积-批归一化-激活函数三种操作组成。
4.根据权利要求3所述的基于VAE数据增强的CRISPR/Cas9脱靶预测方法,其特征在于,所述H-VAE模型的训练步骤包括:
S21、对任意一批输入样本{x1,...,xn}用X来表示,X的维度为RNx24,N为批次的大小,每一个样本经过序列编码模块后得到的输出长度为24,其包含着错配、插入和缺失三种情况的序列样本,将样本X输入到词嵌入层中,得到维度为
Figure FDA0003198964100000012
大小的张量X1,其中de是词嵌入层的维度;
S22、经过词嵌入的张量X1经过Encoder层的一系列卷积操作得到后验分布的均值μ和方差σ2并在该后验分布上采样数据,利用重参数技巧进行变换将采样操作变换成采样结果参与计算,其计算公式如下:
Figure FDA0003198964100000011
其中,
Figure FDA0003198964100000021
是服从均值为0、方差为1的高斯分布。从N(μ,σ2)中采样z,相当于从N(0,1)中采样一个ξ,并使z=μ+ξ×σ;
S23、在得到采样后的结果后,将结果输入到Decoder层中,经过反卷积操作可以得到
Figure FDA0003198964100000022
k用来表示出每个样本x对应的采样z,g可以看做是一个反卷积的过程。
Figure FDA0003198964100000023
是一个重构的x;
S24、采用重构损失
Figure FDA0003198964100000024
来约束生成器,使生成器根据隐变量恢复出原有的输入数据,其中:
Figure FDA0003198964100000025
在训练计算时,使用
Figure FDA0003198964100000026
来进行计算:
Figure FDA0003198964100000027
5.根据权利要求4所述的基于VAE数据增强的CRISPR/Cas9脱靶预测方法,其特征在于,在步骤S24中还包括增加损失函数来约束生成器,所述损失函数的公式如下:
Figure FDA0003198964100000028
其中,d为隐变量的维度,μ(i)
Figure FDA0003198964100000029
分别代表第i个分量的均值和方差。
6.根据权利要求1所述的基于VAE数据增强的CRISPR/Cas9脱靶预测方法,其特征在于,所述步骤S3具体为,使用隐变量分布的参数选择多个不同的概率分布,并将多个不同的概率分布相结合对正样本进行采样。
CN202110898820.7A 2021-08-05 2021-08-05 一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法 Active CN113611367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110898820.7A CN113611367B (zh) 2021-08-05 2021-08-05 一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110898820.7A CN113611367B (zh) 2021-08-05 2021-08-05 一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法

Publications (2)

Publication Number Publication Date
CN113611367A true CN113611367A (zh) 2021-11-05
CN113611367B CN113611367B (zh) 2022-12-13

Family

ID=78307284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110898820.7A Active CN113611367B (zh) 2021-08-05 2021-08-05 一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法

Country Status (1)

Country Link
CN (1) CN113611367B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114334007A (zh) * 2022-01-20 2022-04-12 腾讯科技(深圳)有限公司 基因脱靶预测模型训练方法、预测方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070912A (zh) * 2019-04-15 2019-07-30 桂林电子科技大学 一种CRISPR/Cas9脱靶效应的预测方法
CN111261223A (zh) * 2020-01-12 2020-06-09 湖南大学 一种基于深度学习的crispr脱靶效应预测方法
CN111258992A (zh) * 2020-01-09 2020-06-09 电子科技大学 一种基于变分自编码器的地震数据扩充方法
US20200226475A1 (en) * 2019-01-14 2020-07-16 Cambia Health Solutions, Inc. Systems and methods for continual updating of response generation by an artificial intelligence chatbot
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111613267A (zh) * 2020-05-21 2020-09-01 中山大学 一种基于注意力机制的CRISPR/Cas9脱靶预测方法
CN111782799A (zh) * 2020-06-30 2020-10-16 湖南大学 基于复制机制和变分神经推理的增强性文本摘要生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200226475A1 (en) * 2019-01-14 2020-07-16 Cambia Health Solutions, Inc. Systems and methods for continual updating of response generation by an artificial intelligence chatbot
CN110070912A (zh) * 2019-04-15 2019-07-30 桂林电子科技大学 一种CRISPR/Cas9脱靶效应的预测方法
CN111258992A (zh) * 2020-01-09 2020-06-09 电子科技大学 一种基于变分自编码器的地震数据扩充方法
CN111261223A (zh) * 2020-01-12 2020-06-09 湖南大学 一种基于深度学习的crispr脱靶效应预测方法
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111613267A (zh) * 2020-05-21 2020-09-01 中山大学 一种基于注意力机制的CRISPR/Cas9脱靶预测方法
CN111782799A (zh) * 2020-06-30 2020-10-16 湖南大学 基于复制机制和变分神经推理的增强性文本摘要生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GAO Y 等: ""Data imbalance in CRISPR off-target"", 《BRIEFINGS IN BIOINFORMATICS》 *
LIN J 等: ""Off-target predictions in CRISPR-Cas9 gene editing using deep"", 《BIOINFORMATICS》 *
张桂珊 等: ""机器学习方法在CRISPR/Cas9系统中的应用"", 《遗传》 *
徐海波: ""基于机器学习的CRISPR/Cas9系统脱靶效应及靶向效率预测"", 《中国优秀硕士学位论文全文数据库基于机器学习的CRISPR/CAS9系统脱靶效应及靶向效率预测》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114334007A (zh) * 2022-01-20 2022-04-12 腾讯科技(深圳)有限公司 基因脱靶预测模型训练方法、预测方法、装置及电子设备

Also Published As

Publication number Publication date
CN113611367B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN110765966B (zh) 一种面向手写文字的一阶段自动识别与翻译方法
CN107506823B (zh) 一种用于对话生成的混合神经网络模型的构建方法
CN106650813A (zh) 一种基于深度残差网络和lstm的图像理解方法
Zhang et al. Unsupervised representation learning from pre-trained diffusion probabilistic models
CN101310294A (zh) 神经网络的训练方法
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN114443827A (zh) 基于预训练语言模型的局部信息感知对话方法及系统
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111898689A (zh) 一种基于神经网络架构搜索的图像分类方法
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
Krokotsch et al. Improving semi-supervised learning for remaining useful lifetime estimation through self-supervision
Chen et al. Learning multiscale consistency for self-supervised electron microscopy instance segmentation
Wehenkel et al. Diffusion priors in variational autoencoders
CN116740223A (zh) 基于文本生成图像的方法
CN114170461A (zh) 基于特征空间重整化的师生架构含噪声标签图像分类方法
CN113611367B (zh) 一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法
EP4196918A1 (en) System and method for generating parametric activation functions
Sarrouti NLM at VQA-Med 2020: Visual Question Answering and Generation in the Medical Domain.
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质
Londt et al. Evolving character-level densenet architectures using genetic programming
CN113204640B (zh) 一种基于注意力机制的文本分类方法
CN114757177B (zh) 一种基于bart融合指针生成网络的文本摘要方法
CN110399619A (zh) 面向神经机器翻译的位置编码方法及计算机存储介质
CN115101122A (zh) 蛋白质处理方法、设备、存储介质和计算机程序产品
CN114548293A (zh) 基于跨粒度自蒸馏的视频-文本跨模态检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant