Nothing Special   »   [go: up one dir, main page]

CN107516110B - 一种基于集成卷积编码的医疗问答语义聚类方法 - Google Patents

一种基于集成卷积编码的医疗问答语义聚类方法 Download PDF

Info

Publication number
CN107516110B
CN107516110B CN201710723583.4A CN201710723583A CN107516110B CN 107516110 B CN107516110 B CN 107516110B CN 201710723583 A CN201710723583 A CN 201710723583A CN 107516110 B CN107516110 B CN 107516110B
Authority
CN
China
Prior art keywords
clustering
different
feature
convolution
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710723583.4A
Other languages
English (en)
Other versions
CN107516110A (zh
Inventor
余志文
戴丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710723583.4A priority Critical patent/CN107516110B/zh
Publication of CN107516110A publication Critical patent/CN107516110A/zh
Application granted granted Critical
Publication of CN107516110B publication Critical patent/CN107516110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于集成卷积编码的医疗问答语义聚类方法,涉及机器学习领域,所述方法包括以下步骤:医疗咨询平台用户问答语料采集,卷积核的选取,融合不同卷积核的特征表示,利用自编码机获取最终数据表征,进行医疗咨询问答语义聚类。与传统的深度学习方法相比:本方法用不同的卷积核来提取不同的特征,提取的特征更加充分和多样化,并且使用不同的特征合并方法,将提取到的特征进行融合表示,因此本发明泛化能力强,语义聚类准确率高,基于该方法能够更好地帮助用户了解自身情况,并可辅助医生进行疾病检测,对搭建医疗的自动问答系统具有很大的应用价值。

Description

一种基于集成卷积编码的医疗问答语义聚类方法
技术领域
本发明涉及计算机人工智能领域,尤其是机器学习领域,具体涉及一种基于集成卷积编码的医疗问答语义聚类方法。
背景技术
随着互联网的飞速发展,人们的生活方式逐渐进行了改变。经统计调查,当普通用户身体发生不适的时候,有90%的人会到互联网上搜索相关的信息。互联网因此也正在改变医疗生态。在互联网医疗中,在线疾病导诊是很重要和关键的一步。从而使得在健康相关的医疗领域,出现了许多在线疾病问答网站。病人通过描述自己的遭遇、详细病情、用药和治疗情况等来和医生进行交流并获取疾病相关的护理知识。在这些相关疾病问答中,包含了许多个例的疾病信息。若从这些医疗问答语料中获取病人对相关疾病的表征,有助于发掘和了解大量的有用信息,可提供追溯性,可对病人进行疾病预测,且在医疗自动问答系统中更容易理解病人咨询的问题,对构建智能医疗有着重要的意义。
医疗语料文本数据具有噪音、稀疏、高维、异构、不完备、系统性偏见等特性,且同样的症状不同患者有不同的描述方式,传统方法是通过专家来选取合适的特征模式,并用特殊的方式来进行表示,但这种方法对特征空间尺度的不充分监督定义,不宜泛化,也错失了发现新的模式和特征的良机,这使得传统方法很难进行表征和建模。无监督表征学习,通过自动识别数据中的模式和依存关系,试着克服监督式特征空间定义的局限性,学会一种简洁又通用的表征,且知识的自动获取使得在建立分类器或其他预测器时能更简单提取有用信息。而近些年,深度学习在图像识别、机器翻译、智能问答等方面的应用越来越多,其本质是通过构建多个隐层的机器学习模型和海量的训练数据来学习更精准的特征,更能够刻画数据的内在信息,对于分析非结构化、模式不明多变、跨领域的大数据具有显著优势,对这些信息知识有很好的表示。但在医疗领域,深度学习的相关技术应用的并不是很广泛,也没有很可靠的应用于医疗智能问答等方面的工作流程中。
目前,国内外的各国政府、各大医疗机构和研究机构在智慧医疗方面都投入了极大的人力、物力和财力进行研究。在国外,较早开展区域协同医疗相关研究的有美国、加拿大、英国和澳大利亚等国家。其中,具有代表的工作是Google对患者的电子病历进行基于降噪自编码机的表示学习来构建特征空间,从而对患者进行疾病预测并给出相关的健康指导。而国内有丁小洪[健康资源共享机制及问答推荐方法研究.西安电子科技大学,2011]在研究医药卫生元数据标准的基础上,给出实现资源共享的步骤,包括资源标准化和数据集成。探讨了一个以元数据为核心、“物理上分布,逻辑上统一”、基于SOA体系结构的医疗资源共享平台,提出了层次式资源共享模型,并从五个不同视图出发来分析这个共享平台。刘芳等[面向医疗行业的智能问答系统研究与实现.微电子学与计算机,2012,11:95-98]为了实现医疗信息化中的疾病与诊疗的智能问答系统,提出一种基于人机交互的用户自然语言问题的理解方法。李超[智能疾病导诊及医疗问答方法研究与应用.大连理工大学,2016]利用大数据技术,在疾病导诊和疾病知识自动问答中进行研究,利用卷积神经网络模型,以及自然语言处理技术构造在线导诊模型,在问诊数据上进行转换和特征构造,提供类人的、权威的、内容丰富的医疗知识。宫继兵等[基于概率因子图模型的医疗社会网络用户健康状态检测方法.计算机研究与发展,2013,50(6):1285-1296]提出一种新的基于时空概率因子图模型(temporal-spatial factor graph model,TS-FGM)的网络用户健康状态检测和预测方法,系统阐述新形势下在一个动态社会网络中节点用户健康状态如何进行检测和预测以及不同因素对用户健康状态影响到何种程度。
以上相关方法大部分都是基于传统方法搭建医疗行业系统,对医疗文本数据分析较少,而智能医疗算法的成功,如预测性、智能问答等应用,在很大程度上依赖特征提取和数据表征。
发明内容
本发明的目的是针对上述现有技术的不足,提供了一种基于集成卷积编码的医疗问答语义聚类方法来处理中文医疗上的问答聚类,主要是对获取到的医疗问答语料进行无监督深度特征学习的数据特征分析,通过多卷积自编码网络对语料数据进行特征自学习,克服监督式特征空间定义的局限性,自动获取知识,学会一种简洁又通用的表征,从而有效地对医疗问答语料进行聚类处理。具体即利用深度学习中的集成卷积神经网络和自动编码机技术来实现医疗高维稀疏数据的无监督语义聚类,具体方案包括:1.医疗问答文本的数据预处理;2.多卷积核的选取;3.多卷积特征表示的融合;4.构建基于卷积和自动编码机的IEHC(An Inception Convolutional Ensemble Auto-Encoders Model for ChineseHealthcare Questions Clustering,IEHC)模型;5.对医疗问答文本进行语义聚类。
本发明的目的可以通过如下技术方案实现:
一种基于集成卷积编码的医疗问答语义聚类方法,所述方法的基本思路是:首先,从医疗平台上获取相关的问答语料,将这些高维、稀疏、噪音的数据分为3份数据集,保证数据的平衡性,并进行相关的预处理。其次,由于一个卷积核只能获取一种特征表示,多个卷积核可提取多种特征,故卷积核的选取成为关键问题。接着,考虑对于多卷积核之后的特征如何进行高效的融合来进行利用。最后,对融合后的特征并结合自动编码机的相关特性,构建一个多重卷积编码模型。根据设计的模型得到每一批数据的聚类准确率,并跟相关方法进行实验对比。在这一过程中不断地对本发明设计的模型进行参数调优。
本发明所述的基于集成卷积编码的医疗问答语义聚类方法包含如下步骤:
(一)对爬取到的医疗文本进行预处理并进行词向量建模
该步骤中的预处理包含分词、去停用词,因采集的语料数据量太大,故对采集到的数据进行分批处理。“词向量”是Google于2013年提出的基于神经网络的词嵌入建模算法及其配套的建模工具word2vec。首先,将已经分好词的文本预料全部输入词向量建模工具,对其进行词向量建模,建模的结果是:除了停用词以外其他在上述文本数据中出现过的每个词均被统一映射到一个维度固定的向量空间中(该维度的大小可以进行手动调整)。输入数据是全部文本的集合inputData={d1,d2,…,dm},每个文本则是一组词汇的集合d={w1,w2,…,wsize(t)}。建模完成后,词汇在映射空间中被表示为一个固定维度的向量,表示为w=(e1,e2,…,en)。
(二)基于卷积神经网络和自动编码机构建IEHC模型
在深度卷积神经网络中,采用的过滤器越多,空间维度保留得也就越好。但随着深度的增加,网络的复杂性也随之增加,故本发明中采用优化网络结构从而降低网络的复杂程度,由于本发明是对医疗文本进行的无监督聚类方法,故提出一种基于多重卷积编码的医疗问答聚类方法。小尺度卷积核的使用主要有两大优点:1)控制了整个网络中的训练参数数量,降低了网络的复杂度;2)不同大小的卷积核在多尺度上针对输入数据进行特征提取。在本发明的模型中,对输入使用了不同尺度的卷积核,对不同特征表示进行融合,融合后的结果作为编码的输入,并进行卷积解码,通过损失函数和随机梯度下降法来不断的对模型进行参数调优,使模型提取的特征达到最好效果,获得医疗问答文本聚类最优效果。
1、基本模型介绍
典型的卷积神经网络主要由输入层、卷积层、下采样层(池化层)、全连接层和输出层组成。卷积神经网络的输入为X,第i层的卷积表示为Hi,其具体卷积过程为
Figure GDA0002190696910000031
其中,Wi为第i层卷积核的权值向量,为权值与第i-1层的特征进行卷积操作,其输出与该层的偏置向量bi相加,通过激活函数f(·)最终得到第i层的卷积表示。
下采样层通常跟随在卷积层之后,依据一定的下采样规则对特征图进行下采样。下采样层的功能主要有两点:1)对特征图进行降维;2)在一定程度上保持特征的尺度不变特性。经过多个卷积层和下采样层的交替传递,卷积神经网络依靠全连接网络对针对提取的特征进行分类,得到基于输入的概率分布Y。卷积神经网络本质上是使原始矩阵经过多个层次的数据变换或降维,映射到一个新的特征表达的数学模型。
卷积神经网络的训练目标是最小化网络的损失函数L(W,b)。输入X经过前向传导后通过损失函数计算出与期望值之间的差异,称为“残差”。常见损失函数有均方误差(MeanSquared Error,MSE)函数,负对数似然(Negative LogLikelihood,NLL)函数等。训练过程中,卷积神经网络常用的优化方法是梯度下降方法。残差通过梯度下降进行反向传播,逐层更新卷积神经网络的各个层的可训练参数(W和b)。
自动编码机主要包括编码和解码,将input输入一个编码器,得到一个code的表示,接着对code进行解码,输出相关信息。若该相关信息与输入数据相似性较高,则code就是输入数据的表示。通过输入数据与输出数据之间的误差来调整模型的相关权值,依据编码器产生特征,依次训练,最终形成稳定的自动编码机。
2、卷积核的选取
由于卷积核在对文本的卷积处理上起着关键的作用,故卷积核的选取对整个IEHC模型至关重要。本发明开始实现单个卷积核的聚类结果,通过聚类结果的多样性和质量性来获取需要组合的卷积核,并最后进行不同卷积核的加权组合处理。设卷积核集为K={1,2,…kn}。依次得到每个卷积核的实验结果,通过比较不同卷积核聚类结果的多样性和质量,若多样性较大,说明它们获取的特征不同,组合得到的结果会较好。
卷积核的选取过程中,考虑各卷积核得到聚类效果的差异性来确定选取哪些卷积核。实验得到的差异性越大,各聚类结果间的关联度越低,聚类集成学习效果越好。故本发明通过规范化互信息(Normalized Mutual Information,NMI)来获得不同卷积核间的差异程度:
Figure GDA0002190696910000041
其中,ka和kb分别为不同卷积核聚类结果Ca和Cb中的簇数,n为全部的数据集数,nh,l为同时位于Ca的h簇和Cb的l簇中的数据集数,为聚类Ca的h簇中数据集数,
Figure GDA0002190696910000043
为聚类Cb的l簇中的数据集数。NMI(Ca,Cb)值越大,聚类器间差异性越小。故将规划化互信息进行转换:
Div(Ca,Cb)=1-NMI(Ca,Cb)
Div(Ca,Cb)为不同卷积核聚类结果的差异性值,该值越小,体现出聚类器间关联越少。选取差异性平均和最大的前N个卷积组合ker Set=[ks1,ks2,…,ksn}作为最终实验模型的组成部分,其中ksn={kD1,kD2,…kDi},kDi为该组合中的卷积核数。
卷积核选取的另一个评价指标为SNMI,即该簇与其他聚类方法得到结果的NMI总和的平均值,具体计算如下:
Figure GDA0002190696910000051
综合以上两个指标,卷积核的选取最终如下:
Figure GDA0002190696910000052
3、不同卷积核特征表示的融合
本发明共提出了四种不同方式的融合方法。这四种方法主要可概括为特征依赖和特征组合方式,不同卷积核得到特征表示间是否存在依赖和这些特征如何进行组合,将分为无关联合并,无关联串行,关联合并和关联串行。
a):无关联合并(Irrelevant Coalescence,IC)
表示需要合并的卷积特征表示集,无关联合并为不同卷积核间的特征表示没有任何依赖关系,都是相互独立的,
Figure GDA0002190696910000054
本发明表示为:
Figure GDA0002190696910000055
其中要求每个卷积核的得到的神经元个数都要相等,即
Figure GDA0002190696910000056
因为对这些特征是进行合并的过程,最后得到融合后表示的宽度也等于输入时的宽度。在本模型的融合过程中,我们采用求和的方法来进行合并,不同卷积核得到的对应特征表示进行相加,具体公式表示如下:
Figure GDA0002190696910000057
b):无关联串行(Irrelevant Serial,IS)
无关联串行是把不同卷积核特征表示进行拼接串联起来,其中也不存在依赖关系,表示如下:
Figure GDA0002190696910000061
该操作最终得到的融合特征表示宽度等于其所有卷积特征表示宽度大小之和,扩大了该层的维度,表示为
Figure GDA0002190696910000062
c):关联合并(Associated Coalescence,AC)
以下两种方法跟前面两种主要的不同是存在特征依赖,卷积核后面的特征跟它上一个特征表示有关,针对不同的任务,存在不同的映射关系,
Figure GDA0002190696910000064
表示如下:
Figure GDA0002190696910000065
该方法在特征组合方面跟IC一样,都是叠加,宽度大小跟融合前的特征表示大小一样。
d):关联串行(Associated Serial,AS)
该关联串行主要是特征依赖和特征的拼接组合,具体表示如下所示:
Figure GDA0002190696910000066
4、整体模型架构
通过前面对卷积核的选取,特征表示的融合等描述,本节将对整体模型进行一个全面的概括,从医疗文本输入进模型的不同操作,到最终得到的聚类结果。
a):池化和激活操作
池化层的目的是减少特征映射的移位不变性。它通常放在两个卷积层之间,本发明把它先放在输入层之后,获取原始输入的每个特征映射连接到其下一卷积层。接着通过卷积操作进行函数激活,计算过程如下:
Figure GDA0002190696910000067
Figure GDA0002190696910000068
Figure GDA0002190696910000071
其中,(m,n)是(i,j)的邻居单元,为第l层和l+1层分别在(m,n),(i,j)位置上的神经元,l随着每次操作完之后进行更新到下一层的表示,且
Figure GDA0002190696910000075
表示为l的下一层,这样方便每次层次更迭之后的表示。
Figure GDA0002190696910000076
分别为第l层上对应的权值和偏置向量,通过激活函数得到
Figure GDA0002190696910000078
值;
b):Dropout操作
Dropout操作主要是为了防止过拟合现象,其主要思想是在训练过程中随机中断层与层之间的连接,这样就可以防止神经网络的共适应情况,其具体表示如下:
Figure GDA00021906969100000710
其中Bernoulli函数,是为了以概率p,随机生成一个0、1的向量
Figure GDA00021906969100000711
通过向量
Figure GDA00021906969100000712
和上一层的神经元
Figure GDA00021906969100000713
进行随机中断得到下一层的神经元值
Figure GDA00021906969100000714
c):不同卷积特征融合和编码操作
以上是对不同卷积核同时作用的结果,为了最大地利用已知条件和相关空间,在这一步需要对得到的不同特征表示进行融合,融合方法在步骤3已经给出。由于本发明是无监督学习来提取有用特征,利用了传统的自编码机进行特征自学习,故对得到的融合结果进行编码:
Figure GDA00021906969100000715
Figure GDA00021906969100000716
其中,
Figure GDA00021906969100000717
为第kc个核在l层(i,j)单元上的值,通过对不同卷积核在不同神经元上学习到的特征进行合并,得到下一层的特征表示
Figure GDA00021906969100000718
把这些特征表示输入encoded模型中,进行编码,得到
Figure GDA00021906969100000719
d):上采样和解码操作
池化操作之后,其输入矩阵的宽度会变为原来的一半,自编码机的学习需要输入和输出维度相等来计算损失,故需要对编码之后的结果进行上采样恢复以前的输入样本大小,接着对上采样之后的结果进行解码:
Figure GDA0002190696910000081
Figure GDA0002190696910000083
其中,对编码后的特征进行上采样操作得到
Figure GDA0002190696910000084
(i,j)为神经元单元且属于(r,s),对采样后的特征进行decoded解码操作,最终得到输出
Figure GDA0002190696910000085
e):计算损失函数
通过编码之后得到整个模型的输出,自编码机的无监督自学习特征表示是通过对输入进行编码,然后解码重构输入即上一步得到的输出,所以整个学习网络的损失函数为L(X,Y),对于自编码机损失函数的计算有以下两种方式:
Figure GDA0002190696910000086
Figure GDA0002190696910000087
其中,x为输入向量,y为模型最后的输出向量,xn和yn分别为其中第n个值,L2(x,y)为L2范式。得到初始的损失函数之后,通过随机梯度下降法来不断调整整个模型的权值和偏置,使得模型学习到的特征达到最好,最后作为输入医疗问答文本的特征表示进行语义聚类,得到实验结果。
f):评价标准
实验结果评价指标有归一化互信息(normalized mutual information,NMI),Adjusted Rand Index(ARI)和平均准确率(Average Precision,AR),分别表示如下所示:
Figure GDA0002190696910000088
Figure GDA0002190696910000089
Figure GDA0002190696910000091
Figure GDA0002190696910000092
Figure GDA0002190696910000093
其中,a为在不同聚类方法中被分到同一个类的元素数量,b为不同方法被分到不同类中元素的数量,Cp为所有数据元素的总和,nij,ai,bj为关联矩阵中分别对应值,RI是Rand Index指标,E[RI]为RI指标的期望值,max(RII)为RI值中的最大值,ARI是AdjustedRand Index指标,通过前面几个指标来综合计算。AP是平均准确率,由每个数据集的准确率Pi和求平均得到。对前面得到的实验结果通过这些评价指标进行评估,判别不同实验方法在医疗文本语义聚类上效果好坏。
(三)医疗问答文本聚类
由于本发明为对医疗文本问答数据进行聚类,故通过多重核卷积进行初始特征提取并优化深度卷积神经网络的架构,依据无监督的自动编码机进行最小化损失函数和优化各种参数,最终获取有用的特征表示并进行文本聚类。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明基于多重卷积编码的聚类方法来处理中文医疗上的问答聚类,对采集到的数据进行聚类分析,克服监督学习上的局限性,进而可预测患者可能患上的相关疾病,从而可很好的实现医疗上的自动问答,有针对性的回答患者提问并给出有效的回答方案;该方法解决了监督学习存在的局限性,通过输入采集到的高维、稀疏医疗文本数据集,达到了获得比传统无监督聚类算法以及目前较不成熟的神经网络聚类方法更好的聚类效果。
2、本发明与传统医疗无监督聚类算法相比之下,准确性、稳定性和鲁棒性都有着非常大的优势;与传统方法相比,本发明的技术方案有如下创新点:第一,通过集成中的多样性和质量来进行多个卷积核的选取;第二,对不同卷积核后的特征表示进行多方法融合;第三,结合卷积神经网络和自编码机应用于医疗问答文本。
附图说明
图1为本发明实施例一种基于集成卷积编码的医疗问答语义聚类方法的流程图。
图2为本发明实施例一种基于集成卷积编码的医疗问答语义聚类方法的架构图。
图3为本发明实施例与传统无监督聚类算法和不同深度学习方法在不同数据集上的Adjusted Rand Index(ARI)和NMI对比表。
图4为本发明实施例依据不同特征融合方法的聚类效果对比图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种基于集成卷积编码的医疗问答语义聚类方法,所述方法基于集成卷积编码模型来实现对医疗文本数据的语义聚类,所述方法的流程图如图1所示,架构图如图2所示,包括以下步骤:
步骤1:从医疗平台上获取医疗问答数据集,对医疗问答数据集进行预处理,并得到输入矩阵;
具体地,对医疗问答数据集进行预处理,即对医疗问答数据集进行分词、去停用词、词性标注,接着依据词向量的表示方式对输入的医疗问答数据集形成矩阵表示,得到输入矩阵。
步骤2:用卷积编码网络对不同的输入矩阵选取不同的卷积核进行核聚类,对核聚类后的聚类质量和多样性进行计算,根据聚类质量和多样性挑选出表示文本特征最好的n个卷积核;
进一步地,聚类质量的值越高说明得到核聚类的结果越好,其表示如下所示:
Figure GDA0002190696910000101
其中,K={1,2,…kn}为卷积核集,
Figure GDA0002190696910000102
为第kj个卷积核得到的聚类结果,
Figure GDA0002190696910000103
为n个卷积核任意两两不重复选取组合计算的次数,SNMI为第kj个卷积核与其他卷积核大小聚类结果的总NMI值后求平均;通过规范化互信息NMI来获得不同卷积核间的差异程度:
Figure GDA0002190696910000111
其中,ka和kb分别为不同卷积核聚类结果Ca和Cb中的簇数,n为全部的数据集数,nh,l为同时位于Ca的h簇和Cb的l簇中的数据集数,
Figure GDA0002190696910000112
为聚类结果Ca的h簇中的数据集数,
Figure GDA0002190696910000113
为聚类结果Cb的l簇中的数据集数,NMI(Ca,Cb)的值越大,聚类器间差异性越小;
将规范化互信息NMI进行转换后采用多样性对核聚类的质量进行评估:
Div(Ca,Cb)=1-NMI(Ca,Cb)
Div(Ca,Cb)为不同卷积核聚类结果的差异性值,该值越小,体现出聚类器间的关联越少;
结合聚类质量和多样性评估标准,其最终结算结果如下所示:
其中,Ker表示该卷积核聚类结果的有效评估值,α表示聚类质量权值,1-α为差异性效果权值。图3为本实施例与传统无监督聚类算法和不同深度学习方法在不同数据集上的Adjusted Rand Index(ARI)和NMI对比表,其中,K-means方法为对词向量直接进行聚类,AE为经过自动编码机处理后的聚类结果,AE+WD(auto-encoder with weight-decayregularization)为在自编码机上加入权值正则项,CNN+AE+SF(convolution AEwith single filter)为单个核得到的卷积结果,CNN+AE+MF(convolution AE withmultiple filter)为多层卷积神经网络,DAE+MN(denoising auto-encoder with maskingnoise)为降噪自编码机处理后的聚类结果,IEHC+RKS1、IEHC+RKS2为在IEHC模型中随机选取多个卷积核的结果,IEHC+TKS1、IEHC+TKS2为多样性和质量评估最好的两个卷积核实验结果。
步骤3:将步骤2中挑选的卷积核分别通过卷积神经网络来进行训练操作;
进一步地,选取Ker值最大的前n个卷积核组合kerSet={ks1,ks2,…,ksn}进行模型训练,n的值由用户依情况判定,这里取n为3,其中ksn={kD1,kD2,…kDi},kDi表示该卷积核组合中的卷积核数,进行模型训练后分别得到不同卷积核对应的特征初始表示,具体步骤如下:
a):池化和激活操作
池化层的目的是减少特征映射的移位不变性,将池化层放在输入层之后,获取原始输入的每个特征映射连接到其下一卷积层,接着通过卷积操作进行函数激活,计算过程如下:
Figure GDA0002190696910000121
Figure GDA0002190696910000122
Figure GDA0002190696910000124
其中,(m,n)是(i,j)的邻居单元,
Figure GDA0002190696910000126
为第l层和l+1层分别在(m,n)和(i,j)位置上的神经元,l随着每次操作完之后进行更新到下一层的表示,且
Figure GDA0002190696910000127
表示为l的下一层,这样方便每次层次更迭之后的表示,
Figure GDA0002190696910000128
分别为第l层上对应的权值和偏置向量,通过激活函数得到
Figure GDA00021906969100001210
值;
b):Dropout操作
Dropout操作是为了防止过拟合现象,是在训练过程中随机中断层与层之间的连接,防止神经网络的共适应情况,其具体表示如下:
Figure GDA00021906969100001211
Figure GDA00021906969100001212
其中Bernoulli函数,是为了以概率p,随机生成一个0、1的向量
Figure GDA00021906969100001213
通过向量
Figure GDA00021906969100001214
和上一层的神经元
Figure GDA00021906969100001215
进行随机中断得到下一层的神经元值
Figure GDA00021906969100001216
以上两步得到不同卷积核的特征表示结果,接着对它们进行融合,对空间进行高效的利用。
步骤4:融合不同卷积核的特征表示结果;
所述融合不同卷积核的特征表示结果共有四种不同方式的融合方法:
a):无关联合并(Irrelevant Coalescence,IC)
Figure GDA00021906969100001217
表示需要合并的卷积特征表示集,无关联合并表示不同卷积核间的特征表示没有任何依赖关系,都是相互独立的,表示为:
Figure GDA0002190696910000131
其中要求每个卷积核得到的神经元个数都要相等,即
Figure GDA0002190696910000132
因为对这些特征是进行合并的过程,最后得到融合后表示的宽度也等于输入时的宽度,在本模型的融合过程中,采用求和的方法来进行合并,不同卷积核得到的对应特征表示进行相加,具体公式表示如下:
Figure GDA0002190696910000133
b):无关联串行(Irrelevant Serial,IS)
无关联串行是把不同卷积核特征表示进行拼接串联起来,其中也不存在依赖关系,表示如下:
Figure GDA0002190696910000134
该操作最终得到的融合特征表示宽度等于其所有卷积特征表示宽度大小之和,该方法扩大了改层的维度;
c):关联合并(Associated Coalescence,AC)
以下两种方法跟前面两种主要的不同是存在特征依赖,卷积核后面的特征跟它上一个特征的表示有关,针对不同的任务,存在不同的映射关系,表示如下:
Figure GDA0002190696910000135
该方法在特征组合方面跟IC一样,都是叠加,宽度大小跟融合前的特征表示大小一样;
d):关联串行(Associated Serial,AS)
该关联串行为特征依赖和特征的拼接组合,具体表示如下所示:
Figure GDA0002190696910000136
图4为本实施例依据不同特征融合方法的聚类效果对比图,所述四种方法能够根据设计的模型自行选择,对不同的任务和语料集,不同的融合方法有不同的效果。
步骤5:将融合后的特征表示结果输入自编码机,进行输入重构训练得到最佳特征表示;
具体流程如下:
a):对融合后的不同卷积特征表示进行编码操作
利用传统的自编码机进行特征自学习,对融合后的不同卷积特征表示进行编码操作:
Figure GDA0002190696910000141
Figure GDA0002190696910000142
其中,为第kc个卷积核在l层(i,j)单元上的值,通过对不同卷积核在不同神经元上学习到的特征进行合并,得到下一层的特征表示
Figure GDA0002190696910000144
把这些特征表示输入encoded模型中,进行编码,得到
Figure GDA0002190696910000145
b):上采样和解码操作
通过池化操作之后,其输入矩阵的宽度会变为原来的一半,自编码机的学习需要输入和输出维度相等来计算损失,故需要对编码之后的结果进行上采样恢复以前的输入样本大小,接着对上采样之后的结果进行解码:
Figure GDA0002190696910000146
Figure GDA0002190696910000147
Figure GDA0002190696910000148
其中,对编码后的特征进行上采样操作得到
Figure GDA0002190696910000149
(i,j)为神经元单元且属于(r,s),对采样后的特征进行解码操作,最终得到输出
Figure GDA00021906969100001410
c):计算损失函数
整个学习网络的损失函数为L(X,Y),对于自编码机损失函数的计算有以下两种方式:
Figure GDA00021906969100001411
Figure GDA00021906969100001412
其中,x为输入向量,y为模型最后的输出向量,xn和yn分别为其中第n个值,L2(x,y)为L2范式,得到初始的损失函数之后,通过随机梯度下降法来不断调整整个模型的权值和偏置,使得模型学习到的特征达到最好;
d):对模型进行评价
实验结果评价指标有归一化互信息NMI、ARI和平均准确率AR,分别表示如下所示:
Figure GDA0002190696910000151
Figure GDA0002190696910000154
Figure GDA0002190696910000155
其中,a为在不同聚类方法中被分到同一个类的元素数量,b为不同方法被分到不同类中元素的数量,Cp为所有数据元素的总和,nij、ai、bj分别为关联矩阵中的对应值,RI是Rand Index指标,E[RI]为RI指标的期望值,max(RI)为RI值中的最大值,ARI是AdjustedRand Index指标,通过前面几个指标来综合计算,AP是平均准确率,由每个数据集的准确率Pi和求平均得到。
步骤6:将编码得到的最佳特征表示进行聚类,得到最终医疗文本语义聚类结果。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (6)

1.一种基于集成卷积编码的医疗问答语义聚类方法,其特征在于,所述方法包括以下步骤:
步骤1:从医疗平台上获取医疗问答数据集,对医疗问答数据集进行预处理,并得到输入矩阵;
步骤2:用卷积编码网络对不同的输入矩阵选取不同的卷积核进行核聚类,对核聚类后的聚类质量和多样性进行计算,根据聚类质量和多样性挑选出表示文本特征最好的n个卷积核;
步骤3:将步骤2中挑选的卷积核分别通过卷积神经网络来进行训练操作;
步骤4:融合不同卷积核的特征表示结果;
步骤5:将融合后的特征表示结果输入自编码机,进行输入重构训练得到最佳特征表示;
步骤6:将编码得到的最佳特征表示进行聚类,得到最终医疗文本语义聚类结果。
2.根据权利要求1所述的一种基于集成卷积编码的医疗问答语义聚类方法,其特征在于:步骤1中所述的对医疗问答数据集进行预处理,即对医疗问答数据集进行分词、去停用词、词性标注,接着依据词向量的表示方式对输入的医疗问答数据集形成矩阵表示,得到输入矩阵。
3.根据权利要求1所述的一种基于集成卷积编码的医疗问答语义聚类方法,其特征在于,步骤2中的聚类质量的值越高说明得到核聚类的结果越好,其表示如下所示:
Figure FDA0002190696900000011
其中,K={1,2,…kn}为卷积核集,
Figure FDA0002190696900000012
为第kj个卷积核得到的聚类结果,
Figure FDA0002190696900000013
为n个卷积核任意两两不重复选取组合计算的次数,SNMI为第kj个卷积核与其他卷积核大小聚类结果的总NMI值后求平均;通过规范化互信息NMI来获得不同卷积核间的差异程度:
Figure FDA0002190696900000021
其中,ka和kb分别为不同卷积核聚类结果Ca和Cb中的簇数,n为全部的数据集数,nh,l为同时位于Ca的h簇和Cb的l簇中的数据集数,
Figure FDA0002190696900000022
为聚类结果Ca的h簇中的数据集数,
Figure FDA0002190696900000023
为聚类结果Cb的l簇中的数据集数,NMI(Ca,Cb)的值越大,聚类器间差异性越小;
将规范化互信息NMI进行转换后采用多样性对核聚类的质量进行评估:
Div(Ca,Cb)=l-NMI(Ca,Cb)
Div(Ca,Cb)为不同卷积核聚类结果的差异性值,该值越小,体现出聚类器间的关联越少;
结合聚类质量和多样性评估标准,其最终结算结果如下所示:
Figure FDA0002190696900000024
其中,Ker表示该卷积核聚类结果的有效评估值,α表示聚类质量权值,1-α为差异性效果权值。
4.根据权利要求3所述的一种基于集成卷积编码的医疗问答语义聚类方法,其特征在于:选取Ker值最大的前n个卷积核组合Ker Set={ks1,ks2,…,ksn}进行模型训练,n的值由用户依情况判定,这里取n为3,其中ksn={kD1,kD2,…kDi},kDi表示该卷积核组合中的卷积核数,进行模型训练后分别得到不同卷积核对应的特征初始表示,具体步骤如下:
a):池化和激活操作
池化层的目的是减少特征映射的移位不变性,将池化层放在输入层之后,获取原始输入的每个特征映射连接到其下一卷积层,接着通过卷积操作进行函数激活,计算过程如下:
Figure FDA0002190696900000025
Figure FDA0002190696900000027
其中,(m,n)是(i,j)的邻居单元,
Figure FDA0002190696900000032
为第l层和l+1层分别在(m,n)和(i,j)位置上的神经元,l随着每次操作完之后进行更新到下一层的表示,且
Figure FDA00021906969000000317
表示为l的下一层,这样方便每次层次更迭之后的表示,
Figure FDA0002190696900000034
Figure FDA0002190696900000035
分别为第l层上对应的权值和偏置向量,通过激活函数得到
Figure FDA0002190696900000036
值;
b):Dropout操作
Dropout操作是为了防止过拟合现象,是在训练过程中随机中断层与层之间的连接,防止神经网络的共适应情况,其具体表示如下:
Figure FDA0002190696900000037
Figure FDA0002190696900000038
其中Bernoulli函数,是为了以概率p,随机生成一个0、1的向量通过向量
Figure FDA00021906969000000310
和上一层的神经元
Figure FDA00021906969000000311
进行随机中断得到下一层的神经元值
Figure FDA00021906969000000312
以上两步得到不同卷积核的特征表示结果,接着对它们进行融合,对空间进行高效的利用。
5.根据权利要求4所述的一种基于集成卷积编码的医疗问答语义聚类方法,其特征在于,所述融合不同卷积核的特征表示结果共有四种不同方式的融合方法:
a):无关联合并
Figure FDA00021906969000000313
表示需要合并的卷积特征表示集,无关联合并表示不同卷积核间的特征表示没有任何依赖关系,都是相互独立的,表示为:
Figure FDA00021906969000000314
其中要求每个卷积核得到的神经元个数都要相等,即
Figure FDA00021906969000000315
因为对这些特征是进行合并的过程,最后得到融合后表示的宽度也等于输入时的宽度,在本模型的融合过程中,采用求和的方法来进行合并,不同卷积核得到的对应特征表示进行相加,具体公式表示如下:
Figure FDA00021906969000000316
b):无关联串行
无关联串行是把不同卷积核特征表示进行拼接串联起来,其中也不存在依赖关系,表示如下:
该操作最终得到的融合特征表示宽度等于其所有卷积特征表示宽度大小之和,该方法扩大了改层的维度;
c):关联合并
以下两种方法跟前面两种主要的不同是存在特征依赖,卷积核后面的特征跟它上一个特征的表示有关,针对不同的任务,存在不同的映射关系,表示如下:
该方法在特征组合方面跟无关联合并一样,都是叠加,宽度大小跟融合前的特征表示大小一样;
d):关联串行
该关联串行为特征依赖和特征的拼接组合,具体表示如下所示:
Figure FDA0002190696900000043
所述四种方法能够根据设计的模型自行选择,对不同的任务和语料集,不同的融合方法有不同的效果。
6.根据权利要求5所述的一种基于集成卷积编码的医疗问答语义聚类方法,其特征在于,步骤5中所述的将融合后的特征表示结果输入自编码机,进行输入重构训练得到最佳特征表示的具体流程如下:
a):对融合后的不同卷积特征表示进行编码操作
利用传统的自编码机进行特征自学习,对融合后的不同卷积特征表示进行编码操作:
Figure FDA0002190696900000044
Figure FDA0002190696900000045
其中,为第kc个卷积核在l层(i,j)单元上的值,通过对不同卷积核在不同神经元上学习到的特征进行合并,得到下一层的特征表示
Figure FDA0002190696900000047
把这些特征表示输入encoded模型中,进行编码,得到
Figure FDA0002190696900000048
b):上采样和解码操作
通过池化操作之后,其输入矩阵的宽度会变为原来的一半,自编码机的学习需要输入和输出维度相等来计算损失,故需要对编码之后的结果进行上采样恢复以前的输入样本大小,接着对上采样之后的结果进行解码:
Figure FDA0002190696900000051
Figure FDA0002190696900000052
Figure FDA0002190696900000053
其中,对编码后的特征进行上采样操作得到
Figure FDA0002190696900000054
(i,j)为神经元单元且属于(r,s),对采样后的特征进行解码操作,最终得到输出
c):计算损失函数
整个学习网络的损失函数为L(X,Y),对于自编码机损失函数的计算有以下两种方式:
Figure FDA0002190696900000056
Figure FDA0002190696900000057
其中,x为输入向量,y为模型最后的输出向量,xn和yn分别为其中第n个值,L2(x,y)为L2范式,得到初始的损失函数之后,通过随机梯度下降法来不断调整整个模型的权值和偏置,使得模型学习到的特征达到最好;
d):对模型进行评价
实验结果评价指标有归一化互信息NMI、ARI和平均准确率AR,分别表示如下所示:
Figure FDA00021906969000000510
Figure FDA0002190696900000061
Figure FDA0002190696900000062
其中,a为在不同聚类方法中被分到同一个类的元素数量,b为不同方法被分到不同类中元素的数量,Cp为所有数据元素的总和,nij、ai、bj分别为关联矩阵中的对应值,RI是RandIndex指标,E[RI]为RI指标的期望值,max(RI)为RI值中的最大值,ARI是Adjusted RandIndex指标,通过前面几个指标来综合计算,AP是平均准确率,由每个数据集的准确率Pi和求平均得到。
CN201710723583.4A 2017-08-22 2017-08-22 一种基于集成卷积编码的医疗问答语义聚类方法 Active CN107516110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710723583.4A CN107516110B (zh) 2017-08-22 2017-08-22 一种基于集成卷积编码的医疗问答语义聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710723583.4A CN107516110B (zh) 2017-08-22 2017-08-22 一种基于集成卷积编码的医疗问答语义聚类方法

Publications (2)

Publication Number Publication Date
CN107516110A CN107516110A (zh) 2017-12-26
CN107516110B true CN107516110B (zh) 2020-02-18

Family

ID=60723274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710723583.4A Active CN107516110B (zh) 2017-08-22 2017-08-22 一种基于集成卷积编码的医疗问答语义聚类方法

Country Status (1)

Country Link
CN (1) CN107516110B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491431B (zh) * 2018-02-09 2021-09-17 淮阴工学院 一种基于自编码机和聚类的混合推荐方法
CN108333959A (zh) * 2018-03-09 2018-07-27 清华大学 一种基于卷积神经网络模型的机车节能操纵方法
CN108846503B (zh) * 2018-05-17 2022-07-08 电子科技大学 一种基于神经网络的呼吸系统疾病患病人次动态预测方法
CN108806785A (zh) * 2018-05-29 2018-11-13 四川长虹电器股份有限公司 一种基于卷积神经网络的诊疗科室推荐方法及系统
CN108899064A (zh) * 2018-05-31 2018-11-27 平安医疗科技有限公司 电子病历生成方法、装置、计算机设备和存储介质
CN109271898A (zh) * 2018-08-31 2019-01-25 电子科技大学 基于优化卷积神经网络的溶洞体识别算法
CN109493931B (zh) * 2018-10-25 2024-06-04 平安科技(深圳)有限公司 一种病历文件的编码方法、服务器及计算机可读存储介质
CN109360658B (zh) * 2018-11-01 2021-06-08 北京航空航天大学 一种基于词向量模型的疾病模式挖掘方法及装置
CN109299274B (zh) * 2018-11-07 2021-12-17 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN111224677B (zh) * 2018-11-27 2021-10-15 华为技术有限公司 编码方法、译码方法及装置
CN109559761A (zh) * 2018-12-21 2019-04-02 广东工业大学 一种基于深度语音特征的脑卒中风险预测方法
CN109871531A (zh) * 2019-01-04 2019-06-11 平安科技(深圳)有限公司 隐含特征提取方法、装置、计算机设备及存储介质
CN110313894A (zh) * 2019-04-15 2019-10-11 四川大学 基于卷积神经网络的心率失常分类算法
CN110134791B (zh) * 2019-05-21 2022-03-08 北京泰迪熊移动科技有限公司 一种数据处理方法、电子设备及存储介质
CN110210350B (zh) * 2019-05-22 2021-12-21 北京理工大学 一种基于深度学习的快速停车位检测方法
CN110321929A (zh) * 2019-06-04 2019-10-11 平安科技(深圳)有限公司 一种提取文本特征的方法、装置及存储介质
CN110176315B (zh) * 2019-06-05 2022-06-28 京东方科技集团股份有限公司 医疗问答方法及系统、电子设备、计算机可读介质
CN110222772B (zh) * 2019-06-10 2021-05-04 浙江大学 一种基于块级别主动学习的医疗图像标注推荐方法
CN110427627B (zh) * 2019-08-02 2023-04-28 北京百度网讯科技有限公司 基于语义表示模型的任务处理方法和装置
CN110796251A (zh) * 2019-10-28 2020-02-14 天津大学 基于卷积神经网络的图像压缩优化方法
CN111598223B (zh) * 2020-05-15 2023-10-24 天津科技大学 一种基于属性和结构深度融合的网络嵌入方法及其模型
CN111667029B (zh) * 2020-07-09 2023-11-10 腾讯科技(深圳)有限公司 一种聚类方法、装置、设备及存储介质
CN112215267B (zh) * 2020-09-25 2022-11-01 天津大学 一种面向高光谱图像的深度空谱子空间聚类方法
CN112559707A (zh) * 2020-12-16 2021-03-26 四川智仟科技有限公司 一种基于知识驱动的客服问答方法
CN113506638A (zh) * 2021-03-23 2021-10-15 崔剑虹 基于在线咨询主题和机器学习的网络训练方法及系统
CN113284627B (zh) * 2021-04-15 2024-05-17 北京交通大学 基于患者表征学习的用药推荐方法
CN113159196B (zh) * 2021-04-26 2022-09-09 云南大学 一种基于正则变分嵌入式的软件需求聚类方法及系统
CN113139061B (zh) * 2021-05-14 2023-07-21 东北大学 一种基于词向量聚类的案件特征提取方法
CN113449491B (zh) * 2021-07-05 2023-12-26 思必驰科技股份有限公司 带有两阶段解码器的用于语言理解和生成的预训练框架
CN113611425B (zh) * 2021-07-20 2023-11-24 上海德衡数据科技有限公司 基于软件定义的智能化区域医疗集成数据库的方法及系统
CN116720523B (zh) * 2023-04-19 2024-02-06 贵州轻工职业技术学院 一种基于多核的深度文本聚类方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268532A (zh) * 2014-09-30 2015-01-07 郑州轻工业学院 网络环境下大规模图像与视频数据高效处理的方法
CN104715047A (zh) * 2015-03-26 2015-06-17 浪潮集团有限公司 一种社交网络数据采集与分析系统
CN105469108A (zh) * 2015-11-17 2016-04-06 深圳先进技术研究院 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN106294398A (zh) * 2015-05-21 2017-01-04 富士通株式会社 信息处理装置和信息处理方法
CN106407931A (zh) * 2016-09-19 2017-02-15 杭州电子科技大学 一种新型深度卷积神经网络运动车辆检测方法
CN106874489A (zh) * 2017-02-21 2017-06-20 烟台中科网络技术研究所 一种基于卷积神经网络的肺结节图像块检索方法及装置
CN106874367A (zh) * 2016-12-30 2017-06-20 江苏号百信息服务有限公司 一种基于舆情平台的抽样分布式聚类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268532A (zh) * 2014-09-30 2015-01-07 郑州轻工业学院 网络环境下大规模图像与视频数据高效处理的方法
CN104715047A (zh) * 2015-03-26 2015-06-17 浪潮集团有限公司 一种社交网络数据采集与分析系统
CN106294398A (zh) * 2015-05-21 2017-01-04 富士通株式会社 信息处理装置和信息处理方法
CN105469108A (zh) * 2015-11-17 2016-04-06 深圳先进技术研究院 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN106407931A (zh) * 2016-09-19 2017-02-15 杭州电子科技大学 一种新型深度卷积神经网络运动车辆检测方法
CN106874367A (zh) * 2016-12-30 2017-06-20 江苏号百信息服务有限公司 一种基于舆情平台的抽样分布式聚类方法
CN106874489A (zh) * 2017-02-21 2017-06-20 烟台中科网络技术研究所 一种基于卷积神经网络的肺结节图像块检索方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Adaptive Ensembling of Semi-Supervised Clustering Solutions;Zhiwen Yu 等;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20170419;第29卷(第8期);1577-1590 *
AskHERMES: An online question answering system for complex clinical questions;YongGang Cao 等;《Journal of Biomedical Informatics》;20110121;277-288 *
Cluster Ensemble Selection;Xiaoli Z. Fern 等;《https://doi.org/10.1002/sam.10008》;20081103;1-15 *
基于卷积神经网络的大规模人脸聚类;申小敏 等;《广东工业大学学报》;20161102;第33卷(第6期);77-84 *

Also Published As

Publication number Publication date
CN107516110A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN107516110B (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
CN112784092B (zh) 一种混合融合模型的跨模态图像文本检索方法
Zheng et al. The fusion of deep learning and fuzzy systems: A state-of-the-art survey
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN107220506A (zh) 基于深度卷积神经网络的乳腺癌风险评估分析系统
CN116994709B (zh) 一种个性化的饮食与运动推荐方法、系统及电子设备
CN109389171B (zh) 基于多粒度卷积降噪自动编码器技术的医疗图像分类方法
CN112364638A (zh) 一种基于社交文本的人格识别方法
WO2022227203A1 (zh) 基于对话表征的分诊方法、装置、设备及存储介质
CN111540470B (zh) 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
CN113673244B (zh) 医疗文本处理方法、装置、计算机设备和存储介质
CN112530584A (zh) 一种医疗诊断辅助方法及系统
CN117497140B (zh) 一种基于细粒度提示学习的多层次抑郁状态检测方法
Qian Exploration of machine algorithms based on deep learning model and feature extraction
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
US20240037336A1 (en) Methods, systems, and media for bi-modal understanding of natural languages and neural architectures
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
CN118170836B (zh) 基于结构先验知识的档案知识抽取方法及装置
Reddy et al. Diabetes Prediction using Extreme Learning Machine: Application of Health Systems
CN114707633B (zh) 特征提取方法、装置、电子设备和存储介质
Kim Research on Text Classification Based on Deep Neural Network
Nath et al. Deep learning-based common skin disease image classification
Tang [Retracted] Analysis of English Multitext Reading Comprehension Model Based on Deep Belief Neural Network
Hasan et al. Toward enhancement of deep learning techniques using fuzzy logic: a survey

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant