CN107516110B

CN107516110B - 一种基于集成卷积编码的医疗问答语义聚类方法

Info

Publication number: CN107516110B
Application number: CN201710723583.4A
Authority: CN
Inventors: 余志文; 戴丹
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-08-22
Filing date: 2017-08-22
Publication date: 2020-02-18
Anticipated expiration: 2037-08-22
Also published as: CN107516110A

Abstract

本发明公开了一种基于集成卷积编码的医疗问答语义聚类方法，涉及机器学习领域，所述方法包括以下步骤：医疗咨询平台用户问答语料采集，卷积核的选取，融合不同卷积核的特征表示，利用自编码机获取最终数据表征，进行医疗咨询问答语义聚类。与传统的深度学习方法相比：本方法用不同的卷积核来提取不同的特征，提取的特征更加充分和多样化，并且使用不同的特征合并方法，将提取到的特征进行融合表示，因此本发明泛化能力强，语义聚类准确率高，基于该方法能够更好地帮助用户了解自身情况，并可辅助医生进行疾病检测，对搭建医疗的自动问答系统具有很大的应用价值。

Description

一种基于集成卷积编码的医疗问答语义聚类方法

技术领域

本发明涉及计算机人工智能领域，尤其是机器学习领域，具体涉及一种基于集成卷积编码的医疗问答语义聚类方法。

背景技术

随着互联网的飞速发展，人们的生活方式逐渐进行了改变。经统计调查，当普通用户身体发生不适的时候，有90％的人会到互联网上搜索相关的信息。互联网因此也正在改变医疗生态。在互联网医疗中，在线疾病导诊是很重要和关键的一步。从而使得在健康相关的医疗领域，出现了许多在线疾病问答网站。病人通过描述自己的遭遇、详细病情、用药和治疗情况等来和医生进行交流并获取疾病相关的护理知识。在这些相关疾病问答中，包含了许多个例的疾病信息。若从这些医疗问答语料中获取病人对相关疾病的表征，有助于发掘和了解大量的有用信息，可提供追溯性，可对病人进行疾病预测，且在医疗自动问答系统中更容易理解病人咨询的问题，对构建智能医疗有着重要的意义。

医疗语料文本数据具有噪音、稀疏、高维、异构、不完备、系统性偏见等特性，且同样的症状不同患者有不同的描述方式，传统方法是通过专家来选取合适的特征模式，并用特殊的方式来进行表示，但这种方法对特征空间尺度的不充分监督定义，不宜泛化，也错失了发现新的模式和特征的良机，这使得传统方法很难进行表征和建模。无监督表征学习，通过自动识别数据中的模式和依存关系，试着克服监督式特征空间定义的局限性，学会一种简洁又通用的表征，且知识的自动获取使得在建立分类器或其他预测器时能更简单提取有用信息。而近些年，深度学习在图像识别、机器翻译、智能问答等方面的应用越来越多，其本质是通过构建多个隐层的机器学习模型和海量的训练数据来学习更精准的特征，更能够刻画数据的内在信息，对于分析非结构化、模式不明多变、跨领域的大数据具有显著优势，对这些信息知识有很好的表示。但在医疗领域，深度学习的相关技术应用的并不是很广泛，也没有很可靠的应用于医疗智能问答等方面的工作流程中。

目前，国内外的各国政府、各大医疗机构和研究机构在智慧医疗方面都投入了极大的人力、物力和财力进行研究。在国外，较早开展区域协同医疗相关研究的有美国、加拿大、英国和澳大利亚等国家。其中，具有代表的工作是Google对患者的电子病历进行基于降噪自编码机的表示学习来构建特征空间，从而对患者进行疾病预测并给出相关的健康指导。而国内有丁小洪[健康资源共享机制及问答推荐方法研究.西安电子科技大学，2011]在研究医药卫生元数据标准的基础上，给出实现资源共享的步骤，包括资源标准化和数据集成。探讨了一个以元数据为核心、“物理上分布，逻辑上统一”、基于SOA体系结构的医疗资源共享平台，提出了层次式资源共享模型，并从五个不同视图出发来分析这个共享平台。刘芳等[面向医疗行业的智能问答系统研究与实现.微电子学与计算机，2012,11：95-98]为了实现医疗信息化中的疾病与诊疗的智能问答系统，提出一种基于人机交互的用户自然语言问题的理解方法。李超[智能疾病导诊及医疗问答方法研究与应用.大连理工大学，2016]利用大数据技术，在疾病导诊和疾病知识自动问答中进行研究，利用卷积神经网络模型，以及自然语言处理技术构造在线导诊模型，在问诊数据上进行转换和特征构造，提供类人的、权威的、内容丰富的医疗知识。宫继兵等[基于概率因子图模型的医疗社会网络用户健康状态检测方法.计算机研究与发展，2013，50(6)：1285-1296]提出一种新的基于时空概率因子图模型(temporal-spatial factor graph model，TS-FGM)的网络用户健康状态检测和预测方法，系统阐述新形势下在一个动态社会网络中节点用户健康状态如何进行检测和预测以及不同因素对用户健康状态影响到何种程度。

以上相关方法大部分都是基于传统方法搭建医疗行业系统，对医疗文本数据分析较少，而智能医疗算法的成功，如预测性、智能问答等应用，在很大程度上依赖特征提取和数据表征。

发明内容

本发明的目的是针对上述现有技术的不足，提供了一种基于集成卷积编码的医疗问答语义聚类方法来处理中文医疗上的问答聚类，主要是对获取到的医疗问答语料进行无监督深度特征学习的数据特征分析，通过多卷积自编码网络对语料数据进行特征自学习，克服监督式特征空间定义的局限性，自动获取知识，学会一种简洁又通用的表征，从而有效地对医疗问答语料进行聚类处理。具体即利用深度学习中的集成卷积神经网络和自动编码机技术来实现医疗高维稀疏数据的无监督语义聚类，具体方案包括：1.医疗问答文本的数据预处理；2.多卷积核的选取；3.多卷积特征表示的融合；4.构建基于卷积和自动编码机的IEHC(An Inception Convolutional Ensemble Auto-Encoders Model for ChineseHealthcare Questions Clustering，IEHC)模型；5.对医疗问答文本进行语义聚类。

本发明的目的可以通过如下技术方案实现：

一种基于集成卷积编码的医疗问答语义聚类方法，所述方法的基本思路是：首先，从医疗平台上获取相关的问答语料，将这些高维、稀疏、噪音的数据分为3份数据集，保证数据的平衡性，并进行相关的预处理。其次，由于一个卷积核只能获取一种特征表示，多个卷积核可提取多种特征，故卷积核的选取成为关键问题。接着，考虑对于多卷积核之后的特征如何进行高效的融合来进行利用。最后，对融合后的特征并结合自动编码机的相关特性，构建一个多重卷积编码模型。根据设计的模型得到每一批数据的聚类准确率，并跟相关方法进行实验对比。在这一过程中不断地对本发明设计的模型进行参数调优。

本发明所述的基于集成卷积编码的医疗问答语义聚类方法包含如下步骤：

(一)对爬取到的医疗文本进行预处理并进行词向量建模

该步骤中的预处理包含分词、去停用词，因采集的语料数据量太大，故对采集到的数据进行分批处理。“词向量”是Google于2013年提出的基于神经网络的词嵌入建模算法及其配套的建模工具word2vec。首先，将已经分好词的文本预料全部输入词向量建模工具，对其进行词向量建模，建模的结果是：除了停用词以外其他在上述文本数据中出现过的每个词均被统一映射到一个维度固定的向量空间中(该维度的大小可以进行手动调整)。输入数据是全部文本的集合inputData＝{d₁，d₂，…，d_m}，每个文本则是一组词汇的集合d＝{w₁，w₂，…，w_size(t)}。建模完成后，词汇在映射空间中被表示为一个固定维度的向量，表示为w＝(e₁，e₂，…，e_n)。

(二)基于卷积神经网络和自动编码机构建IEHC模型

在深度卷积神经网络中，采用的过滤器越多，空间维度保留得也就越好。但随着深度的增加，网络的复杂性也随之增加，故本发明中采用优化网络结构从而降低网络的复杂程度，由于本发明是对医疗文本进行的无监督聚类方法，故提出一种基于多重卷积编码的医疗问答聚类方法。小尺度卷积核的使用主要有两大优点：1)控制了整个网络中的训练参数数量，降低了网络的复杂度；2)不同大小的卷积核在多尺度上针对输入数据进行特征提取。在本发明的模型中，对输入使用了不同尺度的卷积核，对不同特征表示进行融合，融合后的结果作为编码的输入，并进行卷积解码，通过损失函数和随机梯度下降法来不断的对模型进行参数调优，使模型提取的特征达到最好效果，获得医疗问答文本聚类最优效果。

1、基本模型介绍

典型的卷积神经网络主要由输入层、卷积层、下采样层(池化层)、全连接层和输出层组成。卷积神经网络的输入为X，第i层的卷积表示为H_i，其具体卷积过程为

其中，W_i为第i层卷积核的权值向量，为权值与第i-1层的特征进行卷积操作，其输出与该层的偏置向量b_i相加，通过激活函数f(·)最终得到第i层的卷积表示。

下采样层通常跟随在卷积层之后，依据一定的下采样规则对特征图进行下采样。下采样层的功能主要有两点：1)对特征图进行降维；2)在一定程度上保持特征的尺度不变特性。经过多个卷积层和下采样层的交替传递，卷积神经网络依靠全连接网络对针对提取的特征进行分类，得到基于输入的概率分布Y。卷积神经网络本质上是使原始矩阵经过多个层次的数据变换或降维，映射到一个新的特征表达的数学模型。

卷积神经网络的训练目标是最小化网络的损失函数L(W，b)。输入X经过前向传导后通过损失函数计算出与期望值之间的差异，称为“残差”。常见损失函数有均方误差(MeanSquared Error，MSE)函数，负对数似然(Negative LogLikelihood，NLL)函数等。训练过程中，卷积神经网络常用的优化方法是梯度下降方法。残差通过梯度下降进行反向传播，逐层更新卷积神经网络的各个层的可训练参数(W和b)。

自动编码机主要包括编码和解码，将input输入一个编码器，得到一个code的表示，接着对code进行解码，输出相关信息。若该相关信息与输入数据相似性较高，则code就是输入数据的表示。通过输入数据与输出数据之间的误差来调整模型的相关权值，依据编码器产生特征，依次训练，最终形成稳定的自动编码机。

2、卷积核的选取

由于卷积核在对文本的卷积处理上起着关键的作用，故卷积核的选取对整个IEHC模型至关重要。本发明开始实现单个卷积核的聚类结果，通过聚类结果的多样性和质量性来获取需要组合的卷积核，并最后进行不同卷积核的加权组合处理。设卷积核集为K＝{1，2，…k_n}。依次得到每个卷积核的实验结果，通过比较不同卷积核聚类结果的多样性和质量，若多样性较大，说明它们获取的特征不同，组合得到的结果会较好。

卷积核的选取过程中，考虑各卷积核得到聚类效果的差异性来确定选取哪些卷积核。实验得到的差异性越大，各聚类结果间的关联度越低，聚类集成学习效果越好。故本发明通过规范化互信息(Normalized Mutual Information，NMI)来获得不同卷积核间的差异程度：

其中，k_a和k_b分别为不同卷积核聚类结果C_a和C_b中的簇数，n为全部的数据集数，n_h，l为同时位于C_a的h簇和C_b的l簇中的数据集数，为聚类C_a的h簇中数据集数，

为聚类C_b的l簇中的数据集数。NMI(C_a，C_b)值越大，聚类器间差异性越小。故将规划化互信息进行转换：

Div(C_a，C_b)＝1-NMI(C_a，C_b)

Div(C_a，C_b)为不同卷积核聚类结果的差异性值，该值越小，体现出聚类器间关联越少。选取差异性平均和最大的前N个卷积组合ker Set＝[ks₁，ks₂，…，ks_n}作为最终实验模型的组成部分，其中ks_n＝{k_D1，k_D2，…k_Di}，k_Di为该组合中的卷积核数。

卷积核选取的另一个评价指标为SNMI，即该簇与其他聚类方法得到结果的NMI总和的平均值，具体计算如下：

综合以上两个指标，卷积核的选取最终如下：

3、不同卷积核特征表示的融合

本发明共提出了四种不同方式的融合方法。这四种方法主要可概括为特征依赖和特征组合方式，不同卷积核得到特征表示间是否存在依赖和这些特征如何进行组合，将分为无关联合并，无关联串行，关联合并和关联串行。

a)：无关联合并(Irrelevant Coalescence，IC)

用表示需要合并的卷积特征表示集，无关联合并为不同卷积核间的特征表示没有任何依赖关系，都是相互独立的，

本发明表示为：

其中要求每个卷积核的得到的神经元个数都要相等，即

因为对这些特征是进行合并的过程，最后得到融合后表示的宽度也等于输入时的宽度。在本模型的融合过程中，我们采用求和的方法来进行合并，不同卷积核得到的对应特征表示进行相加，具体公式表示如下：

b)：无关联串行(Irrelevant Serial，IS)

无关联串行是把不同卷积核特征表示进行拼接串联起来，其中也不存在依赖关系，表示如下：

该操作最终得到的融合特征表示宽度等于其所有卷积特征表示宽度大小之和，扩大了该层的维度，表示为

c)：关联合并(Associated Coalescence，AC)

以下两种方法跟前面两种主要的不同是存在特征依赖，卷积核后面的特征跟它上一个特征表示有关，针对不同的任务，存在不同的映射关系，且

表示如下：

该方法在特征组合方面跟IC一样，都是叠加，宽度大小跟融合前的特征表示大小一样。

d)：关联串行(Associated Serial，AS)

该关联串行主要是特征依赖和特征的拼接组合，具体表示如下所示：

4、整体模型架构

通过前面对卷积核的选取，特征表示的融合等描述，本节将对整体模型进行一个全面的概括，从医疗文本输入进模型的不同操作，到最终得到的聚类结果。

a)：池化和激活操作

池化层的目的是减少特征映射的移位不变性。它通常放在两个卷积层之间，本发明把它先放在输入层之后，获取原始输入的每个特征映射连接到其下一卷积层。接着通过卷积操作进行函数激活，计算过程如下：

其中，(m，n)是(i，j)的邻居单元，和为第l层和l+1层分别在(m，n)，(i，j)位置上的神经元，l随着每次操作完之后进行更新到下一层的表示，且

表示为l的下一层，这样方便每次层次更迭之后的表示。

和分别为第l层上对应的权值和偏置向量，通过激活函数得到

值；

b)：Dropout操作

Dropout操作主要是为了防止过拟合现象，其主要思想是在训练过程中随机中断层与层之间的连接，这样就可以防止神经网络的共适应情况，其具体表示如下：

其中Bernoulli函数，是为了以概率p，随机生成一个0、1的向量

通过向量

和上一层的神经元

进行随机中断得到下一层的神经元值

c)：不同卷积特征融合和编码操作

以上是对不同卷积核同时作用的结果，为了最大地利用已知条件和相关空间，在这一步需要对得到的不同特征表示进行融合，融合方法在步骤3已经给出。由于本发明是无监督学习来提取有用特征，利用了传统的自编码机进行特征自学习，故对得到的融合结果进行编码：

其中，

为第k_c个核在l层(i，j)单元上的值，通过对不同卷积核在不同神经元上学习到的特征进行合并，得到下一层的特征表示

把这些特征表示输入encoded模型中，进行编码，得到

d)：上采样和解码操作

池化操作之后，其输入矩阵的宽度会变为原来的一半，自编码机的学习需要输入和输出维度相等来计算损失，故需要对编码之后的结果进行上采样恢复以前的输入样本大小，接着对上采样之后的结果进行解码：

其中，对编码后的特征进行上采样操作得到

(i，j)为神经元单元且属于(r，s)，对采样后的特征进行decoded解码操作，最终得到输出

e)：计算损失函数

通过编码之后得到整个模型的输出，自编码机的无监督自学习特征表示是通过对输入进行编码，然后解码重构输入即上一步得到的输出，所以整个学习网络的损失函数为L(X，Y)，对于自编码机损失函数的计算有以下两种方式：

其中，x为输入向量，y为模型最后的输出向量，x_n和y_n分别为其中第n个值，L₂(x，y)为L₂范式。得到初始的损失函数之后，通过随机梯度下降法来不断调整整个模型的权值和偏置，使得模型学习到的特征达到最好，最后作为输入医疗问答文本的特征表示进行语义聚类，得到实验结果。

f)：评价标准

实验结果评价指标有归一化互信息(normalized mutual information，NMI)，Adjusted Rand Index(ARI)和平均准确率(Average Precision，AR)，分别表示如下所示：

其中，a为在不同聚类方法中被分到同一个类的元素数量，b为不同方法被分到不同类中元素的数量，C_p为所有数据元素的总和，n_ij，a_i，b_j为关联矩阵中分别对应值，RI是Rand Index指标，E[RI]为RI指标的期望值，max(RII)为RI值中的最大值，ARI是AdjustedRand Index指标，通过前面几个指标来综合计算。AP是平均准确率，由每个数据集的准确率P_i和求平均得到。对前面得到的实验结果通过这些评价指标进行评估，判别不同实验方法在医疗文本语义聚类上效果好坏。

(三)医疗问答文本聚类

由于本发明为对医疗文本问答数据进行聚类，故通过多重核卷积进行初始特征提取并优化深度卷积神经网络的架构，依据无监督的自动编码机进行最小化损失函数和优化各种参数，最终获取有用的特征表示并进行文本聚类。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明基于多重卷积编码的聚类方法来处理中文医疗上的问答聚类，对采集到的数据进行聚类分析，克服监督学习上的局限性，进而可预测患者可能患上的相关疾病，从而可很好的实现医疗上的自动问答，有针对性的回答患者提问并给出有效的回答方案；该方法解决了监督学习存在的局限性，通过输入采集到的高维、稀疏医疗文本数据集，达到了获得比传统无监督聚类算法以及目前较不成熟的神经网络聚类方法更好的聚类效果。

2、本发明与传统医疗无监督聚类算法相比之下，准确性、稳定性和鲁棒性都有着非常大的优势；与传统方法相比，本发明的技术方案有如下创新点：第一，通过集成中的多样性和质量来进行多个卷积核的选取；第二，对不同卷积核后的特征表示进行多方法融合；第三，结合卷积神经网络和自编码机应用于医疗问答文本。

附图说明

图1为本发明实施例一种基于集成卷积编码的医疗问答语义聚类方法的流程图。

图2为本发明实施例一种基于集成卷积编码的医疗问答语义聚类方法的架构图。

图3为本发明实施例与传统无监督聚类算法和不同深度学习方法在不同数据集上的Adjusted Rand Index(ARI)和NMI对比表。

图4为本发明实施例依据不同特征融合方法的聚类效果对比图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例提供了一种基于集成卷积编码的医疗问答语义聚类方法，所述方法基于集成卷积编码模型来实现对医疗文本数据的语义聚类，所述方法的流程图如图1所示，架构图如图2所示，包括以下步骤：

步骤1：从医疗平台上获取医疗问答数据集，对医疗问答数据集进行预处理，并得到输入矩阵；

具体地，对医疗问答数据集进行预处理，即对医疗问答数据集进行分词、去停用词、词性标注，接着依据词向量的表示方式对输入的医疗问答数据集形成矩阵表示，得到输入矩阵。

步骤2：用卷积编码网络对不同的输入矩阵选取不同的卷积核进行核聚类，对核聚类后的聚类质量和多样性进行计算，根据聚类质量和多样性挑选出表示文本特征最好的n个卷积核；

进一步地，聚类质量的值越高说明得到核聚类的结果越好，其表示如下所示：

其中，K＝{1，2，…k_n}为卷积核集，

为第k_j个卷积核得到的聚类结果，

为n个卷积核任意两两不重复选取组合计算的次数，SNMI为第k_j个卷积核与其他卷积核大小聚类结果的总NMI值后求平均；通过规范化互信息NMI来获得不同卷积核间的差异程度：

其中，k_a和k_b分别为不同卷积核聚类结果C_a和C_b中的簇数，n为全部的数据集数，n_h，l为同时位于C_a的h簇和C_b的l簇中的数据集数，

为聚类结果C_a的h簇中的数据集数，

为聚类结果C_b的l簇中的数据集数，NMI(C_a，C_b)的值越大，聚类器间差异性越小；

将规范化互信息NMI进行转换后采用多样性对核聚类的质量进行评估：

Div(C_a，C_b)＝1-NMI(C_a，C_b)

Div(C_a，C_b)为不同卷积核聚类结果的差异性值，该值越小，体现出聚类器间的关联越少；

结合聚类质量和多样性评估标准，其最终结算结果如下所示：

其中，Ker表示该卷积核聚类结果的有效评估值，α表示聚类质量权值，1-α为差异性效果权值。图3为本实施例与传统无监督聚类算法和不同深度学习方法在不同数据集上的Adjusted Rand Index(ARI)和NMI对比表，其中，K-means方法为对词向量直接进行聚类，AE为经过自动编码机处理后的聚类结果，AE+WD(auto-encoder with weight-decayregularization)为在自编码机上加入权值正则项，CNN+AE+SF(convolution AEwith single filter)为单个核得到的卷积结果，CNN+AE+MF(convolution AE withmultiple filter)为多层卷积神经网络，DAE+MN(denoising auto-encoder with maskingnoise)为降噪自编码机处理后的聚类结果，IEHC+RKS1、IEHC+RKS2为在IEHC模型中随机选取多个卷积核的结果，IEHC+TKS1、IEHC+TKS2为多样性和质量评估最好的两个卷积核实验结果。

步骤3：将步骤2中挑选的卷积核分别通过卷积神经网络来进行训练操作；

进一步地，选取Ker值最大的前n个卷积核组合kerSet＝{ks₁，ks₂，…，ks_n}进行模型训练，n的值由用户依情况判定，这里取n为3，其中ks_n＝{k_D1，k_D2，…k_Di}，k_Di表示该卷积核组合中的卷积核数，进行模型训练后分别得到不同卷积核对应的特征初始表示，具体步骤如下：

a)：池化和激活操作

池化层的目的是减少特征映射的移位不变性，将池化层放在输入层之后，获取原始输入的每个特征映射连接到其下一卷积层，接着通过卷积操作进行函数激活，计算过程如下：

其中，(m，n)是(i，j)的邻居单元，和

为第l层和l+1层分别在(m，n)和(i，j)位置上的神经元，l随着每次操作完之后进行更新到下一层的表示，且

表示为l的下一层，这样方便每次层次更迭之后的表示，

和分别为第l层上对应的权值和偏置向量，通过激活函数得到

值；

b)：Dropout操作

Dropout操作是为了防止过拟合现象，是在训练过程中随机中断层与层之间的连接，防止神经网络的共适应情况，其具体表示如下：

其中Bernoulli函数，是为了以概率p，随机生成一个0、1的向量

通过向量

和上一层的神经元

进行随机中断得到下一层的神经元值

以上两步得到不同卷积核的特征表示结果，接着对它们进行融合，对空间进行高效的利用。

步骤4：融合不同卷积核的特征表示结果；

所述融合不同卷积核的特征表示结果共有四种不同方式的融合方法：

a)：无关联合并(Irrelevant Coalescence，IC)

表示需要合并的卷积特征表示集，无关联合并表示不同卷积核间的特征表示没有任何依赖关系，都是相互独立的，表示为：

其中要求每个卷积核得到的神经元个数都要相等，即

因为对这些特征是进行合并的过程，最后得到融合后表示的宽度也等于输入时的宽度，在本模型的融合过程中，采用求和的方法来进行合并，不同卷积核得到的对应特征表示进行相加，具体公式表示如下：

b)：无关联串行(Irrelevant Serial，IS)

该操作最终得到的融合特征表示宽度等于其所有卷积特征表示宽度大小之和，该方法扩大了改层的维度；

c)：关联合并(Associated Coalescence，AC)

以下两种方法跟前面两种主要的不同是存在特征依赖，卷积核后面的特征跟它上一个特征的表示有关，针对不同的任务，存在不同的映射关系，表示如下：

该方法在特征组合方面跟IC一样，都是叠加，宽度大小跟融合前的特征表示大小一样；

d)：关联串行(Associated Serial，AS)

该关联串行为特征依赖和特征的拼接组合，具体表示如下所示：

图4为本实施例依据不同特征融合方法的聚类效果对比图，所述四种方法能够根据设计的模型自行选择，对不同的任务和语料集，不同的融合方法有不同的效果。

步骤5：将融合后的特征表示结果输入自编码机，进行输入重构训练得到最佳特征表示；

具体流程如下：

a)：对融合后的不同卷积特征表示进行编码操作

利用传统的自编码机进行特征自学习，对融合后的不同卷积特征表示进行编码操作：

其中，为第k_c个卷积核在l层(i，j)单元上的值，通过对不同卷积核在不同神经元上学习到的特征进行合并，得到下一层的特征表示

把这些特征表示输入encoded模型中，进行编码，得到

b)：上采样和解码操作

通过池化操作之后，其输入矩阵的宽度会变为原来的一半，自编码机的学习需要输入和输出维度相等来计算损失，故需要对编码之后的结果进行上采样恢复以前的输入样本大小，接着对上采样之后的结果进行解码：

其中，对编码后的特征进行上采样操作得到

(i，j)为神经元单元且属于(r，s)，对采样后的特征进行解码操作，最终得到输出

c)：计算损失函数

整个学习网络的损失函数为L(X，Y)，对于自编码机损失函数的计算有以下两种方式：

其中，x为输入向量，y为模型最后的输出向量，x_n和y_n分别为其中第n个值，L₂(x，y)为L₂范式，得到初始的损失函数之后，通过随机梯度下降法来不断调整整个模型的权值和偏置，使得模型学习到的特征达到最好；

d)：对模型进行评价

实验结果评价指标有归一化互信息NMI、ARI和平均准确率AR，分别表示如下所示：

其中，a为在不同聚类方法中被分到同一个类的元素数量，b为不同方法被分到不同类中元素的数量，C_p为所有数据元素的总和，n_ij、a_i、b_j分别为关联矩阵中的对应值，RI是Rand Index指标，E[RI]为RI指标的期望值，max(RI)为RI值中的最大值，ARI是AdjustedRand Index指标，通过前面几个指标来综合计算，AP是平均准确率，由每个数据集的准确率P_i和求平均得到。

步骤6：将编码得到的最佳特征表示进行聚类，得到最终医疗文本语义聚类结果。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于集成卷积编码的医疗问答语义聚类方法，其特征在于，所述方法包括以下步骤：

步骤4：融合不同卷积核的特征表示结果；

2.根据权利要求1所述的一种基于集成卷积编码的医疗问答语义聚类方法，其特征在于：步骤1中所述的对医疗问答数据集进行预处理，即对医疗问答数据集进行分词、去停用词、词性标注，接着依据词向量的表示方式对输入的医疗问答数据集形成矩阵表示，得到输入矩阵。

3.根据权利要求1所述的一种基于集成卷积编码的医疗问答语义聚类方法，其特征在于，步骤2中的聚类质量的值越高说明得到核聚类的结果越好，其表示如下所示：

其中，K＝{1，2，…k_n}为卷积核集，

为第k_j个卷积核得到的聚类结果，

为聚类结果C_a的h簇中的数据集数，

Div(C_a，C_b)＝l-NMI(C_a，C_b)

其中，Ker表示该卷积核聚类结果的有效评估值，α表示聚类质量权值，1-α为差异性效果权值。

4.根据权利要求3所述的一种基于集成卷积编码的医疗问答语义聚类方法，其特征在于：选取Ker值最大的前n个卷积核组合Ker Set＝{ks₁，ks₂，…，ks_n}进行模型训练，n的值由用户依情况判定，这里取n为3，其中ks_n＝{k_D1，k_D2，…k_Di}，k_Di表示该卷积核组合中的卷积核数，进行模型训练后分别得到不同卷积核对应的特征初始表示，具体步骤如下：

a)：池化和激活操作

其中，(m，n)是(i，j)的邻居单元，

和为第l层和l+1层分别在(m，n)和(i，j)位置上的神经元，l随着每次操作完之后进行更新到下一层的表示，且

表示为l的下一层，这样方便每次层次更迭之后的表示，

和

分别为第l层上对应的权值和偏置向量，通过激活函数得到

值；

b)：Dropout操作

其中Bernoulli函数，是为了以概率p，随机生成一个0、1的向量通过向量

和上一层的神经元

进行随机中断得到下一层的神经元值

5.根据权利要求4所述的一种基于集成卷积编码的医疗问答语义聚类方法，其特征在于，所述融合不同卷积核的特征表示结果共有四种不同方式的融合方法：

a)：无关联合并

其中要求每个卷积核得到的神经元个数都要相等，即

b)：无关联串行

c)：关联合并

该方法在特征组合方面跟无关联合并一样，都是叠加，宽度大小跟融合前的特征表示大小一样；

d)：关联串行

所述四种方法能够根据设计的模型自行选择，对不同的任务和语料集，不同的融合方法有不同的效果。

6.根据权利要求5所述的一种基于集成卷积编码的医疗问答语义聚类方法，其特征在于，步骤5中所述的将融合后的特征表示结果输入自编码机，进行输入重构训练得到最佳特征表示的具体流程如下：

a)：对融合后的不同卷积特征表示进行编码操作

把这些特征表示输入encoded模型中，进行编码，得到

b)：上采样和解码操作

其中，对编码后的特征进行上采样操作得到

c)：计算损失函数

d)：对模型进行评价

其中，a为在不同聚类方法中被分到同一个类的元素数量，b为不同方法被分到不同类中元素的数量，C_p为所有数据元素的总和，n_ij、a_i、b_j分别为关联矩阵中的对应值，RI是RandIndex指标，E[RI]为RI指标的期望值，max(RI)为RI值中的最大值，ARI是Adjusted RandIndex指标，通过前面几个指标来综合计算，AP是平均准确率，由每个数据集的准确率P_i和求平均得到。