CN110197286B - 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 - Google Patents
一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 Download PDFInfo
- Publication number
- CN110197286B CN110197286B CN201910387355.3A CN201910387355A CN110197286B CN 110197286 B CN110197286 B CN 110197286B CN 201910387355 A CN201910387355 A CN 201910387355A CN 110197286 B CN110197286 B CN 110197286B
- Authority
- CN
- China
- Prior art keywords
- sample
- model
- gaussian
- samples
- gmm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000000203 mixture Substances 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 43
- 238000009826 distribution Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 238000007619 statistical method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,该方法包括以下步骤:1)对包括已标记样本和未标记样本的所有样本,采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差;2)构建初始训练集XL,将初始训练集作为已标记样本集,并更新未标注样本集XU;3)构建初始的基于混合高斯核的直推式相关向量机模型GMM‑FRVM;4)基于GMM‑FRVM模型更新已标记样本集和未标记样本集;5)基于更新后的已标记样本集和未标记样本集重新训练GMM‑FRVM模型;6)采用最终的GMM‑FRVM模型完成所有样本的分类标记。本发明方法通过混合高斯模型和稀疏贝叶斯相结合的主动学习的手段,通过尽量少的人工标注获得较优的分类效果。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法。
背景技术
随着计算机相关技术的飞速发展,社会变得更加信息化,每天都会有大量的数据产生。在实际场景中,人们获得的大量数据都是未经标注标签的,传统监督学习方法在使用少部分有标签数据进行训练时因为样本规模小、信息少很难有较好的预测结果。人工标注样本需要消耗大量的时间和精力,甚至一些情况根本无法完成对大量样本的标注。基于这些问题,本发明提出了一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法。
主动学习通过不断从样本中筛选最具有价值的样本进行标注来扩充样本集,以此达到通过利用较少的样本训练出性能优良的分类器。本发明采用的主动学习方法是基于池的主动学习方法,其过程包含初始化和循环查询两个阶段。在初始化阶段中,从未标记样本集中筛选出部分样本,提供给专家进行标注,形成训练集建立初始模型。循环查询阶段中,根据某种选择策略,每次从未标记样本集中选取包含信息量最大的部分样本进行标注,然后更新已标记样本集,并重新训练模型。如此循环往复,直到达到停止标准为止。
混合高斯模型就是对多个高斯分布进行线性组合的一个混合模型,高斯分布具有很重要的分析性质,但是使用高斯分布来分析实际数据集会有很大的局限性。实际中的复杂数据使用简答的高斯分布并不能充分描述出其结构特征,但是如果使用足够多的高斯分布,调节不同高斯分布的均值、方差以及混合系数就可以描述非常复杂的概率密度形式。
相关向量机是一种典型的稀疏贝叶斯学习模型,它具有与支持向量机模型类似的核函数思想,但是与传统的支持向量机模型相比,它更具稀疏性,提供更灵活的核函数选择(不用满足Mercer定理),同时还提供概率化的输出,可用来评估预测结果的置信度。由于传统的相关向量机模型一开始会将所有的基函数纳入训练,随着超参数的迭代更新,基函数才逐渐被淘汰。传统的相关向量机作为一种监督学习方法,仅使用已标记的数据作为训练集构建学习模型,容易造成样本规模小、预测性能差等问题。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法。
本发明解决其技术问题所采用的技术方案是:一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,包括以下步骤:
1)对包括已标记样本和未标记样本的所有样本,采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差;
2)在未标注样本集XU中分别随机选取离各个簇聚类中心点最近的点进行标注后作为初始样本点,构建初始训练集XL,将初始训练集作为已标记样本集,并更新未标注样本集XU;
3)基于各个高斯分量及其对应协方差矩阵和混合系数构建混合高斯核函数,计算扩充的核矩阵,并构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM;
4)基于GMM-FRVM模型计算各个未标记样本的后验概率,根据样本后验概率选择不确定性最大的样本,对其进行标注并加入训练集,然后更新已标记样本集和未标记样本集;
5)基于步骤4)中更新后的已标记样本集和未标记样本集重新训练GMM-FRVM模型,获得相关向量以及权重参数;如果满足终止条件,即得到最终的GMM-FRVM模型,否则,回到第4)步,重新计算;
6)采用最终的GMM-FRVM模型完成所有样本的分类标记。
按上述方案,所述步骤1)中,对于所有样本,设高斯分量的个数是K,即聚类簇的个数为K,混合高斯模型表示为:
其中,πk为每个分量的权重,也就是混合系数;x为样本,μk为每个高斯分量的均值,Σk为每个高斯分量的协方差,K为分量个数。
按上述方案,所述步骤1)中,通过混合高斯模型训练所有样本,使用期望最大化方法,将众多未知参数设置成隐变量,计算求解如下公式得到样本集各个高斯分量的混合系数πk、均值μk和协方差矩阵Σk,其中,K为分量个数;
按上述方案,所述步骤3)中构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM,包括以下步骤:
3.1)利用上述步骤得出的混合系数、混合高斯分量及协方差矩阵来构建混合高斯核函数,并初始化核参数γ;
所述混合高斯核函数公式如下:
其中,γ是高斯核函数中的超参数,xi,xj为样本点,πk和Σk为对应高斯分量混合系数和协方差;
3.2)根据相关向量机的原理,其分类函数可以表示为:
y(x,w)=σ(wTφ(x))=σ(Φw) (4)
其中,Φ是核函数矩阵,对于分类模型未引入偏置的相关向量机,其核矩阵Φ表示为如下方式:
其中,K(xi,xj)表示关于xi和xj的核函数,即步骤3.1)中的混合高斯核函数;
对核矩阵进行了扩充,将未标记样本引入到模型的训练过程中,扩充后的核矩阵形式如下:
在上式中,N为样本规模,其中已标记样本数量为L(对应步骤2)中的初始训练集XL),未标记样本数量为S(对应步骤2)中更新后的XU),N=L+S,{XL,yL}为已标记样本集,{XS}为未标记样本集;通过扩充,该矩阵不仅包含了已标记样本的信息同时也包含了未标记样本的信息;
3.3)计算权重w的均值和方差ΣN,N,并估计超参数α;
首先,获得基于核矩阵扩充的直推式相关向量机FRVM模型,该模型采用以下公式表示,用于描述样本x属于该类别的概率:
其中,权重w为N维向量,w=(w0,w1,w2,...,wN)T;ΦL,L+S为步骤3.2)计算得出的扩充核矩阵,N=L+S;
对样本目标真实值t引入伯努利分布,其似然函数为:
其中,A=diag(α0,α1,α2,...,αN);C1为常数;
通过最大化w的后验概率,求得目标函数H(w)如下:
其中,C2和C3为常数;
求解H(w)的梯度和Hessian矩阵,然后对其使用牛顿拉普森迭代,得到权重w的均值和方差如下:
其中,BL×L为L×L的对角阵,对角元素为bl=yl(1-yl);通过拉普拉斯近似和贝叶斯信息准则计算边缘似然概率p(t|α),最终得到对数边缘似然函数为:
3.4)从模型中删除对应αi为无穷大的基向量,并重新根据步骤3.3)的权重w的均值和方差公式计算权重w的均值和方差ΣN,N,并根据对数边缘似然函数重新估计超参数α,删除对应αi为无穷大的基向量,重复本步骤,直到达到收敛条件,收敛后的结果即为初始的GMM-FRVM模型。
按上述方案,所述步骤4)中根据样本后验概率选择不确定性最大的样本,具体如下:基于GMM-FRVM模型计算出各个未标记样本的不确定性,然后选择出不确定性最大的样本,选择公式如下所示:
本发明产生的有益效果是:本发明方法能有效对样本进行分类,通过混合高斯模型和稀疏贝叶斯相结合的主动学习的手段,从大量未标记的样本中有策略地筛选信息量最大的样本进行标注,可以通过尽量少的人工标注获得较优的分类效果。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图;
图2是本发明实施例的GMM-FRVMAL方法关于TwoMoons数据集的迭代过程示意图;
图3是本发明实施例的不同主动学习方法关于各个主题数据集的F1评估结果示意图;
图4是本发明实施例的各主题数据集中随着查询样本数上升F1值的变化情况示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,包括以下步骤:
S1、利用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差,选取m个离各自聚类中心最近的样本点进行标注,建立初始训练集;
步骤S1的具体方法为:
S11、对于所有样本(包括已标记样本和未标记样本),假设高斯分量的个数是K,即聚类簇的个数为K,则混合高斯模型可表示为:
其中,每个分量的权重为πk,也就是混合系数,x为样本,μk为每个高斯分量的均值,Σk为每个高斯分量的协方差。
每个分量都是一个独立的高斯分布,并且各个高斯分量都是归一化的,容易得到:
通过如下公式计算模型的边缘概率:
对比式(1),可得p(k)=πk,表示第k个高斯成分的先验概率,p(x|k)=N(x|μk,Σk)是x关于第k个成分的概率分布。那么根据贝叶斯准则,可以得到k关于x的后验概率分布:
令π={π1,π2,...,πK},μ={μ1,μ2,...μK},Σ={Σ1,Σ2,...,ΣK},则高斯混合模型由参数π,μ,Σ控制。随机变量X={x1,x2,...,xN},关于π,μ,Σ的对数似然函数为:
通过公式(5),使用期望最大化方法,将众多未知参数设为隐变量,进行模型训练求解,得出混合高斯模型的参数π,μ,Σ;
S12、在未标注样本池XU中分别随机选取离簇聚类中心点最近的点进行标注后作为初始样本点,构建初始训练集XL,更新XU=XU-XL。样本点选择策略中的距离函数为马氏距离函数,初始样本点选择公式如下:
其中,Xc,initial表示簇c的初始样本点,xc,initial表示c的聚类中心,Σc表示簇c所在高斯分量的协方差矩阵。
S2、基于各个高斯分量及其对应协方差矩阵和混合系数构建混合高斯核函数,计算扩充的核矩阵,并构建初始的基于混合高斯核的直推式相关向量机(GMM-FRVM)模型;
步骤S2的具体方法为:
S21、初始化核参数γ和超参数α。利用上述步骤得出的混合系数、混合高斯分量及协方差矩阵来构建混合高斯核函数。本发明中构建的高斯核函数采用的是混合高斯距离,替代了原本高斯核中的欧式距离,新的混合高斯核函数公式如下:
其中γ是高斯核函数中的超参数,xi,xj为样本点,πk和Σk为对应高斯分量混合系数和协方差。
混合高斯核函数中的混合高斯距离相比于利用欧氏距离作为核距离,在相关向量机模型训练中将样本的分布特性融入到模型的学习过程中,提高了模型预测的精确度。
S22、根据相关向量机的原理,其分类函数可以表示为:
y(x,w)=σ(wTφ(x))=σ(Φw) (8)
其中Φ是核函数矩阵,对于分类模型未引入偏置的相关向量机,其核矩阵Φ表示为如下方式:
其中,K(xi,xj)表示关于xi和xj的核函数,即步骤S21中的混合高斯核函数,如公式(7)所示。
为了充分考虑未标记样本的信息,本发明对核矩阵进行了扩充,将未标记样本引入到模型的训练过程中,扩充后的核矩阵形式如下:
在上式中,N为样本规模,其中已标记样本数量为L(对应步骤S12中的XL),未标记样本数量为S(对应步骤S12中更新后的XU),N=L+S,{XL,yL}为已标记样本集,{XS}为未标记样本集。通过列上的扩充,该矩阵不仅包含了已标记样本的信息同时也包含了未标记样本的信息。
S23、本发明将核矩阵扩充的方法应用到相关向量机模型中,根据此前的参数通过一系列的推导计算权重w的均值和方差ΣN,N并估计超参数α。首先,可以推导出基于核矩阵扩充的直推式相关向量机(FRVM)模型,该模型可用公式(11)表示,用于描述样本x属于该类别的概率:
其中,权重w为N维向量,w=(w0,w1,w2,...,wN)T;ΦL,L+S为步骤S22计算得出的扩充核矩阵。对样本目标真实值t引入的是伯努利分布,其似然函数为:
其中,A=diag(α0,α1,α2,...,αN)。
通过最大化w的后验概率,可以求得目标函数H(w)如下:
进一步求解H(w)的梯度和Hessian矩阵,然后对其使用牛顿拉普森迭代,可以得到权重w的均值和方差如下:
其中,BL×L为L×L的对角阵,对角元素为bl=yl(1-yl)。通过拉普拉斯近似和贝叶斯信息准则计算边缘似然概率p(t|α),最终得到对数边缘似然函数为:
S24、从模型中删除对应αi为无穷大的基向量。并重新根据步骤S23的公式(15)和(16)计算权重w的均值和方差ΣN,N,并根据式(17)重新估计超参数α,删除对应αi为无穷大的基向量。重复本步骤,直到达到收敛条件。收敛后的结果即为初始的GMM-FRVM模型。
S3、基于GMM-FRVM模型计算各个未标记样本的后验概率,根据样本后验概率选择不确定性最大的样本,提供给专家进行标注并加入训练集,然后更新已标记样本集和未标记样本集;
步骤S3的具体方法为:
S31、基于GMM-FRVM模型计算出各个未标记样本的不确定性,然后选择出不确定性最大的样本,选择公式如下所示:
S32、对S31所选择的样本进行标注,然后更新样本集,XU=XU-{(xj,labels(xj))},XL=XL∪{(xj,lables(xj))};
S4、基于更新后的已标记样本集和未标记样本集重新训练GMM-FRVM模型,获得相关向量以及权重等参数。如果不满足终止条件,回到第S3步,否则,方法终止,即得到最终的GMM-FRVM模型;
步骤S4中,同时使用XL和XU重新训练GMM-FRVM模型,获得相关向量RVs以及权重w。如果不满足预设定的终止条件,回到S31步继续迭代,直到达到终止条件,得到最终的GMM-FRVM模型。
S5、采用最终的GMM-FRVM模型完成分类标记。
图2描述了GMM-FRVMAL方法过程中随着查询样本数量的增多模型变化的情况,其中,未标记样本和相关向量分别用‘△’和‘◎’表示。在查询样本数L=0时,已标记样本集中只有10个初始样本,得到的模型性能欠佳,在循环查询阶段,每次迭代中选择一个信息量最大的样本进行标注加入训练集,总共进行了50次迭代,随着查询样本数的增多,模型的性能逐渐提升。GMM-FRVMAL方法充分捕捉了样本的整体特性,获得的决策边界较好地区分了不同种类的样本。图2中,(a)L=0,(b)L=10,(c)L=20,(d)L=30,(e)L=40,(f)L=50;从(a)至(f)中可以知道基于不确定性的样本筛选策略倾向于选择接近决策边界的样本点进行标注,通过对不确定的点进行标注来改善模型,提升模型性能。
本发明方法的一个具体实施例如下:
本发明的一个具体实施应用是将该发明方法应用到文本分类中,根据文档主题对文本进行分类。数据输入采用数据集的是文本分类数据集20Newgroup。该数据集包含来自不同新闻组的大约20000篇文章,每个新闻组都是关于一个不同的主题,一共有20个主题。在本实施应用中,抽取其中8个主题的数据作为实验数据,并将该实验数据分成两部分,一部分作为训练集(60%),另一部分作为测试集(40%)。对这8个主题的数据分别以各个主题为正类可构造8个不同的二分类数据集,每个主题训练集大约有600个样本,测试集大约有400个样本。
这8个数据集的主题分别是:sci.space,rec.motorcycles,misc.forsale,rec.sport.hockey,com.graphics,talk.politics.guns,talk.politics.mideast和sci.crypt。
该数据集是文本数据,首先使用TF-IDF算法对文本进行预处理,计算文本中各词的词频-逆向文件频率指数,将文本转化为可进行统计分析的数值向量,即样本特征向量。
实验开始时,数据集不带任何样本标签。利用混合高斯模型训练所有样本求得各高斯分量参数,取K=8。对各个聚类中心不断随机选取离其最近的样本进行标注,构成样本数为100的初始训练集,计算核扩充矩阵并构建初始的基于混合高斯核的直推式相关向量机(GMM-FRVMAL)模型。接下来循环查询100次训练集中不确定性最大的样本进行标注并重新训练GMM-FRVM模型,循环查询结束后得到最终的GMM-FRVM模型。最后用最终的学习模型对测试集样本进行预测分类。为了更好地体现方法的优势,本实验对比了两种传统主动学习方法RVMALrand和RVMALcluster在该数据集中的分类效果,以评估标准F1值为方法性能的指标。实验结果中,在sci.space数据集下,RVMALrand的F1值为72.15%,RVMALcluster的F1值为73.09%,本发明方法GMM-FRVMAL下的F1值为78.74%;在rec.motorcycles数据集下,RVMALrand的F1值为76.68%,RVMALcluster的F1值为83.85%,GMM-FRVMAL下的F1值为89.23%;在misc.forsale数据集下,RVMALrand的F1值为68.87%,RVMALcluster的F1值为74.26%,GMM-FRVMAL下的F1值为78.20%;在rec.sport.hockey数据集下,RVMALrand的F1值为87.44%,RVMALcluster的F1值为88.78%,GMM-FRVMAL下的F1值为91.47%;在com.graphics数据集下,RVMALrand的F1值为69.66%,RVMALcluster的F1值为72.92%,GMM-FRVMAL下的F1值为78.91%;在talk.politics.guns数据集下,RVMALrand的F1值为62.70%,RVMALcluster的F1值为67.77%,GMM-FRVMAL下的F1值为77.47%;在talk.politics.mideast数据集下,RVMALrand的F1值为77.76%,RVMALcluster的F1值为80.31%,GMM-FRVMAL下的F1值为88.85%;在sci.crypt数据集下,RVMALrand的F1值为70.89%,RVMALcluster的F1值为75.57%,GMM-FRVMAL下的F1值为81.52%;
图3用图表的形式对比了不同主动学习方法关于各个主题数据集的预测结果。图4描述了各方法关于4个主题数据集的F1值变化情况,其中,(a)为sci.space,(b)为rec.motorcycles,(c)为misc.forsale,(d)为rec.sport.hockey;随着查询样本数的上升,各方法的F1值呈现上升趋势,其中GMM-FRVMAL方法的F1值一直领先于RVMALrand和RVMALcluster方法,并且它的收敛速度也更快,能通过较少的样本标注获得更高的预测性能。另外,由于GMM-FRVMAL通过构造GMM-FRVM分类器进行模型预测和样本选择,得益于该分类模型抓取样本整体特征的能力,起始时GMM-FRVMAL方法就拥有了较高的F1值,体现了GMM-FRVMAL分类器在主动学习场景下较强的适应性。
由此可见,本发明方法训练出的GMM-FRVM模型的效果明显优于另外两种,本发明的方法能有效进行文本的分类预测,并从大量未标记的文档中有策略地筛选信息量大的文档进行标注,通过尽量少的标注获得较优的预测性能。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (5)
1.一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,包括以下步骤:
1)根据文档主题对文本进行抽取,对抽取的数据分别以各个主题为正类构造各文档主题的二分类数据集,将数据集一部分作为训练集,另一部分作为测试集;
各文档主题的二分类数据集是文本数据,首先使用TF-IDF算法对文本进行预处理,计算文本中各词的词频-逆向文件频率指数,将文本转化为可进行统计分析的数值向量,即样本特征向量;
对包括已标记样本和未标记样本的所有样本,采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差;
2)在未标注样本集XU中分别随机选取离各个簇聚类中心点最近的点进行标注后作为初始样本点,构建初始训练集XL,将初始训练集作为已标记样本集,并更新未标注样本集XU;
3)基于各个高斯分量及其对应协方差矩阵和混合系数构建混合高斯核函数,计算扩充的核矩阵,并构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM;
4)基于GMM-FRVM模型计算各个未标记样本的后验概率,根据样本后验概率选择不确定性最大的样本,对其进行标注并加入训练集,然后更新已标记样本集和未标记样本集;
5)基于步骤4)中更新后的已标记样本集和未标记样本集重新训练GMM-FRVM模型,获得相关向量以及权重参数;如果满足终止条件,即得到最终的GMM-FRVM模型,否则,回到第4)步,重新计算;
6)采用最终的GMM-FRVM模型完成所有样本的分类标记。
4.根据权利要求1所述的基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,所述步骤3)中构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM,包括以下步骤:
3.1)利用上述步骤得出的混合系数、混合高斯分量及协方差矩阵来构建混合高斯核函数,并初始化核参数γ;
所述混合高斯核函数公式如下:
其中,γ是高斯核函数中的超参数,xi,xj为样本点,πk和Σk为对应高斯分量混合系数和协方差,K为高斯分量的个数;
3.2)根据相关向量机的原理,其分类函数可以表示为:
y(x,w)=σ(wTφ(x))=σ(Φw) (4)
其中,Φ是核函数矩阵,对于分类模型未引入偏置的相关向量机,其核矩阵Φ表示为如下方式:
其中,K(xi,xj)表示关于xi和xj的核函数,即步骤3.1)中的混合高斯核函数;
对核矩阵进行了扩充,将未标记样本引入到模型的训练过程中,扩充后的核矩阵形式如下:
在上式中,N为样本规模,其中已标记样本数量为L列,未标记样本数量为S列,N=L+S,{xL,yL}为已标记样本集,{xS}为未标记样本集;通过扩充,该矩阵不仅包含了已标记样本的信息同时也包含了未标记样本的信息;
3.3)计算权重w的均值和方差ΣN,N,并估计超参数α;
首先,获得基于核矩阵扩充的直推式相关向量机FRVM模型,该模型采用以下公式表示,用于描述样本x属于该样本所属的类别的概率:
其中,权重w为N维向量,w=(w0,w1,w2,...,wN)T;ΦL,L+S为步骤3.2)计算得出的扩充核矩阵,N=L+S;
对样本目标真实值t引入伯努利分布,其似然函数为:
其中,A=diag(α0,α1,α2,...,αN);C1为常数;
通过最大化w的后验概率,求得目标函数H(w)如下:
其中,C2和C3为常数;
求解H(w)的梯度和Hessian矩阵,然后对其使用牛顿拉普森迭代,得到权重w的均值和方差如下:
其中,BL,L为L×L的对角阵,对角元素为bl=yl(1-yl);通过拉普拉斯近似和贝叶斯信息准则计算边缘似然概率p(t|α),最终得到对数边缘似然函数为:
3.4)从模型中删除对应αi为无穷大的基向量,并重新根据步骤3.3)的权重w的均值和方差公式计算权重w的均值和方差ΣN,N,并根据对数边缘似然函数重新估计超参数α,删除对应αi为无穷大的基向量,重复本步骤,直到达到收敛条件,收敛后的结果即为初始的GMM-FRVM模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910387355.3A CN110197286B (zh) | 2019-05-10 | 2019-05-10 | 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910387355.3A CN110197286B (zh) | 2019-05-10 | 2019-05-10 | 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110197286A CN110197286A (zh) | 2019-09-03 |
CN110197286B true CN110197286B (zh) | 2021-03-16 |
Family
ID=67752542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910387355.3A Active CN110197286B (zh) | 2019-05-10 | 2019-05-10 | 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110197286B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110879971B (zh) * | 2019-10-23 | 2023-06-13 | 上海宝信软件股份有限公司 | 工业生产设备运行异常情况预测方法及系统 |
CN110795841B (zh) * | 2019-10-24 | 2021-10-22 | 北京交通大学 | 一种间歇性能源出力不确定性的数学建模方法 |
CN110918651B (zh) * | 2019-12-06 | 2020-12-01 | 东北大学 | 基于多分类支持向量机的钢铁冷轧精整生产原料分配方法 |
CN111027453B (zh) * | 2019-12-06 | 2022-05-17 | 西北工业大学 | 基于高斯混合模型的非合作水中目标自动识别方法 |
CN112149721B (zh) * | 2020-09-10 | 2023-11-17 | 南京大学 | 一种基于主动学习降低标注需求的目标检测方法 |
CN112185484A (zh) * | 2020-10-13 | 2021-01-05 | 华北科技学院 | 一种基于AdaBoost模型的水质特征矿泉水分类方法 |
CN112363465B (zh) * | 2020-10-21 | 2022-04-01 | 北京工业大数据创新中心有限公司 | 一种专家规则集训练方法、训练器和工业设备预警系统 |
CN113221960B (zh) * | 2021-04-20 | 2023-04-18 | 西北大学 | 一种高质量漏洞数据收集模型的构建方法及收集方法 |
CA3222713A1 (en) * | 2021-06-16 | 2022-12-22 | Mihaela VLASEA | Method and system for active learning using adaptive weighted uncertainty sampling (awus) |
CN113312851A (zh) * | 2021-06-16 | 2021-08-27 | 华电山东新能源有限公司 | 一种风力发电机主轴承温度异常预警方法 |
CN113722961B (zh) * | 2021-09-01 | 2024-02-13 | 浙江大学 | 一种基于广义协同高斯过程模型的结构不确定性量化解析方法 |
CN114092472B (zh) * | 2022-01-19 | 2022-05-03 | 宁波海棠信息技术有限公司 | 一种缺陷检测中不确定样本的检测方法、装置及介质 |
CN118015317A (zh) * | 2024-01-12 | 2024-05-10 | 汕头大学 | 基于多算法融合的桥梁结构损伤识别方法、系统及设备 |
CN118135345B (zh) * | 2024-03-11 | 2024-08-20 | 哈尔滨工业大学 | 一种基于核高斯混合岭回归模型的目标轮廓检测方法 |
CN118016195B (zh) * | 2024-04-08 | 2024-08-23 | 深圳大学 | 微藻细胞发酵调控方法、装置、设备及存储介质 |
CN118194067B (zh) * | 2024-05-20 | 2024-07-12 | 成都辰木数智科技有限责任公司 | 一种基于多维高斯混合模型的广告外溢检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250988A (zh) * | 2016-07-28 | 2016-12-21 | 武汉理工大学 | 基于样本特性的相关向量回归增量学习算法及系统 |
CN106846321A (zh) * | 2016-12-08 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于贝叶斯概率与神经网络的图像分割方法 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
CN107437112A (zh) * | 2017-04-19 | 2017-12-05 | 武汉理工大学 | 一种基于改进多尺度核函数的混合rvm模型预测方法 |
CN108804784A (zh) * | 2018-05-25 | 2018-11-13 | 江南大学 | 一种基于贝叶斯高斯混合模型的即时学习软测量建模方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150228015A1 (en) * | 2014-02-13 | 2015-08-13 | Xerox Corporation | Methods and systems for analyzing financial dataset |
-
2019
- 2019-05-10 CN CN201910387355.3A patent/CN110197286B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250988A (zh) * | 2016-07-28 | 2016-12-21 | 武汉理工大学 | 基于样本特性的相关向量回归增量学习算法及系统 |
CN106846321A (zh) * | 2016-12-08 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于贝叶斯概率与神经网络的图像分割方法 |
CN107437112A (zh) * | 2017-04-19 | 2017-12-05 | 武汉理工大学 | 一种基于改进多尺度核函数的混合rvm模型预测方法 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
CN108804784A (zh) * | 2018-05-25 | 2018-11-13 | 江南大学 | 一种基于贝叶斯高斯混合模型的即时学习软测量建模方法 |
Non-Patent Citations (4)
Title |
---|
A Mixed Mahalanobis Kernel for Sparse Bayesian Classification;Mi Tong 等;《2018 5th International Conference on Information Science and Control Engineering》;20181231;全文 * |
A Relevance Vector Machine Based on Gaussian Mixture Kernel;Tong M 等;《2018 International Conference on Mechanical, Electronic, Control and Automation Engineering》;20181231;全文 * |
Sparse Bayesian Learning and the Relevance Vector Machine;Tipping M E;《Journal of Machine Learning Research》;20011231;全文 * |
一种基于变分相关向量机的特征选择和分类结合方法;徐丹蕾 等;《自动化学报》;20111231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110197286A (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197286B (zh) | 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 | |
Mishina et al. | Boosted random forest | |
CN106971091B (zh) | 一种基于确定性粒子群优化和支持向量机的肿瘤识别方法 | |
Buehlmann | Boosting for high-dimensional linear models | |
Li et al. | Simple exponential family PCA | |
Fan et al. | Axially symmetric data clustering through Dirichlet process mixture models of Watson distributions | |
CN109697289A (zh) | 一种改进的用于命名实体识别的主动学习方法 | |
CN113380255B (zh) | 一种基于迁移训练的声纹识别中毒样本生成方法 | |
Asadi et al. | Creating discriminative models for time series classification and clustering by HMM ensembles | |
CN103020979A (zh) | 基于稀疏遗传聚类的图像分割方法 | |
Gu et al. | Robust semi-supervised classification for noisy labels based on self-paced learning | |
CN112232395A (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN108549915B (zh) | 基于二值权重的图像哈希码训练模型算法及分类学习方法 | |
CN113378910B (zh) | 一种基于纯净标签的电磁信号调制类型识别的中毒攻击方法 | |
CN110619311A (zh) | 一种基于eemd-ica-svm的数据分类方法 | |
Gollamandala et al. | An additive sparse logistic regularization method for cancer classification in microarray data. | |
Thai et al. | Inverse covariance estimation from data with missing values using the concave-convex procedure | |
CN108304546B (zh) | 一种基于内容相似度和Softmax分类器的医学图像检索方法 | |
Fan et al. | A Few-shot Learning algorithm based on attention adaptive mechanism | |
CN107563287B (zh) | 人脸识别方法和装置 | |
Wei et al. | Robust feature selection based on regularized brownboost loss | |
Lomakina et al. | Text structures synthesis on the basis of their system-forming characteristics | |
CN111222570B (zh) | 基于差分隐私的集成学习分类方法 | |
CN114692746A (zh) | 一种基于信息熵的模糊半监督支持向量机的分类方法 | |
Negrel et al. | Boosted metric learning for efficient identity-based face retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |