CN112214335A - 基于知识图谱和相似度网络的Web服务发现方法 - Google Patents
基于知识图谱和相似度网络的Web服务发现方法 Download PDFInfo
- Publication number
- CN112214335A CN112214335A CN202011092858.7A CN202011092858A CN112214335A CN 112214335 A CN112214335 A CN 112214335A CN 202011092858 A CN202011092858 A CN 202011092858A CN 112214335 A CN112214335 A CN 112214335A
- Authority
- CN
- China
- Prior art keywords
- matrix
- service
- entity
- embedding
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000011159 matrix material Substances 0.000 claims abstract description 104
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract description 12
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000013527 convolutional neural network Methods 0.000 description 18
- 230000006872 improvement Effects 0.000 description 10
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/547—Remote procedure calls [RPC]; Web services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于知识图谱和相似度网络的Web服务发现方法,主要包括如下步骤:使用Word2Vec、知识图谱嵌入和LDA分别获得词嵌入矩阵,实体嵌入矩阵和主题嵌入矩阵;对主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐;S300:将对齐后的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵作为CNN的输入以提取深层服务描述信息即用户服务的特征向量;计算用户服务的特征向量与所有已存服务的特征向量的相似度得分,并按照相似度得分,由高到低排序,输出相似性得分前top‑k所对应的已存服务作为发现结果。通过实验表明本发明方法在多种评估指标上均优于现有方法。
Description
技术领域
本发明涉及服务计算技术领域,特别涉及服务发现技术领域,具体涉及基于知识图谱和相似度网络的Web服务发现方法。
背景技术
Web服务发现是根据服务请求者的需求查找和定位现有Web服务的过程。服务提供商在向存储库注册服务时提供了许多相似性的功能描述,例如基于自然语言描述的服务信息,服务类别,服务提供者名称等。
现有的服务发现方法主要依赖于关键字匹配的信息检索技术。但是,由于用户检索的信息中的语法稀疏问题(关键字稀疏性),搜索引擎可能会返回大量不相关的服务。为了解决关键字稀疏问题,一些研究工作通过扩展搜索查询以实现更好的发现性能,尽管需求扩展在某种程度上改善了服务发现的结果,但是这些研究并未在能够更好地反映服务本身特征的服务描述信息上付出很大的努力。另一种方法是将具有类似功能的服务聚类在一起,减少发现空间以改善发现结果。Web服务的聚类方法主要依靠概率主题模型和启发式信息来挖掘服务功能特征。然而,当前基于概率主题模型(LDA)的方法主要基于词包统计模型,该模型主要从服务描述中提取显式特征,而忽略了服务描述中隐含的上下文信息和服务之间的深层逻辑关系。换句话说,由于服务描述是由短文本组成的,这将导致相当大的语义稀疏性问题,并对服务的特征表示产生不利影响,不利于进一步的基于相似度排序的服务发现方法。此外,对于人类来说,判断两个服务之间是否相似是一项自然的任务。然而对于算法来说,它并不总是能够成功地匹配包含相似元素的服务。服务被特征向量所描述,虽然可以使用余弦相似度直接度量相似性,但可能会忽略到数据集中可能存在的数据依赖关系,常规的度量方法可能无法捕捉到这种关系。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:服务发现中如何取服务描述文档的隐含上下文信息和如何使描述服务的特征向量更具人类感知特性。
为解决上述第一个技术问题,本发明采用如下技术方案:基于知识图谱和相似度网络的Web服务发现方法,主要包括如下步骤:
S100:使用Word2Vec获得用户服务的词嵌入矩阵,使用知识图谱嵌入获得用户服务的实体嵌入矩阵,使用LDA获得用户服务的主题嵌入矩阵;
S200:对S100得到的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐,使主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵三个特征向量的维度相同;
S300:将经过S200对齐后的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵作为CNN的输入以提取深层服务描述信息即用户服务的特征向量;
S400:将服务存储库中的所有已存服务通过S100-S300得到对应的已存服务的特征向量;
S500:计算用户服务的特征向量与所有已存服务的特征向量的相似度得分,并按照相似度得分,由高到低排序,输出相似性得分前top-k所对应的已存服务作为发现结果。
作为改进,所述S100中使用Word2Vec获得用户服务的词嵌入矩阵的方法为:
S111:对用于用户服务描述的服务描述文档进行预处理;
作为改进,所述S100中使用知识图谱嵌入获得用户服务的实体嵌入矩阵的方法为:
S121:使用实体链接将服务描述文档中的实体与提供商实体和知识图谱中的实体进行匹配,然后在知识图谱中构造一个包含该实体的子图;
作为改进,所述S400中将CNN提取深层服务描述信息即用户服务的特征向量的方法为:
作为改进,所述S500中计算用户服务的特征向量与已存服务的特征向量的相似度得分的方法为:使用神经网络来学习一个相似函数H(·)来计算用户服务的特征向量与已存服务的特征向量的相似性度得分Si,j,该神经网络由一组完全连接的层组成,激活函数设置为Sigmoid;
Sij=H(f(Si,Wf),f(Sj,Wf),WH) (9);
其中,WH是可学习参数。
作为改进,定义公式(10)所述的损失函数对相似函数H(·)的权重WH进行优化:
其中,sim(Ii,Ij)表示两个服务使用余弦相似度计算出的相似度得分,其中sxi,sj是学习到的相似度得分,δ是可优化的参数。
相对于现有技术,本发明至少具有如下优点:
本发明方法通过将服务描述中的实体和提供商实体链接到知识图谱,利用丰富的外部知识扩展服务描述文档的信息,同时结合Word2Vec模型和LDA模型获得高质量的特征向量,使用CNN提取服务描述的隐藏上下文信息以获得信息丰富的服务向量表示。为了更好地适应人类的认知,设计了一个相似度网络学习了一个相似度函数,用于计算服务之间的相似度,从而进行服务发现过程。在从ProgrammableWeb上爬取的真实数据集上进行的大量实验表明,本发明与基准方法相比有显著改进。
附图说明
图1为本发明方法的总体框架图。
图2为不同N值对应的精度。
图3为不同N值对应的召回。
图4为不同N值对应的F–Measure。
具体实施方式
下面对本发明作进一步详细说明。
本发明方法使用知识图谱来连接服务描述和规格中的实体以获得丰富的外部信息,从而增强服务描述的语义信息。使用卷积神经网络(CNN)提取服务的特征向量作为神经相似网络的输入,神经相似网络会学习一个相似度函数,用于计算服务和请求之间的相似度以支持服务发现过程。通过对ProgrammableWeb爬取的真实服务数据集的大量实验表明,就多种评估指标而言,KSN优于现有的Web服务发现方法。
基于知识图谱和相似度网络的Web服务发现方法,主要包括如下步骤:
S100:使用Word2Vec获得用户服务的词嵌入矩阵,使用知识图谱嵌入获得用户服务的实体嵌入矩阵,使用LDA获得用户服务的主题嵌入矩阵。
具体地,使用Word2Vec获得用户服务的词嵌入矩阵的方法为:
S111:为了获得服务描述的嵌入向量,首先对用于用户服务描述的服务描述文档进行预处理,包括分词,大小写转化,去除生僻字符等,这种预处理在本领域较为常见,属于现有技术。
S112:经过预处理后的每个服务描述文档中的每个单词通过训练好的Word2Vec模型将其投影为词向量则就是用户服务的词嵌入矩阵,其中d是词向量的维数。Word2Vec模型属于现有技术,本发明使用现有技术中已经训练好的Word2Vec模型模型,将已经训练好的Word2Vec模型转用到Web服务发现中。
知识图谱是由实体和关系组成的多关系图。每个边代表两个实体,它们之间通过特定的关系连接,具体来说是三元组的格式:(h,r,t)。h,r和t分别代表头实体,关系和尾实体,例如三元组(Google,CEO,SundarPichai)表示为Google的CEO是Sundar-Pichai。知识图谱嵌入的主要思想是将实体和关系嵌入到一个低纬空间,转换为低维向量,同时保留知识图谱的原始结构。
具体地,使用知识图谱嵌入获得用户服务的实体嵌入矩阵的方法为:
S121:使用实体链接将服务描述文档中的实体与提供商实体和知识图谱中的实体进行匹配,然后在知识图谱中构造一个包含该实体的子图;
图2展示了对服务描述中实体和提供商实体进行嵌入的过程。
TransD方法定义了两个向量空间:关系空间和实体空间,每个实体和关系由两个向量表示。第一个向量获取实体/关系的含义,另一个用于构造映射矩阵。例如,给定一个三元组(h,r,t),它的向量是h,hp,r,rp,t,tp,其中下标p表示投影向量。其中h,hp,t,tp∈Rn和r,rp∈Rm。对于每个三元组(h,r,t),设置两个映射矩阵Mrh,Mrt∈Rm×n将实体从实体空间投影到关系空间。它们的定义如下:
得分函数定义为:
L=∑(h,r,t)∈S∑(h′,r′,t′)∈S′[γ+fr(h,t)-fr(h′,t′)]+ (4);
其中γ是超参数,S和S′是正确三元组和不正确三元组的集合。
具体地,使用LDA获得用户服务的主题分布向量的方法为:采用LDA对服务描述文档建模,获得用户服务描述的主题嵌入矩阵Y为实体向量的维数。LDA潜在狄利克雷分配模型,是一种概率主题模型,可以识别文档中的主题并挖掘语料库中的隐藏信息,是现有技术,本发明将该LDA模型转用到Web服务发现中。
由于服务描述文档中主题的数量有限,并且主题向量的生成质量高度依赖于主题数目T的选择,因此在实验中,本发明将实体嵌入的维度设置为等同主题向量的维度以确保实验的可靠性。即Y=K=T。其中T为主题的数目,Web服务语料库中的单词数目为N,是一个长度为T的向量,表示描述文档D中所有主题的比例,ψ是一个长度为N的向量,表示所有单词的分布,α和β是先验参数,LDA以所有的描述文档为输入,利用Gibbs取样方法可以近似估计潜在变量ψ和Zi的后验分布。在训练过程中,建立马尔可夫链,并从中提取主题样本,改变链的状态进行更新。经过LDA对描述文档的建模后,本发明可以得到第i个文档的主题分布,表示
S200:对S100得到的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐,使主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵三个特征向量的维度相同。
具体地,将主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐的方法为:
S300:将经过S200对齐后的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵作为CNN的输入以提取深层服务描述信息即用户服务的特征向量。
具体地,将CNN提取深层服务描述信息即用户服务的特征向量的方法为:
S400:将服务存储库中的所有已存服务通过S100-S300得到对应的已存服务的特征向量。
具体地,计算用户服务的特征向量与已存服务的特征向量的相似度得分的方法为:使用神经网络来学习一个相似函数H(·)来计算用户服务的特征向量与已存服务的特征向量的相似性度得分Si,j,该神经网络由一组完全连接的层组成,激活函数设置为Sigmoid;
Sij=H(f(Si,Wf),f(Sj,Wf),WH) (9);
其中,WH是可学习参数。
作为改进,定义公式(10)所述的损失函数对相似函数H(·)的权重WH进行优化:
其中,sim(Ii,Ij)表示两个服务使用余弦相似度计算出的相似度得分,其中sxi,sj是学习到的相似度得分,而δ是可优化的参数。
S500:计算用户服务的特征向量与所有已存服务的特征向量的相似度得分,并按照相似度得分,由高到低排序,输出相似性得分前top-k所对应的已存服务作为发现结果。具体实施时,预设阈值,如果相似度得分高于定义的阈值,则称为正样本。继续评估,每次选择和重新排名,直到只有最好的样本在列表顶部。从收集到的最佳样本中选择最佳top-k作为发现结果。
实验分析:
数据集:
本发明的数据集是在Programmableweb上爬网的13884个服务API,包括API名称,API提供商信息,服务描述和所属类别。此外,本发明搜索数据集中所有发生的实体以及Microsoft Satori知识图谱中它们的一跳内的实体,并以高于0.9的置信度提取其中的(三元组),同时还删除了448个不会包含任何实体的服务。服务处理后的数据集描述如表1所示。最后,本发明随机选择70%的服务作为训练集,并随机选择30%的服务作为测试集。在实验中,本发明发现通过该划分获得的结果是最佳的。
表1预处理后的数据集统计
#API | 13436 |
#description | 13436 |
#entities | 15220 |
#relations | 24 |
#triples | 59071 |
“#”denotes“the number of”
评价指标
使用Precision,Recall,F-Measure评估本发明方法,这些指标定义为:
其中|R(c)|是与服务C相似的相关服务列表中的服务数量。|T(c)|是与测试查询C关联的排名服务的前n个列表中的服务数量。
对比实验
为了证明本发明的KSN的性能,本发明将KSN与以下方法进行了比较:
We-LDA使用从Word2vec模型中学到的词向量来增强LDA模型,使用K-means++算法对服务进行聚类,并将聚类结果用于服务发现。
T-CNN使用卷积神经网络提取文本的特征向量,并使用学习的特征向量直接计算文本之间的相似度。
DeepWSC是一个深度神经网络框架,它结合了递归神经网络和卷积神经网络来提取服务描述中的特征,并使用K-means++算法对服务进行聚类。
WSC-GCN首先以Web服务的名称,描述文字,标签为基本语料,根据单词共现和单词来构建“Words和Web服务描述文档”的异构图形网络,利用图卷积神经网络提取特征。
KSN:本发明方法结合知识图谱获取服务描述的外部信息,使用卷积神经网络提取服务特征向量,并设计用于服务发现的监督相似网络。
实验设置
为了证明知识图谱嵌入对于服务发现的有效性以及本发明方法的可行性,本发明进行了对比实验进行验证。由于T-CNN和DeepWSC都是深度学习方法,为了比较公平性,本发明将词向量维度统一设置为128,过滤器统一设置为50,使用SGD训练模型,对于WE-LDA,此外,采用随机分区工具Sklearn,将数据集分为70%训练集和30%的测试集。KSN模型的一些重要参数包括:Learning rate=0.02,Epochs=20,Dropout=0.5。所有的实验在IntelCore i5-6200U CPU上运行。
本发明中有两个可以学习的参数:主题数目K和δ,设K为50,δ为0.6。这与本发明的KSN主题设置的数量一致。
实验结果
首先本发明进行了消融实验,以显示融合知识图谱信息的重要性。本发明报告了服务发现的F-Measure,结果如表2所示。
表2不同KG嵌入和KG嵌入去除的结果比较
可以看出,该模型的F-Measure在删除知识嵌入后,显著降低。值得注意的是,在移除知识嵌入后,本发明将服务描述的主题向量和词向量进行了串联操作喂给神经相似网络。服务实体的知识图谱嵌入使F-Measure提高了14.5%。另外,当选择对子图2跳内实体进行嵌入时,性能有所下降,本发明分析这是因为2跳内实体的嵌入引入了部分与服务不相关的实体,导致知识噪音。
图2,图3和图4分别展示了通过每种方法获得的精度,召回和F-Measure。结果如下:
随着N值的增加,每种方法的召回和F-Measure逐渐增加,而准确性逐渐降低。这是因为随着N的值增加,这意味着将有更多服务无法与候选服务进行比较。本发明可以观察到,深度学习方法T-CNN,DeepWSC以及WSC-GCN和本发明的KSN优于WE-LDA。表明基于深度学习的方法得到的服务特征向量有助于提高服务发现性能。一个原因是它可以捕获服务描述文档的隐式上下文信息,并且可以更准确表示服务之间的关系。并且通过神经网络处理后的向量的语义程度要远高于LDA模型的服务主体概率分布。WSC-GCN在三个评价指标上都优于T-CNN和DeepWSC,表示将服务看作为网络的这种思想有助于提高服务发现性能,当N取5时,在F-Measure指标上,WSC-GCN相比于T-CNN和DeepWSC分别提升了14%和7%。本发明的方法KSN结合了知识图谱,以扩展服务描述文档的外部知识。相比于WSC-GCN,当N=5时,有接近5%的提升,一个原因是本发明实验所用的数据集比较小,WSC-GCN将服务建模为图的形式,会导致图的稀疏性。而KSN对小规模数据集有着更好适应性。当N=5时,服务发现的精度达到72%,远高于WE-LDA的44.6%,T-CNN的58.5%和DeepWSC的62%。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.基于知识图谱和相似度网络的Web服务发现方法,其特征在于,主要包括如下步骤:
S100:使用Word2Vec获得用户服务的词嵌入矩阵,使用知识图谱嵌入获得用户服务的实体嵌入矩阵,使用LDA获得用户服务的主题嵌入矩阵;
S200:对S100得到的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐,使主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵三个特征向量的维度相同;
S300:将经过S200对齐后的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵作为CNN的输入以提取深层服务描述信息即用户服务的特征向量;
S400:将服务存储库中的所有已存服务通过S100-S300得到对应的已存服务的特征向量;
S500:计算用户服务的特征向量与所有已存服务的特征向量的相似度得分,并按照相似度得分,由高到低排序,输出相似性得分前top-k所对应的已存服务作为发现结果。
7.如权利要求6所述的基于知识图谱和相似度网络的Web服务发现方法,其特征在于,所述S500中计算用户服务的特征向量与已存服务的特征向量的相似度得分的方法为:使用神经网络来学习一个相似函数H(·)来计算用户服务的特征向量与已存服务的特征向量的相似性度得分Si,j,该神经网络由一组完全连接的层组成,激活函数设置为Sigmoid;
Sij=H(f(Si,Wf),f(Sj,Wf),WH) (9);
其中,WH是可学习参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011092858.7A CN112214335B (zh) | 2020-10-13 | 2020-10-13 | 基于知识图谱和相似度网络的Web服务发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011092858.7A CN112214335B (zh) | 2020-10-13 | 2020-10-13 | 基于知识图谱和相似度网络的Web服务发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112214335A true CN112214335A (zh) | 2021-01-12 |
CN112214335B CN112214335B (zh) | 2023-12-01 |
Family
ID=74054057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011092858.7A Active CN112214335B (zh) | 2020-10-13 | 2020-10-13 | 基于知识图谱和相似度网络的Web服务发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112214335B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966096A (zh) * | 2021-04-07 | 2021-06-15 | 重庆大学 | 一种基于多任务学习的云服务发现方法 |
CN112989803A (zh) * | 2021-02-25 | 2021-06-18 | 成都增强视图科技有限公司 | 一种基于主题向量学习的实体链接模型 |
CN113377909A (zh) * | 2021-06-09 | 2021-09-10 | 平安科技(深圳)有限公司 | 释义分析模型训练方法、装置、终端设备及存储介质 |
CN114912637A (zh) * | 2022-05-21 | 2022-08-16 | 重庆大学 | 人机物知识图谱制造产线运维决策方法及系统、存储介质 |
CN115309912A (zh) * | 2022-08-08 | 2022-11-08 | 重庆大学 | 集成电驱结构的知识图谱构建方法、智能推理方法和快速设计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629010A (zh) * | 2018-05-07 | 2018-10-09 | 南京大学 | 一种基于主题和服务组合信息的web服务推荐方法 |
CN109255033A (zh) * | 2018-11-05 | 2019-01-22 | 桂林电子科技大学 | 一种基于位置服务领域的知识图谱的推荐方法 |
CN110717047A (zh) * | 2019-10-22 | 2020-01-21 | 湖南科技大学 | 一种基于图卷积神经网络的Web服务分类方法 |
CN110851620A (zh) * | 2019-10-29 | 2020-02-28 | 天津大学 | 一种基于文本嵌入和结构嵌入联合的知识表示方法 |
CN110941698A (zh) * | 2019-11-18 | 2020-03-31 | 陕西师范大学 | 一种基于bert下卷积神经网络的服务发现方法 |
-
2020
- 2020-10-13 CN CN202011092858.7A patent/CN112214335B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629010A (zh) * | 2018-05-07 | 2018-10-09 | 南京大学 | 一种基于主题和服务组合信息的web服务推荐方法 |
CN109255033A (zh) * | 2018-11-05 | 2019-01-22 | 桂林电子科技大学 | 一种基于位置服务领域的知识图谱的推荐方法 |
CN110717047A (zh) * | 2019-10-22 | 2020-01-21 | 湖南科技大学 | 一种基于图卷积神经网络的Web服务分类方法 |
CN110851620A (zh) * | 2019-10-29 | 2020-02-28 | 天津大学 | 一种基于文本嵌入和结构嵌入联合的知识表示方法 |
CN110941698A (zh) * | 2019-11-18 | 2020-03-31 | 陕西师范大学 | 一种基于bert下卷积神经网络的服务发现方法 |
Non-Patent Citations (1)
Title |
---|
柯健: "融合语义相似度的协同过滤服务推荐算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2020, no. 6 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989803A (zh) * | 2021-02-25 | 2021-06-18 | 成都增强视图科技有限公司 | 一种基于主题向量学习的实体链接模型 |
CN112966096A (zh) * | 2021-04-07 | 2021-06-15 | 重庆大学 | 一种基于多任务学习的云服务发现方法 |
CN112966096B (zh) * | 2021-04-07 | 2022-05-24 | 重庆大学 | 一种基于多任务学习的云服务发现方法 |
CN113377909A (zh) * | 2021-06-09 | 2021-09-10 | 平安科技(深圳)有限公司 | 释义分析模型训练方法、装置、终端设备及存储介质 |
CN113377909B (zh) * | 2021-06-09 | 2023-07-11 | 平安科技(深圳)有限公司 | 释义分析模型训练方法、装置、终端设备及存储介质 |
CN114912637A (zh) * | 2022-05-21 | 2022-08-16 | 重庆大学 | 人机物知识图谱制造产线运维决策方法及系统、存储介质 |
CN114912637B (zh) * | 2022-05-21 | 2023-08-29 | 重庆大学 | 人机物知识图谱制造产线运维决策方法及系统、存储介质 |
CN115309912A (zh) * | 2022-08-08 | 2022-11-08 | 重庆大学 | 集成电驱结构的知识图谱构建方法、智能推理方法和快速设计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112214335B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214335B (zh) | 基于知识图谱和相似度网络的Web服务发现方法 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN111832289B (zh) | 一种基于聚类和高斯lda的服务发现方法 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110321925B (zh) | 一种基于语义聚合指纹的文本多粒度相似度比对方法 | |
CN111522910B (zh) | 一种基于文物知识图谱的智能语义检索方法 | |
WO2018010365A1 (zh) | 一种跨媒体检索方法 | |
CN110309268B (zh) | 一种基于概念图的跨语言信息检索方法 | |
Wu et al. | Webiq: Learning from the web to match deep-web query interfaces | |
CN113076411B (zh) | 一种基于知识图谱的医疗查询扩展方法 | |
CN109784405B (zh) | 基于伪标签学习和语义一致性的跨模态检索方法及系统 | |
CN110727839A (zh) | 自然语言查询的语义解析 | |
CN114519351B (zh) | 一种基于用户意图嵌入图谱学习的主题文本快速检测方法 | |
CN103838833A (zh) | 基于相关词语语义分析的全文检索系统 | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
Landthaler et al. | Extending full text search for legal document collections using word embeddings | |
CN108959305A (zh) | 一种基于互联网大数据的事件抽取方法及系统 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
KR101976081B1 (ko) | 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램 | |
Dourado et al. | Bag of textual graphs (BoTG): A general graph‐based text representation model | |
CN114004236B (zh) | 融入事件实体知识的汉越跨语言新闻事件检索方法 | |
Trabelsi et al. | A hybrid deep model for learning to rank data tables | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN112836054A (zh) | 一种基于共生注意力表示学习的服务分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |