CN112214335A

CN112214335A - 基于知识图谱和相似度网络的Web服务发现方法

Info

Publication number: CN112214335A
Application number: CN202011092858.7A
Authority: CN
Inventors: 于扬; 邢镔; 刘兰徽; 姚娟; 曾骏
Original assignee: Chongqing Industrial Big Data Innovation Center Co ltd; Chongqing University
Current assignee: Chongqing Industrial Big Data Innovation Center Co ltd; Chongqing University
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-01-12
Anticipated expiration: 2040-10-13
Also published as: CN112214335B

Abstract

本发明涉及基于知识图谱和相似度网络的Web服务发现方法，主要包括如下步骤：使用Word2Vec、知识图谱嵌入和LDA分别获得词嵌入矩阵，实体嵌入矩阵和主题嵌入矩阵；对主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵进行矩阵对齐；S300：将对齐后的主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵作为CNN的输入以提取深层服务描述信息即用户服务的特征向量；计算用户服务的特征向量与所有已存服务的特征向量的相似度得分，并按照相似度得分，由高到低排序，输出相似性得分前top‑k所对应的已存服务作为发现结果。通过实验表明本发明方法在多种评估指标上均优于现有方法。

Description

基于知识图谱和相似度网络的Web服务发现方法

技术领域

本发明涉及服务计算技术领域，特别涉及服务发现技术领域，具体涉及基于知识图谱和相似度网络的Web服务发现方法。

背景技术

Web服务发现是根据服务请求者的需求查找和定位现有Web服务的过程。服务提供商在向存储库注册服务时提供了许多相似性的功能描述，例如基于自然语言描述的服务信息，服务类别，服务提供者名称等。

现有的服务发现方法主要依赖于关键字匹配的信息检索技术。但是，由于用户检索的信息中的语法稀疏问题(关键字稀疏性)，搜索引擎可能会返回大量不相关的服务。为了解决关键字稀疏问题，一些研究工作通过扩展搜索查询以实现更好的发现性能，尽管需求扩展在某种程度上改善了服务发现的结果，但是这些研究并未在能够更好地反映服务本身特征的服务描述信息上付出很大的努力。另一种方法是将具有类似功能的服务聚类在一起，减少发现空间以改善发现结果。Web服务的聚类方法主要依靠概率主题模型和启发式信息来挖掘服务功能特征。然而，当前基于概率主题模型(LDA)的方法主要基于词包统计模型，该模型主要从服务描述中提取显式特征，而忽略了服务描述中隐含的上下文信息和服务之间的深层逻辑关系。换句话说，由于服务描述是由短文本组成的，这将导致相当大的语义稀疏性问题，并对服务的特征表示产生不利影响，不利于进一步的基于相似度排序的服务发现方法。此外，对于人类来说，判断两个服务之间是否相似是一项自然的任务。然而对于算法来说，它并不总是能够成功地匹配包含相似元素的服务。服务被特征向量所描述，虽然可以使用余弦相似度直接度量相似性，但可能会忽略到数据集中可能存在的数据依赖关系，常规的度量方法可能无法捕捉到这种关系。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是：服务发现中如何取服务描述文档的隐含上下文信息和如何使描述服务的特征向量更具人类感知特性。

为解决上述第一个技术问题，本发明采用如下技术方案：基于知识图谱和相似度网络的Web服务发现方法，主要包括如下步骤：

S100：使用Word2Vec获得用户服务的词嵌入矩阵，使用知识图谱嵌入获得用户服务的实体嵌入矩阵，使用LDA获得用户服务的主题嵌入矩阵；

S200：对S100得到的主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵进行矩阵对齐，使主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵三个特征向量的维度相同；

S300：将经过S200对齐后的主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵作为CNN的输入以提取深层服务描述信息即用户服务的特征向量；

S400：将服务存储库中的所有已存服务通过S100-S300得到对应的已存服务的特征向量；

S500：计算用户服务的特征向量与所有已存服务的特征向量的相似度得分，并按照相似度得分，由高到低排序，输出相似性得分前top-k所对应的已存服务作为发现结果。

作为改进，所述S100中使用Word2Vec获得用户服务的词嵌入矩阵的方法为：

S111:对用于用户服务描述的服务描述文档进行预处理；

S112:经过预处理后的每个服务描述文档中的每个单词通过训练好的Word2Vec模型将其投影为词向量

则

就是用户服务的词嵌入矩阵，其中d是词向量的维数。

作为改进，所述S100中使用知识图谱嵌入获得用户服务的实体嵌入矩阵的方法为：

S121:使用实体链接将服务描述文档中的实体与提供商实体和知识图谱中的实体进行匹配，然后在知识图谱中构造一个包含该实体的子图；

S122:使用TransD的方法对实体执行表示学习，并获取其实体向量

选择实体的一跳内的所有实体一同进行嵌入作为服务实体嵌入矩阵

其中K是实体向量的维数。

作为改进，所述S100中使用LDA获得用户服务的主题分布向量的方法为：采用LDA对服务描述文档建模，获得用户服务描述的主题嵌入矩阵

Y为实体向量的维数。

作为改进，所述S200中将主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵进行矩阵对齐的方法为：给所述主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵分别乘以可训练的转移矩阵

进行矩阵对齐，使特征向量的维度相同。

作为改进，所述S400中将CNN提取深层服务描述信息即用户服务的特征向量的方法为：

将主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵作为CNN的输入，滤波器的大小为

并且卷积过程为：

其中I为输入，表示为特征图，大小为U×V，通道数为C，

为输出，大小为R×l×D，经过最大池化操作后，服务的特征向量为：

作为改进，所述S500中计算用户服务的特征向量与已存服务的特征向量的相似度得分的方法为：使用神经网络来学习一个相似函数H(·)来计算用户服务的特征向量与已存服务的特征向量的相似性度得分S_i,j，该神经网络由一组完全连接的层组成，激活函数设置为Sigmoid；

S_ij＝H(f(S_i,W_f),f(S_j,W_f),W_H) (9)；

其中，W_H是可学习参数。

作为改进，定义公式(10)所述的损失函数对相似函数H(·)的权重W_H进行优化：

其中，sim(I_i,I_j)表示两个服务使用余弦相似度计算出的相似度得分，其中s_xi,sj是学习到的相似度得分，δ是可优化的参数。

相对于现有技术，本发明至少具有如下优点：

本发明方法通过将服务描述中的实体和提供商实体链接到知识图谱，利用丰富的外部知识扩展服务描述文档的信息，同时结合Word2Vec模型和LDA模型获得高质量的特征向量，使用CNN提取服务描述的隐藏上下文信息以获得信息丰富的服务向量表示。为了更好地适应人类的认知，设计了一个相似度网络学习了一个相似度函数，用于计算服务之间的相似度，从而进行服务发现过程。在从ProgrammableWeb上爬取的真实数据集上进行的大量实验表明，本发明与基准方法相比有显著改进。

附图说明

图1为本发明方法的总体框架图。

图2为不同N值对应的精度。

图3为不同N值对应的召回。

图4为不同N值对应的F–Measure。

具体实施方式

下面对本发明作进一步详细说明。

本发明方法使用知识图谱来连接服务描述和规格中的实体以获得丰富的外部信息，从而增强服务描述的语义信息。使用卷积神经网络(CNN)提取服务的特征向量作为神经相似网络的输入，神经相似网络会学习一个相似度函数，用于计算服务和请求之间的相似度以支持服务发现过程。通过对ProgrammableWeb爬取的真实服务数据集的大量实验表明，就多种评估指标而言，KSN优于现有的Web服务发现方法。

基于知识图谱和相似度网络的Web服务发现方法，主要包括如下步骤：

S100：使用Word2Vec获得用户服务的词嵌入矩阵，使用知识图谱嵌入获得用户服务的实体嵌入矩阵，使用LDA获得用户服务的主题嵌入矩阵。

具体地，使用Word2Vec获得用户服务的词嵌入矩阵的方法为：

S111:为了获得服务描述的嵌入向量，首先对用于用户服务描述的服务描述文档进行预处理，包括分词，大小写转化，去除生僻字符等，这种预处理在本领域较为常见，属于现有技术。

则

就是用户服务的词嵌入矩阵，其中d是词向量的维数。Word2Vec模型属于现有技术，本发明使用现有技术中已经训练好的Word2Vec模型模型，将已经训练好的Word2Vec模型转用到Web服务发现中。

知识图谱是由实体和关系组成的多关系图。每个边代表两个实体，它们之间通过特定的关系连接，具体来说是三元组的格式：(h，r，t)。h，r和t分别代表头实体，关系和尾实体，例如三元组(Google，CEO，SundarPichai)表示为Google的CEO是Sundar-Pichai。知识图谱嵌入的主要思想是将实体和关系嵌入到一个低纬空间，转换为低维向量，同时保留知识图谱的原始结构。

具体地，使用知识图谱嵌入获得用户服务的实体嵌入矩阵的方法为：

其中K是实体向量的维数。

图2展示了对服务描述中实体和提供商实体进行嵌入的过程。

TransD方法定义了两个向量空间：关系空间和实体空间，每个实体和关系由两个向量表示。第一个向量获取实体/关系的含义，另一个用于构造映射矩阵。例如，给定一个三元组(h，r，t)，它的向量是h，h_p，r，r_p，t，t_p，其中下标p表示投影向量。其中h，h_p，t，t_p∈Rⁿ和r，r_p∈R^m。对于每个三元组(h，r，t)，设置两个映射矩阵M_rh，M_rt∈R^m×n将实体从实体空间投影到关系空间。它们的定义如下：

得分函数定义为：

其中，

h_ip，h_ip(i＝1,2,3)和关系r_p是投影相邻，h_i⊥和t_i⊥分别是头实体和尾实体的投影向量。所使用的损失函数定义为：

L＝∑_(h,r,t)∈S∑_{(h′,r′,t′)∈S′}[γ+f_r(h,t)-f_r(h′,t′)]₊ (4)；

其中γ是超参数,S和S′是正确三元组和不正确三元组的集合。

具体地，使用LDA获得用户服务的主题分布向量的方法为：采用LDA对服务描述文档建模，获得用户服务描述的主题嵌入矩阵

Y为实体向量的维数。LDA潜在狄利克雷分配模型，是一种概率主题模型，可以识别文档中的主题并挖掘语料库中的隐藏信息，是现有技术，本发明将该LDA模型转用到Web服务发现中。

由于服务描述文档中主题的数量有限，并且主题向量的生成质量高度依赖于主题数目T的选择，因此在实验中，本发明将实体嵌入的维度设置为等同主题向量的维度以确保实验的可靠性。即Y＝K＝T。其中T为主题的数目，Web服务语料库中的单词数目为N，

是一个长度为T的向量，表示描述文档D中所有主题的比例，ψ是一个长度为N的向量，表示所有单词的分布，α和β是先验参数，LDA以所有的描述文档为输入，利用Gibbs取样方法可以近似估计潜在变量

ψ和Z_i的后验分布。在训练过程中，建立马尔可夫链，并从中提取主题样本，改变链的状态进行更新。经过LDA对描述文档的建模后，本发明可以得到第i个文档的主题分布，表示

S200：对S100得到的主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵进行矩阵对齐，使主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵三个特征向量的维度相同。

具体地，将主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵进行矩阵对齐的方法为：

给所述主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵分别乘以可训练的转移矩阵

进行矩阵对齐，使特征向量的维度相同。因此，本发明可以获得转移的实体嵌入矩阵

词嵌入矩阵

和主题嵌入矩阵

其中,

S300：将经过S200对齐后的主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵作为CNN的输入以提取深层服务描述信息即用户服务的特征向量。

具体地，将CNN提取深层服务描述信息即用户服务的特征向量的方法为：

并且卷积过程为：

其中I为输入，表示为特征图，大小为U×V，通道数为C，

S400：将服务存储库中的所有已存服务通过S100-S300得到对应的已存服务的特征向量。

具体地，计算用户服务的特征向量与已存服务的特征向量的相似度得分的方法为：使用神经网络来学习一个相似函数H(·)来计算用户服务的特征向量与已存服务的特征向量的相似性度得分S_i,j，该神经网络由一组完全连接的层组成，激活函数设置为Sigmoid；

S_ij＝H(f(S_i,W_f),f(S_j,W_f),W_H) (9)；

其中，W_H是可学习参数。

其中，sim(I_i,I_j)表示两个服务使用余弦相似度计算出的相似度得分，其中s_xi,sj是学习到的相似度得分，而δ是可优化的参数。

S500：计算用户服务的特征向量与所有已存服务的特征向量的相似度得分，并按照相似度得分，由高到低排序，输出相似性得分前top-k所对应的已存服务作为发现结果。具体实施时，预设阈值，如果相似度得分高于定义的阈值，则称为正样本。继续评估，每次选择和重新排名，直到只有最好的样本在列表顶部。从收集到的最佳样本中选择最佳top-k作为发现结果。

实验分析：

数据集：

本发明的数据集是在Programmableweb上爬网的13884个服务API，包括API名称，API提供商信息，服务描述和所属类别。此外，本发明搜索数据集中所有发生的实体以及Microsoft Satori知识图谱中它们的一跳内的实体，并以高于0.9的置信度提取其中的(三元组)，同时还删除了448个不会包含任何实体的服务。服务处理后的数据集描述如表1所示。最后，本发明随机选择70％的服务作为训练集，并随机选择30％的服务作为测试集。在实验中，本发明发现通过该划分获得的结果是最佳的。

表1预处理后的数据集统计

#API	13436
		#description	13436
#entities	15220
		#relations	24
#triples	59071

“#”denotes“the number of”

评价指标

使用Precision，Recall，F-Measure评估本发明方法，这些指标定义为：

其中|R(c)|是与服务C相似的相关服务列表中的服务数量。|T(c)|是与测试查询C关联的排名服务的前n个列表中的服务数量。

对比实验

为了证明本发明的KSN的性能，本发明将KSN与以下方法进行了比较：

We-LDA使用从Word2vec模型中学到的词向量来增强LDA模型，使用K-means++算法对服务进行聚类，并将聚类结果用于服务发现。

T-CNN使用卷积神经网络提取文本的特征向量，并使用学习的特征向量直接计算文本之间的相似度。

DeepWSC是一个深度神经网络框架，它结合了递归神经网络和卷积神经网络来提取服务描述中的特征，并使用K-means++算法对服务进行聚类。

WSC-GCN首先以Web服务的名称，描述文字，标签为基本语料，根据单词共现和单词来构建“Words和Web服务描述文档”的异构图形网络，利用图卷积神经网络提取特征。

KSN：本发明方法结合知识图谱获取服务描述的外部信息，使用卷积神经网络提取服务特征向量，并设计用于服务发现的监督相似网络。

实验设置

为了证明知识图谱嵌入对于服务发现的有效性以及本发明方法的可行性，本发明进行了对比实验进行验证。由于T-CNN和DeepWSC都是深度学习方法，为了比较公平性，本发明将词向量维度统一设置为128，过滤器统一设置为50，使用SGD训练模型，对于WE-LDA，此外，采用随机分区工具Sklearn，将数据集分为70％训练集和30％的测试集。KSN模型的一些重要参数包括：Learning rate＝0.02，Epochs＝20，Dropout＝0.5。所有的实验在IntelCore i5-6200U CPU上运行。

本发明中有两个可以学习的参数：主题数目K和δ，设K为50，δ为0.6。这与本发明的KSN主题设置的数量一致。

实验结果

首先本发明进行了消融实验，以显示融合知识图谱信息的重要性。本发明报告了服务发现的F-Measure，结果如表2所示。

表2不同KG嵌入和KG嵌入去除的结果比较

可以看出，该模型的F-Measure在删除知识嵌入后，显著降低。值得注意的是，在移除知识嵌入后，本发明将服务描述的主题向量和词向量进行了串联操作喂给神经相似网络。服务实体的知识图谱嵌入使F-Measure提高了14.5％。另外，当选择对子图2跳内实体进行嵌入时，性能有所下降，本发明分析这是因为2跳内实体的嵌入引入了部分与服务不相关的实体，导致知识噪音。

图2，图3和图4分别展示了通过每种方法获得的精度，召回和F-Measure。结果如下：

随着N值的增加，每种方法的召回和F-Measure逐渐增加，而准确性逐渐降低。这是因为随着N的值增加，这意味着将有更多服务无法与候选服务进行比较。本发明可以观察到，深度学习方法T-CNN，DeepWSC以及WSC-GCN和本发明的KSN优于WE-LDA。表明基于深度学习的方法得到的服务特征向量有助于提高服务发现性能。一个原因是它可以捕获服务描述文档的隐式上下文信息，并且可以更准确表示服务之间的关系。并且通过神经网络处理后的向量的语义程度要远高于LDA模型的服务主体概率分布。WSC-GCN在三个评价指标上都优于T-CNN和DeepWSC，表示将服务看作为网络的这种思想有助于提高服务发现性能，当N取5时，在F-Measure指标上，WSC-GCN相比于T-CNN和DeepWSC分别提升了14％和7％。本发明的方法KSN结合了知识图谱，以扩展服务描述文档的外部知识。相比于WSC-GCN，当N＝5时，有接近5％的提升，一个原因是本发明实验所用的数据集比较小，WSC-GCN将服务建模为图的形式，会导致图的稀疏性。而KSN对小规模数据集有着更好适应性。当N＝5时，服务发现的精度达到72％，远高于WE-LDA的44.6％，T-CNN的58.5％和DeepWSC的62％。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于知识图谱和相似度网络的Web服务发现方法，其特征在于，主要包括如下步骤：

2.如权利要求1所述的基于知识图谱和相似度网络的Web服务发现方法，其特征在于，所述S100中使用Word2Vec获得用户服务的词嵌入矩阵的方法为：

S111:对用于用户服务描述的服务描述文档进行预处理；

则

就是用户服务的词嵌入矩阵，其中d是词向量的维数。

3.如权利要求1或2所述的基于知识图谱和相似度网络的Web服务发现方法，其特征在于，所述S100中使用知识图谱嵌入获得用户服务的实体嵌入矩阵的方法为：

其中K是实体向量的维数。

4.如权利要求3所述的基于知识图谱和相似度网络的Web服务发现方法，其特征在于，所述S100中使用LDA获得用户服务的主题分布向量的方法为：采用LDA对服务描述文档建模，获得用户服务描述的主题嵌入矩阵

Y为主题向量的维数。

5.如权利要求4所述的基于知识图谱和相似度网络的Web服务发现方法，其特征在于，所述S200中将主题嵌入矩阵，词嵌入矩阵和实体嵌入矩阵进行矩阵对齐的方法为：

进行矩阵对齐，使特征向量的维度相同。

6.如权利要求5所述的基于知识图谱和相似度网络的Web服务发现方法，其特征在于，所述S400中将CNN提取深层服务描述信息即用户服务的特征向量的方法为：

并且卷积过程为：

其中I为输入，表示为特征图，大小为U×V，通道数为C，

7.如权利要求6所述的基于知识图谱和相似度网络的Web服务发现方法，其特征在于，所述S500中计算用户服务的特征向量与已存服务的特征向量的相似度得分的方法为：使用神经网络来学习一个相似函数H(·)来计算用户服务的特征向量与已存服务的特征向量的相似性度得分S_i，j，该神经网络由一组完全连接的层组成，激活函数设置为Sigmoid；

S_ij＝H(f(S_i，W_f)，f(S_j，W_f)，W_H) (9)；

其中，W_H是可学习参数。

8.如权利要求7所述的基于知识图谱和相似度网络的Web服务发现方法，其特征在于，定义公式(10)所述的损失函数对相似函数H(·)的权重W_H进行优化：

其中，sim(I_i，I_j)表示两个服务使用余弦相似度计算出的相似度得分，其中s_xi，s_j是学习到的相似度得分，δ是可优化的参数。