CN112347235B

CN112347235B - 规则库生成方法及装置

Info

Publication number: CN112347235B
Application number: CN202011222725.7A
Authority: CN
Inventors: 孟振南; 雷欣; 李志飞
Original assignee: Beijing Yufanzhi Information Technology Co ltd
Current assignee: Beijing Yufanzhi Information Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2024-05-24
Anticipated expiration: 2040-11-05
Also published as: CN112347235A

Abstract

公开了一种规则库生成方法及装置。该方法包括：接收请求文本；根据预设的相似度算法从请求文本库中查找与所述请求文本相似的多个历史请求文本；分别删除所述请求本文和所述多个历史请求文本中的停用词，生成多个参考请求文本；根据预设的训练模型对所述多个参考请求文本中的每一个参考请求文本进行训练，生成备选规则；确定所述备选规则的宽松度是否符合预设标准；如果所述备选规则的宽松度符合预设标准，则将所述备选规则添加至规则库中。

Description

规则库生成方法及装置

技术领域

本申请涉及通信技术领域，尤其涉及一种规则库生成方法及装置。

背景技术

在目前的人机对话应用中(比如，智能机器人)存在大量的规则系统。因为规则系统有很高的准确率，召回率比较低的特点，所以现有人机对话系统需要大量依赖于规则系统，而规则系统需要基于建立规则库来实现。目前，规则库中的规则都是由人工编写，非常不自动化，而且人工编写非常容易出错，也容易造成规则之间的冲突，且维护起来十分复杂，会消耗大量的人力物力。

发明内容

为解决上述问题，本发明提供一种规则库生成方法及装置，可自动生成包含大量高精度规则的规则库，从而节省人力、物力。

为了实现上述目的，在第一方面，本发明实施例提供了一种规则生成方法，该方法包括：

接收请求文本；

根据预设的相似度算法从请求文本库中查找与所述请求文本相似的多个历史请求文本；

分别删除所述请求本文和所述多个历史请求文本中的停用词，生成多个参考请求文本；

根据预设的训练模型对所述多个参考请求文本中的每一个参考请求文本进行训练，生成备选规则；

确定所述备选规则的宽松度是否符合预设标准；

如果所述备选规则的宽松度符合预设标准，则将所述备选规则添加至规则库中。

优选地，所述确定所述备选规则的宽松度是否符合预设标准，包括：将所述备选规则与垃圾请求文本集合中的垃圾请求文本进行匹配；如果匹配的垃圾请求文本数量大于第一预设数量，则确定所述备选规则的宽松度不符合预设标准；如果匹配的垃圾请求文本数量不大于第一预设数量，则确定所述备选规则的宽松度符合预设标准。

优选地，所述确定所述备选规则的宽松度是否符合预设标准，包括：将所述备选规则与多个不同领域的正常请求文本集合中的正常请求文本进行匹配；如果匹配的领域数量大于第二预设数量，则确定所述备选规则的宽松度不符合预设标准；如果匹配的领域数量不大于第二预设数量，则确定所述备选规则的宽松度符合预设标准。

优选地，所述方法还包括：如果所述备选规则的宽松度不符合预设标准，则将所述备选规则丢弃。

优选地，所述预设的训练模型包括：CRF模型、BERT模型或SVM模型。

在第二方面，本发明实施例提供了一种规则库生成装置，该装置包括：

接收单元，用于接收请求文本；

查找单元，用于根据预设的相似度算法从请求文本库中查找与所述请求文本相似的多个历史请求文本；

删除单元，用于分别删除所述请求本文和所述多个历史请求文本中的停用词，生成多个参考请求文本；

训练单元，用于根据预设的训练模型对所述多个参考请求文本中的每一个参考请求文本进行训练，生成备选规则；

确定单元，用于确定所述备选规则的宽松度是否符合预设标准；

处理单元，用于如果所述备选规则的宽松度符合预设标准，则将所述备选规则添加至规则库中。

优选地，所述确定单元具体用于：将所述备选规则与垃圾请求文本集合中的垃圾请求文本进行匹配；如果匹配的垃圾请求文本数量大于第一预设数量，则确定所述备选规则的宽松度不符合预设标准；如果匹配的垃圾请求文本数量不大于第一预设数量，则确定所述备选规则的宽松度符合预设标准。

优选地，所述确定单元具体用于：将所述备选规则与多个不同领域的正常请求文本集合中的正常请求文本进行匹配；如果匹配的领域数量大于第二预设数量，则确定所述备选规则的宽松度不符合预设标准；如果匹配的领域数量不大于第二预设数量，则确定所述备选规则的宽松度符合预设标准。

优选地，所述处理单元还用于如果所述备选规则的宽松度不符合预设标准，则将所述备选规则丢弃。

在第三方面，本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面所述的规则库生成方法。

在第四方面，本发明实施例提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面所述的规则库生成方法。

利用本发明提供的规则库生成方法及装置，在接收请求文本后，根据预设的相似度算法从请求文本库中查找与该请求文本相似的多个历史请求文本，然后删除请求本文和该多个历史请求文本中的停用词，生成多个参考请求文本，根据预设的训练模型对该多个参考请求文本中的每一个参考请求文本进行训练，生成备选规则，将生成的备选规则中宽松度符合预设标准的备选规则添加至规则库中，以自动生成包含大量高精度规则的规则库，从而节省人力、物力。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请示例性实施例提供的一种规则库生成方法的流程示意图；

图2为本申请示例性实施例提供的一种规则库生成装置的结构图；

图3为为本申请示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

图1为本申请实施例示出的一种规则库生成方法的流程示意图。该方法可应用于电子设备。本申请实施例提供的规则库生成方法可包括如下步骤：

步骤101，接收请求文本。

步骤102，根据预设的相似度算法从请求文本库中查找与该请求文本相似的多个历史请求文本。

在一个例子中，可预先创建一个离线的请求文本库，该请求文本库中包括不同用户的历史请求文本。基于此，在接收到请求文本后，可通过预设的相似度算法在请求文本库中查找出与当前请求文本相似的历史请求文本，组成一个大规模的请求文本集合，这样有利于训练出精度高的规则。

步骤103，分别删除该请求本文和该请求文本对应的请求文本集合中包括的多个历史请求文本中的停用词，生成多个参考请求文本。

在一个例子中，停用词包括但不限于：没有意义的符号、语气词等。需要说明的是，判断停用词的方法可采用现有技术，本发明对此不做任何限定。

步骤104，根据预设的训练模型对该多个参考请求文本中的每一个参考请求文本进行训练，生成备选规则。

其中，预设的训练模型可以包括：条件随机场(Conditional Random Field，CRF)模型、基于Transformer模型的双向编码表示(Bidirectional Encoder Representationfrom Transformers，BERT)模型或支持向量机(Support Vector Machine，SVM)模型。

在一个例子中，可以使用CRF或BERT模型，把参考请求文本中的专有名词(如人名、时间、地点、组织等)标注出来。这样参考请求文本就可以变成一个用专有名词被替换掉的规则。这样，将专有名词泛化生成的规则能够匹配更多的请求文本，增加了规则模型的召回。例如，参考请求文本为“播放好听的张三的abc”，在使用CRF或BERT模型对该参考请求文本训练后，可生成规则“播放好听的$(Singer)的$(Song)”。

进一步的，还可以使用BERT或SVM模型，把参考请求分到各种语义协议事先定义好的领域，匹配领域内的词典或知识图谱，这样，就可以把领域内的规则更加抽象化起来，似的规则泛化能力增强，增加了规则模型的召回。例如，“播放好听的$(Singer)的$(Song)”使用BERT或SVM模型训练后，可生成规则“$(Play)$(Feature)的$(Singer)的$(Song)”。

步骤105，确定该备选规则的宽松度是否符合预设标准。

如果该备选规则的宽松度符合预设标准，则执行步骤106；如果该备选规则的宽松度不符合预设标准，则执行步骤107。

在一个例子中，确定该备选规则的宽松度是否符合预设标准，包括：将备选规则与垃圾请求文本集合中的垃圾请求文本进行匹配；如果匹配的垃圾请求文本数量大于第一预设数量，则确定备选规则的宽松度不符合预设标准；如果匹配的垃圾请求文本数量不大于第一预设数量，则确定备选规则的宽松度符合预设标准。为方便描述，将本例中确定该备选规则的宽松度是否符合预设标准的方法称为第一确定方法。

具体的，预先创建一个的垃圾请求文本集合。该垃圾请求文本集合包括垃圾请求文本，即没有实际意义的请求文本，根据这类请求文本无法进行后续操作。其中，垃圾请求文本可以通过标注历史请求文本，或者自动生成，或者爬取网页的方式获得。在备选规则生成后，将备选规则与垃圾请求文本集合中的垃圾请求文本进行匹配，如果备选规则匹配的垃圾请求文本数量大于第一预设数量，则说明该备选规则过于宽松了，为了保证规则库中的规则的精准度，确定该备选规则的宽松度不符合预设标准，以便执行步骤107，将该备选规则丢弃。如果备选规则匹配的垃圾请求文本数量不大于第一预设数量，则说明该备选规则宽松合适，精准度较高，可确定该备选规则的宽松度符合预设标准，以便执行步骤106，将该备选规则添加至规则库中。

在另一个例子中，确定该备选规则的宽松度是否符合预设标准，包括：将备选规则与多个不同领域的正常请求文本集合中的正常请求文本进行匹配；如果匹配的领域数量大于第二预设数量，则确定该备选规则的宽松度不符合预设标准；如果匹配的领域数量不大于第二预设数量，则确定该备选规则的宽松度符合预设标准。为方便描述，将本例中确定该备选规则的宽松度是否符合预设标准的方法称为第二确定方法。

具体的，预先创建多个领域的正常请求文本集合。每个领域的正常请求文本集合包括该领域内的正常请求文本，即根据这类请求文本可进行后续操作。其中，正常请求文本可以通过标注历史请求文本获得。在备选规则生成后，将备选规则与多个不同领域的正常请求文本集合中的正常请求文本进行匹配，如果备选规则匹配的领域数量大于第二预设数量，则说明该备选规则过于宽松了，为了降低规则库中的规则发生冲突，确定该备选规则的宽松度不符合预设标准，以便执行步骤107，将该备选规则丢弃。如果备选规则匹配的领域数量不大于第二预设数量，则说明该备选规则宽松合适，不易产生冲突，可确定该备选规则的宽松度符合预设标准，以便执行步骤106，将该备选规则添加至规则库中。

需要说明的是，第一预设数量和第二预设数量可由人工根据经验预先进行配置。

需要说明的是，第一确定方法和第二确定方法可以分别应用，也可以同时应用。在第一确定方法和第二确定方法同时应用时，只有在匹配的垃圾请求文本数量不大于第一预设数量，且如果匹配的领域数量不大于第二预设数量的情况下，才确定该备选规则的宽松度符合预设标准；其他情况，均认为该备选规则的宽松度不符合预设标准。可以理解的是，本发明实施例并不限制第一确定方法和第二确定方法的应用顺序。

步骤106，将该备选规则添加至规则库中。

可以理解的是，本发明实施例中利用接收到的请求文本，便可得到多个备选规则，并对多个备选规则进行宽松度筛选，将宽松度符合预设标准的备选规则添加至规则库中，从而批量生成大规模的高精度的规则库。

步骤107，将该备选规则丢弃。

利用本发明实施例提供的规则库生成方法，在接收请求文本后，根据预设的相似度算法从请求文本库中查找与该请求文本相似的多个历史请求文本，然后删除请求本文和该多个历史请求文本中的停用词，生成多个参考请求文本，根据预设的训练模型对该多个参考请求文本中的每一个参考请求文本进行训练，生成备选规则，将生成的备选规则中宽松度符合预设标准的备选规则添加至规则库中，以自动生成包含大量高精度规则的规则库，从而节省人力、物力。

本发明实施例提供一种规则库生成装置，图2为该规则库生成装置的结构图。该装置应用于电子设备，如图2所示，该规则库生成装置包括：

接收单元201，用于接收请求文本；

查找单元202，用于根据预设的相似度算法从请求文本库中查找与所述请求文本相似的多个历史请求文本；

删除单元203，用于分别删除所述请求本文和所述多个历史请求文本中的停用词，生成多个参考请求文本；

训练单元204，用于根据预设的训练模型对所述多个参考请求文本中的每一个参考请求文本进行训练，生成备选规则；

确定单元205，用于确定所述备选规则的宽松度是否符合预设标准；

处理单元206，用于如果所述备选规则的宽松度符合预设标准，则将所述备选规则添加至规则库中。

优选地，确定单元205具体用于：将所述备选规则与垃圾请求文本集合中的垃圾请求文本进行匹配；如果匹配的垃圾请求文本数量大于第一预设数量，则确定所述备选规则的宽松度不符合预设标准；如果匹配的垃圾请求文本数量不大于第一预设数量，则确定所述备选规则的宽松度符合预设标准。

优选地，确定单元205具体用于：将所述备选规则与多个不同领域的正常请求文本集合中的正常请求文本进行匹配；如果匹配的领域数量大于第二预设数量，则确定所述备选规则的宽松度不符合预设标准；如果匹配的领域数量不大于第二预设数量，则确定所述备选规则的宽松度符合预设标准。

优选地，处理单元205还用于如果所述备选规则的宽松度不符合预设标准，则将所述备选规则丢弃。

利用本发明提供的规则库生成装置，在接收请求文本后，根据预设的相似度算法从请求文本库中查找与该请求文本相似的多个历史请求文本，然后删除请求本文和该多个历史请求文本中的停用词，生成多个参考请求文本，根据预设的训练模型对该多个参考请求文本中的每一个参考请求文本进行训练，生成备选规则，将生成的备选规则中宽松度符合预设标准的备选规则添加至规则库中，以自动生成包含大量高精度规则的规则库，从而节省人力、物力。

下面，参考图3来描述根据本申请实施例的电子设备11。

如图3所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的规则库生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入设备113可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图3中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的规则库生成方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的规则库生成方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种规则库生成方法，其特征在于，所述方法包括：

接收请求文本；

分别删除所述请求文本和所述多个历史请求文本中的停用词，生成多个参考请求文本；

确定所述备选规则的宽松度是否符合预设标准；

如果所述备选规则的宽松度符合预设标准，则将所述备选规则添加至规则库中；

其中，所述确定所述备选规则的宽松度是否符合预设标准，包括：

将所述备选规则与垃圾请求文本集合中的垃圾请求文本进行匹配；如果匹配的垃圾请求文本数量大于第一预设数量，则确定所述备选规则的宽松度不符合预设标准；如果匹配的垃圾请求文本数量不大于第一预设数量，则确定所述备选规则的宽松度符合预设标准；

将所述备选规则与多个不同领域的正常请求文本集合中的正常请求文本进行匹配；如果匹配的领域数量大于第二预设数量，则确定所述备选规则的宽松度不符合预设标准；如果匹配的领域数量不大于第二预设数量，则确定所述备选规则的宽松度符合预设标准。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

如果所述备选规则的宽松度不符合预设标准，则将所述备选规则丢弃。

3.根据权利要求1所述的方法，其特征在于，所述预设的训练模型包括：CRF模型、BERT模型或SVM模型。

4.一种规则库生成装置，其特征在于，所述装置包括：

接收单元，用于接收请求文本；

删除单元，用于分别删除所述请求文本和所述多个历史请求文本中的停用词，生成多个参考请求文本；

处理单元，用于如果所述备选规则的宽松度符合预设标准，则将所述备选规则添加至规则库中；

其中，确定单元具体用于：将所述备选规则与垃圾请求文本集合中的垃圾请求文本进行匹配；如果匹配的垃圾请求文本数量大于第一预设数量，则确定所述备选规则的宽松度不符合预设标准；如果匹配的垃圾请求文本数量不大于第一预设数量，则确定所述备选规则的宽松度符合预设标准；将所述备选规则与多个不同领域的正常请求文本集合中的正常请求文本进行匹配；如果匹配的领域数量大于第二预设数量，则确定所述备选规则的宽松度不符合预设标准；如果匹配的领域数量不大于第二预设数量，则确定所述备选规则的宽松度符合预设标准。

5.根据权利要求4所述的装置，其特征在于，所述处理单元还用于如果所述备选规则的宽松度不符合预设标准，则将所述备选规则丢弃。

6.根据权利要求4所述的装置，其特征在于，所述预设的训练模型包括：CRF模型、BERT模型或SVM模型。

7.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-3任一项所述的规则库生成方法。

8.一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-3任一项所述的规则库生成方法。