CN111104803B - 语义理解处理方法、装置、设备及可读存储介质 - Google Patents
语义理解处理方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111104803B CN111104803B CN201911415186.6A CN201911415186A CN111104803B CN 111104803 B CN111104803 B CN 111104803B CN 201911415186 A CN201911415186 A CN 201911415186A CN 111104803 B CN111104803 B CN 111104803B
- Authority
- CN
- China
- Prior art keywords
- matching
- rule
- analyzed
- dictionary
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 238000013145 classification model Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供一种语义理解处理方法、装置、设备及可读存储介质,对待分析语句进行分词处理,为分词结果设置对应的标签;所述标签包括用于表征通用词性的词性标签和用于表征专用词性的词典标签;将所述标签代入所述待分析语句得到更新后的待分析语句,将所述更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果;其中,所述匹配规则包括意图和规则,所述规则至少包括通过分隔符标记连接分词形成的N元组;所述规则中的关键词用其对应的所述词典标签表示,所述规则中的非关键词用其本身表示。本发明实施例中的规则支持多种匹配方式,能够满足语义理解规则的泛化需求。
Description
技术领域
本发明涉及语义理解领域,尤其涉及一种语义理解处理方法、装置、设备及可读存储介质。
背景技术
使用自然语言与他人进行沟通和理解是人类智能的标志之一,也是对人工智能而言最具挑战性的能力之一。如何让机器理解自然语言中包含的语义,是人工智能技术发展过程中的重要工作。
现有实现语义理解的方法主要是基于神经模型的方法,基于神经网络的方案往往需要大量的训练数据来提高效果,同时,当模型效果存在问题时,需要重新训练模型,更新迭代慢,且可能对于某种句式的语义理解效果不好,并且在不同场景下用户的需求不同,很多情况下语句中词语的顺序并不影响语义,而模型却无法识别正确语义,需要用更多的样本进行训练,训练周期长。
发明内容
本发明实施例提供一种语义理解处理方法、装置、设备及可读存储介质,用以解决现有技术中语义理解方法泛化能力不强,以及构建规则人力成本高的问题。
第一方面,本发明实施例提供一种语义理解处理方法,包括:
对待分析语句进行分词处理,为分词结果设置对应的标签;所述标签包括用于表征通用词性的词性标签和用于表征专用词性的词典标签;
将所述标签代入所述待分析语句得到更新后的待分析语句,将所述更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果;
其中,所述匹配规则包括意图和规则,所述规则至少包括通过分隔符标记连接分词形成的N元组;所述规则中的关键词用其对应的所述词典标签表示,所述规则中的非关键词用其本身表示。
优选地,将所述更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果,包括:
将所述更新后的待分析语句中的所述关键词与预设的匹配规则进行匹配,获得中间结果;
将所述更新后的待分析语句中的所述非关键词与所述中间结果中的匹配规则进行匹配,获得所述匹配结果。
优选地,所述匹配规则包括多个,各匹配规则分别对应不同的匹配级别,且从高到低的各匹配级别所分别对应的匹配精度依次降低;
相应地,将所述更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果,包括:
根据所述匹配级别,按照从高到低的顺序依次将所述更新后的待分析语句与各匹配级别对应的匹配规则进行匹配,直到匹配成功,获得匹配结果。
优选地,所述按照从高到低的顺序依次将所述待分析语句和所述标签与各匹配级别对应的匹配规则进行匹配,直到匹配成功,获得匹配结果包括:
若所述待分析语句仅属于一个领域,则根据此领域内匹配成功的匹配规则对应的匹配得分,确定所述匹配结果;
若所述待分析语句属于多个领域,则根据各领域内匹配成功的匹配规则对应的匹配级别和匹配得分,确定所述匹配结果。
优选地,根据此领域内匹配成功的匹配规则对应的匹配得分,确定所述匹配结果,包括:
根据所述待分析语句中词性标签标注的个数、词典标签标注的个数,以及所述待分析语句与各匹配成功的匹配规则的匹配的长度,确定匹配成功的各匹配规则分别对应的匹配得分,根据所述匹配得分确定所述匹配结果;
所述根据各领域内匹配成功的匹配规则对应的匹配级别,确定所述匹配结果,包括:
比较各领域内匹配成功的匹配规则对应的匹配级别;
若匹配级别不相同,则将具有最高匹配级别对应的匹配规则作为所述匹配结果;
若匹配级别相同,则根据所述待分析语句中词性标签标注的个数、词典标签标注的个数,以及所述待分析语句与各匹配成功的匹配规则的匹配的长度,确定匹配成功的各匹配规则分别对应的匹配得分,根据所述匹配得分确定所述匹配结果。
优选地,所述方法还包括:
对收集的所有语料进行领域分类,应用各领域对应的分词系统对所述语料进行分词处理;
应用与所述领域对应的领域词典为分词结果设置词典标签;
利用所述分词结果中的动词,确定所述语料的意图;
根据所述意图、所述分词结果以及所述词典标签生成匹配规则。
优选地,根据所述意图、所述分词结果以及所述词典标签生成匹配规则,包括:
根据所述意图、所述分词结果以及所述词典标签生成一级匹配规则;
基于所述一级匹配规则,利用泛化字段生成多级匹配规则;
其中,所述泛化字段包括:
第一字段,用于以不允许插入数据的“+”符号作为分隔符标记连接分词形成N元组,以及,用于以允许插入数据的“-”符号作为分隔符标记连接分词形成N元组;
第二字段,用于以允许各词典标签改变顺序的“~”符号作为分隔符标记连接分词形成N元组;
词长束缚字段,用于表征待分析语句的总长度与规则词数之间的最大差值,以及,表征两个词典标签之间插入词的最大个数;
词典链表字段,用于表征各领域对应的领域词典中各词典标签之间的关系,所述关系包括:等于、包含和组合。
第二方面,本发明实施例提供一种语义理解处理装置,包括:
标签设置单元,用于对待分析语句进行分词处理,为分词结果设置对应的标签;所述标签包括用于表征通用词性的词性标签和用于表征专用词性的词典标签;
规则匹配单元,将所述标签代入所述待分析语句得到更新后的待分析语句,将所述更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果;
其中,所述匹配规则包括意图和规则,所述规则至少包括通过分隔符标记连接分词形成的N元组;所述规则中的关键词用其对应的所述词典标签表示,所述规则中的非关键词用其本身表示。
第三方面,本发明实施例提供一种语义理解处理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的语义理解处理方法、装置、设备及可读存储介质,通过支持多种匹配方式的规则匹配过程,能够满足词语顺序不同而语义一致语句的泛化需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明语义理解处理方法实施例流程图;
图2为本发明语义理解处理方法中预设匹配规则的生成流程图;
图3为本发明语义理解处理装置实施例结构示意图;
图4为本发明语义理解处理设备实施例结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的一个实施例中,提供一种语义理解处理方法,详细结合附图1进行说明,语义理解处理方法包括:
S100、对待分析语句进行分词处理,为分词结果设置对应的标签。
收到用户请求待进行语义理解的待分析语句后,首先对输入的用户请求分发,通过分类模型进行领域分类,判断输入的语句所属的领域。该分类模型可以是现有的分类模型,也可以是构建规则时训练得到的分类模型。
如果输入的用户请求不属于任何领域,则可以输入归入闲聊类,闲聊类为非任务型领域,如问候类聊天内容。
在确定了输入的语句属于某个特定的领域之后,则应用所述领域对应的分词系统对所述待分析语句进行分词处理。分词后的句子可以看作是一系列有序词语组成的分词结果。上述分词系统可以使用现有的分词系统进行分词处理,例如字符串匹配、全切分、字构词等方式。
在分词处理完成后,需要对句子中的词语设置对应的标签。每个词语都有相应的通用词性,如名词,动词,副词,介词,助词等;每个词语也可以有具体的专用词性,如音乐领域的词汇可能包含歌手、歌曲、乐队、风格等。因此,本实施例中提到的标签包括用于表征通用词性的词性标签和用于表征专用词性的词典标签。
应用通用词典为分词结果设置所述词性标签具体为:分词后的句子由一系列有序词语组成,每个词语都有相应的属性,如名词,动词,副词,介词,助词等,名词可细分人名、公司等通用结果,然后应用通用词典对分词得到的句子中词语的通用词性,用所得的通用词性为该词语设置词性标签。该类标签特点为适用所有领域,不易产生歧义。具体可以为:对于完成分词处理后的待分析语句,首先使用待分析语句中的各个分词查找通用词典,得到分词对应的匹配词性,将得到的匹配词性设置为相应分词的词性标签。
应用与所述领域对应的领域词典为分词结果设置所述词典标签具体可以为:使用各个领域词典对请求中待分析语句的名词和动词标注细粒度的词典标签,如音乐领域可能包含歌手、歌曲、乐队、风格等,对于不可枚举词典,使用NER模型方案对待分析语句进行标签标注,如地点、非著名人名等。相比于词性标签,词典标签赋予了词语更具体的标签含义。当对待分析语句中的各个分词标注了词性标签后,再使用待分析语句中的各个分词查找待分析语句对应的领域词典,如果分词在领域词典中查找到对应的匹配词,将该领域词典中的匹配词作为该分词的词典标签。
此外,在为分词结果设置对应的标签后,可以使用模型对冲突的词性标签或词典标签进行去重,如刘德华既是歌手,又是歌曲的情况下,利用语言模型确定其是歌手或者歌曲的可能性,语言模型为衡量一句话通顺程度的模型,输入是一串带标签的句子,输出是个0-1之间的得分,分值的高低表明语句的通顺程度,删除得分低于预设值的句子,实现去重;如我想听刘德华的歌,刘德华既被标记为artist,又被标记为song,原语句改写我想听song的歌和我想听artist的歌,明显前者不通顺,可以删掉。
进一步地,执行完本步骤后,待分析语句中部分分词仅标注有词性标签,部分分词同时标注有词性标签和词典标签。
S200、将所述标签代入所述待分析语句得到更新后的待分析语句,将所述更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果。
具体地,本步骤将步骤S100中输出的为待分析语句所设置的标签带入待分析语句中,形成更新后的待分析语句,并将更新后的待分析语句与规则库中的不同规则进行匹配,得到匹配结果。待分析语句的意图即为与其匹配成功的规则的意图。
具体地,步骤S100中留存下来的标签如果存在词典标签,则优先使用词典标签构建固定句式;如果没有词典标签,则使用词性标签构建固定句式。
此外,本步骤中提到的每条匹配规则均包括意图和规则。其中意图的作用是对语句的语义分类;规则的作用是匹配语义所需的词并对关键词进行抽取。本实施例中的关键词的定义如下:对于更换语句中某个词后,如果在特定场景下语句的语义变化,则该词为关键词。
规则至少包括通过分隔符标记连接分词形成的N元组,所述规则中的关键词用其(关键词)对应的所述词典标签表示,所述规则中的非关键词用其(非关键词)本身表示。
举例说明:intent=pause:would you please stop it,此语句表明该语句意图为停止。
另一举例说明intent=ask_weather:请问[本周末](date)[旧金山](location)的天气,此语句表明意图为ask_weather,其中有几个关键词,分别是地址和日期规则中的关键词可以被词典标签代替,表明为某个集合,如该句所示中,可以将地址和日期以词典标签代替,如intent=ask_weather:请问[date0:date][location0:%location%]的天气,其中date0与location0为词典集合。对于词典标签所代替的规则中的关键词,可以使用该词典标签中的任何词汇匹配该关键词。
而对于非关键词,可以使用其本身进行匹配,上句的规则改变为intent=ask_weather:[请问]+[date0:date]+[location0:%location%]+[的]+[天气]。
本实施例中的语义理解处理方法支持多种规则匹配方式,能够满足语义理解规则的泛化需求。
在本发明的一个实施例中,将所述标签代入所述待分析语句得到更新后的待分析语句,将所述更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果,进一步包括:
将所述更新后的待分析语句中的所述关键词与预设的匹配规则进行匹配,获得中间结果;
将所述更新后的待分析语句中的所述非关键词与所述中间结果中的匹配规则进行匹配,获得所述匹配结果。
在语义理解系统中,所构建的规则库中可能包含大量的规则,而输入语义理解系统中的待分析语句也会包含多个分词,如果将单个待分析语句整体与规则库中的每一条规则一一匹配,对于语义理解系统的运行效率会提出极大的挑战。
在本实施例中,将所述更新后的待分析语句与预设的匹配规则进行匹配的过程具体分为两个步骤:关键词匹配和非关键词匹配。
具体地,更新后的待分析语句是将标签代入原始获取的待分析语句得到的,因此,标签数据指示了待分析语句中的关键词信息。首先将待分析语句中的关键词与规则库中的匹配规则进行匹配,判断规则库中哪些规则能与待分析语句中的关键词信息实现匹配,将匹配成功的匹配规则作为中间结果。中间结果包含的匹配规则的集合是整个语义理解系统规则库中匹配规则集合的子集。
进一步地,将待分析语句中的非关键词与中间结果中包含的匹配规则进行匹配,判断中间结果中哪些规则能与待分析语句中的非关键词信息实现匹配,将匹配成功的匹配规则作为本实施例最终的匹配结果。
本实施例中将所述更新后的待分析语句与预设的匹配规则进行匹配的过程分为了两个步骤来执行。在关键词匹配步骤中,利用关键词与规则库中匹配规则的匹配,对大量无法匹配的匹配规则进行了筛选,使得在非关键词匹配步骤中需要去尝试匹配的匹配规则数量大大减少,减少了规则匹配过程的计算量,从而提高了语义理解的效率。
在本发明的一个实施例中,将更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果,进一步包括:
根据所述匹配级别,按照从高到低的顺序依次将更新后的待分析语句与各匹配级别对应的匹配规则进行匹配,直到匹配成功,获得匹配结果。
在本实施例中,匹配规则包括多个,各匹配规则分别对应不同的匹配级别,且从高到低的各匹配级别所分别对应的匹配精度依次降低。
具体而言,本实施例中提出一种多级规则体系,根据规则的精度及误吸率进行分级,例如可以将规则分为四级规则,按精度从高到低分为一、二、三、四级别,其中一级规则的精度最高,误吸收率最低,以此类推。各级规则不限制具体的精度,只需要上一级规则精确度更高于下一级即可,根据实际使用情况可以对每一条规则进行级别调整。
本实施例中的语义理解处理方法使用多级文件方式,解决了不同场景下用户对语义理解不同精度的需求。
在本发明的一个实施例中,按照从高到低的顺序依次将所述待分析语句和所述标签与各匹配级别对应的匹配规则进行匹配,直到匹配成功,进一步包括:
若所述待分析语句仅属于一个领域,则根据此领域内匹配成功的匹配规则对应的匹配级别和匹配得分,确定所述匹配结果;
若所述待分析语句属于多个领域,则根据各领域内匹配成功的匹配规则对应的匹配级别和匹配得分,确定所述匹配结果。
系统首先按领域进行规则文件分类,如音乐、天气、导航等。每个领域有自己的规则系统文件。规则系统文件包含以下几个部分,(1)词典文件,(2)规则词典文件,(3)分级规则文件,(4)词典特征关系文件。
其中,词典文件主要是收集对应领域同一类别可枚举词语集,如歌手、歌曲等。规则词典文件主要用于获取对应领域同一类别不可枚举词语集,如时间、地点等信息。两者共同组成了用于设置待分析语句中分词的词典标签的领域词典。对于经过分词处理后的待分析语句中的分词,通过查找对应领域的领域词典,即词典文件和规则词典文件,来设置分词对应的词典标签。
分级规则文件中的分级规则前文已有描述,是指本发明中所生成的所有规则构成的规则库。对待分析语句进行规则匹配时,需要在规则库中查找对应的规则与待分析语句进行匹配,得到匹配结果。
词典特征文件是指,系统基于所有的词典定义了各种词典标签之间的关系,包括等于、包含、组合等。当某规则中的关键词X对应的词典标签为词典A时,如果词典特征文件中存在词典A包含词典B的关系,那么词典A和词典B中的词都可以与关键词X进行匹配。如person词典可能包含artist,singer,student等,对于规则intent=eat:[请问]+[person]+[喜欢吃]+[fruit]。对于artist,student词典内的词同样可以匹配。
具体地,对于一条待分析语句,根据该待分析语句的语义丰富程度,可能会出现该待分析语句属于一个领域或多个领域两种情况。如果待分析语句属于一个领域,在进行规则匹配的过程中可能会出现待分析语句匹配到该领域多条匹配规则的情况;待分析语句属于多个领域,在进行规则匹配的过程中可能会出现待分析语句匹配到多个领域中的多条匹配规则的情况。而对于待分析语句属于一个领域或多个领域两种情况,从匹配到的多条匹配规则中确定出匹配结果的方式有所不同。
以下分别对于两种情况如何从匹配到的多条匹配规则中确定出匹配结果进行说明。
若所述待分析语句仅属于一个领域,则根据此领域内匹配成功的匹配规则对应的匹配级别和匹配得分,确定所述匹配结果。可以理解的是,一个属于一个领域的待分析语句可能匹配上该领域不同级别的多个匹配规则,此时需要根据匹配规则的级别来判断匹配结果;该待分析语句也可能匹配上该领域多个同级别的规则,此时需要根据匹配规则的匹配分数来判断匹配结果。
具体地,根据此领域内匹配成功的匹配规则对应的匹配级别和匹配得分,确定所述匹配结果,包括:
比较该领域内匹配成功的匹配规则对应的匹配级别;
若匹配级别不相同,则将具有最高匹配级别对应的匹配规则作为所述匹配结果;
若匹配级别相同,则根据所述待分析语句中词性标签标注的个数、词典标签标注的个数,以及所述待分析语句与各匹配成功的匹配规则的匹配的长度,确定匹配成功的各匹配规则分别对应的匹配得分,根据所述匹配得分确定所述匹配结果。
若所述待分析语句属于多个领域,则根据各领域内匹配成功的匹配规则对应的匹配级别和匹配得分,确定所述匹配结果。可以理解的是,对于一个属于多个领域的待分析语句可能匹配上多个领域不同级别的多个匹配规则,此时需要根据匹配规则的级别来判断匹配结果;该待分析语句也可能匹配上多个领域多个同级别的规则,此时需要根据匹配规则的匹配分数来判断匹配结果。
具体地,所述根据各领域内匹配成功的匹配规则对应的匹配级别,确定所述匹配结果,包括:
比较各领域内匹配成功的匹配规则对应的匹配级别;
若匹配级别不相同,则将具有最高匹配级别对应的匹配规则作为所述匹配结果;
若匹配级别相同,则根据所述待分析语句中词性标签标注的个数、词典标签标注的个数,以及所述待分析语句与各匹配成功的匹配规则的匹配的长度,确定匹配成功的各匹配规则分别对应的匹配得分,根据所述匹配得分确定所述匹配结果。
上述描述中,若匹配级别不相同,则将具有最高匹配级别对应的匹配规则作为所述匹配结果,具体而言,越高级别的匹配规则,表示匹配规则结果越精确,越能够实现更好的语义理解效果。
其中,若匹配级别相同,则确定匹配成功的各匹配规则分别对应的匹配得分,根据所述匹配得分确定所述匹配结果。具体而言,同级规则如果有多个结果,按词性、标注、匹配到的长度等综合结果给出最优结果。词性标注词一般只是名词,动词,副词等,范围比较大,词典标注词范围小一点,比较明确,如歌手,歌名,示例性的,假设匹配到的规则中,词典标注词个数为n,词性标注词个数为m,非关键词的个数为o,头部未匹配到的词个数为p,中间未匹配到的词q,尾部未匹配到的词数为r,k1到k6为系数,则匹配得分为:
k1*n2/(m+n+o)+k2*m2/(m+n+o)+k3*o2/(m+n+o)-k4*p/(m+n+o)-k5*q/(m+n+o)-k6*r/(m+n+o)。
其中公式中的平方是为了提高变化带来的权重,如果全都是线性的效果会比较差。
本实施例中的语义理解处理方法在匹配到多条规则的情况下,通过比较匹配成功的多条匹配规则之间的匹配级别、以及同级别规则之间的匹配得分,实现匹配规则的最优选择。
在又一种实现方式中,为了较少不必要的低精度匹配过程,在待分析语句成功匹配上高匹配级别的规则后,可以不再进行低匹配级别规则的匹配,这种情况下,若所述待分析语句仅属于一个领域,则可以直接根据此领域内匹配成功的匹配规则对应的匹配得分,确定所述匹配结果,具体可以为:根据所述待分析语句中词性标签标注的个数、词典标签标注的个数,以及所述待分析语句与各匹配成功的匹配规则的匹配的长度,确定匹配成功的各匹配规则分别对应的匹配得分,根据所述匹配得分确定所述匹配结果;对于待分析语句属于多个领域,仍可能出现不同领域匹配成功的各匹配规则的匹配级别不同的情况,因此,仍然可以根据各领域内匹配成功的匹配规则对应的匹配级别和匹配得分,确定所述匹配结果。
在本发明的一个实施例中,将所述更新后的待分析语句与预设的匹配规则进行匹配中,所述预设的匹配规则可以是预先生成的,具体的生成过程详细结合附图2进行说明。
S210、对收集的所有语料进行领域分类,应用各领域对应的分词系统对所述语料进行分词处理。
收集某个领域相关语料,第一阶段可以人工对收集的所有语料进行领域分类,在有足够的领域数据后,根据已有的语料训练领域分类模型,这时可以使用训练好的领域分类模型进行分类,无需再人工分类了;然后使用已有分词软件对语料进行分词。
S220、应用与所述领域对应的领域词典为分词结果设置词典标签。
在分词之后使用词典对分词结果进行校准合并,如分词结果将刘德和华分为两个词,词典中有刘德华,则将刘德华合并,分词将某个词标位动词,实际上词典中是个名词,则进行标注修正,保证每个词有正确的词典标签。
S230、利用所述分词结果中的动词,确定所述语料的意图。
利用分词结果中的动词,判定语料意图,如播放/查看等,或者已训练好的意图分类模型进行意图判定,在初始阶段,根据动词来对语料的意图类型进行人工标记,在获得了一定训练集后,再利用已经标注过的语料对意图分类模型进行训练,模型分类精度高于初始方法后,可以使用意图分类模型进行意图分类。
S240、根据所述意图、所述分词结果以及所述词典标签生成匹配规则。
进一步地,本步骤具体包括:
根据所述意图、所述分词结果以及所述词典标签生成一级匹配规则。
根据前文实施例中描述的匹配规则的构成,匹配规则包括意图和规则。而规则是由语句的分词结果和词典标签所生成的。
例如对于意图为“问天气”、分词结果为“请问/本周末/旧金山/的/天气”、相关词典标签为date和location的待分析语句,所生成的一级规则为:intent=ask_weather:[请问]+[date0:date]+[location0:%location%]+[的]+[天气]。
基于所述一级匹配规则,利用泛化字段生成多级匹配规则。
本步骤中提到的泛化字段举例说明如下。
假设原始的句式为:
intent=ask_weather:[请问]+[date0:date]+[location0:%location%]+[的]+[天气]。
为了进一步提高规则的泛化能力,本实施例提供了四种泛化字段,分别为:
第一字段,用于以不允许插入数据的“+”符号作为分隔符标记连接分词形成N元组,以及用于以允许插入数据的“-”符号作为分隔符标记连接分词形成N元组。
上句匹配规则转化为:
intent=ask_weather:[请问]-[date0:date]-[location0:%location%]-[的]-[天气]。用户当询问“请问可以查下明天旧金山的的天气吗”,也可被规则所匹配,以“-”连接的分词中间可以插入数据,只要分词的顺序与规则一致即可。
第二字段,用于以允许各词典标签改变顺序的“~”符号作为分隔符标记连接分词形成N元组,则上述匹配可以为如下形式。
intent=ask_weather:[请问]+[date0:date]~[location0:%location%]+[的]+[天气],当用户请求“请问旧金山明天的天气”,时间与地点顺序改变,也可被规则识别。
词长束缚字段,用于表征待分析语句的总长度与规则词数之间的最大差值,以及,表征两个词典标签之间插入词的最大个数,如规则intent=ask_weather:len+=5win=+2[请问]~[date0:date]~[location0:%location%]+[的]+[天气]。
该规则表明被匹配的语句总长度不能比规则词数(当前5)多5个,date与location之前最多可以插入两个词,例如语义请求“请问一下旧金山明天的天气怎么样”,可以与规则相匹配。
词典链表字段,用于表征各领域对应的领域词典中各词典标签之间的关系,所述关系包括但不限于:等于、包含和组合,对于规则intent=eat:[请问]+[person]+[喜欢吃]+[fruit]。对于artist,student词典内的词同样可以匹配。
根据上述泛化字段,可以举例说明如何由一条一级规则生成具有更好泛化能力的二三四级规则。
一级规则主要规则以“+”组合为主,同时请求语句与规则词数差别不会太大,如下规则:
intent=ask_weather:len=+3[‘weather’]+[‘like’]+[date0:%date%]+[‘in’]+[location0:%location%]。
将一级规则中“+”替换为“-”,同时修改词长束缚,作为二级规则,
intent=ask_weather:len=+5win=+2[‘weather’]-[‘like’]-[date0:%date%]-[‘in’]-[location0:%location%]。
更进一步,讲上句中连接词改为“~”,其泛化能力进一步提升,作为第三级规则如下所示:
intent=ask_weather:len=+10win=+4[‘weather’]~[‘like’]~[date0:%date%]~[‘in’]~[location0:%location%]。
第四级别则在上一级别上进一步泛化,通过增加匹配长度,扩展词典范围,如location0扩展为NER,表明名词即可,date具体到time。
intent=ask_weather:len=+15win=+6[‘weather’]~[‘like’]~[time:%date%]~[‘in’]~[NER:%location%]。
一般的规则系统,所有规则都需要人为添加,本实施例的规则系统可以在已有词典的基础上自动生成一级规则,下一级规则可以根据上一级规则自动生成而来,而后根据实际需要,可以根据用户需求自主调整。
在本发明的一种实施例中,提供一种语义理解处理装置,详细结合附图3进行说明,语义理解处理装置包括:
标签设置单元31,用于对待分析语句进行分词处理,为分词结果设置对应的标签;
本实施例中的语义理解处理装置,其标签设置单元31具体包含分词和设置标签两项功能。在获取到用户请求中的待分析语句后,标签设置单元31首先对待分析语句进行分词处理。对于语义理解领域而言,在获取一段文本后,通常情况下分词处理作为一种文本处理方式,是语义理解的基础。本实施例中的分词处理可以使用常见的字符串匹配、全切分、字构词等方式。
在分词处理完成后,标签设置单元31对句子中的词语设置对应的标签。每个词语都有相应的词性,如名词,动词,副词,介词,助词等;每个词语也可以有具体的语义,如音乐领域的词汇可能包含歌手、歌曲、乐队、风格等。因此,本实施例中提到的标签包括用于表征通用词性的词性标签和用于表征专用词性的词典标签。
规则匹配单元32,将所述标签代入所述待分析语句得到更新后的待分析语句,将所述更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果。
在标签设置单元31设置好标签后,规则匹配单元32将标签带入原句中,形成固定句式,通过根据各领域规则将固定句式于规则库中的不同规则进行匹配,得到匹配结果。
具体地,在标签设置单元31设置好的标签如果存在词典标签,则优先使用词典标签构建固定句式;如果没有词典标签,则使用词性标签构建固定句式。
此外,本实施例中提到的每条匹配规则均包括意图和规则。其中意图的作用是对语句分类;规则的作用是匹配语义所需的词并对关键词进行抽取。本实施例中的关键词的定义如下:对于更换语句中某个词后,如果在特定场景下语句的语义变化,则该词为关键词。
所述匹配规则包括意图和规则,所述规则至少包括通过分隔符标记连接分词形成的N元组;所述规则中的关键词用其对应的所述词典标签表示,所述规则中的非关键词用其本身表示。
本实施例中的语义理解处理装置支持多种规则匹配方式,能够满足词语顺序不同而语义一致语句的泛化需求。
下面对本发明实施例提供的一种语义理解处理设备进行描述,详细结合附图4进行说明,语义理解处理装置包括:
处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行例如如下方法:对待分析语句进行分词处理,为分词结果设置对应的标签;所述标签包括用于表征通用词性的词性标签和用于表征专用词性的词典标签;将所述标签代入所述待分析语句得到更新后的待分析语句,将所述更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果;其中,所述匹配规则包括意图和规则,所述规则至少包括通过分隔符标记连接分词形成的N元组;所述规则中的关键词用其对应的所述词典标签表示,所述规则中的非关键词用其本身表示。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:对待分析语句进行分词处理,为分词结果设置对应的标签;所述标签包括用于表征通用词性的词性标签和用于表征专用词性的词典标签;将所述标签代入所述待分析语句得到更新后的待分析语句,将所述更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果;其中,所述匹配规则包括意图和规则,所述规则至少包括通过分隔符标记连接分词形成的N元组;在所述N元组中,所述规则中的关键词用其对应的所述词典标签表示,所述规则中的非关键词用其本身表示。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种语义理解处理方法,其特征在于,包括:
对待分析语句进行分词处理,为分词结果设置对应的标签;所述标签包括用于表征通用词性的词性标签和用于表征专用词性的词典标签;
将所述标签代入所述待分析语句得到更新后的待分析语句,将所述更新后的待分析语句中的关键词与预设的匹配规则进行匹配,获得中间结果;将所述更新后的待分析语句中的非关键词与所述中间结果中的匹配规则进行匹配,获得匹配结果;
其中,所述匹配规则包括意图和规则,所述规则至少包括通过分隔符标记连接分词形成的N元组,所述规则中的关键词用其对应的所述词典标签表示,所述规则中的非关键词用其本身表示;
所述预设的匹配规则的生成步骤包括:
对收集的所有语料进行领域分类,应用各领域对应的分词系统对所述语料进行分词处理;
应用与所述领域对应的领域词典为分词结果设置词典标签;
利用所述分词结果中的动词,确定所述语料的意图;
根据所述意图、所述分词结果以及所述词典标签生成匹配规则;
所述根据所述意图、所述分词结果以及所述词典标签生成匹配规则,包括:
根据所述意图、所述分词结果以及所述词典标签生成一级匹配规则;
基于所述一级匹配规则,利用泛化字段生成多级匹配规则。
2.根据权利要求1所述的语义理解处理方法,其特征在于,所述匹配规则包括多个,各匹配规则分别对应不同的匹配级别,且从高到低的各匹配级别所分别对应的匹配精度依次降低;
相应地,将所述更新后的待分析语句与预设的匹配规则进行匹配,获得匹配结果,包括:
根据所述匹配级别,按照从高到低的顺序依次将所述更新后的待分析语句与各匹配级别对应的匹配规则进行匹配,直到匹配成功,获得匹配结果。
3.根据权利要求2所述的语义理解处理方法,其特征在于,所述按照从高到低的顺序依次将所述待分析语句和所述标签与各匹配级别对应的匹配规则进行匹配,直到匹配成功,获得匹配结果包括:
若所述待分析语句仅属于一个领域,则根据此领域内匹配成功的匹配规则对应的匹配得分,确定所述匹配结果;
若所述待分析语句属于多个领域,则根据各领域内匹配成功的匹配规则对应的匹配级别和匹配得分,确定所述匹配结果。
4.根据权利要求3所述的语义理解处理方法,其特征在于,根据此领域内匹配成功的匹配规则对应的匹配得分,确定所述匹配结果,包括:
根据所述待分析语句中词性标签标注的个数、词典标签标注的个数,以及所述待分析语句与各匹配成功的匹配规则的匹配的长度,确定匹配成功的各匹配规则分别对应的匹配得分,根据所述匹配得分确定所述匹配结果;
所述根据各领域内匹配成功的匹配规则对应的匹配级别,确定所述匹配结果,包括:
比较各领域内匹配成功的匹配规则对应的匹配级别;
若匹配级别不相同,则将具有最高匹配级别对应的匹配规则作为所述匹配结果;
若匹配级别相同,则根据所述待分析语句中词性标签标注的个数、词典标签标注的个数,以及所述待分析语句与各匹配成功的匹配规则的匹配的长度,确定匹配成功的各匹配规则分别对应的匹配得分,根据所述匹配得分确定所述匹配结果。
5.根据权利要求1至4任一项所述的语义理解处理方法,其特征在于,所述泛化字段包括:
第一字段,用于以不允许插入数据的“+”符号作为分隔符标记连接分词形成N元组,以及,用于以允许插入数据的“-”符号作为分隔符标记连接分词形成N元组;
第二字段,用于以允许各词典标签改变顺序的“~”符号作为分隔符标记连接词分词形成N元组;
词长束缚字段,用于表征待分析语句的总长度与规则词数之间的最大差值,以及,表征两个词典标签之间插入词的最大个数;
词典链表字段,用于表征各领域对应的领域词典中各词典标签之间的关系,所述关系包括:等于、包含和组合。
6.一种语义理解处理装置,其特征在于,包括:
标签设置单元,用于对待分析语句进行分词处理,为分词结果设置对应的标签;所述标签包括用于表征通用词性的词性标签和用于表征专用词性的词典标签;
规则匹配单元,将所述标签代入所述待分析语句得到更新后的待分析语句,将所述更新后的待分析语句中的关键词与预设的匹配规则进行匹配,获得中间结果;将所述更新后的待分析语句中的非关键词与所述中间结果中的匹配规则进行匹配,获得匹配结果;
其中,所述匹配规则包括意图和规则,所述规则至少包括通过分隔符标记连接分词形成的N元组;所述规则中的关键词用其对应的所述词典标签表示,所述规则中的非关键词用其本身表示;
所述预设的匹配规则的生成步骤包括:
对收集的所有语料进行领域分类,应用各领域对应的分词系统对所述语料进行分词处理;
应用与所述领域对应的领域词典为分词结果设置词典标签;
利用所述分词结果中的动词,确定所述语料的意图;
根据所述意图、所述分词结果以及所述词典标签生成匹配规则;
所述根据所述意图、所述分词结果以及所述词典标签生成匹配规则,包括:
根据所述意图、所述分词结果以及所述词典标签生成一级匹配规则;
基于所述一级匹配规则,利用泛化字段生成多级匹配规则。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述语义理解处理方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述语义理解处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911415186.6A CN111104803B (zh) | 2019-12-31 | 2019-12-31 | 语义理解处理方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911415186.6A CN111104803B (zh) | 2019-12-31 | 2019-12-31 | 语义理解处理方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111104803A CN111104803A (zh) | 2020-05-05 |
CN111104803B true CN111104803B (zh) | 2024-02-13 |
Family
ID=70425744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911415186.6A Active CN111104803B (zh) | 2019-12-31 | 2019-12-31 | 语义理解处理方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104803B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380327B (zh) * | 2020-11-09 | 2022-03-04 | 天翼爱音乐文化科技有限公司 | 一种冷启动的槽填充方法、系统、装置及存储介质 |
CN113010593B (zh) * | 2021-04-02 | 2024-02-13 | 北京智通云联科技有限公司 | 非结构化文本的事件抽取方法、系统及装置 |
CN114860942B (zh) * | 2022-07-05 | 2022-10-04 | 北京云迹科技股份有限公司 | 文本意图分类方法、装置、设备及存储介质 |
CN116244496B (zh) * | 2022-12-06 | 2023-12-01 | 山东紫菜云数字科技有限公司 | 一种基于产业链的资源推荐方法 |
CN117953875B (zh) * | 2024-03-27 | 2024-06-28 | 成都启英泰伦科技有限公司 | 一种基于语义理解的离线语音命令词存储方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN107291783A (zh) * | 2016-04-12 | 2017-10-24 | 芋头科技(杭州)有限公司 | 一种语义匹配方法及智能设备 |
CN108446278A (zh) * | 2018-07-17 | 2018-08-24 | 弗徕威智能机器人科技(上海)有限公司 | 一种基于自然语言的语义理解系统及方法 |
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN109739964A (zh) * | 2018-12-27 | 2019-05-10 | 北京拓尔思信息技术股份有限公司 | 知识数据提供方法、装置、电子设备和存储介质 |
KR20190131270A (ko) * | 2018-05-16 | 2019-11-26 | (주)아이브릭스 | 질의자 의도를 이해하기 위한 구문 규칙 자동생성 장치 및 방법 |
-
2019
- 2019-12-31 CN CN201911415186.6A patent/CN111104803B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN107291783A (zh) * | 2016-04-12 | 2017-10-24 | 芋头科技(杭州)有限公司 | 一种语义匹配方法及智能设备 |
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN109388793A (zh) * | 2017-08-03 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
KR20190131270A (ko) * | 2018-05-16 | 2019-11-26 | (주)아이브릭스 | 질의자 의도를 이해하기 위한 구문 규칙 자동생성 장치 및 방법 |
CN108446278A (zh) * | 2018-07-17 | 2018-08-24 | 弗徕威智能机器人科技(上海)有限公司 | 一种基于自然语言的语义理解系统及方法 |
CN109739964A (zh) * | 2018-12-27 | 2019-05-10 | 北京拓尔思信息技术股份有限公司 | 知识数据提供方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111104803A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104803B (zh) | 语义理解处理方法、装置、设备及可读存储介质 | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
KR100533810B1 (ko) | 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
Bikel et al. | An algorithm that learns what's in a name | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
US6188976B1 (en) | Apparatus and method for building domain-specific language models | |
CN106776564B (zh) | 一种基于知识图谱的语义识别方法及系统 | |
Archer et al. | Guidelines for normalising Early Modern English corpora: Decisions and justifications | |
WO2024131111A1 (zh) | 一种智能写作方法、装置、设备及非易失性可读存储介质 | |
JP2001523019A (ja) | テキストの本文の談話構造の自動認識 | |
US11531693B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN113779062A (zh) | Sql语句生成方法、装置、存储介质及电子设备 | |
CN111553160A (zh) | 一种获取法律领域问句答案的方法和系统 | |
Tasharofi et al. | Evaluation of statistical part of speech tagging of Persian text | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
Chen et al. | Automatic key term extraction from spoken course lectures using branching entropy and prosodic/semantic features | |
CN117709355B (zh) | 一种提高大语言模型训练效果的方法、装置及介质 | |
Zupan et al. | How to tag non-standard language: Normalisation versus domain adaptation for slovene historical and user-generated texts | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
CN113076740A (zh) | 政务服务领域的同义词挖掘方法及装置 | |
CN112765977A (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
CN113157887A (zh) | 知识问答意图识别方法、装置、及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |