CN113111160A - 同义句匹配方法、装置、设备和存储介质 - Google Patents
同义句匹配方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113111160A CN113111160A CN202110438449.6A CN202110438449A CN113111160A CN 113111160 A CN113111160 A CN 113111160A CN 202110438449 A CN202110438449 A CN 202110438449A CN 113111160 A CN113111160 A CN 113111160A
- Authority
- CN
- China
- Prior art keywords
- question
- user
- template
- intention
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 11
- 238000002372 labelling Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种同义句匹配方法、装置、设备和存储介质,通过短语匹配方法,确定用户输入的用户问句对应的多个候选标准问句,再根据意图角色标注模型和用户问句,生成用户问句的用户问句模板,进而根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句。其中,意图角色标注模型用于从问句中确定意图角色,意图角色包括问句中用于指示信息的词或短语,也即是说,用户问句模板是根据意图角色标注模型和用户问句自动生成的,与传统的采用人工归纳的方法相比,提高了得到用户问句模板的效率,进而提高了根据用户问句模板和标准问句模板,确定目标标准问句的效率。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种同义句匹配方法、装置、设备和存储介质。
背景技术
自然语言处理作为人工智能的一个重要分支,被广泛应用在各个领域中。在一些场景下,需要对用户输入的用户问句进行自然语言处理,进而向用户返回用户期待的答案。例如,通过人工智能客服回复用户问句的场景即是一种常见的使用自然语言处理的场景。
同义句通常是指句法结构不同而命题意义相同的一组句子,例如“重疾险与医疗险的区别?”和“医疗保险和重疾险不是一种保险吗”这两个句子就是同义句,不同的用户咨询人工智能客服时可能会输入多个上述同义句,人工智能客服回复用户的用户问句时,通常需要为用户问句匹配到最接近的标准问句,再将最接近的标准问句对应的回答作为用户问句的回答反馈给用户。在具体的为用户问句匹配标准问句时,通常采用人工归纳的方法确定用户问句对应的用户问句模板,进而根据用户问句模板与标准问句模板的匹配程度,确定用户问句对应的标准问句。
然而,通过传统方法确定用户问句对应的标准问句的效率低。
发明内容
本申请提供一种同义句匹配方法、装置、系统、设备和存储介质,能够提高确定用户问句对应的标准问句的效率。
第一方面,本申请实施例提供一种同义句匹配方法,该方法包括:
通过短语匹配方法,确定用户输入的用户问句对应的多个候选标准问句;
根据意图角色标注模型和用户问句,生成用户问句的用户问句模板;意图角色标注模型用于从问句中确定意图角色;意图角色包括问句中用于指示信息的词或短语;
根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句。
在一个实施例中,上述根据意图角色标注模型和用户问句,生成用户问句的用户问句模板,包括:
采用意图角色标注模型对用户问句进行结构分解,得到用户问句的多个意图角色;
根据预设顺序和各意图角色,生成用户问句模板,预设顺序用于指示用户问句模板中的各句子成分的顺序。
在一个实施例中,上述根据预设顺序和各意图角色,生成用户问句模板,包括:
对用户问句中的各意图角色进行聚类,获得意图角色归属的类型信息;
将各类型信息按照预设顺序进行排列,得到用户问句模板。
在一个实施例中,上述根据预设顺序和各意图角色,生成用户问句模板,包括:
按照预设顺序将各意图角色排序,生成用户问句模板。
在一个实施例中,上述根据预设顺序和各意图角色,生成用户问句模板,包括:
去除各意图角色中指示命名实体的目标意图角色,得到剩余的意图角色;
将各剩余的意图角色按照预设顺序进行排列,得到用户问句模板。
在一个实施例中,上述根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句之前,该方法还包括:
根据意图角色标注模型和各候选标准问句,生成各候选标准问句对应的标准问句模板。
在一个实施例中,上述根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句,包括:
按照用户问句和各候选标准问句之间的匹配度,确定各候选标准问句的候选顺序;
按照候选顺序,依次确定用户问句模板与各候选标准问句的标准问句模板是否匹配;
若匹配,将当前的候选标准问句作为目标标准问句;
若不匹配,确定用户问句模板与当前的候选标准问句的标准问句模板是否为模板对;若是模板对,将当前的候选标准问句作为目标标准问句。
第二方面,一种同义句匹配装置,该装置包括:
第一确定模块,用于第一确定模块,用于通过短语匹配方法,确定用户输入的用户问句对应的多个候选标准问句;
生成模块,用于根据意图角色标注模型和用户问句,生成用户问句的用户问句模板;意图角色标注模型用于从问句中确定意图角色;意图角色包括问句中用于指示信息的词或短语;
第二确定模块,用于根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句。
第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。
上述同义句匹配方法、装置、设备和存储介质,通过短语匹配方法,确定用户输入的用户问句对应的多个候选标准问句,再根据意图角色标注模型和用户问句,生成用户问句的用户问句模板,进而根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句。其中,意图角色标注模型用于从问句中确定意图角色,意图角色包括问句中用于指示信息的词或短语,也即是说,用户问句模板是根据意图角色标注模型和用户问句自动生成的,与传统的采用人工归纳的方法相比,提高了得到用户问句模板的效率,进而提高了根据用户问句模板和标准问句模板,确定用户问句对应的目标标准问句的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一个实施例中同义句匹配系统的示意图;
图2为本申请一个实施例中同义句匹配方法的流程示意图;
图3为本申请另一个实施例中同义句匹配方法的流程示意图;
图4为本申请另一个实施例中同义句匹配方法的流程示意图
图5为本申请另一个实施例中同义句匹配方法的流程示意图
图6为本申请另一个实施例中同义句匹配方法的流程示意图
图7为本申请一个实施例中提供的同义句匹配装置的结构示意图;
图8为本申请一个实施例中电子设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请实施例中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本实施例所提供的同义句匹配方法,可以适用于如图1所示的应用环境中。其中,电子设备100可以确定用户问句对应的标准问句110。电子设备100可以但不限于为智能手机、平板电脑、笔记本电脑、台式电脑或个人数字助理等具有数据处理功能的电子设备,本实施例对电子设备100的具体形式不做限定。本申请实施例提供的同义句匹配方法,常常应用在通过智能客服回复用户问题的场景中,包括并不限于保险问答场景、医疗问诊场景、售前服务场景、售后服务场景和投诉咨询场景。在通过智能客服回复用户问句的场景中,通常用户会输入用户问句,智能客服根据用户问句向用户返回对应的答复语句。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
需要说明的是,下述方法实施例的执行主体也可以是同义句匹配装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为上述电子设备的部分或者全部。下述方法实施例以执行主体为电子设备为例进行说明。
图2为本申请一个实施例提供的同义句匹配方法的流程示意图。本实施例涉及的是如何提高确定用户问句对应的标准问句的效率的具体过程。如图2所示,该方法包括以下步骤:
S101、通过短语匹配方法,确定用户输入的用户问句对应的多个候选标准问句。
其中,短语匹配方法是将待匹配句子中的字与目标句子中的字逐一对比,并根据对比结果确定两个句子的匹配度的方法,通常相同得的字越多,匹配度越高。通常会采用Elasticsearch工具来进行短语匹配,Elasticsearch工具是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,可以应用在在Java、.NET(C#)、PHP、Python、ApacheGroovy、Ruby和许多其他语言中。Elasticsearch工具可以作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch工具能够实时搜索,具有稳定,可靠,快速,安装使用方便的特点。
用户问句是用户输入的问句,其可以是用户通过文字输入的问句,也可以是用户通过语音输入的问句,本申请实施例对此不做限制。标准问句可以是预先存储在数据库中的问句,其中,每个标准问句具有对应的回复语句。当用户输入用户问句之后,电子设备可以采用短语匹配方法,将用户问句与本地存储数据库存储的语句进行对比,将匹配度高于预设匹配度阈值的语句作为用户问句对应的多个标准问句;也可以通过访问服务器上的数据库,将用户问句与服务器上的数据库中存储的语句进行对比,将匹配度高于预设匹配度阈值的语句作为用户问句对应的多个标准问句;本申请实施例对此不作限制。
S102、根据意图角色标注模型(Intent Role Labeling,IRL)和用户问句,生成用户问句的用户问句模板;意图角色标注模型用于从问句中确定意图角色;意图角色包括问句中用于指示信息的词或短语。
意图角色标注模型可以用于从问句中确定意图角色,意图角色包括问句中用于指示信息的词或短语,意图角色通常可以分为槽位(Slot)、背景(Background)、动作(Action)、状况(Problem)和疑问(Question)类型的意图角色。例如,问句“我的信用卡明天到期,我想还款,但找不到页面,怎么办?”中,“信用卡”为槽位类型的意图角色,“明天到期”为背景类型的意图角色,“我想还款”为动作类型的意图角色,“找不到页面”为状况类型的意图角色,“怎么办”为疑问类型的意图角色。用户问句模板可以是指句子成分按照设定顺序排列的语句,其中,用户问句模板中使用的词语可以与用户问句相同,也可以相似,本申请实施例对此不做限制。用户问句模板中所使用的词语的数量可以与用户问句中词语的数量相同,也可以不同,本申请实施例对此不作限制。句子成分可以是指句子的组成成分,也叫句法成分。在句子中,词与词之间有一定的组合关系,按照不同的关系,可以把句子分为不同的组成成分。句子成分由词或词组充当。例如,现代汉语里一般的句子成分有八种,即主语、谓语、宾语、动语,定语、状语,补语和中心语。英语中句子的组成部分,包括主语、谓语、宾语、表语、定语、状语、补足语和同位语八种。
S103、根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句。
其中,标准问句模板可以是指句子成分按照设定顺序排列的语句,其中,标准问句模板中使用的词语可以与标准问句相同,也可以相似,本申请实施例对此不做限制。标准问句模板中所使用的词语的数量可以与标准问句中词语的数量相同,也可以不同,本申请实施例对此不作限制。候选标准问句的标准问句模板可以是根据意图角色标注模型和候选标准问句生成的,也可以是采用人工归纳的方法对候选标准问句进行归纳确定的,本申请实施例对此不作限制。电子设备可以根据存储的标准问句生成对应的标准问句模板,并将生成的标准问句模板存储,当需要根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句,直接调用存储的标准问句模板;也可以在接收到获取标准问句对应的标准问句模板的启动指令时,确定候选标准问句的标准问句模板;本申请实施例对此不做限制。需要说明的是,标准问句与标准问句模板可以存储在电子设备上,也可以存储在服务器上,本申请实施例对此不做限制。
电子设备可以根据用户问句模板和各候选标准问句的标准问句模板的匹配度,将与用户问句模板匹配度最高的标准问句模板对应的候选标准问句,作为目标标准问句。目标标准问句即为用户问句的同义句。标准问句通常对应回复语句,在确定了用户问句的目标标准问句时,可以将目标标准问句对应的回复语句作为用户问句的回复语句,反馈给用户。
上述同义句匹配方法,通过短语匹配方法,确定用户输入的用户问句对应的多个候选标准问句,再根据意图角色标注模型和用户问句,生成用户问句的用户问句模板,进而根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句。其中,意图角色标注模型用于从问句中确定意图角色,意图角色包括问句中用于指示信息的词或短语,也即是说,用户问句模板是根据意图角色标注模型和用户问句自动生成的,与传统的采用人工归纳的方法相比,提高了得到用户问句模板的效率,进而提高了根据用户问句模板和标准问句模板,确定用户问句对应的目标标准问句的效率。
图3为本申请另一个实施例提供的同义句匹配方法的流程示意图,本实施例涉及的是如何根据意图角色标注模型和用户问句,生成用户问句的用户问句模板的具体过程,如图3所示,上述S102“根据意图角色标注模型和用户问句,生成用户问句的用户问句模板”,一种可能的实现方法包括:
S201、采用意图角色标注模型对用户问句进行结构分解,得到用户问句的多个意图角色。
S202、根据预设顺序和各意图角色,生成用户问句模板,预设顺序用于指示用户问句模板中的各句子成分的顺序。
其中,预设顺序可以用于指示用户问句模板中各句子成分的顺序,在采用意图角色标注模型对用户问句进行结构分解,得到用户问句的多个意图角色之后,可以根据预设顺序,调整各意图角色的顺序,得到用户问句模板。
在具体的根据预设顺序和各意图角色,生成用户问句模板的过程中,可以通过下述三个实施例来生成。下面通过具体的实施例来详细描述。
可选的,上述S202“根据预设顺序和各意图角色,生成用户问句模板”可以通过图4所示实施例实现,包括:
S301、对用户问句中的各意图角色进行聚类,获得意图角色归属的类型信息。
类型信息可以是指对意图角色聚类概括得到的信息,例如,“重疾险”和“医疗险”可以聚类为“保险”,“是一样的吗”和“不是一种吗?”可以聚类为“是否相同?”在具体的对用户问句中各意图角色进行聚类时,可以调用预存的意图角色和类型信息之间的对应关系,确定意图角色归属的类型信息。
S302、将各类型信息按照预设顺序进行排列,得到用户问句模板。
上述同义句匹配方法,通过对用户问句中的各意图角色进行聚类,获得意图角色归属的类型信息,进而将各类型信息按照预设顺序进行排列,得到用户问句模板,避免了用户问句模板中意图角色表达的信息过于分散,导致无法与标准问句模板匹配的情况。
可选的,上述S202“根据预设顺序和各意图角色,生成用户问句模板”一种可能的实现方法包括:按照预设顺序将各意图角色排序,生成用户问句模板。
上述同义句匹配方法,直接按照预设顺序将各意图角色排序,生成用户问句模板,提高了生产用户问句模板的效率,进而提高了根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句的效率。
可选的,上述S202“根据预设顺序和各意图角色,生成用户问句模板”可以通过图5所示实施例实现,包括:
S401、去除各意图角色中指示命名实体的目标意图角色,得到剩余的意图角色。
其中,命名实体(named entity)可以是指人名、机构名、地名以及其他所有以名称为标识的实体。命名实体还可以包括数字、日期、货币、地址等。在通过意图角色标注模型确定用户问句中的多个意图角色时,可以对进行命名实体的识别,得到一个只包含有命名实体名的意图角色的列表,并将该列表命名为ner。同时,确定出一个包含用户问句中全部的意图角色的列表,并将该列表命名为slot。用slot减去ner,可以得到去除各意图角色中指示命名实体的目标意图角色,得到剩余的意图角色。例如,可以通过代码“item for itemin slot if item not in ner”去除各意图角色中指示命名实体的目标意图角色。
S402、将各剩余的意图角色按照预设顺序进行排列,得到用户问句模板。
上述同义句匹配方法,通过去除各意图角色中指示命名实体的目标意图角色,得到剩余的意图角色,并将各剩余的意图角色按照预设顺序进行排列,得到用户问句模板,所生成的用户问句模板不是根据用户问句中所有的意图角色生成,减少了生成的用户问句模板的工作量,进而提高了生成用户问句模板的效率。同时,由于所生成的用户问句模板中不包括命名实体,因此避免了命名实体对用户问句模板和标准问句模板之间匹配度的干扰,提高了根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句的准确度。
在根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句之前,电子设备还可以先根据意图角色标注模型和各候选标准问句,生成各候选标准问句对应的标准问句模板,并将各候选标准问句对应的标准问句模板存储,以便在根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句时,能直接调用候选标准问句的标准问句模板。
可选的,在上述S103“根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句”之前,该方法还包括:根据意图角色标注模型和各候选标准问句,生成各候选标准问句对应的标准问句模板。
根据意图角色标注模型和各候选标准问句,生成各候选标准问句对应的标准问句模板,与上述根据意图角色标注模型和用户问句,生成用户问句的用户问句模板的实现方法和有益效果类似,此处不再赘述。
上述实施例重点描述了如何根据意图角色标注模型和用户问句生成用户问句模板的具体过程,下面通过图6所示实施例来详细描述根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句的具体过程。
图6为本申请另一个实施例提供的同义句匹配方法的流程示意图,如图6所示,上述S103“根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句”一种可能的实现方法包括:
S501、按照用户问句和各候选标准问句之间的匹配度,确定各候选标准问句的候选顺序。
由上述实施例的描述可知,在确定用户问句对应的多个候选标准问句时,可以采用短语匹配方法来匹配,所采用的工具可以是Elasticsearch工具。在通过Elasticsearch工具进行短语匹配时,通常会根据待匹配句子和目标句子的匹配度,确定召回目标句子的顺序,通常匹配度越高的目标句子的召回顺序越小,也即是说,据Elasticsearch工具召回候选标准问句的顺序指示了用户问句与该候选标准问句的匹配度,可以根据Elasticsearch工具召回候选标准问句的顺序,确定各候选标准问句的候选顺序。
S502、按照候选顺序,依次确定用户问句模板与各候选标准问句的标准问句模板是否匹配。
其中,用户问句模板与各候选标准问句的标准问句模板匹配可以是指用户问句模板和标准问句模板结构相同,且两个模板中的意图角色所指示的信息相同。在确定各候选标准问句的候选顺序之后,可以按照该候选顺序,依次确定用户问句模板与各候选标准问句的标准问句模板是否匹配。
S503、若匹配,将当前的候选标准问句作为目标标准问句。
S504、若不匹配,确定用户问句模板与当前的候选标准问句的标准问句模板是否为模板对;若是模板对,将当前的候选标准问句作为目标标准问句。
其中,模板对中可以包括至少两个模板,以模板对中包括两个模板为例,这两个模板中的意图角色指示相同的含义,例如,模板对中的一个模板包括有“与的区别?”的意图角色,另一个模板包括“和不是一种吗”的意图角色,在其他意图角色指示的信息相同,且顺序相同的情况下,这两个模板实际指示的含义是相同的,属于一个模板对。
当用户问句模板与各候选标准问句的标准问句模板不匹配,还可以通过确定用户问句模板与当前的候选标准问句的标准问句模板是否为模板对,若用户问句模板与当前的候选标准问句的标准问句模板是模板对,则将当前的候选标准问句作为目标标准问句。若用户问句模板与当前的候选标准问句的标准问句模板不是模板对时,可以确定用户问句模板与下一个各候选标准问句的标准问句模板是否匹配,若匹配,将下一个候选标准问句作为目标标准问句,若不匹配,则确定用户问句模板与下一个候选标准问句的标准问句模板是否为模板对,若是模板对,将下一个候选标准问句作为目标标准问句……直至最后一个候选标准问句。
应该理解的是,虽然上述实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图7为本申请一个实施例中同义句匹配装置的结构示意图,图7所示,该同义句匹配装置包括:第一确定模块10、生成模块20和第二确定模块30,其中:
第一确定模块10,用于通过短语匹配方法,确定用户输入的用户问句对应的多个候选标准问句;
生成模块20,用于根据意图角色标注模型和用户问句,生成用户问句的用户问句模板;意图角色标注模型用于从问句中确定意图角色;意图角色包括问句中用于指示信息的词或短语;
第二确定模块30,用于根据用户问句模板和各候选标准问句的标准问句模板,确定用户问句对应的目标标准问句。
在一个实施例中,生成模块20包括分解单元201和生成单元202,其中:
分解单元201,用于采用意图角色标注模型对用户问句进行结构分解,得到用户问句的多个意图角色;
生成单元202,用于根据预设顺序和各意图角色,生成用户问句模板,预设顺序用于指示用户问句模板中的各句子成分的顺序。
在一个实施例中,生成单元202具体用于对用户问句中的各意图角色进行聚类,获得意图角色归属的类型信息;将各类型信息按照预设顺序进行排列,得到用户问句模板。
在一个实施例中,生成单元202具体用于按照预设顺序将各意图角色排序,生成用户问句模板。
在一个实施例中,生成单元202具体用于去除各意图角色中指示命名实体的目标意图角色,得到剩余的意图角色;将各剩余的意图角色按照预设顺序进行排列,得到用户问句模板。
在一个实施例中,生成模块20还用于根据意图角色标注模型和各候选标准问句,生成各候选标准问句对应的标准问句模板。
在一个实施例中,第二确定模块30具体用于按照用户问句和各候选标准问句之间的匹配度,确定各候选标准问句的候选顺序;按照候选顺序,依次确定用户问句模板与各候选标准问句的标准问句模板是否匹配;若匹配,将当前的候选标准问句作为目标标准问句;若不匹配,确定用户问句模板与当前的候选标准问句的标准问句模板是否为模板对;若是模板对,将当前的候选标准问句作为目标标准问句。
本申请实施例提供的同义句匹配装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
关于一种同义句匹配装置的具体限定可以参见上文中对同义句匹配方法的限定,在此不再赘述。上述同义句匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种电子设备,其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种同义句匹配方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当清楚的是,本申请实施例中处理器执行计算机程序的过程,与上述方法中各个步骤的执行过程一致,具体可参见上文中的描述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现本申请上述方法实施例提供的同义句匹配方法。
应当清楚的是,本申请实施例中处理器执行计算机程序的过程,与上述方法中各个步骤的执行过程一致,具体可参见上文中的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种同义句匹配方法,其特征在于,包括:
通过短语匹配方法,确定用户输入的用户问句对应的多个候选标准问句;
根据意图角色标注模型和所述用户问句,生成所述用户问句的用户问句模板;所述意图角色标注模型用于从问句中确定意图角色;所述意图角色包括问句中用于指示信息的词或短语;
根据所述用户问句模板和各所述候选标准问句的标准问句模板,确定所述用户问句对应的目标标准问句。
2.根据权利要求1所述的方法,其特征在于,所述根据意图角色标注模型和所述用户问句,生成所述用户问句的用户问句模板,包括:
采用所述意图角色标注模型对所述用户问句进行结构分解,得到所述用户问句的多个所述意图角色;
根据预设顺序和各所述意图角色,生成所述用户问句模板,所述预设顺序用于指示所述用户问句模板中的各句子成分的顺序。
3.根据权利要求2所述方法,其特征在于,所述根据预设顺序和各所述意图角色,生成所述用户问句模板,包括:
对所述用户问句中的各所述意图角色进行聚类,获得所述意图角色归属的类型信息;
将各所述类型信息按照所述预设顺序进行排列,得到所述用户问句模板。
4.根据权利要求2所述方法,其特征在于,所述根据预设顺序和各所述意图角色,生成所述用户问句模板,包括:
按照所述预设顺序将各所述意图角色排序,生成所述用户问句模板。
5.根据权利要求2所述方法,其特征在于,所述根据预设顺序和各所述意图角色,生成所述用户问句模板,包括:
去除各所述意图角色中指示命名实体的目标意图角色,得到剩余的意图角色;
将各所述剩余的意图角色按照所述预设顺序进行排列,得到所述用户问句模板。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述用户问句模板和各所述候选标准问句的标准问句模板,确定所述用户问句对应的目标标准问句之前,所述方法还包括:
根据所述意图角色标注模型和各所述候选标准问句,生成各所述候选标准问句对应的标准问句模板。
7.根据权利要求1-5任一项所述方法,其特征在于,所述根据所述用户问句模板和各所述候选标准问句的标准问句模板,确定所述用户问句对应的目标标准问句,包括:
按照所述用户问句和各所述候选标准问句之间的匹配度,确定所述各所述候选标准问句的候选顺序;
按照所述候选顺序,依次确定所述用户问句模板与各所述候选标准问句的标准问句模板是否匹配;
若匹配,将当前的候选标准问句作为所述目标标准问句;
若不匹配,确定所述用户问句模板与所述当前的候选标准问句的标准问句模板是否为模板对;若是模板对,将所述当前的候选标准问句作为所述目标标准问句。
8.一种同义句匹配装置,其特征在于,所述装置包括:
第一确定模块,用于通过短语匹配方法,确定用户输入的用户问句对应的多个候选标准问句;
生成模块,用于根据意图角色标注模型和所述用户问句,生成所述用户问句的用户问句模板;所述意图角色标注模型用于从问句中确定意图角色;所述意图角色包括问句中用于指示信息的词或短语;
第二确定模块,用于根据所述用户问句模板和各所述候选标准问句的标准问句模板,确定所述用户问句对应的目标标准问句。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110438449.6A CN113111160A (zh) | 2021-04-22 | 2021-04-22 | 同义句匹配方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110438449.6A CN113111160A (zh) | 2021-04-22 | 2021-04-22 | 同义句匹配方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113111160A true CN113111160A (zh) | 2021-07-13 |
Family
ID=76719656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110438449.6A Pending CN113111160A (zh) | 2021-04-22 | 2021-04-22 | 同义句匹配方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111160A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
CN108536680A (zh) * | 2018-04-12 | 2018-09-14 | 北京焦点新干线信息技术有限公司 | 一种房产信息的获取方法和装置 |
CN110377911A (zh) * | 2019-07-23 | 2019-10-25 | 中国工商银行股份有限公司 | 对话框架下的意图识别方法和装置 |
CN111708800A (zh) * | 2020-05-27 | 2020-09-25 | 北京百度网讯科技有限公司 | 查询方法、装置及电子设备 |
CN111708873A (zh) * | 2020-06-15 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN111831810A (zh) * | 2020-07-23 | 2020-10-27 | 中国平安人寿保险股份有限公司 | 智能问答方法、装置、设备及存储介质 |
CN111966808A (zh) * | 2019-12-31 | 2020-11-20 | 北京来也网络科技有限公司 | 结合rpa和ai的对话问答方法、装置、设备及存储介质 |
CN112541070A (zh) * | 2020-12-25 | 2021-03-23 | 北京百度网讯科技有限公司 | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 |
-
2021
- 2021-04-22 CN CN202110438449.6A patent/CN113111160A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
CN108536680A (zh) * | 2018-04-12 | 2018-09-14 | 北京焦点新干线信息技术有限公司 | 一种房产信息的获取方法和装置 |
CN110377911A (zh) * | 2019-07-23 | 2019-10-25 | 中国工商银行股份有限公司 | 对话框架下的意图识别方法和装置 |
CN111966808A (zh) * | 2019-12-31 | 2020-11-20 | 北京来也网络科技有限公司 | 结合rpa和ai的对话问答方法、装置、设备及存储介质 |
CN111708800A (zh) * | 2020-05-27 | 2020-09-25 | 北京百度网讯科技有限公司 | 查询方法、装置及电子设备 |
CN111708873A (zh) * | 2020-06-15 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN111831810A (zh) * | 2020-07-23 | 2020-10-27 | 中国平安人寿保险股份有限公司 | 智能问答方法、装置、设备及存储介质 |
CN112541070A (zh) * | 2020-12-25 | 2021-03-23 | 北京百度网讯科技有限公司 | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765244B (zh) | 获取应答话术的方法、装置、计算机设备及存储介质 | |
CN110765763B (zh) | 语音识别文本的纠错方法、装置、计算机设备和存储介质 | |
CA3174601C (en) | Text intent identifying method, device, computer equipment and storage medium | |
US11392775B2 (en) | Semantic recognition method, electronic device, and computer-readable storage medium | |
CN111368043A (zh) | 基于人工智能的事件问答方法、装置、设备及存储介质 | |
CN110674319A (zh) | 标签确定方法、装置、计算机设备及存储介质 | |
CN112651236B (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
CN112256863B (zh) | 一种确定语料意图的方法、装置及电子设备 | |
CN110851576A (zh) | 问答处理方法、装置、设备及可读介质 | |
CN111400340B (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN111309881A (zh) | 智能问答中未知问题处理方法、装置、计算机设备和介质 | |
CN110931012A (zh) | 答复消息生成方法、装置、计算机设备和存储介质 | |
CN112632139A (zh) | 基于pmis系统的信息推送方法、装置、计算机设备和介质 | |
CN111190946A (zh) | 报告生成方法、装置、计算机设备和存储介质 | |
CN112632268A (zh) | 投诉工单检测处理方法、装置、计算机设备及存储介质 | |
CN111402864A (zh) | 语音处理方法及电子设备 | |
Masuda et al. | Semantic analysis technique of logics retrieval for software testing from specification documents | |
CN113111160A (zh) | 同义句匹配方法、装置、设备和存储介质 | |
CN112989003B (zh) | 意图识别方法、装置、处理设备及介质 | |
CN112735465B (zh) | 无效信息确定方法、装置、计算机设备及存储介质 | |
CN115374849A (zh) | 企业相关专利检索方法、装置、设备及介质 | |
CN114169331A (zh) | 地址解析方法、装置、计算机设备和存储介质 | |
CN114239602A (zh) | 会话方法、装置和计算机程序产品 | |
CN110909538A (zh) | 问答内容的识别方法、装置、终端设备及介质 | |
WO2020133291A1 (zh) | 文本实体识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |