Nothing Special   »   [go: up one dir, main page]

CN112052318A - 一种语义识别方法、装置、计算机设备和存储介质 - Google Patents

一种语义识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112052318A
CN112052318A CN202010840252.0A CN202010840252A CN112052318A CN 112052318 A CN112052318 A CN 112052318A CN 202010840252 A CN202010840252 A CN 202010840252A CN 112052318 A CN112052318 A CN 112052318A
Authority
CN
China
Prior art keywords
information
semantic
user input
input information
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010840252.0A
Other languages
English (en)
Other versions
CN112052318B (zh
Inventor
施晓明
陈曦
张子恒
郑冶枫
车万翔
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Tencent Technology Shenzhen Co Ltd
Original Assignee
Harbin Institute of Technology
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, Tencent Technology Shenzhen Co Ltd filed Critical Harbin Institute of Technology
Priority to CN202010840252.0A priority Critical patent/CN112052318B/zh
Publication of CN112052318A publication Critical patent/CN112052318A/zh
Application granted granted Critical
Publication of CN112052318B publication Critical patent/CN112052318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语义识别方法、装置、计算机设备和存储介质,可基于人工智能技术实现语义识别,通过语义识别模型可提取第一用户输入信息样本的文本特征信息,从而识别该样本的预测语义信息,基于该样本的标签和预测语义信息调整语义识别模型的参数;通过调整后的语义识别模型提取第二用户输入信息样本的文本特征信息,从而识别该样本的预测语义信息;基于该样本的标签和预测语义信息再调整语义识别模型的参数,得到训练完成的语义识别模型;基于该语义识别模型对目标用户输入信息进行语义识别得到语义信息,其中,第一用户输入信息样本无需人工标注,可降低对人工标注的依赖,而采用第二用户输入信息样本对模型进行训练,可提升语义识别准确性。

Description

一种语义识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种语义识别方法、装置和存储介质。
背景技术
智能对话系统可以对用户输入信息进行语义识别,确定用户的对话意图,一般的,为了达到良好的识别效果,对话系统使用的模型需要大量的精标注数据,对于不同的应用场景而言,精标注数据可能需要不同的专业人士进行标注,会耗费大量的时间,例如,对于应用于医疗场景的对话系统,为了进行准确的语义识别,需要专业的医生将样本中用户的口语化描述,翻译为专业的医疗词作为样本的语义信息,然后基于样本训练出语义识别模型,将模型部署在对话系统中,这种对大量人工精标注样本的需求,不利于对话系统的实现和扩展。
发明内容
本发明实施例提供一种语义识别方法、装置和存储介质,可以一定程度降低语义识别模型对人工标注的依赖。
本发明实施例提供一种语义识别方法,该方法包括:
通过语义识别模型对第一用户输入信息样本提取文本特征信息,基于所述第一用户输入信息样本的文本特征信息,识别所述第一用户输入信息样本的预测语义信息,其中,所述第一用户输入信息样本的标签包括对第一用户输入信息样本进行语义识别得到的语义信息,和/或从所述第一用户输入信息样本的回复信息中获取的信息;
基于所述第一用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整;
通过调整后的所述语义识别模型对第二用户输入信息样本提取文本特征信息,基于所述第二用户输入信息样本的文本特征信息,识别所述第二用户输入信息样本的预测语义信息,其中,所述第二用户输入信息样本的标签包括所述第二用户输入信息样本的语义信息;
基于所述第二用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整,得到训练完成的语义识别模型;
基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到所述目标用户输入信息的语义信息。
本发明实施例还提供一种语义识别装置,该装置包括:
第一语义预测单元,用于通过语义识别模型对第一用户输入信息样本提取文本特征信息,基于所述第一用户输入信息样本的文本特征信息,识别所述第一用户输入信息样本的预测语义信息,其中,所述第一用户输入信息样本的标签包括对第一用户输入信息样本进行语义识别得到的语义信息,和/或从所述第一用户输入信息样本的回复信息中获取的信息;
第一参数调整单元,用于基于所述第一用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整;
第二语义预测单元,用于通过调整后的所述语义识别模型对第二用户输入信息样本提取文本特征信息,基于所述第二用户输入信息样本的文本特征信息,识别所述第二用户输入信息样本的预测语义信息,其中,所述第二用户输入信息样本的标签包括所述第二用户输入信息样本的语义信息;
第二参数调整单元,用于基于所述第二用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整,得到训练完成的语义识别模型;
语义识别单元,用于基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到所述目标用户输入信息的语义信息。
在一个可选的示例中,语义识别单元,用于:
通过训练完成的语义识别模型对目标用户输入信息进行文本特征提取,得到所述目标用户输入信息的文本特征信息;
通过所述语义识别模型,基于所述目标用户输入信息的文本特征信息,识别所述目标用户输入信息的语义信息
在一个可选的示例中,语义识别单元,用于:
通过训练完成的语义识别模型将目标用户输入信息映射到特征空间中,得到所述目标用户输入信息在所述特征空间的文本特征信息;
通过所述语义识别模型,比较所述目标用户输入信息的文本特征信息,与预设的至少一种语义信息在所述特征空间的文本特征信息之间的特征距离;
基于所述特征距离,识别所述目标用户输入信息的语义信息。
在一个可选的示例中,当所述第一用户输入信息样本的标签包括通过对第一用户输入信息样本进行语义识别得到的语义信息时,装置还包括:样本获取单元,用于:
在通过语义识别模型对第一用户输入信息样本进行文本特征提取,得到所述第一用户输入信息样本的文本特征信息前,
获取无标注的第一用户输入信息样本;
对所述第一用户输入信息样本进行语义识别,得到所述第一用户输入信息样本的第一语义信息;
基于所述第一语义信息生成所述第一用户输入信息样本的伪标签。
在一个可选的示例中,当所述第一用户输入信息样本的标签包括从所述第一用户输入信息样本的回复信息中获取的信息时,样本获取单元,还用于:
在通过语义识别模型对所述第一用户输入信息样本进行文本特征提取,得到所述第一用户输入信息样本的文本特征信息前,获取所述第一用户输入信息样本所在的对话信息中,针对所述第一用户输入信息样本的回复信息;
从所述回复信息中获取所述第一用户输入信息样本的第二语义信息;
基于所述第二语义信息生成所述第一用户输入信息样本的弱标签。
在一个可选的示例中,样本获取单元,用于:
通过已标注的第二用户输入信息样本对所述语义识别模型进行训练;
采用训练后的所述语义识别模型对所述第一用户输入信息样本进行语义识别,得到所述第一用户输入信息样本的预测语义信息;
将得到的所述预测语义信息作为所述第一用户输入信息样本的第一语义信息。
在一个可选的示例中,样本获取单元,还用于:
在通过所述语义识别模型对所述第一用户输入信息样本进行文本特征提取,得到所述第一用户输入信息样本的文本特征信息前,获取所述第一用户输入信息样本所在的对话信息中,针对所述第一用户输入信息样本的回复信息;
从所述回复信息中获取所述第一用户输入信息样本的第二语义信息;
基于所述第二语义信息生成所述第一用户输入信息样本的伪标签;
对所述第一用户输入信息样本的伪标签和弱标签进行合并,得到所述第二语义信息的合并后的标签。
在一个可选的示例中,样本获取单元,用于:
将所述回复信息,与预设的语义信息集合进行匹配;
基于所述语义信息集合中匹配到的语义信息,确定所述第一用户输入信息样本的第二语义信息。
在一个可选的示例中,第一参数调整单元,用于:
基于所述第一用户输入信息样本的预测语义信息,以及所述第一用户输入信息样本的合并后的标签中的语义信息,计算所述语义识别模型的损失;
基于所述损失调整所述语义识别模型的参数。
在一个可选的示例中,本实施例的语义识别装置还包括回复单元,用于:
在基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到所述目标用户输入信息的语义信息后,基于所述语义信息和当前的对话场景,生成所述目标用户输入信息的智能回复信息;
输出所述智能回复信息。
在本发明的一些实施例中,还可以提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
在本发明的一些实施例中,还可以提供一种存储介质,其上存储有计算机程序,当计算机程序在计算机上运行时,使得所述计算机执行如如上所述方法的步骤。
采本申请实施例,通过语义识别模型可提取第一用户输入信息样本的文本特征信息,基于该文本特征信息识别第一用户输入信息样本的预测语义信息,基于第一用户输入信息样本的标签和预测语义信息,对语义识别模型进行参数调整;通过调整后的语义识别模型提取第二用户输入信息样本的文本特征信息,基于该文本特征信息,识别第二用户输入信息样本的预测语义信息;基于第二用户输入信息样本的标签和预测语义信息,对语义识别模型进行参数调整,得到训练完成的语义识别模型;基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到目标用户输入信息的语义信息,本实施例的第一用户输入信息样本的标签包括语义识别得到的语义信息,和/或从第一用户输入信息样本的回复信息中获取的信息,所以第一用户输入信息样本的标签,无需人工标注,可以降低语义识别模型的训练对人工标注的依赖,缩短模型训练所需时长,而基于第一用户输入信息样本训练语义识别模型后,采用精标注的第二用户输入信息样本对模型进行进一步的精调,可以有效提升模型的语义识别准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的语义识别系统的结构示意图;
图1b是本发明实施例提供的语义识别方法的流程图;
图2是本发明实施例提供语义识别模型的两步式训练方法的示意图;
图3是本发明实施例提供的医疗场景下的语义识别方法的流程图;
图4是本发明实施例提供的语义识别装置的结构示意图;
图5是本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种语义识别方法、装置、计算机设备和存储介质。
本发明实施例提供了一种语义识别系统,语义识别系统包括适用于计算机设备的语义识别装置。其中,计算机设备可以为终端或服务器等设备。
终端可以为手机、平板电脑、笔记本电脑等终端设备,也可以为穿戴设备、智能电视或其他具有显示模块的智能终端。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
本实施例的语义识别装置可以集成在终端或服务器中,可选的,可以以应用程序等形式集成于终端或服务器中。
参考图1a,本实施例提供的语义识别系统包括终端10和服务器20等。
终端10可以用于获取目标用户输入信息,将该目标用户时输入信息发送给服务器20。
服务器20,可以用于通过语义识别模型对第一用户输入信息样本提取文本特征信息,基于所述第一用户输入信息样本的文本特征信息,识别所述第一用户输入信息样本的预测语义信息,其中,所述第一用户输入信息样本的标签包括对第一用户输入信息样本进行语义识别得到的语义信息,和/或从所述第一用户输入信息样本的回复信息中获取的信息;基于所述第一用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整;通过调整后的所述语义识别模型对第二用户输入信息样本提取文本特征信息,基于所述第二用户输入信息样本的文本特征信息,识别所述第二用户输入信息样本的预测语义信息,其中,所述第二用户输入信息样本的标签包括所述第二用户输入信息样本的语义信息;基于所述第二用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整,得到训练完成的语义识别模型;基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到所述目标用户输入信息的语义信息。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本发明实施例将从语义识别装置的角度进行描述,该语义识别装置具体可以集成在终端和/或服务器中,例如,可以以应用程序的形式集成在终端或服务器中。
本发明实施例提供的一种语义识别方法,该方法可以由终端或服务器的处理器执行,本实施例中基于语义识别模型实现语义识别,是基于自然语言处理(Nature Languageprocessing,NLP)技术的一种应用,自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
如图1b所示,该语义识别方法的流程可以如下:
101、通过语义识别模型对第一用户输入信息样本提取文本特征信息,基于第一用户输入信息样本的文本特征信息,识别第一用户输入信息样本的预测语义信息,其中,第一用户输入信息样本的标签包括对第一用户输入信息样本进行语义识别得到的语义信息,和/或从第一用户输入信息样本的回复信息中获取的信息;
本实施例的语义识别中,语义识别模型使用到了语义理解(Semanticunderstanding)技术,尤其是其中的语义分析(semantic analyzing)技术,以及机器人问答(类似于siri/微软小冰类)技术,尤其是其中的问题理解query understanding技术。语义识别模型的训练是基于AI(Artificial Intellegence,人工智能)技术实现,尤其是基于人工智能技术中的机器学习(Machine learning,ML)技术实现的,更具体的,可以是通过机器学习中的深度学习(Deep Learning)实现。
本实施例中的语义识别模型可以基于任意可用于语义识别的人工神经网络(artificial neural network)的结构构建,例如语义识别模型可以基于BERT(Bidirectional Encoder Representation from Transformers,双向Transformer的编码器)实现,BERT是一种预训练语言模型,其对于词或句的嵌入可以帮助下游自然语言处理任务提升性能。语义识别模型可以基于RNN(Recurrent Neural Network,循环神经网络)实现,RNN是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接形成闭合回路的递归神经网络。语义识别模型可以基于CNN(Convolutional Neural Networks,卷积神经网络)实现,CNN是一类包含卷积或相关计算且具有深度结构的前馈神经网络。语义识别模型可以基于RCNN(Rich featurehierarchies Convolutional Neural Network,丰富层次化特征的卷积神经网络)实现等等,本实施例对此没有限制。
本实施例中,语义识别模型识别的领域不限,可以是任意划分的领域,例如,本实施例的语义识别模型可以是医疗对话识别领域的模型,或者本实施例的语义识别模型可以是音乐领域的模型,或者还可以是化学领域的模型,物理领域的模型,游戏领域的模型,智能机器人领域的模型等等,该领域的划分可以根据用户的需求而定,领域划分后,可以获取该领域中可以用于训练模型的第一用户输入信息样本和第二用户输入信息样本,然后通过这两种样本对该模型进行训练,即可得到本实施例中的语义识别模型。
本实施例中的第一用户输入信息样本和第二用户输入信息样本包含有用户输入信息,并且两种样本都进行了标注,标注的信息为样本中的用户输入信息的语义信息。
本实施例中的第一用户输入信息样和第二用户输入信息样本中的用户输入信息可以是来自于对话信息中的用户输入信息。第二用户输入信息样本的标签由人工进行精标注,人工标注时,由人工确定用户输入信息的语义信息,该语义信息可以理解为用户的对话目的,用户想要表达的意图等等,例如以医疗领域为例,在该领域,对话信息为医疗对话信息,用户输入信息一般为患者输入的询问信息,该询问信息很大程度上可能病情描述信息,该描述信息一般具有口语化的特点,例如,用户输入信息为“医生,我的肚子很痛”,则人工标注时,根据用户输入信息想要表达的意图,会标注该用户输入信息的标签为“腹痛”。但是可以想到的是,若模型全部的样本都需要人工精标注时,数据标注难度较大且费时费力。
鉴于减少标注成本的考量,本实施例中改进了样本的数据来源,使得第一用户输入信息样本的标注不再由人工完成,而是基于语义识别得到以及从用户输入信息的回复信息中得到。
本实施例中的语义识别模型,本质上是一种分类模型,该语义识别模型可以包括特征提取层和分类层,其分类层定义有n个语义分类,该语义识别模型的语义识别结果,是用户输入信息在各语义分类上的分类概率。
102、基于第一用户输入信息样本的标签和预测语义信息,对语义识别模型进行参数调整;
103、通过调整后的语义识别模型对第二用户输入信息样本提取文本特征信息,基于第二用户输入信息样本的文本特征信息,识别第二用户输入信息样本的预测语义信息,其中,第二用户输入信息样本的标签包括第二用户输入信息样本的语义信息;
104、基于第二用户输入信息样本的标签和预测语义信息,对语义识别模型进行参数调整,得到训练完成的语义识别模型;
本实施例中,上述步骤101-102可以视为对语义识别模型的预训练过程,该过程中会对模型的参数进行粗调,步骤103-104以视为对语义识别模型的精调过程,该过程中会对语义识别模型的参数进行精调。
可选的,本实施例还结合图2对语义识别模型的训练流程进行详细的示例说明,本实施例的语义识别模型的两大步骤预训练和模型精调在图2中分别对应步骤201和步骤202。
在模型的“预训练”步骤,即步骤101中,通过语义识别模型得到第一用户输入信息样本的预测语义信息的具体过程可以包括:通过语义识别模型(的特征提取层)将第一用户输入信息样本映射到特征空间中,得到第一用户输入信息样本在特征空间的文本特征信息;通过语义识别模型(的分类层),比较第一用户输入信息样本的文本特征信息,与预设的至少一种语义信息在特征空间的文本特征信息之间的特征距离;基于特征距离,识别第一用户输入信息样本的预测语义信息。
其中,该特征距离可以用欧氏距离等方式计算,本实施例对此没有限制,本实施例中,模型的输出除了预测语义信息,还包括各预测语义信息的预测概率,其中,模型在输出预测语义信息前,可以先基于特征距离确定模型的分类层设置的各预设的语义信息的预测概率,将预测概率低于最低预测概率阈值的语义信息舍弃,只输出其他预测概率高于最低预测概率阈值的预设的语义信息的分类结果。
其中,模型可以基于特征距离,确定各个预设的语义信息的预测概率。
在模型的“精调”步骤即步骤103中,类似的,通过语义识别模型得到第二用户输入信息样本的预测语义信息的具体过程可以包括:通过语义识别模型(的特征提取层)将第二用户输入信息样本映射到特征空间中,得到第二用户输入信息样本在特征空间的文本特征信息;通过语义识别模型(的分类层),比较第二用户输入信息样本的文本特征信息,与预设的至少一种语义信息在特征空间的文本特征信息之间的特征距离;基于特征距离,识别第二用户输入信息样本的预测语义信息。
可以理解的是,本实施例中,语义识别模型的结构不同,则得到用户输入信息的语义识别结果的详细步骤也不同,并不仅限于上述的细化步骤。
可选的,本实施例中,第一用户输入信息样本的标签信息包括三种情况:
第一种、第一用户输入信息样本的标签信息包括:对第一用户输入信息样本进行语义识别得到的第一语义信息。
第二种、第一用户输入信息样本的标签信息包括:从第一用户输入信息样本的回复信息中获取的第二语义信息。
第三种、第一用户输入信息样本的标签信息包括:对第一用户输入信息样本进行语义识别得到的第一语义信息,和从第一用户输入信息样本的回复信息中获取的第二语义信息。
对于第一种情况中的标签,其基于语义识别获取,可以认为是第一用户输入信息样本的伪标签。在通过语义识别模型对第一用户输入信息样本提取文本特征信息前,伪标签的获取步骤可以包括:获取无标注的第一用户输入信息样本;对第一用户输入信息样本进行语义识别,得到第一用户输入信息样本的第一语义信息;基于第一语义信息生成第一用户输入信息样本的伪标签。
在第一用户输入信息样本的标签仅包括伪标签的情况下,步骤“基于第一用户输入信息样本的标签和预测语义信息,对语义识别模型进行参数调整”,可以包括:
基于第一用户输入信息样本的预测语义信息以及第一用户输入信息样本的伪标签中的语义信息,计算语义识别模型的(预训练阶段的)损失,基于该损失调整语义识别模型的参数。
该损失可以采用现有的任意可用的分类损失函数进行计算,本实施例对此没有限制。
对于第二种情况中的标签,其从第一用户输入信息样本的回复信息中获取,可以认为是第一用户输入信息样本的弱标签,在通过语义识别模型对第一用户输入信息样本提取文本特征信息前,弱标签的具体的获取过程,可以包括:获取第一用户输入信息样本所在的对话信息中,针对第一用户输入信息样本的回复信息;从回复信息中获取第一用户输入信息样本的第二语义信息;基于第二语义信息生成第一用户输入信息样本的弱标签。
在第一用户输入信息样本的标签仅包括弱标签的情况下,步骤“基于第一用户输入信息样本的标签和预测语义信息,对语义识别模型进行参数调整”,可以包括:
基于第一用户输入信息样本的预测语义信息以及第一用户输入信息样本的弱标签中的语义信息,计算语义识别模型的(预训练阶段的)损失,基于该损失调整语义识别模型的参数。其中,该损失也可以采用现有的任意可用的分类损失函数进行计算,本实施例对此没有限制。
对于第三种情况中的标签,其可以理解为由伪标签和弱标签构成,其获取过程包括伪标签和弱标签的获取过程,其中,伪标签和弱标签的获取顺序没有限制。
可以理解的是,在第三种情况下,语义识别模型的损失需要基于弱标签和伪标签进行计算。
参考图2,本实施例中,在模型训练阶段,针对模型设置一种弱监督强化模块,该模块可以和语义识别模型连接,也可以和语义识别模型相对独立设置,该模块的具体作用是为语义识别模型提供上述的第一用户输入信息样本,在语义识别模型的实际使用阶段,该模块停止工作。
参考图2,弱监督强化模块中提供了一种教师模型,该模型具有语义识别的功能,可以从用户输入信息中识别出用户的对话意图,得到语义信息。其中,教师模型中设置的分类类别中包括语义识别模型中设置的所有分类类别。
通过上述描述可知,在一个示例中,第一用户输入信息样本可以只具有弱标签,该弱标签对于语义识别模型而言,可以起到弱监督作用,所以具有弱标签(参考图2中的图标5)的第一用户输入信息样本是一种弱监督数据(参考图2),该弱监督数据可以以D表示,精标注的第二用户输入信息样本可以以D*表示。
直观地讲,在精标注数据(图2中的图标2)即第二用户输入信息样本上训练的语义识别模型比在弱监督数据上训练的语义识别模型具有更高的F1分数。因此,精标注数据可以为弱监督的学习提供更准确的标签信息。根据以上分析,从精标注数据中学到的参数可以视为对弱监督数据的参数的先验估计。将这种先验估计的方案形式化表示如下:
Figure BDA0002638622570000121
其中,w表示语义识别模型的参数,D表示弱监督数据,D*表示精标注数据,w*表示来自预训练阶段的最佳参数,P(D|w)表示在语义识别模型的参数为w的情况下,弱监督数据D的语义识别正确率,P(D*|w)表示在语义识别模型的参数为w的情况下,精标注数据D*的语义识别正确率。
但是,弱监督数据D的数量远远大于注释良好的精标注数据D*的数量。因此,D将过分支配语义识别模型的整个训练过程,导致模型只能从D*中学习少量的知识。此外,D在标签分布和表达式方面与D*可能存在不同,这也可能对模型的训练有害。
为了缓解上述的问题,本实施例针对弱监督数据中标签精确度不够的问题,提出了一种添加伪标签,使弱监督数据的标签信息更加准确的方案(即标签信息的来源包括弱标签和伪标签的方案)。
在该方案中,伪标签可以先于弱标签添加,也可以后于弱标签添加,本实施例对此没有限制。
以伪标签后于弱标签添加为例,步骤“基于第二语义信息生成第一用户输入信息样本的弱标签”后,还可以包括:
对第一用户输入信息样本进行语义识别,得到第一用户输入信息样本的第一语义信息;
基于第一语义信息生成第一用户输入信息样本的伪标签;
对第一用户输入信息样本的伪标签和弱标签进行合并,得到第二语义信息的合并后的标签。
其中,对第一用户输入信息样本的伪标签和弱标签的合并,具体是对其中的第一语义信息和第二语义信息进行合并,在合并时,若两种语义信息中存在相同的语义信息,则对合并后的语义信息进行去重处理,使得合并后的标签中不存在重复的语义信息。
本实施例中,第一用户输入信息样本的伪标签可以由弱监督强化模块中的教师模型对第一用户输入信息样本进行语义识别得到。
可选的,在一个示例中,教师模型可以是基于精标注数据训练得到的,即基于本实施例的第二用户输入信息样本训练得到的,在一个示例中,步骤“对第一用户输入信息样本进行语义识别,得到第一用户输入信息样本的第一语义信息”,可以包括:
通过已标注的第二用户输入信息样本(图2中标号为2)对教师模型(图2中标号为3)进行语义识别训练;
采用训练后的教师模型对第一用户输入信息样本进行语义识别,得到第一用户输入信息样本的预测语义信息;
将得到的预测语义信息作为第一用户输入信息样本的第一语义信息。
参考图2可知,该学习出的第一语义信息,可以用于生成第一用户输入信息样本的伪标签(图2中标号为4),在一个示例中,该教师模型可以是与本实施例中的语义识别模型完全相同的模型,或者就是本实施例的语义识别模型本身,即本实施例先采用精标注数据对语义识别模型进行训练,然后采用训练后的语义识别模型对具有弱标签的第一用户输入信息样本(即弱监督数据)进行语义识别,得到第一语义信息,基于第一语义信息生成伪标签。
在伪标签先于弱标签添加的示例中,伪标签的生成方式类似,在获取第一语义信息生成伪标签后,可以获取第一用户输入信息样本所在的对话信息中,针对第一用户输入信息样本的回复信息;从回复信息中获取第一用户输入信息样本的第二语义信息;基于第二语义信息生成第一用户输入信息样本的伪标签;对第一用户输入信息样本的伪标签和弱标签进行合并,得到第二语义信息的合并后的标签。
本实施例中,为了从回复信息中提取较为精确的第二语义信息,可以针对模型应用的领域,设置对应的语义信息集合,该语义信息集合中可以包括该领域内较为常用的语义信息,以医疗领域为例,可以设置包括医疗领域的医疗专业词汇的语义信息集合,该集合中可以包括腹痛,腹胀,腹泻等等医疗专业词汇。
可选的,步骤“从回复信息中获取第一用户输入信息样本的第二语义信息”,可以包括:将回复信息,与预设的语义信息集合进行匹配;基于语义信息集合中匹配到的语义信息,确定第一用户输入信息样本的第二语义信息。
在一个示例中,预设的语义信息集合可以根据语义识别模型的分类层设置的类别设置,假设语义识别模型的分类层设置有n个类别k1-kn,则针对类别ki的名称,可以对其进行语义关联扩展,得到该类别对应的语义关联词,将每一个类别名称和其对应的语义关联词(数量不限)都作为语义信息,对应地存储在语义信息集合中。
例如,腹痛,可以设置其语义关联词“腹部疼痛”等等。
在将回复信息,与预设的语义信息集合进行匹配时,可以对回复信息进行分词,对于分词得到的词语,将各词语分别与语义集合中的各个语义信息进行匹配,若匹配成功,则确定匹配成功的词语是类别名称还是语义关联词,若为类别名称,则直接采用匹配成功的该语义信息作为第二语义信息,若是语义关联词,则获取该语义关联词对应的类别名称作为第二语义信息,基于第二语义信息生成弱标签。
可以理解的是,为了语义识别模型的识别精确度,一个大的领域下还可以划分多个小的子领域,每个子领域可以训练一个对应的语义识别模型,还是以医疗领域为例,可以划分为外科,内科,消化科,五官科等更为细分的子领域,每个子领域针对性地设置语义信息集合,有利于提升模型精确度。
本实施例中的伪标签生成方案实际上是对弱监督数据的标签重构,即在精标注数据D*上学习的模型(图2中的图标3)用来标注D,可以得到“重构”后的标注数据,称为伪数据D'(图2中的图标4)。D'中的伪标签包含一定的D*中的准确标签信息。上述的公式中学习目标可以修改为:
Figure BDA0002638622570000151
其中,P(D'|w)表示在语义识别模型的参数为w的情况下,伪标注数据D'的语义识别正确率。
据此,对于D和D'中相同的句子s,语义识别模型中的分类层需要从两种标签中学习:即需要从来自弱监督数据D的弱标签和来自包含准确标签信息的伪数据D'的伪标签中学习。
本申请实施例中将伪标签和弱标签进行融合,得到强化的弱标签(图2中的图标6)。该强化的弱标签包含准确标签信息,同时又包括弱标签信息,对于语义识别模型的训练来说更有信息量。
本申请设计了一个标签联合算法来在D和D'上进行模型进行预训练,其目标称为增强的弱监督数据(图2中的图标6)。该算法具体的做法是,对于同一个句子,其弱标签和伪标签将会被合并,作为增强后的弱监督数据的标签。
参考图2可知本实施例的语义识别模型采用两步训练法实现,旨在使用无人工标注的数据,使得深度模型减少对人工标注数据的依赖。语义识别模型输入数据为精标注数据(图2中的图标2)和强化的弱监督数据(图2中的图标6)。语义识别模型训练主要分两步进行,分别为预训练过程(model pre-training)和精调过程(model fine-tuning)。
预训练过程和精调过程前面示例中都已经有详细的介绍,在此对预训练和精调过程中模型的参数调节进行解释说明。
在第一用户输入信息样本的标签为上述的第三种情况下,模型的预训练过程采用的是带有伪标签和弱标签的第一用户输入信息样本进行训练的,其中,步骤“基于第一用户输入信息样本的标签和预测语义信息,对语义识别模型进行参数调整”,可以包括:
基于第一用户输入信息样本的预测语义信息,以及第一用户输入信息样本的合并后的标签中的语义信息,计算语义识别模型的损失;
基于损失调整语义识别模型的参数。
在预训练阶段,语义识别模型的损失是分类损失,计算该损失的损失函数可以是现有的任意可用的损失函数,本实施例对此没有限制。
在一个示例中,以损失函数为BCEWithLogitsLoss((Binary CrossEntropyWithLogitsLoss,二分类交叉熵损失)为例,对预训练阶段的模型参数调节进行说明。
令语义识别模型的参数为θ,损失函数为BCEWithLogitsLoss。
在预训练阶段,语义识别模型的损失函数(为区别,记为第一损失函数)表示为:
L=Loss(P(yi|xi,θ),y′i)
其中,xi表示给定的第一用户输入信息样本,yi表示语义识别模型对于样本xi的预测分类结果中,预测语义信息的概率分布,y′i表示在第一用户输入信息样本xi合并后的标签中,语义信息的真实概率分布。
可以理解的是,在yi中,包括xi在各个预设的语义信息上的预测分类概率。
在预训练阶段,语义识别模型的训练目标是使得上述第一损失函数降低。可选的,预训练阶段的训练结束条件包括但不限于,模型的训练次数达到预设次数阈值,或者模型的损失收敛至预设范围内,或者模型的相邻两次训练对应的损失之差小于预设损失差阈值。
本实施例中,模型精调过程,采用的是带有人工精标注标签的第二用户输入信息样本进行训练的,其中,步骤“基于第二用户输入信息样本的标签和预测语义信息,对语义识别模型进行参数调整,得到训练完成的语义识别模型”,可以包括:
基于第二用户输入信息样本的预测语义信息,以及第二用户输入信息样本的标签中的语义信息,计算语义识别模型的损失;
基于损失调整语义识别模型的参数,得到训练完成的语义识别模型。
在精调阶段,模型的损失同样是分类损失,其损失计算可以采用任意可用的分类损失函数,本实施例对此没有限制。
还是以损失函数为BCEWithLogitsLoss为例,还是令分类器模型的参数为θ。精调阶段,语义识别模型的损失函数(为区别,记为第二损失函数),表示为:
L=Loss(P(yi|zi,6),y″i)
其中,zi表示给定的第二用户输入信息样本,yi表示语义识别模型对于样本zi的预测分类结果中,预测语义信息的概率分布,y″i表示在第二用户输入信息样本zi的精标注标签中,语义信息的真实概率分布。可以理解的是,在yi中,包括zi在各个预设的语义信息上的预测分类概率。
可以理解的是,在该公式中,模型的参数θ的初始值为,预训练过程中得到的最优参数。
本实施例中,对于语义识别模型,可以进行多轮的上述训练,即在精调之后,可以再基于语义识别模型更新第一用户输入信息样本的合并后的标签,具体的,可以基于语义识别模型更新合并后标签中的第一语义信息,更新第一语义信息的方式在此不再赘述,然后基于更新标签后的第一用户输入信息样本训练语义识别模型,之后再基于第二用户输入信息样本对语义识别模型进行精调。在多轮训练后,语义识别模型的识别能力可以进一步得到提升。
为了横向比较本实施例提出的语义识别模型的两步训练框架,在四类典型的分类器上进行了对比试验。
其中,选取1152条标注数据作为精标注训练数据即第二用户输入信息样本,500条标注数据作为开发集数据,1000条标注数据作为测试数据,10000条未标注数据作为弱监督数据(第一用户输入信息样本)来源。
本实验中,RNN,CNN,RCNN中的特征提取层可以基于训练好的BERT模型实现,即使用预训练好的BERT作为固定的文本特征表示,在训练的过程中可以不更新BERT的参数。当BERT作为单独的分类器使用时,在训练的时候可以更新其自身的参数。
该实验中,对比方案如下:
RNN,CNN,RCNN以及BERT为分类器:仅在精标注数据上进行模型训练;
RNN,CNN,RCNN或BERT+弱监督:先用弱监督数据(标签为弱标签)进行模型预训练,再在精标注数据上进行精调。
RNN,CNN,RCNN或BERT+弱监督增强:先用强化后的弱监督数据(标签为合并后的标签)进行模型预训练,再在精标注数据上进行精调。
上述三类方案在四类分类器下的实验结果如下:
方案 F1值 轮次准确率
RNN 68.73 45.30
RNN+弱监督 75.29 53.70
RNN+弱监督增强 76.72 54.40
CNN 70.69 45.50
CNN+弱监督 74.18 51.90
CNN+弱监督增强 77.89 54.50
RCNN 72.36 49.70
RCNN+弱监督 74.89 51.00
RCNN+弱监督增强 76.81 52.50
BERT 80.13 60.60
BERT+弱监督 81.82 66.00
BERT+弱监督增强 88.59 70.00
当与仅在精标注数据上训练的分类器的结果进行比较时,添加具有弱监督数据的两步训练得到的模型的召回率和F1分数增加,表明弱监督数据有望改善分类器的性能。
此外,我们可以看到,基于强化后的弱监督数据训练的分类器在F1评分中的平均提升为3.46%,优于没有数据增强的分类器。事实证明,标签联合方法可以使所提出的框架受益,效果更好,这意味着添加伪标签是有效的。
105、基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到目标用户输入信息的语义信息。
可选的,本实施例中,步骤“基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到目标用户输入信息的语义信息”,可以包括:
通过训练完成的语义识别模型对目标用户输入信息进行文本特征提取,得到所述目标用户输入信息的文本特征信息;
通过所述语义识别模型,基于所述目标用户输入信息的文本特征信息,识别所述目标用户输入信息的语义信息。
其中,步骤“过训练完成的语义识别模型对目标用户输入信息进行文本特征提取,得到所述目标用户输入信息的文本特征信息”,可以包括:
通过训练完成的语义识别模型将目标用户输入信息映射到特征空间中,得到所述目标用户输入信息在所述特征空间的文本特征信息。
具体的,可以是通过语义识别模型的特征提取层将目标用户输入信息映射到特征空间中,得到目标用户输入信息在特征空间的文本特征信息。
本实施例中的文本特征信息,可以由向量构成,如文本特征信息为词向量,句向量等等。
其中,步骤“通过语义识别模型,基于所述目标用户输入信息的文本特征信息,识别所述目标用户输入信息的语义信息”,可以包括:
通过语义识别模型,比较目标用户输入信息的文本特征信息,与预设的至少一种语义信息在特征空间的文本特征信息之间的特征距离;
基于特征距离,识别目标用户输入信息的语义信息。
具体的,可以是通过语义识别模型的分类层进行上述的文本特征信息的比较,然后基于特征距离,识别目标用户输入信息的语义信息。
其中,分类层中每一个分类对应一种预设的语义信息,语义识别模型中每一个输出包括了目标用户输入信息的语义信息,为该输出对应的预设的语义信息的预测概率。
本实施例中,特征提取层可以采用已经训练完成的可用于文本特征提取的模型实现,具体的,可以采用训练完成的word2vec或BERT模型等实现,采用这种训练完成的模型结构提取文本特征信息时,在语义识别模型的训练中,在基于损失调整语义识别模型的参数时,可以保持特征提取层的参数固定不变。
在通过语义识别模型得到目标用户输入信息的语义信息后,可以将该语义信息输入到下游任务的模块中,供下游任务的执行。在一个示例中下游任务可以由开发者设置,本实施例对此没有限制。
可选的,下游业务可以是用户标签生成业务,在步骤基于文本特征信息,识别目标用户输入信息的语义信息后,还可以包括:
基于语义信息生成当前用户的询问标签;
获取当前用户的用户信息;
将当前用户的用户信息,目标用户输入信息以及询问标签,发送给当前用户的询问对象。
其中,在不同的询问场景下,询问对象可以不同,在医疗对话长江下,询问对象可以是医生,或者分诊护士等等。
和当前的对话场景,生成目标用户输入信息的智能回复信息;
输出智能回复信息。
在一个示例中,该下游业务可以是智能问答业务,通过语义识别模型,基于文本特征信息,识别目标用户输入信息的语义信息后,还可以包括:
基于语义信息和当前的对话场景,生成目标用户输入信息的智能回复信息;
输出智能回复信息。
其中,该对话场景可以是与语义识别模型的识别领域相关联的,例如语义识别模型的识别领域为医疗领域,对话场景可以是病情询问场景,用药推荐场景等等。
在另一个示例中,若模型识别出的目标用户输入信息的语义信息中,不存在语义信息的预测概率大于预设预测概率的语义信息,则可以通过引导的方式,进一步引导用户输入语义更加准确的目标用户输入信息,便于模型识别出更准确的语义信息,可选的在通过语义识别模型,基于文本特征信息,识别目标用户输入信息的语义信息后,还可以包括:
若语义识别模型从目标用户输入信息识别出的语义信息中,不存在预测概率超过预设概率阈值的语义信息,则从识别出的语义信息中获取引导语义信息;
基于引导语义信息和当前的对话场景,生成与引导语义信息关联的用户引导信息;
输出用户引导信息;
获取针对用户引导信息的用户输入信息;
将用户输入信息作为新的目标用户输入信息,基于语义识别模型识别新的目标用户输入信息的语义信息。
其中,引导语义信息可以是预测概率排列在前的预设数量(如预测概率排在前3)的引导信息,也可以是预测概率超过最低预设概率阈值(如30%)的引导信息。
本实施例中的用户引导信息可以是针对引导语义信息的详细和准确的描述。用户引导信息中可以包括用于确定引导语音信息的第一引导信息和用于排除非引导语义信息的第二引导信息。
例如,假设引导语义信息为“腹痛”,则用户引导信息中的第一引导信息可以包括:具体是哪个部位感到疼痛,请参照这种描述输入:肋骨以下的腹内组织感到疼痛。第二引导信息可以包括:请确定疼痛的部位不包括以下列举的部位,肋骨以上如胸腔等部位。
采用本申请实施例,鉴于本实施例改进了模型训练样本的标注来源,可以从对话信息中抽取信息,作为对话信息中用户输入信息的弱标注,极大地降低了对于人工标注数据的需求。并且因为弱标注,本申请可以引入包含更多口语化表述的样本数据,从而能大幅度提高本方案模型的召回率,在实际运用场景下有更好的性能表现。本申请实施例针对弱监督数据中缺乏精标签信息的问题,本提出使用精标注数据上训练得到的模型对无标注数据进行标注得到的伪标签。从而仅有弱标签的弱监督数据进行改进,增强了语义识别模型的识别准确性,并且本实施例对语义识别模型的结构无任何限定,只要能够实现语义识别即可,采用本实施例训练模型,并不会增大模型参数量,在现实场景下(尤其是线上服务时)不会影响运行速度。
本实施例还以对话场景为医疗对话场景为例,对语义识别方法进行详细的示例说明。
参考图3,该语义识别方法包括:
301、从医疗对话中,获取用户输入信息;
本实施例中的医疗对话,可以是从现有的任何有关医疗的平台上获取的,例如可以是从购物平台的客服模块中获取的,也可以是从医院中的智能机器人上获取的,还可以是从终端提供的医疗服务客户端中获取的,本实施例对此没有任何限制。
本实施例的医疗对话中包括用户输入信息和回复信息,该回复信息是医疗领域的专业人士,如医生,护士,药师等针对用户输入信息的回复,在一个医疗对话中,用户和医生之间可以进行多次交互对话。
例如,一个医疗对话中可以包括如下的内容:
用户:医生,我的肚子痛,是什么问题呀?
医生:是上腹痛还是下腹痛,是否有腹泻。
用户:下腹疼痛,有腹泻。
医生:可能是急性肠胃炎。
本实施例中的用户输入信息,可以是一个医疗对话中,用户一次输入的信息如“医生,我的肚子痛,是什么问题呀?”,或者,还可以是一个医疗对话中,用户输入的所有信息,如“医生,我的肚子痛,是什么问题呀?”和“下腹疼痛,有腹泻”。
302、将一部分用户输入信息发送至人工标注平台,并接收人工标注平台返回的已标注的用户输入信息,将已标注的用户输入信息确定为第二用户输入信息样本;
303、基于第二用户输入信息样本对语义识别模型进行语义识别训练;
本实施例中的语义识别模型可以按照医院对病人门诊科室的划分进行设置,每一个科室可以对应设置一个语义识别模型,或者,每一个科室也可以划分为更细分的若干小科室,对每个小科室均设置一个语义识别模型。
其中,每个语义识别模型的分类层设置的n个分类,可以包括该语义识别模型对应的科室中可能用到的医学词汇,该医学词汇可以是用于描述病情、病症的词汇,如消化内科,可以设置语义识别模型的分类包括:腹泻、肠胃炎、腹痛、腹胀、等等词汇。
304、将一部分的用户输入信息作为伪标注的第一用户输入信息样本,通过训练后的语义识别模型对第一用户输入信息样本进行语义识别,得到第一用户输入信息样本的第一语义信息,基于第一语义信息生成第一用户输入信息样本的伪标签;
305、从医疗对话中获取第一用户输入信息样本中的用户输入信息对应的回复信息;
306、将第一用户输入信息样本对应的回复信息,与预设的语义信息集合进行匹配,基于所述语义信息集合中匹配到的语义信息,确定所述第一用户输入信息样本的第二语义信息,基于第二语义信息生成第一用户输入信息样的弱标签;
本实施例中的语义信息集合,可以是针对每个科室下的语义识别模型设置的,一个语义识别模型设置有一个对应的语义信息集合,该语义信息集合中的语义信息包括语义识别模型的分类层的n个分类名称,以及与该n个分类名称在语义上关联的语义关联词,其中,该语义关联词,也可以是专业的医疗词汇。
本实施例基于语义信息集合,可以快速从回复信息中抽取医学关键词作为第一用户输入信息样本的弱标签。
307、对第一用户输入信息样本的弱标签和伪标签进行合并,得到第一用户输入信息样本的合并标签;
308、通过语义识别模型对第一用户输入信息样本提取文本特征信息,基于第一用户输入信息样本的文本特征信息,识别第一用户输入信息样本的预测语义信息;
309、基于第一用户输入信息样本的标签和预测语义信息,计算语义识别模型的预训练阶段的第一损失;
310、基于第一损失对语义识别模型的参数进行调整;
311、通过调整后的语义识别模型对第二用户输入信息样本提取文本特征信息,基于第二用户输入信息样本的文本特征信息,识别第二用户输入信息样本的预测语义信息;
312、基于第二用户输入信息样本的标签和预测语义信息,计算语义识别模型在精调练阶段的第二损失;
313、基于第二损失对语义识别模型进行参数调整,得到训练完成的语义识别模型;
314、基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到目标用户输入信息的语义信息。
采用本实施例的方案,可以无需医疗领域的专业人士对第一用户输入信息样本进行人工标注,可以降低语义识别模型的训练对人工标注的依赖,缩短模型训练所需时长,而在基于第一用户输入信息样本训练语义识别模型后,采用精标注的第二用户输入信息样本对语义识别模型进行进一步的精调,可以有效提升模型的语义识别准确性。
为了更好地实施以上方法,相应的,本发明实施例还提供一种语义识别装置,该语义识别装置具体集成在终端或服务器中。
参考图4,该装置包括:
第一语义预测单元401,用于通过语义识别模型对第一用户输入信息样本提取文本特征信息,基于第一用户输入信息样本的文本特征信息,识别第一用户输入信息样本的预测语义信息,其中,第一用户输入信息样本的标签包括对第一用户输入信息样本进行语义识别得到的语义信息,和/或从第一用户输入信息样本的回复信息中获取的信息;
第一参数调整单元402,用于基于第一用户输入信息样本的标签和预测语义信息,对语义识别模型进行参数调整;
第二语义预测单元403,用于通过调整后的语义识别模型对第二用户输入信息样本提取文本特征信息,基于第二用户输入信息样本的文本特征信息,识别第二用户输入信息样本的预测语义信息,其中,第二用户输入信息样本的标签包括第二用户输入信息样本的语义信息;
第二参数调整单元404,用于基于第二用户输入信息样本的标签和预测语义信息,对语义识别模型进行参数调整,得到训练完成的语义识别模型;
语义识别单元405,用于基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到目标用户输入信息的语义信息。
在一个可选的示例中,语义识别单元,用于:
通过训练完成的语义识别模型对目标用户输入信息进行文本特征提取,得到目标用户输入信息的文本特征信息;
通过语义识别模型,基于目标用户输入信息的文本特征信息,识别目标用户输入信息的语义信息
在一个可选的示例中,语义识别单元,用于:
通过训练完成的语义识别模型将目标用户输入信息映射到特征空间中,得到目标用户输入信息在特征空间的文本特征信息;
通过语义识别模型,比较目标用户输入信息的文本特征信息,与预设的至少一种语义信息在特征空间的文本特征信息之间的特征距离;
基于特征距离,识别目标用户输入信息的语义信息。
在一个可选的示例中,当第一用户输入信息样本的标签包括通过对第一用户输入信息样本进行语义识别得到的语义信息时,装置还包括:样本获取单元,用于:
在通过语义识别模型对第一用户输入信息样本进行文本特征提取,得到第一用户输入信息样本的文本特征信息前,
获取无标注的第一用户输入信息样本;
对第一用户输入信息样本进行语义识别,得到第一用户输入信息样本的第一语义信息;
基于第一语义信息生成第一用户输入信息样本的伪标签。
在一个可选的示例中,当第一用户输入信息样本的标签包括从第一用户输入信息样本的回复信息中获取的信息时,样本获取单元,还用于:
在通过语义识别模型对第一用户输入信息样本进行文本特征提取,得到第一用户输入信息样本的文本特征信息前,获取第一用户输入信息样本所在的对话信息中,针对第一用户输入信息样本的回复信息;
从回复信息中获取第一用户输入信息样本的第二语义信息;
基于第二语义信息生成第一用户输入信息样本的弱标签。
在一个可选的示例中,样本获取单元,用于:
通过已标注的第二用户输入信息样本对语义识别模型进行训练;
采用训练后的语义识别模型对第一用户输入信息样本进行语义识别,得到第一用户输入信息样本的预测语义信息;
将得到的预测语义信息作为第一用户输入信息样本的第一语义信息。
在一个可选的示例中,样本获取单元,还用于:
在通过语义识别模型对第一用户输入信息样本进行文本特征提取,得到第一用户输入信息样本的文本特征信息前,获取第一用户输入信息样本所在的对话信息中,针对第一用户输入信息样本的回复信息;
从回复信息中获取第一用户输入信息样本的第二语义信息;
基于第二语义信息生成第一用户输入信息样本的伪标签;
对第一用户输入信息样本的伪标签和弱标签进行合并,得到第二语义信息的合并后的标签。
在一个可选的示例中,样本获取单元,用于:
将回复信息,与预设的语义信息集合进行匹配;
基于语义信息集合中匹配到的语义信息,确定第一用户输入信息样本的第二语义信息。
在一个可选的示例中,第一参数调整单元,用于:
基于第一用户输入信息样本的预测语义信息,以及第一用户输入信息样本的合并后的标签中的语义信息,计算语义识别模型的损失;
基于损失调整语义识别模型的参数。
在一个可选的示例中,本实施例的语义识别装置还包括回复单元,用于:
在基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到目标用户输入信息的语义信息后,基于语义信息和当前的对话场景,生成目标用户输入信息的智能回复信息;
输出智能回复信息。
采用本申请实施例,语义识别模型的第一用户输入信息样本的标签,无需人工标注,可以降低语义识别模型的训练对人工标注的依赖,提升语义识别模型的训练速度,并且第一用户输入信息样本和第二用户输入信息样本对语义识别模型的语义识别训练可以有效语义识别的准确性。
此外,本发明实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器,如图5所示,其示出了本发明实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图5中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
计算机设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
通过语义识别模型对第一用户输入信息样本提取文本特征信息,基于所述第一用户输入信息样本的文本特征信息,识别所述第一用户输入信息样本的预测语义信息,其中,所述第一用户输入信息样本的标签包括对第一用户输入信息样本进行语义识别得到的语义信息,和/或从所述第一用户输入信息样本的回复信息中获取的信息;
基于所述第一用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整;
通过调整后的所述语义识别模型对第二用户输入信息样本提取文本特征信息,基于所述第二用户输入信息样本的文本特征信息,识别所述第二用户输入信息样本的预测语义信息,其中,所述第二用户输入信息样本的标签包括所述第二用户输入信息样本的语义信息;
基于所述第二用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整,得到训练完成的语义识别模型;
基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到所述目标用户输入信息的语义信息。
由此,本实施例中语义识别模型的第一用户输入信息样本的标签,无需人工标注,可以降低语义识别模型的训练对人工标注的依赖,提升语义识别模型的训练速度,并且两种类型样本的使用可以有效语义识别的准确性。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例还提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的语义识别方法。
根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中的各种可选实现方式中提供的方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的语义识别方法中的步骤,因此,可以实现本发明实施例所提供的语义识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种语义识别方法、装置、计算机设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种语义识别方法,其特征在于,包括:
通过语义识别模型对第一用户输入信息样本提取文本特征信息,基于所述第一用户输入信息样本的文本特征信息,识别所述第一用户输入信息样本的预测语义信息,其中,所述第一用户输入信息样本的标签包括对第一用户输入信息样本进行语义识别得到的语义信息,和/或从所述第一用户输入信息样本的回复信息中获取的信息;
基于所述第一用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整;
通过调整后的所述语义识别模型对第二用户输入信息样本提取文本特征信息,基于所述第二用户输入信息样本的文本特征信息,识别所述第二用户输入信息样本的预测语义信息,其中,所述第二用户输入信息样本的标签包括所述第二用户输入信息样本的语义信息;
基于所述第二用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整,得到训练完成的语义识别模型;
基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到所述目标用户输入信息的语义信息。
2.根据权利要求1所述的语义识别方法,其特征在于,所述基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到所述目标用户输入信息的语义信息,包括:
通过训练完成的语义识别模型对目标用户输入信息进行文本特征提取,得到所述目标用户输入信息的文本特征信息;
通过所述语义识别模型,基于所述目标用户输入信息的文本特征信息,识别所述目标用户输入信息的语义信息。
3.根据权利要求2所述的语义识别方法,其特征在于,所述通过训练完成的语义识别模型对目标用户输入信息进行文本特征提取,得到所述目标用户输入信息的文本特征信息,包括:
通过训练完成的语义识别模型将目标用户输入信息映射到特征空间中,得到所述目标用户输入信息在所述特征空间的文本特征信息;
所述通过所述语义识别模型,基于所述目标用户输入信息的文本特征信息,识别所述目标用户输入信息的语义信息,包括:
通过所述语义识别模型,比较所述目标用户输入信息的文本特征信息,与预设的至少一种语义信息在所述特征空间的文本特征信息之间的特征距离;
基于所述特征距离,识别所述目标用户输入信息的语义信息。
4.根据权利要求1所述的语义识别方法,其特征在于,当所述第一用户输入信息样本的标签包括通过对第一用户输入信息样本进行语义识别得到的语义信息时,所述通过语义识别模型对第一用户输入信息样本提取文本特征信息前,还包括:
获取无标注的第一用户输入信息样本;
对所述第一用户输入信息样本进行语义识别,得到所述第一用户输入信息样本的第一语义信息;
基于所述第一语义信息生成所述第一用户输入信息样本的伪标签。
5.根据权利要求1所述的语义识别方法,其特征在于,当所述第一用户输入信息样本的标签包括从所述第一用户输入信息样本的回复信息中获取的信息时,所述通过语义识别模型对第一用户输入信息样本提取文本特征信息前,还包括:
获取所述第一用户输入信息样本所在的对话信息中,针对所述第一用户输入信息样本的回复信息;
从所述回复信息中获取所述第一用户输入信息样本的第二语义信息;
基于所述第二语义信息生成所述第一用户输入信息样本的弱标签。
6.根据权利要求4所述的语义识别方法,其特征在于,所述对所述第一用户输入信息样本进行语义识别,得到所述第一用户输入信息样本的第一语义信息,包括:
通过已标注的所述第二用户输入信息样本对所述语义识别模型进行训练;
采用训练后的所述语义识别模型对所述第一用户输入信息样本进行语义识别,得到所述第一用户输入信息样本的预测语义信息;
将得到的所述预测语义信息作为所述第一用户输入信息样本的第一语义信息。
7.根据权利要求4所述的语义识别方法,其特征在于,所述通过语义识别模型对第一用户输入信息样本提取文本特征信息前,还包括:
获取所述第一用户输入信息样本所在的对话信息中,针对所述第一用户输入信息样本的回复信息;
从所述回复信息中获取所述第一用户输入信息样本的第二语义信息;
基于所述第二语义信息生成所述第一用户输入信息样本的伪标签;
对所述第一用户输入信息样本的伪标签和弱标签进行合并,得到所述第二语义信息的合并后的标签。
8.根据权利要求7所述的语义识别方法,其特征在于,所述从所述回复信息中获取所述第一用户输入信息样本的第二语义信息,包括:
将所述回复信息,与预设的语义信息集合进行匹配;
基于所述语义信息集合中匹配到的语义信息,确定所述第一用户输入信息样本的第二语义信息。
9.根据权利要求7所述的语义识别方法,其特征在于,所述基于所述第一用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整,包括:
基于所述第一用户输入信息样本的预测语义信息,以及所述第一用户输入信息样本的合并后的标签中的语义信息,计算所述语义识别模型的损失;
基于所述损失调整所述语义识别模型的参数。
10.根据权利要求1-9任一项所述的语义识别方法,其特征在于,所述基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到所述目标用户输入信息的语义信息后,还包括:
基于所述语义信息和当前的对话场景,生成所述目标用户输入信息的智能回复信息;
输出所述智能回复信息。
11.一种语义识别装置,其特征在于,包括:
第一语义预测单元,用于通过语义识别模型对第一用户输入信息样本提取文本特征信息,基于所述第一用户输入信息样本的文本特征信息,识别所述第一用户输入信息样本的预测语义信息,其中,所述第一用户输入信息样本的标签包括对第一用户输入信息样本进行语义识别得到的语义信息,和/或从所述第一用户输入信息样本的回复信息中获取的信息;
第一参数调整单元,用于基于所述第一用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整;
第二语义预测单元,用于通过调整后的所述语义识别模型对第二用户输入信息样本提取文本特征信息,基于所述第二用户输入信息样本的文本特征信息,识别所述第二用户输入信息样本的预测语义信息,其中,所述第二用户输入信息样本的标签包括所述第二用户输入信息样本的语义信息;
第二参数调整单元,用于基于所述第二用户输入信息样本的标签和预测语义信息,对所述语义识别模型进行参数调整,得到训练完成的语义识别模型;
语义识别单元,用于基于训练完成的语义识别模型对目标用户输入信息进行语义识别,得到所述目标用户输入信息的语义信息。
12.一种存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至10中任一项所述方法的步骤。
13.一种存储介质,其上存储有计算机程序,其特征在于,当计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至10中任一项所述方法的步骤。
CN202010840252.0A 2020-08-18 2020-08-18 一种语义识别方法、装置、计算机设备和存储介质 Active CN112052318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010840252.0A CN112052318B (zh) 2020-08-18 2020-08-18 一种语义识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010840252.0A CN112052318B (zh) 2020-08-18 2020-08-18 一种语义识别方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112052318A true CN112052318A (zh) 2020-12-08
CN112052318B CN112052318B (zh) 2024-11-08

Family

ID=73600827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010840252.0A Active CN112052318B (zh) 2020-08-18 2020-08-18 一种语义识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112052318B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417132A (zh) * 2020-12-17 2021-02-26 南京大学 一种利用谓宾信息筛选负样本的新意图识别方法
CN112989767A (zh) * 2021-04-21 2021-06-18 腾讯科技(深圳)有限公司 医学词语标注方法、医学词语映射方法、装置及设备
CN113806572A (zh) * 2021-09-18 2021-12-17 中国电信股份有限公司 一种用于图像标注的方法、介质及装置
CN114238644A (zh) * 2022-02-22 2022-03-25 北京澜舟科技有限公司 一种降低语义识别计算量的方法、系统及存储介质
CN114595695A (zh) * 2022-01-21 2022-06-07 华东师范大学 一种用于少样本意图识别系统的自训练模型构建方法
CN114637848A (zh) * 2022-03-15 2022-06-17 美的集团(上海)有限公司 语义分类方法及装置
CN117238281A (zh) * 2023-11-09 2023-12-15 摩斯智联科技有限公司 车机系统语音引导词仲裁方法、装置、车机和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294493A (zh) * 2015-06-08 2017-01-04 腾讯科技(深圳)有限公司 实现文档格式转换的方法及装置
US20180203921A1 (en) * 2017-01-17 2018-07-19 Xerox Corporation Semantic search in document review on a tangible user interface
CN110287297A (zh) * 2019-05-22 2019-09-27 深圳壹账通智能科技有限公司 对话答复方法、装置、计算机设备及计算机可读存储介质
US20190340235A1 (en) * 2018-05-01 2019-11-07 Capital One Services, Llc Text categorization using natural language processing
CN110717017A (zh) * 2019-10-17 2020-01-21 腾讯科技(深圳)有限公司 一种处理语料的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294493A (zh) * 2015-06-08 2017-01-04 腾讯科技(深圳)有限公司 实现文档格式转换的方法及装置
US20180203921A1 (en) * 2017-01-17 2018-07-19 Xerox Corporation Semantic search in document review on a tangible user interface
US20190340235A1 (en) * 2018-05-01 2019-11-07 Capital One Services, Llc Text categorization using natural language processing
CN110287297A (zh) * 2019-05-22 2019-09-27 深圳壹账通智能科技有限公司 对话答复方法、装置、计算机设备及计算机可读存储介质
CN110717017A (zh) * 2019-10-17 2020-01-21 腾讯科技(深圳)有限公司 一种处理语料的方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417132A (zh) * 2020-12-17 2021-02-26 南京大学 一种利用谓宾信息筛选负样本的新意图识别方法
CN112417132B (zh) * 2020-12-17 2023-11-17 南京大学 一种利用谓宾信息筛选负样本的新意图识别方法
CN112989767A (zh) * 2021-04-21 2021-06-18 腾讯科技(深圳)有限公司 医学词语标注方法、医学词语映射方法、装置及设备
CN112989767B (zh) * 2021-04-21 2021-09-03 腾讯科技(深圳)有限公司 医学词语标注方法、医学词语映射方法、装置及设备
CN113806572A (zh) * 2021-09-18 2021-12-17 中国电信股份有限公司 一种用于图像标注的方法、介质及装置
CN114595695A (zh) * 2022-01-21 2022-06-07 华东师范大学 一种用于少样本意图识别系统的自训练模型构建方法
CN114238644A (zh) * 2022-02-22 2022-03-25 北京澜舟科技有限公司 一种降低语义识别计算量的方法、系统及存储介质
CN114637848A (zh) * 2022-03-15 2022-06-17 美的集团(上海)有限公司 语义分类方法及装置
CN114637848B (zh) * 2022-03-15 2024-08-09 美的集团(上海)有限公司 语义分类方法及装置
CN117238281A (zh) * 2023-11-09 2023-12-15 摩斯智联科技有限公司 车机系统语音引导词仲裁方法、装置、车机和存储介质
CN117238281B (zh) * 2023-11-09 2024-03-15 摩斯智联科技有限公司 车机系统语音引导词仲裁方法、装置、车机和存储介质

Also Published As

Publication number Publication date
CN112052318B (zh) 2024-11-08

Similar Documents

Publication Publication Date Title
CN112052318B (zh) 一种语义识别方法、装置、计算机设备和存储介质
US20230016365A1 (en) Method and apparatus for training text classification model
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN113961705B (zh) 一种文本分类方法及服务器
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
WO2021151271A1 (zh) 基于命名实体的文本问答的方法、装置、设备及存储介质
US12039270B2 (en) Disentangle syntax and semantics in sentence representation with decomposable variational autoencoder
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN110888970B (zh) 文本生成方法、装置、终端和存储介质
US11893347B2 (en) Contrastive meta-learning for zero-shot learning
Hu et al. A novel word embedding learning model using the dissociation between nouns and verbs
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN110795544B (zh) 内容搜索方法、装置、设备和存储介质
WO2023173554A1 (zh) 坐席违规话术识别方法、装置、电子设备、存储介质
Seilsepour et al. Self-supervised sentiment classification based on semantic similarity measures and contextual embedding using metaheuristic optimizer
US20220253630A1 (en) Optimized policy-based active learning for content detection
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
Pragst et al. Comparative study of sentence embeddings for contextual paraphrasing
CN116011450A (zh) 分词模型训练方法、系统、设备、存储介质及分词方法
Ayoub Multimodal Affective Computing Using Temporal Convolutional Neural Network and Deep Convolutional Neural Networks
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant