发明内容
有鉴于此,本发明实施例提供一种文本类目标注方法、装置、电子设备及存储介质,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种文本类目标注方法,所述方法包括:
获取待处理的目标文本,并对所述目标文本进行分词处理,以形成与所述目标文本相匹配的关键词;
通过文本处理模型中的第一类目标注网络,对所述目标文本进行词语级的处理,确定与所述目标文本相对应的词语级的类目标注结果;
通过文本处理模型中的第一类目标注网络,对所述目标文本进行语句级的处理,确定与所述目标文本相对应的语句级的类目标注结果;
通过文本处理模型中的第二类目标注网络,对所述目标文本进行复合词语级的处理,确定与所述目标文本相对应的复合词语级的类目标注结果;
基于与所述关键词相对应的关键词知识类目标注网络,对所述目标文本进行处理,以形成相应的关键词类目标注结果;
通过所述关键词类目标注结果与相应不同类目标注结果进行比较,对所述文本类目的基准结果进行替换,以实现对所述待处理的目标文本的文本类目进行标注。
本发明实施例还提供了一种文本类目标注装置,所述装置包括:
信息传输模块,用于获取待处理的目标文本;
信息处理模块,用于对所述目标文本进行分词处理,以形成与所述目标文本相匹配的关键词;
所述信息处理模块,用于通过文本处理模型中的第一类目标注网络,对所述目标文本进行词语级的处理,确定与所述目标文本相对应的词语级的类目标注结果;
信息处理模块,用于通过文本处理模型中的第一类目标注网络,对所述目标文本进行语句级的处理,确定与所述目标文本相对应的语句级的类目标注结果;
信息处理模块,用于通过文本处理模型中的第二类目标注网络,对所述目标文本进行复合词语级的处理,确定与所述目标文本相对应的复合词语级的类目标注结果;
信息处理模块,用于基于与所述关键词相对应的关键词知识类目标注网络,对所述目标文本进行处理,以形成相应的关键词类目标注结果;
信息处理模块,用于通过所述关键词类目标注结果与相应不同类目标注结果进行比较,对所述文本类目的基准结果进行替换,以实现对所述待处理的目标文本的文本类目进行标注。
上述方案中,
所述信息处理模块,用于确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;
所述信息处理模块,用于根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;
所述信息处理模块,用于根据与所述动态噪声阈值相匹配的第一分词策略,对所述目标文本进行分词处理,形成与所述目标文本相匹配的关键词;
所述信息处理模块,用于确定与所述文本处理模型相对应的固定噪声阈值;
所述信息处理模块,用于根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;
所述信息处理模块,用于根据与所述固定噪声阈值相匹配的第二分词策略,对所述目标文本进行分词处理,形成与所述目标文本相匹配的关键词。
上述方案中,
所述信息处理模块,用于通过文本处理模型中的第一类目标注网络,对与所述目标文本的相匹配的关键词进行处理,形成与所述关键词相对应的关键词向量;
所述信息处理模块,用于通过文本处理模型中的第一类目标注网络,对所述关键词向量进行加权处理,形成与所述目标文本相对应的词语级文本向量;
所述信息处理模块,用于对目标层级类目进行编码和加权平均处理,确定所述目标层级类目对应的目标层级类目向量;
所述信息处理模块,用于通过文本处理模型中的第一类目标注网络,对目标层级类目向量进行处理,
所述信息处理模块,用于根据目标层级类目向量的处理结果与所述词语级文本向量的相似度,确定与所述目标文本相对应的词语级的类目标注结果。
上述方案中,
所述信息处理模块,用于通过文本处理模型中的第一类目标注网络,对与所述目标文本进行处理,形成与所述目标文本相对应的文本向量;
所述信息处理模块,用于通过文本处理模型中的第一类目标注网络,对所述文本向量进行加权处理,形成与所述目标文本相对应的单字级向量;
所述信息处理模块,用于对所述单字级向量进行编码处理,形成与所述目标文本相对应的语句级文本级向量;
所述信息处理模块,用于对目标层级类目进行编码和加权平均处理,确定所述目标层级类目对应的目标层级类目向量;
所述信息处理模块,用于通过文本处理模型中的第一类目标注网络,对目标层级类目向量进行处理,
所述信息处理模块,用于根据目标层级类目向量的处理结果与所述语句文本向量的相似度,确定与所述目标文本相对应的语句级的类目标注结果。
上述方案中,
所述信息处理模块,用于通过文本处理模型中的第二类目标注网络,对与所述目标文本的相匹配的关键词进行处理,形成与所述关键词相对应的关键词向量;
所述信息处理模块,用于通过文本处理模型中的第二类目标注网络,对所述关键词向量进行加权处理,形成与所述目标文本相对应的复合词语级文本向量;
所述信息处理模块,用于对目标层级类目进行编码和加权平均处理,确定所述目标层级类目对应的目标层级类目向量;
所述信息处理模块,用于通过文本处理模型中的第二类目标注网络,对目标层级类目向量进行处理,
所述信息处理模块,用于根据目标层级类目向量的处理结果与所述复合词语级文本向量的相似度,确定与所述目标文本相对应的复合词语级的类目标注结果。
上述方案中,
所述信息处理模块,用于确定与所述文本处理模型的使用环境相匹配的关键词知识图谱;
所述信息处理模块,用于基于与所述关键词相对应的关键词知识类目标注网络,通过所述关键词知识图谱,对所述目标文本进行编码与加权平均处理;形成相应的关键词类目标注结果。
上述方案中,
所述信息处理模块,用于抽取所述目标文本相对应的词语级的类目标注结果、所述目标文本相对应的语句级的类目标注结果,和所述目标文本相对应的复合词语级的类目标注结果中的任意两种类目标注结果;
所述信息处理模块,用于对所抽取的任意两种类目标注结果进行比较;
所述信息处理模块,用于当所抽取的任意两种类目标注结果相同,且超过相应的类目标注结果阈值时,对所述文本类目的基准结果进行替换。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的文本类目标注方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的文本类目标注方法。
本发明实施例具有以下有益效果:
通过获取待处理的目标文本,并对所述目标文本进行分词处理,以形成与所述目标文本相匹配的关键词;通过文本处理模型中的第一类目标注网络,对所述目标文本进行词语级的处理,确定与所述目标文本相对应的词语级的类目标注结果;通过文本处理模型中的第一类目标注网络,对所述目标文本进行语句级的处理,确定与所述目标文本相对应的语句级的类目标注结果;通过文本处理模型中的第二类目标注网络,对所述目标文本进行复合词语级的处理,确定与所述目标文本相对应的复合词语级的类目标注结果;基于与所述关键词相对应的关键词知识类目标注网络,对所述目标文本进行处理,以形成相应的关键词类目标注结果;通过所述关键词类目标注结果与相应不同类目标注结果进行比较,对所述文本类目的基准结果进行替换,实现对所述待处理的目标文本的文本类目进行标注,这一过程,不但可以在不具有任何所属类目已知的文本的情况下,由运行计算机设备通过机器学习技术确定任何文本所属的类目,对文本类目进行标注,而且节省了传统方式中人工标注类目的环节,节省了人力成本,减少了确定待处理文本所属的类目的质量对人工标注的质量的依赖性,提升文本类目标注的准确性。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
3)语音识别(SR Speech Recognition):也被称为自动语音识别(ASR AutomaticSpeech Recognition)、计算机语音识别(CSR Computer Speech Recognition)或者语音转文本识别(STT Speech To Text),其目标是使用计算机自动将人类的语音内容转换为相应的文字。
4)机器翻译(Machine Translation,MT):属于计算语言学的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。神经网络机器翻译(Neural Machine Translation,NMT)是使用神经网络技术进行机器翻译的一种技术。
5)编码器-解码器结构:机器翻译技术常用的网络结构。由编码器和解码器两部分组成,编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量,解码器接收编码器输出的结果作为自己的输入,输出对应的另一种语言的文本序列。
6)双向注意力神经网络模(BERT Bidirectional Encoder Representationsfrom Transformers)谷歌提出的双向注意力神经网络模型。
7)token:词单元,对输入文本做任何实际处理前,都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。
8)Softmax:归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在[0,1]之间,并且所有元素的和为1。
9)类目体系:将文本类别的目标领域进行规定和划分后所形成的体系,包含多个类目。
10)文本分类:将文本分到一个类目体系中一个目标类目。
11)文本类目标注:将文本标注为一个类目体系中的一个或多个类目的任务,包含文本分类。
12)多层级类目:在类目体系中,类目具有层级关系。
13)词向量:对词或者词组用固定维度的分布向量表示。融合算法:将多种算法融合,包括算法层融合和结果层融合。无监督算法:学习不带标签数据内部特征。关键词知识:在知识图谱中,与关键词存在等价和属于关系的关键词集合。
14)K-means:无监督的聚类方法,通过计算文本之间相似度,不断迭代将文本集合聚成指定数量的簇。
15)Light GBM:一种使用基于树的学习算法的梯度提升框架,可以实现文本分类。
16)深度学习文本分类:使用神经网络对文本进行编码,然后对编码后的文本进行分类。
17)分词:使用中文分词工具切分中文文本,得到细粒度词的集合。停用词:对于文本的语义没有贡献或者贡献可以不计的字或词。Cosin相似度:两个文本表示成向量之后的余弦相似度。
18)Transformers:一种新的网络结构,采用注意力机制,代替传统的编码器-解码器必须依赖其它神经网络的模式。字向量:对单个字用固定维度的分布向量表示。复合词:由细粒度的关键词组成的粒度较粗的关键词,其语义相对细粒度关键词更加丰富和完整。
19)Jieba:一个中文分词工具,支持python编程。Hanlp:一个中文开源分词工具,支持Java编程。
图1为本发明实施例提供的文本类目标注方法的使用场景示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有关于文本输入功能的应用软件的客户端,用户通过所设置的文本输入客户端可以输入相应的问题语句,文本输入客户端也可以接收相应的文本类目标注结果,并将所接收的文本类目标注结果向用户进行展示;终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
作为一个示例,服务器200用于布设所述文本处理模型并对所述文本处理模型进预行训练,以更新所述文本处理模型中第以类目标注网络和第二类目标注网络的编码器参数和解码器参数,以通过所述关键词类目标注结果与相应不同类目标注结果进行比较,对所述文本类目的基准结果进行替换,现对所述待处理的目标文本的文本类目进行标注,实现通过文本处理模型中第一类目标注网络和第二类目标注网络所生成的文本类目标注结果,并通过终端(终端10-1和/或终端10-2)展示文本处理模型所生成的文本类目标注结果进行展示。
当然在通过文本处理模型对目标问题语句进行处理以生成相应的文本类目标注结果之前,还需要文本类目的基准结果进行替换,具体包括:获取待处理的目标文本,并对所述目标文本进行分词处理,以形成与所述目标文本相匹配的关键词;通过文本处理模型中的第一类目标注网络,对所述目标文本进行词语级的处理,确定与所述目标文本相对应的词语级的类目标注结果;通过文本处理模型中的第一类目标注网络,对所述目标文本进行语句级的处理,确定与所述目标文本相对应的语句级的类目标注结果;通过文本处理模型中的第二类目标注网络,对所述目标文本进行复合词语级的处理,确定与所述目标文本相对应的复合词语级的类目标注结果;基于与所述关键词相对应的关键词知识类目标注网络,对所述目标文本进行处理,以形成相应的关键词类目标注结果;通过所述关键词类目标注结果与相应不同类目标注结果进行比较,对所述文本类目的基准结果进行替换,以实现对所述待处理的目标文本的文本类目进行标注。
下面对本发明实施例的文本类目标注装置的结构做详细说明,文本类目标注装置可以各种形式来实施,如带有文本处理文本类目标注功能的专用终端,也可以为设置有文本处理文本类目标注功能的服务器,例如前序图1中的服务器200。图2为本发明实施例提供的文本类目标注装置的组成结构示意图,可以理解,图2仅仅示出了文本类目标注装置的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的文本类目标注装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。文本类目标注装置20中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的文本类目标注装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的文本类目标注装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本类目标注方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的文本类目标注装置采用软硬件结合实施的示例,本发明实施例所提供的文本类目标注装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的文本类目标注方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的文本类目标注装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的文本类目标注方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持文本类目标注装置20的操作。这些数据的示例包括:用于在文本类目标注装置20上操作的任何可执行指令,如可执行指令,实现本发明实施例的从文本类目标注方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的文本类目标注装置可以采用软件方式实现,图2示出了存储在存储器202中的文本类目标注装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括文本类目标注装置,文本类目标注装置中包括以下的软件模块:信息传输模块2081,信息处理模块2082。当文本类目标注装置中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的文本类目标注方法,接下来说明文本类目标注装置中各个软件模块的功能,其中,
信息传输模块2081,用于获取待处理的目标文本;
信息处理模块2082,用于对所述目标文本进行分词处理,以形成与所述目标文本相匹配的关键词;
所述信息处理模块2082,用于通过文本处理模型中的第一类目标注网络,对所述目标文本进行词语级的处理,确定与所述目标文本相对应的词语级的类目标注结果;
信息处理模块2082,用于通过文本处理模型中的第一类目标注网络,对所述目标文本进行语句级的处理,确定与所述目标文本相对应的语句级的类目标注结果;
信息处理模块2082,用于通过文本处理模型中的第二类目标注网络,对所述目标文本进行复合词语级的处理,确定与所述目标文本相对应的复合词语级的类目标注结果;
信息处理模块2082,用于基于与所述关键词相对应的关键词知识类目标注网络,对所述目标文本进行处理,以形成相应的关键词类目标注结果;
信息处理模块2082,用于通过所述关键词类目标注结果与相应不同类目标注结果进行比较,对所述文本类目的基准结果进行替换,以实现对所述待处理的目标文本的文本类目进行标注。
结合图2示出的文本类目标注装置20说明本发明实施例提供的文本类目标注方法,在介绍本发明实施例提供的文本类目标注方法之前,首先介绍相关技术中,通过传统的文本处理模型根据问题文本生成相应文本类目标注结果的过程中,图3为现有技术中,基于RNN的Seq2Seq模型生成文本类目标注结果的示意图,其中,eq2seq模型是以编码器(Encode)和解码器(Decode)为代表的架构方式,seq2seq模型是根据输入序列X来生成输出序列Y。编码器(Encode)和解码器(Decode)为代表的seq2seq模型中,编码器(Encode)是将输入序列转化成一个固定长度的向量,解码器(Decode)将输入的固定长度向量解码成输出序列。如图3所示,编码器(Encoder)对输入的问题语句进行编码,得到问题语句的文本特征;解码器(Decoder)对文本特征进行解码后输出生成相应的回复,其中,编码器(Encode)和解码器(Decode)是一一对应的。
可见,对于图3所示的相关技术来说基于Seq2Seq模型的文本标注系统的缺点在于,相关技术中的模型本身只对训练数据目标文本y-标注信息建立一对一的关系,并且使用MLE进行模型的优化,这导致了模型会生成很多高频的重复标注,这些标注通常没有意义且很短。同时,很多实际场景中,同一个目标文本y可以有很多种标注信息,现有的Seq2Seq模型由于编码器(Encode)和解码器(Decode)是一一对应的,并不能够有效对这种一对多问题进行处理,用户体验差。
为解决这一相关技术中的缺陷,参见图4,图4为本发明实施例提供的文本类目标注方法一个可选的流程示意图,可以理解地,图4所示的步骤可以由运行文本类目标注装置的各种电子设备执行,例如可以是如带有文本类目标注功能的专用终端、带有文本处理文本类目标注功能的服务器或者服务器集群。下面针对图4示出的步骤进行说明。
步骤401:文本类目标注装置获取待处理的目标文本,并对所述目标文本进行分词处理,以形成与所述目标文本相匹配的关键词。
在本发明的一些实施例中,对所述目标文本进行分词处理,以形成与所述目标文本相匹配的关键词,可以通过以下方式实现:
确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;根据与所述动态噪声阈值相匹配的第一分词策略,对所述目标文本进行分词处理,形成与所述目标文本相匹配的关键词。其中由于文本处理模型的使用环境不同,与所述文本处理模型的使用环境相匹配的动态噪声阈值也不相同,例如,学术翻译的使用环境中,与所述文本处理模型的使用环境相匹配的动态噪声阈值需要小于文章阅读环境中的动态噪声阈值。
在本发明的一些实施例中,对所述目标文本进行分词处理,以形成与所述目标文本相匹配的关键词,可以通过以下方式实现:
确定与所述文本处理模型相对应的固定噪声阈值;根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;根据与所述固定噪声阈值相匹配的第二分词策略,对所述目标文本进行分词处理,形成与所述目标文本相匹配的关键词。其中,当文本处理模型固化于相应的硬件机构中,使用环境为口语化翻译时,通过固定文本处理模型相对应的固定噪声阈值,能够有效提神文本处理模型的训练速度,减少用户的等待时间。
在本发明的一些实施例中,关键词对应的语义描述信息可以根据相关人员整理的、用于描述该关键词的信息(以下简称为专家描述信息)确定,相关人员可以是相关领域的专家。具体地,可以由专家针对各候选关键词整理各自对应的专家描述信息,再根据各候选关键词、各专家描述信息、以及各候选关键词及各专家描述信息之间的匹配关系,构建专家知识库,据此,需要得到关键词的语义描述信息时,在专家知识库中查找与该关键词对应的候选关键词,该关键词的语义描述信息可以包括查找到的候选关键词所匹配的专家描述信息。进一步地,语义表达式可以包括正向语义表达式和负向语义表达式,语义关系包括正向语义关系和负向语义关系。此外,还包括限定语义表达式,限定语义表达式是描述类目语义中限定关系的表达式。限定语义表达式包括限定关键词。限定关键词用于对关键词进行限定,可以更加精确地表达类目语义。比如,对于“游戏—水浒传”与“图书—水浒传”这两个类目,因为两者都有“水浒传”这个共有关键词,其关键词层面的相关度是很高的。但是从语义上来说,一个是“游戏”,另一个则是“图书”,它们之间的相关度则很低。通过限定语义表达式表述后,即可反映出它们之间在语义层面的相关度。
步骤402:通过文本处理模型中的第一类目标注网络,对所述目标文本进行词语级的处理,确定与所述目标文本相对应的词语级的类目标注结果。
在本发明的一些实施例中,通过文本处理模型中的第一类目标注网络,对所述目标文本进行词语级的处理,确定与所述目标文本相对应的词语级的类目标注结果,可以通过以下方式实现:
通过文本处理模型中的第一类目标注网络,对与所述目标文本的相匹配的关键词进行处理,形成与所述关键词相对应的关键词向量;通过文本处理模型中的第一类目标注网络,对所述关键词向量进行加权处理,形成与所述目标文本相对应的词语级文本向量;对目标层级类目进行编码和加权平均处理,确定所述目标层级类目对应的目标层级类目向量;通过文本处理模型中的第一类目标注网络,对目标层级类目向量进行处理,根据目标层级类目向量的处理结果与所述词语级文本向量的相似度,确定与所述目标文本相对应的词语级的类目标注结果。
在本发明的一些实施例中,第一类目标注网络可以为双向注意力神经网络模(BERT Bidirectional Encoder Representations from Transformers)。继续参考图5,图5为本发明实施例中文本处理模型一个可选的结构示意图,其中,Encoder包括:N=6个相同的layers组成,每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。
Decoder包括:由N=6个相同的Layer组成,其中layer和encoder并不相同,这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。
继续参考图6,图6为本发明实施例中文本处理模型一个可选的词语级类目标注过程示意图,其中,其中,encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后,输出到了decoder部分的每一个decoder中;输入目标为“我是一个学生t”经过文本处理模型的处理,输出的文本类目标注结果为:“学生”。
继续参考图7,图7为本发明实施例中文本处理模型中编码器一个可选的结构示意图,其中,其输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成,所有键计算查询的点积,并应用softmax函数获得值的权重。
继续参考图7,图7本发明实施例中文本处理模型中编码器的向量示意图,其中Q,K和V的是通过输入encoder的向量x与W^Q,W^K,W^V相乘得到Q,K和V。W^Q,W^K,W^V在文章的维度是(512,64),然后假设我们inputs的维度是(m,512),其中m代表了字的个数。所以输入向量与W^Q,W^K,W^V相乘之后得到的Q、K和V的维度就是(m,64)。
继续参考图8,图8为本发明实施例中文本处理模型中编码器的向量拼接示意图,其中,Z0到Z7就是对应的8个并行的head(维度是(m,64)),然后concat这个8个head之后就得到了(m,512)维度。最后与W^O相乘之后就到了维度为(m,512)的输出的矩阵,那么这个矩阵的维度就和进入下一个encoder的维度保持一致。
继续参考图9,图9为本发明实施例中文本处理模型中编码器的编码过程示意图,其中,x1经过self-attention到了z1的状态,通过了self-attetion的张量还需要进过残差网络和LaterNorm的处理,然后进入到全连接的前馈网络中,前馈网络需要进行同样的操作,进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中,然后这样的操作,迭代经过了6次,迭代处理的结果进入到decoder中。
继续参考图10,图10为本发明实施例中文本处理模型中解码器的解码过程示意图,其中,decoder的输入输出和解码过程:
输出:对应i位置的输出词的概率分布;
输入:encoder的输出&对应i-1位置decoder的输出。所以中间的attention不是self-attention,它的K,V来自encoder,Q来自上一位置decoder的输出。
继续参考图11和图12,图11为本发明实施例中文本处理模型中解码器的解码过程示意图,其中。解码器网络的最后一个decoder输出的向量会经过Linear层和softmax层。图12为本发明实施例中文本处理模型中解码器的解码过程示意图,Linear层的作用就是对decoder部分出来的向量做映射成一个logits向量,然后softmax层根据这个logits向量,将其转换为了概率值,最后找到概率最大值的位置,即完成了解码器的输出。
步骤403:通过文本处理模型中的第一类目标注网络,对所述目标文本进行语句级的处理,确定与所述目标文本相对应的语句级的类目标注结果。
在本发明的一些实施例中,通过文本处理模型中的第一类目标注网络,对所述目标文本进行语句级的处理,确定与所述目标文本相对应的语句级的类目标注结果,可以通过以下方式实现:通过文本处理模型中的第一类目标注网络,对与所述目标文本进行处理,形成与所述目标文本相对应的文本向量;通过文本处理模型中的第一类目标注网络,对所述文本向量进行加权处理,形成与所述目标文本相对应的单字级向量;对所述单字级向量进行编码处理,形成与所述目标文本相对应的语句级文本级向量;对目标层级类目进行编码和加权平均处理,确定所述目标层级类目对应的目标层级类目向量;通过文本处理模型中的第一类目标注网络,对目标层级类目向量进行处理,根据目标层级类目向量的处理结果与所述语句文本向量的相似度,确定与所述目标文本相对应的语句级的类目标注结果。
在本发明的一些实施例中,第一类目标注网络可以为双向注意力神经网络模(BERT Bidirectional Encoder Representations from Transformers)。继续参考图5,图5为本发明实施例中文本处理模型一个可选的结构示意图,其中,Encoder包括:N=6个相同的layers组成,每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。
Decoder包括:由N=6个相同的Layer组成,其中layer和encoder并不相同,这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。
继续参考图13,图13为本发明实施例中文本处理模型一个可选的语句级类目标注过程示意图,其中,其中,encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后,输出到了decoder部分的每一个decoder中;输入目标为英语“I am a student”经过文本处理模型的处理,输出的文本类目标注结果为:“我是一个学生”。
步骤404:通过文本处理模型中的第二类目标注网络,对所述目标文本进行复合词语级的处理,确定与所述目标文本相对应的复合词语级的类目标注结果。
在本发明的一些实施例中,通过文本处理模型中的第二类目标注网络,对所述目标文本进行复合词语级的处理,确定与所述目标文本相对应的复合词语级的类目标注结果,可以通过以下方式实现:
通过文本处理模型中的第二类目标注网络,对与所述目标文本的相匹配的关键词进行处理,形成与所述关键词相对应的关键词向量;通过文本处理模型中的第二类目标注网络,对所述关键词向量进行加权处理,形成与所述目标文本相对应的复合词语级文本向量;对目标层级类目进行编码和加权平均处理,确定所述目标层级类目对应的目标层级类目向量;通过文本处理模型中的第二类目标注网络,对目标层级类目向量进行处理,根据目标层级类目向量的处理结果与所述复合词语级文本向量的相似度,确定与所述目标文本相对应的复合词语级的类目标注结果。
步骤405:基于与所述关键词相对应的关键词知识类目标注网络,对所述目标文本进行处理,以形成相应的关键词类目标注结果。
在本发明的一些实施例中,基于与所述关键词相对应的关键词知识类目标注网络,对所述目标文本进行处理,以形成相应的关键词类目标注结果,可以通过以下方式实现:
确定与所述文本处理模型的使用环境相匹配的关键词知识图谱;基于与所述关键词相对应的关键词知识类目标注网络,通过所述关键词知识图谱,对所述目标文本进行编码与加权平均处理;形成相应的关键词类目标注结果。
步骤406:通过所述关键词类目标注结果与相应不同类目标注结果进行比较,对所述文本类目的基准结果进行替换。
由此,以实现对所述待处理的目标文本的文本类目进行标注。
在本发明的一些实施例中,通过所述关键词类目标注结果与相应不同类目标注结果进行比较,对所述文本类目的基准结果进行替换,可以通过以下方式实现:
抽取所述目标文本相对应的词语级的类目标注结果、所述目标文本相对应的语句级的类目标注结果,和所述目标文本相对应的复合词语级的类目标注结果中的任意两种类目标注结果;对所抽取的任意两种类目标注结果进行比较;当所抽取的任意两种类目标注结果相同,且超过相应的类目标注结果阈值时,对所述文本类目的基准结果进行替换。
参见图14,图14为本发明实施例提供的文本类目标注方法一个可选的流程示意图,可以理解地,图14所示的步骤可以由运行文本类目标注装置的各种电子设备执行,例如可以是如带有文本类目标注功能的专用终端、带有文本处理文本类目标注功能的服务器或者服务器集群。下面针对图13示出的步骤进行说明。
步骤4061:文本类目标注装置获取目标文本相对应的词语级的类目标注结果、所述目标文本相对应的语句级的类目标注结果,和所述目标文本相对应的复合词语级的类目标注结果;
步骤4062:文本类目标注装置抽取任意两种类目标注结果;对所抽取的任意两种类目标注结果进行比较,判断当所抽取的任意两种类目标注结果是否相同,如果是执行步骤4063,否则执行步骤4064;
步骤4063:判断是否超过相应的类目标注结果阈值,如果是,执行步骤4065,否则执行步骤4066。
步骤4064:放弃替换。
步骤4065:对所述文本类目的基准结果进行替换。
步骤4066:放弃替换,发出替换失败的通知消息。
由此,不但可以在不具有任何所属类目已知的文本的情况下,由运行计算机设备通过机器学习技术确定任何文本所属的类目,对文本类目进行标注,而且节省了传统方式中人工标注类目的环节,节省了人力成本,减少了确定待处理文本所属的类目的质量对人工标注的质量的依赖性,提升文本类目标注的准确性。
下面对本发明实施例所提供的文本类目标注方法进行说明,其中,在真实的文本分类业务场景中,文本对应的类目体系往往是多层级、丰富且复杂的。传统的处理方式是通过人工标注数据,根据标注好的数据训练分类器学习数据的特征,然后把学习好的分类器应用到未标记的数据中。这种方法在存在大量标注样本情况下能达到较好的分类效果。但是这一过程中,对于真实业务场景中出现的大量复杂多层级类目,标注人员需要在完全理解全部复杂层级类目情况下进行数据标注,同时他们需要标注大量数据。如此费时费力,还容易出现大量标注结果不准确的情况。
现有的无监督文本类目标注方法主要有基于文本字面特征的编辑距离、基于词向量进行文本之间相似度计算和无监督聚类方法K-means进行文本的无监督聚类。另外,现有的有监督类目标注方法是基于分类器的,主要包括LightGBM和基于深度学习的文本分类算法。基于编辑距离的无监督算法思想是对于两个字符串,由其中一个变换成另外一个需要的操作步数,其中操作包括:字符的替换、字符的插入、字符的删除。操作步数越少,说明两个字符串越相近。通过计算两个去掉停用词后关键词集合最小距离衡量文本相似度。基于词向量计算文本之间相似度的主要思想是将待分类的文本分词、去停用词之后的关键词表示成向量,加权平均后表示成整体文本向量。同理将层级类目进行向量表示,然后计算文本与全部类目两两之间Cosine相似度,取TopN类目作为文本的标注结果。K-means无监督聚类的主要思想是将N个层级类目初始化化为聚类中心,然后计算每个文本对象与聚类中心距离,将文本分配到与其距离最近的聚类中心,更新聚类中心,循环迭代直到满足终止条件。有监督文本类目标注算法的主要思想是使用带标签的数据训练分类器,让机器学习标签与文本之间的关系。模型学习完成后能够预测不带标签数据的标签。
上述传统技术方案主要存在以下缺陷,即:
1)单个无监督文本类目标注算法效果不佳,不能有效地标注文本。每个无监督方法都是从不同的角度理解文本,如果只是简单使用单个无监督算法进行标注,将严重丢失文本的多义信息。比如BERT句向量从字角度出发,对句子进行编码,而Tencent AI Lab词向量则从词的角度理解词的语义,然后再将词向量组合表示成句子向量。如果能有效地从各个角度理解文本,无监督方法也能达到较优的标注效果。
2)有监督方法耗费大量的人力财力对数据进行标注。在复杂的多层级类目中,标注人员必须熟悉掌握每个类目表达的内在含义,比如标注人员必须理解层级类目“金融:保险:人寿保险:非年金寿险”所表示的内在含义,以及其跟“金融:保险:人寿保险:养老金保险”类目之间的区别等。这对标注人员提出了较高的要求。另外,有监督方法需要大量的标注数据,特别是深度学习模型,少量数据下模型将不能收敛,也就相当于模型没有学习到标注数据的特征。因此,有较高准确率的有监督方法是需要付出较大的前期投入的。
3)有监督学习对于场景变化极其敏感。当数据的场景或者领域变换时(类目体系也随之变换),模型效果将急剧下降。模型必须重新标注数据,重新训练一套分类器,这对于真实业务场景中场景变换频繁的业务是不可接受的。比如模型需要在各个场景下获取讲述猫的文本,在电商的场景中可能是关于猫粮的描述,而在猫主人的生活随笔录中描述的却是“可爱的喵星人”。
综上所述,现有的文本类目标注方法,由于上述的种种问题,无法真正满足真实业务场景中复杂多层级类目的文本类目标注需要。
下面对本发明实施例所提供的文本类目标注方法进行说明,参考图15,图15为本发明实施例中文本类目标注方法的数据结构示意图,其中,第一类目标注网络可以为双向注意力神经网络模(BERT Bidirectional Encoder Representations fromTransformers),用于确定与所述目标文本相对应的词语级的类目标注结果和确定与所述目标文本相对应的语句级的类目标注结果。第二类目标注网络为腾讯人工智能实验室(Tencent AI Lab)词向量的无监督类目标注网络,用于确定与所述目标文本相对应的复合词语级的类目标注结果。
继续参考图16,图16为本发明实施例中文本类目标注方法的过程示意图,具体包括:
步骤1601:基于BERT模型对目标文本进行词语级的无监督类目标注。
其中,基于BERT(Bidirectional Encoder Representations fromTransformers)词向量的无监督类目标注,可以要从词的角度理解句子。BERT是一种基于Transformers对文本进行双向编码的深度神经网络。它在多个下游自然语言处理任务中达到最佳的效果。模型首先使用Jieba分词工具对中文句子分词处理得到[w1,w2,…,wm],然后将切分好的词输入到BERT预训练的模型中,输出得到每个关键词对应的向量表示[[V11,V12,…,V1n],…,[Vm1,Vm2,…,Vmn]],其中m表示词的数量,n表示向量的维度,Vij为实数,如:输入[“我”,“爱”,“中国”],经过网络编码,生成[[V11,V12,…,V1n],..,[V31,V32,…,V3n]]。得到每个关键词对应向量表示后,模型通过加权平均获得整个文本的向量。同理,模型对层级类目处理后进行编码和加权平均得到类目的向量表示。比如层级类目“娱乐休闲:宠物养育:猫”,模型处理成[“娱乐休闲”,“宠物养育”,“猫”]输入到网络中得到类目关键词向量。对得到的类目关键词向量加权平均得到类目的向量表示。然后计算文本向量与类目向量的Cosine相似度,选取TopN作为文本对应类目的标注结果。
步骤1602:基于BERT模型对目标文本进行语句级的无监督类目标注。
其中,基于BERT(Bidirectional Encoder Representations fromTransformers)句向量的无监督类目标注,主要从字的角度出发理解句子。不对句子分词,直接将整个句子输入到BERT模型中,模型将句子的每个字表示成字向量,对整个句子编码,输出句子对应的向量表示。比如输入[“我”,“爱”,“中”,“国”],输出得到整句话的向量S。同理,模型将层级类目处理后拼接成句子输入到模型中得到类目的向量表示。然后计算文本向量与类目向量的Cosine相似度,选取TopN作为文本对应类目的标注结果。
步骤1603:通过第二神经网络模型对目标文本进行词语级的无监督类目标注。
其中,第二神经网络模型可以为基于Tencent AI Lab词向量的无监督类目标注,主要从复合词的角度出发理解句子。其预训练的词向量包含更多复合词,比如“自然语言处理技术”,“自然语言理解”等。它从更粗的粒度切分文本,但是包含更加完整的语义信息。不同于基于BERT的方法,该方法关键词对应的向量已经训练打包成压缩文件,模型只需要读取文件找多复合词对应的向量即可。由于要生成复合词,中文分词模型使用添加了自定义复合词词典的Hanlp分词工具。文本和类目对应向量的计算方法同于第一步中的BERT方法。在得到文本和类目向量表示之后,计算两两文本与类目之间的Cosine相似度,选取TopN作为文本对应类目的标注结果。
步骤1604:对目标文本进行基于关键词知识的无监督类目标注处理。
其中,前序提到的无监督标注方法都是从向量的角度进行计算。但是,向量的训练语料都来源于大型通用领域,比如中文的百度百科,搜狗新闻语料等。在真实业务场景中,模型往往需要语义更加精确的知识,比如“哈士奇是一种狗”,“狗属于宠物”。因此,模型通过人工构建小型的类目体系知识图谱。这个类目体系对应的知识图谱是带权重的图,图的节点为关键词对应的实体(比如上面提到的哈士奇、狗、宠物),图的边表示节点之间的关系。在这个类目体系知识图谱中,模型有“属于”关系和“等价”关系,“属于”关系表示实体之间存在形如“哈士奇-属于→狗”和“狗-属于→宠物”等关系。“等价”关系则有“西伯利亚雪橇犬-等价于→哈士奇”,“哈士奇-等价于→二哈”,这些关系的权重默认都为1。知识图谱的构建主要通过机器辅助人工构建,首先机器匹配存在“实体a属于实体b”、“a包含b”和“a等价于b”等模式匹配大量的文本,然后人工过滤正确关系加入到图谱中。在数据库中创建两个关系表,一个为等价关系表,主要保存存在“等价”关系的实体对和相关权重,如关系“史蒂芬库里-库里-1.0”,模型将“史蒂芬库里,库里,1.0”分别存储到关系表的“实体1,实体2,权重”三个字段中。在文本类目标注时,模型首先对待标注文本去停用词和分词处理,然后将分词得到的关键词匹配知识图谱中实体,即上述两个关系表中的实体1和实体2字段,获取关键词在知识图谱中的“等价”关系和“属于”关系的实体关键词组合。接着模型将这些关键词组合一一与类目关键词进行匹配,计算得分(匹配一级类目得1分,二级类目得2分,以此类推)。比如对于待标注的文本“史蒂芬库里是个史诗级射手”,分词、去停用词得到“史蒂夫库里;史诗级;射手”三个关键词。当前知识图谱中存在等价的关系有“史蒂芬库里-等价-库里”,“史蒂芬库里-等价-萌神库里”,“射手-等价-三分射手”,“射手-等价-狙击手”,通过匹配图谱中“等价”关系关键词得“库里;萌神库里;三分射手;狙击手”关键词集合;对于属于关系,图谱中存在“史蒂芬库里-属于-球员”,“史蒂芬库里-属于-篮球运动员”,通过匹配图谱中“属于”关系关键词得“球员;篮球运动员”,然后,模型通过篮球运动员与类目体系中的“篮球”进行匹配,得到类目体系中的类目“体育运动-球类运动-篮球”的得分为3,且在所有类目中最高。因此可以得到该文本的标注类目为“体育运动-球类运动-篮球”。
步骤1605:基于多种无监督方法的融合无监督类目标注。选择准确率最高的无监督方法,在前面提到的方法中,基于关键词知识的无监督类目标注方法的效果最好。模型以该方法的结果为基准,其它三种方法比较两两比较,如果标注结果相同,且得分大于阈值α(优选1.4),则替换基准结果。
通过本实施例所示的技术方案,基于多种方法融合的无监督类目标注方法,当该方法应用于文本分类问题,测试准确率为87%,有效提升文本分类的准确性。
综上所述,本发明实施例具有以下技术效果:
通过获取待处理的目标文本,并对所述目标文本进行分词处理,以形成与所述目标文本相匹配的关键词;通过文本处理模型中的第一类目标注网络,对所述目标文本进行词语级的处理,确定与所述目标文本相对应的词语级的类目标注结果;通过文本处理模型中的第一类目标注网络,对所述目标文本进行语句级的处理,确定与所述目标文本相对应的语句级的类目标注结果;通过文本处理模型中的第二类目标注网络,对所述目标文本进行复合词语级的处理,确定与所述目标文本相对应的复合词语级的类目标注结果;基于与所述关键词相对应的关键词知识类目标注网络,对所述目标文本进行处理,以形成相应的关键词类目标注结果;通过所述关键词类目标注结果与相应不同类目标注结果进行比较,对所述文本类目的基准结果进行替换,实现对所述待处理的目标文本的文本类目进行标注,这一过程,不但可以在不具有任何所属类目已知的文本的情况下,由运行计算机设备通过机器学习技术确定任何文本所属的类目,对文本类目进行标注,而且节省了传统方式中人工标注类目的环节,节省了人力成本,减少了确定待处理文本所属的类目的质量对人工标注的质量的依赖性,提升文本类目标注的准确性。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。