CN113221555B - 一种基于多任务模型的关键词识别方法、装置及设备 - Google Patents
一种基于多任务模型的关键词识别方法、装置及设备 Download PDFInfo
- Publication number
- CN113221555B CN113221555B CN202110493880.0A CN202110493880A CN113221555B CN 113221555 B CN113221555 B CN 113221555B CN 202110493880 A CN202110493880 A CN 202110493880A CN 113221555 B CN113221555 B CN 113221555B
- Authority
- CN
- China
- Prior art keywords
- training
- character
- word
- label
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 182
- 238000002372 labelling Methods 0.000 claims abstract description 41
- 230000011218 segmentation Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
本说明书实施例公开了一种基于多任务模型的关键词识别方法、装置以及设备。方案包括:获取训练文本,为训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;为训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词;根据第一标签确定第一训练任务,以及根据第二标签确定第二训练任务;将第一训练任务和第二训练任务进行联合训练,得到关键词识别模型;利用关键词识别模型,识别输入文本中的关键词。
Description
技术领域
本说明书涉及人工智能技术领域,尤其涉及一种基于多任务模型的关键词识别方法、装置及设备。
背景技术
随着科技的发展,人工智能的应用越来越广泛。
目前,服务提供方在向服务者提供服务时,采用人工智能技术,对服务者发送的文本进行自动识别,确定其中的关键词,并做出相应的回复,以更好地为服务者提供服务。
基于此,还需要能够更加准确地识别关键词的方案。
发明内容
本说明书一个或多个实施例提供一种基于多任务模型的关键词识别方法、装置、设备以及存储介质,用以解决如下技术问题:需要能够更加准确地识别关键词的方案。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
本说明书一个或多个实施例提供的一种基于多任务模型的关键词识别方法,包括:
获取训练文本;
为所述训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;
为所述训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词;
根据所述第一标签确定第一训练任务,以及根据所述第二标签确定第二训练任务;
将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型;
利用所述关键词识别模型,识别输入文本中的关键词。
本说明书一个或多个实施例提供的一种基于多任务模型的关键词识别装置,包括:
获取模块,获取训练文本;
第一标注模块,为所述训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;
第二标注模块,为所述训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词;
任务确定模块,根据所述第一标签确定第一训练任务,以及根据所述第二标签确定第二训练任务;
联合训练模块,将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型;
识别模块,利用所述关键词识别模型,识别输入文本中的关键词。
本说明书一个或多个实施例提供的一种基于多任务模型的关键词识别设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取训练文本;
为所述训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;
为所述训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词;
根据所述第一标签确定第一训练任务,以及根据所述第二标签确定第二训练任务;
将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型;
利用所述关键词识别模型,识别输入文本中的关键词。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取训练文本;
为所述训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;
为所述训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词;
根据所述第一标签确定第一训练任务,以及根据所述第二标签确定第二训练任务;
将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型;
利用所述关键词识别模型,识别输入文本中的关键词。
本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果:根据对字符的位置、是否属于关键词的两种标注,进行多任务联合的模型训练,使得到的关键词识别模型既能够实现准确分词,又能够识别出词语中的关键词,这样能够降低一般情况下只能进行关键词识别时对分词结果正确性的依赖,有利于提高关键词识别准确性。且分词识别时不以词语之间的上下文关系作为依据,使得训练文本之间不需要紧密的关联,减少了对训练文本的限制,便于获取大量训练文本,有利于模型的训练。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的一种基于多任务模型的关键词识别方法的流程示意图;
图2为本说明书一个或多个实施例提供的一种关键词识别模型的训练原理示意图;
图3为本说明书一个或多个实施例提供的一种应用场景下,图1中方法的一种详细流程示意图;
图4为本说明书一个或多个实施例提供的一种基于多任务模型的关键词识别装置的结构示意图;
图5为本说明书一个或多个实施例提供的一种基于多任务模型的关键词识别设备的结构示意图。
具体实施方式
本说明书实施例提供一种基于多任务模型的关键词识别方法、装置、设备以及存储介质。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在本说明书一个或多个实施例中,通过为训练文本标注第一标签和第二标签,分别用来表示字符在其所属词语中的位置和权重,之后,将这两种标签对应的两个任务进行联合训练,得到关键词识别模型,用于关键词的识别。这种模型训练方法无需训练文本之间存在紧密的关联,减少了对训练文本的限制,便于获取大量训练文本,有利于模型的训练,并且,模型能够同时进行分词和识别,能够减少一般情况下只能进行关键词识别时对分词结果正确性的依赖,有利于提高识别准确性。下面基于这样的思路,具体进行说明。
图1为本说明书一个或多个实施例提供的一种基于多任务模型的关键词识别方法的流程示意图。该方法可以应用于不同的业务领域,比如,互联网金融业务领域、电商业务领域、即时通讯业务领域等。该流程可以由相应领域的计算设备(比如,电商业务对应的云服务平台或者智能移动终端等)执行,流程中的某些待识别参数或者中间结果允许人工干预调节,以帮助提高准确性。
图1中的流程可以包括以下步骤:
S102:获取训练文本。
在本说明书一个或多个实施例中,训练文本可以是各领域的包含不同内容的文本,模型训练对训练文本的内容关联度不做限制。
S104:为所述训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置。
在对训练文本中的字符进行标注时,通过第一标签对字符在其所在词中的位置进行标注。比如,可仅对位于其所在词的起始位置或者终止位置的字符进行标注,对其他位置的字符不标注。或者,可对位于其所在词的起始位置或者终止位置的字符标注为一种形式(如B),对其他位置的字符标注为另一种形式(如M)。通过第一标签的标注,可对训练文本进行分词处理,将训练文本拆分为多个词语,用于对模型的分词训练。
S106:为所述训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词。
根据字符所在词是否为关键词,可通过第二标签对训练文本中的各字符进行标注。比如,将关键词包含的字符标注为一种形式,将其他字符标注为另一种形式。通过第二标签的标注,能够训练模型识别文本中的关键词。
具体地,可通过权重的方式标注字符的第二标签。将关键词中的字符标注为1,表示为重要的字符,将非关键词中的字符标注为0,表示为相对不重要的字符。
在本说明书一个或多个实施例中,第二标签包括句子成分关联标签,若为训练文本中的单个字符标注表示其所在词为关键词的第二标签,则确定该单个字符所在句子的其他关键成分字符,并为该单个字符以及其他关键成分字符标注句子成分关联标签。这样处理主要是考虑结合实际场景,更完整地学习关键词在该场景中的语义,而不是孤立地理解该关键词,由关键词及其对应的其他关键成分字符构成一个足够简洁而更完整的语义场景。
假定单个字符属于该句子中的宾语,则该其他关键成分字符比如为该句子中的主语和谓语,或者为该宾语的定语或者补语。基于这样的第二标签联合第一标签(基于分词能力进而帮助划分句子成分)进行学习,能更准确地划分句子成分以及将有关联的多个关键词作为整体进行识别。
S108:根据所述第一标签确定第一训练任务,以及根据所述第二标签确定第二训练任务。
S110:将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型。
在训练模型的过程中,将训练文本中的各字符输入模型中。通过第一训练任务和第二训练任务对模型进行联合训练,使得模型能够同时对字符对应的两种标签进行学习,得到关键词识别模型。关键词识别模型既能够通过学习字符的第一标签,对训练文本进行分词,又能够学习字符的第二标签,确定训练文本中的关键词。
S112:利用所述关键词识别模型,识别输入文本中的关键词。
通过训练完成的关键词识别模型,能够对待识别的输入文本进行分词处理,并识别出其中的关键词。
在本说明书一个或多个实施例中,根据对字符的位置、是否属于关键词的两种标注,进行多任务联合的模型训练,使关键词识别模型既能够实现准确分词,又能够识别出词语中的关键词。模型能够同时进行分词和识别,能够减少一般情况下只能进行关键词识别时对分词结果准确性的依赖,有利于提高关键词识别准确性。且不以词语之间的上下文关系作为依据,使训练文本之间不需要紧密的关联,减少了对训练文本的限制,便于获取大量训练文本,有利于模型的训练。通过本方法训练得到的关键词识别模型,能够针对各种不同领域、不同行业中内容差异较大的文本,准确识别出文本中的关键词。
基于图1的方法,本说明书还提供了该方法的一些具体实施方案和扩展方案,下面继续进行说明。
在本说明书一个或多个实施例中,可根据训练文本中的各字符所在词是否为关键词,为各字符分别标注第二标签,以表示对应的字符在其所属词语或者句子中的权重。具体地,以词语为标注单位时,一个词语中的字符的标注均相同,这样可对句子中的关键词与非关键词进行区分。在这基础上,可进一步以字符为标注单位,对词语中的各字符分别进行不同的标注,以进行进一步地区分。这样有利于根据各字符在所属词语或句子中的重要程度,对训练文本中的各字符进行进一步地深入学习。
例如,将训练文本中的关键词的权重标注为0.5~1的数值,并根据关键词中各字符的重要程度,确定各字符在0.5~1中对应的权重数值,将非关键词的权重标注为0~0.5的数值,再根据非关键词中各字符的重要程度,确定各字符在0~0.5中对应的权重数值。
在本说明书一个或多个实施例中,在训练模型的过程中,可获取BERT模型作为预训练模型,将训练文本、第一标签、第二标签输入BERT模型中,确定对应的两个训练任务,对BERT模型进行联合训练,以得到关键词识别模型。BERT模型是适用于文本处理的模型,并且更适合处理单字符,相比于其他文本处理模型来说,BERT模型是具有更深网络层数的双向语言模型,其较大的模型体量和训练的数据量有效提高了该模型的准确率,因此,将BER模型作为预训练模型,有利于后续对训练文本中字符对应的两种标签的学习,以提高关键词识别模型的识别准确性。
需要说明的是,在实际应用中,也可将BERT模型替换为其他神经网络模型,比如卷积神经网络模型、循环神经网络模型等。
进一步地,在对训练完成的关键词识别模型进行应用的过程中,可利用关键词识别模型,确定输入文本中各字符是否位于其所在词的起始位置或者终止位置,并据此对输入文本进行分词,得到对应的多个词语。并且,可利用关键词识别模型,确定输入文本中各字符在其所属词语或者句子中的权重,并据此从分词得到的多个词语中识别出输入文本的关键词。
更进一步地,句子中各字符的权重,可在一定程度上反映其所属各词语的重要程度。具体可根据词语中包含的字符的权重的均值,或者词语中包含的字符的权重的最大值,确定对应的词语的权重。词语的权重表示该词语在句子中的重要程度。之后,根据输入文本中各词语的权重,识别输入文本中的关键词。比如,将权重大于预设值的词语或者将权重值较高的前几个词语认定为关键词。
在一种可能的实现方式中,可通过以下公式(1)计算句子中词语的权重值:
其中,W表示词语,Score表示权重值,c表示字符,length表示词语的长度。公式(1)通过词语中包含的字符的权重值的均值,计算词语对应的权重值。
可通过以下公式(2)识别句子中的关键词:
K(S)={W|W∈S,Score(W)≥T} (2)
其中,S表示输入文本(即句子),W表示句子中的词语,Score表示权重值,T表示预设值,K(S)表示句子中的关键词集合。公式(2)将句子中权重值大于预设值的词语作为句子的关键词。
在一种可能的应用场景中,可在业务平台提供的云客服服务中,获取使用云客服服务的多个属于不同行业的租户的客服对话数据,从这些客服对话数据中采集训练文本,用于训练关键词识别模型。由于本说明书并不限定训练文本之间的关联性,因此即使云客服服务对应的租户来自各行各业,采集到的客服对话数据之间的关联性也较小,也不妨碍模型的训练。并且通过这种方式采集到的训练文本的数据量较大,可满足模型训练所需的训练数据量的要求,通过联合训练得到关键词识别模型,准确对关键词进行识别。
在本说明书一个或多个实施例中,输入文本的长度与关键词的数量之间通常成正相关关系,输入文本越长,对应的信息量越大,其中的关键词数量越多。因此,可根据输入文本的长度,设置与其对应的最少关键词数量。在对输入文本进行识别时,根据输入文本的长度,若识别出的关键词的数量小于其对应的最少关键词数量,表示识别过程可能出现了误差,导致部分关键词未被识别出,因此可根据输入文本中各词语的权重,剔除已识别出的关键词,从剩余其他词语中,选取权重较高的词语,作为输入文本的候选关键词。
并且,为了良好地传达信息,输入文本中的关键词之间的距离通常不会过远,因此,可根据字符的位置,判断输入文本中相邻的两个已识别出的关键词之间的距离是否大于预设值。若是,表示这两个已识别出的关键词之间很可能存在遗漏的关键词,则可将该段距离中包含的候选关键词作为输入文本的关键词。这样能够在一定程度上避免关键词的遗漏,提高关键词识别的准确性。
结合前面的说明,本说明书一个或多个实施例提供了一种关键词识别模型的训练原理示意图,如图2所示。
在图2中,采用BERT模型作为预训练模型,将训练文本中的句子拆分为Tok1~TokN共N个字符,对每个字符进行标注。在标注时,将位于其所属词的起始位置的字符标注为B,将其他字符标注为M,B和M构成第一标签,表示字符在其所属词中的位置,用于对模型进行句子分词的训练。将属于关键词的字符标注为权重1,将其他字符标注为权重0,再通过字符在其所属词或句子中的权重,确定单个字符在0~1中对应的权重,各字符的权重构成第二标签,表示字符在其所属词或句子中的重要程度,用于对模型进行关键词识别的训练。
结合前面的说明,本说明书一个或多个实施例提供了一种应用场景下,图1中方法的一种详细流程示意图,该流程中使用了前面一些可选的方案,该流程如图3所示。
在图3的流程中,在利用关键词识别模型进行关键词识别时,首先,获取待识别的输入文本,输入至模型中,其次,利用关键词识别模型,确定输入文本中各字符是否位于其所在词的起始位置或者终止位置,并据此对输入文本进行分词处理,得到对应的多个词语,再次,利用关键词识别模型,确定输入文本中各字符在其所属词语或者句子中的权重,并根据各字符的权重,通过求均值或最大值的方式,确定分词得到的各词语的权重,最后,根据各词语的权重,从分词得到的多个词语中识别出输入文本的关键词。
基于同样的思路,本说明书一个或多个实施例还提供了上述方法对应的装置和设备,如图4、图5所示。
图4为本说明书一个或多个实施例提供的一种基于多任务模型的关键词识别装置的结构示意图,图中的虚线方框表示可选的模块,所述装置包括:
获取模块402,获取训练文本;
第一标注模块404,为所述训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;
第二标注模块406,为所述训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词;
任务确定模块408,根据所述第一标签确定第一训练任务,以及根据所述第二标签确定第二训练任务;
联合训练模块410,将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型;
识别模块412,利用所述关键词识别模型,识别输入文本中的关键词。
可选地,所述第二标注模块406根据所述训练文本中的各字符所在词是否为关键词,为所述各字符分别标注第二标签,以表示对应的字符在其所属词语或者句子中的权重。
可选地,所述识别模块412利用所述关键词识别模型,确定输入文本中各字符是否位于其所在词的起始位置或者终止位置,并对所述输入文本进行分词,得到对应的多个词语;利用所述关键词识别模型,确定所述输入文本中各字符在其所属词语或者句子中的权重,并从所述多个词语中识别所述输入文本的关键词。
可选地,所述识别模块412根据所述词语中包含的字符的权重的均值,确定所述词语的权重;根据所述输入文本中各词语的权重,识别所述输入文本中的关键词。
可选地,所述第二标签包括句子成分关联标签;
第二标注模块406,若为所述训练文本中的单个字符标注表示其所在词为关键词的第二标签;
则确定所述单个字符所在句子的其他关键成分字符,并为所述单个字符以及所述其他关键成分字符标注所述句子成分关联标签。
可选地,所述联合训练模块410获取作为预训练模型的BERT模型;通过将训练文本、第一标签、第二标签输入所述BERT模型,对所述BERT模型进行联合训练,得到关键词识别模型。
可选地,所述获取模块402确定业务平台提供的云客服服务;获取使用所述云客服服务的多个属于不同行业的租户的客服对话数据;从所述客服对话数据中采集训练文本。
可选地,所述装置还包括:候选模块414,确定与所述输入文本的长度对应的最少关键词数量;若识别出的关键词的数量小于所述最少关键词数量,根据所述输入文本中各词语的权重,确定所述输入文本中除已识别出的关键词以外的候选关键词;确定相邻的所述已识别出的关键词之间的距离是否大于预设值;若是,将所述距离中包含的所述候选关键词作为所述输入文本的关键词。
图5为本说明书一个或多个实施例提供的一种基于多任务模型的关键词识别设备的结构示意图,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取训练文本;
为所述训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;
为所述训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词;
根据所述第一标签确定第一训练任务,以及根据所述第二标签确定第二训练任务;
将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型;
利用所述关键词识别模型,识别输入文本中的关键词。
处理器与存储器之间可以通过总线通信,设备还可以包括与其他设备通信的待识别/输出接口。
基于同样的思路,本说明书一个或多个实施例还提供了对应于上述方法的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取训练文本;
为所述训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;
为所述训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词;
根据所述第一标签确定第一训练任务,以及根据所述第二标签确定第二训练任务;
将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型;
利用所述关键词识别模型,识别输入文本中的关键词。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、待识别/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (9)
1.一种基于多任务模型的关键词识别方法,包括:
获取训练文本;
为所述训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;
为所述训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词,具体包括:根据所述训练文本中的各字符所在词是否为关键词,为所述各字符分别标注第二标签,以表示对应的字符在其所属词语或者句子中的权重;
根据所述第一标签确定第一训练任务,以及根据所述第二标签确定第二训练任务;
将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型;
利用所述关键词识别模型,确定输入文本中各字符是否位于其所在词的起始位置或者终止位置,并对所述输入文本进行分词,得到对应的多个词语;
利用所述关键词识别模型,确定所述输入文本中各字符在其所属词语或者句子中的权重,并根据所述词语中包含的字符的权重的均值,确定所述词语的权重,根据所述输入文本中各词语的权重,识别所述输入文本中的关键词;
所述方法还包括:
确定与所述输入文本的长度对应的最少关键词数量;
若识别出的关键词的数量小于所述最少关键词数量,根据所述输入文本中各词语的权重,确定所述输入文本中除已识别出的关键词以外的候选关键词;
确定相邻的所述已识别出的关键词之间的距离是否大于预设值;
若是,将所述距离中包含的所述候选关键词作为所述输入文本的关键词。
2.如权利要求1所述的方法,所述第二标签包括句子成分关联标签;
所述为所述训练文本中的各字符分别标注第二标签,具体包括:
若为所述训练文本中的单个字符标注表示其所在词为关键词的第二标签;
则确定所述单个字符所在句子的其他关键成分字符,并为所述单个字符以及所述其他关键成分字符标注所述句子成分关联标签。
3.如权利要求1所述的方法,所述将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型,具体包括:
获取作为预训练模型的BERT模型;
通过将训练文本、第一标签、第二标签输入所述BERT模型,对所述BERT模型进行联合训练,得到关键词识别模型。
4.如权利要求1所述的方法,所述获取训练文本,具体包括:
确定业务平台提供的云客服服务;
获取使用所述云客服服务的多个属于不同行业的租户的客服对话数据;
从所述客服对话数据中采集训练文本。
5.一种基于多任务模型的关键词识别装置,包括:
获取模块,获取训练文本;
第一标注模块,为所述训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;
第二标注模块,为所述训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词,具体包括:根据所述训练文本中的各字符所在词是否为关键词,为所述各字符分别标注第二标签,以表示对应的字符在其所属词语或者句子中的权重;
任务确定模块,根据所述第一标签确定第一训练任务,以及根据所述第二标签确定第二训练任务;
联合训练模块,将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型;
识别模块,利用所述关键词识别模型,确定输入文本中各字符是否位于其所在词的起始位置或者终止位置,并对所述输入文本进行分词,得到对应的多个词语;
利用所述关键词识别模型,确定所述输入文本中各字符在其所属词语或者句子中的权重,并根据所述词语中包含的字符的权重的均值,确定所述词语的权重,根据所述输入文本中各词语的权重,识别所述输入文本中的关键词;
所述装置还包括:
候选模块,确定与所述输入文本的长度对应的最少关键词数量;
若识别出的关键词的数量小于所述最少关键词数量,根据所述输入文本中各词语的权重,确定所述输入文本中除已识别出的关键词以外的候选关键词;
确定相邻的所述已识别出的关键词之间的距离是否大于预设值;
若是,将所述距离中包含的所述候选关键词作为所述输入文本的关键词。
6.如权利要求5所述的装置,所述第二标签包括句子成分关联标签;
所述第二标注模块,若为所述训练文本中的单个字符标注表示其所在词为关键词的第二标签;
则确定所述单个字符所在句子的其他关键成分字符,并为所述单个字符以及所述其他关键成分字符标注所述句子成分关联标签。
7.如权利要求5所述的装置,所述联合训练模块获取作为预训练模型的BERT模型;
通过将训练文本、第一标签、第二标签输入所述BERT模型,对所述BERT模型进行联合训练,得到关键词识别模型。
8.如权利要求5所述的装置,所述获取模块确定业务平台提供的云客服服务;
获取使用所述云客服服务的多个属于不同行业的租户的客服对话数据;
从所述客服对话数据中采集训练文本。
9.一种基于多任务模型的关键词识别设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取训练文本;
为所述训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;
为所述训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词,具体包括:根据所述训练文本中的各字符所在词是否为关键词,为所述各字符分别标注第二标签,以表示对应的字符在其所属词语或者句子中的权重;
根据所述第一标签确定第一训练任务,以及根据所述第二标签确定第二训练任务;
将所述第一训练任务和所述第二训练任务进行联合训练,得到关键词识别模型;
利用所述关键词识别模型,确定输入文本中各字符是否位于其所在词的起始位置或者终止位置,并对所述输入文本进行分词,得到对应的多个词语;
利用所述关键词识别模型,确定所述输入文本中各字符在其所属词语或者句子中的权重,并根据所述词语中包含的字符的权重的均值,确定所述词语的权重,根据所述输入文本中各词语的权重,识别所述输入文本中的关键词;
方法还包括:
确定与所述输入文本的长度对应的最少关键词数量;
若识别出的关键词的数量小于所述最少关键词数量,根据所述输入文本中各词语的权重,确定所述输入文本中除已识别出的关键词以外的候选关键词;
确定相邻的所述已识别出的关键词之间的距离是否大于预设值;
若是,将所述距离中包含的所述候选关键词作为所述输入文本的关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110493880.0A CN113221555B (zh) | 2021-05-07 | 2021-05-07 | 一种基于多任务模型的关键词识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110493880.0A CN113221555B (zh) | 2021-05-07 | 2021-05-07 | 一种基于多任务模型的关键词识别方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221555A CN113221555A (zh) | 2021-08-06 |
CN113221555B true CN113221555B (zh) | 2023-11-14 |
Family
ID=77091283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110493880.0A Active CN113221555B (zh) | 2021-05-07 | 2021-05-07 | 一种基于多任务模型的关键词识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221555B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887206B (zh) * | 2021-09-15 | 2023-04-28 | 北京三快在线科技有限公司 | 一种模型训练及关键词提取方法及装置 |
CN114154395B (zh) * | 2021-11-04 | 2024-11-08 | 北京搜狗科技发展有限公司 | 一种模型处理方法、装置和用于模型处理的装置 |
CN114863847B (zh) * | 2022-05-07 | 2023-09-08 | 南京欣威视通信息科技股份有限公司 | 基于鸿蒙系统开发的人机智能互动式户外广告机 |
CN115859975B (zh) * | 2023-02-07 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
CN116029291B (zh) * | 2023-03-29 | 2023-07-11 | 摩尔线程智能科技(北京)有限责任公司 | 关键词识别方法、装置、电子设备和存储介质 |
CN116384515B (zh) * | 2023-06-06 | 2023-09-01 | 之江实验室 | 一种模型训练的方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649434A (zh) * | 2016-09-06 | 2017-05-10 | 北京蓝色光标品牌管理顾问股份有限公司 | 一种跨领域知识迁移的标签嵌入方法和装置 |
WO2018149326A1 (zh) * | 2017-02-16 | 2018-08-23 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN111339751A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种文本关键词处理方法、装置及设备 |
WO2021057038A1 (zh) * | 2019-09-24 | 2021-04-01 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241330A (zh) * | 2018-08-20 | 2019-01-18 | 北京百度网讯科技有限公司 | 用于识别音频中的关键短语的方法、装置、设备和介质 |
-
2021
- 2021-05-07 CN CN202110493880.0A patent/CN113221555B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649434A (zh) * | 2016-09-06 | 2017-05-10 | 北京蓝色光标品牌管理顾问股份有限公司 | 一种跨领域知识迁移的标签嵌入方法和装置 |
WO2018149326A1 (zh) * | 2017-02-16 | 2018-08-23 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
WO2021057038A1 (zh) * | 2019-09-24 | 2021-04-01 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN111339751A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种文本关键词处理方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
基于改进TF-IDF的中文网页关键词抽取――以新闻网页为例;钱爱兵;江岚;;情报理论与实践(第06期);945-950 * |
序列标注模型中的字粒度特征提取方案研究――以CCKS2017:Task2临床病历命名实体识别任务为例;孙安;于英香;罗永刚;王祺;;图书情报工作(第11期);104-112 * |
Also Published As
Publication number | Publication date |
---|---|
CN113221555A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113221555B (zh) | 一种基于多任务模型的关键词识别方法、装置及设备 | |
CN117235226A (zh) | 一种基于大语言模型的问题应答方法及装置 | |
CN116188971A (zh) | 一种机器人物体识别方法、装置及存储介质 | |
CN116720008B (zh) | 一种机器阅读方法、装置、存储介质及电子设备 | |
CN113887227B (zh) | 一种模型训练与实体识别方法及装置 | |
CN112417093B (zh) | 一种模型训练的方法及装置 | |
CN114332873A (zh) | 一种识别模型的训练方法及装置 | |
CN117076650A (zh) | 一种基于大语言模型的智能对话方法、装置、介质及设备 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN116127305A (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN114860905B (zh) | 意图识别方法、装置及设备 | |
CN113887206B (zh) | 一种模型训练及关键词提取方法及装置 | |
CN117369783B (zh) | 一种安全代码生成模型的训练方法及装置 | |
CN117591622A (zh) | 一种模型训练和业务执行方法、装置、存储介质及设备 | |
CN114116816B (zh) | 一种推荐方法及装置 | |
CN117786107A (zh) | 一种文本分类模型的训练方法、装置、介质及电子设备 | |
CN115017915B (zh) | 一种模型训练、任务执行的方法及装置 | |
CN112287130A (zh) | 一种图形题目的搜索方法、装置以及设备 | |
CN113887221B (zh) | 一种模型训练以及关键词分类方法及装置 | |
CN116662657A (zh) | 一种模型训练和信息推荐的方法、装置、存储介质及设备 | |
CN115456114A (zh) | 一种模型训练和业务执行的方法、装置、介质及设备 | |
CN114926437A (zh) | 一种图像质量评价方法及装置 | |
CN115017905A (zh) | 一种模型训练和信息推荐的方法及装置 | |
CN114676257A (zh) | 一种对话主题确定方法及装置 | |
CN117992600B (zh) | 一种业务执行方法、装置、存储介质以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |