CN113378543B - 数据分析方法、训练数据分析模型的方法及电子设备 - Google Patents
数据分析方法、训练数据分析模型的方法及电子设备 Download PDFInfo
- Publication number
- CN113378543B CN113378543B CN202110717930.9A CN202110717930A CN113378543B CN 113378543 B CN113378543 B CN 113378543B CN 202110717930 A CN202110717930 A CN 202110717930A CN 113378543 B CN113378543 B CN 113378543B
- Authority
- CN
- China
- Prior art keywords
- statement
- setting
- vector
- subsequence
- position identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012549 training Methods 0.000 title claims abstract description 38
- 230000008451 emotion Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 336
- 238000011156 evaluation Methods 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 230000001360 synchronised effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 235000008597 Diospyros kaki Nutrition 0.000 description 1
- 244000236655 Diospyros kaki Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种数据分析方法、训练数据分析模型的方法及电子设备,数据分析方法包括:将至少一条第一设定语句输入至数据分析模型,得到每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识;利用设定损失函数,基于每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出数据分析模型的损失值;基于所述损失值更新数据分析模型的模型参数;输出训练后的数据分析模型,得到第一模型;将第一语句输入至第一模型,得到第一语句中的第一关键词对应的情感类别、起始位置标识和截止位置标识。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据分析方法、训练数据分析模型的方法及电子设备。
背景技术
随着计算机技术的发展,越来越多的技术(例如,大数据、人工智能、区块链等)应用在金融领域,传统金融业正在逐步向金融科技转变,然而,由于金融行业的安全性、实时性要求,金融科技也对技术提出了更高的要求。金融科技领域下,为了了解用户对某个产品或某项服务的评价,需要从用户的反馈信息中抽取出实体的名称和评价实体的关键词,实体包括人名、地名、机构名、产品以及服务等。
相关技术中,采用自然语言处理(NLP,Natural Language Processing)技术,对客户的反馈信息进行处理,以从客户的反馈信息中提取出评价实体的关键词,但抽取出的关键词的准确率偏低,无法获知用户对实体的真实评价。
发明内容
有鉴于此,本发明实施例提供一种数据分析方法、训练数据分析模型的方法及电子设备,以解决相关技术中抽取出的关键词的准确率偏低,无法获知用户对实体的真实评价的技术问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供一种数据分析方法,包括:
将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识;其中,第一设定语句由设定实体和设定语句拼接得到,设定语句表征设定实体的评价信息;所述设定词语为评价设定实体的关键词;
利用设定损失函数,基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值;
基于所述损失值更新所述数据分析模型的模型参数;
输出训练后的数据分析模型,得到第一模型;
将第一语句输入至所述第一模型,得到所述第一语句中的第一关键词对应的情感类别、起始位置标识和截止位置标识;所述第一语句由第一实体和对应的评价信息拼接得到。
上述方案中,所述设定损失函数包括第一子函数、第二子函数、第三子函数、第一权重、第二权重和第三权重;
所述利用设定损失函数,基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值,包括:
基于所述第一子函数和所述第一权重,计算出第一设定语句中设定词语对应的标定类别与对应的预测类别之间的第一损失值;
基于所述第二子函数和所述第二权重,计算出第一设定语句中设定词语对应的第一标定位置标识与对应的起始位置标识之间的第二损失值;
基于所述第三子函数和所述第三权重,计算出第一设定语句中设定词语对应的第二标定位置标识与对应的截止位置标识之间的第三损失值;
基于第一设定语句对应的第一损失值、第二损失值和第三损失值,计算出所述数据分析模型的损失值;其中,第二权重和第三权重均大于第一权重。
上述方案中,所述数据分析模型包括特征提取模型和全连接层;所述将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识,包括:
将至少一条第一设定语句输入至所述特征提取模型进行处理,得到所述至少一条第一设定语句中每条第一设定语句对应的第一向量序列;其中,所述第一向量序列中包括第一向量和第一子序列,所述第一向量表征第一设定语句的全局特征,第一子序列由设定语句中每个字对应的向量构成;
将每条第一设定语句对应的第一向量输入至所述全连接层,得到每条第一设定语句中的设定词语对应的预测类别;
基于每条第一设定语句对应的第一子序列,确定出每条第一设定语句中的设定词语对应的起始位置标识和截止位置标识。
上述方案中,所述基于每条第一设定语句对应的第一子序列,确定出每条第一设定语句中的设定词语对应的起始位置标识和截止位置标识,包括:
将第一设定语句对应的第一子序列,转换为至少两个第二向量;
将第一设定语句对应的第一子序列中每个向量与第三向量相加,得到第二子序列;所述第三向量为所述模型参数,表征随机初始化的向量;
基于第一设定语句对应的每个第二向量和第二子序列,计算出对应的第二子序列中每个向量对应的关注度向量对;关注度向量对包括表征起始位置概率的第一关注度向量和表征截止位置概率的第二关注度向量;
基于第一设定语句对应的第二子序列中每个向量对应的第一关注度向量的均值,确定出第一设定语句中的设定词语对应的起始位置标识;
基于第一设定语句对应的第二子序列中每个向量对应的第二关注度向量的均值,确定出第一设定语句中的设定词语对应的截止位置标识。
上述方案中,所述将第一设定语句对应的第一子序列,转换为至少两个第二向量,包括以下至少两种:
计算出第一设定语句对应的第一子序列中的向量的均值,得到第二向量;
从第一设定语句对应的第一子序列中的向量中,确定出每个维度对应的最小值,得到第二向量;
从第一设定语句对应的第一子序列中的向量中,确定出每个维度对应的最大值,得到第二向量。
上述方案中,所述基于第一设定语句对应的每个第二向量和第二子序列,计算出对应的第二子序列中每个向量对应的关注度向量对,包括:
采用第一设定函数和第二设定函数,基于第一设定语句对应的第二向量和第二子序列,分别计算出对应的第二子序列中每个向量对应的第一关注度向量和第二关注度向量;其中,
所述第一设定函数和所述第二设定函数中的模型参数不共享。
上述方案中,基于第二设定语句中第二关键词对应的起始位置标识和截止位置标识,从第二设定语句中确定出第二关键词;
基于第二设定语句对应的第一字数和第二字数,计算出所述数据分析模型的准确度;
在所述准确度大于或等于设定阈值的情况下,输出训练后的数据分析模型;
其中,第一字数表征第二设定语句对应的设定词语与第二关键词的交集包括的字数;第二字数表征第二设定语句对应的设定词语与第二关键词的并集包括的字数。
本发明实施例还提供一种训练数据分析模型的方法,包括:
将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识;其中,第一设定语句由设定实体和设定语句拼接得到,设定语句表征设定实体的评价信息;所述设定词语为评价设定实体的关键词;
基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值;
基于所述损失值更新所述数据分析的模型参数。
本发明实施例还提供一种电子设备,包括:
训练单元,用于将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识;其中,第一设定语句由设定实体和设定语句拼接得到,设定语句表征设定实体的评价信息;所述设定词语为评价设定实体的关键词;
计算单元,用于基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值;
更新单元,用于基于所述损失值更新所述数据分析的模型参数;
输出单元,用于输出训练后的数据分析模型,得到第一模型;
提取单元,用于将第一语句输入至所述第一模型,得到所述第一语句中的第一关键词对应的情感类别、起始位置标识和截止位置标识;所述第一语句由第一实体和对应的评价信息拼接得到。
本申请实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述信息显示方法的步骤。
本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据分析方法或训练数据分析模型的方法的步骤。
本发明实施例中,利用第一设定语句中设定词语对应的预测类别、起始位置标识和截止位置标识对数据分析模型进行训练,由此训练后的数据分析模型可以准确地输出待分析的第一语句中评价实体的关键词所属的情感类别,以及在第一语句中所处的起始位置标识和截止位置标识,从而可以基于输出的起始位置标识和截止位置标识,从第一语句中确定出对应的关键词,提高了提取出的关键词的准确率,基于确定出的关键词和关键词所属的情感类别,确定出用户对实体的真实评价,提高了获取到的真实评价的可信度。
附图说明
图1为本发明实施例提供的数据分析方法的实现流程示意图;
图2为本发明实施例提供的样本库中的样本数据的示意图;
图3为本发明实施例提供的数据分析方法中数据分析模型处理第一设定语句的实现流程示意图;
图4为本发明实施例提供的数据分析模型处理第一设定语句的示意图;
图5为本发明实施例提供的数据分析方法中确定位置标识的实现流程示意图;
图6为本发明实施例提供的部分测试结果的示意图;
图7为本发明实施例提供训练数据分析模型的方法的实现流程示意图;
图8为本发明实施例提供的电子设备的结构示意图;
图9为本发明另一实施例提供的电子设备的结构示意图;
图10为本发明实施例提供的电子设备的硬件组成结构示意图。
具体实施方式
在智能对话的应用场景下,需要从语音对话内容中提取出实体的名称和评价实体的关键词,评价实体的关键词包括:快、质量好、交通便利和便宜等。
示例性地,智能对话如下:
机器人:请问下您是**先生吗,我这里是**公司的回访专员,想跟你做个简单的回访可以吗?
客户:嗯嗯,可以的,你说。
机器人:请问您去售楼部时,置业顾问的态度怎么样呢?
客户:挺好的。
机器人:那您觉得他专不专业呢?
客户:还行吧。
机器人:那您觉得这个楼盘怎么样呢?
客户:小区的环境还可以,就是交通不是很便利。
在以上智能对话中,需要提取出对楼盘的相关评价,其中,评价环境的关键词为还可以,评价交通的关键词为不是很便利;在一些场景下,还需要确定出相关评价是正面评价或负面评价。
相关技术中的数据分析方法,在抽取关键词的过程中,忽略了关键词之前或之后的多个词语的特征,存在提取的特征不完整的问题,也没有考虑正面评价或负面评价,对关键词抽取的影响,从而导致抽取出的关键词的准确率偏低,无法获知用户对实体的真实评价。
基于此,本发明实施例提供了一种数据分析方法,在训练的过程中,利用第一设定语句中设定词语对应的预测类别、起始位置标识和截止位置标识对数据分析模型进行训练,由此训练后的数据分析模型可以准确地输出待分析的第一语句中评价实体的关键词所属的情感类别,以及在第一语句中所处的起始位置标识和截止位置标识,从而可以基于输出的起始位置标识和截止位置标识,从第一语句中确定出对应的关键词,提高了提取出的关键词的准确率,基于确定出的关键词和关键词所属的情感类别,确定出用户对实体的真实评价,提高了获取到的真实评价的可信度。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的数据分析方法的实现流程示意图,其中,流程的执行主体为终端、服务器等电子设备。如图1示出的,数据分析方法包括:
步骤101:将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识;其中,第一设定语句由设定实体和设定语句拼接得到,设定语句表征设定实体的评价信息;所述设定词语为评价设定实体的关键词。
这里,电子设备将至少一条第一设定语句输入至数据分析模型,利用数据分析模型对至少一条第一设定语句中每条第一设定语句进行处理,得到每条第一设定语句对应的每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识。其中,
第一设定语句是通过第一设定标识和第二设定标识,将设定实体和对应的设定语句进行拼接得到。第一设定标识位于设定实体之前;第二设定标识位于设定实体和对应的设定语句之间,用于分隔设定实体和对应的设定语句。实际应用时,第一设定语句的格式为:[CLS]设定实体[SEP]设定语句。CLS对应为第一设定标识,SEP对应为第二设定标识。
示例性地,第一设定语句可以为:[CLS]遮瑕功能[SEP]很好,遮瑕功能差一些,总体还不错。第一设定语句中的设定词语为差一些,差一些对应的起始位置标识为13,对应的截止位置标识为16。
第一设定语句从样本库中确定出,样本库中存储有多个样本,每个样本包括设定实体、设定语句、设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识。第一标定位置标识对应于标定的起始位置标识,第二标定位置标识对应于截止位置标识。样本库可以存在于电子设备的本地数据库,也可以存在于远程数据库。
示例性地,样本库中存储的训练样本如图2所示。其中,图2中标定类别是指标记的情感类别,标定类别包括正类、中性类和负类,实际应用时,采用1表示正类,即,评价设定实体的关键词属于正类,是正面评价;采用-1表示负类,即,评价设定实体的关键词属于负类,是负面评价;采用0表示中性类。
图2中,快、很快、不算贵、特别好、很好闻等设定词语对应的标定类型为1;差一些、太随便了和没有等设定词语对应的标定类型为-1;一般和差不多等设定词语对应的标定类型标记为0。
需要说明的是,在设定词语对应的起始位置标识大于截止位置标识的情况下,表征第一设定语句中设定语句不包含评价设定实体的关键词。
利用数据分析模型对至少一条第一设定语句中每条第一设定语句进行处理,包括:
将第一设定语句进行向量化,得到第一设定语句对应的向量序列,对第一设定语句对应的向量序列进行至少一次编码,得到编码后的向量序列;对编码后的向量序列中的第一向量进行处理,得到第一设定语句中的设定词语对应的预测类别;对编码后的向量序列中第一设定语句中包括的设定语句对应的向量进行处理,得到第一设定语句中的设定词语对应的起始位置标识和截止位置标识。其中,第一向量表征第一设定语句的全局特征。
向量序列由多个字向量构成,字向量是指对语句中的字进行向量化得到的结果。第一设定标识以及第二设定标识分别对应一个字向量,设定实体和设定语句中每个字对应一个字向量。对第一设定语句对应的向量序列进行编码的目的是让所有向量之间产生信息交互,编码后的向量序列表征对应的第一设定语句的特征信息。
实际应用时,第一设定语句对应的向量序列中,第一设定标识对应的向量位于向量序列的最前端。在数据分析模型对字向量序列进行编码的过程中,将提取出的第一设定语句的全局特征汇聚到第一设定标识对应的字向量中。
实际应用时,特征提取模型为基于转换器模型的双向编码表示模型(BERT,Bidirectional Encoder Representation from Transformers);其中,
BERT由转换器模型(Transformer)改进得来,并且BERT中的注意力机制(Attention Mechanism)是双向的;即,输入BERT的语句中的每个字或字符串的特征信息既可以融合在该字或字符串前面的字的特征信息中,也可以融合在该字或字符串后面的字的特征信息中。
在自然语言处理领域,注意力机制体现在句子中的某个字与该句子中的其他字的字向量(Char Vector)的信息融合上。
在一些实施例中,所述数据分析模型包括特征提取模型和全连接层,如图3所示,所述将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识,包括:
步骤301:将至少一条第一设定语句输入至所述特征提取模型进行处理,得到所述至少一条第一设定语句中每条第一设定语句对应的第一向量序列;其中,所述第一向量序列中包括第一向量和第一子序列,所述第一向量表征第一设定语句的全局特征,第一子序列由设定语句中每个字对应的向量构成。
这里,电子设备将至少一条第一设定语句输入至特征提取模型,通过特征提取模型对每条第一设定语句进行向量化,得到每条第一设定语句对应的至少一个向量序列,对每条第一设定语句对应的至少一个向量序列进行至少一次编码,得到每条第一设定语句对应的编码后的第一向量序列。其中,第一向量序列包括第一向量、第一子序列和第三子序列。第一向量表征第一设定语句的全局特征;第一子序列由第一设定语句中的设定语句中每个字对应的向量构成;第三子序列由第一设定语句中的设定实体和第二设定标识对应的向量构成。
实际应用时,第一向量对应为第一向量序列中的第一个向量,在第一向量序列中,第一向量、第三子序列和第一子序列依次排列。
实际应用时,特征提取模型为BERT,图4示出了数据分析模型处理第一设定语句的示意图。如图4所示,数据分析模型对第一设定语句进行向量化,得到3个向量序列,并对3个向量序列进行至少一次编码得到第一向量序列。其中,向量序列1表征第一语句中每个字或设定标识在第一设定语句中的位置,设定标识包括第一设定标识和第二设定标识。向量序列2表征设定实体的特征,由设定实体中每个字对应的向量构成。向量序列3表征第一设定语句中的设定语句的特征,向量序列3由表征设定语句的全局特征的向量ECLS和设定语句中每个字对应的向量构成。
实际应用时,图4中的向量序列1、向量序列2和向量序列3是对齐的,这样一来,向量序列2和向量序列3中有部分向量为空。
由于第一语句中设定实体的前面设有第一设定标识CLS,设定实体的后面设有第二设定标识SEP,因此,在图4中,第一向量为Tcls,第一子序列由T5、T6、T7、T8和Tn构成,第三子序列由T1、T2、T3、T4和与T4相邻的Tsep构成。
在一些实施例中,采用两个位置向量序列表示第一语句中每个字或设定标识的位置,也就是说,采用两个子序列来表示,每个字或设定标识在对应的第一字串中所处的位置。由此,电子设备在训练数据分析模型的过程中,可以分开调整两个子序列中的向量,从而可以分开训练第一设定语句中的设定词语对应的起始位置标识和截止位置标识。其中,第一字串包括第一设定标识、设定实体、第二设定标识、或由第一设定语句中的设定语句按照标点符号切割得到的字串。
位置向量序列对应的子序列1中包括表征位置1的向量,位置向量序列对应的子序列2中包括表征位置2的向量。当然除表征位置1和位置2之外的向量可以处于位置向量序列对应的子序列1或子序列2。位置1表征对应的字是对应的第一字串中的第一个字,位置2表征对应的字是对应的第一字串中的最后一个字;第一设定标识对应的位置1和位置2相同,第二设定标识对应的位置1和位置2也相同。
步骤302:将每条第一设定语句对应的第一向量输入至所述全连接层,得到每条第一设定语句中的设定词语对应的预测类别。
这里,电子设备在获取到特征提取模型输出的第一设定语句对应的第一向量序列的情况下,将第一设定语句对应的第一向量序列中的第一向量输入至全连接层进行处理,得到设定词语对应的标定类别的概率分布,并将该概率分布中最大的概率值对应的标定类别,确定为第一设定语句中的设定词语对应的预测类别。
步骤303:基于每条第一设定语句对应的第一子序列,确定出每条第一设定语句中的设定词语对应的起始位置标识和截止位置标识。
这里,电子设备在获取到特征提取模型输出的第一设定语句对应的第一向量序列中的第一子序列的情况下,利用注意力机制对第一子序列中的向量进行处理,确定出第一设定语句中的设定词语对应的起始位置的概率分布和截止位置的概率分布;将起始位置的概率分布中最大概率值对应的起始位置,确定为对应的设定词语对应的起始位置,并输出第一设定语句中的设定词语对应的起始位置标识;将截止位置的概率分布中最大概率值对应的截止位置,确定为对应的设定词语对应的截止位置,并输出第一设定语句中的设定词语对应的截止位置标识。其中,最大概率值对应的位置即为对应的设定实体关注的焦点位置。
本实施例中,由于第一向量表征第一设定语句的全局特征,通过全连接层对第一向量进行处理,可以准确地确定出第一设定语句中的设定词语对应的预测类别;采用注意力机制对第一子序列进行处理,可以准确地确定出设定实体关注的焦点位置,基于设定实体关注的焦点位置,确定出设定实体对应的设定词语对应的起始位置标识和截止位置标识,从而确定出设定词语在第一设定语句中所处的位置,以从第一设定语句中抽取出评价设定实体的关键词,可以提高抽取出的设定词语的准确度。可以提高抽取出的关键词的准确度。通过设定实体关注的焦点位置,来确定设定词语对应的起始位置标识和截止位置标识,可以提取出设定实体和设定词语之间的关联特征,由此,在利用训练后的数据分析模型从评价信息中提取评价实体的关键词时,即使评价信息中包括多个设定实体和多个关键词,也能准确地识别出每个设定实体对应的关键词,可以提高提取出的关键词的准确度。另外,数据分析模型可以执行分类任务和设定词语的抽取任务,可以提高模型的鲁棒性。
第一设定语句对应的第一向量集合中的向量为列向量。在一些实施例中,如图5所示,所述基于每条第一设定语句对应的第一子序列,确定出每条第一设定语句中的设定词语对应的起始位置标识和截止位置标识,包括:
步骤501:将第一设定语句对应的第一子序列,转换为至少两个第二向量。
这里,电子设备对第一子序列中的向量包含的元素进行组合处理,从而将第一子序列转换为至少两个第二向量。
在一些实施例中,所述将第一设定语句对应的第一子序列,转换为至少两个第二向量,包括以下至少两种:
计算出第一设定语句对应的第一子序列中的向量的均值,得到第二向量;
从第一设定语句对应的第一子序列中的向量中,确定出每个维度对应的最小值,得到第二向量;
从第一设定语句对应的第一子序列中的向量中,确定出每个维度对应的最大值,得到第二向量。
这里,电子设备基于第一子序列中的每个向量中每个维度的值,计算出每个维度的均值,得到第二向量。
电子设备基于第一子序列中的每个向量中每个维度的值,确定出每个维度对应的最小值,将确定出的每个维度对应的最小值进行合并,得到第二向量。
电子设备基于第一子序列中的每个向量中每个维度的值,确定出每个维度对应的最大值,将确定出的每个维度对应的最大值进行合并,得到第二向量。
实际应用时,采用上述3种方式,确定出3个第二向量。
步骤502:将第一设定语句对应的第一子序列中每个向量与第三向量相加,得到第二子序列;所述第三向量为所述模型参数,表征随机初始化的向量。
电子设备确定出随机向量,得到第三向量;将第一子序列中的每个向量与第三向量相加,得到第二子序列。其中,第三向量的维度与第一子序列中的每个向量的维度相同。
步骤503:基于第一设定语句对应的每个第二向量和第二子序列,计算出对应的第二子序列中每个向量对应的关注度向量对;关注度向量对包括表征起始位置概率的第一关注度向量和表征截止位置概率的第二关注度向量。
这里,电子设备针对至少两个第二向量中的每个第二向量,利用设定的关注度公式,基于第一设定语句对应的第二向量和第二子序列中的每个向量,计算出对应的第二子序列中每个向量对应的关注度向量对,从而得到第二子序列中每个向量对应的至少两个关注度向量对。每个向量对应的关注度向量对的数量,与第二向量的数量相等。
实际应用时,设定的关注度公式为:
其中,ai是关注度向量,表征第二向量对第二子序列中的第i个向量的关注度;exp(ei)表征ei的指数函数;V表征第三向量,VT表征V的转置;V、W和U均为待训练的模型参数;表征第二子序列中的第i个向量;Eentity表征第二向量,L表征第二子序列中向量的总数。需要说明的是,第一向量序列中的每个向量、第三向量和关注度向量的尺寸相同。实际应用时,第一向量序列中的每个向量、第三向量和关注度向量均为768维的列向量。
为了提高数据分析模型输出的设定词语对应的起始位置标识和截止位置标识的准确度,在一些实施例中,所述基于第一设定语句对应的每个第二向量和第二子序列,计算出对应的第二子序列中每个向量对应的关注度向量对,包括:
采用第一设定函数和第二设定函数,基于第一设定语句对应的第二向量和第二子序列,分别计算出对应的第二子序列中每个向量对应的第一关注度向量和第二关注度向量;其中,所述第一设定函数和所述第二设定函数中的模型参数不共享。
这里,电子设备采用第一设定函数,基于第一设定语句对应的第二向量和第二子序列,计算出对应的第二子序列中每个向量对应的第一关注度向量;采用第二设定函数,计算出对应的第二子序列中每个向量对应的第二关注度向量。
实际应用时,第一设定函数和第二设定函数对应于步骤503中的式1和式2;第一设定函数和第二设定函数中不共享的模型参数,是指上述式2中的V、W和U三个模型参数。
需要说明的是,第一设定函数和第二设定函数中模型参数的初始值可以相同,在训练数据分析模型的过程中,第一设定函数和第二设定函数中的模型参数不共享。其中,基于对应的设定词语对应的第一标定位置标识与对应的起始位置标识之间的损失值,调整第一设定函数中的模型参数;基于对应的设定词语对应的第二标定位置标识与对应的截止位置标识之间的损失值,调整第二设定函数中的模型参数。
本实施例中,第一设定函数和第二设定函数中不共享的模型参数,从而可以分开训练设定词语对应的起始位置标识和截止位置标识,可以提高训练效率。
步骤504:基于第一设定语句对应的第二子序列中每个向量对应的第一关注度向量的均值,确定出第一设定语句中的设定词语对应的起始位置标识。
这里,电子设备在确定出第一设定语句对应的第二子序列中每个向量对应的至少两个关注度向量对的情况下,从每个两个关注度向量对中,确定出第二子序列中每个向量对应的第一关注度向量;对第二子序列中每个向量对应的所有第一关注度向量进行均值运算,得到第二子序列中每个向量对应的第一关注度向量的均值;从第二子序列中每个向量对应的第一关注度向量的均值中,确定出最大均值,将最大均值对应的向量在第一设定语句中所处的位置,确定为设定词语的起始位置,并输出第一设定语句中的设定词语对应的起始位置标识。
实际应用时,由于第一设定语句对应的第一向量序列中向量的总数等于第一设定语句中的字与设定标识的总数,且第一向量序列中的向量是按照第一设定语句中的字或设定标识的排序顺序进行排列的,因此,电子设备可以将第一关注度向量的最大均值对应的向量在对应的第一设定语句对应的第一向量序列中的序号,输出第一设定语句中的设定词语对应的起始位置标识。
步骤505:基于第一设定语句对应的第二子序列中每个向量对应的第二关注度向量的均值,确定出第一设定语句中的设定词语对应的截止位置标识。
这里,电子设备对第二子序列中每个向量对应的所有第二关注度向量进行均值运算,得到第二子序列中每个向量对应的第二关注度向量的均值;从第二子序列中每个向量对应的第二关注度向量的均值中,确定出最大均值,将最大均值对应的向量在第一设定语句中所处的位置,确定为设定词语的截止位置,并输出第一设定语句中的设定词语对应的截止位置标识。
实际应用时,电子设备可以将第二关注度向量的最大均值对应的向量,在对应的第一设定语句对应的第一向量序列中的序号,输出第一设定语句中的设定词语对应的截止位置标识。
本实施例中,通过对第一设定语句对应的第一子序列中的向量进行组合,从而将第一子序列,转换为至少两个第二向量;将第一设定语句对应的第一子序列中每个向量与第三向量相加,得到第二子序列;利用注意力机制对至少两个第二向量中每个第二向量和第二子序列进行处理,确定出第二向量对第二子序列中每个向量对应的至少两个关注度向量对,并基于至少两个关注度向量对,确定出第一设定语句中的设定词语对应的起始位置标识和截止位置标识。由于在确定第二向量时是对第一子序列中的向量进行组合得到,综合考虑了设定词语之前或之后的多个词语的特征,使得从第一设定语句的设定语句中提取出的特征更完整,基于完整的特征确定出起始位置标识和截止位置标识,可以提高抽取出的设定词语的准确度。另外,考虑到评价设定实体的关键词大多是形容词,将第一子序列中的每个向量与第三向量相加,得到第二子序列,相当于在第一子序列的基础上增加了额外特征,这样可以减少抽取出的关键词出现多字少字的情况发生。
步骤102:利用设定损失函数,基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值。
这里,电子设备采用设定的损失函数,计算出第一设定语句中的设定词语对应的标定类别和预测类别之间的第一损失值,计算出第一设定语句中的设定词语对应第一标定位置标识与对应的起始位置标识之间的第二损失值,以及计算第一设定语句中设定词语对应的第二标定位置标识与对应的截止位置标识之间的第三损失值,计算第一损失值、第二损失值和第三损失值的总和,得到数据分析模型的损失值。
在一些实施例中,所述设定损失函数包括第一子函数、第二子函数、第三子函数、第一权重、第二权重和第三权重;所述利用设定损失函数,基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值,包括:
基于所述第一子函数和所述第一权重,计算出第一设定语句中设定词语对应的标定类别与对应的预测类别之间的第一损失值;
基于所述第二子函数和所述第二权重,计算出第一设定语句中设定词语对应的第一标定位置标识与对应的起始位置标识之间的第二损失值;
基于所述第三子函数和所述第三权重,计算出第一设定语句中设定词语对应的第二标定位置标识与对应的截止位置标识之间的第三损失值;
基于第一设定语句对应的第一损失值、第二损失值和第三损失值,计算出所述数据分析模型的损失值;其中,第二权重和第三权重均大于第一权重。
这里,第一子函数、第二子函数和第三子函数均为交叉熵函数。第一权重、第二权重和第三权重的总和等于1,且第二权重和第三权重均大于第一权重。在训练过程中,第一权重、第二权重和第三权重是可以调整的。
电子设备将第一设定语句中设定词语对应的标定类别与对应的预测类别,代入第一子函数,计算出第一函数值,将第一函数值与第一权重之间的乘积,确定为第一损失值。
电子设备将第一设定语句中设定词语对应的第一标定位置标识与对应的起始位置标识,代入第二子函数,计算出第二函数值,将第二函数值与第二权重之间的乘积,确定为第二损失值。
电子设备将第一设定语句中设定词语对应的第一标定位置标识与对应的起始位置标识,代入第三子函数,计算出第三函数值,将第三函数值与第三权重之间的乘积,确定为第三损失值。
示例性地,设定损失函数为:
其中,w1为第一权重,为第一子函数;p(xi)表征第i个第一设定语句中设定词语对应的标定类别;q(xi)表征第i个第一设定语句中设定词语对应的预测类别;n表征同一批次输入至数据分析模型的第一设定语句的总数;w2为第二权重,为第二子函数;p(yi)表征第i个第一设定语句中设定词语对应的第一标定位置标识,q(yi)表征第i个第一设定语句中设定词语对应的起始位置标识;w3为第三权重,为第三子函数;p(zi)表征第i个第一设定语句中设定词语对应的第二标定位置标识;q(zi)表征第i个第一设定语句中设定词语对应的截止位置标识。
实际应用时,第二权重和第三权重相同,w1:w2:w3=1:5:5。
本实施例中,通过调整第一权重、第二权重和第三权重,以充分利用第一设定语句中的设定语句中的语义信息,提升了输出的设定词语对应的起始位置标识和截止位置标识的准确度,从而进一步提升了抽取出的关键词的准确度。
步骤103:基于所述损失值更新所述数据分析模型的模型参数。
这里,电子设备基于计算出的损失值对数据分析模型的模型参数进行更新,以提升数据分析模型输出的预测结果的准确率。实际应用时,电子设备基于损失值更新数据分析模型中的第三向量、上述式2中的V、W和U,以及调整设定损失函数中第一权重、第二权重和第三权重。
这里,可设定更新停止条件,在满足更新停止条件时,将最后一次更新得到的权重参数,确定为训练完毕的数据分析模型所使用的权重参数。更新停止条件如设定的训练次数。当然,更新停止条件并不限于此,例如还可为设定的平均准确率(mAP,mean AveragePrecision)等。其中,
在训练数据分析模型的过程中,利用Adam作为优化器对数据分析模型的模型参数进行优化。实际应用时,数据分析模型的学习率为3e-5。其中,学习率越大,输出误差对模型参数的影响就越大,模型参数更新的就越快。
在数据分析模型训练完毕后,执行步骤104,以将数据分析模型投入使用。
在一些实施例中,在训练数据分析模型之后,所述方法还包括:
基于第二设定语句中第二关键词对应的起始位置标识和截止位置标识,从第二设定语句中确定出第二关键词;
基于第二设定语句对应的第一字数和第二字数,计算出所述数据分析模型的准确度;
在所述准确度大于或等于设定阈值的情况下,输出训练后的数据分析模型;
其中,第一字数表征第二设定语句对应的设定词语与第二关键词的交集包括的字数;第二字数表征第二设定语句对应的设定词语与第二关键词的并集包括的字数。
这里,第二设定语句为测试样本,电子设备利用第二设定语句测试训练后的数据分析模型的准确度。
电子设备将第二设定语句输入至训练后的数据分析模型,得到第二设定语句中第二关键词对应的预测类别、起始位置标识和截止位置标识;基于第二关键词对应的起始位置标识和截止位置标识,从第二设定语句中提取出第二关键词。
在从第二设定语句中确定出第二关键词的情况下,对第二设定语句对应的设定词语和第二关键词进行切词,从而将设定词语和第二关键词切分成字,确定出设定词语和第二关键词中相同的字,得到设定词语与第二关键词的交集,计算出该交集中的字数,得到第一字数;对切词得到的所有字进行去重处理,得到设定词语与第二关键词的并集,计算出该并集中的字数,得到第二字数。
在计算出第二设定语句对应的第一字数和第二字数的情况下,将第一字数与第二字数之商,确定为数据分析模型的准确度,并判断该准确度是否小于设定阈值;在该准确度小于设定阈值的情况下,再次执行步骤101至103,继续对数据分析模型进行训练;在该准确度大于或等于设定阈值的情况下,停止对数据分析模型进行训练,输出训练后的数据分析模型。
其中,电子设备将最后更新后得到的权重参数,作为训练完毕的数据分析模型所使用的权重参数。
需要说明的是,本发明实施例中提及的设定词语、第一关键词和第二关键词泛指词语或短语。
实际应用时,利用公式计算数据分析模型的准确度。其中,J(A,B)称为Jaccard相似系数,表征A和B之间的相似度;A对应为第二设定语句中的设定词语,B对应为第二关键词,A∩B表征设定词语与第二关键词的交集;A∪B表征设定词语与第二关键词的并集。
其中,Jaccard相似系数越大则表示两个字符串越相似,越小则表示越不相似。利用Jaccard相似系数来评价模型,可以很好的体现舒服分析模型抽取关键词的效果。
实际应用时,在采用测试集对训练后的数据分析模型进行测试时,得到的Jaccard相似系数为0.798。部分测试结果如图6所示。其中,图6中,除了黑色框中提取出的关键词有误之外,其他的都正确。
步骤104:输出训练后的数据分析模型,得到第一模型。
步骤105:将第一语句输入至所述第一模型,得到所述第一语句中的第一关键词对应的情感类别、起始位置标识和截止位置标识;所述第一语句由第一实体和对应的评价信息拼接得到。
其中,步骤105与步骤101类似,步骤105的实现过程请参照步骤101中的相关描述,此处不赘述。
本实施例中,在训练的过程中,利用第一设定语句中设定词语对应的预测类别、起始位置标识和截止位置标识对数据分析模型进行训练,由此训练后的数据分析模型可以准确地输出待分析的第一语句中评价实体的关键词所属的情感类别,以及在第一语句中所处的起始位置标识和截止位置标识,从而可以基于输出的起始位置标识和截止位置标识,从第一语句中提取对应的关键词,提高了提取出的关键词的准确率,基于确定出的关键词和关键词所属的情感类别,确定出用户对实体的真实评价,提高了获取到的真实评价的可信度。
图7为本发明实施例提供的训练数据分析模型的方法的实现流程示意图,流程的执行主体为终端、服务器等电子设备。需要说明的是,本实施例中训练训练数据分析模型对应的实施例中的电子设备,与执行数据分析方法的电子设备可以相同,也可以不同。如图7所示,训练数据分析模型的方法包括:
步骤701:将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识;其中,第一设定语句由设定实体和设定语句拼接得到,设定语句表征设定实体的评价信息;所述设定词语为评价设定实体的关键词。
步骤702:基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值。
步骤703:基于所述损失值更新所述数据分析的模型参数。
步骤701至步骤703与图1对应的实施例中的步骤101至步骤103相同,实现过程请参照步骤101至步骤103中的相关描述,此处不赘述。
本实施例中,在训练的过程中,利用第一设定语句中设定词语对应的预测类别、起始位置标识和截止位置标识对数据分析模型进行训练,得到训练完毕后的数据分析模型。由此训练后的数据分析模型可以准确地输出待分析的第一语句中评价实体的关键词所属的情感类别,以及在第一语句中所处的起始位置标识和截止位置标识,从而可以基于输出的起始位置标识和截止位置标识,从第一语句中确定出对应的关键词,提高了提取出的关键词的准确率,基于确定出的关键词和关键词所属的情感类别,确定出用户对实体的真实评价,提高了获取到的真实评价的可信度。
为实现本发明实施例的数据分析方法,本发明实施例还提供了一种电子设备,如图8所示,该电子设备包括:
训练单元81,用于将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识;其中,第一设定语句由设定实体和设定语句拼接得到,设定语句表征设定实体的评价信息;所述设定词语为评价设定实体的关键词;
计算单元82,用于基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值;
更新单元83,用于基于所述损失值更新所述数据分析的模型参数;
输出单元84,用于输出训练后的数据分析模型,得到第一模型;
提取单元85,用于将第一语句输入至所述第一模型,得到所述第一语句中的第一关键词对应的情感类别、起始位置标识和截止位置标识;所述第一语句由第一实体和对应的评价信息拼接得到。
在一些实施例中,所述设定损失函数包括第一子函数、第二子函数、第三子函数、第一权重、第二权重和第三权重;计算单元82具体用于:
基于所述第一子函数和所述第一权重,计算出第一设定语句中设定词语对应的标定类别与对应的预测类别之间的第一损失值;
基于所述第二子函数和所述第二权重,计算出第一设定语句中设定词语对应的第一标定位置标识与对应的起始位置标识之间的第二损失值;
基于所述第三子函数和所述第三权重,计算出第一设定语句中设定词语对应的第二标定位置标识与对应的截止位置标识之间的第三损失值;
基于第一设定语句对应的第一损失值、第二损失值和第三损失值,计算出所述数据分析模型的损失值;其中,第二权重和第三权重均大于第一权重。
在一些实施例中,所述数据分析模型包括特征提取模型和全连接层;训练单元81具体用于:
将至少一条第一设定语句输入至所述特征提取模型进行处理,得到所述至少一条第一设定语句中每条第一设定语句对应的第一向量序列;其中,所述第一向量序列中包括第一向量和第一子序列,所述第一向量表征第一设定语句的全局特征,第一子序列由设定语句中每个字对应的向量构成;
将每条第一设定语句对应的第一向量输入至所述全连接层,得到每条第一设定语句中的设定词语对应的预测类别;
基于每条第一设定语句对应的第一子序列,确定出每条第一设定语句中的设定词语对应的起始位置标识和截止位置标识。
在一些实施例中,训练单元81具体用于:
将第一设定语句对应的第一子序列,转换为至少两个第二向量;
将第一设定语句对应的第一子序列中每个向量与第三向量相加,得到第二子序列;所述第三向量为所述模型参数,表征随机初始化的向量;
基于第一设定语句对应的每个第二向量和第二子序列,计算出对应的第二子序列中每个向量对应的关注度向量对;关注度向量对包括表征起始位置概率的第一关注度向量和表征截止位置概率的第二关注度向量;
基于第一设定语句对应的第二子序列中每个向量对应的第一关注度向量的均值,确定出第一设定语句中的设定词语对应的起始位置标识;
基于第一设定语句对应的第二子序列中每个向量对应的第二关注度向量的均值,确定出第一设定语句中的设定词语对应的截止位置标识。
在一些实施例中,训练单元81具体用于执行以下之二:
计算出第一设定语句对应的第一子序列中的向量的均值,得到第二向量;
从第一设定语句对应的第一子序列中的向量中,确定出每个维度对应的最小值,得到第二向量;
从第一设定语句对应的第一子序列中的向量中,确定出每个维度对应的最大值,得到第二向量。
在一些实施例中,训练单元81具体用于:
采用第一设定函数和第二设定函数,基于第一设定语句对应的第二向量和第二子序列,分别计算出对应的第二子序列中每个向量对应的第一关注度向量和第二关注度向量;其中,
所述第一设定函数和所述第二设定函数中的模型参数不共享。
在一些实施例中,该电子设备还包括测试单元,用于:
基于第二设定语句中第二关键词对应的起始位置标识和截止位置标识,从第二设定语句中确定出第二关键词;
基于第二设定语句对应的第一字数和第二字数,计算出所述数据分析模型的准确度;
在所述准确度大于或等于设定阈值的情况下,输出训练后的数据分析模型;
其中,第一字数表征第二设定语句对应的设定词语与第二关键词的交集包括的字数;第二字数表征第二设定语句对应的设定词语与第二关键词的并集包括的字数。
实际应用时,电子设备包括的各单元可由电子设备中的处理器,比如中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-ProgrammableGate Array)等实现;或由电子设备中的处理器和通信接口共同实现。当然,处理器需要运行存储器中存储的程序来实现上述各程序模块的功能。
需要说明的是:上述实施例提供的电子设备在进行数据分析时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的电子设备与数据分析方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
为实现本发明实施例的训练数据分析模型的方法,本发明实施例还提供了一种电子设备,如图9所示,该电子设备包括:
训练单元91,用于将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识;其中,第一设定语句由设定实体和设定语句拼接得到,设定语句表征设定实体的评价信息;所述设定词语为评价设定实体的关键词;
计算单元92,用于基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值;
更新单元93,用于基于所述损失值更新所述数据分析的模型参数。
实际应用时,训练单元91、计算单元92和更新单元93可通过电子设备中的处理器,比如CPU、DSP、MCU或FPGA等实现。
需要说明的是:上述实施例提供的电子设备在训练数据分析模型时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的电子设备与训练数据分析模型的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备。图10为本发明实施例电子设备的硬件组成结构示意图,如图10所示,电子设备10包括:
通信接口101,能够与其它设备比如网络设备等进行信息交互;
处理器102,与所述通信接口101连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的数据分析方法,或者训练数据分析模型的方法。而所述计算机程序存储在存储器103上。
当然,实际应用时,电子设备10中的各个组件通过总线系统104耦合在一起。可理解,总线系统104用于实现这些组件之间的连接通信。总线系统104除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图10中将各种总线都标为总线系统104。
本发明实施例中的存储器103用于存储各种类型的数据以支持电子设备10的操作。这些数据的示例包括:用于在电子设备10上操作的任何计算机程序。
可以理解,存储器103可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器103旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器102中,或者由处理器102实现。处理器102可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器102中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器102可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器102可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器103,处理器102读取存储器103中的程序,结合其硬件完成前述方法的步骤。
可选地,所述处理器102执行所述程序时实现本发明实施例的各个方法中由终端实现的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的第一存储器113,上述计算机程序可由终端的处理器102执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本发明实施例所记载的技术方案和技术特征之间,在不冲突的情况下,可以任意组合。
另外,在本发明实例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种数据分析方法,其特征在于,包括:
将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识;其中,第一设定语句由设定实体和设定语句拼接得到,设定语句表征设定实体的评价信息;所述设定词语为评价设定实体的关键词;
利用设定损失函数,基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值;
基于所述损失值更新所述数据分析模型的模型参数;
输出训练后的数据分析模型,得到第一模型;
将第一语句输入至所述第一模型,得到所述第一语句中的第一关键词对应的情感类别、起始位置标识和截止位置标识;所述第一语句由第一实体和对应的评价信息拼接得到;其中,
所述数据分析模型包括特征提取模型;每条第一设定语句中的设定词语对应的起始位置标识和截止位置标识,通过以下方式得到:
将至少一条第一设定语句输入至所述特征提取模型进行处理,得到所述至少一条第一设定语句中每条第一设定语句对应的第一向量序列;其中,所述第一向量序列中包括第一向量和第一子序列,所述第一向量表征第一设定语句的全局特征,第一子序列由第一设定语句中每个字对应的向量构成;
基于每条第一设定语句对应的第一子序列,确定出每条第一设定语句中的设定词语对应的起始位置标识和截止位置标识,包括:
将第一设定语句对应的第一子序列,转换为至少两个第二向量;
将第一设定语句对应的第一子序列中每个向量与第三向量相加,得到第二子序列;所述第三向量为所述模型参数,表征随机初始化的向量;
基于第一设定语句对应的每个第二向量和第二子序列,计算出对应的第二子序列中每个向量对应的关注度向量对;关注度向量对包括表征起始位置概率的第一关注度向量和表征截止位置概率的第二关注度向量;
基于第一设定语句对应的第二子序列中每个向量对应的第一关注度向量的均值,确定出第一设定语句中的设定词语对应的起始位置标识;
基于第一设定语句对应的第二子序列中每个向量对应的第二关注度向量的均值,确定出第一设定语句中的设定词语对应的截止位置标识。
2.根据权利要求1所述的方法,其特征在于,所述设定损失函数包括第一子函数、第二子函数、第三子函数、第一权重、第二权重和第三权重;
所述利用设定损失函数,基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值,包括:
基于所述第一子函数和所述第一权重,计算出第一设定语句中设定词语对应的标定类别与对应的预测类别之间的第一损失值;
基于所述第二子函数和所述第二权重,计算出第一设定语句中设定词语对应的第一标定位置标识与对应的起始位置标识之间的第二损失值;
基于所述第三子函数和所述第三权重,计算出第一设定语句中设定词语对应的第二标定位置标识与对应的截止位置标识之间的第三损失值;
基于第一设定语句对应的第一损失值、第二损失值和第三损失值,计算出所述数据分析模型的损失值;其中,第二权重和第三权重均大于第一权重。
3.根据权利要求1或2所述的方法,其特征在于,所述数据分析模型还包括全连接层;将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别,包括:
将每条第一设定语句对应的第一向量输入至所述全连接层,得到每条第一设定语句中的设定词语对应的预测类别。
4.根据权利要求1所述的方法,其特征在于,所述将第一设定语句对应的第一子序列,转换为至少两个第二向量,包括以下至少两种:
计算出第一设定语句对应的第一子序列中的向量的均值,得到第二向量;
从第一设定语句对应的第一子序列中的向量中,确定出每个维度对应的最小值,得到第二向量;
从第一设定语句对应的第一子序列中的向量中,确定出每个维度对应的最大值,得到第二向量。
5.根据权利要求4所述的方法,其特征在于,所述基于第一设定语句对应的每个第二向量和第二子序列,计算出对应的第二子序列中每个向量对应的关注度向量对,包括:
采用第一设定函数和第二设定函数,基于第一设定语句对应的第二向量和第二子序列,分别计算出对应的第二子序列中每个向量对应的第一关注度向量和第二关注度向量;其中,
所述第一设定函数和所述第二设定函数中的模型参数不共享。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于第二设定语句中第二关键词对应的起始位置标识和截止位置标识,从第二设定语句中确定出第二关键词;
基于第二设定语句对应的第一字数和第二字数,计算出所述数据分析模型的准确度;
在所述准确度大于或等于设定阈值的情况下,输出训练后的数据分析模型;
其中,第一字数表征第二设定语句对应的设定词语与第二关键词的交集包括的字数;第二字数表征第二设定语句对应的设定词语与第二关键词的并集包括的字数。
7.一种训练数据分析模型的方法,其特征在于,包括:
将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识;其中,第一设定语句由设定实体和设定语句拼接得到,设定语句表征设定实体的评价信息;所述设定词语为评价设定实体的关键词;
基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值;
基于所述损失值更新所述数据分析的模型参数;其中,
所述数据分析模型包括特征提取模型;每条第一设定语句中的设定词语对应的起始位置标识和截止位置标识,通过以下方式得到:
将至少一条第一设定语句输入至所述特征提取模型进行处理,得到所述至少一条第一设定语句中每条第一设定语句对应的第一向量序列;其中,所述第一向量序列中包括第一向量和第一子序列,所述第一向量表征第一设定语句的全局特征,第一子序列由第一设定语句中每个字对应的向量构成;
基于每条第一设定语句对应的第一子序列,确定出每条第一设定语句中的设定词语对应的起始位置标识和截止位置标识,包括:
将第一设定语句对应的第一子序列,转换为至少两个第二向量;
将第一设定语句对应的第一子序列中每个向量与第三向量相加,得到第二子序列;所述第三向量为所述模型参数,表征随机初始化的向量;
基于第一设定语句对应的每个第二向量和第二子序列,计算出对应的第二子序列中每个向量对应的关注度向量对;关注度向量对包括表征起始位置概率的第一关注度向量和表征截止位置概率的第二关注度向量;
基于第一设定语句对应的第二子序列中每个向量对应的第一关注度向量的均值,确定出第一设定语句中的设定词语对应的起始位置标识;
基于第一设定语句对应的第二子序列中每个向量对应的第二关注度向量的均值,确定出第一设定语句中的设定词语对应的截止位置标识。
8.一种电子设备,其特征在于,包括:
训练单元,用于将至少一条第一设定语句输入至数据分析模型,得到所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的预测类别、起始位置标识和截止位置标识;其中,第一设定语句由设定实体和设定语句拼接得到,设定语句表征设定实体的评价信息;所述设定词语为评价设定实体的关键词;
计算单元,用于基于所述至少一条第一设定语句中每条第一设定语句中的设定词语对应的标定类别、第一标定位置标识和第二标定位置标识,以及基于对应的设定词语对应的预测类别、起始位置标识和截止位置标识,计算出所述数据分析模型的损失值;
更新单元,用于基于所述损失值更新所述数据分析的模型参数;
输出单元,用于输出训练后的数据分析模型,得到第一模型;
提取单元,用于将第一语句输入至所述第一模型,得到所述第一语句中的第一关键词对应的情感类别、起始位置标识和截止位置标识;所述第一语句由第一实体和对应的评价信息拼接得到;其中,
所述数据分析模型包括特征提取模型,所述训练单元具体用于:
将至少一条第一设定语句输入至所述特征提取模型进行处理,得到所述至少一条第一设定语句中每条第一设定语句对应的第一向量序列;其中,所述第一向量序列中包括第一向量和第一子序列,所述第一向量表征第一设定语句的全局特征,第一子序列由第一设定语句中每个字对应的向量构成;
基于每条第一设定语句对应的第一子序列,确定出每条第一设定语句中的设定词语对应的起始位置标识和截止位置标识,包括:
将第一设定语句对应的第一子序列,转换为至少两个第二向量;
将第一设定语句对应的第一子序列中每个向量与第三向量相加,得到第二子序列;所述第三向量为所述模型参数,表征随机初始化的向量;
基于第一设定语句对应的每个第二向量和第二子序列,计算出对应的第二子序列中每个向量对应的关注度向量对;关注度向量对包括表征起始位置概率的第一关注度向量和表征截止位置概率的第二关注度向量;
基于第一设定语句对应的第二子序列中每个向量对应的第一关注度向量的均值,确定出第一设定语句中的设定词语对应的起始位置标识;
基于第一设定语句对应的第二子序列中每个向量对应的第二关注度向量的均值,确定出第一设定语句中的设定词语对应的截止位置标识。
9.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行以下至少之一:
权利要求1至6任一项所述的方法的步骤;
权利要求7所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110717930.9A CN113378543B (zh) | 2021-06-28 | 2021-06-28 | 数据分析方法、训练数据分析模型的方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110717930.9A CN113378543B (zh) | 2021-06-28 | 2021-06-28 | 数据分析方法、训练数据分析模型的方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378543A CN113378543A (zh) | 2021-09-10 |
CN113378543B true CN113378543B (zh) | 2022-12-27 |
Family
ID=77579557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110717930.9A Active CN113378543B (zh) | 2021-06-28 | 2021-06-28 | 数据分析方法、训练数据分析模型的方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378543B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400494A (zh) * | 2020-03-16 | 2020-07-10 | 江南大学 | 一种基于GCN-Attention的情感分析方法 |
CN112800768A (zh) * | 2021-02-03 | 2021-05-14 | 北京金山数字娱乐科技有限公司 | 一种嵌套命名实体识别模型的训练方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200159863A1 (en) * | 2018-11-20 | 2020-05-21 | Sap Se | Memory networks for fine-grain opinion mining |
US10726207B2 (en) * | 2018-11-27 | 2020-07-28 | Sap Se | Exploiting document knowledge for aspect-level sentiment classification |
CN110415071B (zh) * | 2019-07-03 | 2024-02-27 | 西南交通大学 | 一种基于观点挖掘分析的汽车竞品对比方法 |
CN110489523B (zh) * | 2019-07-31 | 2021-12-17 | 西安理工大学 | 一种基于网购评价的细粒度情感分析方法 |
CN110502626B (zh) * | 2019-08-27 | 2023-04-07 | 重庆大学 | 一种基于卷积神经网络的方面级情感分析方法 |
US11501187B2 (en) * | 2019-09-24 | 2022-11-15 | International Business Machines Corporation | Opinion snippet detection for aspect-based sentiment analysis |
CN110955750A (zh) * | 2019-11-11 | 2020-04-03 | 北京三快在线科技有限公司 | 评论区域和情感极性的联合识别方法、装置、电子设备 |
CN111274398B (zh) * | 2020-01-20 | 2022-06-14 | 福州大学 | 一种方面级用户产品评论情感分析方法及系统 |
CN112069320B (zh) * | 2020-09-10 | 2022-06-28 | 东北大学秦皇岛分校 | 一种基于跨度的细粒度情感分析方法 |
CN112699240A (zh) * | 2020-12-31 | 2021-04-23 | 荆门汇易佳信息科技有限公司 | 中文情感特征词智能动态发掘和归类方法 |
-
2021
- 2021-06-28 CN CN202110717930.9A patent/CN113378543B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400494A (zh) * | 2020-03-16 | 2020-07-10 | 江南大学 | 一种基于GCN-Attention的情感分析方法 |
CN112800768A (zh) * | 2021-02-03 | 2021-05-14 | 北京金山数字娱乐科技有限公司 | 一种嵌套命名实体识别模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113378543A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
WO2022088672A1 (zh) | 基于bert的机器阅读理解方法、装置、设备及存储介质 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN109902301B (zh) | 基于深度神经网络的关系推理方法、装置及设备 | |
WO2020232898A1 (zh) | 文本分类方法、装置、电子设备及计算机非易失性可读存储介质 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN111783450B (zh) | 语料文本中的短语提取方法、装置、存储介质及电子设备 | |
CN115328756A (zh) | 一种测试用例生成方法、装置及设备 | |
CN117609444B (zh) | 一种基于大模型的搜索问答方法 | |
CN118113855B (zh) | 一种舰船试验训练场景问答方法、系统、设备和介质 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
JP2023536773A (ja) | テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN113407677B (zh) | 评估咨询对话质量的方法、装置、设备和存储介质 | |
CN114661881A (zh) | 一种基于问答模式的事件抽取方法、装置和设备 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN116304748A (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN114742016B (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
CN115470313A (zh) | 信息检索及模型训练方法、装置、设备和存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN113378543B (zh) | 数据分析方法、训练数据分析模型的方法及电子设备 | |
US20230070966A1 (en) | Method for processing question, electronic device and storage medium | |
CN117971698A (zh) | 测试用例生成方法、装置、电子设备和存储介质 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |