Nothing Special   »   [go: up one dir, main page]

CN110457683B - 模型优化方法、装置、计算机设备及存储介质 - Google Patents

模型优化方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110457683B
CN110457683B CN201910636482.2A CN201910636482A CN110457683B CN 110457683 B CN110457683 B CN 110457683B CN 201910636482 A CN201910636482 A CN 201910636482A CN 110457683 B CN110457683 B CN 110457683B
Authority
CN
China
Prior art keywords
label
labels
context
text
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910636482.2A
Other languages
English (en)
Other versions
CN110457683A (zh
Inventor
孙辉丰
孙叔琦
孙珂
杨煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910636482.2A priority Critical patent/CN110457683B/zh
Publication of CN110457683A publication Critical patent/CN110457683A/zh
Application granted granted Critical
Publication of CN110457683B publication Critical patent/CN110457683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了模型优化方法、装置、计算机设备及存储介质,其中方法可包括:获取训练得到的序列化标注模型;利用序列化标注模型对预定的大规模语料中的各语句进行标注;基于标注结果,按照预定策略确定出标注错误的语句;对标注错误的语句进行修正,将修正后的语句作为训练数据;根据训练数据对序列化标注模型进行优化。应用本发明所述方案,可自动发现序列化标注模型的问题并针对性进行优化,从而提升模型精度等。

Description

模型优化方法、装置、计算机设备及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及模型优化方法、装置、计算机设备及存储介质。
【背景技术】
序列化标注模型是自然语言处理(NLP,Natural Language Processing)领域中的常见模型,许多重要的研究方向,如分词、词性标注、命名实体识别等都可以抽象为序列化标注问题。
在序列化标注问题的研究中,基本思路是通过人工标注训练语料(即训练数据),来训练序列化标注模型,模型的效果取决于数据标注的数量和质量。
而人工标注的成本高、周期长,专业语料如词性标注语料需要领域专家才能完成,因此受限于人工成本等,训练语料的规模通常都不会太大,从而影响了训练得到的模型精度等。
【发明内容】
有鉴于此,本发明提供了模型优化方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种模型优化方法,包括:
获取训练得到的序列化标注模型;
利用所述序列化标注模型对预定的大规模语料中的各语句进行标注;
基于标注结果,按照预定策略确定出标注错误的语句;
对所述标注错误的语句进行修正,将修正后的语句作为训练数据;
根据所述训练数据对所述序列化标注模型进行优化。
根据本发明一优选实施例,所述按照预定策略确定出标注错误的语句包括:
从被标注了标签的各文本片段中筛选出符合以下条件的文本片段:相同文本片段在不同上下文窗口中被标注了不同标签;
从各上下文窗口中筛选出符合以下条件的上下文窗口:相同上下文窗口中的不同文本片段被标注了不同标签;
分别确定出筛选出的文本片段及上下文窗口的标签;
根据确定出的标签确定出标注错误的语句。
根据本发明一优选实施例,所述标签包括一级标签和二级标签;
该方法进一步包括:若任一筛选出的文本片段不存在所述一级标签,则丢弃所述文本片段;若任一筛选出的上下文窗口不存在所述一级标签,则丢弃所述上下文窗口。
根据本发明一优选实施例,确定出筛选出的文本片段的标签包括:
针对筛选出的每个文本片段,分别进行以下处理:
统计所述文本片段被标注标签的次数,得到第一统计结果;
获取所述文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计所述文本片段被标注为所述标签的次数,得到第二统计结果,用所述第二统计结果除以所述第一统计结果,若得到的商大于第一阈值,则将所述标签作为所述文本片段的一级标签,否则,将所述标签作为所述文本片段的二级标签。
根据本发明一优选实施例,确定出筛选出的上下文窗口的标签包括:
针对筛选出的每个上下文窗口,分别进行以下处理:
统计所述上下文窗口中的文本片段被标注标签的次数,得到第三统计结果;
获取所述上下文窗口中的文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计所述上下文窗口中的文本片段被标注为所述标签的次数,得到第四统计结果,用所述第四统计结果除以所述第三统计结果,若得到的商大于第二阈值,则将所述标签作为所述上下文窗口的一级标签,否则,将所述标签作为所述上下文窗口的二级标签。
根据本发明一优选实施例,该方法进一步包括:针对筛选出的每个上下文窗口,若确定所述上下文窗口不符合预定的置信度要求,则丢弃所述上下文窗口,否则,确定出所述上下文窗口的标签。
根据本发明一优选实施例,所述根据确定出的标签确定出标注错误的语句包括:
对于每个上下文窗口的每个二级标签,分别进行以下处理:
若确定任一语句中包含所述上下文窗口,且所述上下文窗口中的文本片段被标注为所述二级标签,则当所述文本片段属于筛选出的文本片段,且所述二级标签同样为所述文本片段的二级标签,且所述上下文窗口的一级标签与所述文本片段的一级标签一致时,将所述语句作为标注错误的语句。
根据本发明一优选实施例,所述对所述标注错误的语句进行修正包括:将所述上下文窗口中的文本片段的标签修正为所述文本片段的一级标签。
一种模型优化装置,包括:获取单元、标注单元、修正单元以及优化单元;
所述获取单元,用于获取训练得到的序列化标注模型;
所述标注单元,用于利用所述序列化标注模型对预定的大规模语料中的各语句进行标注;
所述修正单元,用于基于标注结果,按照预定策略确定出标注错误的语句,并对所述标注错误的语句进行修正,将修正后的语句作为训练数据;
所述优化单元,用于根据所述训练数据对所述序列化标注模型进行优化。
根据本发明一优选实施例,所述修正单元从被标注了标签的各文本片段中筛选出符合以下条件的文本片段:相同文本片段在不同上下文窗口中被标注了不同标签;从各上下文窗口中筛选出符合以下条件的上下文窗口:相同上下文窗口中的不同文本片段被标注了不同标签;分别确定出筛选出的文本片段及上下文窗口的标签;根据确定出的标签确定出标注错误的语句。
根据本发明一优选实施例,所述标签包括一级标签和二级标签;
所述修正单元进一步用于,若任一筛选出的文本片段不存在所述一级标签,则丢弃所述文本片段,若任一筛选出的上下文窗口不存在所述一级标签,则丢弃所述上下文窗口。
根据本发明一优选实施例,所述修正单元针对筛选出的每个文本片段,分别进行以下处理:统计所述文本片段被标注标签的次数,得到第一统计结果;获取所述文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计所述文本片段被标注为所述标签的次数,得到第二统计结果,用所述第二统计结果除以所述第一统计结果,若得到的商大于第一阈值,则将所述标签作为所述文本片段的一级标签,否则,将所述标签作为所述文本片段的二级标签。
根据本发明一优选实施例,所述修正单元针对筛选出的每个上下文窗口,分别进行以下处理:统计所述上下文窗口中的文本片段被标注标签的次数,得到第三统计结果;获取所述上下文窗口中的文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计所述上下文窗口中的文本片段被标注为所述标签的次数,得到第四统计结果,用所述第四统计结果除以所述第三统计结果,若得到的商大于第二阈值,则将所述标签作为所述上下文窗口的一级标签,否则,将所述标签作为所述上下文窗口的二级标签。
根据本发明一优选实施例,所述修正单元进一步用于,针对筛选出的每个上下文窗口,若确定所述上下文窗口不符合预定的置信度要求,则丢弃所述上下文窗口,否则,确定出所述上下文窗口的标签。
根据本发明一优选实施例,所述修正单元对于每个上下文窗口的每个二级标签,分别进行以下处理:若确定任一语句中包含所述上下文窗口,且所述上下文窗口中的文本片段被标注为所述二级标签,则当所述文本片段属于筛选出的文本片段,且所述二级标签同样为所述文本片段的二级标签,且所述上下文窗口的一级标签与所述文本片段的一级标签一致时,将所述语句作为标注错误的语句。
根据本发明一优选实施例,所述修正单元将所述上下文窗口中的文本片段的标签修正为所述文本片段的一级标签。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,针对已有的训练得到的序列化标注模型,可利用其对大规模语料进行自动标注,并基于标注结果确定出标注错误的语句,进而可对标注错误的语句进行修正,并将修正后的语句作为训练数据,根据训练数据对序列化标注模型进行优化,从而可以自动发现序列化标注模型的问题并针对性进行优化,进而提升了模型精度等。
【附图说明】
图1为本发明所述模型优化方法实施例的流程图。
图2为本发明所述模型优化方法的整体实现过程示意图。
图3为本发明所述模型优化装置实施例的组成结构示意图。
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明所述模型优化方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,获取训练得到的序列化标注模型。
在102中,利用序列化标注模型对预定的大规模语料中的各语句进行标注。
在103中,基于标注结果,按照预定策略确定出标注错误的语句。
在104中,对标注错误的语句进行修正,将修正后的语句作为训练数据。
在105中,根据训练数据对序列化标注模型进行优化。
可按照现有方式训练得到初始的序列化标注模型,之后可按照本实施例所述方式对序列化标注模型进行优化。
可利用序列化标注模型对预定的大规模语料中的各语句进行标注。预定的大规模语料中具体包括哪些语料及具体规模等可根据实际需要而定,一篇文章、一个网页等均可作为语料,可分别对各语料中的各语句(句子)进行标注。
以下均以序列化标注模型为命名实体识别模型为例进行说明。
比如,对于语句“导航去北京”,可得到如下标注结果:导航去北京\LOC,其中“北京”被标注的标签为“LOC”,表示地名。再比如,对于语句“他的家乡在史各庄”,可得到如下标注结果:他的家乡在史各庄\LOC,其中“史各庄”被标注的标签为“LOC”。
可基于标注结果,按照预定策略确定出标注错误的语句。
具体地,可首先筛选出以下两类数据:
1)从被标注了标签的各文本片段中筛选出符合以下条件的文本片段:相同文本片段在不同上下文窗口中被标注了不同标签。
可将被标注了标签的内容作为待筛选的文本片段,如以上所述的被标注了标签的“北京”和“史各庄”均可作为待筛选的文本片段。
可从待筛选的文本片段中筛选出符合以下条件的文本片段:相同文本片段在不同上下文窗口中被标注了不同标签。比如,对于文本片段“史各庄”,其出现在了不同的语句中,如分别为“他的家乡在史各庄”,“我爱美丽的史各庄”,其中在“他的家乡在史各庄”这一语句中,文本片段“史各庄”被标注了“LOC”的标签,而在“我爱美丽的史各庄”这一语句中,文本片段“史各庄”被标注了“PER”的标签,PER表示人名,即相同文本片段“史各庄”在不同上下文窗口中被标注了不同标签,那么则可将文本片段“史各庄”作为筛选出的文本片段。
在序列化标注任务中,虽然相同文本片段在不同上下文窗口中被标注不同标签是有可能的,但大多数情况下是标注错误,即这种情况下有较大概率是标注错误,因此可筛选出来。
2)从各上下文窗口中筛选出符合以下条件的上下文窗口:相同上下文窗口中的不同文本片段被标注了不同标签。
比如,语句“导航去北京”中的“导航去**”即为一个上下文窗口。
比如,不同的语句“导航去北京”和“导航去史各庄”,其上下文窗口均为“导航去**”,但“导航去北京”这一语句中的文本片段“北京”被标注了“LOC”的标签,而“导航去史各庄”这一语句中的文本片段“史各庄”被标注了“PER”的标签,即相同上下文窗口“导航去**”中的不同文本片段被标注了不同标签,那么则可将上下文窗口“导航去**”作为筛选出的上下文窗口。
在相同上下文窗口中,不同的文本片段大概率作为相同的语义角色,通常有着相同的标签,因此如果标签不同,有较大概率是标注错误,可筛选出来。
在完成1)和2)的处理后,可分别确定出筛选出的文本片段及上下文窗口的标签,进而可根据确定出的标签确定出标注错误的语句。
其中,所述标签可包括一级标签和二级标签。若任一筛选出的文本片段不存在一级标签,可丢弃该文本片段,同样地,若任一筛选出的上下文窗口不存在一级标签,可丢弃该上下文窗口。
针对筛选出的每个文本片段,可分别按照以下方式确定出该文本片段的一级标签和二级标签:统计该文本片段被标注标签的次数,得到第一统计结果;获取该文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计该文本片段被标注为该标签的次数,得到第二统计结果,用第二统计结果除以第一统计结果,若得到的商大于第一阈值,则可将该标签作为该文本片段的一级标签,否则,可将该标签作为该文本片段的二级标签。
比如,对于文本片段“史各庄”,其共出现在了20个不同语句中,被标注了20次标签,被标注的标签包括“LOC”和“PER”,其中16次被标注为了“LOC”,4次被标注为了“PER”,那么针对“LOC”这一标签,可计算得到16/20=80%,大于第一阈值如50%,因此可将“LOC”作为文本片段“史各庄”的一级标签,针对“PER”这一标签,可计算得到4/20=20%,小于50%,因此可将“PER”作为文本片段“史各庄”的二级标签。
上述第一阈值的具体取值可根据实际需要而定,优选地,可为上述的50%,如果第一阈值为50%,那么对于每个文本片段来说,只会有一个一级标签,可能有一个或多个二级标签。
针对筛选出的每个上下文窗口,可分别按照以下方式确定出该上下文窗口的一级标签和二级标签:统计该上下文窗口中的文本片段被标注标签的次数,得到第三统计结果;获取该上下文窗口中的文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计该上下文窗口中的文本片段被标注为该标签的次数,得到第四统计结果,用第四统计结果除以第三统计结果,若得到的商大于第二阈值,则可将该标签作为该上下文窗口的一级标签,否则,可将该标签作为该上下文窗口的二级标签。
比如,对于上下文窗口“导航去**”,其共出现在了20个不同语句中,该上下文窗口中的文本片段被标注标签的次数为20,被标注的标签包括“LOC”和“PER”,其中该上下文窗口中的文本片段16次被标注为了“LOC”,4次被标注为了“PER”,那么针对“LOC”这一标签,可计算得到16/20=80%,大于第二阈值如70%,因此可将“LOC”作为上下文窗口“导航去**”的一级标签,针对“PER”这一标签,可计算得到4/20=20%,小于70%,因此可将“PER”作为上下文窗口“导航去**”的二级标签。
上述第二阈值的具体取值可根据实际需要而定,并且,可以与第一阈值相同,也可以不同,优选地,可为上述的70%,如果第二阈值为70%,那么对于每个上下文窗口来说,只会有一个一级标签,可能有一个或多个二级标签。
本实施例中,针对筛选出的每个上下文窗口,还可首先确定该上下文窗口是否符合预定的置信度要求,若不符合预定的置信度要求,可丢弃该上下文窗口,否则,可按照上述方式确定出该上下文窗口的标签。
比如,针对筛选出的每个上下文窗口,可分别统计该上下文窗口的出现次数,若出现次数很低,如在所有的语料中只出现了两次,那么可认为该上下文窗口不符合一定的模式,不具有通用性,置信度较低,因此可丢弃该上下文窗口,以减少后续处理的工作量等。
在确定出文本片段及上下文窗口的一级标签和二级标签后,可根据确定出的标签确定出标注错误的语句。
具体地,对于每个上下文窗口的每个二级标签,可分别进行以下处理:若确定任一语句中包含该上下文窗口,且该语句中的该上下文窗口中的文本片段被标注为该二级标签,则当该文本片段属于筛选出的文本片段,且该二级标签同样为该文本片段的二级标签,且该上下文窗口的一级标签与该文本片段的一级标签一致时,将该语句确定为标注错误的语句。
比如,上下文窗口为“导航去**”,其一级标签为“LOC”,二级标签为“PER”,某一语句为“导航去史各庄”,该语句中包含上下文窗口“导航去**”,且该语句中的文本片段“史各庄”被标注为“PER”的标签,且文本片段“史各庄”属于筛选出的文本片段,且“PER”同样为文本片段“史各庄”的二级标签,且上下文窗口“导航去**”的一级标签与文本片段“史各庄”的一级标签均为“LOC”,那么则可将该语句确定为标注错误的语句。
进一步地,可对标注错误的语句进行修正。具体地,可将上述上下文窗口中的文本片段的标签修正为该文本片段的一级标签。
比如,可将“导航去史各庄”这一语句中标注为“PER”的文本片段“史各庄”的标签修正为文本片段“史各庄”的一级标签即“LOC”。
可将修正后的语句作为训练数据。按照这种方式,可得到多条训练数据,可进一步根据训练数据对序列化标注模型进行优化。
具体的优化方式不限,比如,可以将获取到的训练数据加入到之前的训练数据中,利用更新后的训练数据重新训练序列化标注模型,或者,也可以利用获取到的训练数据,在原基础上对序列化标注模型进行微调。对序列化标注模型进行优化之后,可重复执行图1所示流程,持续优化模型效果。
基于上述介绍,图2为本发明所述模型优化方法的整体实现过程示意图。如图2所示,在获取到序列化标注模型后,可利用序列化标注模型对大规模语料进行自动标注,得到标注结果。可基于标注结果,筛选出符合要求的文本片段及上下文窗口,其中,可从被标注了标签的各文本片段中筛选出符合以下条件的文本片段:相同文本片段在不同上下文窗口中被标注了不同标签;可从各上下文窗口中筛选出符合以下条件的上下文窗口:相同上下文窗口中的不同文本片段被标注了不同标签。针对筛选出的每个文本片段,可分别确定出其一级标签和二级标签,其中,若任一文本片段不存在一级标签,可丢弃该文本片段。针对筛选出的每个上下文窗口,若确定该上下文窗口不符合预定的置信度要求,可丢弃该上下文窗口,否则,可确定出该上下文窗口的一级标签和二级标签,其中,若任一上下文窗口不存在一级标签,可丢弃该上下文窗口。之后,可基于确定出的文本片段及上下文窗口的一级标签和二级标签,确定出标注错误的语句,并可对标注错误的语句进行修正,从而得到修正后的训练数据,进而可根据训练数据对序列化标注模型进行优化。对序列化标注模型进行优化之后,可重复执行图2所示过程,持续优化模型效果。具体实现请参照图1所示实施例中的相关说明,不再赘述。
需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
总之,采用本发明所述方案,可自动发现序列化标注模型的问题并针对性进行优化,从而提升了模型精度,并可持续优化模型效果等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图3为本发明所述模型优化装置实施例的组成结构示意图。如图3所示,包括:获取单元301、标注单元302、修正单元303以及优化单元304。
获取单元301,用于获取训练得到的序列化标注模型。
标注单元302,用于利用序列化标注模型对预定的大规模语料中的各语句进行标注。
修正单元303,用于基于标注结果,按照预定策略确定出标注错误的语句,并对标注错误的语句进行修正,将修正后的语句作为训练数据。
优化单元304,用于根据训练数据对序列化标注模型进行优化。
可按照现有方式训练得到初始的序列化标注模型,并可利用序列化标注模型对预定的大规模语料中的各语句进行标注。
其中,修正单元303可基于标注结果,按照预定策略确定出标注错误的语句。具体地,修正单元303可从被标注了标签的各文本片段中筛选出符合以下条件的文本片段:相同文本片段在不同上下文窗口中被标注了不同标签;从各上下文窗口中筛选出符合以下条件的上下文窗口:相同上下文窗口中的不同文本片段被标注了不同标签;分别确定出筛选出的文本片段及上下文窗口的标签;根据确定出的标签确定出标注错误的语句。
其中,所述标签可包括一级标签和二级标签。若任一筛选出的文本片段不存在一级标签,修正单元303可丢弃该文本片段,同样地,若任一筛选出的上下文窗口不存在一级标签,修正单元303可丢弃该上下文窗口。
针对筛选出的每个文本片段,修正单元303可分别按照以下方式确定出该文本片段的一级标签和二级标签:统计该文本片段被标注标签的次数,得到第一统计结果;获取该文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计该文本片段被标注为该标签的次数,得到第二统计结果,用第二统计结果除以第一统计结果,若得到的商大于第一阈值,则可将该标签作为该文本片段的一级标签,否则,可将该标签作为该文本片段的二级标签。
针对筛选出的每个上下文窗口,修正单元303可分别按照以下方式确定出该上下文窗口的一级标签和二级标签:统计该上下文窗口中的文本片段被标注标签的次数,得到第三统计结果;获取该上下文窗口中的文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计该上下文窗口中的文本片段被标注为该标签的次数,得到第四统计结果,用第四统计结果除以第三统计结果,若得到的商大于第二阈值,则可将该标签作为该上下文窗口的一级标签,否则,可将该标签作为该上下文窗口的二级标签。
针对筛选出的每个上下文窗口,修正单元303还可首先确定该上下文窗口是否符合预定的置信度要求,若不符合预定的置信度要求,可丢弃该上下文窗口,否则,可按照上述方式确定出该上下文窗口的标签。
比如,针对筛选出的每个上下文窗口,修正单元303可分别统计该上下文窗口的出现次数,若出现次数很低,如在所有的语料中只出现了两次,那么可认为该上下文窗口不符合一定的模式,不具有通用性,置信度较低,因此可丢弃该上下文窗口,以减少后续处理的工作量等。
在确定出文本片段及上下文窗口的一级标签和二级标签后,修正单元303可根据确定出的标签确定出标注错误的语句。
具体地,对于每个上下文窗口的每个二级标签,修正单元303可分别进行以下处理:若确定任一语句中包含该上下文窗口,且该语句中的该上下文窗口中的文本片段被标注为该二级标签,则当该文本片段属于筛选出的文本片段,且该二级标签同样为该文本片段的二级标签,且该上下文窗口的一级标签与该文本片段的一级标签一致时,将该语句确定为标注错误的语句。
进一步地,修正单元303可对标注错误的语句进行修正。具体地,可将上述上下文窗口中的文本片段的标签修正为该文本片段的一级标签。
修正单元303可将修正后的语句作为训练数据。按照这种方式,可得到多条训练数据,相应地,优化单元304可根据训练数据对序列化标注模型进行优化。
具体的优化方式不限,比如,可以将获取到的训练数据加入到之前的训练数据中,利用更新后的训练数据重新训练序列化标注模型,或者,也可以利用获取到的训练数据,在原基础上对序列化标注模型进行微调等。
图3所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图4显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种模型优化方法,其特征在于,包括:
获取训练得到的序列化标注模型;
利用所述序列化标注模型对预定的大规模语料中的各语句进行标注;
基于标注结果,按照预定策略确定出标注错误的语句;
对所述标注错误的语句进行修正,将修正后的语句作为训练数据;
根据所述训练数据对所述序列化标注模型进行优化;
其中,所述按照预定策略确定出标注错误的语句包括:
基于所述标注结果,筛选出符合要求的文本片段以及上下文窗口;
针对筛选出的每个文本片段,分别统计所述文本片段被标注标签的次数,得到第一统计结果,获取所述文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计所述文本片段被标注为所述标签的次数,得到第二统计结果,用所述第二统计结果除以所述第一统计结果,若得到的商大于第一阈值,则将所述标签作为所述文本片段的一级标签,否则,将所述标签作为所述文本片段的二级标签;
针对筛选出的每个上下文窗口,分别统计所述上下文窗口中的文本片段被标注标签的次数,得到第三统计结果,获取所述上下文窗口中的文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计所述上下文窗口中的文本片段被标注为所述标签的次数,得到第四统计结果,用所述第四统计结果除以所述第三统计结果,若得到的商大于第二阈值,则将所述标签作为所述上下文窗口的一级标签,否则,将所述标签作为所述上下文窗口的二级标签;
对于每个上下文窗口的每个二级标签,分别进行以下处理:若确定任一语句中包含所述上下文窗口,且所述上下文窗口中的文本片段被标注为所述二级标签,则当所述文本片段属于筛选出的文本片段,且所述二级标签同样为所述文本片段的二级标签,且所述上下文窗口的一级标签与所述文本片段的一级标签一致时,将所述语句作为标注错误的语句。
2.根据权利要求1所述的方法,其特征在于,
所述筛选出符合要求的文本片段以及上下文窗口包括:
从被标注了标签的各文本片段中筛选出符合以下条件的文本片段:相同文本片段在不同上下文窗口中被标注了不同标签;
从各上下文窗口中筛选出符合以下条件的上下文窗口:相同上下文窗口中的不同文本片段被标注了不同标签。
3.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:若任一筛选出的文本片段不存在所述一级标签,则丢弃所述文本片段;若任一筛选出的上下文窗口不存在所述一级标签,则丢弃所述上下文窗口。
4.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:针对筛选出的每个上下文窗口,若确定所述上下文窗口不符合预定的置信度要求,则丢弃所述上下文窗口,否则,确定出所述上下文窗口的标签。
5.根据权利要求1所述的方法,其特征在于,
所述对所述标注错误的语句进行修正包括:将所述上下文窗口中的文本片段的标签修正为所述文本片段的一级标签。
6.一种模型优化装置,其特征在于,包括:获取单元、标注单元、修正单元以及优化单元;
所述获取单元,用于获取训练得到的序列化标注模型;
所述标注单元,用于利用所述序列化标注模型对预定的大规模语料中的各语句进行标注;
所述修正单元,用于基于标注结果,按照预定策略确定出标注错误的语句,并对所述标注错误的语句进行修正,将修正后的语句作为训练数据;其中,其中,所述按照预定策略确定出标注错误的语句包括:基于所述标注结果,筛选出符合要求的文本片段以及上下文窗口;针对筛选出的每个文本片段,分别统计所述文本片段被标注标签的次数,得到第一统计结果,获取所述文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计所述文本片段被标注为所述标签的次数,得到第二统计结果,用所述第二统计结果除以所述第一统计结果,若得到的商大于第一阈值,则将所述标签作为所述文本片段的一级标签,否则,将所述标签作为所述文本片段的二级标签;针对筛选出的每个上下文窗口,分别统计所述上下文窗口中的文本片段被标注标签的次数,得到第三统计结果,获取所述上下文窗口中的文本片段被标注的所有标签,针对被标注的每个不同标签,分别统计所述上下文窗口中的文本片段被标注为所述标签的次数,得到第四统计结果,用所述第四统计结果除以所述第三统计结果,若得到的商大于第二阈值,则将所述标签作为所述上下文窗口的一级标签,否则,将所述标签作为所述上下文窗口的二级标签;对于每个上下文窗口的每个二级标签,分别进行以下处理:若确定任一语句中包含所述上下文窗口,且所述上下文窗口中的文本片段被标注为所述二级标签,则当所述文本片段属于筛选出的文本片段,且所述二级标签同样为所述文本片段的二级标签,且所述上下文窗口的一级标签与所述文本片段的一级标签一致时,将所述语句作为标注错误的语句;
所述优化单元,用于根据所述训练数据对所述序列化标注模型进行优化。
7.根据权利要求6所述的装置,其特征在于,
所述修正单元从被标注了标签的各文本片段中筛选出符合以下条件的文本片段:相同文本片段在不同上下文窗口中被标注了不同标签;从各上下文窗口中筛选出符合以下条件的上下文窗口:相同上下文窗口中的不同文本片段被标注了不同标签。
8.根据权利要求6所述的装置,其特征在于,
所述修正单元进一步用于,若任一筛选出的文本片段不存在所述一级标签,则丢弃所述文本片段,若任一筛选出的上下文窗口不存在所述一级标签,则丢弃所述上下文窗口。
9.根据权利要求6所述的装置,其特征在于,
所述修正单元进一步用于,针对筛选出的每个上下文窗口,若确定所述上下文窗口不符合预定的置信度要求,则丢弃所述上下文窗口,否则,确定出所述上下文窗口的标签。
10.根据权利要求6所述的装置,其特征在于,
所述修正单元将所述上下文窗口中的文本片段的标签修正为所述文本片段的一级标签。
11.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~5中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~5中任一项所述的方法。
CN201910636482.2A 2019-07-15 2019-07-15 模型优化方法、装置、计算机设备及存储介质 Active CN110457683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910636482.2A CN110457683B (zh) 2019-07-15 2019-07-15 模型优化方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910636482.2A CN110457683B (zh) 2019-07-15 2019-07-15 模型优化方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110457683A CN110457683A (zh) 2019-11-15
CN110457683B true CN110457683B (zh) 2023-04-07

Family

ID=68481237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910636482.2A Active CN110457683B (zh) 2019-07-15 2019-07-15 模型优化方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110457683B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955433B (zh) * 2019-11-27 2023-08-29 中国银行股份有限公司 一种自动化部署脚本的生成方法及装置
CN113919348A (zh) * 2020-07-07 2022-01-11 阿里巴巴集团控股有限公司 命名实体识别方法、装置、电子设备及计算机存储介质
CN112149417A (zh) * 2020-09-16 2020-12-29 北京小米松果电子有限公司 词性标注方法和装置、存储介质和电子设备
CN112528671A (zh) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 语义分析方法、装置以及存储介质
CN113761939A (zh) * 2021-09-07 2021-12-07 北京明略昭辉科技有限公司 界定上下文窗口文本范围的方法、系统、介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460551A (zh) * 2018-10-29 2019-03-12 北京知道创宇信息技术有限公司 签名信息提取方法及装置
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866337B (zh) * 2009-04-14 2014-07-02 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN108228557B (zh) * 2016-12-14 2021-12-07 北京国双科技有限公司 一种序列标注的方法及装置
US10216766B2 (en) * 2017-03-20 2019-02-26 Adobe Inc. Large-scale image tagging using image-to-topic embedding
US11238365B2 (en) * 2017-12-29 2022-02-01 Verizon Media Inc. Method and system for detecting anomalies in data labels
CN109271630B (zh) * 2018-09-11 2022-07-05 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN109299296A (zh) * 2018-11-01 2019-02-01 郑州云海信息技术有限公司 一种交互式图像文本标注方法与系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质
CN109460551A (zh) * 2018-10-29 2019-03-12 北京知道创宇信息技术有限公司 签名信息提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向非结构化文本的开放式实体属性抽取;曾道建等;《江西师范大学学报(自然科学版)》(第03期);第279-283、305页 *

Also Published As

Publication number Publication date
CN110457683A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110457683B (zh) 模型优化方法、装置、计算机设备及存储介质
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
CN108491373B (zh) 一种实体识别方法及系统
CN111581976B (zh) 医学术语的标准化方法、装置、计算机设备及存储介质
CN111221983B (zh) 时序知识图谱生成方法、装置、设备和介质
CN107544726B (zh) 基于人工智能的语音识别结果纠错方法、装置及存储介质
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN108090043B (zh) 基于人工智能的纠错举报处理方法、装置及可读介质
CN107273356B (zh) 基于人工智能的分词方法、装置、服务器和存储介质
CN111985229B (zh) 一种序列标注方法、装置及计算机设备
CN107038157B (zh) 基于人工智能的识别错误发现方法、装置及存储介质
US20170308790A1 (en) Text classification by ranking with convolutional neural networks
CN109522552B (zh) 一种医疗信息的归一化方法、装置、介质及电子设备
CN109599095B (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
CN107301248B (zh) 文本的词向量构建方法和装置、计算机设备、存储介质
CN108897869B (zh) 语料标注方法、装置、设备和存储介质
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN112860919B (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
CN109815481B (zh) 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN111241302B (zh) 职位信息图谱生成方法、装置、设备和介质
CN113204667A (zh) 音频标注模型的训练与音频标注的方法、装置
US9208142B2 (en) Analyzing documents corresponding to demographics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant