Nothing Special   »   [go: up one dir, main page]

CN113836925A - 预训练语言模型的训练方法、装置、电子设备及存储介质 - Google Patents

预训练语言模型的训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113836925A
CN113836925A CN202111089927.3A CN202111089927A CN113836925A CN 113836925 A CN113836925 A CN 113836925A CN 202111089927 A CN202111089927 A CN 202111089927A CN 113836925 A CN113836925 A CN 113836925A
Authority
CN
China
Prior art keywords
training
entity
language model
training sample
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111089927.3A
Other languages
English (en)
Other versions
CN113836925B (zh
Inventor
卓安
黄际洲
王晓敏
鲁倪佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111089927.3A priority Critical patent/CN113836925B/zh
Publication of CN113836925A publication Critical patent/CN113836925A/zh
Application granted granted Critical
Publication of CN113836925B publication Critical patent/CN113836925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种预训练语言模型的训练方法、装置、电子设备及存储介质,涉及计算机技术领域,具体涉及自然语言处理和深度学习领域。具体实现方案为:获取预训练样本;所述预训练样本中包括基于地图检索关键词与目标兴趣点poi信息的预训练语料,以及所述预训练语料中的实体及实体类型的标注信息;将所述预训练样本之中至少部分实体进行掩码;根据经过掩码后的预训练样本,对预训练语言模型进行地理实体学习。本方案可以使预训练语言模型学习到地理实体知识,提升模型的适应性。

Description

预训练语言模型的训练方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,具体涉及自然语言处理和深度学习领域,尤其涉及一种预训练语言模型的训练方法、装置、电子设备及存储介质。
背景技术
预训练模型可以在大规模的未标记语料上进行预训练,并能够学习通用的语言表示。这些表示可以用于其他任务,避免从头开始训练新模型,从而可以提高各项子任务模型训练的效率。近年来,使用预训练语言模型在多项NLP(Natural Language Processing,自然语言处理)任务上都获得了不错的提升。
目前,预训练语言模型大多使用通用场景下的语料训练得到的。但是地图是一种特别的领域,通用语料库构成的训练集与地图上的NLP任务并不直接相关,所以现有的预训练语言模型在应用到地图领域时,存在一定程度上的领域适应性问题,比如实际业务场景中部分需求理解歧义、业务模型调优效率低等问题。
发明内容
本公开提供了一种预训练语言模型的训练方法、装置、电子设备及存储介质。
根据本公开的第一方面,提供了一种预训练语言模型的训练方法,包括:
获取预训练样本;所述预训练样本中包括基于地图检索关键词与目标兴趣点poi信息的预训练语料,以及所述预训练语料中的实体及实体类型的标注信息;
将所述预训练样本之中至少部分实体进行掩码;
根据经过掩码后的预训练样本,对预训练语言模型进行地理实体学习。
根据本公开的第二方面,提供了一种预训练语言模型的训练装置,包括:
第一获取模块,用于获取预训练样本;所述预训练样本中包括基于地图检索关键词与目标兴趣点poi信息的预训练语料,以及所述预训练语料中的实体及实体类型的标注信息;
掩码模块,用于将所述预训练样本之中至少部分实体进行掩码;
第一训练模块,用于根据经过掩码后的预训练样本,对预训练语言模型进行地理实体学习。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述第一方面所述的方法。
根据本公开的技术方案,通过获取包括基于地图检索关键词与目标兴趣点poi信息的预训练语料,以及预训练语料中的实体及实体类型的标注信息的预训练样本中,并对预训练样本中的部分实体进行掩码处理来训练预训练语言模型,使其可以学习到地理实体知识,从而可以避免预训练语言模型应用于地图领域时的适应性问题的出现,也可以提升预训练语言模型针对后续任务的调优效率,进而也可以加快poi领域相关业务的落地实施。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种预训练语言模型的训练方法的流程图;
图2是本公开实施例中获取预训练样本的流程图;
图3是本公开实施例提供的又一种预训练语言模型的训练方法流程图;
图4是本公开实施例提供的又一种预训练语言模型的训练方法的流程图
图5是本公开实施例提供的一种预训练语言模型的训练装置的结构框图;
图6是本公开实施例提供的另一种预训练语言模型的训练装置的结构框图;
图7是用来实现本公开实施例的预训练语言模型的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。所涉及的用户个人信息是在争得用户同意的情况下获取、存储和应用的。
需要说明的是,预训练模型可以在大规模的未标记语料上进行预训练,并能够学习通用的语言表示。这些表示可以用于其他任务,避免从头开始训练新模型,从而可以提高各项子任务模型训练的效率。近年来,使用预训练语言模型在多项NLP任务上都获得了不错的提升。
由于预训练语言模型大多使用通用场景下的语料训练得到的,所以现有的预训练语言模型在应用到地图领域时,存在一定程度上的领域适应性问题。针对现有的技术方案,主要存在两方面问题:(1)在训练语料方面,目前的实体识别技术都针对通用语料,而通用预训练语言模型的语料和地图业务语料相差较大,缺少高质量的地理知识,无法帮助预训练语言模型进行地理知识融合;(2)在预训练任务方面,通用领域的任务学习到的地图场景的语料质量、数量上都存在一定局限,对于地图业务内出现的特殊语义表达学习地不够充分,在地图任务的一些中长尾问题上存在不足;此外通用领域的任务与地图领域子任务有一定的差异,在地图场景的任务使用时需要克服领域适应性问题,模型调优成本增加。
基于上述问题,本公开提出了一种预训练语言模型的训练方法、装置、电子设备及存储介质。该方案可以对预训练语言模型进行地理实体学习,提升预训练语言模型的适应性。
图1为本公开实施例提供的一种预训练语言模型的训练方法的流程图。需要说明的是,本公开实施例提供的预训练语言模型的训练方法可应用于本公开实施例中的预训练语言模型的训练装置,且该装置可配置于电子设备中。如图1所示,该方法可以包括以下步骤:
步骤101,获取预训练样本;该预训练样本中包括基于地图检索关键词与目标兴趣点poi(point of interest)信息的预训练语料,以及预训练语料中的实体及实体类型的标注信息。
可以理解,为了使预训练语言模型可以学习地理实体知识,所以预训练样本中需要包括关于地理知识的预训练语料,以及预训练语料中的实体及实体类型信息。
在本公开实施例中,目标poi信息可以为用户根据检索结果,点击的poi对应的信息。也就是说,基于地图检索关键词与目标poi信息的预训练语料,是指结合地图领域的用户实际检索使用的关键词与用户的点击行为获取的语料信息,由于结合了实际业务场景,所以得到的预训练语料与实际业务有较强的相关性,从而可以提高预训练语言模块的预训练效果。
作为一种示例,基于地图检索关键词与目标poi信息的预训练语料的获取方式可以为:根据地图领域用户行为数据,获取用户点击的poi的名称、地址、类型等信息;在预设时间范围内,获取同一个被点击的poi对应的地图检索关键词集合;针对每个被点击的poi,将该poi的信息与该poi对应的地图检索关键词集合进行拼接,组成预训练语料。
作为另一种示例,可以根据地图检索日志,获取用户使用的地图检索关键词,及用户基于检索结果点击的poi信息;将得到的地图检索关键词和目标poi信息进行拼接,组成预训练语料。
本公开实施例中的实体是指地理实体,比如可以包括XX省、XX市、XX区县等地理位置实体信息,也可以包括XX公司、XX小区、XX地铁线等poi相关的实体信息。此外,实体类型是指对地理实体的分类,比如国家、省、市、区县、道路、poi名称、交通线路、poi类型等,具体的实体分类可根据应用场景来进行划分,本公开对此不作限定。
作为一种示例,获取预训练语料中实体和实体类型的标注信息的实现方式可以为:使用实体识别模型对预训练语料进行实体和实体类型识别,得到预训练语料中实体和实体类型的标注信息。其中实体识别模型可以为现有技术中的模型,也可以是根据实际场景构建的实体识别模型,本公开对此不做限定。
步骤102,将预训练样本之中至少部分实体进行掩码。
为了使预训练语言模型对地理实体进行学习,本公开实施例针对预训练样本之中的实体采用了mask掩码的方式。
在本公开实施例中,为了提高模型训练的鲁棒性,针对预训练样本之中每条样本数据,可以随机选取其中某个或某几个实体进行掩码处理,其中选取的实体数量也可以是随机的。此外,预训练样本之中每条样本数据可以进行多次掩码处理,以得到多条掩码处理后的样本数据,提高预训练语言模型的学习效果。
需要说明的是,掩码处理可以有不同的方式,且在进行掩码处理时可以随机选择不同的掩码方式进行处理。其中,掩码处理的方式可以为将某实体全部掩盖,比如“A市B区”,其中“A市”为一个实体,“B区”也为一个实体,在对实体进行掩码后可以为“[mask]B区”;另外,掩码处理的方式还可以为将某实体的局部掩盖,比如上述“A市B区”被掩码处理后可以为“[mask]市B区”;此外,掩码处理的方式还可以为将某实体局部掩盖的同时,将其中文字进行随机替换,比如“A市B区”被掩码处理后可以为“A市路[mask]”。
步骤103,根据经过掩码后的预训练样本,对预训练语言模型进行地理实体学习。
也就是说,将经过掩码后的预训练样本输入训练预训练语言模型,使其输出预测实体数据,并根据预测实体数据与真实数据的差异来对预训练语言模型进行地理实体学习。
作为一种实施方式,可以将经过掩码后的预训练样本输入至预训练语言模型,得到实体预测数据;根据实体预测数据与被掩码实体,对预训练语言模型进行地理实体学习;其中,实体预测数据是预训练语言模型根据经过掩码后的预训练样本的上下文,及实体类型对被掩码实体的预测结果。
根据本公开实施例提出的预训练语言模型的训练方法,通过获取包括基于地图检索关键词与目标兴趣点poi信息的预训练语料,以及预训练语料中的实体及实体类型的标注信息的预训练样本中,并对预训练样本中的部分实体进行掩码处理来训练预训练语言模型,使其可以学习到地理实体知识,从而可以避免预训练模型应用于地图领域时的适应性问题的出现,也可以提升预训练模型针对后续任务的调优效率,进而也可以加快poi领域相关业务的落地实施。
针对预训练样本的获取方式,本公开提出了又一个实施例。
图2为本公开实施例中获取预训练样本的流程图。如图2所示,获取预训练样本的实现方式可以包括:
步骤201,根据地图检索日志和poi数据库,获取多个地图检索关键词和每个地图检索关键词的目标poi信息。
在本公开的一些实施例中,可以在地图检索日志中获取用户发起的地图检索关键词,以及每个地图检索关键词对应的检索结果中用户点击的目标poi。为了使得到的信息覆盖的知识面广,可以根据poi数据库获取目标poi信息,该poi信息可以包括poi名称、poi别名、poi地址、poi类型等,在一些实施方式中,也可以将用户对目标poi的评论数据作为目标poi的信息。需要说明的是,在地图检索日志中可以获取一部分目标poi信息,比如poi名称、poi地址等,这种情况下,可以根据poi数据库来对目标poi信息进行补充。
步骤202,针对每个地图检索关键词,将地图检索关键词与地图检索关键词的目标poi信息进行拼接,得到预训练语料。
也就是说,将每个地图检索关键词与其目标poi信息进行拼接处理,作为预训练语料中的一条数据。
可选地,可以将地图检索关键词与其目标poi信息以预设的拼接方式进行拼接,比如将地图检索关键词插入到目标poi信息中的预设位置,具体的预设位置可根据实际情况来确定。也可以以随机的方式将地图检索关键词与其目标poi信息进行拼接,本公开对此不作限定。
步骤203,对预训练语料中的实体及实体类型进行识别,得到预训练语料中的实体与实体类型的标注信息,并将预训练语料和其标注信息作为预训练样本。
在本公开的一些实施例中,对预训练语料中的实体及实体类型进行识别可以通过实体识别模型来实现。该实体识别模型可以为现有模型,也可以为根据实际应用场景构建的模型,同时该模型可以是经过基于已标注实体和实体类型的样本训练的。其中,实体类型是指实际应用中针对地理实体划分的实体类型。
需要说明的是,BiLSTM-CRF模型是一种命名实体识别模型,该模型可以通过学习各实体类型的实体文本特征,来对输入模型的文字进行实体及实体类型的识别。其中BiLSTM层可以基于输入模型的文本,以字为单位进行处理,预测每个字对应每个标签的分值,并将预测的分值输入到CRF层。其中,标签与实体类型是对应的,比如某实体类型为“组织”,则其对应的标签可以为B-Organization(组织的开头部分)和I-Organization(组织的中间部分),这样CRF层可以基于BiLSTM输出的每个文字对应的各标签分值,通过学习各标签的顺序依赖信息,来确定每个字对应的标签,并输出文本中包含的实体及各实体的类型。
作为一种示例,可以采用BiLSTM-CRF模型来对预训练语料中的实体及实体类型进行识别。在识别之前,可以将地图检索日志中的地图检索关键词进行实体标注及实体类型标注,并将标注后的地图检索关键词作为BiLSTM-CRF模型的训练样本,使该模型可以学习针对地理实体及实体类型的识别。将预训练语料输入至训练后的模型中,可以得到预训练语料中的实体与实体类型的标注信息,并将预训练语料和其标注信息作为预训练样本。
在本公开的一些实施例中,为了优化预训练样本质量,也可以先对预训练语料中的实体与实体类型的标注信息进行预处理,将预训练语料和其预处理的标注信息作为预训练样本。其中,预处理可以包括实体合并、文本归一化等操作,比如出现某些类型实体组合时,可以通过实体合并将其合并成一个信息更加完整的实体。再比如,实体中数字的格式不统一时,可以通过文字归一化操作来将其统一。
进一步地,在本公开的一些实施例中,为了提高预训练语言模型的训练效率,可以根据预训练语料的实体及实体类型的标注信息,对预训练语料进行序列化处理,并将序列化处理结果作为预训练样本。针对标注信息经过预处理操作的,可以根据预处理后的标注信息对预训练语料进行序列化处理,并将序列化处理结果作为预训练样本。
根据本公开实施例提出的预训练语言模型的训练方法,通过地图检索日志和poi数据库,并基于用户点击行为来获取预训练语料,相当于根据实际用户针对地图的检索行为及点击行为来获取预训练语料,这样不仅可以得到高质量的地图领域语料信息,也可以使样本数据与实际业务有较强的相关性,从而可以提高预训练语言模型的学习效率。此外,通过对预训练语料进行实体及实体类型识别,将预训练语料及识别后的标注信息作为预训练样本,可以使模型基于实体上下文及实体类型更有效地学习地理实体。
为了进一步提高模型的训练效果,本公开提出了又一实施例。
图3为本公开实施例提出的又一种预训练语言模型的训练方法流程图。如图3所示,在上述实施例的基础上,该方法还可以包括:
步骤301,将预训练样本中的第一类实体进行字替换处理,得到处理后的预训练样本;其中,字替换包括形近字的替换,和/或,拼音相似的字的替换。
可以理解,为了使训练后的模型可以自动进行纠错处理,可以在预训练样本中以字体换的方式来作为干扰数据,使预训练语言模型通过学习可以避免这些干扰数据影响。
在本公开的一些实施中,第一类实体是指可以进行字替换处理的实体。需要说明的是,在针对预训练样本中每条样本数据进行字体换处理时,可以是在该条样本数据的第一类实体中随机选择某个或某几个进行字体换处理,选择的实体的数量也可以是随机的。此外,字替换处理的方式也可以是随机的,也就是说,每条样本数据中可以只有对形近字的替换,也可以只有拼音相似的字的替换,也可以同时有这两种替换方式的字替换处理,以此来提高模型训练的鲁棒性。同时,预训练样本之中每条样本数据可以进行多次字体换处理,以得到多种字体换处理后的样本数据,提高预训练语言模型的学习效果。
其中,字体换处理可以包括形近字的替换,和/或,拼音相似的字的替换。举例而言,对“新世界”进行拼音相似的字替换后,可以为“新视界”、“新时界”、“心世界”等;而对“新世界”进行形近字替换后,可以为“薪世界”等。此外,字替换处理也可以包括对实体中文字顺序的调整,比如可以将“嬉戏”替换为“戏嬉”。在本公开的一些实施例中,可以在根据预设字典得到的实体候选替换字中随机选择,来进行字替换处理。
步骤302,根据处理后的预训练样本,对经过地理实体学习的预训练语言模型进行地理纠错学习。
可以理解,该步骤的目的是,使经过地理实体学习的预训练语言模型,可以通过训练来避免字替换处理的干扰,使其依然可以预测到字替换处理前的实体,从而实现模型的地理纠错学习。
作为一种示例,对经过地理实体学习的预训练语言模型,进行地理纠错学习的实现方式可以为:将处理后的预训练样本输入至经过地理实体学习的预训练语言模型,该模型可以根据上下文的实体及实体类型,对字替换实体进行预测,输出实体预测数据;根据实体预测数据与字替换处理前的实体,计算损失值,并根据该损失值不断调整模型参数,直至实体预测结果满足预期后,实现该模型的地理纠错学习。
根据本公开实施例提出的预训练语言模型的训练方法,将预训练样本中的实体进行字替换处理,并根据处理后的预训练样本,对经过地理实体学习的预训练语言模型进行地理纠错学习,从而可以使预训练语言模型对地理知识学习的更加充分,进而也可以进一步提升后续任务使用该模型后的效果。
针对预训练语言模型对相关性的学习,本公开提出了又一个实施例。
图4是本公开实施例提供的又一种预训练语言模型的训练方法的流程图。如图4所示,在上述实施例的基础上,该方法还可以包括:
步骤401,根据地图检索日志,获取相关性训练样本。
在本公开的一些实施例中,可以设定不同的相关性等级的相关性训练样本,接下来将以三个相关性等级为例进行介绍。举例而言,可以设定强相关、弱相关、不相关三个等级,其中,相关性样本可以为地图检索关键词与poi名称的相关性。作为一种示例,可以在地图检索日志中,基于每条检索记录的地图检索关键词,将该地图检索关键词的检索结果中用户点击的poi名称作为该地图检索关键词对应的强相关poi;将检索结果中用户未点击的poi名称作为该地图检索关键词对应的弱相关poi;在poi数据库中随机取出一个poi名称作为该地图检索关键词对应的不相关poi;针对每个地图检索关键词,将该地图检索关键词与其对应的三个等级的poi名称的组合作为相关性训练样本中的一条数据。
步骤402,根据相关性训练样本,对经过地理纠错学习的预训练语言模型进行相关性学习。
在本公开的一些实施例中,可以将相关性训练样本输入至经过地理纠错学习的预训练语言模型,该模型根据相关性训练样本中不同等级相关性的学习。作为一种示例,基于上述示例中的相关性训练样本,将该样本数据输入至经过地理纠错学习的预训练语言模型,该模型可以根据已学习到的地理知识,针对样本数据中每个地图检索关键词,预测该地图检索关键词对应的强相关poi名称、弱相关poi名称及不相关poi名称,并根据预测结果与样本数据中该地图检索关键词对应等级的poi名称计算损失值,从而根据损失值来训练预训练语言模型,进而实现该模型对相关性的学习。
需要说明的是,根据实际场景的需求,也可以根据相关性训练样本对经过地理实体学习的预训练语言模型进行相关性学习。也就是说,针对未进行纠错学习的预训练语言模型,也可以对其进行相关性学习来增强预训练语言模型的训练效果。如图4所示,该方法还可以包括:
步骤403,根据相关性训练样本,对经过地理实体学习的预训练语言模型进行相关性学习。
作为一种示例,基于上述示例中的相关性训练样本,将该样本数据输入至经过地理实体学习的预训练语言模型,该模型可以根据已学习到的地理实体知识,针对样本数据中每个地图检索关键词,预测该地图检索关键词对应的强相关poi名称、弱相关poi名称及不相关poi名称,并根据预测结果与样本数据中该地图检索关键词对应等级的poi名称计算损失值,从而根据损失值来训练预训练语言模型,进而实现该模型对相关性的学习。
根据本公开实施例提出的预训练语言模型的训练方法,针对预训练语言模型构建多任务学习的训练方式,根据相关性训练样本,对经过地理实体学习的预训练语言模型进行相关性训练,可以强化预训练语言模型的地理领域学习能力,提升模型效果。此外,也可以使预训练语言模型依次进行地理实体学习、地理纠错学习及相关性学习,从而可以使预训练语言模型学习的地图领域知识更加充分,增强预训练语言模型训练的效果,同时也可以提高该模型训练方法的适用性。
为了实现上述实施例,本公开提出了一种预训练语言模型的训练装置。
图5为本公开实施例提供的一种预训练语言模型的训练装置的结构框图。如图5所示,该装置可以包括:
第一获取模块510,用于获取预训练样本;预训练样本中包括基于地图检索关键词与目标兴趣点poi信息的预训练语料,以及预训练语料中的实体及实体类型的标注信息;
掩码模块520,用于将预训练样本之中至少部分实体进行掩码;
第一训练模块530,用于根据经过掩码后的预训练样本,对预训练语言模型进行地理实体学习。
在本公开的一些实施例中,第一训练模型530具体用于:
将经过掩码后的预训练样本输入至预训练语言模型,得到实体预测数据;其中,实体预测数据是预训练语言模型根据经过掩码后的预训练样本的上下文,及实体类型对被掩码实体的预测结果;
根据实体预测数据与被掩码实体,对预训练语言模型进行地理实体学习。
作为一种实施方式,在本公开实施例中,第一获取模块510包括:
获取单元511,用于根据地图检索日志和poi数据库,获取多个地图检索关键词和每个地图检索关键词的目标poi信息;
拼接单元512,用于针对每个地图检索关键词,将地图检索关键词与地图检索关键词的目标poi信息进行拼接,得到预训练语料;
识别单元513,用于对预训练语料中的实体及实体类型进行识别,得到预训练语料中的实体与实体类型的标注信息,并将预训练语料和标注信息作为预训练样本。
可选地,在本公开的一些实施例中,识别单元513还用于:
根据标注信息对预训练语料进行序列化处理,并将序列化处理结果作为预训练样本。
根据本公开实施例提出的预训练语言模型的训练装置,通过获取包括基于地图检索关键词与目标兴趣点poi信息的预训练语料,以及预训练语料中的实体及实体类型的标注信息的预训练样本中,并对预训练样本中的部分实体进行掩码处理来训练预训练语言模型,使其可以学习到地理实体知识,从而可以避免预训练模型应用于地图领域时的适应性问题的出现,也可以提升预训练模型针对后续任务的调优效率,进而也可以加快poi领域相关业务的落地实施。
为了进一步提升预训练语言模型的训练效果,本申请提出了又一个实施例。
图6为本公开实施例提供的另一种预训练语言模型的训练装置的结构框图。如图6所示,在上述实施例的基础上,该装置还包括:
替换模块640,用于将预训练样本中的第一类实体进行字替换处理,得到处理后的预训练样本;其中,字替换处理包括形近字的替换,和/或,拼音相似的字的替换;
第二训练模块650,用于根据处理后的预训练样本,对经过地理实体学习的预训练语言模型进行地理纠错学习。
为了进一步模型的训练效果,该装置还可以包括:
第二获取模块660,用于根据地图检索日志,获取相关性训练样本;
第三训练模块670,用于根据相关性训练样本,对经过地理纠错学习的预训练语言模型进行相关性学习。
进一步地,在本公开的一些实施例中,该装置还可以包括:
第三获取模块680,用于根据地图检索日志,获取相关性训练样本;
第四训练模块690,用于根据相关性训练样本,对经过地理实体学习的预训练语言模型进行相关性学习。
需要说明的是,在本公开的一些实施例中,第二获取模块660和第三获取模块680的功能可以配置于同一功能模块中,第三训练模块670和第四训练模块690的功能也可以配置于同一功能模块中,在实际应用时,可根据实际应用场景来确定。
其中,图5中的模块510至530与图6中的模块610至630具有相同的功能结构,此处不再赘述。
根据本公开实施例提出的预训练语言模型的训练装置,针对预训练语言模型构建多任务学习的训练方式,根据相关性训练样本,对经过地理实体学习的预训练语言模型进行相关性训练,可以强化预训练语言模型的地理领域学习能力,提升模型效果。此外,也可以使预训练语言模型依次进行地理实体学习、地理纠错学习及相关性学习,从而可以使预训练语言模型学习的地图领域知识更加充分,增强预训练语言模型训练的效果,同时也可以提高该模型训练方法的适用性。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如预训练语言模型的训练方法。例如,在一些实施例中,预训练语言模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的预训练语言模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行预训练语言模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种预训练语言模型的训练方法,包括:
获取预训练样本;所述预训练样本中包括基于地图检索关键词与目标兴趣点poi信息的预训练语料,以及所述预训练语料中的实体及实体类型的标注信息;
将所述预训练样本之中至少部分实体进行掩码;
根据经过掩码后的预训练样本,对预训练语言模型进行地理实体学习。
2.根据权利要求1所述的方法,其中,所述根据经过掩码后的预训练样本,对预训练语言模型进行地理实体学习,包括:
将所述经过掩码后的预训练样本输入至预训练语言模型,得到实体预测数据;其中,所述实体预测数据是所述预训练语言模型根据所述经过掩码后的预训练样本的上下文,及所述实体类型对被掩码实体的预测结果;
根据所述实体预测数据与所述被掩码实体,对所述预训练语言模型进行地理实体学习。
3.根据权利要求1所述的方法,其中,所述获取预训练样本,包括:
根据地图检索日志和poi数据库,获取多个地图检索关键词和每个所述地图检索关键词的目标poi信息;
针对每个所述地图检索关键词,将所述地图检索关键词与所述地图检索关键词的目标poi信息进行拼接,得到预训练语料;
对所述预训练语料中的实体及实体类型进行识别,得到所述预训练语料中的实体与实体类型的标注信息,并将所述预训练语料和所述标注信息作为预训练样本。
4.根据权利要求3所述的方法,其中,所述将所述预训练语料和所述标注信息作为预训练样本,包括:
根据所述标注信息对所述预训练语料进行序列化处理,并将序列化处理结果作为预训练样本。
5.根据权利要求1所述的方法,还包括:
将所述预训练样本中的第一类实体进行字替换处理,得到处理后的预训练样本;其中,所述字替换处理包括形近字的替换,和/或,拼音相似的字的替换;
根据所述处理后的预训练样本,对经过所述地理实体学习的预训练语言模型进行地理纠错学习。
6.根据权利要求5所述的方法,还包括:
根据地图检索日志,获取相关性训练样本;
根据所述相关性训练样本,对经过所述地理纠错学习的预训练语言模型进行相关性学习。
7.根据权利要求1至4中任一项所述的方法,还包括:
根据地图检索日志,获取相关性训练样本;
根据所述相关性训练样本,对经过所述地理实体学习的预训练语言模型进行相关性学习。
8.一种预训练语言模型的训练装置,包括:
第一获取模块,用于获取预训练样本;所述预训练样本中包括基于地图检索关键词与目标兴趣点poi信息的预训练语料,以及所述预训练语料中的实体及实体类型的标注信息;
掩码模块,用于将所述预训练样本之中至少部分实体进行掩码;
第一训练模块,用于根据经过掩码后的预训练样本,对预训练语言模型进行地理实体学习。
9.根据权利要求8所述的装置,其中,所述第一训练模块具体用于:
将所述经过掩码后的预训练样本输入至预训练语言模型,得到实体预测数据;其中,所述实体预测数据是所述预训练语言模型根据所述经过掩码后的预训练样本的上下文,及所述实体类型对被掩码实体的预测结果;
根据所述实体预测数据与所述被掩码实体,对所述预训练语言模型进行地理实体学习。
10.根据权利要求8所述的装置,其中,所述第一获取模块包括:
获取单元,用于根据地图检索日志和poi数据库,获取多个地图检索关键词和每个所述地图检索关键词的目标poi信息;
拼接单元,用于针对每个所述地图检索关键词,将所述地图检索关键词与所述地图检索关键词的目标poi信息进行拼接,得到预训练语料;
识别单元,用于对所述预训练语料中的实体及实体类型进行识别,得到所述预训练语料中的实体与实体类型的标注信息,并将所述预训练语料和所述标注信息作为预训练样本。
11.根据权利要求10所述的装置,其中,所述识别单元还用于:
根据所述标注信息对所述预训练语料进行序列化处理,并将序列化处理结果作为预训练样本。
12.根据权利要求8所述的装置,还包括:
替换模块,用于将所述预训练样本中的第一类实体进行字替换处理,得到处理后的预训练样本;其中,所述字替换处理包括形近字的替换,和/或,拼音相似的字的替换;
第二训练模块,用于根据所述处理后的预训练样本,对经过所述地理实体学习的预训练语言模型进行地理纠错学习。
13.根据权利要求12所述的装置,还包括:
第二获取模块,用于根据地图检索日志,获取相关性训练样本;
第三训练模块,用于根据所述相关性训练样本,对经过所述地理纠错学习的预训练语言模型进行相关性学习。
14.根据权利要求8至11任一项所述的装置,还包括:
第三获取模块,用于根据地图检索日志,获取相关性训练样本;
第四训练模块,用于根据所述相关性训练样本,对经过所述地理实体学习的预训练语言模型进行相关性学习。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至7中任一项所述的方法。
CN202111089927.3A 2021-09-16 2021-09-16 预训练语言模型的训练方法、装置、电子设备及存储介质 Active CN113836925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111089927.3A CN113836925B (zh) 2021-09-16 2021-09-16 预训练语言模型的训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111089927.3A CN113836925B (zh) 2021-09-16 2021-09-16 预训练语言模型的训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113836925A true CN113836925A (zh) 2021-12-24
CN113836925B CN113836925B (zh) 2023-07-07

Family

ID=78959695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111089927.3A Active CN113836925B (zh) 2021-09-16 2021-09-16 预训练语言模型的训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113836925B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580438A (zh) * 2022-03-02 2022-06-03 阿里巴巴(中国)有限公司 文本序列生成方法、预训练方法、存储介质及程序产品
CN114580543A (zh) * 2022-03-07 2022-06-03 北京百度网讯科技有限公司 模型训练方法、交互日志解析方法、装置、设备及介质
CN114861889A (zh) * 2022-07-04 2022-08-05 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法和装置
CN115081453A (zh) * 2022-08-23 2022-09-20 北京睿企信息科技有限公司 一种命名实体的识别方法及系统
CN115346657A (zh) * 2022-07-05 2022-11-15 深圳市镜象科技有限公司 利用迁移学习提升老年痴呆的识别效果的训练方法及装置
CN118114743A (zh) * 2024-04-29 2024-05-31 支付宝(杭州)信息技术有限公司 医疗模型预训练的方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539223A (zh) * 2020-05-29 2020-08-14 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN112559885A (zh) * 2020-12-25 2021-03-26 北京百度网讯科技有限公司 地图兴趣点的训练模型确定方法、装置及电子设备
US20210103775A1 (en) * 2019-10-08 2021-04-08 International Business Machines Corporation Span selection training for natural language processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210103775A1 (en) * 2019-10-08 2021-04-08 International Business Machines Corporation Span selection training for natural language processing
CN111539223A (zh) * 2020-05-29 2020-08-14 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN112559885A (zh) * 2020-12-25 2021-03-26 北京百度网讯科技有限公司 地图兴趣点的训练模型确定方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Y SUN 等: "ERNIE: Enhanced Representation through Knowledge Integration", 《ARXIV.ORG》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580438A (zh) * 2022-03-02 2022-06-03 阿里巴巴(中国)有限公司 文本序列生成方法、预训练方法、存储介质及程序产品
CN114580543A (zh) * 2022-03-07 2022-06-03 北京百度网讯科技有限公司 模型训练方法、交互日志解析方法、装置、设备及介质
CN114580543B (zh) * 2022-03-07 2023-09-29 北京百度网讯科技有限公司 模型训练方法、交互日志解析方法、装置、设备及介质
CN114861889A (zh) * 2022-07-04 2022-08-05 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法和装置
CN114861889B (zh) * 2022-07-04 2022-09-27 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法和装置
CN115346657A (zh) * 2022-07-05 2022-11-15 深圳市镜象科技有限公司 利用迁移学习提升老年痴呆的识别效果的训练方法及装置
CN115346657B (zh) * 2022-07-05 2023-07-28 深圳市镜象科技有限公司 利用迁移学习提升老年痴呆的识别效果的训练方法及装置
CN115081453A (zh) * 2022-08-23 2022-09-20 北京睿企信息科技有限公司 一种命名实体的识别方法及系统
CN115081453B (zh) * 2022-08-23 2022-11-04 北京睿企信息科技有限公司 一种命名实体的识别方法及系统
CN118114743A (zh) * 2024-04-29 2024-05-31 支付宝(杭州)信息技术有限公司 医疗模型预训练的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113836925B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN113836925A (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN112560496A (zh) 语义分析模型的训练方法、装置、电子设备及存储介质
CN110597994A (zh) 事件元素识别方法和装置
CN112507706A (zh) 知识预训练模型的训练方法、装置和电子设备
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN112541070B (zh) 槽位更新语料的挖掘方法、装置、电子设备和存储介质
CN114490998B (zh) 文本信息的抽取方法、装置、电子设备和存储介质
CN112559885A (zh) 地图兴趣点的训练模型确定方法、装置及电子设备
CN113408273B (zh) 文本实体识别模型的训练与文本实体识别方法、装置
CN112507103A (zh) 任务型对话及模型训练方法、装置、设备和存储介质
CN113204667A (zh) 音频标注模型的训练与音频标注的方法、装置
CN113407610A (zh) 信息抽取方法、装置、电子设备和可读存储介质
CN112528146A (zh) 内容资源推荐方法、装置、电子设备及存储介质
CN114244795B (zh) 一种信息的推送方法、装置、设备及介质
CN114218951B (zh) 实体识别模型的训练方法、实体识别方法及装置
CN114399772B (zh) 样本生成、模型训练和轨迹识别方法、装置、设备和介质
CN112270169B (zh) 对白角色预测方法、装置、电子设备及存储介质
CN112699237B (zh) 标签确定方法、设备和存储介质
CN113641724A (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN113157877A (zh) 多语义识别方法、装置、设备和介质
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN114417862A (zh) 文本匹配方法、文本匹配模型的训练方法和装置
CN113051926A (zh) 文本抽取方法、设备和存储介质
CN113807390A (zh) 模型训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant