CN111581381B - 文本分类模型的训练集合的生成方法、装置和电子设备 - Google Patents
文本分类模型的训练集合的生成方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111581381B CN111581381B CN202010355472.4A CN202010355472A CN111581381B CN 111581381 B CN111581381 B CN 111581381B CN 202010355472 A CN202010355472 A CN 202010355472A CN 111581381 B CN111581381 B CN 111581381B
- Authority
- CN
- China
- Prior art keywords
- text
- classified
- type
- content
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 166
- 238000013145 classification model Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012216 screening Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 244000025254 Cannabis sativa Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种文本分类模型的训练集合的生成方法、装置、电子设备和计算机可读存储介质。其中该文本分类模型的训练集合的生成方法包括:获取第一训练集合中的至少一个第一文本;获取所述第一文本的标题和内容;从所述内容中截取部分内容与所述标题结合成多个第二文本;根据所述多个第二文本和所述第一训练集合形成第二训练集合。上述方法通过截取文本的内容并与文本的标题结合生成多个第二文本,解决了现有技术中一些类型的文本的数据集中的数据不足的技术问题。
Description
技术领域
本公开涉及文本分类领域,尤其涉及一种文本分类模型的训练集合的生成方法、装置、电子设备及计算机可读存储介质。
背景技术
互联网的出现和普及给用户带来了大量的信息,但随着网上信息量和信息种类的大幅增长,用户在面对大量信息时无法快速从中获得对自己真正有用的那部分信息。为了解决这个信息超载问题,搜索和推荐技术诞生了。用户在需要获取自己想要的信息时可以通过搜索关键词得到与关键词相关的信息,或者推荐系统根据用户的历史信息或者其他信息等直接向用户推荐其可能感兴趣的信息,但是搜索和推荐的前提是需要首先对信息进行分类。典型的,如网络中书籍,可以将其分类为很多种类型,如历史-唐朝-贞观年间;再如网络中的广告,可以按照标的将其分为多种类型,如电商-手机类-手机配件-数据线等等。
以广告为例,为了在用户给用户投放广告内容,需要首先对广告进行分类,这个过程传统上可以通过人工或者模型来完成。当使用模型完成时,对于大的分类类型,如电商、游戏这种,由于其训练数据比较多,模型训练完成之后可以较好的完成分类任务。但是现在广告的类型是多种多样的,为了满足更加精准的投递,往往需要更加细致的分类,这样会导致在某些分类下的训练数据不够,导致模型无法收敛或者导致模型过拟合而无法很好的完成分类任务。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
为了解决现有技术中模型训练数据不够的技术问题,本公开实施例提出如下技术方案。
第一方面,本公开实施例提供一种文本分类模型的训练集合的生成方法,包括:
获取第一训练集合中的至少一个第一文本;
获取所述第一文本的标题和内容;
从所述内容中截取部分内容与所述标题结合成多个第二文本;
根据所述多个第二文本和所述第一训练集合形成第二训练集合。
第二方面,本公开实施例提供一种文本分类方法,包括:
获取待分类的文本;
确定所述待分类的文本的第一级类型;
响应于所述待分类的文本的第一级类型为第一级类型中的第一类型,将所述第一类型的待分类的文本输入第二文本分类模型得到所述第一类型的待分类的文本的第二级类型,其中所述第一类型的待分类的文本的第二级类型为所述第一类型的子类型;其中所述第二文本分类模型为根据第一方面所述的方法生成的训练集合训练得到的文本分类模型。第三方面,本公开实施例提供一种文本分类模型的训练集合的生成装置,包括:
第一文本获取模块,用于获取第一训练集合中的至少一个第一文本;
标题内容获取模块,用于获取所述第一文本的标题和内容;
第二文本生成模块,用于从所述内容中截取部分内容与所述标题结合成多个第二文本;
第二训练集合生成模块,用于根据所述多个第二文本和所述训练集合形成第二训练集合。
第四方面,本公开实施例提供一种文本分类装置,包括:
文本获取模块,用于获取待分类的文本;
第一级类型确定模块,用于确定所述待分类的文本的第一级类型;
第二输入模块,用于响应于所述第一文本分类模型的输出为第一级类型中的第一类型,将所述第一类型的待分类的文本输入第二文本分类模型得到所述第一类型的待分类的文本的第二级类型,其中所述第一类型的待分类的文本的第二级类型为所述第一类型的子类型;其中所述第二文本分类模型为根据第一方面所述的方法生成的训练集合训练得到的文本分类模型。
第五方面,本公开实施例提供一种电子设备,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面或第二方面任一所述的方法。
第六方面,本公开实施例提供一种非暂态计算机可读存储介质,其特征在于,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行前述第一方面或第二方面任一所述的方法。
本公开实施例公开了一种文本分类模型的训练集合的生成方法、装置、电子设备和计算机可读存储介质。其中该文本分类模型的训练集合的生成方法包括:获取第一训练集合中的至少一个第一文本;获取所述第一文本的标题和内容;从所述内容中截取部分内容与所述标题结合成多个第二文本;根据所述多个第二文本和所述第一训练集合形成第二训练集合。上述方法通过截取文本的内容并与文本的标题结合生成多个第二文本,解决了现有技术中一些类型的文本的数据集中的数据不足的技术问题。
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例提供的文本分类模型的训练集合的生成方法的流程示意图;
图2为本公开实施例提供的文本分类模型的训练集合的生成方法中的步骤S103的一个具体实施方式意图;
图3为本公开实施例提供的文本分类模型的训练集合的生成方法中的步骤S103的另一个具体实施方式意图;
图4为本公开实施例提供的文本分类模型的训练方法的流程示意图;
图5为本公开实施例提供的文本分类方法的流程示意图;
图6为本公开实施例提供的文本分类模型的训练集合的生成装置的实施例的结构示意图;
图7为本公开实施例提供的文本分类模型的训练装置的实施例的结构示意图;
图8为本公开实施例提供的文本分类装置的实施例的结构示意图;
图9为根据本公开实施例提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1为本公开实施例提供的文本分类模型的训练集合的生成方法实施例的流程图,本实施例提供的该文本分类模型的训练集合的生成方法可以由一文本分类模型的训练集合的生成装置来执行,该文本分类模型的训练集合的生成装置可以实现为软件,或者实现为软件和硬件的组合,该文本分类模型的训练集合的生成装置可以集成设置在文本分类模型的训练集合的生成系统中的某设备中,比如文本分类模型的训练集合的生成服务器或者文本分类模型的训练集合的生成终端设备中。如图1所示,该方法包括如下步骤:
步骤S101,获取第一训练集合中的至少一个第一文本;
在本公开中,所述第一训练集合中包括多个第一文本,所述第一文本中包括标题和内容。示例性的,所述第一文本为网络中的文章或者新闻,其包括标题和标题之下的内容;示例性的,所述第一文本为网络中的广告,所述广告以落地页的形式展示,其中包括广告的标题和广告的内容文本。
可以理解的,所述第一文本可以是通过对网页或者广告落地页进行文本识别而得到的标准化文本。除了标题和文本,所述第一文本中还可以包括获取到所述第一文本的网页所对应的网络地址、第一文本的关键词等,所述第一文本的关键词可以是文章或者新闻的作者自己标注的关键词或者所述广告的广告主自己填写的创意标签等,在此不再赘述。
每个所述第一文本可以包括第一或多个分类,其中所述分类可能为某个多级分类中的最后一级分类,如教育-线下教育-运动-台球训练;某些分类下的数据可能非常少,如上边的台球训练,这时候如果直接使用第一训练集合中的数据对模型进行训练,训练出来的模型无法很好的完成分类任务。
步骤S102,获取所述第一文本的标题和内容;
在该实施例中,所述步骤S102包括:获取所述第一文本的至少一个标题和内容。
示例性的,第一文本包括一个或多个标题。在该步骤中,需要获取所述第一文本的至少一个标题,可以理解的,可以从所述第一文本的多个标题中获取一个或多个,具体的数量在本公开中不做具体限定。第一文本的内容为与所述标题对应的内容,通常情况下,所述多个标题对应的均为同样的内容,例如一篇文章包括主标题和副标题,其对应同样的内容。或者例如一个广告,其可能有如下两个标题:“1、朋友玩手机就能挣钱,原来是因为这个APP!;2、花15分钟看文章,挣一天饭钱,立即提现!”;而这两个标题对应同一段落地页文本,如:“新颖的新闻资讯,全新的阅读体验。看新闻领取零花钱,趣头条狂撒现金红包,邀请好友一起玩,领取更多现金奖励。每日更新海量热点新闻,搞笑娱乐应有尽有。草根达人原创短片,感受第一视角其乐无穷。看新闻时段奖励源源不断,天天签到金币领不停。”。
在该步骤中,需要根据一定的规则提取出所述第一文本中的所述标题和其对应的内容,示例性的,所述规则可以是全部提取,如提取出第一文本的所有标题和标题所对应的内容。
步骤S103,从所述内容中截取部分内容与所述标题结合成多个第二文本;
由于在实际的场景中,用户往往不需要浏览文章或者广告的全部内容,就可以理解文章或广告是否是其所需要的信息,基于此,在该步骤中,从所述内容中截取部分内容与所述标题结合成多个第二文本。其中所述第二文本的分类标注类型与和其对应的第一文本相同。
如图2所示,可选的,所述步骤S103包括:
步骤S201,随机从所述内容中截取多个部分内容;
步骤S202,将所述多个部分内容分别与所述标题结合成一个第二文本以形成多个第二文本。
可选的,在步骤S201中,首先获取所述内容的长度,所述长度可以是文字的个数或者分词结果中词的个数;之后通过随机将所述长度分为预设的段数得到每段内容的长度,由此可以从所述内容的起始位置根据每段内容的长度截取出多个部分内容。其中所述部分内容的个数可以预先设置。
可以理解的,上述随机获取部分内容的过程仅仅是举例,本公开对具体的随机方法不做限制。
在得到多个部分内容之后,将所述多个部分内容分别与在步骤S102中获取到的标题结合成新的文本即第二文本,由于部分内容为多个,所述标题的数量为至少一个,因此可以结合出多个第二文本。
如图3所示,可选的,所述步骤S103包括:
步骤S301,从所述内容中截取多个包含完整语义的部分内容;
步骤S302,将所述多个包含完整语义的部分内容分别与所述标题结合成一个第二文本以形成多个第二文本。
可选的,在步骤S301中,可以首先对所述内容进行语义分析,并根据语义将其分为多个部分内容,每个部分内容中都包含有完整的语义,这样作为训练数据可以使得模型学习到完整的语义,使得之后的分类更加准确。
如步骤S102中广告的示例中,其内容可以被分为:“(1)新颖的新闻资讯,全新的阅读体验。(2)看新闻领取零花钱,趣头条狂撒现金红包,邀请好友一起玩,领取更多现金奖励。(3)每日更新海量热点新闻,搞笑娱乐应有尽有。(4)草根达人原创短片,感受第一视角其乐无穷。(5)看新闻时段奖励源源不断,天天签到金币领不停。”这5个部分内容,每个内容与两个标题分别组成一个第二文本,一共可以形成10个第二文本,并且这10个第二文本的分类类型与和其对应的第一文本相同。由此,1条训练数据被扩充为10条训练数据。
步骤S104,根据所述多个第二文本和所述第一训练集合形成第二训练集合;
在该步骤中,将所述多个第二文本和所述第一训练集合中的第一文本放在同一个训练集合中以形成第二训练集合。
可以理解的,所述第二训练集合也可以仅有所述多个第二文本组成;或者通过一定的规则从通过所述步骤S103得到的多个第二文本中选择部分第二文本与所述第训练集合形成第二训练集合。本公开对具体如何形成所述第二训练集合不做限定,实际上只要是能够使得训练集合中的训练文本的数量增加的形成方法都可以应用到本公开中。
经过上述步骤S101-步骤S104,使得训练集合中的训练文本的数量大大增加,扩充了训练数据,解决了模型训练时数据量不足的问题。
可选的,在步骤S101之前,还可以包括:
使用第一分类模型先对原始训练集合中的文本进行分类,将其划分为两种类型,其中一种是训练数据充足的,可以直接得到其类型,另外一种是通过所述第一分类模型无法分类的,作为训练数据不足的文本,将第一分类模型无法分类的文本作为第一训练集合中的第一文本。这样可以减少第一训练集合中的数据量,使得后续对第一训练集合的数据进行扩充时速度更快。
图4为本公开实施例提供的文本分类模型的训练方法实施例的流程图,本实施例提供的该文本分类模型的训练方法可以由一文本分类模型的训练装置来执行,该文本分类模型的训练装置可以实现为软件,或者实现为软件和硬件的组合,该文本分类模型的训练装置可以集成设置在文本分类模型的训练系统中的某设备中,比如文本分类模型的训练服务器或者文本分类模型的训练终端设备中。如图4所示,该方法包括如下步骤:
步骤S401,获取第二训练集合,其中所述第二训练集合为根据上述文本分类模型的训练集合的生成集合的生成方法生成的训练集合;
步骤S402,根据所述第二训练集合中的文本训练文本分类模型。
在该实施例中,直接使用所述第二训练集合对文本分类模型进行训练。示例性的,所述文本分类模型为序列到序列的转换模型,即所述文本分类模型的输入为待分类的文本,其输出为待分类的模型的具体的类型的文本;或者示例性的,所述文本分类模型为一个多分类模型,其输入为待分类的文本,输出为该待分类的文本的类型的标签。本公开对文本分类模型的具体类型不做限定。
可选的,在所述步骤S402之前,还包括:根据第三训练集合对所述文本分类模型进行预训练。其中所述第三训练集合可以为任何语料训练集,预训练可以以任何训练方式实施,如将第三训练集合中的文本做部分遮掩,之后将遮掩之后的文本输入所述文本分类模型训练使得其可以输入完整的文本,由此可以使得所述文本分类模型可以预先学习到语言的一些特征,使得模型在后续的训练中更加容易训练。
图5为本公开实施例提供的文本分类方法实施例的流程图,本实施例提供的该文本分类方法可以由一文本分类装置来执行,该文本分类装置可以实现为软件,或者实现为软件和硬件的组合,该文本分类装置可以集成设置在文本分类系统中的某设备中,比如文本分类服务器或者文本分类终端设备中。如图5所示,该方法包括如下步骤:
步骤S501,获取待分类的文本;
步骤S502,确定所述待分类的文本的第一级类型;
步骤S503,响应于待分类的文本的第一级类型为第一级类型中的第一类型,将所述第一类型的待分类的文本输入第二文本分类模型得到所述第一类型的待分类的文本的第二级类型,其中所述第一类型的待分类的文本的第二级类型为所述第一类型的子类型;其中所述第二文本分类模型为根据上述文本分类模型的训练集合的生成方法生成的训练集合训练得到的文本分类模型。
在该实施例中,可选的,所述步骤S502包括:将所述待分类的文本输入第一文本分类模型得到所述待分类文本的第一级类型。在得到待分类的文本之后,先将所述待分类的文本输入第一文本分类模型得到所述待分类文本的第一级类型;示例性的,所述待分类文本为广告文本,其首先经过第一文本分类模型得到该广告的行业分类信息,如电商类、游戏类、软件类、教育类、旅游类等等,所述的第一级类型的分类信息可以分为两种类型,一种是训练数据较比充足的,如电商类和游戏类,这类文本可以直接使用其他方式进行分类;另外一种类型是如软件类、教育类、旅游类等训练数据较少的类型,这些文本即所述步骤S503中的第一级类型中的第一类型,此时将所述文本输入根据上述文本分类模型的训练方法所训练出来的第二文本分类模型,即第二文本分类模型为通过第二训练集合训练出来的模型,可以对上述第一类型的文本进行更准确的分类。在步骤S503中,所述第二文本分类模型的输出为所述待分类文本的第二级类型,其中所述第二级类型为所述第一类型的子类型。举例来说,所述待分类文本为广告,其分类层级为:教育-线下教育-运动-台球训练。则经过第一文本分类模型,其被分类为教育类型,教育类型为训练数据量少的类型,因此将该待分类文本通过第二文本分类模型进行进一步分类,所述第二文本分类模型可以直接将其分类为台球训练类型。也即是说,本公开中的第二级类型是指第一类型的子类型,但是不限定于某个层级的子类型,其能分类到第几个层级,与训练该模型所使用的数据集相关,对于实际的应用场景来说,可以直接将其分类到最后一层的类型中,这样可以使得在后续适应文本时更加准确。
可选的,有些待分类文本有一些比较明显的特征,可以直接将其分类为某个类型,此时可以在将分类文本输入模型之前先经过规则的判定,如果规则能够将其分类为某个类型,则可以不经过模型而直接将其分类为对应的类别。此时,在所述步骤S502之前,所述文本分类方法还包括:根据第一规则筛选所述待分类的文本得到部分所述待分类文本的第一级类型。示例性的,所述第一规则为文本的网络地址,典型的网络地址为统一资源定位器(URL),对于广告来说,广告的落地页会有一个URL地址对应,而URL地址本身很多时候是可以作为分类依据的,如电商平台的URL、游戏平台的URL,如果待分类文本的URL为这些平台的URL,可以直接将其第一级分类的类型分类为第二类型,通过URL无法分类的待分类文本,再经过步骤S502中的第一分类模型进行分类,这样能够加快分类的速度;
可选的,对于第一级类型为第一类型的待分类文本,由于数据比较少,因此用URL无法准确的将其区分,并且有些待分类文本由于跟其他类型的待分类文本很相似,因此直接用模型分类效果可能不好。因此,在步骤S503之前,还可以包括:根据第二规则筛选所述待分类的文本得到部分所述待分类文本的第二级类型。示例性的,招商的广告的文本和商业广告的文本比较类似,区别就在于招商的广告文本会出现一些“招商”、“加盟”、“开店”等文字,此时可以设置第二规则,在将文本输入第二文本分类模型之前先通过第二规则将其分类,示例性的,所述第二规则可以包括关键词表,所述关键词表对应一个第二级类型,在一个示例中,所述关键词表为2个,分别为第一关键词表和第二关键词表,其中第二规则为:如果命中第一关键词表中的关键词,则待分类文本为所述第二级类型,可以直接将其分类为第二级类型;如果命中第二关键词表,则将待分类文本输入所述第二文本分类模型,使用模型对其进行分类,判断其是否为所述第二级类型;如果既未命中第一关键词表也未命中第二关键词表,则待分类文本的类型一定不是所述第二级类型,可以通过第二文本分类模型将其分类为其他第二级类型。
可选的,在所述步骤S502之后,还包括:
响应于所述待分类的文本的第一级类型为第一级类型中的第二类型,将所述第二类型的待分类的文本输入第三文本分类模型得到所述第二类型的待分类的文本的第二级类型,其中第二类型的待分类的文本的第二级类型为所述第二类型的子类型。该步骤为对分类为第一级类型中的第二类型的待分类文本的进一步分类,由于第一级类型中的第二类型不存在训练数据不足的问题,因此此处的第三文本分类模型可以是使用常规方式训练得到的文本分类模型。可以理解的,此处的第三文本分类模型也可以是通过上述文本分类模型的训练方法训练得到的,本公开对此并不做限制。
本公开实施例公开了一种文本分类模型的训练集合的生成方法,该文本分类模型的训练集合的生成方法包括:获取第一训练集合中的至少一个第一文本;获取所述第一文本的标题和内容;从所述内容中截取部分内容与所述标题结合成多个第二文本;根据所述多个第二文本和所述第一训练集合形成第二训练集合。上述方法通过截取文本的内容并与文本的标题结合生成多个第二文本,解决了现有技术中一些类型的文本的数据集中的数据不足的技术问题。
在上文中,虽然按照上述的顺序描述了上述方法实施例中的各个步骤,本领域技术人员应清楚,本公开实施例中的步骤并不必然按照上述顺序执行,其也可以倒序、并行、交叉等其他顺序执行,而且,在上述步骤的基础上,本领域技术人员也可以再加入其他步骤,这些明显变型或等同替换的方式也应包含在本公开的保护范围之内,在此不再赘述。
图6为本公开实施例提供的文本分类模型的训练集合的生成装置实施例的结构示意图,如图6所示,该装置600包括:第一文本获取模块601、标题内容获取模块602、第二文本生成模块603和第二训练集合生成模块604。其中,
第一文本获取模块601,用于获取第一训练集合中的至少一个第一文本;
标题内容获取模块602,用于获取所述第一文本的标题和内容;
第二文本生成模块603,用于从所述内容中截取部分内容与所述标题结合成多个第二文本;
第二训练集合生成模块604,用于根据所述多个第二文本和所述训练集合形成第二训练集合。
进一步的,所述标题内容获取模块602,还用于:
获取所述第一文本的至少一个标题和内容。
进一步的,所述第二文本生成模块603,还用于:
随机从所述内容中截取多个部分内容;
所述多个部分内容分别与所述标题结合成一个第二文本以形成多个第二文本。
进一步的,所述第二文本生成模块603,还用于:
从所述内容中截取多个包含完整语义的部分内容;
将所述多个包含完整语义的部分内容分别与所述标题结合成一个第二文本以形成多个第二文本。
图6所示装置可以执行图1-图3所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图3所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图3所示实施例中的描述,在此不再赘述。
图7为本公开实施例提供的文本分类模型的训练装置实施例的结构示意图,如图7所示,该装置700包括:第二训练集合获取模块701和训练模块702。其中,
第二训练集合获取模块701,用于获取第二训练集合,其中所述第二训练集合为根据上述文本分类模型的训练集合的生成集合的生成方法生成的训练集合;
训练模块702,用于根据所述第二训练集合中的文本训练文本分类模型。
进一步的,所述文本分类模型的训练装置700还包括:
预训练模块,用于根据第三训练集合对所述文本分类模型进行预训练。
图7所示装置可以执行图4所示实施例的方法,本实施例未详细描述的部分,可参考对图4所示实施例的相关说明。该技术方案的执行过程和技术效果参见图4所示实施例中的描述,在此不再赘述。
图8为本公开实施例提供的文本分类装置实施例的结构示意图,如图8所示,该装置800包括:文本获取模块801、第一级类型确定模块802和第二输入模块803。其中,
文本获取模块801,用于获取待分类的文本;
第一级类型确定模块802,用于确定所述待分类的文本的第一级类型;
第二输入模块803,用于响应于所述第一文本分类模型的输出为第一级类型中的第一类型,将所述第一类型的待分类的文本输入第二文本分类模型得到所述第一类型的待分类的文本的第二级类型,其中所述第一类型的待分类的文本的第二级类型为所述第一类型的子类型;其中所述第二文本分类模型为根据上述文本分类模型的训练集合的生成方法生成的训练集合训练得到的文本分类模型。
进一步的,所述第一级类型确定模块802还包括:
第一输入模块,用于将所述待分类的文本输入第一文本分类模型得到所述待分类文本的第一级类型。
进一步的,所述文本分类装置800还包括:
第一筛选模块,用于根据第一规则筛选所述待分类的文本得到部分所述待分类文本的第一级类型。
进一步的,所述文本分类装置800还包括:
第二筛选模块,用于根据第二规则筛选所述待分类的文本得到部分所述待分类文本的第二级类型。
进一步的,所述文本分类装置800还包括:
第三输入模块,用于响应于所述待分类的文本的第一级类型为第一级类型中的第二类型,将所述第二类型的待分类的文本输入第三文本分类模型得到所述第二类型的待分类的文本的第二级类型,其中第二类型的待分类的文本的第二级类型为所述第二类型的子类型。
图8所示装置可以执行图5所示实施例的方法,本实施例未详细描述的部分,可参考对图5所示实施例的相关说明。该技术方案的执行过程和技术效果参见图5所示实施例中的描述,在此不再赘述。
下面参考图9,其示出了适于用来实现本公开实施例的电子设备900的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储装置908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
通常,以下装置可以连接至I/O接口905:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置907;包括例如磁带、硬盘等的存储装置908;以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备900,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置909从网络上被下载和安装,或者从存储装置908被安装,或者从ROM 902被安装。在该计算机程序被处理装置901执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取第一训练集合中的至少一个第一文本;获取所述第一文本的标题和内容;从所述内容中截取部分内容与所述标题结合成多个第二文本;根据所述多个第二文本和所述第一训练集合形成第二训练集合。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,提供了一种文本分类模型的训练集合的生成方法,包括:
获取第一训练集合中的至少一个第一文本;
获取所述第一文本的标题和内容;
从所述内容中截取部分内容与所述标题结合成多个第二文本;
根据所述多个第二文本和所述第一训练集合形成第二训练集合。
进一步的,所述第一文本包括至少两个标题,所述获取所述第一文本的标题和内容,包括:
获取所述第一文本的至少一个标题和内容。
进一步的,所述从所述内容中截取部分内容与所述标题结合成多个第二文本,包括:
随机从所述内容中截取多个部分内容;
将所述多个部分内容分别与所述标题结合成一个第二文本以形成多个第二文本。
进一步的,所述从所述内容中截取部分内容与所述标题结合成多个第二文本,包括:
从所述内容中截取多个包含完整语义的部分内容;
将所述多个包含完整语义的部分内容分别与所述标题结合成一个第二文本以形成多个第二文本。
根据本公开的一个或多个实施例,提供了一种文本分类方法,包括:
获取待分类的文本;
确定所述待分类的文本的第一级类型;
响应于所述待分类的文本的第一级类型为第一级类型中的第一类型,将所述第一类型的待分类的文本输入第二文本分类模型得到所述第一类型的待分类的文本的第二级类型,其中所述第一类型的待分类的文本的第二级类型为所述第一类型的子类型;其中所述第二文本分类模型为根据所述文本分类模型的训练集合的生成所生成的训练集合训练得到的文本分类模型。
进一步的,在确定所述待分类的文本的第一级类型之前,还包括:
根据第一规则筛选所述待分类的文本得到部分所述待分类文本的第一级类型。
进一步的,在将所述待分类的文本输入第二文本分类模型之前还包括:
根据第二规则筛选所述待分类的文本得到部分所述待分类文本的第二级类型。
进一步的,在确定所述待分类的文本的第一级类型之后,还包括:
响应于所述待分类的文本的第一级类型为第一级类型中的第二类型,将所述第二类型的待分类的文本输入第三文本分类模型得到所述第二类型的待分类的文本的第二级类型,其中第二类型的待分类的文本的第二级类型为所述第二类型的子类型。
根据本公开的一个或多个实施例,提供了一种文本分类模型的训练集合的生成装置,包括:
第一文本获取模块,用于获取第一训练集合中的至少一个第一文本;
标题内容获取模块,用于获取所述第一文本的标题和内容;
第二文本生成模块,用于从所述内容中截取部分内容与所述标题结合成多个第二文本;
第二训练集合生成模块,用于根据所述多个第二文本和所述训练集合形成第二训练集合。
进一步的,所述标题内容获取模块,还用于:
获取所述第一文本的至少一个标题和内容。
进一步的,所述第二文本生成模块,还用于:
随机从所述内容中截取多个部分内容;
所述多个部分内容分别与所述标题结合成一个第二文本以形成多个第二文本。
进一步的,所述第二文本生成模块,还用于:
从所述内容中截取多个包含完整语义的部分内容;
将所述多个包含完整语义的部分内容分别与所述标题结合成一个第二文本以形成多个第二文本。
根据本公开的一个或多个实施例,提供了一种文本分类装置,包括:
文本获取模块,用于获取待分类的文本;
第一级类型确定模块,用于确定所述待分类的文本的第一级类型;
第二输入模块,用于响应于所述第一文本分类模型的输出为第一级类型中的第一类型,将所述第一类型的待分类的文本输入第二文本分类模型得到所述第一类型的待分类的文本的第二级类型,其中所述第一类型的待分类的文本的第二级类型为所述第一类型的子类型;其中所述第二文本分类模型为根据上述文本分类模型的训练集合的生成方法生成的训练集合训练得到的文本分类模型。
进一步的,所述第一级类型确定模块还包括:
第一输入模块,用于将所述待分类的文本输入第一文本分类模型得到所述待分类文本的第一级类型。
进一步的,所述文本分类装置还包括:
第一筛选模块,用于根据第一规则筛选所述待分类的文本得到部分所述待分类文本的第一级类型。
进一步的,所述文本分类装置还包括:
第二筛选模块,用于根据第二规则筛选所述待分类的文本得到部分所述待分类文本的第二级类型。
进一步的,所述文本分类装置还包括:
第三输入模块,用于响应于所述待分类的文本的第一级类型为第一级类型中的第二类型,将所述第二类型的待分类的文本输入第三文本分类模型得到所述第二类型的待分类的文本的第二级类型,其中第二类型的待分类的文本的第二级类型为所述第二类型的子类型。
根据本公开的一个或多个实施例,提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一方法。
根据本公开的一个或多个实施例,提供了一种非暂态计算机可读存储介质,其特征在于,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行前述任一方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (11)
1.一种文本分类模型的训练集合的生成方法,其特征在于,包括:
获取第一训练集合中的至少一个第一文本;所述第一文本包括对落地页进行文本识别确定的文本;所述第一文本包括至少两个标题;
获取所述第一文本的标题和内容;
从所述内容中截取部分内容与所述标题结合成多个第二文本;所述从所述内容中截取部分内容与所述标题结合成多个第二文本,包括:
随机从所述内容中截取多个部分内容;
将所述多个部分内容分别与所述标题结合成一个第二文本以形成多个第二文本;
根据所述多个第二文本和所述第一训练集合形成第二训练集合。
2.如权利要求1所述的文本分类模型的训练集合的生成方法,其中,所述获取所述第一文本的标题和内容,包括:
获取所述第一文本的至少一个标题和内容。
3.如权利要求1-2中任一项所述的文本分类模型的训练集合的生成方法,其中所述从所述内容中截取部分内容与所述标题结合成多个第二文本,包括:
从所述内容中截取多个包含完整语义的部分内容;
将所述多个包含完整语义的部分内容分别与所述标题结合成一个第二文本以形成多个第二文本。
4.一种文本分类方法,其特征在于,包括:
获取待分类的文本;
确定所述待分类的文本的第一级类型;
响应于所述待分类的文本的第一级类型为第一级类型中的第一类型,将所述第一类型的待分类的文本输入第二文本分类模型得到所述第一类型的待分类的文本的第二级类型,其中所述第一类型的待分类的文本的第二级类型为所述第一类型的子类型;其中所述第二文本分类模型为根据权利要求1-3中任一项所述的方法生成的训练集合训练得到的文本分类模型。
5.如权利要求4所述的文本分类方法,其特征在于,在确定所述待分类的文本的第一级类型之前,还包括:
根据第一规则筛选所述待分类的文本得到部分所述待分类文本的第一级类型。
6.如权利要求4所述的文本分类方法,其特征在于,在将所述待分类的文本输入第二文本分类模型之前还包括:
根据第二规则筛选所述待分类的文本得到部分所述待分类文本的第二级类型。
7.如权利要求4所述的文本分类方法,其特征在于,在确定所述待分类的文本的第一级类型之后,还包括:
响应于所述待分类的文本的第一级类型为第一级类型中的第二类型,将所述第二类型的待分类的文本输入第三文本分类模型得到所述第二类型的待分类的文本的第二级类型,其中第二类型的待分类的文本的第二级类型为所述第二类型的子类型。
8.一种文本分类模型的训练集合的生成集合的生成装置,其特征在于,包括:
第一文本获取模块,用于获取第一训练集合中的至少一个第一文本;所述第一文本包括对落地页进行文本识别确定的文本;所述第一文本包括至少两个标题;
标题内容获取模块,用于获取所述第一文本的标题和内容;
第二文本生成模块,用于从所述内容中截取部分内容与所述标题结合成多个第二文本;所述从所述内容中截取部分内容与所述标题结合成多个第二文本,包括:
随机从所述内容中截取多个部分内容;
将所述多个部分内容分别与所述标题结合成一个第二文本以形成多个第二文本;
第二训练集合生成模块,用于根据所述多个第二文本和所述训练集合形成第二训练集合。
9.一种文本分类装置,其特征在于,包括:
文本获取模块,用于获取待分类的文本;
第一级类型确定模块,用于确定所述待分类的文本的第一级类型;
第二输入模块,用于响应于所述第一文本分类模型的输出为第一级类型中的第一类型,将所述第一类型的待分类的文本输入第二文本分类模型得到所述第一类型的待分类的文本的第二级类型,其中所述第一类型的待分类的文本的第二级类型为所述第一类型的子类型;其中所述第二文本分类模型为根据权利要求1-3中任一项所述的方法生成的训练集合训练得到的文本分类模型。
10.一种电子设备,包括:
存储器,用于存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述处理器运行时实现根据权利要求1-7中任意一项所述的方法。
11.一种非暂态计算机可读存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行权利要求1-7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010355472.4A CN111581381B (zh) | 2020-04-29 | 2020-04-29 | 文本分类模型的训练集合的生成方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010355472.4A CN111581381B (zh) | 2020-04-29 | 2020-04-29 | 文本分类模型的训练集合的生成方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581381A CN111581381A (zh) | 2020-08-25 |
CN111581381B true CN111581381B (zh) | 2023-10-10 |
Family
ID=72122649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010355472.4A Active CN111581381B (zh) | 2020-04-29 | 2020-04-29 | 文本分类模型的训练集合的生成方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581381B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9195640B1 (en) * | 2009-01-12 | 2015-11-24 | Sri International | Method and system for finding content having a desired similarity |
CN107833603A (zh) * | 2017-11-13 | 2018-03-23 | 医渡云(北京)技术有限公司 | 电子病历文档分类方法、装置、电子设备及存储介质 |
CN108280206A (zh) * | 2018-01-30 | 2018-07-13 | 尹忠博 | 一种基于语义增强的短文本分类方法 |
CN108491406A (zh) * | 2018-01-23 | 2018-09-04 | 深圳市阿西莫夫科技有限公司 | 信息分类方法、装置、计算机设备和存储介质 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN110196929A (zh) * | 2019-05-20 | 2019-09-03 | 北京百度网讯科技有限公司 | 问答对的生成方法和装置 |
CN110347841A (zh) * | 2019-07-18 | 2019-10-18 | 北京香侬慧语科技有限责任公司 | 一种文档内容分类的方法、装置、存储介质及电子设备 |
CN110659367A (zh) * | 2019-10-12 | 2020-01-07 | 中国科学技术信息研究所 | 文本分类号的确定方法、装置以及电子设备 |
CN110909164A (zh) * | 2019-11-22 | 2020-03-24 | 科大国创软件股份有限公司 | 一种基于卷积神经网络的文本增强语义分类方法及系统 |
CN111078878A (zh) * | 2019-12-06 | 2020-04-28 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11200510B2 (en) * | 2016-07-12 | 2021-12-14 | International Business Machines Corporation | Text classifier training |
US11144581B2 (en) * | 2018-07-26 | 2021-10-12 | International Business Machines Corporation | Verifying and correcting training data for text classification |
US10861439B2 (en) * | 2018-10-22 | 2020-12-08 | Ca, Inc. | Machine learning model for identifying offensive, computer-generated natural-language text or speech |
-
2020
- 2020-04-29 CN CN202010355472.4A patent/CN111581381B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9195640B1 (en) * | 2009-01-12 | 2015-11-24 | Sri International | Method and system for finding content having a desired similarity |
CN107833603A (zh) * | 2017-11-13 | 2018-03-23 | 医渡云(北京)技术有限公司 | 电子病历文档分类方法、装置、电子设备及存储介质 |
CN108491406A (zh) * | 2018-01-23 | 2018-09-04 | 深圳市阿西莫夫科技有限公司 | 信息分类方法、装置、计算机设备和存储介质 |
CN108280206A (zh) * | 2018-01-30 | 2018-07-13 | 尹忠博 | 一种基于语义增强的短文本分类方法 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN110196929A (zh) * | 2019-05-20 | 2019-09-03 | 北京百度网讯科技有限公司 | 问答对的生成方法和装置 |
CN110347841A (zh) * | 2019-07-18 | 2019-10-18 | 北京香侬慧语科技有限责任公司 | 一种文档内容分类的方法、装置、存储介质及电子设备 |
CN110659367A (zh) * | 2019-10-12 | 2020-01-07 | 中国科学技术信息研究所 | 文本分类号的确定方法、装置以及电子设备 |
CN110909164A (zh) * | 2019-11-22 | 2020-03-24 | 科大国创软件股份有限公司 | 一种基于卷积神经网络的文本增强语义分类方法及系统 |
CN111078878A (zh) * | 2019-12-06 | 2020-04-28 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
李湘东 ; 巴志超 ; 高凡 ; .数字文本自动分类中特征语义关联及加权策略研究综述与展望.现代图书情报技术.2016,(09),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111581381A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110969012B (zh) | 文本纠错方法、装置、存储介质及电子设备 | |
CN111382228B (zh) | 用于输出信息的方法和装置 | |
CN110267097A (zh) | 基于分类特征的视频推送方法、装置及电子设备 | |
CN111178056A (zh) | 基于深度学习的文案生成方法、装置及电子设备 | |
WO2023279843A1 (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN110825988A (zh) | 一种信息展示方法、装置和电子设备 | |
CN112287206A (zh) | 信息处理方法、装置和电子设备 | |
CN111897950A (zh) | 用于生成信息的方法和装置 | |
CN113868538B (zh) | 信息处理方法、装置、设备及介质 | |
CN112395022B (zh) | 信息显示方法、装置、电子设备及计算机可读存储介质 | |
CN114357325A (zh) | 内容搜索方法、装置、设备及介质 | |
CN113011169A (zh) | 一种会议纪要的处理方法、装置、设备及介质 | |
KR102712013B1 (ko) | 정보를 송신하는 방법 및 장치 | |
CN111782933B (zh) | 用于推荐书单的方法和装置 | |
CN113033707A (zh) | 视频分类方法、装置、可读介质及电子设备 | |
CN111767259A (zh) | 内容分享的方法、装置、可读介质和电子设备 | |
CN111382365A (zh) | 用于输出信息的方法和装置 | |
CN111581381B (zh) | 文本分类模型的训练集合的生成方法、装置和电子设备 | |
CN111382262A (zh) | 用于输出信息的方法和装置 | |
CN112214695A (zh) | 信息处理方法、装置和电子设备 | |
CN112287171A (zh) | 信息处理方法、装置和电子设备 | |
CN116109374A (zh) | 资源位展示方法、装置、电子设备和计算机可读介质 | |
CN112348614B (zh) | 用于推送信息的方法和装置 | |
CN111897951A (zh) | 用于生成信息的方法和装置 | |
CN112506596A (zh) | 对象显示方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |