CN113626600B - 文本处理方法、装置、计算机设备和存储介质 - Google Patents
文本处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113626600B CN113626600B CN202110948029.2A CN202110948029A CN113626600B CN 113626600 B CN113626600 B CN 113626600B CN 202110948029 A CN202110948029 A CN 202110948029A CN 113626600 B CN113626600 B CN 113626600B
- Authority
- CN
- China
- Prior art keywords
- sentence set
- information
- keyword
- training
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 15
- 238000013145 classification model Methods 0.000 claims abstract description 134
- 238000012549 training Methods 0.000 claims abstract description 134
- 238000000605 extraction Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000012216 screening Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000012937 correction Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 description 26
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 21
- 238000009937 brining Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括:对待处理文本进行句子提取,得到初始句子集合;通过预先训练得到的第一关键词分类模型,从所述初始句子集合中筛选出包含至少一个第一关键词的第一句子集合;通过预先训练得到的第一信息提取模型,从所述第一句子集合中提取所述第一关键词对应的至少一个第一信息。采用本方法能够从第一句子集合中提取所述第一关键词对应的至少一个第一信息,而第一句子集合中的句子又可以是待处理文本中的任意位置处的句子,因此本申请中所提取的第一信息可以是全文任意位置的信息,克服了传统技术中只能提取对应区块的单一数据的问题。
Description
技术领域
本申请涉及文本处理技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
背景技术
在企业或政务部门中,随着其服务社会的时长和所开展业务种类的增加,随之产生的之相关文本数量和种类也会成几何倍数的增长。从相应的文本中提取目标数据,以满足新的或与之相关联的业务需求,则变成了一种常用的获取数据的方式。
传统方法中,数据提取人员,将种类繁多的文本分类,将同一类的文本分块,以提取对应块中的单一种类数据。然而,传统的方法,仅能提取对应区块的单一数据。
发明内容
基于此,有必要针对上述技术问题,提供一种能够可以在全文中提取多种数据的文本处理方法、装置、计算机设备和存储介质。
一种文本处理方法,所述方法包括:
对待处理文本进行句子提取,得到初始句子集合;
通过预先训练得到的第一关键词分类模型,从所述初始句子集合中筛选出包含至少一个第一关键词的第一句子集合;
通过预先训练得到的第一信息提取模型,从所述第一句子集合中提取所述第一关键词对应的至少一个第一信息。
一种文本处理装置,所述装置包括:
第一提取模块,用于对待处理文本进行句子提取,得到初始句子集合;
第一筛选模块,用于通过预先训练得到的第一关键词分类模型,从所述初始句子集合中筛选出包含至少一个第一关键词的第一句子集合;
第一提取信息模块,用于通过预先训练得到的第一信息提取模型,从所述第一句子集合中提取所述第一关键词对应的至少一个第一信息。
在其中一个实施例中,还包括:
第二提取模块,用于从所述初始句子集合中提取出包括所述第一信息的第二句子集合;
第二筛选模块,用于通过预先训练得到的第二关键词分类模型,从所述第二句子集合中筛选出包含至少一个第二关键词对应的第三句子集合;
第二提取信息模块,用于通过预先训练得到的第二信息提取模型,从所述第三句子集合中提取所述第二关键词对应的至少一个第二信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述文本处理方法、装置、计算机设备和存储介质,从所述初始句子集合中筛选出包含至少一个第一关键词的第一句子集合可知,第一关键词至少一个;通过预先训练得到的第一信息提取模型,从所述第一句子集合中提取所述第一关键词对应的至少一个第一信息可知,本实施例中的文本处理方法可以从第一句子集合中提取所述第一关键词对应的至少一个第一信息,而第一句子集合中的句子又可以是待处理文本中的任意位置处的句子,因此本申请中所提取的第一信息可以是全文任意位置的信息,克服了传统技术中只能提取对应区块的单一数据的问题。
附图说明
图1为一个实施例中的文本处理方法的步骤流程图;
图2为一个实施例中的第二信息提取步骤的步骤流程图;
图3为一个实施例中的确定第二关联关系步骤的步骤流程图;
图4为一个实施例中的第二信息替换的步骤流程图;
图5为一个实施例中的训练第一关键词分类模型的步骤流程图;
图6为一个实施例中的构建he单词后的拓扑图;
图7为一个实施例中的插入she单词后的拓扑图;
图8为一个实施例中的插入hers以及his单词后的拓扑图;
图9为一个实施例中的构建fail指针的第一部分的拓扑图;
图10为一个实施例中的构建fail指针的第二部分的拓扑图;
图11为一个实施例中的构建fail指针的第三部分的拓扑图;
图12为一个实施例中的构建fail指针的第四部分的拓扑图;
图13为一个实施例中的构建fail指针的第五部分的拓扑图;
图14为一个实施例中的训练第二关键词分类模型的步骤流程图;
图15为一个实施例中文本处理装置的结构框图;
图16为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种文本处理方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本发明提及到的待处理文本的格式和类型并不做具体限定,但为了描述清楚及方便理解,下文中待处理文本均用法院的文书代替,但可以理解的是,待处理文本不仅仅是指法院文书,也可以是其它的任何文本文件。
本实施例中,如图1所示,提供了一种文本处理方法的步骤流程图,该方法包括以下步骤:
步骤S102,对待处理文本进行句子提取,得到初始句子集合。
其中,待处理文本为接下来将要进行数据提取的原始文本;初始句子集合为包含至少一个初始句子的句子集合。
具体地,终端从待处理文本中提取句子,并根据提取出来的初始句子得到初始句子集合。其中,终端对如何从待处理文本中进行句子提取并不做限定,优选地,终端可以通过预设规则对待处理文本进行句子提取,终端利用这些预设规则,例如将“;:。、\n”等符号之前或之间的文字视为一个句子,将这些作为初始句子提取出来,并放入初始句子集合,由此得到初始句子集合。其中,将这些符号之前的句子视为一个句子的含义为,一段话中的第一个字到第一个预先选出的符号之间的文字视为一个句子;将这些预先选出的符号之间的文字视为一个句子的含义为,两个预先选出的符号之间的文字为一个句子。本实施例并不对预先选出的符号做限定,只要满足分割句子的含义的符号均可认为时预先选出的符号,将其加入终端中存储预先选出的符号即可;符号\n的含义为回车,下一行。在具体实施过程中,若以法院的裁判文书为待处理文本,终端以”;:。、\n”等符号之前或之间的文字视为一个句子的句子提取规则进行句子提取,将提取的句子放入初始句子集合。
步骤S104,通过预先训练得到的第一关键词分类模型,从初始句子集合中筛选出包含至少一个第一关键词的第一句子集合。
其中,第一关键词分类模型,是在终端正式处理文本之前训练得到,根据第一关键词分类模型进行句子分类的模型;第一关键词,为预先设定整理的特定关键词,第一关键词的个数不受限定,可以为一个,也可以为多个;第一句子集合为,初始句子集合中所有包含至少一个第一关键词的句子的集合。
具体地,终端通过预先训练得到的第一关键词分类模型,将初始句子进行分类,一类为包含第一关键词的第一句子集合,一类为不包含第一关键词的其它句子集合。其中,包含第一关键词的第一句子集合中的句子,至少包含第一关键词中的一个,也可以为多个,并不限定个数。在具体实施过程中,终端通过预先训练得到的行受贿关键词分类模型,将由裁判文书得到的初始句子集合进行分类,一类为初始句子集合中包含行贿、送给、收受、给予等中至少一个第一关键词的句子,并将这些句子添加到第一句子集合;另一类为初始句子集合中不包括行贿、送给、收受、给予…等任意一个第一关键词的句子。
步骤S106,通过预先训练得到的第一信息提取模型,从第一句子集合中提取第一关键词对应的至少一个第一信息。
其中,第一信息提取模型是在终端正式处理文本之前预先训练出来的,用于从第一句子集合中提取第一信息的模型;第一信息是终端欲从原始文本中提取的一类信息,并不仅限于一个信息;第一信息与第一关键词存在对应关系,以行受贿为例,第一信息为行受贿的具体对象,例如第一关键词为行贿或者受贿动作行贿、送给、收受、给予,则第一信息为具体地行受贿人人名或是标识行受贿人的唯一标识。
具体地,终端通过预先训练得到的第一信息提取模型,从第一句子集合中提取第一关键词对应的至少一个信息。例如,终端通过预先训练得到的第一信息提取模型即行和/或受贿人提取模型,从包含行和/或受贿关键词的句子集合中提取行和/或受贿关键词对应的至少一个行和/或受贿人。
上述处理文本方法中,从初始句子集合中筛选出包含至少一个第一关键词的第一句子集合可知,第一关键词至少一个;通过预先训练得到的第一信息提取模型,从第一句子集合中提取第一关键词对应的至少一个第一信息可知,本实施例中的文本处理方法可以从第一句子集合中提取第一关键词对应的至少一个第一信息,而第一句子集合中的句子又可以是待处理文本中的任意位置处的句子,因此本申请中所提取的第一信息可以是全文任意位置的信息,克服了传统技术中只能提取对应区块的单一数据的问题。
在一个实施例中,如图2所示,图2为一个实施例中的第二信息提取的步骤流程图,该第二信息提取步骤包括以下步骤:
步骤S202,从初始句子集合中提取出包括第一信息的第二句子集合。
具体地,第二句子集合为初始句子集合中包括第一信息的句子的集合,也就是说第二句子集合是第一句子集合的子集,终端通过第一信息从初始句子集合中筛选出第二句子集合。
具体地,终端从初始句子集合中提取出包括第一信息的句子,得到第二句子集合。终端从初始句子集合中提取出包括第一信息的句子的方式不做限定,可以但不局限于,终端依次按各第一信息的顺序或者是按照第一信息并行进行搜索并提取与之对应的句子,并将这些句子添加到第二句子集合。在具体实施过程中,终端从初始句子集合中提取包括各行贿或受贿人的句子,并将初始句子中包括行或受贿人的句子添加到第二句子集合。
步骤S204,通过预先训练得到的第二关键词分类模型,从第二句子集合中筛选出包含至少一个第二关键词对应的第三句子集合。
其中,第二关键词分类模型是在终端正式处理文本之前训练得到的、根据第二关键词分类模型进行句子分类的模型;第二关键词为预先设定整理的特定关键词,第二关键词的个数不受限定,可以为一个,也可以为多个;第三句子集合为第二句子集合中所有包含至少一个第二关键词的句子的集合。
具体地,终端通过第二关键词分类模型,将第二句子集合分为两类,一类为包含至少一个第二关键词对应的句子,并由这些句子得到第三句子集合;另一类为第二句子集合中不包括第二关键词的句子。其中,包含第二关键词的第三句子集合中的句子至少包含第二关键词中的一个,也可以为多个,并不限定个数。在具体实施过程中,终端通过预先训练得到的任职信息关键词分类模型,将包括行或受贿人的第二句子集合中的句子进行分类,一类为第二句子集合中包含在任、担任、时任、任等中至少一个第二关键词的句子,并将这些句子添加到第三句子集合;另一类为第二句子集合中不包括在任、担任、时任、任…等任意一个第二关键词的句子。
步骤S206,通过预先训练得到的第二信息提取模型,从第三句子集合中提取第二关键词对应的至少一个第二信息。
其中,第二信息提取模型是在终端正式处理文本之前预先训练出来的,用于从第三句子集合中提取第二信息的模型;第二信息是终端欲从原始文本中提取的另一类信息,并不仅限于一个信息;第二信息与第二关键词有对应关系,以任职信息为例,第二信息为任职信息,例如第二关键词为任职信息的任命动作在任、担任、时任、任,则第二信息为具体地姓名、任职公司、任职岗位或是标识任职信息的唯一标识。
具体地,终端通过预先训练得到的第二信息提取模型,从第三句子集合中提取第二关键词对应的至少一个信息。例如,终端通过预先训练得到的第二信息提取模型即任职信息提取模型,从包含任职信息关键词的句子集合中提取任职信息关键词对应的至少一个任职信息,任职信息可以为姓名、任职公司、任职岗位。
其中需要说明的一点是,在实际应用中,本申请应用于裁判文书的信息的提取,首先提取出包括行贿和受贿关键词的句子,然后从这些句子中提取出对应的行贿对象和受贿对象的信息,这样根据行贿对象和受贿对象的信息从文书中提取出包括行贿对象和受贿对象的句子,从这些句子中提取出职位信息。
在本实施例中,通过从初始句子集合中提取出包括第一信息的第二句子集合,先通过第一信息对初始句子文本进行一次提取,可以更准确的定位了终端像提取的信息的句子所在位置。然后,通过预先训练得到的第二关键词分类模型,从第二句子集合中筛选出包含至少一个第二关键词对应的第三句子集合;通过预先训练得到的第二信息提取模型,从第三句子集合中提取第二关键词对应的至少一个第二信息,用上述实施例中提到的方法提取对应的第二信息,减少了后续操作对系统资源的占用,减少计算量,提高效率。
在一个实施例中,如图3所示,图3为一个实施例中的确定第二关联关系步骤的步骤流程图,该确定第二关联关系步骤包括以下步骤:
步骤S302,通过预先训练的关系分类模型,对同一个句子中的各第二信息进行处理以确定各第二信息之间的第一关联关系。
其中,关系分类模型为终端在使用其之前训练得到,用以处理并确定第二信息之间的关联关系;第一关联关系为第二信息之间的关系,具有第一关联关系的第二信息的个数并不做限定,可以是所有第二信息中一部分,也可以是所有的第二信息;第一关联关系也可以有多个。
具体地,终端通过关系分类模型,确定同一句子中的各第二信息之间的第一关联关系。在具体实施过程中,若第二信息为任职信息,该任职信息包括姓名、职位和公司,将这些信息提取出来后,终端将姓名及其对应的职位与所在公司进行确定,本实施例中通过关系分类模型将有关联关系的姓名及其对应的职位与所在公司来进行关联。
本实施例的关系分类模型的处理过程可以包括:终端通过关系分类模型将包括第二信息的句子转换为特定结构。特定结构具体为使用特殊符号,例如两个#来对第二信息进行标注,以将第二信息通过特殊符号在句子中表示处理,优选地,终端每次只标注一个句子中的两个第二信息,由此判断标注的两个第二信息之间是否存在关联关系;终端再通过关系分类模型得到两个第二信息是否有关系的结果,并标注该结果,以此类推,终端得到初始句子中各第二信息之间的第一关联关系。优选地,终端还可以将有第一关联关系的第二信息关联存储。以具体句子“张三在X公司担任总经理,李四在Y公司担任董事长”为例。将其转换为特定结构后的句子如下:
#张三#在#X公司#担任总经理,李四在Y公司担任董事长。(此句子中标注了张三和X公司)-有关系(通过关系分类模型确定张三和X公司之间存在关联关系)。
#张三#在X公司担任#总经理#,李四在Y公司担任董事长。(此句子中标注了张三和总经理)-有关系(通过关系分类模型确定张三和总经理之间存在关联关系)。
通过上述处理,第二信息中的张三、X公司和总经理有第一关联关系。
步骤S304,将第一信息和第一关联关系中的对应的第二信息进行匹配,以确定各第一信息与对应的第二信息之间的第二关联关系。
其中,第二关联关系为第一信息与对应的第二信息之间的关系。具体地,终端将第一信息与具有第一关联关系中的第二信息进行匹配,若匹配成功,终端则确定各第一信息与对应的第二信息之间的第二关联关系;相应的,具有第二关联关系的第二信息具有第一关联关系。本实施例中,并不对第一信息如何与具有第一关联关系的第二信息进行匹配实现方法做限定,可选地,终端可将对应的第一信息与第二信息进行字段匹配。在具体实施过程中,若第一信息为行贿人张三;第二信息为:张三-X公司-总经理;具有第一关联关系的第二信息为,张三-X公司-总经理,即张三在X公司担任总经理。通过各第一信息中的字段与具有各第一关联关系的对应的第二信息的字段进行字段匹配,若字段匹配成功,则确定匹配成功的第一信息与对应的具有第一关联关系的第二信息具有第二关联关系,即第一信息行贿人张三与具有第一关联关系的第二信息张三在X公司担任总经理进行字段匹配,第一信息中的张三与具有第一关联关系的张三匹配成功,则确定第一信息行贿人张三与具有第一关联关系的第二信息张三在X公司担任总经理有第二关联关系,优选地,终端可以将第二关联关系中的第一信息与具有第一关联关系的第二信息关联存储,例如将信息行贿人张三、X公司和总经理关联存储。
在本实施例中,终端通过预先训练的关系分类模型,对同一个句子中的各第二信息进行处理以确定各第二信息之间的第一关联关系,以将第二信息之间的关联关系识别出来,增加信息的维度和可使用性,减少后续的人工工作量。通过将第一信息和第一关联关系中的对应的第二信息进行匹配,以确定各第一信息与对应的第二信息之间的第二关联关系,可以将第一信息和第二信息之间的关联关系识别并确定,进一步的增加信息的维度和可使用性,减少后续的人工工作量。
在一个实施例中,如图4所示,图4为一个实施例中的第二信息替换步骤的步骤流程图,该第二信息替换步骤包括以下步骤:
步骤S402,通过预先训练得到的全简称分类模型,从初始句子集合中筛选出包括全称和/或简称的第四句子集合。
其中,全简称分类模型是在终端正式处理文本之前训练得到,根据全简称关键词分类模型进行句子分类的模型;全称和简称是指公司名称的全称、公司名称的简称,公司名称的全称和简称的个数不受限定,可以为一个,也可以为多个;第四句子集合为初始句子集合中所有包含至少一个全称和/或简称的句子的集合。
具体地,终端通过全简称分类模型,将初始句子集合分为两类,一类为包含至少一个全称和/或简称对应的句子,将其添加至第四句子集合;另一类为初始句子集合中不包括全称和简称的句子。
步骤S404,通过预先训练得到的第二信息提取模型,从第四句子集合中提取全称和简称。
其中,第二信息提取模型是在终端正式处理文本之前预先训练出来的,用于从第四句子集合中提取全称和简称的模型,即第二信息提取模型可以提取全称和简称。第二信息提取模型的不同模块可以提取多种口径的数据,在不同的使用场景下,终端控制第二信息提取模型的不同模块提取相应场景对应的口径信息。由于第二信息中的任职信息中包括公司名称,与本实施例的公司名称的全称和简称有相似的特点,所以,为了节省训练成本,将提取第二信息、公司名称的全称和简称的模型一起训练,在使用的时候,通过终端接收的不同指令来控制每次提取的信息的模块。
具体地,终端通过预先训练得到的第二信息提取模型,根据提取全称和简称的信息的场景,开启第二信息提取模型提取公司名称的全称和简称的模块,从第四句子集合中提取公司的全称和简称。
步骤S406,通过预先训练的第三关系分类模型建立全称和简称之间的第三关联关系。
具体地,终端通过预先训练的第三关系分类模型建立全称和简称之间的第三关联关系,这种第三关联关系可以理解为一个公司的全称与公司的简称之间的对应关系。其中,第三关系分类模型的实现方法在本实施例中并不做限定,可以是参照上文中的关系分类模型的实现方法,也可以是公司的简称与公司的全称之间的字段匹配的分类方法。
步骤S408,将各第三关联关系中的简称和各第二关联关系中的第二信息进行匹配。
具体地,终端将各第三关联关系中的简称与第二关联关系中的第二信息进行匹配。本实施例中,并不对各第三关联关系中的简称与第二关联关系中的第二信息进行匹配实现方法做限定,可选地,可将各第三关联关系中的简称与第二关联关系中的第二信息进行字段匹配。
步骤S410,根据第三关联关系将匹配成功的第二信息中的简称替换为对应的全称。
具体地,当步骤S408中的各第三关联关系中的简称和各第二关联关系中的第二信息匹配成功,终端则将匹配成功的第二信息替换为与之匹配成功的第三关联关系中的简称对应的全称。在具体地实施过程中,若具有第三关联关系的全称为A有限公司,简称为A公司;第二关联关系中的第二信息为张三,A公司,总经理。第三关联关系的简称A公司与第二关联关系的第二信息A公司匹配成功,将第二关联关系中的A公司替换为A有限公司,替换后的第二关联关系的第二信息为张三,A有限公司,总经理。
在本实施例中,终端通过预先训练得到的第二信息提取模型,从第四句子集合中提取全称和简称,结合预先训练得到的第二信息提取模型,从第三句子集合中提取第二关键词对应的至少一个第二信息,可以实现一个信息提取模型提取多个种类的信息的功能,节省模型训练的成本。通过将各第三关联关系中的简称和各第二关联关系中的第二信息进行匹配;根据第三关联关系将匹配成功的第二信息中的简称替换为对应的全称,可以将第三信息与第二信息进行匹配和替换,对第二信息进行进一步的处理,使提取出来的信息的维度和准确度更一步增加。
在一个实施例中,如图5所示,图5为一个实施例中的训练第一关键词分类模型的步骤流程图,该训练第一关键词分类模型的步骤包括下列步骤:
步骤S502,获取预先设置的第一训练关键词词典。
其中,步骤S502中的第一训练关键词词典具体为事先定义的某一类型的关键词的集合。在具体实施中以行受贿关键词词典作为第一训练关键词词典为例,行受贿类的句子中,常常出现行贿、送给、收受、给予等关键词,根据这些关键词得到行受贿关键词词典,即得到第一训练关键词词典。
具体地,终端获取预先设置的第一训练关键词词典。
步骤S504,通过第一训练关键词词典生成第一预分类模型,并根据第一预分类模型从初始样本句子集合中筛选出包括至少一个第一训练关键词的第一样本句子集合。
其中,步骤S504中的第一预分类模型是根据第一训练关键词词典生成,例如通过行受贿关键词词典构建相应的字典树,结合使用广度遍历的方式构建fail指针,生成AC自动机模型。初始样本句子集合为一些用来被第一预分类模型分类的句子的集合,这些句子可以为实际需要处理的部分文本句子;也可以是经过处理后的,可用于被第一预分类模型分类的样本句子,本实施例中不对初始样本句子进行限定,满足第一预分类模型的分类需求即可。第一样本句子集合为根据初始样本句子中包括第一训练关键词的那部分句子得到的句子集合。
具体地,终端通过第一训练关键词词典生成第一预分类模型。在具体实施过程中,以行受贿预分类模型为例,终端先制定行受贿关键词词典,然后通过行受贿关键词词典构建相应的字典树,结合使用广度遍历的方式构建fail指针,生成AC自动机模型,即行受贿预分类模型。本实施例并不对字典树的构成方式做限定,可选地,字典树的构成方法如下所示:
以P:he,she,hers,his;T:ahishers为例构建字典树。如图6所示,图6为一个实施例中的构建he单词后的拓扑图,该构建he单词的过程为,根节点不包含字符为root,除根节点外每一个节点都只包含一个字符,从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串,每个节点的所有子节点包含的字符都不相同,例如从根节点到3号子节点连接起来,则为3号节点exist数组存储着一个长度为2的单词he。插入操作就是将单词的每个字母都逐一插入字典(Trie)树,插入前看这个字母对应的节点是否存在,若不存在就新建一个节点,否则就共享那一个节点,以下图7为例,下图7为一个实施例中的插入she单词后的拓扑图:首先插入单词she,先插入第一个字母s,发现根节点不存在子节点s,则新建子节点s;然后插入第二个字母h,发现节点s不存在子节点h,则新建子节点h;最后插入第三个字母e,发现节点h不存在子节点e,则新建子节点e。此时,6号节点exist数组存储着一个长度为3的单词she。如图8所示,图8为一个实施例中的插入hers,his单词后的拓扑图,其中,插入单词hers,his单词的过程与图7插入单词she的过程相同,在此不再赘述。可以理解的是,本实施例中的字典树即关键词并不一定为he,she,hers,his,仅以此为例,说明字典树的构成方式及原理。
fail指针的构建,首先,定义fail指针,若i->fail=j,则word[j]是word[i]的最长公共后缀,具体的,以图8为例,设word(i)表示字典树上从根节点(root)到节点i所组成的字符串,3号节点word(3)=he;在字典树的查找过程中,若i的失配指针为j,那么word(j)是word(i)的最长公共后缀。然后,利用层次遍历的方式遍历字典树,如图9-14所示。
如图9所示,图9为一个实施例中的构建fail指针的第一部分的拓扑图,其中构建fail指针的第一部分的步骤为:root节点表示空,没有后缀。当fail指针访问2号节点时,h作为一个字母,无前缀、无后缀,因此,2号节点的fail指针指向root。当fail指针访问4号节点时,s作为一个字母,无前缀、无后缀,因此,4号节点的fail指针指向root。当fail指针访问3号节点时,当前的fail指针先找到它的fafail(父亲2号节点的失败节点),它的fafail指向root,然后查看root是否有子节点e,root节点没有子节点e,所以3号节点指向root。当fail指针访问9号节点时,当前的fail指针先找到它的fafail(父亲2的失败节点),它的fafail指向root,然后查看root是否有子节点i,root节点没有子节点i,所以9号节点指向root。图9中的黑色虚线箭头,代表当前节点的失配指向root。
如图10所示,图10为一个实施例中的构建fail指针的第二部分的拓扑图,其中构建fail指针的第二部分的步骤为:当fail指针访问9号节点时,当前的fail指针先找到它的fafail(父亲4的失败节点),它的fafail指向root,所以查看root是否有子节点h,root节点有子节点h,所以5号节点指向2号节点。5号节点的浅灰色虚线箭头,代表当前节点的失配指向2号节点。
如图11所示,图11为一个实施例中的构建fail指针的第三部分的拓扑图,其中构建fail指针的第三部分的步骤为:当fail指针访问7号节点时,当前的fail指针先找到它的fafail(父亲3的失败节点),它的fafail指向root,然后查看root是否有子节点r,root节点没有子节点r,所以7号节点指向root。7号节点的黑色虚线箭头,代表当前节点的失配指向root。
如图12所示,图12为一个实施例中的构建fail指针的第四部分的拓扑图,其中构建fail指针的第四部分的步骤为:当fail指针访问10号节点时,当前的fail指针先找到它的fafail(父亲9的失败节点),它的fafail指向root,然后查看root是否有子节点s,root节点有子节点s,所以10号节点指向节点4。10号节点的浅灰色虚线箭头,代表当前节点的失配指向的节点为4号节点。
如图13所示,图13为一个实施例中的构建fail指针的第五部分的拓扑图,其中构建fail指针的第五部分的步骤为:当fail指针访问10号节点时,当前的fail指针先找到它的fafail(父亲5的失败节点),它的fafail指向节点2,然后查看节点2是否有子节点e,节点2有子节点e,所以6号节点指向节点3,并追加3号节点的exist信息。
如图13所示,以字符串ahishers搜索为例的ac自动机搜索流程:遍历字符串ahishers,第一个字符是a,从root节点找,发现root节点的子节点没有a。从第二个字符h开始,从root节点找,发现root节点的子节点有h,看h节点有没有子节点i。发现h节点有子节点i,看i节点有没有子节点s。发现i节点有子节点s,这里我们找到了一个词his,看s节点有没有子节点h。发现s节点没有子节点h,看s节点的fail指针指向4号s,继续从4号的s开始找,看4号s节点有没有子节点h。发现4号s节点有子节点h,继续看h节点有没有子节点e。发现h节点有子节点e,到这里又找到两个词he,she,看e节点有没有子节点r。e节点没有子节点r,看节点e的fail指针指向3号节点e,从3号节点继续查找,看3号e节点有没有子节点r。发现3号e节点有子节点r,看r节点有没有子节点s。发现r节点有子节点s,这里找到hers,搜索结束。图中实线粗箭头路径为AC自动机的搜索过程。可以理解的是,ahishers并不一定在待处理文本或样本句子中出现,仅以此说明AC自动机的构成及运行原理。
终端根据第一预分类模型从样本句子集合中筛选出包括第一训练关键词的第一样本句子集合。在具体地实施过程中,由行贿、送给、收受、给予…等关键词得到行受贿关键词词典。终端使用行受贿关键词词典构建相应的字典树,结合使用广度遍历的方式构建fail指针,得到由行受贿关键词词典构成的AC自动机模型,此时的AC自动机模型即是第一预分类模型。接下来,终端根据第一预分类模型从样本句子集合中筛选出包括至少一个第一关键词,即筛选出包括至少一个行贿、送给、收受、给予等关键词的样本句子,由这些句子得到第一样本句子集合。
步骤S506,接收针对第一样本句子集合的纠正指令。
具体地,终端接收用户输入的针对第一样本句子集合的纠正指令,其中,该纠正指令可以是删除第一样本句子集合中的某些错误的句子,或者是添加一些正确的句子。
步骤S508,根据纠正指令对第一样本句子集合进行纠正,并将纠正后的第一样本句子集合作为正样本,样本句子集合中的剩余样本句子作为负样本。
具体地,终端根据用户输入的纠正指令对第一样本句子集合中的句子进行纠正,将纠正后的第一样本句子集合作为正样本,样本句子集合中剩下的句子作为负样本。在具体地实施过程中,第一预分类模型根据第一训练关键词词典筛选出的包括第一关键词的样本句子,不一定都能为终端提取信息作为支撑,所以需要对筛选出来的第一样本句子集合中的第一样本句子纠正。由行贿、送给、收受、给予等得到的行受贿关键词词典构成的第一预分类模型为例,第一预分类模型根据关键词给予筛选出第一样本句子,1997年修订的刑法第三百八十九条为谋取不正当利益,给予国家工作人员以财物的,是行贿罪。但此句子并没有包含终端想要提取的第一信息行受贿人,所以需要对此类句子进行纠正。
步骤S510,通过正样本和负样本进行训练得到第一关键词分类模型。
具体地,终端通过正样本和负样本进行训练得到第一关键词分类模型。在具体实施中,训练第一关键词分类模型的算法并不做限定,只要能完成分类模型的训练即可。可选地,训练第一关键词分类模型的算法为梯度提升决策树(GBDT)。GBDT通过多轮迭代,每轮迭代产生一个分类器,每个分类器在上一轮分类器的残差基础上进行训练。训练过程会越来越专注于被分错的部分,同时不完全相信每一轮分类器的残差(每一棵残差树),认为每一轮分类器(每棵树)只学到真理的一小部分,累加时也只累加一小部分,通过学习多个分类器(多棵树)弥补不足,最终达到数据分类或回归的算法。GBDT的分类器的种类并不做限定,一般优选分类回归树(CART TREE),但也可以选择其它的分类器。此方案中的第一关键词分类模型,在对句子的分类过程中不仅具有对句子的高精度分类、且有能处理非线性数据、适应多种损失函数的优点。可选地,训练第一关键词分类模型的算法为逻辑回归算法模型(Logistic regression,简称LR)。LR是一种用于解决二分类问题的机器学习方法,实际上是被logistic方程归一化后的线性回归。常规步骤为寻找假设函数(hypothesis),构造损失函数,使损失函数最小并求得回归参数。在本实施例中,通过接收针对第一样本句子集合的纠正指令;根据纠正指令对第一样本句子集合进行纠正,并将纠正后的第一样本句子集合作为正样本,样本句子集合中的剩余样本句子作为负样本;通过正样本和负样本进行训练得到第一关键词分类模型,使第一关键词分类模型分类精准度高。
在一个实施例中,如图14所示,图14为一个实施例中的训练第二关键词分类模型的步骤流程图,该训练第二关键词分类模型的步骤包括下列步骤:
步骤S602,获取预先设置的第二训练关键词词典。
其中,步骤S602中的第二训练关键词词典具体为,事先定义的某一类型的关键词的集合。在具体实施中以任职信息关键词词典为例,包含任职信息类的句子中,常常出现在任、担任、时任、任…等关键词,根据这些关键词得到了任职信息关键词词典。
具体地,终端获取预先设置的第二训练关键词词典。
步骤S604,通过第二训练关键词词典生成第二预分类模型,并根据第二预分类模型从第二样本句子集合中筛选出包括第二训练关键词的第三样本句子集合。
其中,步骤S604中的第二预分类模型,是根据第二训练关键词词典生成。第二样本句子集合,为一些用来被第二预分类模型分类的句子的集合,这些句子可以为实际需要处理的部分文本句子;也可以是经过处理后的,可用于被第二预分类模型分类的样本句子,本实施例中不对第二样本句子进行限定,满足第二预分类模型的分类需求即可。第三样本句子集合为根据第二样本句子中包括第二训练关键词的那部分句子得到的句子集合。
具体地,终端通过第二训练关键词词典生成第二预分类模型,并根据第二预分类模型从第二样本句子集合中筛选出包括第二训练关键词的第三样本句子集合。在具体地实施过程中,以在任、担任、时任、任…,构成任职信息关键词词典。使用任职信息关键词词典构建相应的字典树,结合使用广度遍历的方式构建fail指针,得到由任职信息关键词词典构成的AC自动机模型,此时的AC自动机模型即是第二预分类模型。接下来,终端根据第二预分类模型从样本句子集合中筛选出包括至少一个第一关键词,即筛选出包括至少一个在任、担任、时任、任…关键词的样本句子,由这些句子得到第三样本句子集合。
步骤S606,接收针对第三样本句子集合的纠正指令。
具体地,终端接收用户输入的针对第三样本句子集合的纠正指令。
步骤S606,根据纠正指令对第三样本句子集合进行纠正,并将纠正后的第三样本句子集合作为第二正样本,第二样本句子集合中的剩余样本句子作为第二负样本。
具体地,终端根据用户输入的纠正指令对第三样本句子集合中的句子进行纠正,将纠正后的第三样本句子集合作为正样本,样本句子集合中剩下的句子作为负样本。在具体地实施过程中,第一预分类模型根据二训练关键词词典筛选出的包括第二关键词的样本句子,不一定都能为终端提取信息作为支撑,所以需要对筛选出来的第一样本句子集合中的第一样本句子纠正。根据行贿、送给、收受、给予…等关键词得到行受贿关键词词典构成的第二预分类模型为例,第二预分类模型根据关键词给予筛选出第二样本句子1997年修订的刑法第三百八十九条为谋取不正当利益,给予国家工作人员以财物的,是行贿罪。但此句子并没有包含终端想要提取的第二信息行受贿人,所以需要对此类句子进行纠正。
步骤S608,通过第二正样本和第二负样本进行训练得到第二关键词分类模型。
具体地,终端通过第二正样本和第二负样本进行训练得到第二关键词分类模型。在具体实施中,训练第二关键词分类模型的算法并不做限定,只要能完成分类模型的训练即可。可选地,训练第二关键词分类模型的算法为梯度提升决策树(GBDT)或逻辑回归算法模型(LR),GBDT和LR的具体使用方法与在上述实例中的使用方法一致,在此并不赘述。
在本实施例中,通过接收针对第三样本句子集合的纠正指令;根据纠正指令对第三样本句子集合进行纠正,并将纠正后的第三样本句子集合作为正样本,第二样本句子集合中的剩余样本句子作为负样本;通过第二正样本和第二负样本进行训练得到第二关键词分类模型,使第二关键词分类模型分类精准度高,分类结果更准确。
在一个实施例中,一种文本处理的方法,包括下列步骤:预先训练得到的第一信息提取模型的实现方法采取ERNIE抽取模型。在具体实施方式中,根据受贿关键词词典构建第一关键词分类模型,根据第一关键词分类模型从初始句子集合中筛选出包含行贿、送给、收受、给予…中至少一个关键词的句子,将这些行受贿行为句子中的行贿人、受贿人作为第一信息标注,将标注出第一信息的行受贿行为句子作为行受贿人抽取模型的输入,训练ERNIE抽取模型,以此构建第一信息提取模型。
在一个实施例中,以法院裁判文书作为待处理文本,终端通过“;:。\n”等预先选出的符号对待处理文本进行处理,具体的终端将这些预先选出的符号之前或之间的文字视为一个句子,并将这些句子进行提取,得到初始句子集合。
终端通过预先训练得到的行受贿关键词分类模型,将由裁判文书得到的初始句子集合进行分类,一类为初始句子集合中包含行贿、送给、收受、给予…等中至少一个第一关键词的句子,并将这些句子添加到第一句子集合;另一类为初始句子集合中不包括行贿、送给、收受、给予…等任意一个第一关键词的句子。终端通过预先训练得到的第一信息提取模型即行和/或受贿人提取模型,从包含行和/或受贿关键词的句子集合中提取行和/或受贿关键词对应的至少一个行和/或受贿人。接下来,终端从初始句子集合中提取包括各行贿或受贿人的句子,并将初始句子中包括行或受贿人的句子添加到第二句子集合。终端通过预先训练得到的任职信息关键词分类模型,将包括行或受贿人的第二句子集合中的句子进行分类,一类为第二句子集合中包含在任、担任、时任、任…等中至少一个第二关键词的句子,并将这些句子添加到第三句子集合;另一类为第二句子集合中不包括在任、担任、时任、任…等任意一个第二关键词的句子。终端通过预先训练得到的第二信息提取模型即任职信息提取模型,从包含任职信息关键词的句子集合中提取任职信息关键词对应的至少一个任职信息,任职信息可以为姓名、任职公司、任职岗位。终端先通过关系分类模型将有关联关系的姓名及其对应的职位与所在公司来进行关联。若第一信息为行贿人张三;第二信息为:张三-X公司-总经理;具有第一关联关系的第二信息为,张三-X公司-总经理,即张三在X公司担任总经理。终端通过各第一信息中的字段与具有各第一关联关系的对应的第二信息的字段进行字段匹配,若字段匹配成功,则确定匹配成功的第一信息与对应的具有第一关联关系的第二信息具有第二关联关系,即第一信息行贿人张三与具有第一关联关系的第二信息张三在X公司担任总经理进行字段匹配,第一信息中的张三与具有第一关联关系的张三匹配成功,则确定第一信息行贿人张三与具有第一关联关系的第二信息张三在X公司担任总经理有第二关联关系。终端将第二关联关系中的第一信息与具有第一关联关系的第二信息关联存储,例如将信息行贿人张三、X公司和总经理关联存储。终端通过全简称分类模型,将初始句子集合分为两类,一类为包含至少一个全称和/或简称对应的句子,将其添加至第四句子集合;另一类为初始句子集合中不包括全称和简称的句子。终端通过第二信息提取模型可以提取全称和简称。第二信息提取模型的不同模块可以提取多种口径的数据,在不同的使用场景下,终端控制第二信息提取模型的不同模块提取相应场景对应的口径信息。由于第二信息中的任职信息中包括公司名称,与本实施例的公司名称的全称和简称有相似的特点,所以,为了节省训练成本,将提取第二信息、公司名称的全称和简称的模型一起训练,在使用的时候,通过终端接收的不同指令来控制每次提取的信息的模块。终端通过预先训练的第三关系分类模型建立公司的全称与公司的简称之间的对应关系。终端将各第三关联关系中的简称与第二关联关系中的第二信息进行匹配,第三关联关系的简称A公司与第二关联关系的第二信息A公司匹配成功,将第二关联关系中的A公司替换为A有限公司,替换后的第二关联关系的第二信息为张三,A有限公司,总经理。训练第一关键词分类模型的步骤如下,终端获取预先设置的第一训练关键词词典。行受贿类的句子中,常常出现行贿、送给、收受、给予等关键词,根据这些关键词得到行受贿关键词词典,即得到第一训练关键词词典。终端通过行受贿关键词词典构建相应的字典树,结合使用广度遍历的方式构建fail指针,生成AC自动机模型,即行受贿预分类模型。终端根据行受贿预分类模型从样本句子集合中筛选出包括至少一个第一关键词,即筛选出包括至少一个行贿、送给、收受、给予…关键词的样本句子,并根据这些句子得到第一样本句子集合。终端根据用户输入的纠正指令对第一样本句子集合中的句子进行纠正,将纠正后的第一样本句子集合作为正样本,样本句子集合中剩下的句子作为负样本,以算法梯度提升决策树(GBDT)训练第一关键词分类模型。该训练第二关键词分类模型的步骤如下,终端获取预先设置的第二训练关键词词典即任职信息关键词词典。在任职信息类的句子中,常常出现在任、担任、时任、任…等关键词,根据这些关键词得到了任职信息关键词词典。终端使用任职信息关键词词典构建相应的字典树,结合使用广度遍历的方式构建fail指针,得到由任职信息关键词词典构成的AC自动机模型,此时的AC自动机模型即是第二预分类模型。接下来,终端根据第二预分类模型从样本句子集合中筛选出包括至少一个第一关键词,即筛选出包括至少一个在任、担任、时任、任…关键词的样本句子,根据这些句子得到了第三样本句子集合。终端根据用户输入的纠正指令对第三样本句子集合中的句子进行纠正,将纠正后的第三样本句子集合作为正样本,样本句子集合中剩下的句子作为负样本。终端通过第二正样本和第二负样本,以逻辑回归算法模型(Logistic regression,简称LR)训练第二关键词分类模型。
应该理解的是,虽然图1-图14的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-图14中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图15所示,提供了一种文本处理装置,包括:第一提取模块100、第一筛选模块200、第一提取信息模块300,其中:
第一提取模块100,用于对待处理文本进行句子提取,得到初始句子集合。
第一筛选模块200,用于通过预先训练得到的第一关键词分类模型,从初始句子集合中筛选出包含至少一个第一关键词的第一句子集合。
第一提取信息模块300,用于通过预先训练得到的第一信息提取模型,从第一句子集合中提取第一关键词对应的至少一个第一信息。
在其中一个实施例中,文本处理装置,还包括:第二提取模块、第二筛选模块、第二提取信息模块,其中:
第二提取模块,用于从初始句子集合中提取出包括第一信息的第二句子集合。
第二筛选模块,用于通过预先训练得到的第二关键词分类模型,从第二句子集合中筛选出包含至少一个第二关键词对应的第三句子集合。
第二提取信息模块,用于通过预先训练得到的第二信息提取模型,从第三句子集合中提取第二关键词对应的至少一个第二信息。
在其中一个实施例中,文本处理装置,还包括:第一确定模块、第二确定模块,其中:
第一确定模块,用于通过预先训练的关系分类模型,对同一个句子中的各第二信息进行处理以确定各第二信息之间的第一关联关系。
第二确定模块,用于将第一信息和第一关联关系中的对应的第二信息进行匹配,以确定各第一信息与对应的第二信息之间的第二关联关系。
在其中一个实施例中,文本处理装置,还包括:第三筛选模块、第三提取模块、建立关系模块、匹配模块、替换模块,其中:
第三筛选模块,用于通过预先训练得到的全简称分类模型,从初始句子集合中筛选出包括全称和/或简称的第四句子集合。
第三提取模块,用于通过预先训练得到的第二信息提取模型,从第四句子集合中提取全称和简称。
建立关系模块,用于通过预先训练的第三关系分类模型建立全称和简称之间的第三关联关系。
匹配模块,用于将各第三关联关系中的简称和各第二关联关系中的第二信息进行匹配。
替换模块,用于根据第三关联关系将匹配成功的第二信息中的简称替换为对应的全称。
在其中一个实施例中,文本处理装置,在还包括:获取模块、第四筛选模块、接收模块、纠正模块、第一训练模块,其中:
获取模块,用于获取预先设置的第一训练关键词词典。
第四筛选模块,用于通过第一训练关键词词典生成第一预分类模型,并根据第一预分类模型从第一样本句子集合中筛选出包括至少一个第一训练关键词的第一样本句子集合。
接收模块,用于接收针对第一样本句子集合的纠正指令。
纠正模块,用于根据纠正指令对第一样本句子集合进行纠正,并将纠正后的第一样本句子集合作为正样本,样本句子集合中的剩余样本句子作为负样本。
第一训练模块,用于通过正样本和负样本进行训练得到第一关键词分类模型。
在其中一个实施例中,文本处理装置,在还包括:第二获取模块、第五筛选模块、第二接收模块、第二纠正模块、第二训练模块,其中:
第二获取模块,用于获取预先设置的第二训练关键词词典。
第五筛选模块,用于通过第二训练关键词词典生成第二预分类模型,并根据第二预分类模型从第二样本句子集合中筛选出包括第二训练关键词的第三样本句子集合。
第二接收模块,用于接收针对第三样本句子集合的纠正指令。
第二纠正模块,用于根据纠正指令对第三样本句子集合进行纠正,并将纠正后的第三样本句子集合作为第二正样本,第二样本句子集合中的剩余样本句子作为第二负样本。
第二训练模块,用于通过第二正样本和第二负样本进行训练得到第二关键词分类模型。
关于文本处理装置的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。上述文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储关联数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法。
本领域技术人员可以理解,图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种文本处理方法,其特征在于,所述方法包括:
对待处理文本进行句子提取,得到初始句子集合;
通过预先训练得到的第一关键词分类模型,从所述初始句子集合中筛选出包含至少一个第一关键词的第一句子集合;
通过预先训练得到的第一信息提取模型,从所述第一句子集合中提取所述第一关键词对应的至少一个第一信息;
所述通过预先训练得到的第一信息提取模型,从所述第一句子集合中提取所述第一关键词对应的至少一个第一信息之后,包括:从所述初始句子集合中提取出包括所述第一信息的第二句子集合;通过预先训练得到的第二关键词分类模型,从所述第二句子集合中筛选出包含至少一个第二关键词对应的第三句子集合;通过预先训练得到的第二信息提取模型,从所述第三句子集合中提取所述第二关键词对应的至少一个第二信息;
所述通过预先训练得到的第二信息提取模型,从所述第三句子集合中提取所述第二关键词对应的至少一个第二信息之后,包括:
通过预先训练的关系分类模型,对同一个句子中的各所述第二信息进行处理以确定各所述第二信息之间的第一关联关系;将所述第一信息和所述第一关联关系中的对应的第二信息进行匹配,以确定各所述第一信息与对应的第二信息之间的第二关联关系;
所述方法还包括:通过预先训练得到的全简称分类模型,从所述初始句子集合中筛选出包括全称和/或简称的第四句子集合;通过所述预先训练得到的第二信息提取模型,从所述第四句子集合中提取全称和简称;通过预先训练的第三关系分类模型建立所述全称和所述简称之间的第三关联关系;将所述各第三关联关系中的简称和所述各第二关联关系中的第二信息进行匹配;根据所述第三关联关系将匹配成功的所述第二信息中的简称替换为对应的全称。
2.根据权利要求1所述的方法,其特征在于,所述通过预先训练得到的第一关键词分类模型,从所述初始句子集合中筛选出包含至少一个第一关键词的第一句子集合之前,还包括:
获取预先设置的第一训练关键词词典;
通过所述第一训练关键词词典生成第一预分类模型,并根据所述第一预分类模型从初始样本句子集合中筛选出包括至少一个第一训练关键词的第一样本句子集合;
接收针对所述第一样本句子集合的纠正指令;
根据所述纠正指令对所述第一样本句子集合进行纠正,并将纠正后的第一样本句子集合作为正样本,所述样本句子集合中的剩余样本句子作为负样本;
通过所述正样本和所述负样本进行训练得到所述第一关键词分类模型。
3.根据权利要求1所述的方法,其特征在于,所述通过预先训练得到的第二关键词分类模型,从所述第二句子集合中筛选出包含第二关键词对应的第三句子集合之前,还包括:
获取预先设置的第二训练关键词词典;
通过所述第二训练关键词词典生成第二预分类模型,并根据所述第二预分类模型从第二样本句子集合中筛选出包括第二训练关键词的第三样本句子集合;
接收针对所述第三样本句子集合的纠正指令;
根据所述纠正指令对所述第三样本句子集合进行纠正,并将纠正后的第三样本句子集合作为第二正样本,所述第二样本句子集合中的剩余样本句子作为第二负样本;
通过所述第二正样本和所述第二负样本进行训练得到所述第二关键词分类模型。
4.一种文本处理装置,其特征在于,所述装置包括:
第一提取模块,用于对待处理文本进行句子提取,得到初始句子集合;
第一筛选模块,用于通过预先训练得到的第一关键词分类模型,从所述初始句子集合中筛选出包含至少一个第一关键词的第一句子集合;
第一提取信息模块,用于通过预先训练得到的第一信息提取模型,从所述第一句子集合中提取所述第一关键词对应的至少一个第一信息;
第二提取模块,用于从所述初始句子集合中提取出包括所述第一信息的第二句子集合;
第二筛选模块,用于通过预先训练得到的第二关键词分类模型,从所述第二句子集合中筛选出包含至少一个第二关键词对应的第三句子集合;
第二提取信息模块,用于通过预先训练得到的第二信息提取模型,从所述第三句子集合中提取所述第二关键词对应的至少一个第二信息;
第一确定模块,用于通过预先训练的关系分类模型,对同一个句子中的各第二信息进行处理以确定各第二信息之间的第一关联关系;
第二确定模块,用于将第一信息和第一关联关系中的对应的第二信息进行匹配,以确定各第一信息与对应的第二信息之间的第二关联关系;
第三筛选模块,用于通过预先训练得到的全简称分类模型,从初始句子集合中筛选出包括全称和/或简称的第四句子集合;
第三提取模块,用于通过预先训练得到的第二信息提取模型,从第四句子集合中提取全称和简称;
建立关系模块,用于通过预先训练的第三关系分类模型建立全称和简称之间的第三关联关系;
匹配模块,用于将各第三关联关系中的简称和各第二关联关系中的第二信息进行匹配;
替换模块,用于根据第三关联关系将匹配成功的第二信息中的简称替换为对应的全称。
5.根据权利要求4所述的处理装置,其特征在于,所述装置还包括:
获取模块,用于获取预先设置的第一训练关键词词典;
第四筛选模块,用于通过第一训练关键词词典生成第一预分类模型,并根据第一预分类模型从第一样本句子集合中筛选出包括至少一个第一训练关键词的第一样本句子集合;
接收模块,用于接收针对第一样本句子集合的纠正指令;
纠正模块,用于根据纠正指令对第一样本句子集合进行纠正,并将纠正后的第一样本句子集合作为正样本,样本句子集合中的剩余样本句子作为负样本;
第一训练模块,用于通过正样本和负样本进行训练得到第一关键词分类模型。
6.根据权利要求4所述的处理装置,其特征在于,所述装置还包括:
第二获取模块,用于获取预先设置的第二训练关键词词典;
第五筛选模块,用于通过第二训练关键词词典生成第二预分类模型,并根据第二预分类模型从第二样本句子集合中筛选出包括第二训练关键词的第三样本句子集合;
第二接收模块,用于接收针对第三样本句子集合的纠正指令;
第二纠正模块,用于根据纠正指令对第三样本句子集合进行纠正,并将纠正后的第三样本句子集合作为第二正样本,第二样本句子集合中的剩余样本句子作为第二负样本;
第二训练模块,用于通过第二正样本和第二负样本进行训练得到第二关键词分类模型。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948029.2A CN113626600B (zh) | 2021-08-18 | 2021-08-18 | 文本处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948029.2A CN113626600B (zh) | 2021-08-18 | 2021-08-18 | 文本处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626600A CN113626600A (zh) | 2021-11-09 |
CN113626600B true CN113626600B (zh) | 2024-03-19 |
Family
ID=78386349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110948029.2A Active CN113626600B (zh) | 2021-08-18 | 2021-08-18 | 文本处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626600B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN111783424A (zh) * | 2020-06-17 | 2020-10-16 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170122505A (ko) * | 2016-04-27 | 2017-11-06 | 삼성전자주식회사 | 부가 정보를 제공하는 단말 장치 및 제공 방법 |
-
2021
- 2021-08-18 CN CN202110948029.2A patent/CN113626600B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN111783424A (zh) * | 2020-06-17 | 2020-10-16 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113626600A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
CN107004159B (zh) | 主动机器学习 | |
CN110019647B (zh) | 一种关键词搜索方法、装置和搜索引擎 | |
CN112989055B (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
EP3475837A1 (en) | Leveraging information available in a corpus for data parsing and predicting | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN112463774B (zh) | 文本数据的去重方法、设备及存储介质 | |
CN102971729A (zh) | 将可操作属性归于描述个人身份的数据 | |
CN111506608A (zh) | 一种结构化文本的比较方法和装置 | |
CN114281984A (zh) | 一种风险检测方法、装置、设备及计算机可读存储介质 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
CN112328653B (zh) | 数据识别方法、装置、电子设备及存储介质 | |
CN112307169B (zh) | 地址数据的匹配方法、装置、计算机设备及存储介质 | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN111930891B (zh) | 基于知识图谱的检索文本扩展方法及相关装置 | |
CN113626600B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN112765976A (zh) | 文本相似度计算方法、装置、设备及存储介质 | |
CN107220249A (zh) | 基于分类的全文搜索 | |
CN115577147A (zh) | 可视化情报图谱检索方法、装置、电子设备及存储介质 | |
CN115878864A (zh) | 一种数据检索方法、装置、设备及可读存储介质 | |
CN115329083A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN116414808A (zh) | 详细地址规范化的方法、装置、计算机设备和存储介质 | |
CN115129871A (zh) | 文本类别确定方法、装置、计算机设备和存储介质 | |
CN110222156B (zh) | 发现实体的方法和装置、电子设备、计算机可读介质 | |
CN113779248A (zh) | 数据分类模型训练方法、数据处理方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: No. 8 Huizhi Street, Suzhou Industrial Park, Suzhou Area, China (Jiangsu) Pilot Free Trade Zone, Suzhou City, Jiangsu Province, 215000 Applicant after: Qichacha Technology Co.,Ltd. Address before: Room 503, 5 / F, C1 building, 88 Dongchang Road, Suzhou Industrial Park, 215000, Jiangsu Province Applicant before: Qicha Technology Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |