CN109508459B - 一种从新闻中提取主题和关键信息的方法 - Google Patents
一种从新闻中提取主题和关键信息的方法 Download PDFInfo
- Publication number
- CN109508459B CN109508459B CN201811313654.4A CN201811313654A CN109508459B CN 109508459 B CN109508459 B CN 109508459B CN 201811313654 A CN201811313654 A CN 201811313654A CN 109508459 B CN109508459 B CN 109508459B
- Authority
- CN
- China
- Prior art keywords
- news
- matrix
- theme
- network
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000000605 extraction Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 238000011161 development Methods 0.000 claims abstract description 6
- 238000013145 classification model Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 61
- 230000008569 process Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 101100166829 Mus musculus Cenpk gene Proteins 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013526 transfer learning Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001605 fetal effect Effects 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 210000002458 fetal heart Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003903 pelvic floor Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003793 prenatal diagnosis Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000009933 reproductive health Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003045 statistical classification method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种从新闻中提取主题和关键信息的方法,包括以下步骤:对新闻内容进行去HTML标签处理;对处理后的新闻内容分别进行主题标注和序列化标注,得到新闻内容对应的主题标签和新闻内容中的每个字对应的序列化标签;创建主题和关键信息提取模型,该模型包括一个seq2seq网络和一个全连接网络,全连接网络的输入来自seq2seq网络的编码阶段的状态输出,训练模型得到最优参数;对未标注的新闻内容进行去HTML标签处理后注入到提取模型中,得到最优的主题标签和序列化标签,根据主题标签得到新闻所属类别,根据序列化标签得到新闻内容对应的槽位值。该方法采用seq2seq+attention+crf,强化分类模型和槽填充模型的依赖关系,减少文本标注的复杂度,同时减少项目开发复杂度。
Description
技术领域
本发明涉及文本分类及信息抽取领域,尤其涉及一种从新闻中提取主题和关键信息的方法。
背景技术
新闻主题提取属于文本分类的范畴,关键信息提取中的槽填充属于信息抽取的范畴,都是自然语言处理的主要组成部分。文本分类相关研究最早可以追溯到上世纪50年代,当时是通过专家规则(Pattern)进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,这样做的好处是短平快的解决top问题,但显然天花板非常低,不仅费时费力,覆盖的范围和准确率都非常有限。后来伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典玩法,这个阶段的主要套路是人工特征工程+浅层分类模型。整个文本分类问题就拆分成了特征工程和分类器两部分。
特征工程在机器学习中往往是最耗时耗力的,但却极其的重要。抽象来讲,机器学习问题是把数据转换成信息再提炼到知识的过程,特征是“数据-->信息”的过程,决定了结果的上限,而分类器是“信息-->知识”的过程,则是去逼近这个上限。然而特征工程不同于分类器模型,不具备很强的通用性,往往需要结合对特征任务的理解。文本分类问题所在的自然语言领域自然也有其特有的特征处理逻辑,传统分本分类任务大部分工作也在此处。文本特征工程分为文本预处理、特征提取、文本表示三个部分,最终目的是把文本转换成计算机可理解的格式,并封装足够用于分类的信息,即很强的特征表达能力。分类器基本都是统计分类方法了,基本上大部分机器学习方法都在文本分类领域有所应用,比如朴素贝叶斯分类算法(Bayes)、KNN、SVM、最大熵和神经网络等等。
将自然语言句子这样的非结构化数据转换成结构化数据,然后利用强大的查询工具,如SQL。这种从文本中获取意义的方法被称为信息提取,信息提取系统搜索大量非结构化文本,寻找特定类型的实体和关系,并用它们来填充有组织的数据库。这些数据库可以用来寻找特定问题的答案。主要分为命名实体识别、关系提取。
命名实体识别(NER)是在自然语言处理中的一个经典问题,其应用也极为广泛。比如从一句话中识别出人名、地名,从电商的搜索中识别出产品的名字,识别药物名称等等。传统的公认比较好的处理算法是条件随机场(CRF),它是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。简单是说在NER中应用是,给定一系列的特征去预测每个词的标签。
关系提取主要是对实体间的语义分类,现有主流的关系抽取技术分为有监督的学习方法、半监督的学习方法和无监督的学习方法三种:
1、有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。
2、半监督的学习方法主要采用Bootstrapping进行关系抽取。对于要抽取的关系,该方法首先手工设定若干种子实例,然后迭代地从数据从抽取关系对应的关系模板和更多的实例。
3、无监督的学习方法假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。
与其他两种方法相比,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都更高。因此有监督的学习方法受到了越来越多学者的关注。
在现如今多数的应用中,命名实体识别、关系提取都是单独的任务在执行,更不用说再结合文本分类了。目前常用的实体、关系抽取方法为流水线的方法:输入一个句子,首先进行命名实体识别,然后对识别出来的实体进行两两组合,再进行关系分类,最后把存在实体关系的三元组作为输入。流水线的方法存在的缺点有:1)错误传播,实体识别模块的错误会影响到下面的关系分类性能;2)忽视了两个子任务之间存在的关系。3)产生了没必要的冗余信息,由于对识别出来的实体进行两两配对,然后再进行关系分类,那些没有关系的实体对就会带来多余信息,提升错误率。
现有的文本分类和槽填充都只是作为单独的模型来训练的,不但忽视了任务之间的依赖关系,而且加重了整个项目的开发周期,加大了文本标注的工作量。文本分类和信息抽取都常用有监督学习的方式实现的,而有监督学习必须要有足够多样本数据,样本的标注是比较耗时耗力的工作,而且标注质量也因人而已。这样的话,任务阅读标注的复杂度就越大并且质量也越难保障。目前用深度学习解决自然语言处理的问题最为流行,但深度学习一般训练的周期较长,任务越多尤为突出,严重制约了项目的迭代。
发明内容
槽填充是自然语言理解中的一个重要任务,是用于提取和事件相关的各种角色信息和属性信息。新闻分类和槽填充通常将其划分为两个独立的模型来训练的,并且两个模型是不相关的。但是在业务角度上说槽填充是依赖于新闻分类的,不同类别的问题,要填充的槽类型也是不一样的。本发明提供的技术方案是将新闻分类和槽填充当做一个模型来训练,将多个任务整合在一个任务中,充分考虑了任务间的相关性,这样可以更大程度地避免新闻分类和槽类型不匹配的问题,缩小了开发周期,提高了结果的准确度。
本发明方法主要采用seq2seq+attention+crf的方案来解决,具体包括以下步骤:
(1)对网页上爬取的新闻内容进行去HTML标签处理;
(2)对处理后的新闻内容分别进行主题标注和序列化标注,得到新闻内容对应的主题标签和新闻内容中的每个字对应的序列化标签;所述主题标注用于标注新闻所属类别;所述序列化标注主要是针对在已经标注主题的情况下,确定主题相关的角色或者属性信息;
(3)创建主题和关键信息提取模型,该模型包括一个seq2seq网络和一个全连接网络,全连接网络的输入来自于seq2seq网络的编码阶段的状态输出;
(4)将步骤(2)标注好的新闻数据注入到提取模型的seq2seq网络中,对新闻内容中的字进行编码,编码过程如下:首先对新闻内容中的每个字进行embedding向量化处理,得到向量化矩阵,然后将向量化矩阵注入到编码BiLstm双向循环神经网络中,得到outputs输出矩阵和finalState最终状态矩阵;
(5)针对主题标签,将finalState矩阵注入到提取模型的全连接网络中,得到logic中间结果矩阵,将logic矩阵和实际的主题标签做交叉熵处理得到损失值category_loss;
(6)针对序列化标签,将outputs矩阵进行attention注意力机制变换得到attention注意力矩阵;
(7)将attention矩阵以及outputs矩阵一起输入到seq2seq网络的解码BiLstm双向循环神经网络中,得到decode_outputs解码输出矩阵,用crf损失函数计算decode_outputs矩阵和序列化标签对应的损失值solt_loss;
(8)将category_loss加上solt_loss得到提取网络的整体损失值loss,然后利用梯度下降法对loss进行反向传播,得到提取模型的最优参数;
(9)对未标注的新闻内容进行去HTML标签处理后,注入到主题和关键信息提取模型中,得到最优的主题标签和序列化标签,根据主题标签得到新闻所属类别,根据序列化标签得到新闻内容对应的槽位值,即角色或属性信息。
进一步地,所述步骤(4)中,对新闻内容中的每个字进行embedding向量化处理具体为:用迁移学习的方法将预训练好的embedding字向量直接注入到seq2seq网络中,在训练过程中不需要对embedding字向量中的参数进行更新。
进一步地,所述步骤(6)中,将outputs矩阵进行attention注意力机制变换得到attention注意力矩阵的过程中,采用Self attention和Multi-head的方式,解决了传统attention模型无法平行化的缺点,提升效果和性能。
进一步地,所述步骤(9)中,主题和关键信息提取模型输出主题标签矩阵和序列化标签矩阵,对于主题标签矩阵,以softmax为激活函数,得出最大概率的主题标签作为最优的主题标签;对于序列化标签矩阵,将decode_outputs解码输出矩阵进行条件随机场crf解码得到最优的序列化标签。
本发明的有益效果是:本发明提出了一种一次性解决新闻主题提取和关键信息提取的方法,本发明采用seq2seq+attention+crf的方案,强化了分类模型和槽填充模型的依赖关系,减少了文本标注的复杂度,同时可减少项目开发复杂度。
附图说明
图1为本发明一个实施例的实现流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
本发明提供的一种从新闻中提取主题和关键信息的方法,包括以下步骤:
(1)对网页上爬取的新闻内容进行去HTML标签处理;
(2)对处理后的新闻内容分别进行主题标注和序列化标注,得到新闻内容对应的主题标签和新闻内容中的每个字对应的序列化标签;
主题标注主要标注新闻所属类别,比如,对于金融机构,将与招商信息相关的新闻标注为1,其他新闻标注为0;
序列化标注主要是针对在已经标注主题的情况下,确定主题相关的角色或者属性信息,比如对于招商信息相关的融资事件,对应的角色为投资方、被投资方等,对应的属性为融资金额、融资轮次等,这些对应的角色和属性就是槽位;
(3)创建主题和关键信息提取模型,该模型包括一个seq2seq网络和一个全连接网络,全连接网络的输入来自于seq2seq网络的编码阶段的状态输出;
(4)将步骤(2)标注好的新闻数据注入到提取模型的seq2seq网络中,对新闻内容中的字进行编码,编码过程如下:首先对新闻内容中的每个字进行embedding向量化处理,得到向量化矩阵,然后将向量化矩阵注入到编码BiLstm双向循环神经网络中,得到outputs输出矩阵和finalState最终状态矩阵;
对新闻内容中的每个字进行embedding向量化处理过程中,用迁移学习的方法将预训练好的embedding字向量直接注入到seq2seq网络中,在训练过程中不需要对embedding字向量中的参数进行更新。
(5)针对主题标签,将finalState矩阵注入到提取模型的全连接网络中,得到logic中间结果矩阵,将logic矩阵和实际的主题标签做交叉熵处理得到损失值category_loss;
(6)针对序列化标签,将outputs矩阵进行attention注意力机制变换得到attention注意力矩阵,在此过程中,采用Self attention和Multi-head的方式,解决了传统attention模型无法平行化的缺点,提升效果和性能;
(7)将attention矩阵以及outputs矩阵一起输入到seq2seq网络的解码BiLstm双向循环神经网络中,得到decode_outputs解码输出矩阵,用crf损失函数计算decode_outputs矩阵和序列化标签对应的损失值solt_loss;
(8)将category_loss加上solt_loss得到提取网络的整体损失值loss,然后利用梯度下降法对loss进行反向传播,得到提取模型的最优参数;
(9)对未标注的新闻内容进行去HTML标签处理后,注入到主题和关键信息提取模型中,得到最优的主题标签和序列化标签,根据主题标签得到新闻所属类别,根据序列化标签得到新闻内容对应的槽位值,即角色或属性信息。
主题和关键信息提取模型输出主题标签矩阵和序列化标签矩阵,对于主题标签矩阵,以softmax为激活函数,得出最大概率的主题标签作为最优的主题标签;对于序列化标签矩阵,将decode_outputs解码输出矩阵进行条件随机场crf解码得到最优的序列化标签。
例如对以下新闻进行本发明方法的处理:
"迈瑞发布了基于大数据算法的高端智能妇产超声专用机女娲Resona 8,她包含胎儿颅脑自动容积导航、胎儿面部自动导航、胎心自动容积导航、智能盆底超声等多项智能应用,将为妇女的产前诊断、产后康复、生殖健康带来贴心地呵护";
如图1所示,将该新闻输入至主题和关键信息提取模型中,模型在编码阶段以字为基本单位分别进行embedding、f-lstm、b-lstm得到outputs输出矩阵和finalState最终状态矩阵;将finalState最终状态矩阵进行全连接处理得到最终的主题标签;在解密阶段,将outpouts和outputs对应的attention一起注入解密网络,在解密网络中分别进行lstm、crfdecode处理得到最终的序列化标签,最后将序列化标签转换成对应的槽位值。
以上所述仅为本发明的较佳实施举例,并不用于限制本发明,凡在本发明精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种从新闻中提取主题和关键信息的方法,其特征在于,包括以下步骤:
(1)对网页上爬取的新闻内容进行去HTML标签处理;
(2)对处理后的新闻内容分别进行主题标注和序列化标注,得到新闻内容对应的主题标签和新闻内容中的每个字对应的序列化标签;所述主题标注用于标注新闻所属类别;所述序列化标注主要是针对在已经标注主题的情况下,确定主题相关的角色或者属性信息;
(3)创建主题和关键信息提取模型,该模型包括一个seq2seq网络和一个全连接网络,全连接网络的输入来自于seq2seq网络的编码阶段的状态输出;
(4)将步骤(2)标注好的新闻数据注入到提取模型的seq2seq网络中,对新闻内容中的字进行编码,编码过程如下:首先对新闻内容中的每个字进行embedding向量化处理,得到向量化矩阵,然后将向量化矩阵注入到编码BiLstm双向循环神经网络中,得到outputs输出矩阵和finalState最终状态矩阵;
(5)针对主题标签,将finalState矩阵注入到提取模型的全连接网络中,得到logic中间结果矩阵,将logic矩阵和实际的主题标签做交叉熵处理得到损失值category_loss;
(6)针对序列化标签,将outputs矩阵进行attention注意力机制变换得到attention注意力矩阵;
(7)将attention矩阵以及outputs矩阵一起输入到seq2seq网络的解码BiLstm双向循环神经网络中,得到decode_outputs解码输出矩阵,用crf损失函数计算decode_outputs矩阵和序列化标签对应的损失值solt_loss;
(8)将category_loss加上solt_loss得到提取网络的整体损失值loss,然后利用梯度下降法对loss进行反向传播,得到提取模型的最优参数;
(9)对未标注的新闻内容进行去HTML标签处理后,注入到主题和关键信息提取模型中,得到最优的主题标签和序列化标签,根据主题标签得到新闻所属类别,根据序列化标签得到新闻内容对应的槽位值,即角色或属性信息。
2.根据权利要求1所述的一种从新闻中提取主题和关键信息的方法,其特征在于,所述步骤(4)中,对新闻内容中的每个字进行embedding向量化处理具体为:用迁移学习的方法将预训练好的embedding字向量直接注入到seq2seq网络中,在训练过程中不需要对embedding字向量中的参数进行更新。
3.根据权利要求1所述的一种从新闻中提取主题和关键信息的方法,其特征在于,所述步骤(6)中,将outputs矩阵进行attention注意力机制变换得到attention注意力矩阵的过程中,采用Self attention和Multi-head的方式,解决了传统attention模型无法平行化的缺点,提升效果和性能。
4.根据权利要求1所述的一种从新闻中提取主题和关键信息的方法,其特征在于,所述步骤(9)中,主题和关键信息提取模型输出主题标签矩阵和序列化标签矩阵,对于主题标签矩阵,以softmax为激活函数,得出最大概率的主题标签作为最优的主题标签;对于序列化标签矩阵,将decode_outputs解码输出矩阵进行条件随机场crf解码得到最优的序列化标签。
5.根据权利要求1所述的一种从新闻中提取主题和关键信息的方法,其特征在于,该方法采用seq2seq+attention+crf,强化分类模型和槽填充模型的依赖关系,减少文本标注的复杂度,同时减少项目开发复杂度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811313654.4A CN109508459B (zh) | 2018-11-06 | 2018-11-06 | 一种从新闻中提取主题和关键信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811313654.4A CN109508459B (zh) | 2018-11-06 | 2018-11-06 | 一种从新闻中提取主题和关键信息的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109508459A CN109508459A (zh) | 2019-03-22 |
CN109508459B true CN109508459B (zh) | 2022-11-29 |
Family
ID=65747642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811313654.4A Active CN109508459B (zh) | 2018-11-06 | 2018-11-06 | 一种从新闻中提取主题和关键信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508459B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135493A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种新闻话题跟踪方法 |
CN110362823B (zh) * | 2019-06-21 | 2023-07-28 | 北京百度网讯科技有限公司 | 描述文本生成模型的训练方法和装置 |
CN110532452B (zh) * | 2019-07-12 | 2022-04-22 | 西安交通大学 | 一种基于gru神经网络的新闻网站通用爬虫设计方法 |
CN110415815A (zh) * | 2019-07-19 | 2019-11-05 | 银丰基因科技有限公司 | 深度学习和人脸生物特征信息的遗传病辅助诊断系统 |
CN110597970B (zh) * | 2019-08-19 | 2023-04-07 | 华东理工大学 | 一种多粒度医疗实体联合识别的方法及装置 |
CN111062217B (zh) * | 2019-12-19 | 2024-02-06 | 江苏满运软件科技有限公司 | 语言信息的处理方法、装置、存储介质及电子设备 |
CN111143514B (zh) * | 2019-12-27 | 2023-03-21 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111950199A (zh) * | 2020-08-11 | 2020-11-17 | 杭州叙简科技股份有限公司 | 一种基于地震新闻事件的地震数据结构化自动方法 |
CN112765363B (zh) * | 2021-01-19 | 2022-11-22 | 昆明理工大学 | 一种面向科技服务需求的需求图谱构建方法 |
CN112818687B (zh) * | 2021-03-25 | 2022-07-08 | 杭州数澜科技有限公司 | 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质 |
CN113111663B (zh) * | 2021-04-28 | 2024-09-06 | 东南大学 | 一种融合关键信息的摘要生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN108491372A (zh) * | 2018-01-31 | 2018-09-04 | 华南理工大学 | 一种基于seq2seq模型的中文分词方法 |
CN108595704A (zh) * | 2018-05-10 | 2018-09-28 | 成都信息工程大学 | 一种基于软分类模型的新闻情感和重要性分类方法 |
-
2018
- 2018-11-06 CN CN201811313654.4A patent/CN109508459B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN108491372A (zh) * | 2018-01-31 | 2018-09-04 | 华南理工大学 | 一种基于seq2seq模型的中文分词方法 |
CN108595704A (zh) * | 2018-05-10 | 2018-09-28 | 成都信息工程大学 | 一种基于软分类模型的新闻情感和重要性分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109508459A (zh) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
WO2020211275A1 (zh) | 基于预训练模型与微调技术的医疗文本关系抽取方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN110705296A (zh) | 一种基于机器学习和深度学习的中文自然语言处理工具系统 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN111400455A (zh) | 基于知识图谱的问答系统的关系检测方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
Zhang et al. | Effective subword segmentation for text comprehension | |
CN111832293A (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114943230A (zh) | 一种融合常识知识的中文特定领域实体链接方法 | |
CN111968700A (zh) | 一种基于bert的水稻表型组学知识图谱关系提取方法及系统 | |
CN113723103A (zh) | 融合多源知识的中文医学命名实体和词性联合学习方法 | |
CN113641809A (zh) | 一种基于XLNet-BiGRU-CRF的智能问答方法 | |
CN116775812A (zh) | 一种基于自然语音处理的中医药专利分析与挖掘工具 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN117891958B (zh) | 一种基于知识图谱的标准数据处理方法 | |
CN114444467A (zh) | 一种中医文献内容分析方法和装置 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN117035084A (zh) | 一种基于语法分析的医疗文本实体关系抽取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 7 / F, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province 310000 Patentee after: Huoshi Creation Technology Co.,Ltd. Address before: 7 / F, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province 310000 Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |