Nothing Special   »   [go: up one dir, main page]

CN110555203A - 文本复述方法、装置、服务器及存储介质 - Google Patents

文本复述方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN110555203A
CN110555203A CN201810550596.0A CN201810550596A CN110555203A CN 110555203 A CN110555203 A CN 110555203A CN 201810550596 A CN201810550596 A CN 201810550596A CN 110555203 A CN110555203 A CN 110555203A
Authority
CN
China
Prior art keywords
original
synonym
words
word
synonyms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810550596.0A
Other languages
English (en)
Other versions
CN110555203B (zh
Inventor
蒋帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810550596.0A priority Critical patent/CN110555203B/zh
Priority to KR1020190024496A priority patent/KR102254612B1/ko
Priority to JP2019041533A priority patent/JP6838092B2/ja
Priority to EP19166961.3A priority patent/EP3575988A1/en
Priority to US16/376,688 priority patent/US11308286B2/en
Publication of CN110555203A publication Critical patent/CN110555203A/zh
Application granted granted Critical
Publication of CN110555203B publication Critical patent/CN110555203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本复述方法、装置、服务器及存储介质。该方法包括:针对原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选;顺序连接该原始语句中各原始词语的同义词语得到该原始语句的复述语句。本发明实施例提供的技术方案,减少了对人工的依赖性,提高了文本复述的效率。

Description

文本复述方法、装置、服务器及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本复述方法、装置、服务器及存储介质。
背景技术
信息时代,数据变得越来越重要。因此在内容生态建设的背景下,构建自己特有的内容资源十分重要,而文本复述是构建内容资源的重要途径。
目前主要通过人工编辑的方式对文章进行复述,但是人工复述存在如下缺陷:造成大量人力财力的消耗;偏主观性,不同的主观偏见往往会影响文本复述的最终效果;局限性,由于人力有限,往往不能对所有的文本进行复述;复杂低效,成本高且效能低。因此,提供一种不依赖于人的新的文本复述方法是十分必要的。
发明内容
本发明实施例提供一种文本复述方法、装置、服务器及存储介质,减少了对人工的依赖性,提高了文本复述的效率。
第一方面,本发明实施例提供了一种文本复述方法,该方法包括:
针对原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选;
顺序连接该原始语句中各原始词语的同义词语得到该原始语句的复述语句。
第二方面,本发明实施例还提供了一种文本复述装置,该装置包括:
同义词筛选模块,用于针对原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选;
复述语句确定模块,用于顺序连接该原始语句中各原始词语的同义词语得到该原始语句的复述语句。
第三方面,本发明实施例还提供了一种服务器,该服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面中任意所述的文本复述方法。
第四方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意所述的文本复述方法。
本发明实施例提供的文本复述方法、装置、服务器及存储介质,对要进行文本复述的原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选,并将筛选后的各原始词语的同义词语顺序连接得到该原始语句的复述语句,进而得到原始文本的复述文本。该方法减少了对人工的依赖性,在规避版权风险的同时,提高了文本复述的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一中提供的一种文本复述方法的流程图;
图2A是本发明实施例二中提供的一种文本复述方法的流程图;
图2B是本发明实施例二中提供的一种文本复述的架构示意图;
图3是本发明实施例三中提供的一种文本复述方法的流程图;
图4是本发明实施例四中提供的一种文本复述装置的结构框图;
图5是本发明实施例五中提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
图1为本发明实施例一提供的一种文本复述方法的流程图,本实施例适用于在AGC(Algorithm Generated Content,文章自动生成)项目中,对网络原数据进行文本复述的情况。该方法可以由本发明实施例提供的文本复述装置来执行,该装置可采用软件和/或硬件的方式实现。参见图1,该方法具体包括:
S110,针对原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选。
其中,同义词语是指与原始词语所指待的含义相同的词语,一个原始词语可对应至少一个同义词语。示例性的,可以预先建立一个常用词语与其对应的同义词语的词库,在对原始语句采用切句、切词等方法进行处理得到原始语句中包含的各原始词语后,依次将各原始词语输入到词库中,即可匹配得到各原始词语对应的同义词语。还可以是,预先将大量的常用词语输入到神经网络模型中进行训练确定一个同义词确定模型,当原始语句中包含的各原始词语依次输入到同义词确定模型中,即可得到各原始词语对应的同义词语。
不同词语连续出现的概率是指两个或多个相邻词语同时出现的概率,可以通过统计大量样本文件得到,并持久化存储在本地预先设置的文件中。示例性的,在想要确定两个或多个词语的连续出现概率时,可直接将对应的词语输入到本地预先设置的文件中进行查找,从而得到相应词语的连续出现概率。
具体的,在确定原始语句中包含的各原始词语的同义词语之后,可根据预先确定的不同词语连续出现的概率,确定各原始词语的同义词语连续出现的概率,并进行降序排序,先将概率排名在前的预设数值个选出作为备选同义词语。而后依据语句的连贯性、语义等,对选出的各原始词语的备选同义词语做求交集运算,进而唯一确定原始语句中各原始词语的同义词语。
示例性的,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选可以包括:依据预先确定的不同词语连续出现的概率,确定该原始语句中当前原始词语的当前同义词语与下文原始词语的下文同义词语的连续出现概率;依据当前同义词语与下文同义词语的连续出现概率,对下文原始词语的同义词语进行筛选。
其中,下文原始词语是指在原始语句中位于当前原始词语之后的原始词语。下文原始词语的数量可以是一个,也可以是多个,例如,可以将当前原始词语的下一原始词语作为下文原始词语,也可以将当前原始词语的下一原始词语以及次下一原始词语均作为下文原始词语。
以原始语句为ABCDE,A为当前原始词语,B为下文原始词语为例,确定同义词语的过程如下:A的同义词语即当前同义词语为a1;对应的B为下文原始词语,当将B输入至预先建立的常用词语与其对应的同义词语的词库后,得到B的同义词语为b1、b2、b3、b4和b5。分别把a1b1、a1b2、a1b3、a1b4和a1b5输入至本地预先设置的用于存储不同词语连续出现概率的文件中,输出对应的连续出现概率。可将连续出现概率最大对应的B中的同义词语如b1作为B的同义词语。示例性的,为了保证后续得到的复述语句的连贯性,可将概率较大的预设数值个如3个对应的B中的同义词语筛选出来作为备选同义词语。而后再依据语句的连贯性、语义等,唯一确定B的同义词语。
S120,顺序连接该原始语句中各原始词语的同义词语得到该原始语句的复述语句。
其中,复述语句是指与原始语句句义相同的句子,是原始语句的替换语句。
具体的,若选出的各原始词语的同义词语不唯一,则可以得到原始语句的多种复述语句。并且,也可以通过如下方式进行复述语句筛选:依据语句的连贯性、语义等,将选出的各原始词语的同义词语做求交集运算,进而唯一确定原始语句中各原始词语的同义词语。依据原始语句中各原始词语的连接顺序,依次连接各原始词语的同义词语,得到原始语句的复述语句。若选出的各原始词语的同义词语是唯一的,则可直接依据原始语句中各原始词语的连接顺序,依次连接各原始词语的同义词语,得到原始语句的复述语句。
本发明实施例提供的文本复述方法,对要进行文本复述的原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选,并将筛选后的各原始词语的同义词语顺序连接得到该原始语句的复述语句,进而得到原始文本的复述文本。该方法减少了对人工的依赖性,在规避版权风险的同时,提高了文本复述的效率。
实施例二
图2A为本发明实施例二提供的一种文本复述方法流程图,该方法在本发明实施例一的基础上,进一步进行优化。参见图2A,该方法具体可以包括:
S210,针对原始文本中每一原始语句,依据预先确定的不同词语连续出现的概率,确定该原始语句中当前原始词语的当前同义词语与下文原始词语的下文同义词语的连续出现概率。
S220,确定当前同义词语与下文同义词语组成的各同义词组。
其中,同义词组是由两个或两个以上的同义词语所组成的。
示例性的,若原始语句是xyz,x对应的同义词语为{x0,x1,x2},y对应的同义词语为{y0,y1,y2,y3},z对应的同义词语为{z0,z1}。当前原始词语为x,对应的下文原始词语为y。可选的,以2个词语为窗口,当前同义词语与下文同义词语组成的各同义词组可以是(x0,y0)、(x0,y1)、(x0,y2)、(x0,y3)、(x1,y0)……及(x2,y3)。需要说明的是,同义词组中包含的词语的个数与窗口成正相关,可根据实际原始语句的复杂程度等情况进行修正。
S230,依据当前同义词语与下文同义词语的连续出现概率,确定各同义词组的概率。
其中,同义词组的概率是指两个或两个以上的同义词语连续出现的概率。具体的,依次将各同义词组输入至本地预先设置的用于存储不同词语连续出现概率的文件中,输出各同义词组的概率。例如:输出(x0,y0)、(x0,y1)、(x0,y2)、(x0,y3)、(x1,y0)……及(x2,y3)的概率,并进行降序排列。
S240,选择概率较大的预设数值个同义词组,剔除概率较小的其他同义词组。
其中,预设数值是指预先设置的参考数值,可根据所组成的同义词组的个数以及各同义词组的概率等情况进行修正。
具体的,将各同义词组依据所确定的概率,按照降序的方式进行排序,筛选出排列在前的预设数值个同义词组作为备选同义词组。示例性的,若存在同义词语的概率相同,可将对应的同义词语并列排序作为预设数值中的一个,或多个。
S250,将下文原始词语中的尾部原始词语作为新的当前原始词语,并对新的下文原始词语执行同义词语筛选操作直至该原始语句结束。
其中,下文原始词语中的尾部原始词语是指隶属于下文原始词语,且位于下文原始词语的最后位置的词语。以原始语句是ABCDE为例进行说明,以3个词语为窗口,若当前原始词语为A,对应的下文原始词语为BC,则下文原始词语中的尾部原始词语是C。将C作为新的当前原始词语,对应的新的下文原始词语是DE。
示例性的,若以2个词语为窗口,则下文原始词语中的尾部原始词语即为下文原始词语本身。具体的,以上文中陈述的原始语句是xyz为例进行说明。若当前原始词语为x,对应的下文原始词语仅为y,则下文原始词语中的尾部原始词语是y。将y作为新的当前原始词语,对新的下文原始词语z进行同义词语筛选。按照此流程,逐步对新的下文原始词语执行同义词语的筛选,直到该原始语句处理完毕。
例如,以上文中陈述的原始语句是xyz为例进行说明,参见图2B。若当前原始词语为x,对应的下文原始词语为y,对当前同义词语与下文同义词语组成的各同义词组选出概率最大的前3个作为备选同义词组,若所选出的前三个为(x0,y0)、(x1,y0)及(x2,y0),则对应选出y的同义词语是y0。对应的,y作为新的当前原始词语,z作为新的下文原始词语,y的同义词语与z的同义词语所组成的各同义词组为(y0,z0)和(y0,z1)。同理从y的同义词语与z的同义词组所组成的同义词组中选出概率最大的前3个作为备选同义词组,即(y0,z0)和(y0,z1)。
S260,顺序连接该原始语句中各原始词语的同义词语得到该原始语句的复述语句。
示例性的,按照原始语句中各原始词语的连接顺序,将得分最高的各同义词组所组成的句子最为最终的复述语句。例如,上文中陈述的原始语句xyz所选出的各同义词组分别为(x0,y0),(y0,z0)和(y0,z1),顺序连接各同义词组得到两个复述语句x0y0z0和x0y0z1。依据语句的连贯性、语义、使用习惯及各同义词组的概率等进行综合评分,最终唯一确定原始语句对应的复述语句。
本发明实施例提供的文本复述方法,对要进行文本复述的原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,以两个同义词语所组成的同义词组为单位,对原始语句中各原始词语的同义词语进行筛选,并将得分最高的各同义词组所组成的句子最为最终的复述语句,进而得到原始文本的复述文本。该方法减少了对人工的依赖性,在规避版权风险的同时,提高了文本复述的效率。
实施例三
图3为本发明实施例三提供的一种文本复述方法流程图,该方法在本发明实施例的基础上,进一步进行优化。参见图3,该方法具体可以包括:
S310,确定词库中各词语的词向量表示。
其中,词语的词向量表示是指一个词语在向量空间上的表示,可以通过对语言进行建模而获得,如采用文本深度表示模型word2vector通过训练将每个词语映射成K维实数向量,其中,K一般为模型中的超参数。
具体的,首先获取海量的百科词条数据作为语料,对所有数据进行切句、切词处理;然后统计全量数据的词频,取词频最高的前20万个词语作为常用词库;针对常用词库的每一个词,构造一个300维的词向量,且对每一个词向量中每维度取随机的0-1进行初始化;将初始化得到的初始化词向量输入到word2vector进行训练,得到20万个词语的词向量。在此过程中,隐藏层实际上相当于是一个查找表,将初始化得到的初始化词向量与隐藏层权重矩阵相乘实际上是取权重矩阵特定的行,输出即为输入的单词的词向量。
S320,依据词库中不同词语的词向量表示之间的余弦相似度,得到词库中各词语的同义词语。
其中,余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。示例性的,余弦值越大,夹角越小,两个个体越相似。
具体的,将得到20万个词语的词向量,两两计算余弦相似度,即可得到各词语对应的同义词语。由于各词语对应的同义词语至少为一个,因此也可称为同义词组。
此外,还可以采用计算欧式距离来判断词语之间的语义相似度,距离越大,相似度越小。
S330,确定各样本文本中包含的词语的向量表示。
其中,各样本文本可以是源于海量的百科词条数据,也可是其他途径获取的文章数据等。
具体的,首先获取20万条文章数据,并对所有文章数据进行切句、切词及词与词之间用空格连接处理;然后将预先得到的20万常用词库,与所有文章中的词语进行比对,确定非常用词语,对于非常用词,用<unk>代替,句子中的数字用N代替;针对所有文章数据中词语采用word2vector通过训练得到所有文章数据中包含的词语的向量表示。
S340,采用各样本文本中包含的词语的向量表示对LSTM模型进行训练,得到不同词语连续出现的概率。
其中,LSTM(Long Short-Term Memory,长短期记忆模型)是一种特殊的RNN(Recurrent Neural Network,循环神经网络)模型,是为了解决RNN模型梯度弥散的问题而提出的;能够压缩输入向量表示并预测输出。
具体的,将确定的各样本文本中包含的词语的向量表示输入至LSTM模型中,对其进行训练,最终输出各个词语连续出现的概率,并持久化存储在本地预先设置的文件中。
S350,针对原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选。
S360,顺序连接该原始语句中各原始词语的同义词语得到该原始语句的复述语句。
需要说明的是,本实施例中,确定词库中各词语的同义词语对应的步骤S310和S320,与得到不同词语连续出现的概率对应的步骤S330和S340之间没有先后之分,可以是本实施例中给出的顺序;也可以是先执行得到不同词语连续出现的概率对应的步骤S330和S340,再执行可同时执行确定词库中各词语的同义词语对应的步骤S310和S320;还可以是两个过程同时执行。
本发明实施例提供的文本复述的方法,首先采用word2vector确定词库中各词语的词向量表示,及利用余弦相似度得到词库中各词语的同义词语,并利用LSTM模型得到不同词语连续出现的概率;而后对要进行文本复述的原始文本中每一原始语句,依据原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选,并将筛选后的各原始词语的同义词语顺序连接得到该原始语句的复述语句,进而得到原始文本的复述文本。该方法减少了对人工的依赖性,在规避版权风险的同时,提高了文本复述的效率。
实施例四
图4为本发明实施例四提供的一种文本复述装置的结构框图,该装置可执行本发明任意实施例所提供的文本复述方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置可以包括:
同义词筛选模块410,用于针对原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选;
复述语句确定模块420,用于顺序连接该原始语句中各原始词语的同义词语得到该原始语句的复述语句.
本发明实施例提供的文本复述装置,对要进行文本复述的原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选,并将筛选后的各原始词语的同义词语顺序连接得到该原始语句的复述语句,进而得到原始文本的复述文本。减少了对人工的依赖性,在规避版权风险的同时,提高了文本复述的效率。
可选的,同义词筛选模块410可以包括:
连续概率确定单元,用于依据预先确定的不同词语连续出现的概率,确定该原始语句中当前原始词语的当前同义词语与下文原始词语的下文同义词语的连续出现概率;
同义词筛选单元,用于依据当前同义词语与下文同义词语的连续出现概率,对下文原始词语的同义词语进行筛选。
示例性的,同义词筛选单元具体可以用于:
确定当前同义词语与下文同义词语组成的各同义词组;依据当前同义词语与下文同义词语的连续出现概率,确定各同义词组的概率;选择概率较大的预设数值个同义词组,剔除概率较小的其他同义词组。
示例性的,同义词筛选模块410还可以用于:在依据当前同义词语与下文同义词语的连续出现概率,对下文原始词语的同义词语进行筛选之后,将下文原始词语中的尾部原始词语作为新的当前原始词语,并对新的下文原始词语执行同义词语筛选操作直至该原始语句结束。
可选的,上述装置还可以包括:
词语向量表示确定模块,用于在依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选之前,确定各样本文本中包含的词语的向量表示;
连续概率确定模块,用于采用各样本文本中包含的词语的向量表示对LSTM模型进行训练,得到不同词语连续出现的概率。
示例性的,上述装置还可以包括:
词向量表示确定模块,用于在依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选之前,确定词库中各词语的词向量表示;
同义词语确定模块,用于依据词库中不同词语的词向量表示之间的余弦相似度,得到词库中各词语的同义词语。
实施例五
图5为本发明实施例五提供的一种服务器的结构示意图。5示出了适于用来实现本发明实施方式的示例性服务器12的框图。图5显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,该服务器12以通用计算设备的形式表现。该服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的文本复述方法。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述实施例中任意的文本复述方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种文本复述方法,其特征在于,包括:
针对原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选;
顺序连接该原始语句中各原始词语的同义词语得到该原始语句的复述语句。
2.根据权利要求1所述的方法,其特征在于,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选,包括:
依据预先确定的不同词语连续出现的概率,确定该原始语句中当前原始词语的当前同义词语与下文原始词语的下文同义词语的连续出现概率;
依据当前同义词语与下文同义词语的连续出现概率,对下文原始词语的同义词语进行筛选。
3.根据权利要求2所述的方法,其特征在于,依据当前同义词语与下文同义词语的连续出现概率,对下文原始词语的同义词语进行筛选,包括:
确定当前同义词语与下文同义词语组成的各同义词组;
依据当前同义词语与下文同义词语的连续出现概率,确定各同义词组的概率;
选择概率较大的预设数值个同义词组,剔除概率较小的其他同义词组。
4.根据权利要求2所述的方法,其特征在于,依据当前同义词语与下文同义词语的连续出现概率,对下文原始词语的同义词语进行筛选之后,还包括:
将下文原始词语中的尾部原始词语作为新的当前原始词语,并对新的下文原始词语执行同义词语筛选操作直至该原始语句结束。
5.根据权利要求1所述的方法,其特征在于,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选之前,还包括:
确定各样本文本中包含的词语的向量表示;
采用各样本文本中包含的词语的向量表示对LSTM模型进行训练,得到不同词语连续出现的概率。
6.根据权利要求1所述的方法,其特征在于,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选之前,还包括:
确定词库中各词语的词向量表示;
依据词库中不同词语的词向量表示之间的余弦相似度,得到词库中各词语的同义词语。
7.一种文本复述装置,其特征在于,包括:
同义词筛选模块,用于针对原始文本中每一原始语句,依据该原始语句中包含的各原始词语的同义词语以及预先确定的不同词语连续出现的概率,对该原始语句中各原始词语的同义词语进行筛选;
复述语句确定模块,用于顺序连接该原始语句中各原始词语的同义词语得到该原始语句的复述语句。
8.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的文本复述方法。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的文本复述方法。
CN201810550596.0A 2018-05-31 2018-05-31 文本复述方法、装置、服务器及存储介质 Active CN110555203B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810550596.0A CN110555203B (zh) 2018-05-31 2018-05-31 文本复述方法、装置、服务器及存储介质
KR1020190024496A KR102254612B1 (ko) 2018-05-31 2019-03-04 텍스트 환언 방법, 장치, 서버, 및 기억 매체
JP2019041533A JP6838092B2 (ja) 2018-05-31 2019-03-07 テキスト換言方法、装置、サーバ、及び記憶媒体
EP19166961.3A EP3575988A1 (en) 2018-05-31 2019-04-03 Method and device for retelling text, server, and storage medium
US16/376,688 US11308286B2 (en) 2018-05-31 2019-04-05 Method and device for retelling text, server, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810550596.0A CN110555203B (zh) 2018-05-31 2018-05-31 文本复述方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN110555203A true CN110555203A (zh) 2019-12-10
CN110555203B CN110555203B (zh) 2023-05-30

Family

ID=66092015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810550596.0A Active CN110555203B (zh) 2018-05-31 2018-05-31 文本复述方法、装置、服务器及存储介质

Country Status (5)

Country Link
US (1) US11308286B2 (zh)
EP (1) EP3575988A1 (zh)
JP (1) JP6838092B2 (zh)
KR (1) KR102254612B1 (zh)
CN (1) CN110555203B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464673A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 融合义原信息的语言含义理解方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7323308B2 (ja) * 2019-03-20 2023-08-08 株式会社Screenホールディングス 同義語判定方法、同義語判定プログラム、および、同義語判定装置
US11328221B2 (en) * 2019-04-09 2022-05-10 International Business Machines Corporation Hybrid model for short text classification with imbalanced data
CN114514232A (zh) 2020-02-17 2022-05-17 出光兴产株式会社 有机电致发光元件及电子设备
EP4108660A4 (en) 2020-02-17 2024-05-01 Idemitsu Kosan Co.,Ltd. ORGANIC ELECTROLUMINESCENT ELEMENT AND ELECTRONIC DEVICE
CN111666755B (zh) * 2020-06-24 2024-10-18 深圳前海微众银行股份有限公司 一种复述句识别的方法及装置
CN112015866B (zh) * 2020-08-28 2023-07-21 北京百度网讯科技有限公司 用于生成同义文本的方法、装置、电子设备及存储介质
CN112464664B (zh) * 2020-12-11 2024-04-30 杭州师范大学 一种多模型融合中文词汇复述抽取方法
CN112925912B (zh) * 2021-02-26 2024-01-12 北京百度网讯科技有限公司 文本处理方法、同义文本召回方法及装置
CN114444498B (zh) * 2021-12-20 2024-07-19 奇安信科技集团股份有限公司 文本查重方法、装置、电子设备及存储介质
CN115329784B (zh) * 2022-10-12 2023-04-07 之江实验室 基于预训练模型的句子复述生成系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
JP2015118395A (ja) * 2013-12-16 2015-06-25 Kddi株式会社 文章編集支援装置、プログラムおよび文章編集支援システム
CN105095222A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
US9519871B1 (en) * 2015-12-21 2016-12-13 International Business Machines Corporation Contextual text adaptation
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置
US20170220561A1 (en) * 2016-02-01 2017-08-03 Panasonic Intellectual Property Management Co., Ltd. Method of creating translation corpus
JP2017156890A (ja) * 2016-02-29 2017-09-07 富士通株式会社 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
US6789231B1 (en) * 1999-10-05 2004-09-07 Microsoft Corporation Method and system for providing alternatives for text derived from stochastic input sources
US20040117352A1 (en) * 2000-04-28 2004-06-17 Global Information Research And Technologies Llc System for answering natural language questions
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
JP4252038B2 (ja) 2005-01-07 2009-04-08 日本電信電話株式会社 言い換え表現獲得システム、言い換え表現獲得方法及び言い換え表現獲得プログラム
JP2010152561A (ja) 2008-12-24 2010-07-08 Toshiba Corp 類似表現抽出装置、サーバ装置及びプログラム
US20110161073A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of disambiguating and selecting dictionary definitions for one or more target words
EP3408755A1 (en) 2016-01-26 2018-12-05 Koninklijke Philips N.V. Systems and methods for neural clinical paraphrase generation
KR102476812B1 (ko) * 2016-10-18 2022-12-09 삼성에스디에스 주식회사 유사도 분석 기반 이음 동의 항목 관리 방법 및 장치
JP6764779B2 (ja) * 2016-12-26 2020-10-07 株式会社日立製作所 同義カラム候補選出装置、同義カラム候補選出方法、及び同義カラム候補選出プログラム
KR102509822B1 (ko) * 2017-09-25 2023-03-14 삼성전자주식회사 문장 생성 방법 및 장치
US10418023B2 (en) * 2017-10-17 2019-09-17 International Business Machines Corporation Automatic answer rephrasing based on talking style
US10409898B2 (en) * 2017-11-17 2019-09-10 Adobe Inc. Generating a targeted summary of textual content tuned to a target audience vocabulary

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
JP2015118395A (ja) * 2013-12-16 2015-06-25 Kddi株式会社 文章編集支援装置、プログラムおよび文章編集支援システム
CN105095222A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
US9519871B1 (en) * 2015-12-21 2016-12-13 International Business Machines Corporation Contextual text adaptation
US20170220561A1 (en) * 2016-02-01 2017-08-03 Panasonic Intellectual Property Management Co., Ltd. Method of creating translation corpus
JP2017156890A (ja) * 2016-02-29 2017-09-07 富士通株式会社 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
C.QUINK,C.BROCKETT: "Monolingual machine translation for paraphrase generation", IN PROCEEDINGS OF EMNLP 2004 *
刘挺;李维刚;张宇;李生;: "复述技术研究综述", 中文信息学报 *
詹晨迪;凌震华;戴礼荣;: "面向知识库问答中复述问句评分的词向量构建方法", 模式识别与人工智能 *
赵世奇等: "复述技术研究", 《软件学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464673A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 融合义原信息的语言含义理解方法
CN112464673B (zh) * 2020-12-09 2023-05-26 哈尔滨工程大学 融合义原信息的语言含义理解方法

Also Published As

Publication number Publication date
US11308286B2 (en) 2022-04-19
US20190370341A1 (en) 2019-12-05
EP3575988A1 (en) 2019-12-04
JP2019212287A (ja) 2019-12-12
KR20190136911A (ko) 2019-12-10
CN110555203B (zh) 2023-05-30
JP6838092B2 (ja) 2021-03-03
KR102254612B1 (ko) 2021-05-20

Similar Documents

Publication Publication Date Title
CN110555203A (zh) 文本复述方法、装置、服务器及存储介质
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
Kowsher et al. LSTM-ANN & BiLSTM-ANN: Hybrid deep learning models for enhanced classification accuracy
CN114818891B (zh) 小样本多标签文本分类模型训练方法及文本分类方法
US11037356B2 (en) System and method for executing non-graphical algorithms on a GPU (graphics processing unit)
CN109726298A (zh) 适用于科技文献的知识图谱构建方法、系统、终端及介质
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN113486649B (zh) 文本评论的生成方法以及电子设备
CN112559711B (zh) 一种同义文本提示方法、装置及电子设备
CN117077679B (zh) 命名实体识别方法和装置
CN112632287A (zh) 电力知识图谱构建方法和装置
CN111753554A (zh) 一种意图知识库的生成方法及装置
CN114970467B (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Lao et al. Style Change Detection Based On Bert And Conv1d.
CN116186219A (zh) 一种人机对话交互方法方法、系统及存储介质
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质
Tank et al. Abstractive text summarization using adversarial learning and deep neural network
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
CN115270763A (zh) 一种基于多数据库的风险控制方法
CN112905752A (zh) 一种智能交互方法、装置、设备以及存储介质
CN111949765A (zh) 基于语义的相似文本搜索方法、系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant