CN108170684B - 文本相似度计算方法及系统、数据查询系统和计算机产品 - Google Patents
文本相似度计算方法及系统、数据查询系统和计算机产品 Download PDFInfo
- Publication number
- CN108170684B CN108170684B CN201810060942.7A CN201810060942A CN108170684B CN 108170684 B CN108170684 B CN 108170684B CN 201810060942 A CN201810060942 A CN 201810060942A CN 108170684 B CN108170684 B CN 108170684B
- Authority
- CN
- China
- Prior art keywords
- text
- similarity
- similar
- similarity calculation
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 61
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 41
- 230000009467 reduction Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000000306 recurrent effect Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 229910008045 Si-Si Inorganic materials 0.000 claims description 6
- 229910006411 Si—Si Inorganic materials 0.000 claims description 6
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 206010022000 influenza Diseases 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 206010035664 Pneumonia Diseases 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 201000009240 nasopharyngitis Diseases 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 201000009890 sinusitis Diseases 0.000 description 2
- 241000208140 Acer Species 0.000 description 1
- 102100031554 Double C2-like domain-containing protein alpha Human genes 0.000 description 1
- 101000866272 Homo sapiens Double C2-like domain-containing protein alpha Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种文本相似度的计算方法及系统、数据查询系统、计算机产品和计算机可读存储介质。该文本相似度的计算方法包括:至少获取第一文本和第二文本;将所述第一文本和第二文本映射为向量;计算所述第一文本与所述第二文本的相似部分和差异部分;利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。根据本公开提供的文本相似度的计算方法和系统,至少部分地考虑了词语语义相似性和差异性对文本相似度的影响,能够从更细的粒度上计算文本之间的语义相似度,进而提高文本匹配的精度,实现高精度的检索或查询等。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种文本相似度的计算方法及系统、数据查询系统、计算机产品和计算机可读存储介质。
背景技术
互联网的快速发展以及大数据时代的到来为人们有效获取各类信息提供了基础。目前人们已经习惯通过网络来获取各种各样的信息。举例来说,在医学领域,医护人员可以通过输入关键词搜索得到所需的文献、书籍或者相关网页等。对于患者来说,可以通过查看医疗网站的社区问答满足自身的信息需求。信息服务系统的基本流程是依据用户输入的查询或者问题,从数据中(文档集、问题集或者知识库等)匹配和查询或者问题最相关的内容返回给用户。
但是目前的信息查询系统在满足人们信息需求的同时,也存在着一些不足之处,例如由于文本相似度的计算不够全面,导致匹配精度不高。
发明内容
本公开的实施例提供一种文本相似度的计算方法,包括:
至少获取第一文本和第二文本;
将所述第一文本和第二文本映射为向量;
计算所述第一文本与所述第二文本的相似部分和差异部分;
利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。
可选地,将所述第一文本和第二文本映射为向量,还包括:对所述第一文本和第二文本对应的向量进行降维处理。
可选地,对所述第一文本和第二文本对应的向量进行降维处理,包括采用下述至少一种方法进行降维处理:词向量、句子向量、文章向量。
可选地,计算所述第一文本与所述第二文本之间的相似部分和差异部分,包括:对所述第一文本与第二文本进行语义匹配;对所述第一文本与第二文本进行语义分解,得到所述第一文本和第二文本的相似部分和差异部分。
可选地,将所述第一文本与第二文本进行语义匹配,包括:将第二文本中的词语对应的向量重构所述第一文本的词语对应的向量来判断语义覆盖的内容。
可选地,通过下述公式将第二文本中的词语对应的向量重构所述第一文本的词语对应的向量计算语义覆盖:
求解αi,j,Si为第一文本的列向量,Tj为第二文本的列向量,αi,j为语义覆盖参数,λ>0,为事先设定的正实数。
可选地,计算所述第一文本的相似部分和差异部分,包括:采用公式
可选地,计算所述第二文本的相似部分和差异部分,包括:
采用公式
可选地,利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度,包括:输入所述第一文本和所述第二文本的相似部分和差异部分,利用循环神经网络得到所述第一文本和所述第二文本之间的相似度。
可选地,用循环神经网络得到所述第一文本和所述第二文本之间的相似度,还包括利用样本数据对所述循环神经网络进行训练的步骤,所述训练数据的格式为(S,T,L),其中S表示第一文本,T表示第二文本,L表示相似度。
可选地,利用样本数据对所述循环神经网络进行训练的步骤,还包括预先定义相似程度的粒度,并将样本数据输入到所述循环神经网络,进行训练。
本公开的实施例还提供一种文本相似度计算系统,包括:
获取模块,被配置为至少获取第一文本和第二文本的输入;
映射模块,被配置为将所述第一文本和第二文本映射为向量;
文本相似度计算模块,被配置为计算所述第一文本与第二文本的相似部分和差异部分;利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。
可选地,所述映射模块包括降维模块,被配置为对所述第一文本和第二文本对应的向量进行降维处理。
可选地,所述文本相似度计算模块包括语义匹配模块,被配置将所述第一文本与第二文本进行语义匹配;语义分解模块,被配置为计算所述第一文本和第二文本的相似部分和差异部分;相似度计算模块,被配置为使用所述相似部分和差异部分计算所述第一文本和第二文本的相似度。
可选地,所述语义匹配模块,被配置为通过第二文本中词语对应向量重构所述第一文本词语对应向量来判断语义覆盖的内容。
可选地,所述语义匹配模块被配置为执行下述公式
可选地,所述语义分解模块被配置为执行下述公式获得所述第一文本的相似部分和差异部分、所述第二文本的相似部分和差异部分:
本公开的实施例还提供一种数据查询系统,包括如前所述的文本相似度计算系统。
本公开的实施例还提供一种计算机产品,包括:一个或多个处理器,所述处理器被配置为运行计算机指令以执行如前所述文本相似度的计算方法中的一个或多个步骤。
可选地,所述计算机产品还包括存储器,连接所述处理器,被配置为存储所述计算机指令。
本公开的实施例提供一种计算机可读存储介质,被配置为存储计算机指令,所述计算机指令被处理器运行时执行如前所述文本相似度的计算方法中的一个或多个步骤。
附图说明
图1为根据本公开实施例的文本相似度计算方法的流程图。
图2示出了根据本公开一实施例的文本相似度计算系统的结构框图。
图3示出了根据本公开另一实施例的文本相似度计算系统的结构框图。
图4示出了根据本公开实施例的数据查询系统的结构示意图。
图5示出了根据本公开实施例的电子设备的结构框图。
具体实施方式
为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
为了保持本公开实施例的以下说明清楚且简明,本公开省略了已知功能和已知部件的详细说明。在发明人所知的技术中,文本相似度的计算方法通常考虑文本之间的相似性,忽略内容之间的差异性。然而这些差异性能够提供一定的语义信息,这些语义信息有可能有利于实现信息的准确匹配,更好地满足用户的信息需求。
例如,在用户进行查询时,用户输入:关于感冒的介绍,在数据库中有:内容1:这篇文章介绍了鼻窦炎;内容2:这篇文章介绍了流行性感冒,而不是普通感冒;内容3:这篇文章介绍了流行性感冒,而不是肺炎。
在计算用户输入的文本与数据库中所具有的文本之间的相似度sim时,很容易得到sim(“输入”,“内容2”)>sim(“输入”,“内容1”)以及sim(“输入”,“内容3”)>sim(“输入”,“内容1”),其中sim(.,.)表示相似度度量函数,但很难判断sim(“输入”,“内容2”)和sim(“输入”,“内容3”)之间的大小。但如果注意到“内容2”更多的是强调“流行性感冒”和“普通感冒”的差异,即“流行性感冒”的一些独有特性,而非感冒的共性;而“内容3”强调“流行性感冒”和“肺炎”的差异,因为“肺炎”和“感冒”之间得到共性相对较少,所以其包含的感冒共性的内容可能会多一些,从这个意义上说,“内容3”应该比“内容2”更接近“输入”。
本公开的实施例提供一种文本相似度的计算方法,包括:
至少获取第一文本和第二文本;
将所述第一文本和第二文本映射为向量;
计算所述第一文本与所述第二文本的相似部分和差异部分;
利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。
现在结合图1具体描述根据本公开实施例提供的文本相似度的计算方法。
S100,至少获取第一文本和第二文本。
在本公开的一些实施例中,至少获取的第一文本和第二文本可以包括多个词语组成的句子,可以包括多个句子组成的段落,可以包括多个段落组成的文章,可以包括海量文本。
在本公开的一些实施例中,可以从单一或多个不同的数据源获取至少第一文本和第二文本,例如可以来源于用户在本地设备(手机、平板、电脑等)存储或输出的文本,例如可以来源于通过网络传输的文本。
S101,将所述第一文本和第二文本映射为向量。
例如,将第一文本S映射为S1,S2,…,Sn,第二文本T映射为T1,T2,…,Tm,其中S1-Sn是组成第一文本S的词语序列,也就是第一文本的对应向量,例如S=“感冒的症状”,则S1=“感冒”,S2=“的”,S3=“症状”,第二文本T1-Tm同理。
在本公开的一些实施例中,可通过向量空间模型VSM、文本分布式表示等实现文本的向量化。
在本公开的一些实施例中,通过文本分布式表示实现文本的向量化,包括通过潜在语意分析(LSA)、概率潜在语意分析(pLSA)、潜在狄利克雷分配(LDA)等方法,将所获取的文本映射为向量。
可选地,将所述第一文本和第二文本映射为向量,还包括:对所述第一文本和第二文本对应的向量进行降维处理,从而将文本表达为比较低维稠密向量形式。
在本公开的一些实施例中,通过主成分分析(PCA,将多个变量通过线性变换以选出较少个数重要变量)对本对应的向量进行降维处理。
在本公开的一些实施例中,具体的,通过词向量或句子向量或文章向量(Word2Vec或Sentence2Vec或Doc2Vec)的方法对文本对应的向量进行降维处理。
在本公开的一些实施例中,具体的,通过词向量实现的词嵌入方法对文本对应的向量进行降维处理。
通过降维处理,可以将第一文本、第二文本中的词语S1-Sn和T1-Tm映射成低维度的向量。例如维度为d,则每个词对应着一个d×1的列向量,文本S对应d×n的矩阵,设为矩阵P;文本T对应d×m的矩阵,设为矩阵Q。
S102,计算所述第一文本与所述第二文本的相似部分和差异部分。
在本公开的一些实施例中,可以通过文本编码的方法获得相似部分与差异部分,例如simhash方法,通过将各文本对应二进制编码,确定文本之间的海明距离(两个文本的simhash进行异或运算),在异或结果中,1的个数超过3表示不相似(差异部分),小于等于3表示相似(相似部分)。
诸如上述的文本编码方法,还可以使用Shingling、Minhash等。
在本公开的一些实施例中,采用S103:基于文本的语义内容的方法获得相似部分和差异部分。
例如,对第一文本与第二文本进行语义匹配,以获得第一文本与第二文本的语义覆盖。
为了计算文本S和文本T之间的相似部分,需要知道S(T)中每个词语是否可以被T(S)中的词语语义覆盖。例如,上述示例中,“输入”中的词语“感冒”可以语义覆盖内容3中的“流行性感冒”,而不太能够语义覆盖内容1中的“鼻窦炎”,因此sim(“输入”,“内容3”)>sim(“输入”,“内容1”)。
在本公开的一些实施例中,对于文本S中的词语Si,通过文本T中词语向量重构Si的向量来判断语义覆盖的内容。
例如,以下述公式执行语义覆盖内容的判断:
其中,Si和Tj是词语对应的d×1列向量(即上述词嵌入步骤中得到的词向量),αi,j为参数,λ>0,为事先设定的正实数。
例如,可通过下述方法求解参数αi,j:
则有,
其中,上标T表示转置。因为上式对于,i=1,2,…,n和j=1,2,…,m都成立,这样一共有n×m个等式,n×m个参数,所以可以解出这n×m个参数的值。
为了更清晰地表示求解过程以及最终解。我们将上述式子表示成矩阵形式。设矩阵R为n×m维的矩阵,其中第i行,第j列的元素Ri,j=Si TTj,则有R=PTQ(P和Q对应着“词嵌入”小节形成的矩阵)。设矩阵U为m×m的矩阵,其中第k行,第j列的元素Uk,j=Tk TTj,则有U=QTQ。设矩阵A为n×m维的矩阵,其中第i行,第j列的元素为αi,j。则上述式子可以表示为,
R-AU-λA=0
=>R=AU+λA
=A(U+λI)
=>A=R(U+λI)-1 (2)
其中,I为m×m的单位矩阵。
在求解式子(2)的过程中需要保证矩阵(U+λI)满秩,即存在逆矩阵。
证明如下:
因为Uk,j=Tk TTj,所以U为m×m的实对称矩阵,所以存在对角矩阵∧和U相似,即
V-1UV=Λ
则有,
V-1(U+λI)V=Λ+λI
由此可见,只要λ不等于矩阵U的负特征值,矩阵(U+λI)的特征值(即∧+λI的对角线上的元素)就不为0,矩阵就是满秩的。由于U的特征值可以是实数域中的任意实数,设其分布函数为F(x),由于x的取值是连续的,所以对于给定的实数a,其概率值F(a)=0,因此从概率上说,在没有任何先验知识的情况下,事先确定λ值等于矩阵U的负特征值的概率为0,即U+λI存在逆矩阵。
同样的方法,依据上述过程可求解文本T中词语在文本S中的语义覆盖。因此,为了方便叙述,本公开只阐述文本S中词语在文本T中的语义表示。
尽管上述描述了一种求解参数αi,j的方法,本领域技术人员容易理解,还可以通过多种不同的方法进行求解,例如还可以通过mathematic、maple等软件中提供的数值方法、代数方法等求解。
例如,对第一文本与第二文本进行语义分解,以获得第一文本与第二文本的相似部分和差异部分,即第一文本相对第二文本的相似部分和差异部分、第二文本相对第一文本的相似部分和差异部分。
在本公开的一些实施例中,基于文本S中每个词语在文本T中的表示矩阵A(参见公式(2)),其中A的第i行表示了词语Si在文本T中如何表示或覆盖。令即第二文本T可以覆盖第一文本S中词语Si的部分,表示为相似部分,差异部分为Si-Si',第一文本S的表示变成两部分:相似部分,由d×n矩阵表示(参见图1中的相似部分S′+);差异部分,也是d×n矩阵表示(参见图1中的差异部分S′-)。
基于上述方法,文本的表示由d×n矩阵变为d×2n矩阵。采用这样的方法可以计算所述第一文本的相似部分和差异部分。
类似地,计算所述第二文本中与所述第一文本的相似部分和差异部分。包括:采用公式Ai,j为αi,j的矩阵,Tj’为所述第二文本中的相似部分,Tj–Tj为所述第二文本中的差异部分。第二文本T的表示变成两部分:相似部分,由d×n矩阵表示(参见图1中的相似部分T′+),差异部分,也是d×n矩阵表示(参见图1中的差异部分T′-)。
采用这样的方法可以计算所述第二文本的相似部分和差异部分。
S104,基于相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。
例如,可以是基于文本的编码表示获得Jaccard相似度等。
例如,可以是基于文本的语义计算所述第一文本与所述第二文本之间的相似度。
在本公开的一些实施例中,通过基于机器学习的方法计算所述第一文本与所述第二文本之间的相似度。
例如,使用循环神经网络(RNN)来计算输入文本S和T的相似度。
在本公开的一些实施例中,利用样本数据训练RNN,样本数据的格式为(S,T,L),其中S和T表示文本,L表示相似度。
可选地,可以预先定义好相似度的粒度,例如对于2粒度的有L∈{0,1},0表示不相似,1表示相似。对于3粒度的有L∈{0,0.5,1},0表示不相似,0.5表示有点相似,1表示很相似。
基于样本数据进行训练,先将样本数据输入到循环神经网络中。样本数据中对于第一文本与第二文本的相似部分与差异部分的大小所对应的相似度进行定义。例如对于2粒度,定义第一文本与第二文本的相似部分与差异部分的大小在什么样的范围内表示1相似,在什么样的范围内表示0不相似;对于3粒度,定义第一文本与第二文本的相似部分与差异部分的大小在什么样的范围内表示1相似,在什么样的范围内表示0.5有点相似,在什么样的范围内表示0不相似。
采用样本数据对循环神经网络进行训练,使得循环神经网络可以在后续计算相似度。
对于完成训练的RNN,以S和T的表示d×2n矩阵,d×2m矩阵作为输入(即输入第一文本和第二文本的相似部分和差异部分),循环神经网络(RNN)来计算所述输入,输出相似度。
本公开实施例提供的文本相似度的计算方法,至少部分地考虑了词语语义相似性和差异性对文本相似度的影响,能够从更细的粒度上计算文本之间的语义相似度,进而提高文本匹配的精度,实现高精度的检索或查询等。
本公开的实施例还提供了一种文本相似度计算系统,图2和图3示出了该文本相似度计算系统的框图。该文本相似度计算包括:获取模块200,被配置为获取第一文本和第二文本的输入;映射模块210,被配置为将所述第一文本和第二文本映射为向量;文本相似度计算模块220,计算所述第一文本与第二文本的相似部分和差异部分,利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。
在本公开的一些实施例中,所述映射模块210包括降维模块211,被配置为对所述第一文本和第二文本对应的向量进行降维处理。
在本公开的一些实施例中,所述文本相似度计算模块220包括:语义匹配模块221,被配置为将所述第一文本与第二文本进行语义匹配;语义分解模块222,计算所述第一文本和第二文本的相似部分和差异部分;相似度计算模块223,被配置为使用所述相似部分和差异部分计算所述第一文本和第二文本的相似度。
可选地,所述语义匹配模块221,被配置为通过第二文本中词语对应向量重构所述第一文本词语对应向量来判断语义覆盖的内容。
例如,所述语义匹配模块被配置为执行下述公式
可选地,所述语义分解模块被配置为执行下述公式获得所述第一文本的相似部分和差异部分、所述第二文本的相似部分和差异部分:
本公开的实施例还提供一种数据查询系统,该数据查询系统包括上述实施例的文本相似度计算系统。例如参考图4,该数据查询系统包括人机交互模块401,例如,对于医学问答系统来说,用于接受患者的问题,以及展示问题的回答。对于医学文献检索系统来说,用户接受用户提供的查询语句,以及展示返回的文献。该数据查询系统还包括内容匹配模块402和数据库403,内容匹配模块402包括上述实施例中的文本相似度计算系统。
用户通过人机交互模块401输入待查找的内容,内容匹配模块402从数据库403中获取查询的文本,内容匹配模块402采用上述实施例中的文本相似度计算方法,计算获取查询的文本和用户输入的带查找内容之间的相似度,从而获取用户所需要查询的内容。
参考图5,本公开的实施例还提供了一种计算机产品500,以实现上述实施例所描述的文本相似度计算系统。该计算机产品可以包括一个或多个处理器502,处理器502被配置为运行计算机指令以执行如前所述文本相似度的计算方法中的一个或多个步骤。
可选地,所述计算机产品500还包括存储器501,连接所述处理器602,被配置为存储所述计算机指令。
计算机产品500可以实现为本地计算的计算机产品结构,即计算机产品500在用户侧实现上述实施例所描述的文本相似度计算系统;计算机产品500也可以实现为本地和远端交互的计算机产品结构,即计算机产品500在用户侧的终端实现上述实施例所描述的文本相似度计算系统中的获取至少第一文本和第二文本,在与用户侧终端连接的网络服务器接收至少第一文本和第二文本以执行文本相似度的计算。
在本公开的一些实施例中,计算机产品可以包括多个终端设备和与多个终端设备连接的网络服务器。
其中,多个终端设备,将各终端设备的至少包括第一文本和第二文本的文本(例如用户输入或存储的文本)上传至网络服务器;
其中,网络服务器,获取各终端设备上传的文本,将所获取的各文本执行上述实施例的文本相似度计算方法。
存储器501可以是各种由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器502可以是中央处理单元(CPU)或者现场可编程逻辑阵列(FPGA)或者单片机(MCU)或者数字信号处理器(DSP)或者专用集成电路(ASIC)或者图形处理器(GPU)等具有数据处理能力和/或程序执行能力的逻辑运算器件。一个或多个处理器可以被配置为以并行计算的处理器组同时执行上述文本相似度计算方法,或者被配置为以部分处理器执行上述文本相似度计算方法中的部分步骤,部分处理器执行上述文本相似度计算方法中的其它部分步骤等。
计算机指令包括了一个或多个由对应于处理器的指令集架构定义的处理器操作,这些计算机指令可以被一个或多个计算机程序在逻辑上包含和表示。
该计算机产品500还可以连接各种输入设备(例如用户界面、键盘等)、各种输出设备(例如扬声器等)、以及显示设备等实现计算机产品与其它产品或用户的交互,本文在此不再赘述。
连接可以是通过网络连接,例如无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信,无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者Wi-Fi等通信方式。
本公开实施例还提供一种计算机可读存储介质,被配置为存储计算机指令,所述计算机指令被处理器运行时执行如前所述文本相似度的计算方法中的一个或多个步骤。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施方式。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器执行的计算机程序。在该计算机程序被处理器执行时,执行本发明提供的上述方法所限定的全部或部分功能。所述的计算机程序可以存储于一种计算机可读存储介质中。
此外,需要注意的是,上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
需要注意的是,上述附图中所示的框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员应当理解,本公开不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此,虽然通过以上实施例对本公开进行了较为详细的说明,但是本公开不仅仅限于以上实施例,在不脱离本公开构思的情况下,还可以包括更多其他等效实施例,而本公开的范围由所附的权利要求决定。
Claims (15)
2.根据权利要求1所述的文本相似度的计算方法,将所述第一文本和第二文本映射为向量,还包括:对所述第一文本和第二文本对应的向量进行降维处理。
3.根据权利要求2所述的文本相似度的计算方法,对所述第一文本和第二文本对应的向量进行降维处理,包括采用下述至少一种方法进行降维处理:词向量、句子向量、文章向量。
6.根据权利要求1所述的文本相似度的计算方法,其中利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度包括:
输入所述第一文本和所述第二文本的相似部分和差异部分,利用循环神经网络得到所述第一文本和所述第二文本之间的相似度。
7.根据权利要求6所述的文本相似度的计算方法,用循环神经网络得到所述第一文本和所述第二文本之间的相似度,还包括利用样本数据对循环神经网络进行训练的步骤,所述训练数据的格式为(S,T,L),其中S表示第一文本,T表示第二文本,L表示相似度。
8.根据权利要求7所述的文本相似度的计算方法,利用样本数据对所述循环神经网络进行训练的步骤,还包括预先定义相似程度的粒度,并且将样本数据输入到所述循环神经网络,进行训练。
10.如权利要求9所述的文本相似度计算系统,其中所述映射模块包括降维模块,被配置为对所述第一文本和第二文本对应的向量进行降维处理。
12.一种数据查询系统,包括如权利要求9-11中任一所述的文本相似度计算系统。
13.一种计算机产品,包括:
一个或多个处理器,所述处理器被配置为运行计算机指令以执行如权利要求1-8中任一项所述的方法的一个或多个步骤。
14.如权利要求13所述的计算机产品,还包括存储器,连接所述处理器,被配置为存储所述计算机指令。
15.一种计算机可读存储介质,被配置为存储计算机指令,所述计算机指令被处理器运行时执行如权利要求1-8中任一项所述方法的一个或多个步骤。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810060942.7A CN108170684B (zh) | 2018-01-22 | 2018-01-22 | 文本相似度计算方法及系统、数据查询系统和计算机产品 |
KR1020207014877A KR102411921B1 (ko) | 2018-01-22 | 2018-06-19 | 관련성을 계산하는 방법, 관련성을 계산하기 위한 장치, 데이터 쿼리 장치, 및 비-일시적 컴퓨터-판독가능 저장 매체 |
PCT/CN2018/091822 WO2019140863A1 (en) | 2018-01-22 | 2018-06-19 | Method of calculating relevancy, apparatus for calculating relevancy, data query apparatus, and non-transitory computer-readable storage medium |
US16/330,545 US11281861B2 (en) | 2018-01-22 | 2018-06-19 | Method of calculating relevancy, apparatus for calculating relevancy, data query apparatus, and non-transitory computer-readable storage medium |
JP2019569437A JP7513396B2 (ja) | 2018-01-22 | 2018-06-19 | 関連性を算出する方法、関連性を算出する装置、データクエリ装置及び非一時的なコンピュータ可読記録媒体 |
EP18901142.2A EP3743831A4 (en) | 2018-01-22 | 2018-06-19 | PERTINENCE CALCULATION PROCESS, APPARATUS FOR CALCULATING RELEVANCE, DATA INTERROGATION APPARATUS AND COMPUTER-READABLE NON-TRANSITIONAL INFORMATION MEDIA |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810060942.7A CN108170684B (zh) | 2018-01-22 | 2018-01-22 | 文本相似度计算方法及系统、数据查询系统和计算机产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108170684A CN108170684A (zh) | 2018-06-15 |
CN108170684B true CN108170684B (zh) | 2020-06-05 |
Family
ID=62515240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810060942.7A Active CN108170684B (zh) | 2018-01-22 | 2018-01-22 | 文本相似度计算方法及系统、数据查询系统和计算机产品 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11281861B2 (zh) |
EP (1) | EP3743831A4 (zh) |
JP (1) | JP7513396B2 (zh) |
KR (1) | KR102411921B1 (zh) |
CN (1) | CN108170684B (zh) |
WO (1) | WO2019140863A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170684B (zh) * | 2018-01-22 | 2020-06-05 | 京东方科技集团股份有限公司 | 文本相似度计算方法及系统、数据查询系统和计算机产品 |
CN110688119A (zh) * | 2018-07-04 | 2020-01-14 | 阿里巴巴集团控股有限公司 | 业务功能和单元的生成、实现方法和服务器、设备、介质 |
CN109145085B (zh) * | 2018-07-18 | 2020-11-27 | 北京市农林科学院 | 语义相似度的计算方法及系统 |
CN110852056B (zh) * | 2018-07-25 | 2024-09-24 | 中兴通讯股份有限公司 | 一种获取文本相似度的方法、装置、设备及可读存储介质 |
CN111382246B (zh) * | 2018-12-29 | 2023-03-14 | 深圳市优必选科技有限公司 | 文本的匹配方法、匹配装置、终端及计算机可读存储介质 |
CN110147429B (zh) * | 2019-04-15 | 2023-08-15 | 平安科技(深圳)有限公司 | 文本比较方法、装置、计算机设备和存储介质 |
CN110265104B (zh) * | 2019-05-08 | 2022-04-29 | 长沙市中心医院 | 诊断报告符合度检测方法、装置、计算机设备和存储介质 |
CN110176315B (zh) * | 2019-06-05 | 2022-06-28 | 京东方科技集团股份有限公司 | 医疗问答方法及系统、电子设备、计算机可读介质 |
CN110750977B (zh) * | 2019-10-23 | 2023-06-02 | 支付宝(杭州)信息技术有限公司 | 一种文本相似度计算方法及系统 |
CN110969006B (zh) * | 2019-12-02 | 2023-03-21 | 支付宝(杭州)信息技术有限公司 | 一种文本排序模型的训练方法和系统 |
CN111159343A (zh) * | 2019-12-26 | 2020-05-15 | 上海科技发展有限公司 | 基于文本嵌入的文本相似性搜索方法、装置、设备和介质 |
CN111160028B (zh) * | 2019-12-31 | 2023-05-16 | 东软集团股份有限公司 | 判断两个文本语义相似度的方法、装置、存储介质及设备 |
US12019666B2 (en) * | 2020-03-23 | 2024-06-25 | Nippon Telegraph And Telephone Corporation | Abstract generation apparatus, abstract generation method and program |
DE102020109953A1 (de) * | 2020-04-09 | 2021-10-14 | Contexon GmbH | Verfahren und Computersystem zur Bestimmung der Relevanz eines Textes |
CN112819893A (zh) * | 2021-02-08 | 2021-05-18 | 北京航空航天大学 | 三维语义地图的构建方法和装置 |
CN113761868B (zh) * | 2021-04-20 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
US20220414128A1 (en) * | 2021-06-23 | 2022-12-29 | Servicenow Canada Inc. | Method and system for interactive searching based on semantic similarity of semantic representations of text objects |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138647A (zh) * | 2015-08-26 | 2015-12-09 | 陕西师范大学 | 一种基于Simhash算法的旅游网络社区划分方法 |
CN107436864A (zh) * | 2017-08-04 | 2017-12-05 | 逸途(北京)科技有限公司 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6658626B1 (en) * | 1998-07-31 | 2003-12-02 | The Regents Of The University Of California | User interface for displaying document comparison information |
US6990628B1 (en) * | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
US6560620B1 (en) * | 1999-08-03 | 2003-05-06 | Aplix Research, Inc. | Hierarchical document comparison system and method |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US20040093564A1 (en) * | 2002-11-07 | 2004-05-13 | International Business Machines Corporation | Method and apparatus for visualizing changes in data |
JP4391157B2 (ja) * | 2003-08-15 | 2009-12-24 | 株式会社リコー | 文書処理装置、文書処理方法、文書処理プログラム、および記録媒体 |
KR101532715B1 (ko) * | 2005-03-18 | 2015-07-02 | 써치 엔진 테크놀로지스, 엘엘씨 | 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진 |
US9892111B2 (en) * | 2006-10-10 | 2018-02-13 | Abbyy Production Llc | Method and device to estimate similarity between documents having multiple segments |
US9189482B2 (en) * | 2012-10-10 | 2015-11-17 | Abbyy Infopoisk Llc | Similar document search |
US20080114750A1 (en) | 2006-11-14 | 2008-05-15 | Microsoft Corporation | Retrieval and ranking of items utilizing similarity |
US8082233B2 (en) * | 2007-03-29 | 2011-12-20 | Microsoft Corporation | Comparing data sets through identification of matching blocks |
US8122032B2 (en) * | 2007-07-20 | 2012-02-21 | Google Inc. | Identifying and linking similar passages in a digital text corpus |
US7945525B2 (en) * | 2007-11-09 | 2011-05-17 | International Business Machines Corporation | Methods for obtaining improved text similarity measures which replace similar characters with a string pattern representation by using a semantic data tree |
US20090240498A1 (en) * | 2008-03-19 | 2009-09-24 | Microsoft Corporation | Similiarity measures for short segments of text |
JP5458880B2 (ja) * | 2009-03-02 | 2014-04-02 | 富士通株式会社 | 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法 |
US20120191740A1 (en) * | 2009-09-09 | 2012-07-26 | University Bremen | Document Comparison |
JP2013149061A (ja) * | 2012-01-19 | 2013-08-01 | Nec Corp | 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム |
US9720979B2 (en) * | 2012-06-22 | 2017-08-01 | Krishna Kishore Dhara | Method and system of identifying relevant content snippets that include additional information |
US20140249799A1 (en) * | 2013-03-04 | 2014-09-04 | Microsoft Corporation | Relational similarity measurement |
US20150212993A1 (en) * | 2014-01-30 | 2015-07-30 | International Business Machines Corporation | Impact Coverage |
US9477654B2 (en) * | 2014-04-01 | 2016-10-25 | Microsoft Corporation | Convolutional latent semantic models and their applications |
US20160196342A1 (en) * | 2015-01-06 | 2016-07-07 | Inha-Industry Partnership | Plagiarism Document Detection System Based on Synonym Dictionary and Automatic Reference Citation Mark Attaching System |
JP2016197289A (ja) * | 2015-04-02 | 2016-11-24 | 日本電信電話株式会社 | パラメタ学習装置、類似度算出装置、方法、及びプログラム |
JP2017010249A (ja) * | 2015-06-22 | 2017-01-12 | 日本電信電話株式会社 | パラメタ学習装置、文類似度算出装置、方法、及びプログラム |
JP6555810B2 (ja) * | 2015-07-15 | 2019-08-07 | 日本放送協会 | 類似度算出装置、類似検索装置、および類似度算出プログラム |
US9836671B2 (en) | 2015-08-28 | 2017-12-05 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
CN106485507B (zh) * | 2015-09-01 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 一种软件推广作弊的检测方法、装置及系统 |
CN105893410A (zh) | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN107220220A (zh) * | 2016-03-22 | 2017-09-29 | 索尼公司 | 用于文本处理的电子设备和方法 |
US10102191B2 (en) * | 2016-06-16 | 2018-10-16 | Adobe Systems Incorporated | Propagation of changes in master content to variant content |
US10769522B2 (en) * | 2017-02-17 | 2020-09-08 | Wipro Limited | Method and system for determining classification of text |
CN107133202A (zh) * | 2017-06-01 | 2017-09-05 | 北京百度网讯科技有限公司 | 基于人工智能的文本校验方法和装置 |
CN107491547B (zh) * | 2017-08-28 | 2020-11-10 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN108170684B (zh) * | 2018-01-22 | 2020-06-05 | 京东方科技集团股份有限公司 | 文本相似度计算方法及系统、数据查询系统和计算机产品 |
-
2018
- 2018-01-22 CN CN201810060942.7A patent/CN108170684B/zh active Active
- 2018-06-19 EP EP18901142.2A patent/EP3743831A4/en active Pending
- 2018-06-19 JP JP2019569437A patent/JP7513396B2/ja active Active
- 2018-06-19 WO PCT/CN2018/091822 patent/WO2019140863A1/en unknown
- 2018-06-19 KR KR1020207014877A patent/KR102411921B1/ko active IP Right Grant
- 2018-06-19 US US16/330,545 patent/US11281861B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138647A (zh) * | 2015-08-26 | 2015-12-09 | 陕西师范大学 | 一种基于Simhash算法的旅游网络社区划分方法 |
CN107436864A (zh) * | 2017-08-04 | 2017-12-05 | 逸途(北京)科技有限公司 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
Non-Patent Citations (1)
Title |
---|
文本相似度计算方法研究综述;陈二静等;《数据分析与知识发现》;20170630(第06期);第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019140863A1 (en) | 2019-07-25 |
EP3743831A1 (en) | 2020-12-02 |
JP7513396B2 (ja) | 2024-07-09 |
US11281861B2 (en) | 2022-03-22 |
EP3743831A4 (en) | 2021-09-29 |
KR102411921B1 (ko) | 2022-06-23 |
KR20200078576A (ko) | 2020-07-01 |
CN108170684A (zh) | 2018-06-15 |
JP2021510858A (ja) | 2021-04-30 |
US20210334464A1 (en) | 2021-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108170684B (zh) | 文本相似度计算方法及系统、数据查询系统和计算机产品 | |
CN109800307B (zh) | 产品评价的分析方法、装置、计算机设备及存储介质 | |
Kanwal et al. | A review of text-based recommendation systems | |
CN106095845B (zh) | 文本分类方法和装置 | |
CN106156023B (zh) | 语义匹配的方法、装置和系统 | |
CN112085565A (zh) | 基于深度学习的信息推荐方法、装置、设备及存储介质 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
CN111078842A (zh) | 查询结果的确定方法、装置、服务器及存储介质 | |
CN111488526B (zh) | 一种推荐方法及装置 | |
CN113704428A (zh) | 智能问诊方法、装置、电子设备及存储介质 | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
Chai | Design and implementation of English intelligent communication platform based on similarity algorithm | |
CN114492669B (zh) | 关键词推荐模型训练方法、推荐方法和装置、设备、介质 | |
CN112732898A (zh) | 文献摘要生成方法、装置、计算机设备及存储介质 | |
CN115270746A (zh) | 问题样本生成方法和装置、电子设备及存储介质 | |
CN112541069A (zh) | 一种结合关键词的文本匹配方法、系统、终端及存储介质 | |
CN115145980B (zh) | 对话回复生成方法和装置、电子设备及存储介质 | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
Suh et al. | Localized user-driven topic discovery via boosted ensemble of nonnegative matrix factorization | |
US12124495B2 (en) | Generating hierarchical ontologies | |
CN114492437A (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
CN114090778A (zh) | 基于知识锚点的检索方法、装置、电子设备及存储介质 | |
CN113641915A (zh) | 对象的推荐方法、装置、设备、存储介质和程序产品 | |
CN113434649A (zh) | 基于政策faq数据库的问题匹配方法、装置、设备及介质 | |
CN113486142A (zh) | 一种基于义原的词语语义的预测方法及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |