CN104462060B - 通过计算机实现的计算文本相似度和搜索处理方法及装置 - Google Patents
通过计算机实现的计算文本相似度和搜索处理方法及装置 Download PDFInfo
- Publication number
- CN104462060B CN104462060B CN201410728432.4A CN201410728432A CN104462060B CN 104462060 B CN104462060 B CN 104462060B CN 201410728432 A CN201410728432 A CN 201410728432A CN 104462060 B CN104462060 B CN 104462060B
- Authority
- CN
- China
- Prior art keywords
- text string
- cypher
- semantic similarity
- similarity value
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的一种通过计算机实现的计算文本相似度和搜索处理方法及装置。所述方法包括:获取第一文本串和第二文本串;根据预先设置的短语翻译模型和依存结构模型,对所述第一文本串进行解码,获取K个翻译文本串;分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值,并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值。其解决了句子中长距离的依存关系问题,能够更好地表示搜索语句的语义,从而更好地将搜索语句与网页标题进行匹配,使用户得到语义匹配的搜索结果条目,增强用户搜索体验。
Description
技术领域
本发明涉及自然语言处理技术,尤其涉及一种通过计算机实现的计算文本相似度和搜索处理方法及装置。
背景技术
在搜索引擎当中,为了能够将用户输入的搜索词(或Query)尽可能好的匹配到文档的各个域上(例如,标题、内容),通常采用基于完全的词的匹配的方法来实现所述匹配。
目前也有利用翻译模型的方法,从翻译的角度来假定标题和搜索词(例如,Query)是以不同的子语言所写成的假设下,来对类似于“有效果”被翻译成“有用”这样的短语翻译来实现语义的匹配。但是,这种方法并不能够解决目标语言当中的长距离依赖问题,只能简单进行语义匹配,使得不能真实体现和表示搜索语句的语义,从而将搜索语句与网页标题匹配错误,影响搜索结果显示和排序,进而影响用户体验。例如,将句子“关羽当年为什么没有杀曹操”匹配为“曹操当年为什么不杀关羽”,原句子(query)中“关羽”是主语,“曹操”是宾语,而由于未解决长距离依存关系问题,搜索语句与网页标题仅进行词的匹配,而实际句子的依存关系却未体现。
发明内容
本发明的目的在于,提供一种通过计算机实现的计算文本相似度和搜索处理方法及装置,更好地刻画非局部的依存关系,解决长距离依存关系,从而实现更好的匹配效果。
根据本发明的一方面,提供一种通过计算机实现的计算文本相似度的方法,包括:获取第一文本串和第二文本串;根据预先设置的短语翻译模型和依存结构模型,对所述第一文本串进行解码,获取K个翻译文本串;分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值,并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值。
根据本发明的一方面,提供一种搜索处理方法,包括:接收搜索词;根据所述搜索词获取多个搜索结果条目;根据所述通过计算机实现的计算文本相似度的方法计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值;根据计算的所述语义相似度值对所述多个搜索结果条目进行排序;发送经过排序的搜索结果条目。
根据本发明的另一方面,提供一种计算文本相似度的装置,包括:文本串获取单元,用于获取第一文本串和第二文本串;文本串解码单元,用于根据预先设置的短语翻译模型和依存结构模型,对所述第一文本串进行解码,获取K个翻译文本串;相似度值计算单元,用于分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值,并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值。
根据本发明的另一方面,提供一种搜索处理装置,包括:搜索词接收单元,用于接收搜索词;搜索结果获取单元,用于根据所述搜索词获取多个搜索结果条目;语义相似值计算单元,用于所述计算文本相似度的装置计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值;排序单元,用于根据计算的所述语义相似度值对所述多个搜索结果条目进行排序;发送单元,用于发送经过排序的搜索结果条目。
本发明实施例提供的通过计算机实现的计算文本相似度和搜索处理方法及装置,通过短语翻译模型和依存结构模型对第一文本串(如用户输入的搜索关键词或query)进行解码获得多个翻译文本串,分别计算所述多个翻译文本串与第二文本串(如搜索结果条目的内容标题)之间的第一语义相似度值,并且根据计算的多个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值,解决了文本串中长距离的依存关系问题,能够全面、准确地计算文本串之间的相似度。
在搜索技术中,通过将搜索词和搜索获取的搜索结果条目的内容标题进行如上所述的语义相似度计算,可更好地表示搜索语句的语义,并且可综合根据该相似度值以及第一文本串,对返回的搜索结果进行排序,从而得到最优的搜索结果,以供用户查看。如此,解决文本串中长距离的依存关系问题,从而更好地将搜索语句与网页标题进行匹配,向用户提供语义匹配的搜索结果条目,增强用户搜索体验。
附图说明
图1是示出本发明示例性实施例的通过计算机实现的计算文本相似度的方法的流程示意图。
图2是示出本发明示例性实施例的句子的依存关系示例图。
图3是示出本发明示例性实施例的搜索处理方法的流程示意图。
图4是示出本发明示例性实施例的计算文本相似度的装置的结构框图。
图5是示出本发明示例性实施例的搜索处理装置的结构框图。
具体实施方式
本发明的基本构思是,在信息处理技术中,通过为翻译模型引入目标语言的依存结构模型来实现语义结构的匹配;在文本匹配的处理中,将翻译模型与依存结构模型结合对文本串进行解码,用以产生Top K个翻译文本串,再通过所述多个翻译文本串与要进行比较/匹配的另一文本串进行实现语义结构的匹配,强化语义结构信息,且通过语义相似度的计算,向用户推送与搜索语句匹配的网页标题。
传统的短语翻译模型,在将搜索词翻译成Top K的标题时,会使用NGRAM语言模型来考察翻译得到的标题是否符合目标语言的语言规律。本发明中,为了进一步考察目标语言的依存结构,故而进一步引入一个依存结构模型。
具体地说,一个句子的依存关系是指句子S=(w1,w2,……wn)中两个词(wi,wj)之间是通过wj修饰wi这样的依存弧以描述词wj对wi的修饰关系;此外,为了描述链式的修饰关系,增加特殊的根(root)节点w0,以(w0,wi)来表示其起始关系。
可以通过如下等式计算句子S的依存结构概率:
其中,p(wi,wj)表示wj修饰wi的依存弧概率,p(wi)是词wi出现的概率,p(wi,wj)和p(wi)可以通过预存的依存树库中或大规模的数据当中统计得到,i和j表示词在句子中出现的位置。
图2是示出本发明示例性实施例的句子的依存关系示例图。例如,p(水利)=0.6,p(水利,工程)=0.5,则可以通过上述等式计算得到:
以此类推,可以相应计算句子中各个词与词之间的依存结构概率,将这些依存结构概率累乘,则得到这个句子的依存结构概率。
基于前述句子的依存结构概率的计算,可通过大量依存树来训练依存结构模型。所述依存结构模型的训练不是本发明的改进点,因此在此不做详细的说明。
下面结合附图对本发明示例性实施例的通过计算机实现的计算文本相似度和搜索处理方法及装置进行详细描述。
图1是示出本发明示例性实施例的通过计算机实现的计算文本相似度的方法的流程示意图。
参照图1,在步骤S110,获取第一文本串和第二文本串。其中,所述第一文本串可以是用户输入的搜索语句(或是一个query),所述第二文本串可以是由所述搜索语句获取的搜索结果条目的网页标题。
在步骤S120,根据预先设置的短语翻译模型和依存结构模型,对所述第一文本串进行解码,获取K个翻译文本串。
在自然语言处理技术中,基于统计的机器翻译方法是一种主要的机器翻译方法,其基本思想是将机器翻译看成是信息传输的过程,通过信道模型对机器翻译进行解码。根据本发明的优选实施例,可通过柱搜索解码器对所述第一文本串进行解码,获取Top K个翻译文本串。
具体地,在步骤S120的处理中,可根据短语翻译模型计算出与所述第一文本串相对应的翻译文本串,再根据依存结构模型确定长距离的词与词之间的依存结构,从而确定第一文本串与所述翻译文本串是否在语义上相似。
优选地,根据所述短语翻译模型、所述依存结构模型、NGRAM语言模型以及语序扭曲模型对所述第一文本串进行解码,获取Top K个翻译文本串。其中,所述语序扭曲模型是在自然语言处理技术中用于考查源语言与目标语言中的对应的短语的位置关系的模型,传统的NGRAM语言模型用于考查一个句子出现的概率。通过基于短语翻译模型、依存结构模型、NGRAM语言模型以及语序扭曲模型对任一候选文本串进行评分,可产生从语义上更为接近的Top K个翻译文本串。
优选地,通过以下公式对任一候选文本串T计算综合评分Score(T):
Score(T)=λ1LM(T)+λ2TM(Q,T)+λ3D(Q,T)+λ4DEP(T)
其中,LM(T)是根据所述NGRAM语言模型对翻译文本串T的评分,TM(Q,T)是根据所述短语翻译模型由第一文本串Q翻译为翻译文本串T的概率评分,D(Q,T)是根据所述语序扭曲模型计算的由第一文本串Q翻译为翻译文本串T的评分,DEP(T)是根据所述依存结构模型对翻译文本串T的评分,λ1~λ4分别是赋予前述四个模型的评分的权重。此后,通过所述综合评分从候选文本串当中选取所述K个翻译文本串。
具体地,通过柱搜索解码器根据所述对所述综合评分Score(T)对候选翻译文本串进行排序,筛选出评分较高的K个(或评分为TOP-K)翻译文本串(TOP1,TOP2,TOP3……TOPK)。例如,如果第一文本串为“坚硬的”,柱搜索解码器将其解码得到的翻译文本串有“硬的”、“坚固的”、“坚固的”、“硬硬的”、“坚硬”和“结实的”,再例如,第一文本串为“桃”,柱搜索解码器将其解码得到的翻译文本串可以有“桃子”、“杨桃”、“水蜜桃”、“蜜桃”、“桃树”,如此,柱搜索解码器再根据其综合评分从中筛选出评分较高的K个翻译文本串。
在步骤S130,分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值,并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值。
优选地,所述分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值。具体地,所述第一语义相似度值的计算处理包括:
首先,获取对所述第二文本串进行依存关系分析取得的至少一个第二依存弧。这里,由于自第二文本串取得的第二依存弧被多次使用,因此可在对所述第二文本串进行依存关系分析取得所述至少一个第二依存弧后,将所述至少一个第二依存弧保留在缓存内以重复使用,而不需要每次重新进行依存分析再取得所述至少一个第二依存弧。
此后,对任一所述翻译文本串,执行以下处理:对所述翻译文本串进行依存关系分析,取得至少一个第一依存弧,基于所述至少一个第一依存弧和至少一个第二依存弧计算所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值。
优选地,计算所述至少一个第一依存弧和至少一个第二依存弧的余弦相似度作为所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值。
例如,通过步骤S120得到K个翻译文本串,通过步骤S130计算得到第一依存弧和第二依存弧,对所述第一依存弧和第二依存弧进行余弦计算,进而得到K个第一语义相似度值,例如,如果将任一翻译文本串t和第二文本串w的依存弧的集合分别表示为:arcs(t)={(t0,ti),…(ti,tj),…}和arcs(w){(w0,wi),…(wi,wj),…},那么可通过以下等式计算翻译文本串t和第二文本串w的余弦相似度(即第一语义相似度值)Similarity(t,w):
其中,numbersof(wi,wj)和numbersof(ti,tj)分别表示依存弧(wi,wj)和(ti,tj)的个数。
优选地,以所述依存结构模型给予每个翻译文本串的得分作为权重,对所述K个第一语义相似度值进行加权求和,取得所述第一文本串和第二文本串之间的第二语义相似度值。
例如,通过如下等式计算第二语义相似度值,
其中,DEP(t)为根据所述依存结构模型对翻译文本串t的评分,可以通过上述依存结构概率计算得到,K是翻译文本串的个数。
图3是示出本发明示例性实施例的搜索处理方法的流程示意图。
参照图3,在步骤S210,接收搜索词,即用户在搜索引擎总输入的搜索关键词。
在步骤S220,根据所述搜索词获取多个搜索结果条目,例如,通过步骤S210,接收到用户的搜索关键词是“婴儿发烧”,获取到的搜索结果条目可能为“婴儿感冒发烧”、“宝宝发烧”、“新生儿发高烧”、“小孩发烧”或“婴儿发热”等搜索结果条目。
在步骤S230,根据前述计算文本相似度的方法来计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值。
在步骤S240,根据在所述步骤S230计算的所述语义相似度值对所述多个搜索结果条目进行排序。
在此,仍以上述“婴儿发烧”为例,如果通过步骤S230计算其语义相似度值(例如用Similarity表示)分别为Similarity(婴儿感冒发烧,婴儿发烧)=0.87,Similarity(宝宝发烧,婴儿发烧)=0.71,Similarity(新生儿发高烧,婴儿发烧)=0.83,Similarity(小孩发烧,婴儿发烧)=0.65,Similarity(婴儿发热,婴儿发烧)=0.79,对相似度值进行从大至小排序为:Similarity(婴儿感冒发烧,婴儿发烧)、Similarity(新生儿发高烧,婴儿发烧)、Similarity(婴儿发热,婴儿发烧)、Similarity(宝宝发烧,婴儿发烧)、Similarity(小孩发烧,婴儿发烧)。
在步骤S250,发送经过排序的搜索结果条目。以上述“婴儿发烧”为例,最终按顺序发送的搜索结果条目则为:婴儿感冒发烧、新生儿发高烧、婴儿发热、宝宝发烧及小孩发烧。
本发明实施例提供的通过计算机实现的计算文本相似度和搜索处理方法,通过短语翻译模型和依存结构模型对第一文本串(如用户输入的搜索关键词或query)进行解码获得多个翻译文本串,分别计算所述多个翻译文本串与第二文本串(如搜索结果条目的内容标题)之间的第一语义相似度值,并且根据计算的多个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值,解决了文本串中长距离的依存关系问题,能够全面、准确地计算文本串之间的相似度。
在搜索技术中,通过将搜索词和搜索获取的搜索结果条目的内容标题进行如上所述的语义相似度计算,可更好地表示搜索语句的语义,并且可综合根据该相似度值以及第一文本串,对返回的搜索结果进行排序,从而得到最优的搜索结果,以供用户查看。如此,解决文本串中长距离的依存关系问题,从而更好地将搜索语句与网页标题进行匹配,向用户提供语义匹配的搜索结果条目,增强用户搜索体验。
图4是示出本发明示例性实施例的计算文本相似度的装置的结构框图。
如图4所示,所述计算文本相似度的装置包括文本串获取单元310、文本串解码单元320以及相似度值计算单元330。
文本串获取单元310用于获取第一文本串和第二文本串。
例如,所述第一文本串可以是用户输入的搜索语句,所述第二文本串可以是预存的带匹配的文档的网页标题。
文本串解码单元320用于根据预先设置的短语翻译模型和依存结构模型对所述第一文本串进行解码,获取K个翻译文本串。
优选地,文本串解码单元320根据所述短语翻译模型、所述依存结构模型、NGRAM语言模型以及语序扭曲模型对所述第一文本串进行解码,获取所述K个翻译文本串,其中,通过柱搜索解码器对所述第一文本串进行解码,获取K个翻译文本串。
优选地,文本串解码单元320通过以下公式对任一候选文本串T计算综合评分Score(T):
Score(T)=λ1LM(T)+λ2TM(Q,T)+λ3D(Q,T)+λ4DEP(T)
其中,LM(T)是根据所述NGRAM语言模型对翻译文本串T的评分,TM(Q,T)是根据所述短语翻译模型由第一文本串Q翻译为翻译文本串T的概率评分,D(Q,T)是根据所述语序扭曲模型计算的由第一文本串Q翻译为翻译文本串T的评分,DEP(T)是根据所述依存结构模型对翻译文本串T的评分,λ1~λ4分别是赋予前述四个模型的评分的权重,通过所述综合评分从候选文本串当中选取所述K个翻译文本串。
相似度值计算单元330用于分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值,并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值。
优选地,相似度值计算单元330获取对所述第二文本串进行依存关系分析取得的至少一个第二依存弧,并且对任一所述翻译文本串,执行以下处理:对所述翻译文本串进行依存关系分析,取得至少一个第一依存弧,基于所述至少一个第一依存弧和至少一个第二依存弧计算所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值。
优选地,相似度值计算单元330计算所述至少一个第一依存弧和至少一个第二依存弧的余弦相似度作为所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值。
优选地,相似度值计算单元330以所述依存结构模型给予每个翻译文本串的得分作为权重,对所述K个第一语义相似度值进行加权求和,取得所述第一文本串和第二文本串之间的第二语义相似度值。
图5是示出本发明示例性实施例的搜索处理装置的结构框图。
参照图5,所述搜索处理装置包括:搜索词接收单元410、搜索结果获取单元420、语义相似值计算单元430、排序单元440以及发送单元450。
搜索词接收单元410用于接收搜索词,即用户在搜索引擎总输入的搜索关键词。
搜索结果获取单元420用于根据所述搜索词接收单元410接收的搜索词获取多个搜索结果条目。
语义相似值计算单元430用于通过前述的计算文本相似度的装置计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值。
排序单元440用于根据计算的所述语义相似度值对所述多个搜索结果条目进行排序。
发送单元450用于发送经过排序的搜索结果条目。
本发明实施例提供的通过计算机实现的计算文本相似度和搜索处理装置,通过短语翻译模型和依存结构模型对第一文本串(如用户输入的搜索关键词或query)进行解码获得多个翻译文本串,分别计算所述多个翻译文本串与第二文本串(如搜索结果条目的内容标题)之间的第一语义相似度值,并且根据计算的多个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值,解决了文本串中长距离的依存关系问题,能够全面、准确地计算文本串之间的相似度。
在搜索技术中,通过将搜索词和搜索获取的搜索结果条目的内容标题进行如上所述的语义相似度计算,可更好地表示搜索语句的语义,并且可综合根据该相似度值以及第一文本串,对返回的搜索结果进行排序,从而得到最优的搜索结果,以供用户查看。如此,解决文本串中长距离的依存关系问题,从而更好地将搜索语句与网页标题进行匹配,向用户提供语义匹配的搜索结果条目,增强用户搜索体验。
需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种通过计算机实现的计算文本相似度的方法,其特征在于,所述方法包括:
获取第一文本串和第二文本串;
根据预先设置的短语翻译模型和依存结构模型,对所述第一文本串进行解码,获取K个翻译文本串;
分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值,并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值,所述根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值的处理包括:以所述依存结构模型给予每个翻译文本串的得分作为权重,对所述K个第一语义相似度值进行加权求和,取得所述第一文本串和第二文本串之间的第二语义相似度值。
2.根据权利要求1所述的方法,其特征在于,所述分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值的处理包括:
获取对所述第二文本串进行依存关系分析取得的至少一个第二依存弧,并且对任一所述翻译文本串,执行以下处理:
对所述翻译文本串进行依存关系分析,取得至少一个第一依存弧,
基于所述至少一个第一依存弧和至少一个第二依存弧计算所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少一个第一依存弧和至少一个第二依存弧计算所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值的处理包括:
计算所述至少一个第一依存弧和至少一个第二依存弧的余弦相似度作为所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值。
4.根据权利要求1所述的方法,其特征在于,所述根据预先设置的短语翻译模型和依存结构模型对所述第一文本串进行解码,获取K个翻译文本串的处理包括:
根据所述短语翻译模型、所述依存结构模型、NGRAM语言模型以及语序扭曲模型对所述第一文本串进行解码,获取所述K个翻译文本串。
5.根据权利要求4所述的方法,其特征在于,在所述根据所述短语翻译模型、所述依存结构模型、NGRAM语言模型以及语序扭曲模型对所述第一文本串Q进行解码,获取所述K个翻译文本串T的处理中,
通过以下公式对任一候选文本串T计算综合评分Score(T):
Score(T)=λ1LM(T)+λ2TM(Q,T)+λ3D(Q,T)+λ4DEP(T)
其中,LM(T)是根据所述NGRAM语言模型对翻译文本串T的评分,TM(Q,T)是根据所述短语翻译模型由第一文本串Q翻译为翻译文本串T的概率评分,D(Q,T)是根据所述语序扭曲模型计算的由第一文本串Q翻译为翻译文本串T的评分,DEP(T)是根据所述依存结构模型对翻译文本串T的评分,λ1~λ4分别是赋予前述四个模型的评分的权重,
通过所述综合评分从候选文本串当中选取所述K个翻译文本串。
6.根据权利要求5所述的方法,其特征在于,通过柱搜索解码器对所述第一文本串进行解码,获取K个翻译文本串。
7.一种搜索处理方法,其特征在于,包括:
接收搜索词;
根据所述搜索词获取多个搜索结果条目;
根据如权利要求1~6中任一项所述的方法计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值;
根据计算的所述语义相似度值对所述多个搜索结果条目进行排序;
发送经过排序的搜索结果条目。
8.一种计算文本相似度的装置,其特征在于,所述装置包括:
文本串获取单元,用于获取第一文本串和第二文本串;
文本串解码单元,用于根据预先设置的短语翻译模型和依存结构模型,对所述第一文本串进行解码,获取K个翻译文本串;
相似度值计算单元,用于分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值,并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值,所述相似度值计算单元以所述依存结构模型给予每个翻译文本串的得分作为权重,对所述K个第一语义相似度值进行加权求和,取得所述第一文本串和第二文本串之间的第二语义相似度值。
9.根据权利要求8所述的装置,其特征在于,所述相似度值计算单元获取对所述第二文本串进行依存关系分析取得的至少一个第二依存弧,
对任一所述翻译文本串,执行以下处理:
对所述翻译文本串进行依存关系分析,取得至少一个第一依存弧,
基于所述至少一个第一依存弧和至少一个第二依存弧计算所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值。
10.根据权利要求9所述的装置,其特征在于,所述相似度值计算单元计算所述至少一个第一依存弧和至少一个第二依存弧的余弦相似度作为所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值。
11.根据权利要求8所述的装置,其特征在于,所述文本串解码单元根据所述短语翻译模型、所述依存结构模型、NGRAM语言模型以及语序扭曲模型对所述第一文本串进行解码,获取所述K个翻译文本串。
12.根据权利要求11所述的装置,其特征在于,所述文本串解码单元通过以下公式对任一候选文本串T计算综合评分Score(T):
Score(T)=λ1LM(T)+λ2TM(Q,T)+λ3D(Q,T)+λ4DEP(T)
其中,LM(T)是根据所述NGRAM语言模型对翻译文本串T的评分,TM(Q,T)是根据所述短语翻译模型由第一文本串Q翻译为翻译文本串T的概率评分,D(Q,T)是根据所述语序扭曲模型计算的由第一文本串Q翻译为翻译文本串T的评分,DEP(T)是根据所述依存结构模型对翻译文本串T的评分,λ1~λ4分别是赋予前述四个模型的评分的权重,
通过所述综合评分从候选文本串当中选取所述K个翻译文本串。
13.根据权利要求12所述的装置,其特征在于,通过柱搜索解码器对所述第一文本串进行解码,获取K个翻译文本串。
14.一种搜索处理装置,其特征在于,包括:
搜索词接收单元,用于接收搜索词;
搜索结果获取单元,用于根据所述搜索词获取多个搜索结果条目;
语义相似值计算单元,用于根据如权利要求8~13中任一项所述的装置计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值;
排序单元,用于根据计算的所述语义相似度值对所述多个搜索结果条目进行排序;
发送单元,用于发送经过排序的搜索结果条目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410728432.4A CN104462060B (zh) | 2014-12-03 | 2014-12-03 | 通过计算机实现的计算文本相似度和搜索处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410728432.4A CN104462060B (zh) | 2014-12-03 | 2014-12-03 | 通过计算机实现的计算文本相似度和搜索处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462060A CN104462060A (zh) | 2015-03-25 |
CN104462060B true CN104462060B (zh) | 2017-08-01 |
Family
ID=52908130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410728432.4A Active CN104462060B (zh) | 2014-12-03 | 2014-12-03 | 通过计算机实现的计算文本相似度和搜索处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462060B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021346B (zh) * | 2016-05-09 | 2020-01-07 | 北京百度网讯科技有限公司 | 检索处理方法及装置 |
CN106227771B (zh) * | 2016-07-15 | 2019-05-07 | 浙江大学 | 一种基于社会化编程网站的领域专家发现方法 |
CN107784037B (zh) * | 2016-08-31 | 2022-02-01 | 北京搜狗科技发展有限公司 | 信息处理方法和装置、用于信息处理的装置 |
CN106503175B (zh) * | 2016-11-01 | 2019-03-29 | 上海智臻智能网络科技股份有限公司 | 相似文本的查询、问题扩展方法、装置及机器人 |
CN106776782B (zh) * | 2016-11-21 | 2020-05-22 | 北京百度网讯科技有限公司 | 基于人工智能的语义相似度获取方法及装置 |
US10699302B2 (en) | 2017-03-29 | 2020-06-30 | Ebay | Generating keywords by associative context with input words |
CN107729300B (zh) * | 2017-09-18 | 2021-12-24 | 百度在线网络技术(北京)有限公司 | 文本相似度的处理方法、装置、设备和计算机存储介质 |
CN107885737B (zh) * | 2017-12-27 | 2021-04-27 | 传神语联网网络科技股份有限公司 | 一种人机互动翻译方法及系统 |
CN111708942B (zh) * | 2020-06-12 | 2023-08-08 | 北京达佳互联信息技术有限公司 | 多媒体资源推送方法、装置、服务器及存储介质 |
CN111881669B (zh) * | 2020-06-24 | 2023-06-09 | 百度在线网络技术(北京)有限公司 | 同义文本获取方法、装置、电子设备及存储介质 |
CN112182348B (zh) * | 2020-11-09 | 2024-03-29 | 百度国际科技(深圳)有限公司 | 语义匹配判定方法、装置、电子设备、计算机可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101169780A (zh) * | 2006-10-25 | 2008-04-30 | 华为技术有限公司 | 一种基于语义本体的检索系统和方法 |
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答系统 |
CN102184169A (zh) * | 2011-04-20 | 2011-09-14 | 北京百度网讯科技有限公司 | 用于确定字符串信息间相似度信息的方法、装置和设备 |
CN102567306A (zh) * | 2011-11-07 | 2012-07-11 | 苏州大学 | 一种不同语言间词汇相似度的获取方法及系统 |
CN102637163A (zh) * | 2011-01-09 | 2012-08-15 | 华东师范大学 | 一种基于语义的多层次本体匹配的控制方法及系统 |
CN102737013A (zh) * | 2011-04-02 | 2012-10-17 | 三星电子(中国)研发中心 | 基于依存关系来识别语句情感的设备和方法 |
EP2541435A1 (en) * | 2010-02-26 | 2013-01-02 | National Institute of Information and Communication Technology | Relational information expansion device, relational information expansion method and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282786A (ja) * | 2000-03-27 | 2001-10-12 | Internatl Business Mach Corp <Ibm> | 機械翻訳システム、機械翻訳方法及び機械翻訳方法を実行するためのプログラムを記憶した記憶媒体 |
-
2014
- 2014-12-03 CN CN201410728432.4A patent/CN104462060B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101169780A (zh) * | 2006-10-25 | 2008-04-30 | 华为技术有限公司 | 一种基于语义本体的检索系统和方法 |
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答系统 |
EP2541435A1 (en) * | 2010-02-26 | 2013-01-02 | National Institute of Information and Communication Technology | Relational information expansion device, relational information expansion method and program |
CN102637163A (zh) * | 2011-01-09 | 2012-08-15 | 华东师范大学 | 一种基于语义的多层次本体匹配的控制方法及系统 |
CN102737013A (zh) * | 2011-04-02 | 2012-10-17 | 三星电子(中国)研发中心 | 基于依存关系来识别语句情感的设备和方法 |
CN102184169A (zh) * | 2011-04-20 | 2011-09-14 | 北京百度网讯科技有限公司 | 用于确定字符串信息间相似度信息的方法、装置和设备 |
CN102567306A (zh) * | 2011-11-07 | 2012-07-11 | 苏州大学 | 一种不同语言间词汇相似度的获取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104462060A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462060B (zh) | 通过计算机实现的计算文本相似度和搜索处理方法及装置 | |
Thakur et al. | Beir: A heterogenous benchmark for zero-shot evaluation of information retrieval models | |
Li et al. | Leveraging linguistic structures for named entity recognition with bidirectional recursive neural networks | |
Do et al. | Developing a BERT based triple classification model using knowledge graph embedding for question answering system | |
US12008333B2 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
US20240281618A1 (en) | Computer implemented method for the automated analysis or use of data | |
US11989527B2 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
US12073180B2 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
Zhang et al. | Generic intent representation in web search | |
US8346756B2 (en) | Calculating valence of expressions within documents for searching a document index | |
US11989507B2 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
WO2023161630A1 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
JP2020522044A5 (zh) | ||
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
US12067362B2 (en) | Computer implemented methods for the automated analysis or use of data, including use of a large language model | |
Tomar et al. | Towards Twitter hashtag recommendation using distributed word representations and a deep feed forward neural network | |
Jin et al. | Jointly modeling review content and aspect ratings for review rating prediction | |
CN111813923B (zh) | 文本摘要方法、电子设备及存储介质 | |
Ayoobkhan et al. | Web page recommendation system by integrating ontology and stemming algorithm | |
Omeliyanenko et al. | Lm4kg: Improving common sense knowledge graphs with language models | |
Mao et al. | DIGAT: modeling news recommendation with dual-graph interaction | |
Sotudeh et al. | Guir at semeval-2020 task 12: Domain-tuned contextualized models for offensive language detection | |
González et al. | ELiRF-UPV at SemEval-2019 task 3: Snapshot ensemble of hierarchical convolutional neural networks for contextual emotion detection | |
Dadoun et al. | Sentiment Classification Techniques Applied to Swedish Tweets Investigating the Effects of translation on Sentiments from Swedish into English | |
Calizzano et al. | Ordering sentences and paragraphs with pre-trained encoder-decoder transformers and pointer ensembles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180116 Address after: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer 2 Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Address before: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer three Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |