CN110147426A

CN110147426A - 一种查询文本的分类标签确定方法及相关装置

Info

Publication number: CN110147426A
Application number: CN201711250144.2A
Authority: CN
Inventors: 叶祺; 朱昌磊; 刘志敏; 王峰; 李刚
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2019-08-20
Anticipated expiration: 2037-12-01
Also published as: CN110147426B

Abstract

本申请提供了一种查询文本的分类标签确定方法及相关装置，所述方法包括：获取用户输入的当前查询文本；获取所述当前查询文本的文本特征和相邻文本的信息；将所述当前查询文本的文本特征和相邻文本的信息输入训练好的模型中，利用所述模型获得所述当前查询文本对应的分类标签；其中，所述模型的训练数据包括多个历史查询文本的文本特征和相邻文本的信息，所述训练数据对应的标记数据为所述多个历史查询文本对应的分类标签；相邻文本为相邻搜索过程对应的查询文本，对相同的搜索结果执行选中操作的多个搜索过程互为相邻搜索过程。可见本发明实施例中，用于模型训练的训练数据中除了历史查询文本的文本特征，还包括历史查询文本的相邻文本的信息，因此建立好的模型无需大量的训练样本既可以保证较高的准确度。

Description

一种查询文本的分类标签确定方法及相关装置

技术领域

本申请涉及互联网领域，尤其是涉及一种查询文本的分类标签确定方法及相关装置。

背景技术

在常见的搜索过程中，用户通过在搜索引擎中输入查询文本，搜索出查询文本对应的搜索结果。其中，为了能够提高搜索结果的准确性，搜索引擎往往需要对查询文本对应的分类标签进行确定。

目前，在对查询文本的分类标签进行确定时，首先需要获取多个历史查询文本作为训练样本，根据训练样本的文本特征进行模型训练，利用训练好的模型确定当前查询文本的分类标签。

显然，这种确定方式为了得到准确性较高的模型，需要利用大量的训练样本进行模型训练，当训练样本的数量较少时，准确度也会比较低。

发明内容

本申请解决的技术问题在于提供一种查询文本的分类标签确定方法及相关装置，能够对在搜索过程中输入的查询文本的分类标签进行确定，并且无需大量的训练样本既可以保证较高的准确度。

为此，本申请解决技术问题的技术方案是：

本发明实施例提供了一种查询文本的分类标签确定方法，包括：

获取用户输入的当前查询文本；

获取所述当前查询文本的文本特征和相邻文本的信息；

将所述当前查询文本的文本特征和相邻文本的信息输入训练好的模型中，利用所述模型获得所述当前查询文本对应的分类标签；

其中，所述模型的训练数据包括多个历史查询文本的文本特征和相邻文本的信息，所述训练数据对应的标记数据为所述多个历史查询文本对应的分类标签；相邻文本为相邻搜索过程对应的查询文本，对相同的搜索结果执行选中操作的多个搜索过程互为相邻搜索过程。

可选的，获取所述当前查询文本的相邻文本的信息，包括：

获取同现网络的网络结构，所述网络结构中记录有所述当前查询文本和所述当前查询文本的相邻文本之间的对应关系；

根据所述对应关系，获取所述当前查询文本的相邻文本作为所述当前查询文本的相邻文本的信息。

可选的，获取所述当前查询文本的相邻文本的信息，还包括：

获取所述当前查询文本的相邻文本的权重值；

将所述当前查询文本的相邻文本和所述相邻文本的权重值作为所述当前查询文本的相邻文本的信息；

所述多个历史查询文本的相邻文本的信息包括所述多个历史查询文本的相邻文本和相邻文本的权重值；

其中，相邻文本的权重值与相邻搜索结果的个数相关，所述相邻搜索结果为相邻搜索过程中执行选中操作的相同的搜索结果。

可选的，获取所述当前查询文本的相邻文本的信息，包括：

获取所述当前查询文本的相邻文本的消息摘要算法MD5编码；

将所述相邻文本的MD5编码作为所述当前查询文本的相邻文本的信息。

获取所述当前查询文本的相邻文本的权重值；

将所述当前查询文本的相邻文本的MD5编码和所述相邻文本的权重值作为所述当前查询文本的相邻文本的信息；

所述多个历史查询文本的相邻文本的信息包括所述多个历史查询文本的相邻文本的MD5编码和相邻文本的权重值；

可选的，获取所述当前查询文本的文本特征，包括：

对所述当前查询文本进行分词，获得至少一个分词结果；

获取每个分词结果的文本特征；

根据所述每个分词结果的文本特征，获得所述当前查询文本的文本特征。

可选的，所述模型为线性分类模型。

可选的，还包括：

根据所述当前查询文本对应的分类标签，获取所述当前查询文本对应的搜索结果。

本发明实施例提供了一种查询文本的分类标签确定装置，包括：

第一获取模块，用于获取用户输入的当前查询文本；

第二获取模块，用于获取所述当前查询文本的文本特征和相邻文本的信息；

输入模块，用于将所述当前查询文本的文本特征和相邻文本的信息输入训练好的模型中，利用所述模型获得所述当前查询文本对应的分类标签；

可选的，所述第二获取模块，包括：

结构获取单元，用于获取同现网络的网络结构，所述网络结构中记录有所述当前查询文本和所述当前查询文本的相邻文本之间的对应关系；

信息获取单元，用于根据所述对应关系，获取所述当前查询文本的相邻文本作为所述当前查询文本的相邻文本的信息。

可选的，所述第二获取模块，还包括：

权重获取单元，用于获取所述当前查询文本的相邻文本的权重值；

信息确定单元，用于将所述当前查询文本的相邻文本和所述相邻文本的权重值作为所述当前查询文本的相邻文本的信息；

可选的，所述第二获取模块包括：

编码获取单元，用于获取所述当前查询文本的相邻文本的MD5编码，将所述相邻文本的MD5编码作为所述当前查询文本的相邻文本的信息。

可选的，所述第二获取模块，还包括：

信息确定单元，用于将所述当前查询文本的相邻文本的MD5编码和所述相邻文本的权重值作为所述当前查询文本的相邻文本的信息；

其中，相邻文本的权重值与相邻搜索结果的个数相关，所述相邻搜索结果为相邻搜索过程中执行选中操作的相同的搜索结果。14、根据权利要求9所述的确定装置，其特征在于，所述第二获取模块包括：

分词单元，用于对所述当前查询文本进行分词，获得至少一个分词结果；

分词特征获取单元，用于获取每个分词结果的文本特征；

文本特征获取单元，用于根据所述每个分词结果的文本特征，获得所述当前查询文本的文本特征。

可选的，所述模型为线性分类模型。

可选的，还包括：

搜索模块，用于根据所述当前查询文本对应的分类标签，获取所述当前查询文本对应的搜索结果。

本发明实施例提供了一种用于确定查询文本的分类标签的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取用户输入的当前查询文本；

获取所述当前查询文本的文本特征和相邻文本的信息；

本发明实施例提供了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如上述任一个或多个所述的确定方法。

通过上述技术方案可知，本发明实施例中利用多个历史查询文本的文本特征和相邻文本的信息作为训练数据进行模型训练，因此将当前查询文本的文本特征和相邻文本的信息输入训练好的模型中，能够利用所述模型获得当前查询文本对应的分类标签。其中，查询文本对应的搜索过程与相邻文本对应的搜索过程中，都对相同的搜索结果执行了选中操作，例如，查询文本为“变形金刚上映时间”，相邻文本为“热门电影”，用户在查询文本“变形金刚上映时间”对应的搜索过程与相邻文本“热门电影”对应的搜索过程中，都在搜索结果显示页中点击了相同的统一资源定位符(英文：Uniform Resource Locator，缩写：URL)。可见本发明实施例中，用于模型训练的训练数据中除了历史查询文本的文本特征，还包括历史查询文本的相邻文本的信息，因此使得训练好的模型在获得当前查询文本的分类标签时，会同时基于文本特征相似的历史查询文本对应的分类标签，以及相邻文本相似的历史查询文本对应的分类标签，因此建立好的模型无需大量的训练样本既可以保证较高的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种方法实施例的流程示意图；

图2为本申请实施例提供的一种装置实施例的结构示意图；

图3为本申请实施例提供的另一种装置实施例的结构示意图；

图4为本申请实施例提供的另一种装置实施例的结构示意图。

具体实施方式

在常见的搜索过程中，搜索引擎除了搜索查询文本对应的搜索结果之外，往往还会对查询文本对应的分类标签进行确定，例如确定查询文本对应的属性分类标签或者热度分类标签等等，从而能够提高搜索结果的准确性。例如，查询文本为“变形金刚上映时间”，确定出查询文本对应的分类标签为“电影”，获取与该分类标签相关度较高的搜索结果，或者根据该分类标签对搜索结果进行排序显示等等。

目前，在对查询文本的分类标签进行确定时，采用的是模型训练的方式，其中，模型的训练数据为多个历史查询文本的文本特征，训练数据对应的标记数据为多个历史查询文本对应的分类标签。这种确定方式中由于只考虑历史查询文本的文本特征，因此使得训练好的模型在获得当前查询文本的分类标签时，基于的是文本特征相似的历史查询文本对应的分类标签。可见这种确定方式仅从查询文本的字面意思推测用户的查询意图，为了得到准确性较高的模型，对训练样本的数量要求非常高，一旦训练样本的数量不够，就会导致模型的准确性较低，导致确定出的分类标签的准确性也较低。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

请参阅图1，本申请实施例提供了查询文本的分类标签确定方法的一种方法实施例。本实施例的所述方法包括：

S101：获取用户输入的当前查询文本。

其中，当前查询文本指的是用户在一次搜索过程中输入的查询文本，例如，用户在搜索引擎的输入框中输入查询文本“变形金刚什么时候上映”，则该查询文本作为当前查询文本。

S102：获取所述当前查询文本的文本特征和相邻文本的信息。

本发明实施例中，相邻文本为相邻搜索过程对应的查询文本，对相同的搜索结果执行选中操作的多个搜索过程互为相邻搜索过程。其中，选中操作包括：点击或者收藏等用户操作。

例如，当前查询文本的相邻文本，指的是当前查询文本的相邻搜索过程对应的查询文本，其中，当前查询文本对应的搜索过程和当前查询文本的相邻搜索过程中都对相同的搜索结果执行了选中操作。下面通过一个具体例子加以说明。当前查询文本为“变形金刚上映时间”，当前查询文本的相邻文本为“热门电影”，用户在当前查询文本“变形金刚上映时间”对应的搜索过程与相邻文本“热门电影”对应的搜索过程中，都在搜索结果显示页中点击了相同的URL。

其中，相邻文本的信息具体可以包括相邻文本，也就是相邻文本的文本内容，或者也可以包括相邻文本的标识，例如相邻文本的消息摘要算法5(英文：Message DigestAlgorithm，缩写：MD5)编码。例如，当前查询文本的相邻文本的信息包括3个相邻文本的MD5编码的组合(012，323，423)。

在本发明实施例中，可以对当前查询文本进行分词，根据分词结果的文本特征确定当前查询文本的文本特征。具体地，对所述当前查询文本进行分词，获得至少一个分词结果；获取每个分词结果的文本特征；根据所述每个分词结果的文本特征，获得所述当前查询文本的文本特征。其中，文本特征可以包括n元语法(n-gram)特征或者词向量特征等等。例如，当前查询文本“变形金刚上映时间”的分词结果包括：“变形金刚”、“上映”、“时间”、“变形金刚上映”和“上映时间”，将上述分词结果的n-gram特征的组合(NG1，NG 2，NG 3，NG 4，NG 5)作为当前查询文本的文本特征。

S103：将所述当前查询文本的文本特征和相邻文本的信息输入训练好的模型中，利用所述模型获得所述当前查询文本对应的分类标签。

在本发明实施例中，所述模型的训练过程包括：获取所述模型的训练数据和所述训练数据对应的标记数据；利用所述训练数据和所述标记数据对所述模型进行训练，获得训练好的模型。其中，所述模型的训练数据包括多个历史查询文本的文本特征和相邻文本的信息，所述训练数据对应的标记数据为所述多个历史查询文本对应的分类标签。下面分别对历史查询文本的相邻文本的信息和文本特征进行说明。

历史查询文本的相邻文本，指的是历史查询文本的相邻搜索过程对应的查询文本，历史查询文本对应的搜索过程和历史查询文本的相邻搜索过程中都对相同的搜索结果执行了选中操作。其中，相邻文本的信息具体可以包括：相邻文本或者相邻文本的标识，例如，在进行模型训练时具体获取的可以是历史查询文本的相邻文本的MD5编码。

本发明实施例中可以对历史查询文本进行分词，根据分词结果的文本特征确定历史查询文本的文本特征。具体地，对所述历史查询文本进行分词，获得至少一个分词结果，获取每个分词结果的文本特征；根据所述每个分词结果的文本特征，获得所述历史查询文本的文本特征。

利用所述训练数据和所述标记数据获得训练好的模型后，将当前查询文本的文本特征和相邻文本的信息输入训练好的模型中，能够利用所述模型获得当前查询文本对应的分类标签。例如，当前查询文本的文本特征为(NG1，NG 2，NG 3，NG 4，NG 5)，当前查询文本的相邻文本的信息包括3个相邻文本的MD5编码的组合(012，323，423)，因此将该文本特征和相邻文本的信息的组合(NG1，NG 2，NG 3，NG 4，NG 5，012，323，423)输入训练好的模型中，能够获得当前查询文本对应的分类标签。在获取分类标签之后，可以根据所述当前查询文本对应的分类标签，获取所述当前查询文本对应的搜索结果。

通过上述技术方案可知，本发明实施例中，用于模型训练的训练数据中除了历史查询文本的文本特征，还包括历史查询文本的相邻文本的信息，因此使得训练好的模型在获得当前查询文本的分类标签时，会同时基于文本特征相似的历史查询文本对应的分类标签，以及相邻文本相似的历史查询文本对应的分类标签，相比仅基于文本特征进行确定的现有技术，在训练样本相同的情况下能够训练出准确度更高的模型，因此，本发明实施例建立的模型无需大量的训练样本既可以保证较高的准确度。此外，本发明实施例在确定当前查询文本的分类标签时，并没有忽略当前查询文本的文本特征，因此能够保证较高的可用性。

举例说明，假设当前查询文本为“变形金刚上映时间”，当前查询文本“变形金刚上映时间”和历史查询文本“变形金刚上映”具有相似的文本特征，当前查询文本“变形金刚上映时间”和历史查询文本“上映影院”具有相似的相邻文本，训练好的模型在确定当前查询文本“变形金刚上映时间”的分类标签时，会同时基于历史查询文本“变形金刚上映”对应的分类标签以及历史查询文本“上映影院”的分类标签。可见本发明实施例不仅仅从查询文本的字面意思推测用户的查询意图，而是结合查询文本的文本特征以及用户的点击等选中操作，能够更加准确地推测用户的查询意图。并且，本发明实施例在对高频的查询文本(用户搜索次数较多的查询文本)，以及“长尾”查询文本(没有相邻文本或者相邻文本的个数很少的查询文本)的分类标签进行确定时，具有较高的准确性。

本发明实施例中，无需复杂的操作即可提取查询文本的文本特征和相邻文本的信息，并且使用线性分类模型即可训练出准确度较高的模型，例如可以使用支持向量机(SVM)模型，或者朴素贝叶斯分类(NaiveBayes classification)模型等等。因此本发明实施例具有计算量较小等特点，具有较高的实用性，适合应用于线上的大规模数据处理。

本发明实施例中为了能够结合当前查询文本的整体含义确定分类标签，在获取当前查询文本的相邻文本的信息时，可以不对当前查询文本进行分词处理，而是利用当前查询文本的有效字符进行获取。其中，有效字符可以包括当前查询文本中除标点符号以外的全部字符。此外，本发明实施例中还可以在查询文本中出现具有歧义的名词时，有效地避免对分类标签确定时出错。例如，当前查询文本“变形金刚上映时间”中的“变形金刚”既为一部电影的名称也为一部漫画的名称，如果仅仅基于文本特征确定当前查询文本“变形金刚上映时间”的分类标签，则很有可能会错误地将分类标签确定为“漫画”，而本发明实施例中在确定分类标签时，还会基于历史查询文本“上映影院”的分类标签，其中当前查询文本“变形金刚上映时间”和历史查询文本“变形金刚上映”具有相似的文本特征，因此本发明实施例中能够正确地确定出当前查询文本“变形金刚上映时间”的分类标签为“电影”。

需要说明的是，在确定相邻文本时可以设置预设阈值，用于过滤用户误操作的情况。具体地，相邻搜索过程中对相同的搜索结果执行的选中操作的次数需要大于或等于预设阈值。例如，预设阈值为5，用户在当前查询文本“变形金刚上映时间”对应的搜索过程与查询文本“热门电影”对应的搜索过程中，虽然都在搜索结果显示页中点击了相同的URL，但是如果查询文本“热门电影”对应的搜索过程中，上述相同的URL的点击次数小于5，则查询文本“热门电影”并不作为当前查询文本“变形金刚上映时间”的相邻文本。

本发明实施例可以通过查询同现网络的结构，确定出相邻文本的信息，下面具体说明。

首先根据用户对搜索结果执行的点击等选中操作构建同现网络，其中，同现网络中的网络节点对应查询文本，网络节点之间具有连接关系表示对相同的搜索结果执行选中操作。例如，查询文本“变形金刚什么时候上映”具有搜索结果1和搜索结果2，根据点击日志可以确定出用户对搜索结果1执行了点击操作，查询文本“热门电影”具有搜索结果1和搜索结果3，根据点击日志可以确定出用户对搜索结果1执行了点击操作，因此，查询文本“变形金刚什么时候上映”对应的节点，与查询文本“热门电影”对应的节点具有连接关系。

在构建同现网络之后，可以根据网络节点之间的连接关系确定相邻文本的信息。具体地，获取所述当前查询文本的相邻文本的信息，包括：获取同现网络的网络结构，所述网络结构中记录有所述当前查询文本和所述当前查询文本的相邻文本之间的对应关系，例如根据当前查询文本对应的网络节点与其他网络节点之间的连接关系，确定出所述当前查询文本和相邻文本之间的对应关系；根据所述对应关系，获取所述当前查询文本的相邻文本作为所述当前查询文本的相邻文本的信息。

补充说明的是，本发明实施例中也可以根据同现网络的网络节点之间的关系，确定相邻文本的MD5作为相邻文本的信息。具体地，获取所述当前查询文本的相邻文本的信息，包括：获取同现网络的网络结构，所述网络结构中记录有所述当前查询文本和所述当前查询文本的相邻文本的MD5编码之间的对应关系，例如，网络节点的节点ID可以为查询文本的MD5编码；根据所述对应关系，获取所述当前查询文本的相邻文本的MD5编码作为所述当前查询文本的相邻文本的信息。

其中，同现网络可以是加权网络，权重值可以反映节点之间的关联程度。本发明实施例中可以将相邻文本和相邻文本的权重值作为相邻文本的信息，具体地，所述方法还可以包括：获取所述当前查询文本的相邻文本的权重值；将所述当前查询文本的相邻文本和所述相邻文本的权重值作为所述当前查询文本的相邻文本的信息；所述多个历史查询文本的相邻文本的信息包括所述多个历史查询文本的相邻文本和相邻文本的权重值。

或者，本发明实施例中也可以将相邻文本的MD5编码和相邻文本的权重值作为相邻文本的信息，具体地，所述方法还可以包括：获取所述当前查询文本的相邻文本的权重值；将所述当前查询文本的相邻文本的MD5编码和所述相邻文本的权重值作为所述当前查询文本的相邻文本的信息；所述多个历史查询文本的相邻文本的信息包括所述多个历史查询文本的相邻文本的MD5编码和相邻文本的权重值。

需要说明的是，本发明实施例中可以利用log函数等对权重值进行平滑处理之后，再输入至模型中。

其中，相邻文本的权重值与相邻搜索结果的个数相关，所述相邻搜索结果为相邻搜索过程中执行选中操作的相同的搜索结果。下面举例说明。查询文本“变形金刚什么时候上映”具有搜索结果1、搜索结果2和搜索结果3，根据点击日志可以确定出用户对搜索结果1和搜索结果3执行了点击操作，查询文本“热门电影”具有搜索结果1、搜索结果2和搜索结果4，根据点击日志可以确定出用户对搜索结果1和搜索结果4执行了点击操作，因此，查询文本“热门电影”为查询文本“变形金刚什么时候上映”的相邻文本，由于用户在相邻搜索过程中对搜索结果1执行了点击操作，因此，相邻搜索结果的个数为1，相邻文本“热门电影”的权重值也为1。

本发明实施例中还可以对同现网络的结构进行定期更新，例如根据点击日志进行每日更新，从而得到更新后的训练数据并进行模型训练，保证模型的时效性。当有新的查询文本对应的分类标签确定时，也可以更新训练数据和标记数据，例如将新的查询文本的文本特征和相邻文本的信息加入训练数据，将新的查询文本对应的分类标签加入标记数据中。

对应上述方法实施例，本申请还提供了相应的装置实施例，下面具体说明。

请参阅图2，本申请提供了查询文本的分类标签确定装置的一种装置实施例，包括：第一获取模块201、第二获取模块202以及输入模块203。

第一获取模块201，用于获取用户输入的当前查询文本。

第二获取模块202，用于获取所述当前查询文本的文本特征和相邻文本的信息。

输入模块203，用于将所述当前查询文本的文本特征和相邻文本的信息输入训练好的模型中，利用所述模型获得所述当前查询文本对应的分类标签。

可选的，所述第二获取模块，包括：

可选的，所述第二获取模块，还包括：

可选的，所述第二获取模块包括：

可选的，所述第二获取模块，还包括：

分词特征获取单元，用于获取每个分词结果的文本特征；

可选的，所述模型为线性分类模型。

可选的，还包括：搜索模块，用于根据所述当前查询文本对应的分类标签，获取所述当前查询文本对应的搜索结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种用于确定查询文本的分类标签的装置300的框图。例如，装置300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置300可以包括以下一个或多个组件：处理组件302，存储器304，电源组件306，多媒体组件308，音频组件310，输入/输出(I/O)的接口312，传感器组件314，以及通信组件316。

处理组件302通常控制装置300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理部件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件306为装置300的各种组件提供电力。电源组件306可以包括电源管理系统，一个或多个电源，及其他与为装置300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当设备300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当装置300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口312为处理组件302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为装置300提供各个方面的状态评估。例如，传感器组件314可以检测到设备300的打开/关闭状态，组件的相对定位，例如所述组件为装置300的显示器和小键盘，传感器组件314还可以检测装置300或装置300一个组件的位置改变，用户与装置300接触的存在或不存在，装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置300可以被一个或多个应用专用集成电路

(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器304，上述指令可由装置300的处理器320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种查询文本的分类标签确定方法，所述方法包括：

获取用户输入的当前查询文本；

获取所述当前查询文本的文本特征和相邻文本的信息；

可选的，获取所述当前查询文本的相邻文本的信息，包括：

获取所述当前查询文本的相邻文本的权重值；

可选的，获取所述当前查询文本的相邻文本的信息，包括：

获取所述当前查询文本的相邻文本的消息摘要算法MD5编码；

获取所述当前查询文本的相邻文本的权重值；

可选的，获取所述当前查询文本的文本特征，包括：

对所述当前查询文本进行分词，获得至少一个分词结果；

获取每个分词结果的文本特征；

可选的，所述模型为线性分类模型。

可选的，还包括：

图4是本发明实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，一个或一个以上键盘456，和/或，一个或一个以上操作系统441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种查询文本的分类标签确定方法，其特征在于，包括：

获取用户输入的当前查询文本；

获取所述当前查询文本的文本特征和相邻文本的信息；

2.根据权利要求1所述的确定方法，其特征在于，获取所述当前查询文本的相邻文本的信息，包括：

3.根据权利要求2所述的确定方法，其特征在于，获取所述当前查询文本的相邻文本的信息，还包括：

获取所述当前查询文本的相邻文本的权重值；

4.根据权利要求1所述的确定方法，其特征在于，获取所述当前查询文本的相邻文本的信息，包括：

获取所述当前查询文本的相邻文本的消息摘要算法MD5编码；

5.根据权利要求4所述的确定方法，其特征在于，获取所述当前查询文本的相邻文本的信息，还包括：

获取所述当前查询文本的相邻文本的权重值；

6.根据权利要求1所述的确定方法，其特征在于，获取所述当前查询文本的文本特征，包括：

对所述当前查询文本进行分词，获得至少一个分词结果；

获取每个分词结果的文本特征；

7.根据权利要求1所述的确定方法，其特征在于，还包括：

8.一种查询文本的分类标签确定装置，其特征在于，包括：

第一获取模块，用于获取用户输入的当前查询文本；

9.一种用于确定查询文本的分类标签的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取用户输入的当前查询文本；

获取所述当前查询文本的文本特征和相邻文本的信息；

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的确定方法。