CN105868193A

CN105868193A - 用于检测电子文本中的产品相关信息的装置和方法

Info

Publication number: CN105868193A
Application number: CN201510025848.4A
Authority: CN
Inventors: 宋双永; 孟遥; 郑仲光
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-01-19
Filing date: 2015-01-19
Publication date: 2016-08-17

Abstract

本公开涉及用于检测电子文本中的产品相关信息的装置和方法。根据本公开的装置包括：获取单元，其获取产品的列表，所述列表中的每一个条目记录产品的品牌信息；第一标注单元，其基于用户的输入为列表中的每一个条目标注歧义标记或非歧义标记以获取标记列表；第二标注单元，其利用标记列表在电子文本中针对产品进行自动标注，以获取自动标注的第一产品相关信息；训练单元，其基于第一产品相关信息对产品信息识别模型进行训练，从而生成训练模型；识别单元，其利用训练模型在电子文本中针对产品相关信息进行识别，以获取识别的第二产品相关信息；以及合并单元，其将第一产品相关信息和第二产品相关信息进行合并，以获取最终的产品相关信息。

Description

用于检测电子文本中的产品相关信息的装置和方法

技术领域

本发明涉及互联网和数据挖掘领域，具体地涉及用于检测电子文本中的产品相关信息的装置和方法。

背景技术

这个部分提供了与本公开有关的背景信息，这不一定是现有技术。

随着微博的快速流行，越来越多的人选择从微博平台发表个人状态和评论。通过对微博信息进行分析，能够方便迅速地了解用户对热点事件、日常产品以及影视明星等方面内容的看法和情绪。在微博中，汽车是用户讨论很多的内容之一，据统计，有超过0.5％的微博内容都与具体的汽车品牌和车型有关，亦即，每不到200条微博中，就有一条是关于汽车的，可见微博已经成为汽车品牌营销、汽车用户意见反馈的重要平台。

微博中汽车相关信息的准确检测，能够在用户购买意图分析、用户口碑评价等应用中起到重要作用。在以前的汽车相关信息检测工作中，主要是通过直接匹配汽车品牌名称列表的方式。例如，所有包含“丰田”二字的微博即被确定为谈论丰田汽车的内容。然而，该方法得到的匹配结果包含很多问题：首先，很多汽车品牌或者车型由一些歧义词语表示，例如“长安”不仅指车的品牌，也指西安这个城市，而“高尔夫”不仅是大众汽车的一个车型，也能指高尔夫球这项运动。所以利用直接匹配的方法进行识别会给识别结果带来很多错误。其次，直接匹配的方法无法发现新的汽车提及方式，包括新的车型或者新的汽车昵称。这是因为汽车品牌名称列表有可能内容不全面，并且不可能常常更新。例如在我们从某知名汽车网站上面下载的汽车列表中，就没有包含“保时捷GT9CS”车型。而在实际识别的过程中，是需要将该车型的提及信息进行识别的。另外，由于微博信息格式的随意性，用户表达关于汽车同一个意思的方式也会不同。例如“东风日产全新天籁”和“东风日产新天籁”、“奔驰S级”和“奔驰S系列”、“奇瑞E5”和“奇瑞E5”、“斯巴鲁9代WRX”和“斯巴鲁WRX9代”，这就需要最终的识别方法能够对不同类型的提及方式进行识别，而直接匹配的方法显然不能解决这项难题。

发明内容

这个部分提供了本公开的一般概要，而不是其全部范围或其全部特征的全面披露。

本公开的目的在于提供一种用于检测电子文本中的产品相关信息的装置和方法，其能够更加精确地识别电子文本中的产品相关信息。

根据本公开的一方面，提供了一种用于检测电子文本中的产品相关信息的装置，包括：获取单元，其获取产品的列表，所述列表中的每一个条目记录所述产品的品牌信息；第一标注单元，其基于用户的输入为所述列表中的每一个条目标注歧义标记或非歧义标记以获取标记列表，其中，所述歧义标记指示所述条目中的词语序列的意思表示具有歧义，而所述非歧义标记则指示所述条目中的词语序列的意思表示不具有歧义；第二标注单元，其利用所述标记列表在所述电子文本中针对所述产品进行自动标注，以获取自动标注的第一产品相关信息；训练单元，其基于所述第一产品相关信息对产品信息识别模型进行训练，从而生成训练模型；识别单元，其利用所述训练模型在所述电子文本中针对所述产品相关信息进行识别，以获取识别的第二产品相关信息；以及合并单元，其将所述第一产品相关信息和所述第二产品相关信息进行合并，以获取最终的产品相关信息。

根据本公开的另一方面，提供了一种用于检测电子文本中的产品相关信息的方法，包括：获取产品的列表，所述列表中的每一个条目记录所述产品的品牌信息；基于用户的输入为所述列表中的每一个条目标注歧义标记或非歧义标记以获取标记列表，其中，所述歧义标记指示所述条目中的词语序列的意思表示具有歧义，而所述非歧义标记则指示所述条目中的词语序列的意思表示不具有歧义；利用所述标记列表在所述电子文本中针对所述产品进行自动标注，以获取自动标注的第一产品相关信息；基于所述第一产品相关信息对产品信息识别模型进行训练，从而生成训练模型；利用所述训练模型在所述电子文本中针对所述产品相关信息进行识别，以获取识别的第二产品相关信息；以及将所述第一产品相关信息和所述第二产品相关信息进行合并，以获取最终的产品相关信息。

根据本公开的另一方面，提供了一种程序产品，该程序产品包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据本公开的用于检测电子文本中的产品相关信息的方法。

根据本公开的另一方面，提供了一种机器可读存储介质，其上携带有根据本公开的程序产品。

使用根据本公开的用于检测电子文本中的产品相关信息的装置和方法，由于既获取了自动标注的第一产品相关信息，又获取了识别的第二产品相关信息，并且将第一产品相关信息和第二产品相关信息进行合并以获取最终的产品相关信息，所以能够更加精确地识别电子文本中的产品相关信息，从而更好地提高识别效果。

这个概要中的描述和特定例子只是为了示意的目的，而不旨在限制本公开的范围。

附图说明

在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施，并且不旨在限制本公开的范围。在附图中：

图1示例性示出根据本公开的技术方案的整体系统流程图；

图2为根据本公开的实施例的用于检测电子文本中的产品相关信息的装置的框图；

图3示例性示出字符序列标注符号及符号含义列表；

图4示例性示出汽车信息识别结果与符号标注结果之间的相互转化过程；

图5A、图5B和图5C分别示例性示出初始概率分布、状态转移概率分布以及观测概率分布的例子；

图5D示出根据本公开的一个实施例的最优路径求解过程；

图5E示出图5D的最优路径求解结果；

图6为根据本公开的另一实施例的用于检测电子文本中的产品相关信息的装置的框图；

图7为根据本公开的实施例的用于检测电子文本中的产品相关信息的方法的流程图；以及

图8为其中可以实现根据本公开的实施例的用于检测电子文本中的产品相关信息的方法的通用个人计算机的示例性结构的框图。

虽然本公开容易经受各种修改和替换形式，但是其特定实施例已作为例子在附图中示出，并且在此详细描述。然而应当理解的是，在此对特定实施例的描述并不打算将本公开限制到公开的具体形式，而是相反地，本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是，贯穿几个附图，相应的标号指示相应的部件。

实施方式

现在参考附图来更加充分地描述本公开的示例。以下描述实质上只是示例性的，而不旨在限制本公开、应用或用途。

下面提供了示例实施例，以便本公开将会变得详尽，并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定单元、装置和方法的示例，以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是，不需要使用特定的细节，示例实施例可以用许多不同的形式来实施，它们都不应当被解释为限制本公开的范围。在某些示例实施例中，没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。

使用根据本公开的用于检测电子文本中的产品相关信息的装置和方法通过将直接匹配方法得到的识别结果和通过机器学习模型得到的识别结果进行结合，得到了更为准确的最终识别结果。具体地，本公开涉及自动检测电子文本(如微博)中包含的产品(如汽车、计算机或摄影机)提及信息。本公开针对基于直接匹配的方法所包含的缺陷，设计了一种基于规则匹配与基于模型匹配的两阶段方法。该方法首先利用带有“歧义/非歧义”标记的产品品牌列表以及一些简单的匹配规则，对电子文本内容进行自动标注，得到电子文本产品提及信息自动标注结果；其次，利用该自动标注结果，进行如隐马尔科夫模型的训练。在训练过程中，将电子文本视为由汉字、字母和标点符号等组成的字符序列，并根据每个汉字、字母和标点符号在产品提及信息识别的过程中所起到的作用，将其标注为‘产品提及部分的首字’、‘产品提及部分的中间字’和‘产品提及部分的尾字’等类型的字符，利用该数据训练得到隐马尔科夫模型；然后，利用该模型，对原电子文本数据进行基于模型的产品提及信息识别，得到基于模型的产品提及信息识别结果；最后，将自动标注的结果和识别结果进行合并。可选地，在合并之后，可以对合并结果进行相应的后处理，得到最终的识别结果。需要注意的是，虽然本公开中是用隐马尔科夫模型作为产品提及信息识别的训练模型，但是其它诸如条件随机场模型(Conditional RandomFields Model)、最大熵模型(Maximum Entropy Model)等也可以应用于本公开。

根据本公开的用于检测电子文本中的产品相关信息的装置和方法可以针对汽车、电脑和数码相机等电子文本如微博等热议的并且品牌数量有限(几百至几千)的产品类型。本公开中的装置和方法能够仅利用品牌相关词语的歧义/非歧义信息，自动识别相关内容。使用本公开不用建立大量的匹配规则，也不用人工标注的训练数据，而且对新产品名称也有一定的识别性。并且，本公开的产品提及识别方法在构建训练语料库阶段利用歧义/非歧义的产品相关词语判别，增加了数据自动标注的准确性。此外，本公开中训练的统计模型能够利用自动构建的训练语料，分析提及产品的语境信息，起到更好的判别歧义词、识别新产品提及表达方式的效果。而且，自动标注结果与模型识别结果的结合以及结合之后结果的后处理，能够更好地提高识别效果。

图1示出根据本公开的技术方案的整体系统流程图。如图1所示，根据本公开的自动检测电子文本中具有预定品牌数量的产品的产品相关信息的装置总体可以包括三个部分(但这三个部分并不一定都是本公开所必须的)：基于带有“歧义/非歧义”标记的产品(如汽车)的品牌列表的自动标注过程；产品提及信息识别的模型(如隐马尔科夫模型)训练方法及利用该模型的产品提及信息识别过程；以及基于自动标注方法的识别结果与基于模型的识别结果的合并及(图1中虚线框中所示的)合并结果的后处理过程。具体地，首先，基于生语料(即未经过任何处理的电子文本内容)，利用带有“歧义/非歧义”标记的产品品牌列表(如图1中的汽车相关词语歧义/非歧义列表)以及一些简单的匹配规则，对电子文本内容进行自动标注，得到电子文本产品提及信息自动标注结果(即图1中的自动标注语料)。结合图1，汽车相关词语歧义/非歧义列表是指标识出每个汽车品牌、型号是否具有歧义性的词语列表。例如“长安”是具有歧义性的汽车品牌，因为长安也可以指长安城；而“保时捷”则为无歧义的汽车品牌。自动标注语料是指仅利用汽车相关词语歧义/非歧义列表，对生语料进行标注得到的汽车提及信息识别结果。其次，利用该自动标注结果，进行如隐马尔科夫模型的训练，以生成训练模型(即图1中的汽车提及识别模型)。结合图1，隐马尔科夫模型是指一种具有序列标注能力的模型，该模型可以利用自动标注语料进行训练，从而可以自动对生语料进行汽车提及信息识别。然后，利用该模型，可以对原电子文本数据进行基于模型的产品提及信息的模型识别，得到基于模型的产品提及信息模型识别结果。最后，将自动标注的结果和识别结果进行合并以获得合并之后的识别结果。可选地，在合并之后，可以对合并结果进行相应的后处理，得到最终的识别结果(即图1中的后处理结果)。此处，需要指出的是，图1中虚线框中所示的后处理过程并不是本公开必不可少的，其将在下面的实施例中详细描述。

上面简要描述了根据本公开的技术方案的整体系统流程。接下来参考附图来进一步详细地描述本公开的技术方案。

图2示出了根据本公开的实施例的用于检测电子文本(如微博)中的产品(如汽车)相关信息的装置200。如图2所示，根据本公开的实施例的用于检测电子文本中的产品相关信息的装置可以包括获取单元210、标注单元220、标注单元230、训练单元240、识别单元250以及合并单元260。

获取单元210可以获取产品的列表，所述列表中的每一个条目记录产品的品牌信息。根据本公开的一个实施例，获取单元210可以获取针对汽车的品牌、车型等的品牌列表。例如，从汽车网站上面获取与汽车品牌和型号相关的词语列表。

接下来，作为第一标注单元的标注单元220可以基于用户的输入为获取单元210获取的列表中的每一个条目标注歧义标记或非歧义标记以获取标记列表，其中，歧义标记指示条目中的词语序列的意思表示具有歧义，而非歧义标记则指示条目中的词语序列的意思表示不具有歧义。根据本公开的一个实施例，标注单元220可以针对汽车的品牌、车型等的品牌列表中的每一个条目，基于用户的输入来标注歧义标记或非歧义标记，即，基于用户的输入来建立一个带有“歧义/非歧义”标记的汽车品牌车型列表。此处，“歧义”是指某个汽车品牌或者车型名称具有除了表示该汽车之外的其它意思，例如前面提到的“长安”、“高尔夫”等。可选地，标注单元220也可以针对品牌列表中的每一个条目，基于用户的输入将品牌列表分成歧义和非歧义两个列表，并且保留产品品牌信息与产品类型信息之间的对应关系。

然后，作为第二标注单元的标注单元230可以利用标注单元220获取的标记列表在电子文本中针对产品进行自动标注，以获取自动标注的第一产品相关信息作为自动标注结果。根据本公开的一个实施例，标注单元230可以基于带有“歧义/非歧义”标记的汽车品牌车型列表，在电子文本中针对汽车进行自动标注，以获取自动标注的汽车提及信息作为自动标注结果。在此，标注单元230可以基于带有“歧义/非歧义”标记的列表或者歧义和非歧义两个列表，在电子文本中根据本领域技术人员公知的匹配标注过程进行自动标注。

虽然在自动标注过程中，处理得到的自动标注结果仍然会有一些错误，但是下面的统计模型能够利用大量的统计信息，学习到正确性最大的标注方式，进而可以在基于模型的识别过程中，改正自动标注过程中产生的错误结果。

接下来，训练单元240可以基于第一产品相关信息对用于识别产品相关信息的产品信息识别模型进行训练，从而生成训练模型。通过该训练过程，可以实现识别新的产品类型如车型或者新的产品昵称以及新的产品描述方式。根据本公开的一个实施例，在进行如隐马尔科夫模型的训练之前，可以将自动标注的汽车信息识别结果转化为图3中所示符号标注的形式。具体地，如图3所示，s表示汽车提及部分的首字，例如，“我买了一辆中/s华骏捷。”；m表示汽车提及部分中间字，例如“我买了一辆中华/m骏/m捷。”；l表示汽车提及部分的尾字，例如“我买了一辆中华骏捷/l。”；b表示汽车提及部分前面的字，例如“我买了一辆/b中华骏捷。”；a表示汽车提及部分后面的字，例如“我买了一辆中华骏捷。/a”；k表示两个汽车提及部分中间的字，例如“法拉利和/k保时捷相比，各有千秋。”；以及e表示除以上类型汉字、字母和标点以外，其它的字符。具体转化方式如图4所示，例如，汽车信息识别结果为“你觉得[路虎]和[切诺基]哪个牌子好？”经转化后符号标注结果为：

可选地，用于识别产品相关信息的模型还可以为条件随机场模型或最大熵模型。

通常，隐马尔科夫模型由初始概率分布、状态转移概率分布以及观测概率分布确定。这些概率分布都能够由训练数据统计得到。初始概率分布是指不同标注作为句首字标注结果的概率分布，如图5A中给出的示例，由训练数据统计得出，句子首字被标注为s、b、e的概率分别为0.1、0.1、0.8，而标注为其它符号的概率均为0。状态转移概率分布是指在当前字的标注结果确定的情况下，下一个字被标注为不同结果的概率分布，在图5B给出的示例中，行标是指当前字的标注结果，纵标是指下一个字的标注可能。以第一行为例，根据训练数据能够统计得出，如果当前字被标注为s，那么下一个字被标注为m的概率为0.8，标注为l的概率为0.2，标注为其它符号的概率为0。观测概率分布，是指假设当前标注结果已经确定，那么当前位置对应不同字的概率分布。如图5C中所示，行标为当前标注结果符号，纵标为对应的可能字符。以第一行为例，根据训练数据能够统计得出，如果当前标注符号为s的话，那么当前字是“长”的概率为0.8，当前字是“安”的概率为0.1，当前字是“城”的概率为0.1，当前字是其它字的概率为0。

然后，识别单元250可以利用训练单元240生成的训练模型在电子文本中针对产品相关信息进行识别，以获取识别的第二产品相关信息作为识别结果。根据本公开的一个实施例，在利用模型对原始电子文本(如微博)进行序列标注的过程中，可以利用维特比算法进行。维特比算法(Viterbialgorithm)是一种动态规划算法，它用于寻找最有可能产生观测事件序列的“维特比路径”隐含状态序列，优选是在隐马尔可夫模型中。在利用维特比算法标注汽车提及信息的过程中，可以建立两个二维矩阵，一个用于记录当前情况最大概率值，一个用于记录产生该最大概率值的路径。参照附图，图5D是最优路径求解过程，图5E是最优路径求解结果。在图5D中，每一条线段的确定过程如下：首先，在初始点，“我”被标注成某个符号的概率等于该符号作为初始符号的概率与该符号对应字符为“我”的概率的乘积。其次，后面每一个点，都需要寻找通过前面的计算之后，能使得该点的概率为最大的情况作为线段所代表的路径。以“车(a)——。(e)”为例，其实线段“车(e)——。(e)”也是有可能的，但是该线段路径下得到的“。(e)”概率仅为0.000001048576，远远小于在“车(a)——。(e)”情况下“。(e)”的概率值0.0000580608，因此，可以保留“车(a)——。(e)”，放弃“车(e)——。(e)”。最后，在图5D的结果得到之后，则很容易就能够得到图5E中的最优路径结果。沿着最大值路径进行回溯，因为每个点都能找到唯一的“上一个节点”，因此，得到了如图5E中所示的最优路径结果。接下来，在得到上述符号标注结果之后，可以按照图4中的转化方式，对该结果进行转化以作为识别结果。根据本公开的实施例，“我开长安车。”的符号标注结果为：

该符号标注结果经转化后得到识别结果为“我开[长安]车”。

接下来，合并单元260可以将第一产品相关信息和第二产品相关信息进行合并，以获取最终的产品相关信息作为合并结果。根据本公开的一个实施例，合并单元260可以根据本领域公知的合并手段将第一产品相关信息和第二产品相关信息进行合并。

根据图2的实施例，针对如汽车、电脑和数码相机等在电子文本如微博中提及的并且品牌数量有限(几百至几千)的产品类型，本公开能够仅利用品牌相关词语的歧义/非歧义信息、自动识别相关内容。本公开不用建立大量的匹配规则，也不用人工标注的训练数据，即对新产品名称具有一定的识别性。此外，本公开的产品提及识别方法在构建训练语料库阶段利用歧义/非歧义的产品相关词语判别，增加了数据自动标注的准确性。而且，本公开中训练的统计模型能够利用自动构建的训练语料，分析提及产品的语境信息，起到更好的判别歧义词、识别新产品提及表达方式的效果。

根据本公开的实施例，当在电子文本中出现了与标记列表中的带有非歧义标记的条目中的词语序列相同的电子词语序列时，标注单元230可以将该电子词语序列标注为第一产品相关信息。根据本公开的另一个实施例，当在电子文本的一个部分中出现了与标记列表中的带有歧义标记的条目中的词语序列相同的电子词语序列以及产品的名称时，标注单元230可以将电子文本的这个部分标注为第一产品相关信息。例如，标注单元230可以基于带有“歧义/非歧义”标记的汽车品牌车型列表，按照以下标注规则在电子文本如微博中针对汽车进行自动标注：针对列表中带有非歧义标记的或非歧义列表中的品牌车型相关词语，一旦电子文本里出现该词语，则将其标记为汽车提及信息；针对列表中带有歧义标记的或歧义列表中的品牌车型相关词语，如果电子文本中出现了“汽车”，或者品牌和车型同时出现了，则将对应部分标记为汽车提及信息。可选地，标记品牌列表中的条目按照条目中的词语序列的包含关系进行先后排列，例如“长安汽车”排在“长安”之前，亦即，如果能够匹配到“长安汽车”，则在同一个位置上，“长安”就可以不再尝试进行匹配了。

基于以上标注方式，虽然还可能存在错误，但是相对于直接匹配的方法而言，在准确度上已经有了很大的提高。并且，在此基础上的隐马尔科夫模型训练过程，能够对产品提及信息及其前后语境规律进行统计归纳，进而在利用得到的统计模型再次对原始电子文本中的产品提及信息进行识别时，能够更好的利用语境信息。

根据本公开的实施例，当电子文本的同一位置既被标注为第一产品相关信息又被标注为第二产品相关信息时，合并单元260可以将电子文本的该同一位置标注为最终的产品相关信息。进一步，当电子文本的一个位置仅被标注为第一产品相关信息和第二产品相关信息中之一时，合并单元260可以将电子文本的该位置标注为最终的产品相关信息。进一步，当电子文本的第一位置被标注为第一产品相关信息和第二产品相关信息中的一个，而电子文本的包含第一位置的第二位置被标注为第一产品相关信息和第二产品相关信息中的另一个时，合并单元260可以将电子文本的第二位置标注为最终的产品相关信息。进而，当电子文本的第三位置被标注为第一产品相关信息和第二产品相关信息中的一个，而电子文本的与第三位置部分重叠的第四位置被标注为第一产品相关信息和第二产品相关信息中的另一个时，合并单元260可以将电子文本的第三位置和第四位置中被标注为第一产品相关信息的位置标注为最终的产品相关信息。具体地，两种结果的合并方法如下：情况1、保留两种结果相同的识别部分；情况2、如果一种结果中识别出来的一个汽车提及部分，另外一种结果中没有识别到，也保留该结果；情况3、如果一种结果中识别出来的一个汽车提及部分，包含了另外一种结果中识别出来的该位置的汽车提及部分，则保留识别部分较长的结果；情况4、如果两个结果在同一个被识别位置(交叉关系，但是不是包含关系)，识别出来的结果中含有除了情况2和情况3以外类型的冲突，则按照自动标注方法得到的结果进行保留。例如，自动标注结果：“我放弃[丰田]汽车去买[日产]A2，发现这款[日产]汽车已售罄，于是又换成[本田]。”；模型识别结果：“我放弃丰[田汽]车去买[日产A2]，发现这款日产汽车已售罄，于是又换成[本田]。”，合并结果：“我放弃[丰田]汽车去买[日产A2]，发现这款[日产]汽车已售罄，于是又换成[本田]。”。合并结果中的四个部分，分别符合情况4、情况3、情况2和情况1提到的内容。第一个部分，两个结果冲突，保留自动标注结果；第二个部分，模型识别结果包含了自动标注结果，保留较长结果，即模型识别结果；第三个部分，通过模型识别得到了自动标注结果中未能识别的内容，则将其保留；第四个部分，两个模型识别结果一致，则保留该结果。

图6示出了根据本公开的另一实施例的用于检测电子文本(如微博)中的产品(如汽车)相关信息的装置600。如图6所示，根据本公开的实施例的用于检测电子文本(如微博)中的产品(如汽车)相关信息的装置除了获取单元210、标注单元220、标注单元230、训练单元240、识别单元250以及合并单元260之外，还可以包括后处理单元610。下面将结合具体实施例对该装置详细进行描述。

如图6所示，在获取单元210获取针对产品的品牌列表后，标注单元220可以针对品牌列表进行歧义或非歧义标记标注。接下来，标注单元230可以基于带有“歧义/非歧义”标记的品牌列表进行自动标注。然后，训练单元240可以对用于识别产品相关信息的产品信息识别模型进行训练。接下来识别单元250可以基于该训练模型进行识别。然后，合并单元260可以将自动标注结果和识别结果进行合并。

根据本实施例，在得到合并之后的识别结果之后，可以对该合并结果进行一项后处理。具体地，当两个词语序列分别被标注为最终的产品相关信息且在这两个词语序列之间不存在任何字符或仅存在空格，并且这两个词语序列满足以下条件之一时，后处理单元610可以将这两个词语序列标注为一个整体的产品相关信息：这两个词语序列中的前一个词语序列包含产品品牌信息，并且这两个词语序列中的后一个词语序列不包含产品品牌信息；以及这两个词语序列中的前一个词语序列包含产品品牌信息，并且这两个词语序列中的后一个词语序列包含与产品品牌信息对应的产品类型信息。根据本公开的一个实施例，针对汽车提及部分被分成几个单元而分别被识别的情况，例如在微博“限量发售10台兰博基尼Aventador LP760-4Dragon Edition，搭载6.5升V12自然吸气发动机，标称功率760马力～～”中，‘兰博基尼Aventador LP760-4’和‘Dragon Edition’被分别识别为汽车提及信息。该结果产生的原因，是隐马尔科夫模型对上下文语境的判定结果。但是，‘Dragon Edition’的位置虽然是汽车提及信息的可能性很大，但是其实该部分应该与前面的‘兰博基尼Aventador LP760-4’是一个整体，是对前面部分的进一步描述。因此，针对类似这样的情况，可以设定后处理的规则如下：如果发现两个连续的词序列被分别识别为汽车提及信息，并且两个连续的词序列之间只能是空格或者无任何字符，另外，前后两个词序列满足下列条件之一：1、前一个词序列中包含汽车品牌车型列表中的内容，后一个词序列中不包含汽车品牌车型列表中的内容；2、前一个词序列包含汽车品牌信息，后一个词序列包含与该品牌对应的车型信息；则将两个次序列合并为一个整体，并标记为一个完整的汽车提及识别信息词序列。这样处理是因为电子文本中经常包含两个汽车描述信息并列出现的情况，例如“视频诠释豪华德、日四豪车比拼——英菲尼迪宝马奥迪雷克萨斯”中，‘英菲尼迪’、‘宝马’、‘奥迪’和‘雷克萨斯’要分别被识别为汽车提及信息，而不能进行合并。

使用图6的用于检测电子文本(如微博)中的产品(如汽车)相关信息的装置600的自动标注结果与模型识别结果的结合以及结合之后结果的后处理，能够更好地提高识别效果。

可选地，根据本公开的装置适用于其它相似类型的产品例如电脑、数码相机等名称识别。因为该类产品的品牌数量有限，人工整理相关词语的“歧义/非歧义”信息相对容易。

下面结合图7来描述根据本公开的实施例的用于检测电子文本(如微博)中的产品(如汽车)相关信息的方法。如图7所示，根据本公开的实施例的用于检测电子文本(如微博)中的产品(如汽车)相关信息的方法开始于步骤S710。在步骤S710中，获取产品的列表，所述列表中的每一个条目记录产品的品牌信息。

接下来，在步骤S720中，基于用户的输入为列表中的每一个条目标注歧义标记或非歧义标记以获取标记列表，其中，歧义标记指示条目中的词语序列的意思表示具有歧义，而非歧义标记则指示条目中的词语序列的意思表示不具有歧义。

然后，在步骤S730中，利用标记列表在电子文本中针对产品进行自动标注，以获取自动标注的第一产品相关信息。

接下来，在步骤S740中，基于第一产品相关信息对产品信息识别模型进行训练，从而生成训练模型。

然后，在步骤S750中，利用训练模型在电子文本中针对产品相关信息进行识别，以获取识别的第二产品相关信息。

最后，在步骤S760中，将第一产品相关信息和第二产品相关信息进行合并，以获取最终的产品相关信息。

优选地，利用标记列表在电子文本中针对产品进行自动标注可以包括：当在电子文本中出现了与标记列表中的带有非歧义标记的条目中的词语序列相同的电子词语序列时，将电子词语序列标注为第一产品相关信息。

优选地，利用标记列表在电子文本中针对产品进行自动标注可以包括：当在电子文本的一个部分中出现了与标记列表中的带有歧义标记的条目中的词语序列相同的电子词语序列以及产品的名称时，将电子文本的这个部分标注为第一产品相关信息。

根据本公开的又一实施例，标记列表中的条目按照条目中的词语序列的包含关系进行先后排列。

根据本公开的又一实施例，将第一产品相关信息和第二产品相关信息进行合并可以包括：当电子文本的同一位置既被标注为第一产品相关信息又被标注为第二产品相关信息时，将电子文本的该同一位置标注为最终的产品相关信息。

优选地，将第一产品相关信息和第二产品相关信息进行合并可以包括：当电子文本的一个位置仅被标注为第一产品相关信息和第二产品相关信息中之一时，将电子文本的该位置标注为最终的产品相关信息。

优选地，将第一产品相关信息和第二产品相关信息进行合并可以包括：当电子文本的第一位置被标注为第一产品相关信息和第二产品相关信息中的一个，而电子文本的包含第一位置的第二位置被标注为第一产品相关信息和第二产品相关信息中的另一个时，将电子文本的第二位置标注为最终的产品相关信息。

优选地，将第一产品相关信息和第二产品相关信息进行合并可以包括：当电子文本的第三位置被标注为第一产品相关信息和第二产品相关信息中的一个，而电子文本的与第三位置部分重叠的第四位置被标注为第一产品相关信息和第二产品相关信息中的另一个时，将电子文本的第三位置和第四位置中被标注为第一产品相关信息的位置标注为最终的产品相关信息。

根据本公开的又一实施例，标记列表中的每一个条目可以记录产品的品牌信息和类型信息，并且品牌信息和类型信息之间相互对应。

根据本公开的又一实施例，根据本公开的实施例的用于检测电子文本中的产品相关信息的方法还可以包括后处理过程：当两个词语序列分别被标注为最终的产品相关信息且在这两个词语序列之间不存在任何字符或仅存在空格，并且这两个词语序列满足以下条件之一时，将这两个词语序列标注为一个整体的产品相关信息：这两个词语序列中的前一个词语序列包含品牌信息，并且这两个词语序列中的后一个词语序列不包含品牌信息；以及这两个词语序列中的前一个词语序列包含品牌信息，并且这两个词语序列中的后一个词语序列包含与品牌信息对应的类型信息。

根据本公开的实施例的用于检测电子文本中的产品相关信息的方法的上述步骤的各种具体实施方式前面已经作过详细描述，在此不再重复说明。

显然，根据本公开的用于检测电子文本中的产品相关信息的方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，计算机通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本公开的技术方案。

如图8所示，CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的示例包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

在本公开的装置和方法中，显然，各单元或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本公开的实施例，但是应当明白，上面所描述的实施方式只是用于说明本公开，而并不构成对本公开的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此，本公开的范围仅由所附的权利要求及其等效含义来限定。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1.一种用于检测电子文本中的产品相关信息的装置，包括：

获取单元，其获取产品的列表，所述列表中的每一个条目记录所述产品的品牌信息；

第一标注单元，其基于用户的输入为所述列表中的每一个条目标注歧义标记或非歧义标记以获取标记列表，其中，所述歧义标记指示所述条目中的词语序列的意思表示具有歧义，而所述非歧义标记则指示所述条目中的词语序列的意思表示不具有歧义；

第二标注单元，其利用所述标记列表在所述电子文本中针对所述产品进行自动标注，以获取自动标注的第一产品相关信息；

训练单元，其基于所述第一产品相关信息对产品信息识别模型进行训练，从而生成训练模型；

识别单元，其利用所述训练模型在所述电子文本中针对所述产品相关信息进行识别，以获取识别的第二产品相关信息；以及

合并单元，其将所述第一产品相关信息和所述第二产品相关信息进行合并，以获取最终的产品相关信息。

附记2.根据附记1所述的装置，其中，当在所述电子文本中出现了与所述标记列表中的带有所述非歧义标记的条目中的词语序列相同的电子词语序列时，所述第二标注单元将所述电子词语序列标注为第一产品相关信息。

附记3.根据附记1所述的装置，其中，当在所述电子文本的一个部分中出现了与所述标记列表中的带有所述歧义标记的条目中的词语序列相同的电子词语序列以及所述产品的名称时，所述第二标注单元将所述电子文本的所述部分标注为第一产品相关信息。

附记4.根据附记2或3所述的装置，其中，所述标记列表中的条目按照条目中的词语序列的包含关系进行先后排列。

附记5.根据附记1所述的装置，其中，当所述电子文本的同一位置既被标注为第一产品相关信息又被标注为第二产品相关信息时，所述合并单元将所述电子文本的该同一位置标注为最终的产品相关信息。

附记6.根据附记1所述的装置，其中，当所述电子文本的一个位置仅被标注为第一产品相关信息和第二产品相关信息中之一时，所述合并单元将所述电子文本的该位置标注为最终的产品相关信息。

附记7.根据附记1所述的装置，其中，当所述电子文本的第一位置被标注为第一产品相关信息和第二产品相关信息中的一个，而所述电子文本的包含所述第一位置的第二位置被标注为第一产品相关信息和第二产品相关信息中的另一个时，所述合并单元将所述电子文本的所述第二位置标注为最终的产品相关信息。

附记8.根据附记1所述的装置，其中，当所述电子文本的第三位置被标注为第一产品相关信息和第二产品相关信息中的一个，而所述电子文本的与所述第三位置部分重叠的第四位置被标注为第一产品相关信息和第二产品相关信息中的另一个时，所述合并单元将所述电子文本的所述第三位置和所述第四位置中被标注为第一产品相关信息的位置标注为最终的产品相关信息。

附记9.根据附记1所述的装置，其中，所述标记列表中的每一个条目记录所述产品的品牌信息和类型信息，并且所述品牌信息和所述类型信息之间相互对应。

附记10.根据附记9所述的装置，还包括后处理单元，其中，当两个词语序列分别被标注为最终的产品相关信息且在所述两个词语序列之间不存在任何字符或仅存在空格，并且所述两个词语序列满足以下条件之一时，所述后处理单元将所述两个词语序列标注为一个整体的产品相关信息：

所述两个词语序列中的前一个词语序列包含所述品牌信息，并且所述两个词语序列中的后一个词语序列不包含所述品牌信息；以及

所述两个词语序列中的前一个词语序列包含所述品牌信息，并且所述两个词语序列中的后一个词语序列包含与所述品牌信息对应的所述类型信息。

附记11.根据附记1所述的装置，其中，所述训练单元基于所述第一产品相关信息对隐马尔科夫模型、条件随机场模型或最大熵模型进行训练以生成所述训练模型。

附记12.根据附记1所述的装置，其中，所述产品为汽车、计算机或摄影机。

附记13.根据附记1所述的装置，其中，所述产品是具有几百到几千品牌数量的产品。

附记14.一种用于检测电子文本中的产品相关信息的方法，包括：

获取产品的列表，所述列表中的每一个条目记录所述产品的品牌信息；

基于用户的输入为所述列表中的每一个条目标注歧义标记或非歧义标记以获取标记列表，其中，所述歧义标记指示所述条目中的词语序列的意思表示具有歧义，而所述非歧义标记则指示所述条目中的词语序列的意思表示不具有歧义；

利用所述标记列表在所述电子文本中针对所述产品进行自动标注，以获取自动标注的第一产品相关信息；

基于所述第一产品相关信息对产品信息识别模型进行训练，从而生成训练模型；

利用所述训练模型在所述电子文本中针对所述产品相关信息进行识别，以获取识别的第二产品相关信息；以及

将所述第一产品相关信息和所述第二产品相关信息进行合并，以获取最终的产品相关信息。

附记15.根据附记14所述的方法，其中，利用所述标记列表在所述电子文本中针对所述产品进行自动标注包括：当在所述电子文本中出现了与所述标记列表中的带有所述非歧义标记的条目中的词语序列相同的电子词语序列时，将所述电子词语序列标注为第一产品相关信息。

附记16.根据附记14所述的方法，其中，利用所述标记列表在所述电子文本中针对所述产品进行自动标注包括：当在所述电子文本的一个部分中出现了与所述标记列表中的带有所述歧义标记的条目中的词语序列相同的电子词语序列以及所述产品的名称时，将所述电子文本的所述部分标注为第一产品相关信息。

附记17.根据附记14所述的方法，其中，将所述第一产品相关信息和所述第二产品相关信息进行合并包括：当所述电子文本的同一位置既被标注为第一产品相关信息又被标注为第二产品相关信息时，将所述电子文本的该同一位置标注为最终的产品相关信息。

附记18.根据附记14所述的方法，其中，将所述第一产品相关信息和所述第二产品相关信息进行合并包括：当所述电子文本的一个位置仅被标注为第一产品相关信息和第二产品相关信息中之一时，将所述电子文本的该位置标注为最终的产品相关信息。

附记19.根据附记14所述的方法，将所述第一产品相关信息和所述第二产品相关信息进行合并包括：当所述电子文本的第一位置被标注为第一产品相关信息和第二产品相关信息中的一个，而所述电子文本的包含所述第一位置的第二位置被标注为第一产品相关信息和第二产品相关信息中的另一个时，将所述电子文本的所述第二位置标注为最终的产品相关信息。

附记20.一种机器可读存储介质，其上携带有包括存储在其中的机器可读指令代码的程序产品，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据附记14-19中任何一项所述的方法。

Claims

1.一种用于检测电子文本中的产品相关信息的装置，包括：

2.根据权利要求1所述的装置，其中，当在所述电子文本中出现了与所述标记列表中的带有所述非歧义标记的条目中的词语序列相同的电子词语序列时，所述第二标注单元将所述电子词语序列标注为第一产品相关信息。

3.根据权利要求1所述的装置，其中，当在所述电子文本的一个部分中出现了与所述标记列表中的带有所述歧义标记的条目中的词语序列相同的电子词语序列以及所述产品的名称时，所述第二标注单元将所述电子文本的所述部分标注为第一产品相关信息。

4.根据权利要求1所述的装置，其中，当所述电子文本的同一位置既被标注为第一产品相关信息又被标注为第二产品相关信息时，所述合并单元将所述电子文本的该同一位置标注为最终的产品相关信息。

5.根据权利要求1所述的装置，其中，当所述电子文本的一个位置仅被标注为第一产品相关信息和第二产品相关信息中之一时，所述合并单元将所述电子文本的该位置标注为最终的产品相关信息。

6.根据权利要求1所述的装置，其中，当所述电子文本的第一位置被标注为第一产品相关信息和第二产品相关信息中的一个，而所述电子文本的包含所述第一位置的第二位置被标注为第一产品相关信息和第二产品相关信息中的另一个时，所述合并单元将所述电子文本的所述第二位置标注为最终的产品相关信息。

7.根据权利要求1所述的装置，其中，当所述电子文本的第三位置被标注为第一产品相关信息和第二产品相关信息中的一个，而所述电子文本的与所述第三位置部分重叠的第四位置被标注为第一产品相关信息和第二产品相关信息中的另一个时，所述合并单元将所述电子文本的所述第三位置和所述第四位置中被标注为第一产品相关信息的位置标注为最终的产品相关信息。

8.根据权利要求1所述的装置，其中，所述标记列表中的每一个条目记录所述产品的品牌信息和类型信息，并且所述品牌信息和所述类型信息之间相互对应。

9.根据权利要求8所述的装置，还包括后处理单元，其中，当两个词语序列分别被标注为最终的产品相关信息且在所述两个词语序列之间不存在任何字符或仅存在空格，并且所述两个词语序列满足以下条件之一时，所述后处理单元将所述两个词语序列标注为一个整体的产品相关信息：

10.一种用于检测电子文本中的产品相关信息的方法，包括：