发明内容
本申请实施例其中一个目的是提供一种词典生成方法、新词发现方法、装置及电子设备,能够在保证较高命中率的基础上,发现新的词汇。
为了实现上述目的,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种词典生成方法,包括:
对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
基于所述候选分词集合对所述文本语料中的语句进行分词划分;
多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典。
第二方面,提供了一种新词发现方法,包括:
对文本语料进行分词处理,得到所述文本语料对应的候选分词集,其中,所述候选分词集的分词对应有以分词的出现频率作为初始值的分词分值;
基于候选分词集合对所述文本语料中的语句进行分词划分;
多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
基于目标词典和原始词典的差异,生成新词集合。
第三方面,提供了一种词典生成装置,包括:
第一分词处理模块,对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
第一分词划分模块,基于候选分词集合对所述文本语料中的语句进行分词划分;
第一迭代执行模块,多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
第一词典构建模块,基于多轮迭代过程中所述文本语料的每个语句置信值最高的语句分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的语句分词划分结果,构建目标词典。
第四方面,提供了一种新词发现装置,包括:
第二分词处理模块,对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
第二分词划分模块,基于候选分词集合对所述文本语料中的语句进行分词划分;
第二迭代执行模块,多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
第二词典构建模块,基于多轮迭代过程中所述文本语料的每个语句置信值最高的语句分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的语句分词划分结果,构建目标词典;
新词生成模块,基于目标词典和原始词典的差异,生成新词集合。
第五方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
基于所述候选分词集合对所述文本语料中的语句进行分词划分;
多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典。
第六方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
基于所述候选分词集合对所述文本语料中的语句进行分词划分;
多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典。
第七方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
基于所述候选分词集合对所述文本语料中的语句进行分词划分;
多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典;
基于目标词典和原始词典的差异,生成新词集合。
第八方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
基于所述候选分词集合对所述文本语料中的语句进行分词划分;
多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典;
基于目标词典和原始词典的差异,生成新词集合。
本申请实施例的方案首先对文本语料进行分词处理,得到文本语料的候选分词集,之后基于候选分词集对文本语料的语句进行分词划分,得到各个语句对应的至少一种语句分词划分结果。其中,每个语句分词划分结果的置信值由该语句分词划分结果所包含的分词对应候选分词集的分词分值所确定得到,候选分词集中每个分词的分词分值由包含该分词的所有语句分词划分结果的置信值总和确定得到,通过语句分词划分结果的置信值和候选分词集中分词的分词分值之间的数学关系,对两者进行反复迭代收拢。在多轮迭代后,选取文本语料中每个语句置信值最高的语句分词划分结果构建目标词典,从而能够以较高的命中率发现新的词汇。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
如前所述,现有的新词发现方式是在对语料进行分词处理后,以分词的点互信息和左右熵为指标,衡量分词是否作为新词。一方面,该方式已开发相对成熟,难以再进一步发现新的词汇。另一方面,点互信息和左右熵反映字符与字符之间的关联性,分词的字符数越多,则这种关联性越弱,从而越难以被认定为新词,该方式针对字符较多的分词存在新词认知盲区。
因此,针对上述问题,本申请实施例提供一种解决方案。
一方面,本申请实施例提供一种词典生成方法,如图1所示,包括:
步骤S102,对文本语料进行分词处理,得到文本语料对应的候选分词集,该候选分词集的分词对应有以出现频率作为初始值的分词分值;
针对步骤S102而言:
本步骤可以基于至少一种语言模型对文本语料进行分词处理,获得文本语料中所有分词,之后不重复汇总获得的所有分词,得到候选分词集。其中,候选分词集中分词的分词分值并不限于是候选分词集的内容,可以记录在其他位置。
为方便理解,假设文本语料为ABCD,则对ABCD进行分词处理后,得到的分词处理结果为A|B|CD、AB|CD、ABC|D三种(每个分词之间以“|”隔开),则候选分词集为{A,B,CD,AB,ABC,D}。
此外,本申请实施例不对分词的出现频率作具体限定。作为示例性介绍,分词的出现频率可以为分词在分词处理过程中出现的次数与文本语料的总字数之比,或者也可以将分词在分词处理过程中出现的次数与所有分词在分词处理过程中出现的总次数之比作为分词的出现频率。由于方法并不唯一,本文不再举例赘述。
步骤S104,基于候选分词集合对文本语料中的语句进行分词划分;
针对步骤S104而言:
本步骤在对文本语料中的语句进行分词划分后,得到语句对应的至少一种语句分词划分结果。
应理解,语句分词划分结果中的分词来自候选分词集合,不存在候选分词集合以外的分词。
步骤S106,多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
针对步骤S106而言:
应理解,本步骤中如果存在下一轮迭代执行操作,则将候选分词集中各分词更新后的分词分值作为下一轮迭代中对应的分词分值。
其中,任意目标语句分词划分结果的置信值由该目标语句分词划分结果包含的各个分词在所述候选分词集中的分词分值确定得到;候选分词集中任意目标分词的分词分值由包含该目标分词的各个语句分词划分结果的置信值确定得到。
本步骤根据各个语句分词划分结果所包含的分词在的分词分值,量化各个语句分词划分结果的置信值。应理解,置信值反映了语句分词划分结果中分词划分的准确率。置信值越大,则语句分词划分结果中分词划分的准确率越高;反之,置信值越小,则语句分词划分结果中分词划分的准确率越低;
之后,以语句分词划分结果的置信值出发,更新候选分词集中分词的分词分值;并基于更新的分词的分词分值,再进一步重新量化语句分词划分结果的置信值。这个反复过程一直持续到收敛为止,比如,本轮迭代执行后语句分词划分结果的置信度与上轮迭代执后语句分词划分结果的置信度的差值小于预设阈值,则停止执行迭代过程;或者,这个反复过程一直达到预设置的迭代轮数为止。
步骤S108,基于多轮迭代过程中文本语料的每个语句置信值最高的语句分词划分结果,或者基于最后一轮迭代过程中文本语料的每个语句置信值最高的语句分词划分结果,构建目标词典。
针对步骤S108而言:
本步骤可以将每个语句置信值最高的语句分词划分结果包含的分词进行汇总,得到目标词典。
作为示例性介绍,假设文本语料中某一语句为ABCD,对应有A|B|CD、AB|CD、ABC|D三种语句分词划分结果,其中A|B|CD的置信值最高,则可以将分词A、B、CD添加至目标词典中。
本申请实施例的词典生成方法首先对文本语料进行分词处理,得到文本语料的候选分词集,之后基于候选分词集对文本语料的语句进行分词划分,得到各个语句对应的至少一种语句分词划分结果。其中,每个语句分词划分结果的置信值由该语句分词划分结果所包含的分词对应候选分词集的分词分值所确定得到,候选分词集中每个分词的分词分值由包含该分词的所有语句分词划分结果的置信值总和确定得到,通过语句分词划分结果的置信值和候选分词集中分词的分词分值之间的数学关系,对两者进行反复迭代收拢。在多轮迭代后,选取文本语料中每个语句置信值最高的语句分词划分结果构建目标词典,从而能够以较高的命中率发现新的词汇。
下面对本申请实施例的多轮迭代过程进行详细介绍,
在多轮迭代过程中,本申请可以将分词所属的所有语句分词划分结果的置信值之和,作为更新后的分词的分词分值。
作为示例性介绍,假设文本语料为ABCD,候选分词集为{A,B,CD,AB,ABC,D},则ABCD对应有A|B|CD、AB|CD、ABC|D三种语句分词划分结果。
在首轮迭代中,首先基于各个分词初始的分词分值,确定出A|B|CD、AB|CD、ABC|D的置信值。之后,基于A|B|CD、AB|CD、ABC|D的置信值,调整候选分词集{A,B,CD,AB,ABC,D}中各个分词的分词分值。
以分词A为例,分词A只出现在A|B|CD这一个语句分词划分结果中,因此分词A的更新后的分词分值即A|B|CD的置信值。以分词CD为例,分词CD出现在A|B|CD和AB|CD这两个语句分词划分结果中,因此分词CD更新后的分词分值为A|B|CD和AB|CD的置信值之和。
在候选分词集中的各个分词的分词分值更新完成后,则进入第二轮迭代,根据各个语句分词划分结果包含的分词的分词分值(在第一轮迭代中更新后的分词分值),确定各个语句分词划分结果的置信值,并再进一步根据重新确定的语句分词划分结果的置信值,调整候选分词集中各个分词的分词分值。
之后轮次的迭代以此类推,本文不再赘述。
此外,考虑到现有的新词发现方法存在无法发现字符较多的新词的盲区,本申请实施例的词典生成方法还可以通过多轮迭代,更有倾向性地选取具有长字符的分词的语句分词划分结果,构建目标词典。
即,在上述基础之上,本申请实施例可以在迭代过程中,对语句分词划分结果包含的所有分词的分词分值进行相乘,得到语句分词划分结果的置信值。
应理解,分词初始的分词分值为分词的出现频率是小于1的正数。因此,在首轮迭代时,语句分词划分结果包含的分词数量越多,则对应的置信值越小,使得在多轮迭代运算后,更倾向选取每个语句分词数量较少的语句分词划分结果,构建目标词典。可以知道的是,文本语料每个语句的总字符数是既定的,语句的语句分词划分结果的分词数量越少,则分词中包含的字符数越多,因此可以达到发现字符数较多的新词的目的。
此外,在对文本语料进行分词处理后,候选分词集中很多分词都不会构成词汇,为了避免这些没有意义的分词影响迭代效率,本申请实施例可以在执行步骤S104前,对候选分词集中的分词进行精简。
作为示例性介绍,本申请实施例可以基于分词的点互信息、左右熵以及词频中至少一者,确定并删除所述候选分词集中不满足预设要求的分词。
其中,词频是衡量分词质量最直观的指标之一,如果几个字符组合成的分词在整个文本语料中的语句分词划分结果中鲜有出现,那么这个分词很可能不是一个词汇,不应作为新词。因此可以删除候选分词集中词频小于第一预设阈值的分词。
点互信息体现了两个离散随机变量的共现度,点互信息的公式为:
在本实施例的应用场景中,P(x,y)表示了文本x和文本y连续出现的频率,P(x)和P(y)分别表示文本x和文本y出现的频率。引入点互信息是为了保留词频较少的固定词语搭配。如“魑魅魍魉”这个固定词语,它在整个文本语料中的所有语句分词划分结果中出现率都不会太高,但“魑”、“魍”、“魉”个字的出现往往都伴随着4字的共现,应该作为备选词语保留。因此,本申请实施例可以候选分词集中存在第一分词、第二分词以及由第一分词和第二分词组成的第三分词时,如果第三分词的词频高于第二预设阈值时,从候选分词集中删除第一分词和第二分词。
信息熵是消息所包含信息的平均量。一个分词与左侧文字和右侧文字的两个信息熵,能衡量一个分词的左、右两侧文本的随机程度。分词的左右信熵越大,则左右两侧文本的随机性越强,说明分词越难与左右两侧文本组成固定的词语,独立成词的可能性也越大。反之,如果一个词语的左右信息熵较小,如“美利”右侧的“坚”字信息熵往往较小,“美利”也不是一个词语而只能搭配成为“美利坚”。因此可以将左右熵小于第三预设阈值的分词,从文本语料对应的至少两个语句分词划分结果中删除掉。
由此可见,本实施例基于分词的点互信息、左右熵以及词频,可以有效过滤掉候选分词集种难以作为词汇的分词,从而降低后续多轮迭代的计算难度。
下面结合实际应用对本实施例的词典生成方法的流程进行详细介绍。
如图2所示,本实施例的词典生成方法具体包括:
一、枚举文本语料的所有分词,并对所有分词进行汇总,得到候选分词集。
具体地,本步骤可以基于n元ngram算法,对文本语料进行分词处理,枚举出文本语料的所有语句分词划分结果。考虑到词汇通常不超过6个字符,对n元ngram算法配置的分词划分最大字符数以不超过6个为宜。
二、对候选分词集中的分词进行精简。
具体地,本步骤基于所语句分词划分结果的分词的点互信息、左右熵以及词频中至少一者,确定并删除候选分词集中不满足要求的分词。
由于筛选原理在上文已经介绍,因此不再赘述。
三、基于候选分词集,对文本语料的每个语句进行分词划分,得到每个语句对应的至少一个语句分词划分结果。
具体地,在确定候选分词集,就可以基于候选分词集中分词,对每个语句进行分词划分。其中,语句分词划分结果中的分词不应超出候选分词集的范围。
四、初始化候选分词集中分词的分词分值。
具体地,粗估计文本语料中每个分词的初始分词分值,分词的初始分词分值等于分词在文本语料中的出现频率。
五、迭代算法中的第一步骤:确定各个语句分词划分结果的置信值。
具体地,本步骤基于公式S=∏iW_i,计算出语句分词划分结果的置信值S;
其中,i表示第i个分词,W_i表示该第i个分词的分词分值。其中,当S为初始置信值时,W_i等于该第i个分词的出现频率。
六、迭代算法中的第二步骤:更新候选分词集中各个分词的分词分值。
具体地,本步骤将基于公式W_i=∑jS_j,计算出分词的分词分值W_i;
其中,j表示所述目标文本对应的第j个包含有第i个分词的语句分词划分结果,S_j表示该第j个包含有第i个分词的语句分词划分结果的置信值。
七、判断是否满足迭代运算停止条件
具体地,若满足迭代运算停止条件,则将本轮确定到的语句分词划分结果的置信值确定为最终置信值;
若未满足迭代运算停止条件,则进入下一轮迭代运算,将本轮迭代算法中的第二步骤所确定到的分词的分词分值,带入一下轮迭代运算中第一步骤的计算公式中,以确定各个语句分词划分结果的置信值。
八、基于文本语料每个语句置信值最高的语句分词划分结果,构建目标词典。
具体地,本步骤可以将每个语句置信值最高的语句分词划分结果中的分词进行汇总,生成目标词典。
以上是对本申请实施例的词典生成方法的示例性介绍,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
另一方面,如图3所示,本申请实施例还提供一种新词发现方法,包括:
步骤S302,对文本语料进行分词处理,得到文本语料对应的候选分词集,该候选分词集的分词对应有以出现频率作为初始值的分词分值;
其中,本步骤可以基于至少一种语言模型对文本语料进行分词处理,获得文本语料中所有分词,之后不重复汇总获得的所有分词,得到候选分词集。其中,候选分词集中分词的分词分值并不限于是候选分词集的内容,可以记录在其他位置。
步骤S304,基于候选分词集合对文本语料中的语句进行分词划分;
其中,本步骤在对文本语料中的语句进行分词划分后,得到语句对应的至少一种语句分词划分结果。语句分词划分结果中的分词来自候选分词集合,不存在候选分词集合以外的分词。
步骤S306,多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
应理解,本步骤中如果存在下一轮迭代执行操作,则将候选分词集中各分词更新后的分词分值作为下一轮迭代中对应的分词分值;
其中,任意目标语句分词划分结果的置信值由该目标语句分词划分结果包含的各个分词在所述候选分词集中的分词分值确定得到;候选分词集中任意目标分词的分词分值由包含该目标分词的各个语句分词划分结果的置信值确定得到。
本步骤根据各个语句分词划分结果所包含的分词的分词分值,量化各个语句分词划分结果的置信值。应理解,置信值反映了语句分词划分结果中分词划分的准确率。置信值越大,则语句分词划分结果中分词划分的准确率越高;反之,置信值越小,则语句分词划分结果中分词划分的准确率越低;
之后,以语句分词划分结果的置信值出发,更新候选分词集中分词的分词分值;并基于更新的分词的分词分值,再进一步重新量化语句分词划分结果的置信值。这个反复过程一直持续到收敛为止,比如,本轮迭代执行后语句分词划分结果的置信度与上轮迭代执后语句分词划分结果的置信度的差值小于预设阈值,则停止执行迭代过程;或者,这个反复过程一直达到预设置的迭代轮数为止。
步骤S308,基于多轮迭代过程中文本语料的每个语句置信值最高的语句分词划分结果,或者基于最后一轮迭代过程中文本语料的每个语句置信值最高的语句分词划分结果,构建目标词典。
其中,本步骤可以将每个语句置信值最高的语句分词划分结果包含的分词进行汇总,得到目标词典。
步骤S310,基于目标词典和原始词典的差异,生成新词集合。
其中,本步骤具体可以将目标词典中未被原始词典记录的分词作为新词并添加至新词集合。
本申请实施例的新词发现方法首先对文本语料进行分词处理,得到文本语料的候选分词集,之后基于候选分词集对文本语料的语句进行分词划分,得到各个语句对应的至少一种语句分词划分结果。其中,每个语句分词划分结果的置信值由该语句分词划分结果所包含的分词对应候选分词集的分词分值所确定得到,候选分词集中每个分词的分词分值由包含该分词的所有语句分词划分结果的置信值总和确定得到,通过语句分词划分结果的置信值和候选分词集中分词的分词分值之间的数学关系,对两者进行反复迭代收拢。在多轮迭代后,选取文本语料中每个语句置信值最高的语句分词划分结果构建目标词典,从而以较高的命中率在目标词典中发现未被原始词典记录的新的词汇。
进一步地,本申请实施例的新词方法可以将语句分词划分结果包含的所有分词的分词分值的乘积作为语句分词划分结果的置信值,从而有倾向性地发现字符较多的新词。下面结合一个实际应用,该过程进行示例性介绍。
在本实际应用中,假设文本语料仅具有一个语句,为“我爱电影院”。
本申请实施例在下执行步骤302时,可以基于语言模型枚举出“我爱电影院”对应的所有分词,比如“我|爱|电影|院”和“我爱|电影院”这两种分词方式所对应的分词(分词之间以“|”隔开,以便于理解)。
之后不重复选取“我爱电影院”中的所有分词,以组成候选分词集,该候选分词集为{我,爱,电影,院,我爱,电影院}。候选分词集中每个分词都对应有各自的分词分值。在进行迭代前,分词的分词分值为分词的出现频率。
之后,按照候选分词集为{我,爱,电影,院,我爱,电影院},对“我爱电影院”进行划分,得到“我|爱|电影|院”、“我|爱|电影院”、“我爱|电影|院”和“我爱|电影院”四种语句分词划分结果。
为便于理解,仅以“我|爱|电影|院”和“我爱|电影院”这两种语句分词划分结果为例进行如下介绍。
其中,本申请实施例将语句分词划分结果包含的所有分词的分词分值的乘积作为语句分词划分结果的置信值。显然,前者“我|爱|电影|院”具有“我”、“爱”“电影”和“院”这四个分词,多于后者的“我爱”和“电影院”两个分词。因此计算前者语句分词划分结果的置信值过程中,需要乘以小于1的数值的次数有四次,而计算后者语句分词划分结果的置信值过程中,需要乘以小于1的数值的次数只有两次。所以前者语句分词划分结果初始的置信值要低于后者语句分词划分结果初始的置信值。
之后,对“我|爱|电影|院”的置信值和“我爱|电影院”的置信值与候选分词集{我,爱,电影,院,我爱,电影院}中的各个分词的分词分值进行迭代运算。
我|爱|电影|院”初始的置信值低于“我爱|电影院”初始的置信值,因此多轮迭代运算后,“我|爱|电影|院”的置信值也较大几率依然低于“我爱|电影院”的置信值,使得后者更容易被用于构建目标词典。
假设本实际应用中,“我爱|电影院”作为“我爱电影院”置信度最高的语句划分结果,则将“我爱|电影院”中的分词“我爱”和“电影院”添加至目标词典。
若原始词典未记录“电影院”,则将“电影院”作为新的词汇添加至新词集合;同理,若原始词典未记录“我爱”,则将“我爱”作为新的词汇添加至新词集合。
显然,“我|爱|电影|院”和“我爱|电影院”这两种语句分词划分结果中,后者字符数较多的分词“电影院”相比于前者的字符数较少分词的“电影”和“院”更容易被确定为新词。
由此可见,文本语料中语句的字数是固定不变的,语句分词划分结果的分词数量越少,则分词中包含的字符数越多。语句分词划分结果的分词数量越多,则分词中包含的字符数越少。由于本申请实施例的新词发现方法更倾向于基于语句中分词数量较少的语句分词划分建立目标词典,因此达到发现字符数较多的新词的目的。
应理解,本申请实施例中的新词发现方法的步骤S302至步骤S308可视为图1所示的词典生成方法中的步骤S102至步骤S108,因此该词典生成方法所能实现的功能本申请实施例中的新词发现方法同样也能够实现,本文不再进行赘述。
另一方面,如图4所示,本申请实施例还提供一种词典生成装置400,包括:
第一分词处理模块41,对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
第一分词划分模块42,基于所述候选分词集合对所述文本语料中的语句进行分词划分;
第一迭代执行模块43,多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
应理解,如果存在下一轮迭代执行操作,第一迭代执行模块43则将候选分词集中各分词更新后的分词分值作为下一轮迭代中对应的分词分值;
第一词典构建模块44,基于多轮迭代过程中所述文本语料的每个语句置信值最高的语句分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的语句分词划分结果,构建目标词典。
本申请实施例的词典生成装置首先对文本语料进行分词处理,得到文本语料的候选分词集,之后基于候选分词集对文本语料的语句进行分词划分,得到各个语句对应的至少一种语句分词划分结果。其中,每个语句分词划分结果的置信值由该语句分词划分结果所包含的分词的分词分值确定,分词的分词分值由包含该分词的所有语句分词划分结果的置信值总和确定,通过这种关系,对语句分词划分结果的置信和分词的分词分值进行反复迭代计算,使两者相互收拢。在多轮迭代后选取文本语料中每个语句置信值最高的语句分词划分结果构建目标词典,从而能够以较高的命中率发现新的词汇。
可选地,任意目标语句分词划分结果的置信值由该目标语句分词划分结果包含的各个分词在所述候选分词集中的分词分值进行相乘得到的。
可选地,第一分词处理模块41具体用于:基于n元ngram算法,对文本语料进行分词处理。
可选地,本实施例的词典生成装置还可以包括:
筛选模块,在多轮迭代执行前,基于分词的点互信息、左右熵以及词频中的至少一者,确定并删除所述候选分词集中不满足预设要求的分词。
可选地,所述多次迭代执行过程的迭代轮数是预设置的。
可选地,若本轮迭代执行后语句分词划分结果的置信度与上轮迭代执后语句分词划分结果的置信度的差值小于预设阈值,则停止执行迭代过程。
显然,本申请实施例的词典生成装置可以作为上述词典生成方法的执行主体,因此该词典生成方法所能实现的技术效果,本申请实施例的词典生成装置同样也能够实现。例如,本申请实施例的词典生成装置可以实现词典生成方法在图1和图2中所示的功能。
图5是本申请的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成多媒体播放设备。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
基于所述候选分词集合对所述文本语料中的语句进行分词划分;
多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典。
上述如本申请图1所示实施例揭示的电子设备执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现词典生成装置在图1-图3所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
基于所述候选分词集合对所述文本语料中的语句进行分词划分;
多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典。
应理解,本申请实施例的计算机可读存储介质中的计算机程序被处理器执行时,能够实现图1所示的词典生成方法,并实现词典生成装置在图1-图3所示实施例的功能,本文不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
此外,如图6所示,本申请实施例还提供一种新词发现装置600,包括:
第二分词处理模块61,对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
第二分词划分模块62,基于所述候选分词集合对所述文本语料中的语句进行分词划分;
第二迭代执行模块63,多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
应理解,如果存在下一轮迭代执行操作,则第二迭代执行模块63将候选分词集中各分词更新后的分词分值作为下一轮迭代中对应的分词分值;
第二词典构建模块64,基于多轮迭代过程中所述文本语料的每个语句置信值最高的语句分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的语句分词划分结果,构建目标词典;
新词生成模块65,基于目标词典和原始词典的差异,生成新词集合。
本申请实施例的新词发现装置首先对文本语料进行分词处理,得到文本语料的候选分词集,之后基于候选分词集对文本语料的语句进行分词划分,得到各个语句对应的至少一种语句分词划分结果。其中,每个语句分词划分结果的置信值由该语句分词划分结果所包含的分词对应候选分词集的分词分值所确定得到,候选分词集中每个分词的分词分值由包含该分词的所有语句分词划分结果的置信值总和确定得到,通过语句分词划分结果的置信值和候选分词集中分词的分词分值之间的数学关系,对两者进行反复迭代收拢。在多轮迭代后,选取文本语料中每个语句置信值最高的语句分词划分结果构建目标词典,从而以较高的命中率在目标词典中发现未被原始词典记录的新的词汇。
显然,本申请实施例的新词发现装置可以作为上述新词发现方法的执行主体,因此该新词发现方法所能实现的技术效果,本申请实施例的新词发现装置同样也能够实现。
图7是本申请的一个实施例电子设备的结构示意图。请参考图7,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成多媒体播放设备。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
基于所述候选分词集合对所述文本语料中的语句进行分词划分;
多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典;
基于目标词典和原始词典的差异,生成新词集合。
上述如本申请图3所示实施例揭示的电子设备执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图3的方法,并实现词典生成装置在图3所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图3所示实施例的方法,并具体用于执行以下操作:
对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;
基于所述候选分词集合对所述文本语料中的语句进行分词划分;
多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;
基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典;
基于目标词典和原始词典的差异,生成新词集合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
应理解,本申请实施例的计算机可读存储介质中的计算机程序被处理器执行时,能够实现图3所示的新词发现方法,并实现新词发现装置在图3所示实施例的功能,本文不再赘述。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。