CN107357778A - 一种变形词的识别验证方法及系统 - Google Patents
一种变形词的识别验证方法及系统 Download PDFInfo
- Publication number
- CN107357778A CN107357778A CN201710482689.XA CN201710482689A CN107357778A CN 107357778 A CN107357778 A CN 107357778A CN 201710482689 A CN201710482689 A CN 201710482689A CN 107357778 A CN107357778 A CN 107357778A
- Authority
- CN
- China
- Prior art keywords
- msub
- word
- mrow
- alternative
- alternative word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012795 verification Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000002597 Solanum melongena Nutrition 0.000 description 1
- 244000061458 Solanum melongena Species 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种变形词的识别验证方法及系统,识别验证方法具有以下有益效果:通过语音和字形的扩展,使变形字库可得到扩展,从而其中的变形词的数量得到扩充,质量得到提高,降低了误判的几率;通过训练样本进行上下文概率的训练,从而使变形词的语义验证的误判几率进一步降低,并且精确性得到提高;通过验证结果更新训练样本,使算法的自动更新性能提高,从而能够扩展用于语义验证的概念库,随着验证结果的积累,误判几率不断减小。识别验证系统包括:获取单元、变形训练单元、识别单元以及语义验证单元,实现了与方法相同的有益效果。
Description
技术领域
本发明涉及机器识别变形词的领域,具体涉及一种变形词的识别验证方法及系统。
背景技术
我们在浏览贴吧、论坛、新闻媒体等类似的各种平台中,会时常看到变形的敏感词。人脑的思维方式让我们能够非常自然地发现这些变形词,因为这些变形词在句子中是“异常”的部分,这种“异常”的感觉会将我们的注意力聚集到这一区域,进而逐渐发现完整的变形词。而机器在直接面对这些变形词(包括间杂特殊符号、同音变换、形近变换、简繁转换、偏旁拆分等)时就显得稍微力不从心,变形词识别是解决中文垃圾内容过滤的一个重要问题。
目前,在申请号为200810224894.7的中国专利申请中,公开了一种敏感词校对的方法及系统:通过组成敏感词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;从被校对文本中获取被校对词,通过组成被校对词的汉字内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;若被校对词与敏感词,彼此之间的拼音字母组成信息相同,则确定被校对词为敏感词,因此通过语音校对,使得敏感词的变形词可以被校对出来,提高了敏感词的校对准确率。
另外在申请号为201210537803的中国专利申请中,公开了一种变形词证认系统及证认方法。在该变形词证认系统中,通过同音变换和拆字变形在变形词库中查找原形词的变形词,然后将变形词提供给变形词检测模块,证认模块通过预先设定的概念库的支持,检测待检测数据的语义背景与原形词概念集合的相似程度,变形词判别模块通过相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为原形词的变形词的结论。
现有的变形词识别技术的不足之处在于,系统和方法均基于固定的变形词库和概念库,其中的变形词、训练样本的数量和质量均有较大的局限性,容易出现误判;算法自动更新性能差,不具备扩展变字词库和概念库的能力。
发明内容
本发明的目的是提供一种变形词的识别验证方法及系统,以解决上述不足之处。
为了实现上述目的,本发明提供如下技术方案:
一种变形词的识别验证方法,包括以下步骤:
获取敏感词和训练样本;
根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
将所述识别结果输入所述n元语言模型进行上下文语义验证。
上述变形词的识别验证方法,语音的扩展包括以下步骤:
提取所述敏感词的原始拼音,并据其关联得到类似发音的同音拼音;
将所述同音拼音对应的同音词归为语音变形词的范畴。
上述变形词的识别验证方法,字形的扩展包括以下步骤:
对所述敏感词进行偏旁拆解,并获得偏旁变形词;
对所述敏感词进行字形相似判断,并获得相似变形词。
上述变形词的识别验证方法,进行偏旁拆解包括以下步骤:
建立偏旁拆解词典,并据其对所述敏感词进行偏旁拆解;
确立偏旁拆解结果与敏感词中每个字间对应的关系。
上述变形词的识别验证方法,进行字形相似判断包括以下步骤:
通过英文字符对汉字笔画进行一一对应的定义;
根据所述敏感词中字的笔顺统计得到相应的英文字符;
根据所述相应的英文字符的个数和排列顺序,求得所述敏感词中字对应的编辑距离最小的变形字。
上述变形词的识别验证方法,所述n元语言模型的获得包括以下步骤:
对所述训练样本中对应的变形词wk出现的频率进行统计;
定义上下文窗口大小为K,并在所述上下文窗口范围内,对所述训练样本中对应的两个词wi,wk共同出现的频率进行统计;
其中,P(Wk=wk)=c(wk)/N,
K表示上下文窗口大小,N训练样本的数目,“wi”出现在“wk”后面第k-i位的统计数目。
上述变形词的识别验证方法,对所述待检测文本进行识别包括以下步骤:
遍历所述待检测文本,并根据其中的每个字构建候选变形字集合;
从所述候选变形字集合中识别出与所述待检测文本中字一致的变形字,并据其关联到所述识别结果。
上述变形词的识别验证方法,进行上下文语义验证包括以下步骤:
判断所述识别结果是否在n元语言模型中;
若在,则筛选所述识别结果的上下文距离为m的邻近词,并进行验证计算:
若计算结果小于设定的阈值或者所述识别结果不在n元语言模型中时,判断所述识别结果为变形词。
上述变形词的识别验证方法,得到变形词后还包括以下步骤:
输出语义验证结果,并周期性的将其输入所述训练样本中,得到更新样本;
通过所更新样本对所述变形词进行基于上下文概率的训练。
上述技术方案中,本发明提供的一种变形词的识别验证方法,具有以下有益效果:
1)通过语音和字形的扩展,使变形字库可得到扩展,从而其中的变形词的数量得到扩充,质量得到提高,降低了误判的几率;
2)通过训练样本进行上下文概率的训练,从而使变形词的语义验证的误判几率进一步降低,并且精确性得到提高;
3)通过验证结果更新训练样本,使算法的自动更新性能提高,从而能够扩展用于语义验证的概念库,随着验证结果的积累,误判几率不断减小。
一种变形词的识别验证系统,包括:
获取单元,用以获取敏感词和训练样本;
变形训练单元,用以根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
识别单元,用以输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
语义验证单元,用以将所述识别结果输入所述n元语言模型进行上下文语义验证。
上述技术方案中,本发明提供的一种变形词的识别验证方法,具有以下有益效果:
1)通过变形训练单元使变形字库可得到扩展,从而其中的变形词的数量得到扩充,质量得到提高,降低了误判的几率;
2)通过变形训练单元中的训练样本进行上下文概率的训练,从而使变形词的语义验证的误判几率进一步降低,并且精确性得到提高;
3)通过语义验证单元中的验证结果更新训练样本,使算法的自动更新性能提高,从而能够扩展用于语义验证的概念库,随着验证结果的积累,误判几率不断减小。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的变形词的识别验证方法的流程示意图;
图2为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图3为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图4为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图5为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图6为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图7为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图8为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图9为本发明一优选实施例提供的变形词的识别验证方法的流程示意图;
图10为本发明实施例提供的变形词的识别验证系统的流程示意图;
图11为本发明实施例提供的变形词的识别验证系统的结构框图;
图12为本发明一优选实施例提供的对待检测文本进行识别的结构示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。
如图1、11所示,为本发明实施例提供的一种变形词的识别验证方法,包括以下步骤:
S101、获取敏感词集合和训练样本;
敏感词是指文本中涉及违犯法律、规定或者道德准则的词语的集合;敏感词集合存储于敏感词库中,敏感词库内的敏感词数量会随着更新不断累积。训练样本是指包含变形词的多个文本的集合;变形词全部存储于变形字库中;训练样本中的变形词为确定的,从而可以进行变形词基于上下文概率的训练。
S102、根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
变形词是指扩展后得到的变形字,再进行基于敏感词进行组词得到的词语;其可以为一个变形字和多个敏感字组成的词语,也可以全是由变形字组成的词语,与敏感词的词义一一对应即可。
如图2所示,在步骤S102中,语音的扩展包括以下步骤:
S201、提取所述敏感词的原始拼音,并据其关联得到类似发音的同音拼音;
S202、将所述同音拼音对应的同音词归为语音变形词的范畴。
原始拼音是指敏感词对应的汉语拼音;同音拼音是指根据原始拼音关联而来的类似发音的汉语拼音,类似发音可以是原始拼音本身(仅声调不一致)、平翘舌转换、前后鼻音转换等形式;比如:“微信”是敏感词库的一个词,变形字库里面加入“wei”、“xin”和“xing”,读音对应的敏感字分别是“微”、“信”和“信”;组成的同音词可以为“威信”、“卫星”以及“维心”等;上述同音词均可以作为变形词,对变形字库进行扩展。
如图3所示,在步骤S102中,字形的扩展包括以下步骤:
S301、对所述敏感词进行偏旁拆解,并获得偏旁变形词;
偏旁拆解后得到与敏感词中字对应的变形字,一个敏感字对应多个变形字,将这些变形字按照敏感词进行组词,得到偏旁变形词;偏旁变形词中可以仅包含一个变形字,也可以都为变形字。比如:对于敏感词“海淘”,拆解两个偏旁部首分别是“氵每”和“氵匋”。变形字库加入拆解结果以及对应的敏感字;再按照敏感词进行组词得到“氵每氵匋”或者“每匋”等偏旁变形词。
如图4所示,在步骤S301中,进行偏旁拆解包括以下步骤:
S401、建立偏旁拆解词典,并据其对所述敏感词进行偏旁拆解;
S402、确立偏旁拆解结果与敏感词中每个字间对应的关系。
偏旁拆解词典录入汉字中的各个偏旁,按照该词典将敏感词拆解为偏旁和偏旁以外的字形,并将拆解得到的变形字并入变形字库中,敏感词中的字和拆解得到的偏旁+偏旁以外的字形、偏旁以外的字形为对应的关系,即当变形字为偏旁以外的字形或偏旁+偏旁以外的字形时,可以关联到相应的敏感词,如此,可便于通过机器对变形词进行识别。
S302、对所述敏感词进行字形相似判断,并获得相似变形词。
相似判断后得到与敏感词中字对应的变形字,一个敏感字对应多个变形字,将这些变形字按照敏感词进行组词,得到相似变形词;相似变形词中可以仅包含一个变形字,也可以都为变形字;进一步的,字形相似判断是通过计算候选字和敏感字的笔顺的编辑距离值来衡量,获得的变形词在视觉上和原字比较相似。比如:对于敏感词“日本”,对其中一个或两个字的笔画数进行删减,对于“日”得到相似变形字“口”、“目”、“田”,对于“本”得到相似变形字“木”、“术”、“禾”等,再将上述的两个变形字或一个变形字和敏感词中的一个字进行任意组合,得到相似变形词。
如图5所示,在步骤S302中,进行字形相似判断包括以下步骤:
S501、通过英文字符对汉字笔画进行一一对应的定义;
在计算两个字的字形相似程度时,我们先对汉字中的每种笔画都定义为单个字母,包括点、横、竖、撇、捺、横折、横撇、撇折、横折折、横折钩、横折弯钩、横折折撇等。具体而言,“f”表示竖,“c”表示横折,“j”表示横,综上,依次用不同的单个英文字符表示笔画。
S502、根据所述敏感词中字的笔顺统计得到相应的英文字符;
根据一一对应的笔画和英文字符对所有敏感词中的每个字构建笔顺的词典,譬如“日”表示为“fcjj”,“口”字表示为“fcj”;如此,通过英文字符即表示了笔画,还表示了笔顺,从而可以确定一个敏感字,并且在该敏感字上增加或删减笔画等时,能够得到观感相似的变形字。
S503、根据所述相应的英文字符的个数和排列顺序,求得所述敏感词中字对应的编辑距离最小的变形字。
英文字符一一对应,可以表示笔画,英文字符的排列顺序可以表示笔顺,对敏感词中的每个字进行笔画的删减、增加等操作,得到编辑距离最小的变形字。编辑距离是指两个字符串之间,由一个转换成另外一个所需要的最少操作次数,允许的操作包括字符替换、增加字符、减少字符、颠倒字符。举例来讲,apple和apply的编辑距离是1,access和actress的编辑距离是2。
作文本实施例中优选的,通过编辑距离来计算两个字的相似程度,不过定义的操作和原始的编辑距离定义方法不同,此时的字到字之间的转换操作是在笔顺层面的,允许的操作包括笔顺替换、增加笔顺和减少笔顺。譬如说,“口”字的笔画顺序是“竖横折横”,“日”字的笔画顺序是“竖横折横横”,“口”字可以通过增加笔画“横”来转换成“日”字,所以编辑距离为1。
在一些实施例中,最小编辑距离按照敏感词而定,敏感词为“微信”时,对其中的“微”字进行相似变形扩展,“微”的笔顺表示为“ssffbfjspsjsl”,通过计算求得了编辑距离最小的变形字包括“溦”字和“徵”字,对应的笔顺表示分别为“kkifbfjspsjsl”和“ssffbfjjjfjsjsl”,他们和原字的编辑距离分别是3和3。
在一些实施例中,通过字形相似程度计算和敏感词中的字编辑距离小于设定的阈值(譬如说可以设定为3,根据实际情况而定)的变形字,加入到变形字库。
如图6所示,在步骤S102中,所述n元语言模型的获得包括以下步骤:
S601、对所述训练样本中对应的变形词wk出现的频率进行统计;
S602、定义上下文窗口大小为K,并在所述上下文窗口范围内,对所述训练样本中对应的两个词wi,wk共同出现的频率进行统计;
P(W1=w1...,Wk=wk...,WK=wK)=P(Wk=wk)*∏i≠kP(Wi=wi|Wk=wk),
其中,P(Wk=wk)=c(wk)/N,
K表示上下文窗口大小,N训练样本的数目,“wi”出现在“wk”后面第k-i位的统计数目。
统计训练样本中的每一个变形词出现的频率,并且在一定长度的上下文窗口内,统计和该变形词共同出现的词,以及在整个训练样本中共同出现的频率;统计完的结果,通过上述公式进行该变形词基于上下文概率的计算,得到一个n元语言模型。
在一些实施例中,设定上下文窗口大小是9,即是训练样本中的某个变形词前面和后面4个词的共现关系;计算流程如下:
S103、输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
待检测文本是指需要对其中的敏感词、变形词进行识别、验证的文档;通过调取敏感词库进行待检测文本中的敏感词的识别,通过调取变形词库进行待检测文本中的变形词的识别,具体识别方式如S701、S702。
如图7所示,在步骤S103中,对所述待检测文本进行识别包括以下步骤:
S701、遍历所述待检测文本,并根据其中的每个字构建候选变形字集合;
S702、从所述候选变形字集合中识别出与所述待检测文本中字一致的变形字,并据其关联到所述识别结果。
具体而言,针对待检测文本中的每个字,都从变形字库中搜寻到与某一个文本中的字对应的候选变形字集合,将变形字集合中的每一个变形字与待检测文本中的该文本字对比,若有类似的,则表明该文本字为变形字;按找上述方式对文本中的每个字都如此操作,得到文本变形字的集合,再根据文本顺序对变形字进行两两组合、拼接成文本变形词,最后根据文本变形词在变形字库中关联到相对应的字库变形词,则认为文本变形词为变形而来的;若在变形字库中未关联到相对应的字库变形词,则认为文本变形词为正常词语。识别结果是指判断为变形词的文本变形词的集合。可选的,在两两组合、拼接成文本变形词后,再根据其判断在敏感词库中是否能关联到相应的字库敏感词,若关联到,则判断为该文本变形词为变形而来。
在一些实施例中,如图12所示,遍历整个句子,通过变形字库查找获得可能是变形的字,包含了“叚”、“証”和“茄”字。对变形字两两组合进行拼接,并且从敏感词库中查找到“假证”是敏感词。
S104、将所述识别结果输入所述n元语言模型进行上下文语义验证。
如图8所示,在步骤S104中,进行上下文语义验证包括以下步骤:
S801、判断所述识别结果是否在n元语言模型中;
S802、若在,则筛选所述识别结果的上下文距离为m的邻近词,并进行验证计算:
若计算结果小于设定的阈值或者所述识别结果不在n元语言模型中时,判断所述识别结果为变形词。
举例而言,获得了识别结果w以及获取上下文距离为4以内的邻近词。如果变形词w不在n元语法模型的词典中,那么直接返回识别结果确认为变形词。如果变形词在n元语法模型的词典中,筛选出现在模型词典中的邻近词w1-w9,通过上述公式进行计算,计算结果小于设定的阈值那么判定识别结果确认为变形词,否则是正常词语。通过上下文语义进行了变形词的验证,避免误杀。
如图9所示,在步骤S104后,还包括以下步骤:
S901、输出语义验证结果,并周期性的将其输入所述训练样本中,得到更新样本;
S902、通过所更新样本对所述变形词进行基于上下文概率的训练。
周期性是指按照设定的周期将一个或多个已经验证过的待检测文本归入训练样本中;将验证后的待检测文本输入到训练样本中,使训练样本能够基于的内容不断的自动更新,在根据更新后的样本进行基于上下文概率的训练,从而能够获得精确性、鲁棒性较高的n元语言模型;随着文本的积累,再进行变形词的识别、判断时,具有更强的变形词识别、判断能力,误判的几率会随之不断减小。
上述技术方案中,本发明提供的一种变形词的识别验证方法,具有以下有益效果:
1)通过语音和字形的扩展,使变形字库可得到扩展,从而其中的变形词的数量得到扩充,质量得到提高,降低了误判的几率;
2)通过训练样本进行上下文概率的训练,从而使变形词的语义验证的误判几率进一步降低,并且精确性得到提高;
3)通过验证结果更新训练样本,使算法的自动更新性能提高,从而能够扩展用于语义验证的概念库,随着验证结果的积累,误判几率不断减小。
如图10所示,为本发明实施例还提供的一种变形词的识别验证系统,包括:
获取单元,用以获取敏感词和训练样本;
变形训练单元,用以根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
识别单元,用以输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
语义验证单元,用以将所述识别结果输入所述n元语言模型进行上下文语义验证。
上述技术方案中,本发明提供的一种变形词的识别验证方法,具有以下有益效果:
1)通过变形训练单元使变形字库可得到扩展,从而其中的变形词的数量得到扩充,质量得到提高,降低了误判的几率;
2)通过变形训练单元中的训练样本进行上下文概率的训练,从而使变形词的语义验证的误判几率进一步降低,并且精确性得到提高;
3)通过语义验证单元中的验证结果更新训练样本,使算法的自动更新性能提高,从而能够扩展用于语义验证的概念库,随着验证结果的积累,误判几率不断减小。
以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。
Claims (10)
1.一种变形词的识别验证方法,其特征在于,包括以下步骤:
获取敏感词和训练样本;
根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
将所述识别结果输入所述n元语言模型进行上下文语义验证。
2.根据权利要求1所述的变形词的识别验证方法,其特征在于,语音的扩展包括以下步骤:
提取所述敏感词的原始拼音,并据其关联得到类似发音的同音拼音;
将所述同音拼音对应的同音词归为语音变形词的范畴。
3.根据权利要求1所述的变形词的识别验证方法,其特征在于,字形的扩展包括以下步骤:
对所述敏感词进行偏旁拆解,并获得偏旁变形词;
对所述敏感词进行字形相似判断,并获得相似变形词。
4.根据权利要求3所述的变形词的识别验证方法,其特征在于,进行偏旁拆解包括以下步骤:
建立偏旁拆解词典,并据其对所述敏感词进行偏旁拆解;
确立偏旁拆解结果与敏感词中每个字间对应的关系。
5.根据权利要求3所述的变形词的识别验证方法,其特征在于,进行字形相似判断包括以下步骤:
通过英文字符对汉字笔画进行一一对应的定义;
根据所述敏感词中字的笔顺统计得到相应的英文字符;
根据所述相应的英文字符的个数和排列顺序,求得所述敏感词中字对应的编辑距离最小的变形字。
6.根据权利要求1所述的变形词的识别验证方法,其特征在于,所述n元语言模型的获得包括以下步骤:
对所述训练样本中对应的变形词wk出现的频率进行统计;
定义上下文窗口大小为K,并在所述上下文窗口范围内,对所述训练样本中对应的两个词wi,wk共同出现的频率进行统计;
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mn>1</mn>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>W</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>W</mi>
<mi>K</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>K</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>*</mo>
<munder>
<mi>&Pi;</mi>
<mrow>
<mi>i</mi>
<mo>&NotEqual;</mo>
<mi>k</mi>
</mrow>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>W</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,P(Wk=wk)=c(wk)/N,
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>W</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>W</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>=</mo>
<mi>c</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>,</mo>
<mi>k</mi>
<mo>-</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>/</mo>
<mi>c</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
K表示上下文窗口大小,N训练样本的数目,“wi”出现在“wk”后面第k-i位的统计数目。
7.根据权利要求1所述的变形词的识别验证方法,其特征在于,对所述待检测文本进行识别包括以下步骤:
遍历所述待检测文本,并根据其中的每个字构建候选变形字集合;
从所述候选变形字集合中识别出与所述待检测文本中字一致的变形字,并据其关联到所述识别结果。
8.根据权利要求1所述的变形词的识别验证方法,其特征在于,进行上下文语义验证包括以下步骤:
判断所述识别结果是否在n元语言模型中;
若在,则筛选所述识别结果的上下文距离为m的邻近词,并进行验证计算:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mn>1</mn>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>W</mi>
<mi>s</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>s</mi>
</msub>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>W</mi>
<mi>m</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>s</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>s</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>*</mo>
<munder>
<mi>&Pi;</mi>
<mrow>
<mi>i</mi>
<mo>&NotEqual;</mo>
<mi>s</mi>
</mrow>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>W</mi>
<mi>s</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mi>s</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
若计算结果小于设定的阈值或者所述识别结果不在n元语言模型中时,判断所述识别结果为变形词。
9.根据权利要求1所述的变形词的识别验证方法,其特征在于,得到变形词后还包括以下步骤:
输出语义验证结果,并周期性的将其输入所述训练样本中,得到更新样本;
通过所更新样本对所述变形词进行基于上下文概率的训练。
10.一种变形词的识别验证系统,其特征在于,包括:
获取单元,用以获取敏感词和训练样本;
变形训练单元,用以根据所述敏感词进行语音和字形扩展得到变形词,并通过所述训练样本进行基于上下文概率的训练,得到n元语言模型;
识别单元,用以输入待检测文本,并根据所述敏感词和变形词对所述待检测文本进行识别;
语义验证单元,用以将所述识别结果输入所述n元语言模型进行上下文语义验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710482689.XA CN107357778B (zh) | 2017-06-22 | 2017-06-22 | 一种变形词的识别验证方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710482689.XA CN107357778B (zh) | 2017-06-22 | 2017-06-22 | 一种变形词的识别验证方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107357778A true CN107357778A (zh) | 2017-11-17 |
CN107357778B CN107357778B (zh) | 2020-10-30 |
Family
ID=60273121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710482689.XA Active CN107357778B (zh) | 2017-06-22 | 2017-06-22 | 一种变形词的识别验证方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107357778B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182246A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN108647309A (zh) * | 2018-05-09 | 2018-10-12 | 达而观信息科技(上海)有限公司 | 基于敏感词的聊天内容审核方法及系统 |
CN109408824A (zh) * | 2018-11-05 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109753968A (zh) * | 2019-01-11 | 2019-05-14 | 北京字节跳动网络技术有限公司 | 字符识别模型的生成方法、装置、设备及介质 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
CN110008307A (zh) * | 2019-01-18 | 2019-07-12 | 中国科学院信息工程研究所 | 一种基于规则和统计学习的变形实体识别方法和装置 |
CN110287286A (zh) * | 2019-06-13 | 2019-09-27 | 北京百度网讯科技有限公司 | 短文本相似度的确定方法、装置及存储介质 |
CN110516232A (zh) * | 2019-07-22 | 2019-11-29 | 北京师范大学 | 一种用于汉语评测的自动命题方法和系统 |
CN110941959A (zh) * | 2018-09-21 | 2020-03-31 | 阿里巴巴集团控股有限公司 | 文本违规检测、文本还原方法、数据处理方法及设备 |
CN110969176A (zh) * | 2018-09-29 | 2020-04-07 | 杭州海康威视数字技术股份有限公司 | 一种车牌样本扩增方法、装置和计算机设备 |
CN111078827A (zh) * | 2019-12-23 | 2020-04-28 | 上海米哈游天命科技有限公司 | 一种关键词判断方法、装置、设备和介质 |
WO2020082890A1 (zh) * | 2018-10-25 | 2020-04-30 | 阿里巴巴集团控股有限公司 | 一种文本还原方法、装置及电子设备 |
CN111488732A (zh) * | 2019-01-25 | 2020-08-04 | 深信服科技股份有限公司 | 一种变形关键词检测方法、系统及相关设备 |
CN111710328A (zh) * | 2020-06-16 | 2020-09-25 | 北京爱医声科技有限公司 | 语音识别模型的训练样本选取方法、装置及介质 |
CN112818108A (zh) * | 2021-02-24 | 2021-05-18 | 中国人民大学 | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
CN112989789A (zh) * | 2021-03-15 | 2021-06-18 | 京东数科海益信息科技有限公司 | 文本审核模型的测试方法、装置、计算机设备及存储介质 |
CN113392772A (zh) * | 2021-06-17 | 2021-09-14 | 南开大学 | 一种面向文字识别的文字图像收缩变形增强方法 |
CN113449199A (zh) * | 2021-09-01 | 2021-09-28 | 深圳市知酷信息技术有限公司 | 一种基于综合安全审计的文档监控管理系统 |
CN113537225A (zh) * | 2020-04-22 | 2021-10-22 | 华晨宝马汽车有限公司 | 用于字符识别的方法、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140297261A1 (en) * | 2013-03-28 | 2014-10-02 | Hewlett-Packard Development Company, L.P. | Synonym determination among n-grams |
CN105389349A (zh) * | 2015-10-27 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及装置 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN106649276A (zh) * | 2016-12-29 | 2017-05-10 | 北京京东尚科信息技术有限公司 | 标题中核心产品词的识别方法以及装置 |
CN106708893A (zh) * | 2015-11-17 | 2017-05-24 | 华为技术有限公司 | 搜索查询词纠错方法和装置 |
-
2017
- 2017-06-22 CN CN201710482689.XA patent/CN107357778B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140297261A1 (en) * | 2013-03-28 | 2014-10-02 | Hewlett-Packard Development Company, L.P. | Synonym determination among n-grams |
CN105389349A (zh) * | 2015-10-27 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及装置 |
CN106708893A (zh) * | 2015-11-17 | 2017-05-24 | 华为技术有限公司 | 搜索查询词纠错方法和装置 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN106649276A (zh) * | 2016-12-29 | 2017-05-10 | 北京京东尚科信息技术有限公司 | 标题中核心产品词的识别方法以及装置 |
Non-Patent Citations (1)
Title |
---|
李少卿等: "不良文本变体关键词识别的词汇串相似度计算", 《计算机应用与软件》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182246B (zh) * | 2017-12-28 | 2020-10-30 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN108182246A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN108647309A (zh) * | 2018-05-09 | 2018-10-12 | 达而观信息科技(上海)有限公司 | 基于敏感词的聊天内容审核方法及系统 |
CN108647309B (zh) * | 2018-05-09 | 2021-08-10 | 达而观信息科技(上海)有限公司 | 基于敏感词的聊天内容审核方法及系统 |
CN110941959B (zh) * | 2018-09-21 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 文本违规检测、文本还原方法、数据处理方法及设备 |
CN110941959A (zh) * | 2018-09-21 | 2020-03-31 | 阿里巴巴集团控股有限公司 | 文本违规检测、文本还原方法、数据处理方法及设备 |
CN110969176A (zh) * | 2018-09-29 | 2020-04-07 | 杭州海康威视数字技术股份有限公司 | 一种车牌样本扩增方法、装置和计算机设备 |
CN110969176B (zh) * | 2018-09-29 | 2023-12-29 | 杭州海康威视数字技术股份有限公司 | 一种车牌样本扩增方法、装置和计算机设备 |
WO2020082890A1 (zh) * | 2018-10-25 | 2020-04-30 | 阿里巴巴集团控股有限公司 | 一种文本还原方法、装置及电子设备 |
CN109408824B (zh) * | 2018-11-05 | 2023-04-25 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109408824A (zh) * | 2018-11-05 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109753968A (zh) * | 2019-01-11 | 2019-05-14 | 北京字节跳动网络技术有限公司 | 字符识别模型的生成方法、装置、设备及介质 |
CN110008307A (zh) * | 2019-01-18 | 2019-07-12 | 中国科学院信息工程研究所 | 一种基于规则和统计学习的变形实体识别方法和装置 |
CN110008307B (zh) * | 2019-01-18 | 2021-12-28 | 中国科学院信息工程研究所 | 一种基于规则和统计学习的变形实体识别方法和装置 |
CN111488732A (zh) * | 2019-01-25 | 2020-08-04 | 深信服科技股份有限公司 | 一种变形关键词检测方法、系统及相关设备 |
CN111488732B (zh) * | 2019-01-25 | 2024-04-09 | 深信服科技股份有限公司 | 一种变形关键词检测方法、系统及相关设备 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
CN110287286A (zh) * | 2019-06-13 | 2019-09-27 | 北京百度网讯科技有限公司 | 短文本相似度的确定方法、装置及存储介质 |
CN110287286B (zh) * | 2019-06-13 | 2022-03-08 | 北京百度网讯科技有限公司 | 短文本相似度的确定方法、装置及存储介质 |
CN110516232A (zh) * | 2019-07-22 | 2019-11-29 | 北京师范大学 | 一种用于汉语评测的自动命题方法和系统 |
CN111078827A (zh) * | 2019-12-23 | 2020-04-28 | 上海米哈游天命科技有限公司 | 一种关键词判断方法、装置、设备和介质 |
CN113537225B (zh) * | 2020-04-22 | 2024-06-28 | 华晨宝马汽车有限公司 | 用于字符识别的方法、电子设备和存储介质 |
CN113537225A (zh) * | 2020-04-22 | 2021-10-22 | 华晨宝马汽车有限公司 | 用于字符识别的方法、电子设备和存储介质 |
CN111710328B (zh) * | 2020-06-16 | 2024-01-12 | 北京爱医声科技有限公司 | 语音识别模型的训练样本选取方法、装置及介质 |
CN111710328A (zh) * | 2020-06-16 | 2020-09-25 | 北京爱医声科技有限公司 | 语音识别模型的训练样本选取方法、装置及介质 |
CN112818108A (zh) * | 2021-02-24 | 2021-05-18 | 中国人民大学 | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
CN112818108B (zh) * | 2021-02-24 | 2023-10-13 | 中国人民大学 | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
CN112989789A (zh) * | 2021-03-15 | 2021-06-18 | 京东数科海益信息科技有限公司 | 文本审核模型的测试方法、装置、计算机设备及存储介质 |
CN112989789B (zh) * | 2021-03-15 | 2024-05-17 | 京东科技信息技术有限公司 | 文本审核模型的测试方法、装置、计算机设备及存储介质 |
CN113392772B (zh) * | 2021-06-17 | 2022-04-19 | 南开大学 | 一种面向文字识别的文字图像收缩变形增强方法 |
CN113392772A (zh) * | 2021-06-17 | 2021-09-14 | 南开大学 | 一种面向文字识别的文字图像收缩变形增强方法 |
CN113449199B (zh) * | 2021-09-01 | 2021-11-26 | 深圳市知酷信息技术有限公司 | 一种基于综合安全审计的文档监控管理系统 |
CN113449199A (zh) * | 2021-09-01 | 2021-09-28 | 深圳市知酷信息技术有限公司 | 一种基于综合安全审计的文档监控管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107357778B (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107357778A (zh) | 一种变形词的识别验证方法及系统 | |
CN112149406B (zh) | 一种中文文本纠错方法及系统 | |
US8005664B2 (en) | System, method to generate transliteration and method for generating decision tree to obtain transliteration | |
CN103853702B (zh) | 校正语料中的成语错误的装置和方法 | |
CN105404621B (zh) | 一种用于盲人读取汉字的方法及系统 | |
CN104166462A (zh) | 一种文字的输入方法和系统 | |
US10452785B2 (en) | Translation assistance system, translation assistance method and translation assistance program | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
CN102236650A (zh) | 用于修正和/或扩展情感词典的方法和装置 | |
CN102193646B (zh) | 人名候选词的生成方法及装置 | |
CN105512110B (zh) | 一种基于模糊匹配与统计的错字词知识库构建方法 | |
CN102956231A (zh) | 基于半自动校正的语音关键信息记录装置及方法 | |
CN103688254B (zh) | 用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
US10650195B2 (en) | Translated-clause generating method, translated-clause generating apparatus, and recording medium | |
CN107247613A (zh) | 语句解析方法及语句解析装置 | |
CN106202037B (zh) | 基于组块的越南语短语树构建方法 | |
KR101695014B1 (ko) | 감성 어휘 정보 구축 방법 및 장치 | |
CN114298010A (zh) | 一种融合双语言模型和句子检测的文本生成方法 | |
US10970489B2 (en) | System for real-time expression of semantic mind map, and operation method therefor | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
JP2018163660A (ja) | 英語の音節計算法に基づいた可読性評価方法及びシステム | |
Mohamed et al. | Arabic Part of Speech Tagging. | |
Mekki et al. | COTA 2.0: An automatic corrector of Tunisian Arabic social media texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012 Patentee after: Daguan Data Co.,Ltd. Address before: Rooms 501A and 501B, Building A, No. 112 Liangxiu Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, 200000 Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd. |