Nothing Special   »   [go: up one dir, main page]

CN111046627B - 一种中文文字显示方法及系统 - Google Patents

一种中文文字显示方法及系统 Download PDF

Info

Publication number
CN111046627B
CN111046627B CN201811192158.8A CN201811192158A CN111046627B CN 111046627 B CN111046627 B CN 111046627B CN 201811192158 A CN201811192158 A CN 201811192158A CN 111046627 B CN111046627 B CN 111046627B
Authority
CN
China
Prior art keywords
word
sub
combination
sentence
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811192158.8A
Other languages
English (en)
Other versions
CN111046627A (zh
Inventor
辛洋
姚冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Guangzhou Kingsoft Mobile Technology Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN201811192158.8A priority Critical patent/CN111046627B/zh
Publication of CN111046627A publication Critical patent/CN111046627A/zh
Application granted granted Critical
Publication of CN111046627B publication Critical patent/CN111046627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本申请实施例提供了一种中文文字显示方法及系统,该方法包括:接收用户输入的文本段;根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合和第一子词组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成,所述第一子词组合为所述第一句子中满足预设的筛选规则的子词组合;在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合;如果所述第一字组合和/或所述第一子词组合不存在,则显示存在文字错误的消息。采用本申请,可以高效、准确的识别出多种类型的文字错误。

Description

一种中文文字显示方法及系统
技术领域
本发明涉及计算机技术领域,特别是涉及一种中文文字显示方法及系统。
背景技术
用户可以通过多种方式在电子设备中输入文字,比如通过各类输入法输入文字、通过电子设备配置的屏幕或触摸板手写输入文字、以及通过复制电子设备中已有文字,在文字编辑软件中粘贴得到文字等。
由于用户输入的文字会存在多种文字错误,比如用户通过拼音输入法输入文字时,输入与正确字拼音相同的其他字而产生的错别字;用户在通过电子设备配置的屏幕或触摸板手写输入文字时,电子设备中预设的文字处理软件将用户输入的文字识别为与正确字的字形接近的其他字,而产生的形近字错误;用户在当前文档中粘贴从其他文档中复制的文本段时,由于电子设备发生读取错误,使得粘贴的文本段与复制或者剪切的文本段相比,多了字时产生的多余字错误,或者少了字时产生的缺少字错误。目前,用户只能通过逐字检查输入的文本段,以发现文字错误。
然而,用户逐字检查文本段以发现文字错误的方式,既浪费时间,准确率也低,因此,亟需能够高效、准确的识别出多种类型的文字错误的方法。
发明内容
本发明实施例的目的在于提供一种中文文字显示方法及系统,以高效、准确的识别出多种类型的文字错误。具体技术方案如下:
第一方面,提供了一种中文文字显示方法,所述方法包括:
接收用户输入的文本段;
根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;
针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合和第一子词组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成,所述第一子词组合为所述第一句子中满足预设的筛选规则的子词组合;
在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合;
如果所述第一字组合和/或所述第一子词组合不存在,则显示存在文字错误的消息。
可选的,所述在预先存储的数据库中,判断是否存在所述第一子词组合,包括:
在预先存储的数据库中,确定与所述第一子词组合的拼音相同的多个子词组合;
在所述多个子词组合中,判断是否存在所述第一子词组合。
可选的,所述在所述第一句子的多个分词中获取第一字组合,包括:
根据预设的中文拼写语法检查算法,在所述第一句子的多个分词中,获取第一字组合。
可选的,所述在所述第一句子的多个分词中获取第一子词组合,包括:
在预先存储的子词表中,查找所述第一句子的多个分词对应的子词;
在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,得到所述第一子词组合。
可选的,所述在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,包括:
通过预设的同音字算法,在所述多个分词对应的子词中,确定无子词的分词和开头子词,其中,所述开头子词为有子词的分词中的第一个子词;
确定由相邻的所述无子词的分词和所述开头子词构成子词组合、以及相邻的两个所述无子词的分词构成子词组合;
在所述子词组合中,确定满足预设组合形式的子词组合。
可选的,所述预设组合形式包括以一种或多种:
由两个单字、以及一个包含至少两个单字的子词顺序组成;
由两个包含至少包括两个单字的子词顺序组成;
由一个包含至少两个单字的子词、以及两个单字顺序组成;
由一个包含至少两个单字的子词、以及一个单字顺序组成;
由一个单字、以及一个包含至少两个单字的子词顺序组成。
可选的,所述方法还包括:
获取样本文档,所述样本文档为不存在文字错误的文档;
根据预设的切词算法,对所述样本文档进行切词,得到多个第二句子,以及每个第二句子包含的多个分词;
针对所述每个第二句子,在所述第二句子的多个分词中获取第二字组合和第二子词组合;
在预设的数据库中存储所述第二字组合和所述第二子词组合。
第二方面,提供了一种中文文字显示系统,所述系统包括:
接收模块,用于接收用户输入的文本段;
第一切词模块,用于根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;
第一获取模块,用于针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合和第一子词组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成,所述第一子词组合为所述第一句子中满足预设的筛选规则的子词组合;
判断模块,用于在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合;
显示模块,用于当所述第一字组合和/或所述第一子词组合不存在时,显示存在文字错误的消息。
可选的,所述判断模块包括:
第一确定子模块,用于在预先存储的数据库中,确定与所述第一子词组合的拼音相同的多个子词组合;
判断子模块,用于在所述多个子词组合中,判断是否存在所述第一子词组合。
可选的,所述第一获取模块包括:
获取子模块,用于根据预设的中文拼写语法检查算法,在所述第一句子的多个分词中,获取第一字组合。
可选的,所述第一获取模块还包括:
查找子模块,用于在预先存储的子词表中,查找所述第一句子的多个分词对应的子词;
第二确定子模块,用于在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,得到所述第一子词组合。
可选的,所述第二确定子模块包括:
第三确定子模块,用于通过预设的同音字算法,在所述多个分词对应的子词中,确定无子词的分词和开头子词,其中,所述开头子词为有子词的分词中的第一个子词;
第四确定子模块,用于确定由相邻的所述无子词的分词和所述开头子词构成子词组合、以及相邻的两个所述无子词的分词构成子词组合;
第五确定子模块,用于在所述子词组合中,确定满足预设组合形式的子词组合。
可选的,所述预设组合形式包括以一种或多种:
由两个单字、以及一个包含至少两个单字的子词顺序组成;
由两个包含至少包括两个单字的子词顺序组成;
由一个包含至少两个单字的子词、以及两个单字顺序组成;
由一个包含至少两个单字的子词、以及一个单字顺序组成;
由一个单字、以及一个包含至少两个单字的子词顺序组成。
可选的,所述系统还包括:
第二获取模块,用于获取样本文档,所述样本文档为不存在文字错误的文档;
第二切词模块,用于根据预设的切词算法,对所述样本文档进行切词,得到多个第二句子,以及每个第二句子包含的多个分词;
第三获取模块,用于针对所述每个第二句子,在所述第二句子的多个分词中获取第二字组合和第二子词组合;
存储模块,用于在预设的数据库中存储所述第二字组合和所述第二子词组合。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法步骤。
本发明实施例提供的一种中文文字显示方法及系统,可以通过预设的切词算法,对用户输入的文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;然后,通过针对每个第一句子,在该第一句子的多个分词中获取第一字组合和第一子词组合。之后,在预先存储的数据库中,判断是否存在第一字组合或第一子词组合,如果第一字组合和/或第一子词组合不存在,则显示存在文字错误的消息。本申请中,由于针对用户已经输入的文本段进行切词得到多个第一句子,在每个第一句子的多个分词中获取第一字组合和第一子词组合,并判断第一字组合或第一子词组合是否存在于预先存储的数据库中,根据判断结果确定文本段是否存在文字错误,因此,能够适用于多种输入方式,识别出多种类型的文字错误。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种中文文字显示方法的方法流程图;
图2a为本申请实施例提供的一种提示存在文字错误的示例性视图;
图2b为本申请实施例提供的一种提示存在文字错误的示例性视图;
图3为本申请实施例提供的一种中文文字显示方法的方法流程图;
图4为本申请实施例提供的一种中文文字显示方法的方法流程图;
图5为本申请实施例提供的一种中文文字显示系统的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供了一种中文文字显示方法,该方法应用于电子设备,电子设备可以是具有文字编辑功能、显示文字功能的设备,例如手机、平板电脑、以及个人电脑等。电子设备中可以安装有用于文字处理的应用程序,用户可以通过该应用程序输入文字,对文本段进行排版或者其他文字编辑操作。
本申请实施例提供的一种中文字显示方法,能够适用于多种输入方式,识别出多种类型的文字错误。其中,文字指的是中文文字,文字错误指的是中文文字错误,中文文字错误包括语法错误、错别字、多余字错误和缺少字错误等,本申请实施例不做限定。
本申请实施例提供了一种中文文字显示方法,如图1所示,该方法的具体处理流程包括:
步骤101,接收用户输入的文本段。
在实施中,用户可以通过各种输入法在电子设备中输入文字;或者,可以通过电子设备配置的屏幕、触摸板手写输入文字;或者,可以通过将从其他文档复制或者剪切的文本段粘贴在当前文档的方式输入文字。
此外,还可以存在其他输入文字的方式,比如,用户通过电子设备中预先存储的语音识别模块,将语音转换为文字;用户通过电子设备中预先存储的OCR(Optical CharacterRecognition,光学字符识别)模块,将纸质文件中的文字转换为电子文件中的文字。
电子设备可以按照预设的处理周期,将该处理周期内接收到的用户输入的所有文字作为文本段;电子设备也可以在接收用户输入的文字的过程中,每当用户输入的文字达到预设数目时,将该预设数目个文字作为文本段。
步骤102,根据预设的切词算法,对文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词。
其中,电子设备中可以预先设置有切词算法,在一种实现方式中,电子设备可以采用具有分句和分词功能的切词算法,通过切词算法对文本段进行切词,直接得到文本段包含的多个句子(即第一句子),以及每个第一句子包含的多个分词。切词算法可以是正向最大匹配法,或者双向最大匹配法,或者其他具有分句和分词功能的算法,本申请实施例不做限定。
例如,当用户输入的文本段为:“我们是中华人民共和国公民,坚决拥护中国共产党的领导,自觉遵守宪法和法律”。电子设备通过预设的切词算法对该文本段进行切词,得到文本段的多个第一句子分别为“我们是中华人民共和国公民”、“坚决拥护中国共产党的领导”、以及“自觉遵守宪法和法律”。
电子设备通过切词算法对第一句子“我们是中华人民共和国公民”进行切词,得到的多个分词为:“我们”、“是”、“中华人民共和国”、“公民”。电子设备通过切词算法对第一句子“坚决拥护中国共产党的领导”进行切词,得到的多个分词为:“坚决”、“拥护”、“中国共产党”、“的”、“领导”。电子设备通过切词算法对第一句子“自觉遵守宪法和法律”进行切词,得到的多个分词为:“自觉”、“遵守”、“宪法”、“和”、“法律”。
在另一种实现方式中,电子设备可以采用只具有分词功能的切词算法对第一句子进行分词,得到第一句子包含的多个分词。在该情况下,电子设备中可以存储有断句条件。断句条件可以是用于划分句子的条件。电子设备可以根据断句条件将文本段划分为多个句子(即第一句子),具体的处理过程可以为:电子设备根据断句条件,在文本段中以第一预设字符作为起始字符,按照文本段中文字的输入顺序读取字符,当检测到第二预设字符时,将第二预设字符作为终止字符,然后,提取第一预设字符和第二预设字符之间的字符串作为第一句子。以此类推,可以得到文本段的多个第一句子。其中,第一预设字符包括分节符、分页符、标点符号、字母以及停用词等,本申请实施例不做限定。第二预设字符包括标点符号、字母、以及停用词等,停用词比如“啊”和“也”等,本申请实施例不做限定。
例如,电子设备可以根据断句条件,在文本段中以某一句号为起始字符,按照文本段中文字的输入顺序读取字符,以最先出现的逗号为终止字符,将该句号与该逗号之间的字符作为第一句子。
需要说明的是,分词可以是一个单字,也可以是一个包含至少两个单字的词。
步骤103,针对每个第一句子,在第一句子的多个分词中获取第一字组合和第一子词组合。
其中,第一字组合由第一句子中无法组成词的连续多个单字组成。电子设备中预先设置有筛选规则,电子设备可以基于筛选规则,从第一句子的多个分词中获取第一子词组合。筛选规则的具体形式后续会进行说明,电子设备可以根据技术人员的设置指令对存储的筛选规则进行修改。
在实施中,电子设备针对每个第一句子,在该第一句子的多个分词中,选取单字形式的分词,然后选取连续多个单字形式的分词,该连续多个单字形式的分词,即组成第一字组合,也即由无法组成词的连续多个单字组成第一字组合。例如,第一字组合可以是“的词之”。
电子设备针对每个第一句子包含的多个分词,获取每个分词对应的子词,得到第一句子对应的多个子词。然后,电子设备在第一句子对应的多个子词中,获取满足筛选规则的子词组合,得到第一子词组合。
本申请实施例中,第一字组合包含的单字的个数大于等于2个。电子设备获取第一字组合和获取第一子词组合的执行步骤没有特定的先后顺序。
步骤104,在预先存储的数据库中,判断是否存在第一字组合或第一子词组合。
在实施中,电子设备中预先存储有数据库,数据库中对应存储有多个字组合和多个子词组合。电子设备在该数据库中,判断是否存在第一字组合或第一子词组合。
在另一种可行的实现方式中,电子设备中存储的数据库可以包括第一数据库和第二数据库,其中,第一数据库中可以存储有多个字组合,第二数据库中可以存储有多个子词组合。
电子设备可以在第一数据库的多个字组合中,查找是否存在与第一字组合相同的字组合,如果存在与第一字组合相同的字组合,则判定数据库中存在第一字组合;如果不存在与第一字组合相同的字组合,则判定数据库中不存在第一字组合。
类似的,电子设备可以在第二数据库的多个子词组合中,查找是否存在与第一子词组合相同的子词组合,如果存在与第一子词组合相同的子词组合,则判定数据库中存在第一子词组合;如果不存在与第一子词组合相同的字组合,则判定数据库中不存在第一子词组合。
步骤105,如果第一字组合和/或第一子词组合不存在,则显示存在文字错误的消息。
在实施中,如果电子设备判定数据库中存在第一字组合,不存在第一子词组合;或者,数据库中不存在第一字组合,不存在第一子词组合;或者,数据库中均不存在第一字组合和第一子词组合,则显示存在文字错误的消息。
电子设备显示存在文字错误的消息的方式可以是多种多样的,例如,当第一数据库中不存在第一字组合“的词之”时,电子设备可以通过对文本段中的该第一字组合进行下划线和加粗显示的方式,提示用户存在文字错误,具体情况如图2a所示;电子设备也可以通过弹出包含有文字错误标识的注释框,提示用户存在文字错误,具体情况如图2b所示。图2a和图2b中示出了一个文字处理的应用程序的显示界面,显示界面的中间区域为文本显示区域,文本显示区域中显示了用户输入的文本段,该文本段为“在执行第二步之后,得到了多个词,然后,找出第二步得出的词之子词”。
本申请实施例中,将用户的实际场景数据(也即从用户输入的文本段中提取的第一字组合和第一子词组合)作为案例,与库(也即预先存储的数据库)进行对比,若在库中找到该案例一样的数据,则判断该案例为正确,若库中不存在与该案例一样的数据,则判断该案例为错误。本申请采用了通用、泛化的方法来识别文本段中的文字错误,打破了识别文字错误种类的局限,提高了文字错误识别率。
可选的,电子设备在第一句子的多个分词中,获取第一字组合的具体处理流程为:根据预设的中文拼写语法检查算法,在第一句子的多个分词中,获取第一字组合。
在实施中,电子设备中可以根据预设的中文拼写语法检查算法,在第一句子的多个分词中,选取无法组成词的连续多个单字形式的分词,将该连续多个分词作为第一字组合。
例如,当第一句子为“找出第二步得出的词之子词”时,第一句子的多个分词为:“找出”、“第二步”、“得出”、“的”、“词”、“之”、“子词”,电子设备通过预设的中文拼写语法检查算法,选取的无法组成词的连续多个单字形式的分词为:“的”、“词”、“之”,将“的词之”作为第一字组合。
本申请实施例中,电子设备通过中文拼写语法检查算法,获取第一句子中无法组成词的连续多个单字形式的分词作为第一字组合,与逐一对第一句子中的每个分词进行文字错误判断相比,能够提高对第一句子的处理速度,提高文字错误识别效率。
可选的,电子设备基于筛选规则,在第一句子的多个分词中,获取第一子词组合的具体处理流程包括:
步骤一、在预先存储的子词表中,查找第一句子的多个分词对应的子词。
在实施中,电子设备中可以预先存储有子词表,子词表包含多个分词、以及每个分词对应的子词。其中,分词包括有子词的分词,以及无子词的分词。有子词的分词,即该分词由多个子词组成,例如,分词“说明书”由子词“说明”和子词“书”组成。无子词的分词,即该分词仅由一个不可分词的子词组成,该子词即为该分词,例如“方法”。子词是一个分词可被分割的最小单位。
电子设备针对每个第一句子的多个分词,在预先存储的子词表中查找该分词对应的子词,由此,得到第一句子的多个分词对应的子词。
例如,当第一句子为“我们是中华人民共和国公民”时,电子设备针对第一句子的多个分词:“我们”、“是”、“中华人民共和国”、“公民”,在子词表中查找分词“我们”的子词为:“我们”;分词“是”的子词为:“是”;分词“中华人民共和国”的子词为:“中华”、“人民”、“共和”、以及“国”;分词“公民”的子词为:“公民”。
由此,电子设备得到第一句子“我们是中华人民共和国公民”的多个分词对应的子词为:“我们”、“是”、“中华”、“人民”、“共和”、“国”、“公民”。
步骤二、在多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,得到第一子词组合。
在实施中,电子设备可以通过预设的同音字算法,在多个分词对应的子词中,确定满足预设组合形式的子词组合为第一子词组合。
本申请实施例中,电子设备通过同音字算法,获取第一句子中满足预设组合形式的子词组合作为第一子词组合,与逐一对第一句子中的每个分词进行文字错误判断相比,能够提高对第一句子的处理速度,提高文字错误识别效率。
本申请实施例提供了一种在多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,得到第一子词组合的可行的处理方式,如图3所示,该处理方式具体可以包括以下步骤:
步骤301,通过预设的同音字算法,在多个分词对应的子词中,确定无子词的分词和开头子词。
其中,开头子词为有子词的分词的多个子词中的第一个子词。例如,在分词“中华人民共和国”对应的子词“中华”、“人民”、“共和”、“国”中,子词“中华”即为开头子词。此外,为了便于区分,可以将“人民”和“共和”称为中间子词,“国”称为结尾子词,有分词的子词包括开头子词、中间子词和结尾子词。本申请实施例中,可以用B表示开头子词,用M表示中间子词,用E表示结尾子词,用O表示无子词的分词。
在实施中,电子设备可以通过预设的同音字算法,在多个分词对应的子词中,确定出无子词的分词和开头子词。
例如,当第一句子为“我们是中华人民共和国公民”时,多个分词为:我们/是/中华人民共和国/公民,多个分词对应的子词为:我们/是/中华/人民/共和/国/公民,可知,“我们”、“是”、“公民”是无子词的分词,“中华”是开头子词。
步骤302,确定由相邻的无子词的分词和开头子词构成子词组合、以及相邻的两个无子词的分词构成子词组合。
在实施中,电子设备基于确定出的无子词的分词和开头子词,选取相邻的无子词的分词和开头子词,构成子词组合;电子设备也可以选取相邻的两个无子词的分词构成子词组合。
例如,当第一句子为“我们是中华人民共和国公民”时,电子设备确定出的无子词的分词为“我们”、“是”、“公民”,开头子词是“中华”,相邻的无子词的分词和开头子词为“是”和“中华”,构成的子词组合为:“是中华”;相邻的两个无子词的分词为“我们”和“是”,构成的子词组合为:“我们是”。
步骤303,在子词组合中,确定满足预设组合形式的子词组合。
在实施中,电子设备中预先存储有预设组合形式,预设组合形式用于筛选子词组合,得到第一子词组合,电子设备可以根据技术人员的更改指令,改变本地存储的预设组合形式。
电子设备在子词组合中,确定满足预设组合形式的子词组合,得到第一子词组合。
本申请实施例中,电子设备通过同音字算法,获取第一句子中满足预设组合形式的子词组合作为第一子词组合,与逐一对第一句子中的每个分词进行文字错误判断相比,能够提高对第一句子的处理速度,提高文字错误识别效率。
本申请实施例中,预设组合形式可以包括以下形式中的一种或多种:
由两个单字、以及一个包含至少两个单字的子词顺序组成;由两个包含至少包括两个单字的子词顺序组成;由一个包含至少两个单字的子词、以及两个单字顺序组成;由一个包含至少两个单字的子词、以及一个单字顺序组成;由一个单字、以及一个包含至少两个单字的子词顺序组成。
例如:当预设组合形式包括上述多种形式时,电子设备确定子词组合“我们是”为满足由一个包含至少两个单字的子词、以及一个单字顺序组成的子词组合,将“我们是”作为第一子词组合。电子设备确定子词组合“是中华”为满足由一个单字、一个包含至少两个单字的子词顺序组成的子词组合,将“是中华”作为第一子词组合。
以上仅仅作为举例,并不对本申请造成限定,预设组合形式还可以有其他形式。
本申请实施例中,通过规定多种子词组合的预设组合形式,可以涵盖多种组合形式的子词组合,因此,确定出的第一子词组合包含文字错误的可能性更高,有利于提高文字错误识别效率。
此外,本申请实施例还提供了一种在预先存储的数据库中,判断是否存在第一子词组合的处理方式,具体处理流程如下:
步骤1、在预先存储的数据库中,确定与第一子词组合的拼音相同的多个子词组合。
在实施中,电子设备可以获取第一子词组合的拼音,然后在第二数据库的多个子词组合中,确定与第一子词组合的拼音相同的多个子词组合。
例如,电子设备获取第一子词组合“是中华”的拼音,得到shizhonghua。然后,电子设备在第二数据库的多个子词组合中,确定拼音为shizhonghua的多个子词组合,分别为是中华、使中华、是中化。
步骤2、在多个子词组合中,判断是否存在第一子词组合。
在实施中,电子设备在与第一子词组合具有相同拼音的多个子词组合中,判断是否存在与第一子词组合相同的子词组合,具体的,如果存在与第一子词组合相同的子词组合,则电子设备判定数据库中存在第一子词组合;如果不存在与第一子词组合相同的子词组合,则电子设备判定数据库中不存在第一子词组合。
例如,电子设备确定出具有相同拼音shizhonghua的多个子词组合为:是中华、使中华、是中化。电子设备判断出有与“是中华”相同的子词组合,则判定数据库中存在该第一子词组合。
本申请实施例中,在包含海量数据的数据库中,电子设备通过拼音确定第一子词组合对应的多个子词组合,能够有效提高判断数据库中是否存在第一子词组合的效率,进而提高文字错误识别效率。
此外,本申请实施例还提供了一种生成数据库的方式,如图4所示,该方式的具体处理流程包括:
步骤401,获取样本文档。
其中,样本文档可以是各类电子杂志刊登的文章、各学科的电子教材书籍等各类著作的电子文本。鉴于样本文档均由专业人员校对后公布,所以样本文档是文字错误出现概率较低的文档。电子设备可以在本地预先存储有多个样本文档,多个样本文档也可以预先存储于与电子设备通信连接的云端服务器中。
在实施中,电子设备可以在接收到技术人员发出的生成数据库指令后,获取本地存储的样本文档,或者获取云端服务器中存储的样本文档。电子设备也可以按照预设的处理周期,获取该处理周期内本地新存储的样本文档或者云端服务器中新存储的样本文档。
步骤402,根据预设的切词算法,对样本文档进行切词,得到多个第二句子,以及每个第二句子包含的多个分词。
在实施中,电子设备可以根据预设的切词算法,对该样本文档进行切词,得到多个第二句子,然后,电子设备针对每个第二句子,通过切词算法对该第二句子进行切词,得到该第二句子包含的多个分词。
步骤403,针对每个第二句子,在第二句子的多个分词中获取第二字组合和第二子词组合。
在实施中,电子设备针对每个第二句子,在第二句子的多个分词中确定无法组成词的连续多个单字组成第二字组合。
电子设备针对每个第二句子包含的多个分词,获取每个分词对应的子词,得到第二句子对应的多个子词。然后,电子设备在第二句子对应的多个子词中,通过同音字算法,获取第二子词组合。
具体的,电子设备获取第二子词组合的处理过程,与电子设备获取第一子词组合的处理过程相同。
本申请实施例中,电子设备可以通过中文拼写语法检查算法,在第二句子的多个分词中获取第二字组合;电子设备可以通过同音字算法,在第二句子的多个分词中获取第二子词组合。
步骤404,在预设的数据库中存储第二字组合和第二子词组合。
在实施中,电子设备可以在第一数据库中存储第二字组合。电子设备可以针对每个第二子词组合,获取第二子词组合的拼音,然后在第二数据库中对应存储第二子词组合以及第二子词组合的拼音,也即,将具有同一拼音的子词组合存储在一起。
例如,将拼音均为zheshiqishi的子词组合:这是歧视,这是骑士,这时其实,这事其实,存储为[zheshiqishi,这是歧视,这是骑士,这时其实,这事其实]的[拼音,子词组合]形式。
本申请实施例中,云端服务器可以基于存储的样本文档,生成数据库,电子设备从云端服务器中获取数据库。云端服务器生成数据库的具体处理过程与上述处理过程类似,此处不再赘述。
本申请实施例中,电子设备基于海量样本文档,有策略地提取第二字组合和第二子词组合,并依据第二字组合和第二子词组合构建了一个“正确”的数据库,即数据库中的字组合和子词组合均为能够正确的文字用法。能够有效提高实际应用中,识别文字错误的正确率。
由于本申请不是针对某一种文字错误研究对策,而是收集被普遍接受的文字用法建立数据库,也即建立的数据库基于大量正确的文字用法,因此,在对用户输入的文本段进行识别时,将第一字组合或第一子词组合与数据库进行对比,能识别出多种文字错误。本申请具有不局限于特定错误类型的特点,具有广泛的使用范围。
本发明实施例提供的一种中文文字显示方法及系统,可以通过预设的切词算法,对用户输入的文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;然后,通过针对每个第一句子,在该第一句子的多个分词中获取第一字组合和第一子词组合。之后,在预先存储的数据库中,判断是否存在第一字组合或第一子词组合,如果第一字组合和/或第一子词组合不存在,则显示存在文字错误的消息。本申请中,由于针对用户已经输入的文本段进行切词得到多个第一句子,在每个第一句子的多个分词中获取第一字组合和第一子词组合,并判断第一字组合或第一子词组合是否存在于预先存储的数据库中,根据判断结果确定文本段是否存在文字错误,因此,能够适用于多种输入方式,识别出多种类型的文字错误。
本发明实施例还提供了一种中文文字显示系统,如图5所示,该系统包括:
接收模块510,用于接收用户输入的文本段;
第一切词模块520,用于根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;
第一获取模块530,用于针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合和第一子词组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成,所述第一子词组合为所述第一句子中满足预设的筛选规则的子词组合;
判断模块540,用于在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合;
显示模块550,用于当所述第一字组合和/或所述第一子词组合不存在时,显示存在文字错误的消息。
可选的,所述判断模块包括:
第一确定子模块,用于在预先存储的数据库中,确定与所述第一子词组合的拼音相同的多个子词组合;
判断子模块,用于在所述多个子词组合中,判断是否存在所述第一子词组合。
可选的,所述第一获取模块包括:
获取子模块,用于根据预设的中文拼写语法检查算法,在所述第一句子的多个分词中,获取第一字组合。
可选的,所述第一获取模块还包括:
查找子模块,用于在预先存储的子词表中,查找所述第一句子的多个分词对应的子词;
第二确定子模块,用于在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,得到所述第一子词组合。
可选的,所述第二确定子模块包括:
第三确定子模块,用于通过预设的同音字算法,在所述多个分词对应的子词中,确定无子词的分词和开头子词,其中,所述开头子词为有子词的分词中的第一个子词;
第四确定子模块,用于确定由相邻的所述无子词的分词和所述开头子词构成子词组合、以及相邻的两个所述无子词的分词构成子词组合;
第五确定子模块,用于在所述子词组合中,确定满足预设组合形式的子词组合。
可选的,所述预设组合形式包括以一种或多种:
由两个单字、以及一个包含至少两个单字的子词顺序组成;
由两个包含至少包括两个单字的子词顺序组成;
由一个包含至少两个单字的子词、以及两个单字顺序组成;
由一个包含至少两个单字的子词、以及一个单字顺序组成;
由一个单字、以及一个包含至少两个单字的子词顺序组成。
可选的,所述系统还包括:
第二获取模块,用于获取样本文档,所述样本文档为不存在文字错误的文档;
第二切词模块,用于根据预设的切词算法,对所述样本文档进行切词,得到多个第二句子,以及每个第二句子包含的多个分词;
第三获取模块,用于针对所述每个第二句子,在所述第二句子的多个分词中获取第二字组合和第二子词组合;
存储模块,用于在预设的数据库中存储所述第二字组合和所述第二子词组合。
本发明实施例提供的一种中文文字显示方法及系统,可以通过预设的切词算法,对用户输入的文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;然后,通过针对每个第一句子,在该第一句子的多个分词中获取第一字组合和第一子词组合。之后,在预先存储的数据库中,判断是否存在第一字组合或第一子词组合,如果第一字组合和/或第一子词组合不存在,则显示存在文字错误的消息。本申请中,由于针对用户已经输入的文本段进行切词得到多个第一句子,在每个第一句子的多个分词中获取第一字组合和第一子词组合,并判断第一字组合或第一子词组合是否存在于预先存储的数据库中,根据判断结果确定文本段是否存在文字错误,因此,能够适用于多种输入方式,识别出多种类型的文字错误。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
接收用户输入的文本段;
根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;
针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合和第一子词组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成,所述第一子词组合为所述第一句子中满足预设的筛选规则的子词组合;
在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合;
如果所述第一字组合和/或所述第一子词组合不存在,则显示存在文字错误的消息。
可选的,所述在预先存储的数据库中,判断是否存在所述第一子词组合,包括:
在预先存储的数据库中,确定与所述第一子词组合的拼音相同的多个子词组合;
在所述多个子词组合中,判断是否存在所述第一子词组合。
可选的,所述在所述第一句子的多个分词中获取第一字组合,包括:
根据预设的中文拼写语法检查算法,在所述第一句子的多个分词中,获取第一字组合。
可选的,所述在所述第一句子的多个分词中获取第一子词组合,包括:
在预先存储的子词表中,查找所述第一句子的多个分词对应的子词;
在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,得到所述第一子词组合。
可选的,所述在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,包括:
通过预设的同音字算法,在所述多个分词对应的子词中,确定无子词的分词和开头子词,其中,所述开头子词为有子词的分词中的第一个子词;
确定由相邻的所述无子词的分词和所述开头子词构成子词组合、以及相邻的两个所述无子词的分词构成子词组合;
在所述子词组合中,确定满足预设组合形式的子词组合。
可选的,所述预设组合形式包括以一种或多种:
由两个单字、以及一个包含至少两个单字的子词顺序组成;
由两个包含至少包括两个单字的子词顺序组成;
由一个包含至少两个单字的子词、以及两个单字顺序组成;
由一个包含至少两个单字的子词、以及一个单字顺序组成;
由一个单字、以及一个包含至少两个单字的子词顺序组成。
可选的,所述方法还包括:
获取样本文档,所述样本文档为不存在文字错误的文档;
根据预设的切词算法,对所述样本文档进行切词,得到多个第二句子,以及每个第二句子包含的多个分词;
针对所述每个第二句子,在所述第二句子的多个分词中获取第二字组合和第二子词组合;
在预设的数据库中存储所述第二字组合和所述第二子词组合。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一中文文字显示方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一中文文字显示方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本发明实施例提供的一种中文文字显示方法及系统,可以通过预设的切词算法,对用户输入的文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;然后,通过针对每个第一句子,在该第一句子的多个分词中获取第一字组合和第一子词组合。之后,在预先存储的数据库中,判断是否存在第一字组合或第一子词组合,如果第一字组合和/或第一子词组合不存在,则显示存在文字错误的消息。本申请中,由于针对用户已经输入的文本段进行切词得到多个第一句子,在每个第一句子的多个分词中获取第一字组合和第一子词组合,并判断第一字组合或第一子词组合是否存在于预先存储的数据库中,根据判断结果确定文本段是否存在文字错误,因此,能够适用于多种输入方式,识别出多种类型的文字错误。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种中文文字显示方法,其特征在于,所述方法包括:
接收用户输入的文本段;
根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;
针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成;
针对所述每个第一句子,在预先存储的子词表中,查找所述第一句子的多个分词对应的子词;在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,得到第一子词组合;
在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合,所述数据库中对应存储有多个字组合和多个词组合;
如果所述第一字组合和/或所述第一子词组合不存在,则显示存在文字错误的消息。
2.根据权利要求1所述的方法,其特征在于,所述在预先存储的数据库中,判断是否存在所述第一子词组合,包括:
在预先存储的数据库中,确定与所述第一子词组合的拼音相同的多个子词组合;
在所述多个子词组合中,判断是否存在所述第一子词组合。
3.根据权利要求1所述的方法,其特征在于,所述在所述第一句子的多个分词中获取第一字组合,包括:
根据预设的中文拼写语法检查算法,在所述第一句子的多个分词中,获取第一字组合。
4.根据权利要求1所述的方法,其特征在于,所述在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,包括:
通过预设的同音字算法,在所述多个分词对应的子词中,确定无子词的分词和开头子词,其中,所述开头子词为有子词的分词中的第一个子词;
确定由相邻的所述无子词的分词和所述开头子词构成子词组合、以及相邻的两个所述无子词的分词构成子词组合;
在所述子词组合中,确定满足预设组合形式的子词组合。
5.根据权利要求1所述的方法,其特征在于,所述预设组合形式包括以下一种或多种:
由两个单字、以及一个包含至少两个单字的子词顺序组成;
由两个包含至少包括两个单字的子词顺序组成;
由一个包含至少两个单字的子词、以及两个单字顺序组成;
由一个包含至少两个单字的子词、以及一个单字顺序组成;
由一个单字、以及一个包含至少两个单字的子词顺序组成。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本文档;
根据预设的切词算法,对所述样本文档进行切词,得到多个第二句子,以及每个第二句子包含的多个分词;
针对所述每个第二句子,在所述第二句子的多个分词中获取第二字组合和第二子词组合;
在预设的数据库中存储所述第二字组合和所述第二子词组合。
7.一种中文文字显示装置,其特征在于,所述装置包括:
接收模块,用于接收用户输入的文本段;
第一切词模块,用于根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;
第一获取模块,用于针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成;
所述第一获取模块,还包括:
查找子模块,用于针对所述每个第一句子,在预先存储的子词表中,查找所述第一句子的多个分词对应的子词;
第二确定子模块,用于在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,得到第一子词组合;
判断模块,用于在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合,所述数据库中对应存储有多个字组合和多个词组合;
显示模块,用于当所述第一字组合和/或所述第一子词组合不存在时,显示存在文字错误的消息。
8.根据权利要求7所述的装置,其特征在于,所述判断模块包括:
第一确定子模块,用于在预先存储的数据库中,确定与所述第一子词组合的拼音相同的多个子词组合;
判断子模块,用于在所述多个子词组合中,判断是否存在所述第一子词组合。
9.根据权利要求7所述的装置,其特征在于,所述第一获取模块包括:
获取子模块,用于根据预设的中文拼写语法检查算法,在所述第一句子的多个分词中,获取第一字组合。
10.根据权利要求7所述的装置,其特征在于,所述第二确定子模块包括:
第三确定子模块,用于通过预设的同音字算法,在所述多个分词对应的子词中,确定无子词的分词和开头子词,其中,所述开头子词为有子词的分词中的第一个子词;
第四确定子模块,用于确定由相邻的所述无子词的分词和所述开头子词构成子词组合、以及相邻的两个所述无子词的分词构成子词组合;
第五确定子模块,用于在所述子词组合中,确定满足预设组合形式的子词组合。
11.根据权利要求7所述的装置,其特征在于,所述预设组合形式包括以一种或多种:
由两个单字、以及一个包含至少两个单字的子词顺序组成;
由两个包含至少包括两个单字的子词顺序组成;
由一个包含至少两个单字的子词、以及两个单字顺序组成;
由一个包含至少两个单字的子词、以及一个单字顺序组成;
由一个单字、以及一个包含至少两个单字的子词顺序组成。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取样本文档,所述样本文档为不存在文字错误的文档;
第二切词模块,用于根据预设的切词算法,对所述样本文档进行切词,得到多个第二句子,以及每个第二句子包含的多个分词;
第三获取模块,用于针对所述每个第二句子,在所述第二句子的多个分词中获取第二字组合和第二子词组合;
存储模块,用于在预设的数据库中存储所述第二字组合和所述第二子词组合。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN201811192158.8A 2018-10-12 2018-10-12 一种中文文字显示方法及系统 Active CN111046627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811192158.8A CN111046627B (zh) 2018-10-12 2018-10-12 一种中文文字显示方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811192158.8A CN111046627B (zh) 2018-10-12 2018-10-12 一种中文文字显示方法及系统

Publications (2)

Publication Number Publication Date
CN111046627A CN111046627A (zh) 2020-04-21
CN111046627B true CN111046627B (zh) 2023-09-19

Family

ID=70230060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811192158.8A Active CN111046627B (zh) 2018-10-12 2018-10-12 一种中文文字显示方法及系统

Country Status (1)

Country Link
CN (1) CN111046627B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269192B (zh) * 2021-05-24 2024-04-30 东南大学 一种基于词匹配和语法匹配的ocr后处理方法
CN113221797B (zh) * 2021-05-24 2024-01-19 厦门科路德科技有限公司 一种印刷文件的防伪识别方法、装置以及设备
CN115188013B (zh) * 2022-09-14 2023-06-30 泰豪信息技术有限公司 一种判决书的风险防控方法、系统、存储介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079027A (zh) * 2007-06-27 2007-11-28 腾讯科技(深圳)有限公司 一种中文分词方法及系统
CN101122900A (zh) * 2007-09-25 2008-02-13 中兴通讯股份有限公司 一种分词系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079027A (zh) * 2007-06-27 2007-11-28 腾讯科技(深圳)有限公司 一种中文分词方法及系统
CN101122900A (zh) * 2007-09-25 2008-02-13 中兴通讯股份有限公司 一种分词系统及方法

Also Published As

Publication number Publication date
CN111046627A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
JP4301515B2 (ja) 文章表示方法、情報処理装置、情報処理システム、プログラム
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
CN110705302B (zh) 命名实体的识别方法、电子设备及计算机存储介质
CN110956016B (zh) 一种文档内容格式的调整方法、装置及电子设备
CN109145282B (zh) 断句模型训练方法、断句方法、装置及计算机设备
US9218325B2 (en) Quick font match
CN108573707B (zh) 一种语音识别结果的处理方法、装置、设备及介质
JP2006190006A5 (zh)
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN111046627B (zh) 一种中文文字显示方法及系统
US20140380169A1 (en) Language input method editor to disambiguate ambiguous phrases via diacriticization
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
CN110741376A (zh) 用于不同自然语言的自动文档分析
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN110895654A (zh) 分段方法、分段系统及非暂态电脑可读取媒体
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN112699671B (zh) 一种语言标注方法、装置、计算机设备和存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN115563288B (zh) 一种文本检测的方法、装置、电子设备及存储介质
CN107577760B (zh) 一种基于约束规范的文本分类方法及装置
CN117422064A (zh) 搜索文本纠错方法、装置、计算机设备及存储介质
CN112784593B (zh) 一种文档处理方法、装置、电子设备及可读存储介质
CN115169328A (zh) 一种高准确性的中文拼写检查方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant