Nothing Special   »   [go: up one dir, main page]

CN108897842A - 计算机可读存储介质及计算机系统 - Google Patents

计算机可读存储介质及计算机系统 Download PDF

Info

Publication number
CN108897842A
CN108897842A CN201810678724.XA CN201810678724A CN108897842A CN 108897842 A CN108897842 A CN 108897842A CN 201810678724 A CN201810678724 A CN 201810678724A CN 108897842 A CN108897842 A CN 108897842A
Authority
CN
China
Prior art keywords
candidate data
data string
neologisms
word
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810678724.XA
Other languages
English (en)
Other versions
CN108897842B (zh
Inventor
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201810678724.XA priority Critical patent/CN108897842B/zh
Publication of CN108897842A publication Critical patent/CN108897842A/zh
Application granted granted Critical
Publication of CN108897842B publication Critical patent/CN108897842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种计算机可读存储介质及计算机系统。所述介质上存储有程序,该程序被执行时实现词典更新方法,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;若发现新词,则将所述新词添加至所述基础词典,以更新所述基础词典。本发明可以降低词典维护成本,提升词典更新效率。

Description

计算机可读存储介质及计算机系统
本申请是申请日为2015年10月27日,申请号为201510706335.X,发明创造名称为“词典更新方法及装置”的分案申请。
技术领域
本发明涉及智能交互领域,尤其涉及一种计算机可读存储介质及计算机系统。
背景技术
在中文信息处理的众多领域,均需要基于词典完成对应的功能。例如,在智能检索系统或智能对话系统中,通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答案等,其中每个过程都是通过词语为最小单位进行计算,计算的基础为词语词典,所以词语词典对于整个系统的性能有着很大的影响。
社会文化的进步和变迁、经济商业的快速发展,往往带动着语言的变化,而最快速体现语言变化的就是新词的出现。特别是在特定领域内,是否能在新词出现后及时更新词语词典,对词语词典所在的智能对话系统的系统效率有着决定性的影响。
现有技术中都是采用人工的方式向词典中添加新词。词典中包含单独词,新词也就是新发现的单独词至少有以下三个来源:客户提供的领域内的新词;通过客户提供的语料发现的新词;运营过程中发现的新词。
图1是现有技术中一种更新词典的流程图,包括:
S11,人工通过阅读发现候选数据串;
S12,通过检索判断候选数据串是否包括在已有的词典中;
S13,当候选数据串未包括在词典中时,将该候选数据串作为新的单独词添加到已有词典中从而形成新的词典。
但是上述人工的工作方式导致词典的维护成本高,效率低,且容易发生遗漏,最终使得新词不能及时添加到词典中。
发明内容
本发明解决的技术问题是如何降低词典维护成本,提升词典更新效率。
为解决上述技术问题,本发明实施例提供一种计算机可读存储介质,其上存储有程序,该程序被执行时实现词典更新方法,所述方法包括:
对接收到的语料进行预处理,以得到文本数据;
对所述文本数据进行分行处理,得到语句数据;
依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;
对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
对所述候选数据串进行判断处理,以发现新词;
若发现新词,则将所述新词添加至所述基础词典,以更新所述基础词典。
可选地,所述生成候选数据串,包括:利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
可选地,所述方法还包括:依照更新后的基础词典重新对所述语句数据进行分词处理、组合处理和判断处理,并利用每次发现的新词不断更新所述基础词典。
可选地,所述对所述候选数据串进行判断处理,以发现新词包括:内部判断和/或外部判断;
所述内部判断包括:计算候选数据串成为新词的概率特征值,所述候选数据串成为新词的概率特征值在预设范围内时,该候选数据串为新词;
所述外部判断包括:计算所述候选数据串中各词语与其外侧词语构成新词的概率特征值,去除各词语与其外侧词语构成新词的概率特征值在预设范围外的候选数据串,剩余的候选数据串为新词。
可选地,所述计算候选数据串成为新词的概率特征值包括以下至少一种:
计算候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值;
计算候选数据串中各个词语数据间的互信息;
计算候选数据串的边界词语数据与内侧词语数据的信息熵。
可选地,当需计算的所述候选数据串成为新词的概率特征值的种类多于一种时,判断计算次序在前的概率特征值是否在预设范围内,仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算。
可选地,所述计算所述候选数据串中各词语与其外侧词语构成新词的概率特征值包括:计算候选数据串的边界词语数据与外侧词语数据的信息熵。
可选地,所述对所述候选数据串进行判断处理,以发现新词依次包括:
计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
计算剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
计算剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
剩余的所述候选数据串作为新词。
可选地,所述方法还包括:设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
本发明实施例还提供一种计算机系统,具有电子数据处理能力,包括词典更新装置,所述装置包括:预处理单元、分行处理单元、分词处理单元、组合处理单元、新词发现单元以及更新单元;其中:
所述预处理单元,适于对接收到的语料进行预处理,以得到文本数据;
所述分行处理单元,适于对所述文本数据进行分行处理,得到语句数据;
所述分词处理单元,适于依照基础词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;
所述组合处理单元,适于对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
所述新词发现单元,适于对所述候选数据串进行判断处理,以发现新词;
所述更新单元,适于在发现新词后,所述新词添加至所述基础词典,以更新所述基础词典。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
通过对语料进行预处理、分行处理、分词处理,以得到语料对应基础词典包含的单独词,通过组合处理生成候选数据串,通过对候选数据串判断处理,以发现新词。上述过程实现了对语料的自动处理,从而可以降低词典的更新成本;基于计算机对语料进行处理也可以提升词典更新的效率,避免发生遗漏,保证词典更新的准确性。
进一步,需计算的所述候选数据串成为新词的概率特征值的种类多于一种时,通过依次对候选数据串进行判断,判断计算次序在前的概率特征值是否在预设范围内,仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算,可以减少次序在后的计算范围,从而减少计算量,提升更新效率。
进一步,依照更新后的基础词典重新对所述语句数据进行分词处理、组合处理和判断处理,并利用每次发现的新词不断更新所述基础词典,将未得到新词作为停止词典更新的条件,从而可以对词典进行全面的更新,提升词典的可靠性。
此外,通过设定候选数据串的长度范围,以排除长度在所述长度范围之外的相邻词语数据,从而只需对长度在所述长度范围内的相邻词语数据进行概率特征值计算,最终可以进一步减小词典更新的计算量,提升更新效率。
附图说明
图1是现有技术中一种更新词典的流程图;
图2是本发明实施例中一种词典更新装置的应用示意图;
图3是本发明实施例中一种词典更新方法的流程图;
图4是本发明实施例中一种发现新词步骤的具体实现的流程图;
图5是本发明实施例中一种词典更新装置的结构示意图;
图6是本发明实施例中新词发现单元的结构示意图;
图7是本发明实施例中一种内部判断单元的结构示意图。
具体实施方式
如前所述,现有技术中都是采用人工的方式向词典中添加新词。通过人工方式添加新词易发生遗漏;由于受到人工处理速度的限制,效率较低;词典的维护成本也被人工成本推高。
本发明实施例通过计算机对语料进行处理,将语料统一为适于计算机新词发现过程的格式,生成候选数据串,设定合适的条件对候选数据串进行筛选,以发现新词。基于计算机发现新词可以提升词典更新的效率,避免发生遗漏,保证词典更新的准确性。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图2是本发明实施例中一种词典更新装置的应用示意图。
词典更新装置22适于接收语料21,基于基础词典23对语料进行预处理、分行处理、分词处理、组合处理和判断处理处理,以发现新词,若发现新词,则将所述新词添加至所述基础词典23,以更新所述基础词典23。基础词典23可以是数据库的形式。
其中,词典更新装置22可以位于具有电子数据处理能力的电子计算机系统中,电子计算机系统可以采用小型计算机,也可以采用大型服务器;可以是单台计算、服务器集群或者分布式服务器系统。
由于词典更新装置22位于电子计算机系统中,通过计算机对语料进行处理,从而可以大幅提高对语料的处理速度,节省人力资源,降低处理成本,提升处理效率,及时高效准确的更新词典。
图3是本发明实施例中一种词典更新方法的流程图。
S31,对接收到的语料进行预处理,以得到文本数据。
语料可以是词典应用系统对应的领域中的语料,也就是在某个具体领域中,当有新词出现时,可能包含新词的文字段落。例如,在词典应用于银行智能问答系统时,语料可以是银行提供的文章、问答系统常见问题或者系统日志等。
语料来源的多样性可以是对词典更新更加全面,但同时,语料中格式类型较多,为便于对语料进行后续处理,需对语料进行预处理,得到文本数据。
在具体实施中,所述预处理可以将语料的格式统一为文本格式,并过滤脏词、敏感词和停用词中的一种或多种。在将语料的格式统一为文本格式时,可以将当前技术暂不能转换为文本格式的内容过滤掉。
S32,对所述文本数据进行分行处理,得到语句数据。
分行处理可以是对语料按照标点分行,例如在出现句号、逗号、叹号、问号等标点处分行。此处得到语句数据是对语料的初步分割,以便于确定后续分词处理的范围。
S33,依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据。
基础词典包含多个单独词,不同单独词的长度可以不同。在具体实施中,基于基础词典进行分词处理的过程可以利用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
所述分词处理是对同一行的语句数据进行分词处理,从而分词后的词语数据位于同一行,且所述词语数据都是包括在词典中的单独词。
当采用的词典不同时,会得到不同的分词结果。
由于在领域内对话系统中,通过分词、问题检索、相似度匹配、确定答案等流程实现问题的智能回复的过程,都是以单独词为最小单位进行计算,此处依照基础词典进行分词处理的过程类似于在对话系统运行中的分词过程,区别在于分词处理基于的词典内容有差别。
S34,对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串。
分词处理依据当前的基础词典进行,会出现将在某个领域内本应作为一个词的词语数据分成多个词语数据的情况,词典的更新就是基于当前分词的结果,设定条件筛选出应作为新词的候选数据串,将该候选数据串作为新词加入词典。生成候选数据串作为上述筛选过程的前提,可以采用多种方式完成。
若将语料中所有的相邻词语均作为候选数据串,词典更新系统的计算量过于庞大,效率较低,且位于不同行的相邻词语也毫无计算的意义。故可以对相邻词语进行筛选,生成候选数据串。
在具体实施中,可以利用Bigram模型将同一行的语句数据中相邻两个词语作为候选数据串。
假设一个语句S可以表示为一个序列S=w1w2…wn,语言模型就是要求语句S的概率p(S):
p(S)=p(w1,w2,w3,w4,w5,…,wn)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1) (1)
公式(1)中概率统计基于Ngram模型,概率的计算量太大,无法应用于实际应用中。基于马尔科夫假设(Markov Assumption):下一个词的出现仅依赖于它前面的一个或几个词。假设下一个词的出现依赖它前面的一个词,则有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1) (2)
假设下一个词的出现依赖它前面的两个词,则有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2) (3)
公式(2)为Bigram概率的计算公式,公式(3)为Trigram概率的计算公式。通过设置更大的n值,可以设置对下一个词出现的更多的约束信息,具有更大的辨别力;通过设置更小的n,在词典更新中候选数据串出现的次数更多,可以提供更可靠的统计信息,具有更高的可靠性。
理论上,n值越大,可靠性越高,在现有处理方法中,Trigram用的最多。但Bigram的计算量更小,系统效率更高。
在具体实施中,还可以设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。从而可以依照需求,得到不同长度范围的新词,以应用于不同场景。例如,设定长度范围数值较小的范围,以获取语法意义上的词语,应用于智能问答系统;设定长度范围数值较大的范围,以获取短语或短句,以将其作为文献检索目录的关键词等。
S35,对所述候选数据串进行判断处理,以发现新词。
在具体实施中,所述对所述候选数据串进行判断处理,以发现新词可以通过内部判断发现或通过外部判断发现,也可以通过内部判断和外部判断共同发现。
所述内部判断可以包括:计算候选数据串成为新词的概率特征值,当所述候选数据串成为新词的概率特征值在预设范围内时,该候选数据串为新词。
所述外部判断可以包括:计算所述候选数据串中各词语与其外侧词语构成新词的概率特征值,去除各词语与其外侧词语构成新词的概率特征值在预设范围内的候选数据串,剩余的候选数据串为新词。
在具体实施中,候选数据串成为新词的概率特征值在预设范围通过设定阈值实现,阈值的具体数值根据概率特征值的种类和需求设定。
在具体实施中,所述计算候选数据串成为新词的概率特征值包括以下一种或多种:计算候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值;计算候选数据串中各个词语数据间的互信息;计算候选数据串的边界词语数据与内侧词语数据的信息熵。
候选数据串出现的频次指候选数据串在语料中出现的次数,频次过滤用于判断候选数据串的结合次数,当频次低于某一阈值时,则过滤掉该候选数据串;候选数据串出现的频率与其出现的次数和语料中总词量均相关。将根据所述候选数据串出现的频次和频率计算得到的数值作为该候选数据串的概率特征值准确性更高。在本发明一实施例中,根据所述候选数据串出现的频次和频率计算得到概率特征值可以采用TF-IDF(Term Frequency–Inverse Document Frequency)技术。
TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,用以评估某个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,也就是在语料中的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF*IDF,TF词频(Term Frequency),IDF反文档频率(Inverse DocumentFrequency)。TF表示词条在文档d中出现的频率(另一说:TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数)。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。(另一说:IDF反文档频率(Inverse Document Frequency)是指包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。)但是实际上,如果一个词条在一个类的文档中频繁出现,也就是在语料中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。也就是可以将这样的词条作为词典应用的领域内的新词。
互信息(Mutual Information,MI)的定义见式:
互信息反映了候选数据串与其中词语数据的共现关系,由两个单独词组成的候选数据串的互信息为一个值(即两个单独词间的互信息),当一候选数据串W与其中词语数据共现频度高时,即出现频次相近时,可知候选数据串W的互信息MI接近于1,也就是说此时候选数据串W成为一个词的可能性很大。若互信息MI的值很小,接近于0,则说明W几乎不可能成为一个词,更不可能成为一个新词。互信息反映了一个候选数据串内部的依赖程度,从而可以用来判断候选数据串是否能可能成为新词。
信息熵是对随机变量不确定性的量度,计算公式如下:
H(X)=-∑p(xi)log p(xi)
信息熵越大,表示变量的不确定性越大;即每个可能的取值发生的概率越平均。如果变量某个取值发生的概率为1,则熵为0。表明变量只有当前一种取值发生,是一个必然事件。
利用熵的这个性质,对候选数据串依次固定每个单独词语数据,计算在该词语数据出现情况下另一个词语出现的信息熵。如果候选数据串串(w1w2)中与词语数据w1右结合的词语数据的右侧信息熵大于阈值,并且与词语数据w2左结合的左侧信息熵也大于阈值,则认为该候选数据串可能成为新词。计算公式如下:
H1(W)=∑x∈X(#XW>0)P(x|W)log P(x|W),其中X为出现在W左边的所有词语数据集合;H1(W)为词语数据W的左侧信息熵。
H2(W)=∑x∈Y(#WY>0)P(y|W)log P(y|W),其中Y为出现在W右边的所有词语数据集合,H2(W)为词语数据W的右侧信息熵。
在具体实施中,若需计算的所述候选数据串成为新词的概率特征值的种类多于一种,则可以判断计算次序在前的概率特征值是否在预设范围内,仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算。仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算,可以减少次序在后的计算范围,从而减少计算量,提升系统效率。
在具体实施中,所述计算所述候选数据串中各词语与其外侧词语构成新词的概率特征值包括:计算候选数据串的边界词语数据与外侧词语数据的信息熵。
计算候选数据串中词语数据与其外侧的词语数据的熵值体现该词语数据外侧词语数据的混乱程度。例如,通过计算候选数据串W1W2中左侧词语数据W1的左侧信息熵,右侧词语数据W2的右侧信息熵可以判断词语数据W1和W2外侧的混乱程度,从而可以通过设定预设范围进行筛选,排除各词语与其外侧词语构成新词的概率特征值在预设范围外的候选数据串。
以候选数据串仅包括两个单独词(w1w2)为例说明,单独词w1与相邻的候选数据串中的单独词具有一个外侧信息熵,单独词w1与同一候选数据串中单独词w2具有一个内侧信息熵;单独词w2与同一候选数据串中单独词w1具有一个内侧信息熵,单独词w2与相邻的候选数据串中的单独词具有一个外侧信息熵,即位于中间位置(非端部)的单独词都具有一个内侧信息熵和外侧信息熵。
在进行内侧信息熵或外侧信息熵的判断时,需要对一个候选数据串中两个内侧信息熵或两个外侧信息熵都进行判断,只有两个内侧信息熵或两个外侧信息熵都位于预设范围时,才认为该候选数据串的内侧信息熵或外侧信息熵位于预设范围内;否则,只要有一个内侧信息熵或一个外侧信息熵位于预设范围外,就认为该候选数据串的内侧信息熵或外侧信息熵位于预设范围外。
例如,两个相邻的候选数据串分别为:由单独词“我”和单独词“办理”组成的候选数据串;由单独词“华北”和单独词“商厦”组成的候选数据串。两个候选数据串的内部信息熵分别为:单独词“我”和单独词“办理”之间的信息熵:单独词“华北”和单独词“商厦”之间的信息熵。两个候选数据串之间的外部信息熵为:单独词“办理”和单独词“华北”之间的信息熵。
在本发明一实施例中,在对候选数据串完成内部判断后,对经内部判断认为可能成为新词的候选数据串进行外部判断,排除各词语与其外侧词语构成新词的概率特征值在预设范围外的候选数据串。
S36,判断是否发现新词,若发现新词,则执行步骤S37。若未发现新词,则执行步骤S39,结束词典更新。
S37则将所述新词添加至所述基础词典,以更新所述基础词典。
在具体实施中,还可以选择执行如下步骤:
S38,依照更新后的基础词典重新对所述语句数据进行分词处理,得到分词后的词语数据。步骤S38执行完毕后,再次执行步骤S34,从而可以依照更新后的基础词典重新对所述语句数据进行分词处理、组合处理和判断处理,并利用每次发现的新词不断更新所述基础词典。直至经步骤S36判断,未发现新词时,结束词典更新。
由于新词的长度可能大于2,因此可以对分词处理、新词发现和后处理进行迭代处理,下一次进行分词处理时用到的词典就是前一次后处理得到的新词典,下一次进行分词处理得到的候选数据串的长度比前一次加1,且可以通过对新词的长度限制来限定迭代次数。
为了准确起见,可以在最后一次迭代过程中将新词添加到词典中时进行人工检查。
依照更新后的基础词典重新对所述语句数据进行分词处理、组合处理和判断处理,并利用每次发现的新词不断更新所述基础词典,将未得到新词作为停止词典更新的条件,从而可以对词典进行全面的更新,提升词典的可靠性。
在具体实施中,可以仅执行步骤S31至步骤S37,以实现一次词典更新;在步骤S35,对所述候选数据串进行判断处理中,可以仅进行内部判断,也可以仅进行外部判断,或者也可以选择既进行内部判断又进行外部判断。
在进行内部判断时,可以计算以下概率特征值:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值;计算候选数据串中各个词语数据间的互信息和计算候选数据串的边界词语数据与内侧词语数据的信息熵。或选择计算上述概率特征值中的一种或两种。
在一个具体例子中,接收到的语料为语音数据“我办理华北商厦龙卡需要多长时间?”。通过第一次预处理将上述语音数据处理为文本数据;通过第一次分行处理将该文本数据与其它行的文本数据区分;通过第一次分词处理将该文本数据划分为:我、办理、华北、商厦、龙卡、需要、多、长和时间这几个单独词。
通过第一次组合处理得到以下几个候选数据串:我办理、办理华北、华北商厦、商厦龙卡、龙卡需要、需要多、多长、长时间;通过第一次计算频次,去除“我办理”和“办理华北”这两个候选数据串;通过第一次计算互信息,去除“需要多”、“多长”和“长时间”这三个候选数据串;通过第一次计算与外侧词语数据的信息熵,去除“龙卡需要”这个候选数据串,从而获得新词“华北商厦”,将“华北商厦”添加到基础词典中。
通过第二次分词处理将该文本数据划分为:我、办理、华北商厦、龙卡、需要、多、长和时间这几个单独词;通过第二次组合处理得到以下几个候选数据串:我办理、办理华北商厦、华北商厦龙卡、龙卡需要、需要多、多长、长时间;通过第二次计算频次,去除“我办理”和“办理华北商厦”这两个候选数据串;通过第二次计算互信息,去除“需要多”、“多长”和“长时间”这三个候选数据串;通过第二次计算与外侧词语数据的信息熵,去除“龙卡需要”这个候选数据串,从而获得新词“华北商厦龙卡”,又将“华北商厦龙卡”添加到基础词典中。
后面可以继续根据包括“华北商厦龙卡”的基础词典进行分词处理、组合处理和判断处理,并利用每次发现的新词不断更新所述基础词典。
需要说明的是,在上述例子中,后面进行的判断处理中,既可以对所有的候选数据串重新进行判断;也可以记录前一次的判断结果,从而对同一候选数据串可以直接调用前面的判断结果;还可以仅形成包括新词的候选数据串,从而仅对包括新词的候选数据串进行判断。
图4是本发明实施例中一种发现新词步骤的具体实现的流程图,其中步骤S351至步骤S353是如图3中所示的步骤S35的具体实现方式,针对图3中流程图进行的说明在此不再重复说明。
S351,计算候选数据串出现的频次。
S352,判断所述候选数据串出现的频次是否在预设范围内,若所述候选数据串出现的频次在预设范围内,则执行步骤S353;若所述候选数据串出现的频次不在预设范围内,则执行步骤S361。
S353,计算候选数据串中各个词语数据间的互信息。可以理解的是,此时互信息的计算仅针对频次在预设范围内的候选数据串进行。
S354,判断候选数据串中各个词语数据间的互信息是否在预设范围内,若候选数据串中各个词语数据间的互信息在预设范围内,则执行步骤S355;若候选数据串中各个词语数据间的互信息不在预设范围内,则执行步骤S361。
S355,计算候选数据串的边界词语数据与内侧词语数据的信息熵。
可以理解的是,此时候选数据串的与内侧词语数据的信息熵的计算仅针对频次在预设范围内且互信息在预设范围内的候选数据串进行。
S356,判断候选数据串的边界词语数据与内侧词语数据的信息熵是否在预设范围内,若候选数据串的边界词语数据与内侧词语数据的信息熵在预设范围内,则执行步骤S357;若候选数据串的边界词语数据与内侧词语数据的信息熵不在预设范围内,则执行步骤S361。
S357,计算候选数据串的边界词语数据与外侧词语数据的信息熵。
可以理解的是,此时选数据串的边界词语数据与外侧词语数据的信息熵的计算仅针对频次在预设范围、互信息在预设范围内,且边界词语数据与内侧词语数据的信息熵在预设范围内的候选数据串进行。
S358,判断候选数据串的边界词语数据与外侧词语数据的信息熵是否在预设范围内,若相候选数据串的边界词语数据与外侧词语数据的信息熵在预设范围内,则执行步骤S362;若候选数据串的边界词语数据与外侧词语数据的信息熵不在预设范围内,则执行步骤S361。
步骤S361和步骤S362是图3中步骤S36的两种判别结果,其中步骤S361为经判断未发现新词,步骤S362为经判断发现新词。
在本发明实施例中,由于依次计算频次、互信息、候选数据串的边界词语数据与内侧词语数据的信息熵,而上述三种概率特征值的计算难度递增,次序在前的计算可以排除不在预设范围内的候选数据串,被排除的候选数据串不再参与次序在后的计算,从而可以节省计算时间,提高词典更新方法的效率。
本发明实施例还提供一种词典更新装置,如图5所示。
词典更新装置22包括:预处理单元221、分行处理单元222、分词处理单元223、组合处理单元224、新词发现单元225以及更新单元226,其中:
所述预处理单元221,适于对接收到的语料进行预处理,以得到文本数据;
所述分行处理单元222,适于对所述文本数据进行分行处理,得到语句数据;
所述分词处理单元223,依照基础词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;
所述组合处理单元224,对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
所述新词发现单元225,对所述候选数据串进行判断处理,以发现新词;
所述更新单元226,适于在发现新词后,所述新词添加至所述基础词典,以更新所述基础词典。
在具体实施中,组合处理单元224适于利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
在具体实施中,词典更新装置22还可以包括:更新迭代单元227,适于在所述基础词典更新后指示所述分词处理单元基于更新后的基础词典,对所述语句数据进行分词处理,指示所述组合处理单元生成候选数据串,指示所述新词发现单元对所述候选数据串进行判断处理,以发现新词,并指示所述更新单元利用发现的新词更新所述基础词典;若未发现新词,则结束基础词典的更新。
在具体实施中,所述新词发现单元225可以包括:内部判断单元2251(参见图6,以下结合图6进行说明)和/或外部判断单元2252;其中:
所述内部判断单元2251,适于计算候选数据串成为新词的概率特征值,所述候选数据串成为新词的概率特征值在预设范围内时,该候选数据串为新词;
所述外部判断单元2252,适于计算所述候选数据串中各词语与其外侧词语构成新词的概率特征值,去除各词语与其外侧词语构成新词的概率特征值在预设范围外的候选数据串,剩余的候选数据串为新词。
在具体实施中,所述内部判断单元2251适于计算候选数据串成为新词的概率特征值包括以下至少一种:
计算候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值;
计算候选数据串中各个词语数据间的互信息;
计算候选数据串的边界词语数据与内侧词语数据的信息熵。
在具体实施中,当需计算的所述候选数据串成为新词的概率特征值的种类多于一种时,所述内部判断单元2251适于判断计算次序在前的概率特征值是否在预设范围内,仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算。
在具体实施中,所述内部判断单元2251(参见图7,以下结合图7进行说明)可以包括:频次过滤单元22511、互信息过滤单元22512以及内部信息熵过滤单元22513;所述外部判断单元2252包括外部信息熵过滤单元;其中:
所述频次过滤单元22511,适于计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
所述互信息过滤单元22512,适于计算经所述频次过滤单元过滤后,剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
所述内部信息熵过滤单元22513,适于计算经所述互信息过滤单元过滤后,剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
所述外部信息熵过滤单元,适于计算经所述内部信息熵过滤单元过滤后,剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
在具体实施中,所述外部判断单元2252适于计算候选数据串的边界词语数据与外侧词语数据的信息熵。
在具体实施中,所述预处理单元221适于将语料的格式统一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。
在具体实施中,所述分词处理单元223适于采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
在具体实施中,词典更新装置22还包括:长度过滤单元228,适于设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
本发明实施例通过对语料进行预处理、分行处理、分词处理,以得到语料对应基础词典包含的单独词,通过组合处理生成候选数据串,通过对候选数据串判断处理,以发现新词。上述过程实现了对语料的自动处理,从而可以降低人工成本;基于计算机对语料进行处理也可以提升词典更新的效率和准确性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (10)

1.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被执行时实现词典更新方法,所述方法包括:
对接收到的语料进行预处理,以得到文本数据;
对所述文本数据进行分行处理,得到语句数据;
依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;
对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
对所述候选数据串进行判断处理,以发现新词;
若发现新词,则将所述新词添加至所述基础词典,以更新所述基础词典。
2.根据权利要求1所述的计算机可读存储介质,其特征在于,所述生成候选数据串,包括:利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
3.根据权利要求1或2所述的计算机可读存储介质,其特征在于,所述方法还包括:依照更新后的基础词典重新对所述语句数据进行分词处理、组合处理和判断处理,并利用每次发现的新词不断更新所述基础词典。
4.根据权利要求1所述的计算机可读存储介质,其特征在于,所述对所述候选数据串进行判断处理,以发现新词包括:内部判断和/或外部判断;
所述内部判断包括:计算候选数据串成为新词的概率特征值,所述候选数据串成为新词的概率特征值在预设范围内时,该候选数据串为新词;
所述外部判断包括:计算所述候选数据串中各词语与其外侧词语构成新词的概率特征值,去除各词语与其外侧词语构成新词的概率特征值在预设范围外的候选数据串,剩余的候选数据串为新词。
5.根据权利要求4所述的计算机可读存储介质,其特征在于,所述计算候选数据串成为新词的概率特征值包括以下至少一种:
计算候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值;
计算候选数据串中各个词语数据间的互信息;
计算候选数据串的边界词语数据与内侧词语数据的信息熵。
6.根据权利要求5所述的计算机可读存储介质,其特征在于,当需计算的所述候选数据串成为新词的概率特征值的种类多于一种时,判断计算次序在前的概率特征值是否在预设范围内,仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算。
7.根据权利要求4所述的计算机可读存储介质,其特征在于,所述计算所述候选数据串中各词语与其外侧词语构成新词的概率特征值包括:计算候选数据串的边界词语数据与外侧词语数据的信息熵。
8.根据权利要求1所述的计算机可读存储介质,其特征在于,所述对所述候选数据串进行判断处理,以发现新词依次包括:
计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
计算剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
计算剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
剩余的所述候选数据串作为新词。
9.根据权利要求1所述的计算机可读存储介质,其特征在于,所述方法还包括:设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
10.一种计算机系统,具有电子数据处理能力,其特征在于,包括词典更新装置,所述装置包括:预处理单元、分行处理单元、分词处理单元、组合处理单元、新词发现单元以及更新单元;其中:
所述预处理单元,适于对接收到的语料进行预处理,以得到文本数据;
所述分行处理单元,适于对所述文本数据进行分行处理,得到语句数据;
所述分词处理单元,适于依照基础词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;
所述组合处理单元,适于对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
所述新词发现单元,适于对所述候选数据串进行判断处理,以发现新词;
所述更新单元,适于在发现新词后,所述新词添加至所述基础词典,以更新所述基础词典。
CN201810678724.XA 2015-10-27 2015-10-27 计算机可读存储介质及计算机系统 Active CN108897842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810678724.XA CN108897842B (zh) 2015-10-27 2015-10-27 计算机可读存储介质及计算机系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510706335.XA CN105389349B (zh) 2015-10-27 2015-10-27 词典更新方法及装置
CN201810678724.XA CN108897842B (zh) 2015-10-27 2015-10-27 计算机可读存储介质及计算机系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201510706335.XA Division CN105389349B (zh) 2015-10-27 2015-10-27 词典更新方法及装置

Publications (2)

Publication Number Publication Date
CN108897842A true CN108897842A (zh) 2018-11-27
CN108897842B CN108897842B (zh) 2021-04-09

Family

ID=55421639

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810678724.XA Active CN108897842B (zh) 2015-10-27 2015-10-27 计算机可读存储介质及计算机系统
CN201510706335.XA Active CN105389349B (zh) 2015-10-27 2015-10-27 词典更新方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201510706335.XA Active CN105389349B (zh) 2015-10-27 2015-10-27 词典更新方法及装置

Country Status (1)

Country Link
CN (2) CN108897842B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256669A (zh) * 2020-09-27 2021-01-22 北京三快在线科技有限公司 数据处理方法、装置、电子设备及可读存储介质

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970902A (zh) * 2016-01-13 2017-07-21 北京国双科技有限公司 一种中文分词方法及装置
CN107390892A (zh) * 2016-05-17 2017-11-24 富士通株式会社 生成用户词典的方法和装置
US9594741B1 (en) * 2016-06-12 2017-03-14 Apple Inc. Learning new words
CN107885717B (zh) * 2016-09-30 2020-12-29 腾讯科技(深圳)有限公司 一种关键词提取方法及装置
CN106776543B (zh) * 2016-11-23 2019-09-06 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN108984514A (zh) * 2017-06-05 2018-12-11 中兴通讯股份有限公司 词语的获取方法及装置、存储介质、处理器
CN107357778B (zh) * 2017-06-22 2020-10-30 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN107463682A (zh) * 2017-08-08 2017-12-12 深圳市腾讯计算机系统有限公司 一种关键词的识别方法和装置
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
CN110633352A (zh) * 2018-06-01 2019-12-31 北京嘀嘀无限科技发展有限公司 一种语义检索的方法及装置
CN110851696A (zh) * 2018-08-01 2020-02-28 北京京东尚科信息技术有限公司 兴趣点提取方法和装置
CN109492224B (zh) * 2018-11-07 2024-05-03 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN109614499B (zh) * 2018-11-22 2023-02-17 创新先进技术有限公司 一种词典生成方法、新词发现方法、装置及电子设备
CN111309898A (zh) * 2018-11-26 2020-06-19 中移(杭州)信息技术有限公司 一种用于新词发现的文本挖掘方法及装置
CN112287112A (zh) * 2019-07-25 2021-01-29 北京中关村科金技术有限公司 构建专有发音词典的方法、装置以及存储介质
CN110825840B (zh) * 2019-11-08 2023-02-17 北京声智科技有限公司 词库扩充方法、装置、设备及存储介质
CN113268978B (zh) * 2020-02-17 2024-08-27 北京搜狗科技发展有限公司 一种信息生成方法、装置和电子设备
CN112329458B (zh) * 2020-05-21 2024-05-10 北京明亿科技有限公司 新组织描述词识别方法与装置、电子设备及存储介质
CN111832299A (zh) * 2020-07-17 2020-10-27 成都信息工程大学 一种中文分词系统
CN111914554B (zh) * 2020-08-19 2024-08-09 网易(杭州)网络有限公司 领域新词识别模型的训练方法、领域新词识别方法及设备
CN113095073B (zh) * 2021-03-12 2022-04-19 深圳索信达数据技术有限公司 语料标签生成方法、装置、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040187084A1 (en) * 1999-06-17 2004-09-23 Viktors Berstis Method and apparatus for providing a central dictionary and glossary server
US20110137642A1 (en) * 2007-08-23 2011-06-09 Google Inc. Word Detection
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN103294664A (zh) * 2013-07-04 2013-09-11 清华大学 开放领域新词发现的方法及系统
CN103678282A (zh) * 2014-01-07 2014-03-26 苏州思必驰信息科技有限公司 一种分词方法及装置
CN103678371A (zh) * 2012-09-14 2014-03-26 富士通株式会社 词库更新装置、数据整合装置和方法以及电子设备
CN103955453A (zh) * 2014-05-23 2014-07-30 清华大学 一种从文档集中自动发现新词的方法及装置
CN104899190A (zh) * 2015-06-04 2015-09-09 百度在线网络技术(北京)有限公司 分词词典的生成方法和装置及分词处理方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8825648B2 (en) * 2010-04-15 2014-09-02 Microsoft Corporation Mining multilingual topics
CN102360383B (zh) * 2011-10-15 2013-07-31 西安交通大学 一种面向文本的领域术语与术语关系抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040187084A1 (en) * 1999-06-17 2004-09-23 Viktors Berstis Method and apparatus for providing a central dictionary and glossary server
US20110137642A1 (en) * 2007-08-23 2011-06-09 Google Inc. Word Detection
CN103678371A (zh) * 2012-09-14 2014-03-26 富士通株式会社 词库更新装置、数据整合装置和方法以及电子设备
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN103294664A (zh) * 2013-07-04 2013-09-11 清华大学 开放领域新词发现的方法及系统
CN103678282A (zh) * 2014-01-07 2014-03-26 苏州思必驰信息科技有限公司 一种分词方法及装置
CN103955453A (zh) * 2014-05-23 2014-07-30 清华大学 一种从文档集中自动发现新词的方法及装置
CN104899190A (zh) * 2015-06-04 2015-09-09 百度在线网络技术(北京)有限公司 分词词典的生成方法和装置及分词处理方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘哲等: "《网络新词识别算法研究》", 《计算机工程与科学》 *
李文坤等: "《基于词内部结合度和边界自由度的新词发现》", 《计算机应用研究》 *
赵小宝等: "《基于迭代算法的新词识别》", 《计算机工程》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256669A (zh) * 2020-09-27 2021-01-22 北京三快在线科技有限公司 数据处理方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN105389349A (zh) 2016-03-09
CN105389349B (zh) 2018-07-27
CN108897842B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN105389349B (zh) 词典更新方法及装置
CN105183923B (zh) 新词发现方法及装置
US11544459B2 (en) Method and apparatus for determining feature words and server
CN109241274B (zh) 文本聚类方法及装置
JP5450842B2 (ja) 単語情報エントロピの決定
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
CN105224682B (zh) 新词发现方法及装置
CN110689368B (zh) 一种移动应用内广告点击率预测系统设计方法
CN105447179A (zh) 基于微博社交网络的话题自动推荐方法及其系统
CN110706015B (zh) 一种面向广告点击率预测的特征选取方法
CN106296286A (zh) 广告点击率的预估方法和预估装置
CN112948608A (zh) 图片查找方法、装置、电子设备及计算机可读存储介质
CN112989235B (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
WO2016106944A1 (zh) MapReduce平台上的虚拟人建立方法
CN112115313A (zh) 正则表达式的生成、数据提取方法、装置、设备及介质
CN115248890B (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN106934007B (zh) 关联信息的推送方法及装置
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
CN105373521B (zh) 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法
CN112860626B (zh) 一种文档排序方法、装置及电子设备
CN112732766B (zh) 一种数据排序方法、装置、电子设备及存储介质
CN112507181B (zh) 搜索请求分类方法、装置、电子设备及存储介质
CN113868481A (zh) 组件获取方法、装置及电子设备和存储介质
CN112579841B (zh) 一种多模态数据库建立方法、检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Computer readable storage media and computer systems

Effective date of registration: 20231123

Granted publication date: 20210409

Pledgee: Bank of Jiangsu Co.,Ltd. Shanghai Jiading Sub branch

Pledgor: SHANGHAI XIAOI ROBOT TECHNOLOGY Co.,Ltd.

Registration number: Y2023980066939

PE01 Entry into force of the registration of the contract for pledge of patent right