CN105183923B - 新词发现方法及装置 - Google Patents
新词发现方法及装置 Download PDFInfo
- Publication number
- CN105183923B CN105183923B CN201510706254.XA CN201510706254A CN105183923B CN 105183923 B CN105183923 B CN 105183923B CN 201510706254 A CN201510706254 A CN 201510706254A CN 105183923 B CN105183923 B CN 105183923B
- Authority
- CN
- China
- Prior art keywords
- data string
- word
- candidate data
- candidate
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种新词发现方法及装置,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。所述方法及装置可以提升新词发现的准确度。
Description
技术领域
本发明涉及智能交互领域,尤其涉及一种新词发现方法及装置。
背景技术
在中文信息处理的众多领域,均需要基于词典完成对应的功能。例如,在智能检索系统或智能对话系统中,通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答案等,其中每个过程都是通过词语为最小单位进行计算,计算的基础为词语词典,所以词语词典对于整个系统的性能有着很大的影响。
社会文化的进步和变迁、经济商业的快速发展,往往带动着语言的变化,而最快速体现语言变化的就是新词的出现。特别是在特定领域内,是否能在新词出现后及时更新词语词典,对词语词典所在的智能对话系统的系统效率有着决定性的影响。
新词也就是新发现的单独词,在现有技术中,至少有以下三个来源:客户提供的领域内的新词;通过客户提供的语料发现的新词;运营过程中发现的新词。
现有技术中新词发现准确度有待提升。
发明内容
本发明解决的技术问题是如何提升新词发现的准确度。
为解决上述技术问题,本发明实施例提供一种新词发现方法,包括:
对接收到的语料进行预处理,以得到文本数据;
对所述文本数据进行分行处理,得到语句数据;
依照词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;
对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。
可选的,所述判断处理还包括:计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
可选的,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
可选的,所述判断处理还包括:计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。
可选的,所述判断处理还包括:计算所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
可选的,对所述候选数据串进行判断处理,以发现新词依次包括:
计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
计算剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
计算剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
剩余的所述候选数据串作为新词。
可选的,所述生成候选数据串,包括:利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
可选的,所述对接收到的语料进行预处理,以得到文本数据包括:将语料的格式统一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。
可选的,所述分词处理采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
可选的,所述新词发现方法还包括:设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
本发明实施例还提供一种新词发现装置,包括:预处理单元、分行处理单元、分词处理单元、组合处理单元以及新词发现单元;
所述预处理单元,适于对接收到的语料进行预处理,以得到文本数据;
所述分行处理单元,适于对所述文本数据进行分行处理,得到语句数据;
所述分词处理单元,适于依照词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;
所述组合处理单元,适于对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
所述新词发现单元,适于对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。
可选的,所述判断处理还包括:计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
可选的,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
可选的,所述判断处理还包括:计算所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
可选的,所述判断处理还包括:计算所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
可选的,所述新词发现单元包括:频次过滤单元、互信息过滤单元、内部信息熵过滤单元以及外部信息熵过滤单元;
所述频次过滤单元,适于计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
所述互信息过滤单元,适于计算经所述频次过滤单元过滤后,剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
内部信息熵过滤单元,适于计算经所述互信息过滤单元过滤后,剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
所述外部信息熵过滤单元,适于计算经所述内部信息熵过滤单元过滤后,剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
可选的,所述组合处理单元适于利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
可选的,所述预处理单元适于将语料的格式统一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。
可选的,所述分词处理单元适于采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
可选的,所述新词发现装置还包括:长度过滤单元,适于设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
通过计算所述候选数据串中各词语与其外侧词语的信息熵,判断候选数据串中各词语与外侧词语的信息熵,可以判断候选数据串中各词语与其外侧词语相结合的可能性;去除各词语与其外侧词语的信息熵在预设范围外的候选数据串,可以去除候选数据串中词语与其外侧词语相结合的可能性较大的候选数据串,从而可以提升新词发现方法的准确性。
进一步,需计算的所述候选数据串成为新词的概率特征值的种类多于一种时,通过依次对候选数据串进行判断,判断计算次序在前的概率特征值是否在预设范围内,仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算,可以减少次序在后的计算范围,从而减少计算量,提升更新效率。
此外,通过设定候选数据串的长度范围,以排除长度在所述长度范围之外的相邻词语数据,从而只需对长度在所述长度范围内的相邻词语数据进行概率特征值计算,最终可以进一步减小新词发现的计算量,提升更新效率。
附图说明
图1是本发明实施例中一种新词发现方法的流程图;
图2是本发明实施例中另一种新词发现方法的流程图;
图3是本发明实施例中另一种新词发现方法的流程图;
图4是本发明实施例中另一种新词发现方法的流程图;
图5是本发明实施例中一种判断处理的流程图;
图6是本发明实施例中一种新词发现装置的结构示意图;
图7是本发明实施例中另一种新词发现装置的结构示意图。
具体实施方式
经发明人研究发现,现有的新词发现方法仅对候选数据串中各词语结合的紧密程度进行判断,将候选数据串内部各词语结合较紧密的候选数据串作为新词。但有些候选数据串中词语与外侧词语结合更加紧密,本身并不适于作为一个新词。故若仅对候选数据串中各词语之间的关系进行判断,发现新词的结果不够准确。
本发明实施例通过计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串,可以排除经判断发现其中词语更适于和外侧词语进行结合的候选数据串,从而可以提升新词发现的准确率。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中一种新词发现方法的流程图。
S11,对接收到的语料进行预处理,以得到文本数据。
语料可以是在某个具体领域中,当有新词出现时,可能包含新词的文字段落。例如,在词典应用于银行智能问答系统时,语料可以是银行提供的文章、问答系统常见问题或者系统日志等。
语料来源的多样性可以使新词的发现更加全面,但同时,语料中格式类型较多,为便于对语料进行后续处理,需对语料进行预处理,得到文本数据。
在具体实施中,所述预处理可以将语料的格式统一为文本格式,并过滤脏词、敏感词和停用词中的一种或多种。在将语料的格式统一为文本格式时,可以将当前技术暂不能转换为文本格式的内容过滤掉。
S12,对所述文本数据进行分行处理,得到语句数据。
分行处理可以是对语料按照标点分行,例如在出现句号、逗号、叹号、问号等标点处分行。此处得到语句数据是对语料的初步分割,以便于确定后续分词处理的范围。
S13,依照词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据。
词典包含多个单独词,不同单独词的长度可以不同。在具体实施中,基于词典进行分词处理的过程可以利用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
所述分词处理是对同一行的语句数据进行分词处理,从而分词后的词语数据位于同一行,且所述词语数据都是包括在词典中的单独词。
由于在领域内对话系统中,通过分词、问题检索、相似度匹配、确定答案等流程实现问题的智能回复的过程,都是以单独词为最小单位进行计算,此处依照基础词典进行分词处理的过程类似于在对话系统运行中的分词过程,区别在于分词处理基于的词典内容有差别。
本发明实施例中的新词发现方法适用于对词典进行更新,也就是可以将发现的新词加入词典,参照更新后的词典再一次对原语料进行新词发现,直至未能再次发现新词为止。
S14,对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串。
分词处理依据词典进行,可能会出现将在某个领域内本应作为一个词的词语数据分成多个词语数据的情况,故需要新词发现。设定条件筛选出应作为新词的候选数据串,将该候选数据串作为新词。生成候选数据串作为上述筛选过程的前提,可以采用多种方式完成。
若将语料中所有的相邻词语均作为候选数据串,新词发现系统的计算量过于庞大,效率较低,且位于不同行的相邻词语也毫无计算的意义。故可以对相邻词语进行筛选,生成候选数据串。
在具体实施中,可以利用Bigram模型将同一行的语句数据中相邻两个词语作为候选数据串。
假设一个语句S可以表示为一个序列S=w1w2…wn,语言模型就是要求语句S的概率p(S):
p(S)=p(w1,w2,w3,w4,w5,…,wn)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1) (1)
公式(1)中概率统计基于Ngram模型,概率的计算量太大,无法应用于实际应用中。基于马尔科夫假设(Markov Assumption):下一个词的出现仅依赖于它前面的一个或几个词。假设下一个词的出现依赖它前面的一个词,则有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1) (2)
假设下一个词的出现依赖它前面的两个词,则有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2) (3)
公式(2)为Bigram概率的计算公式,公式(3)为trigram概率的计算公式。通过设置更大的n值,可以设置对下一个词出现的更多的约束信息,具有更大的辨别力;通过设置更小的n,在新词发现中候选数据串出现的次数更多,可以提供更可靠的统计信息,具有更高的可靠性。
理论上,n值越大,可靠性越高,在现有处理方法中,Trigram用的最多。但Bigram的计算量更小,系统效率更高。
在具体实施中,还可以设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。从而可以依照需求,得到不同长度范围的新词,以应用于不同场景。例如,设定长度范围数值较小的范围,以获取语法意义上的词语,应用于智能问答系统;设定长度范围数值较大的范围,以获取短语或短句,以将其作为文献检索目录的关键词等。
S15,对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。
在具体实施中,对所述候选数据串进行判断处理,以发现新词还可以包括内部判断,对候选数据串中各词语结合的紧密程度进行判断,也就是计算候选数据串成为新词的概率特征值,去除概率特征值在预设范围外的候选数据串。
参照图2,在本发明一实施例中,步骤S15,对所述候选数据串进行判断处理,以发现新词包括:
S153,计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
在具体实施中,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
候选数据串出现的频次指候选数据串在语料中出现的次数,频次过滤用于判断候选数据串的结合次数,当频次低于某一阈值时,则过滤掉该候选数据串;候选数据串出现的频率与其出现的次数和语料中总词量均相关。将根据所述候选数据串出现的频次和频率计算得到的数值作为该候选数据串的概率特征值准确性更高。在本发明一实施例中,根据所述候选数据串出现的频次和频率计算得到概率特征值可以采用TF-IDF(term frequency–inverse document frequency)技术。
TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,用以评估某个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,也就是在语料中的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF*IDF,TF词频(Term Frequency),IDF反文档频率(Inverse DocumentFrequency)。TF表示词条在文档d中出现的频率(另一说:TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数)。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。(另一说:IDF反文档频率(Inverse Document Frequency)是指包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。)但是实际上,如果一个词条在一个类的文档中频繁出现,也就是在语料中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。也就是可以将这样的词条作为词典应用的领域内的新词。
S151,计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。
信息熵是对随机变量不确定性的量度,计算公式如下:
H(X)=-∑p(xi)logp(xi)
信息熵越大,表示变量的不确定性越大;即每个可能的取值发生的概率越平均。如果变量某个取值发生的概率为1,则熵为0。表明变量只有当前一种取值发生,是一个必然事件。
计算词语W的左侧信息熵和右侧信息熵的公式如下:
H1(W)=∑x∈X(#XW>0)P(x|W)log P(x|W),其中X为出现在W左边的所有词语数据集合;H1(W)为词语数据W的左侧信息熵。
H2(W)=∑x∈Y(#WY>0)P(y|W)log P(y|W),其中Y为出现在W右边的所有词语数据集合,H2(W)为词语数据W的右侧信息熵。
计算候选数据串中词语数据与其外侧的词语数据的熵值体现该词语数据外侧词语数据的混乱程度。例如,通过计算候选数据串W1W2中左侧词语数据W1的左侧信息熵,右侧词语数据W2的右侧信息熵可以判断词语数据W1和W2外侧的混乱程度,从而可以通过设定预设范围进行筛选,排除各词语与其外侧词语构成新词的概率特征值在预设范围外的候选数据串。
S152,剩余的候选数据串作为新词。
可以理解的是,步骤S153和步骤S151均为对候选数据串进行判断处理的具体实施方式,步骤S153可以在步骤S151之前,也可以在步骤S151之后。
参照图3,在另一个具体实施中,步骤S15,对所述候选数据串进行判断处理,以发现新词,包括:
S154,计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。
互信息(Mutual Information,MI)的定义见下式:
互信息反映了候选数据串与其中词语数据的共现关系,由两个单独词组成的候选数据串的互信息为一个值(即两个单独词间的互信息),当一候选数据串W与其中词语数据共现频度高时,即出现频次相近时,可知候选数据串W的互信息MI接近于1,也就是说此时候选数据串W成为一个词的可能性很大。若互信息MI的值很小,接近于0,则说明W几乎不可能成为一个词,更不可能成为一个新词。互信息反映了一个候选数据串内部的依赖程度,从而可以用来判断候选数据串是否可能成为新词。
S151,计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。
S152,剩余的候选数据串作为新词。
其中,对步骤S154和步骤S151的先后顺序不做限定。步骤S15还可以包括步骤S153,同样地,步骤S153、步骤S154和步骤S151之间的先后执行顺序可以根据所述判断处理实际需要设定。
参照图4,在再一个具体实施中,所述判断处理还可以包括:S155,计算所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
内侧信息熵是对候选数据串依次固定每个单独词语数据,计算在该词语数据出现情况下另一个词语出现的信息熵。如果候选数据串为(w1w2),则计算词语数据w1的右侧信息熵和词语数据w2的左侧信息熵。
以候选数据串仅包括两个单独词(w1w2)为例说明,单独词w1与相邻的候选数据串中的单独词具有一个外侧信息熵,单独词w1与同一候选数据串中单独词w2具有一个内侧信息熵;单独词w2与同一候选数据串中单独词w1具有一个内侧信息熵,单独词w2与相邻的候选数据串中的单独词具有一个外侧信息熵,即位于中间位置(非端部)的单独词都具有一个内侧信息熵和外侧信息熵。
在进行内侧信息熵或外侧信息熵的判断时,需要对一个候选数据串中两个内侧信息熵或两个外侧信息熵都进行判断,只有两个内侧信息熵或两个外侧信息熵都位于预设范围时,才认为该候选数据串的内侧信息熵或外侧信息熵位于预设范围内;否则,只要有一个内侧信息熵或一个外侧信息熵位于预设范围外,就认为该候选数据串的内侧信息熵或外侧信息熵位于预设范围外。
例如,两个相邻的候选数据串分别为:由单独词“我”和单独词“办理”组成的候选数据串;由单独词“华北”和单独词“商厦”组成的候选数据串。两个候选数据串的内部信息熵分别为:单独词“我”和单独词“办理”之间的信息熵:单独词“华北”和单独词“商厦”之间的信息熵。两个候选数据串之间的外部信息熵为:单独词“办理”和单独词“华北”之间的信息熵。
可以理解的是,判断处理可以包括步骤S152和步骤S153至S155三者中的任一种或多种,可以根据具体应用进行选择。
图5是本发明实施例中另一种判断处理的流程图。
S351,计算候选数据串出现的频次。
S352,判断所述候选数据串出现的频次是否在预设范围内,若所述候选数据串出现的频次在预设范围内,则执行步骤S353;若所述候选数据串出现的频次不在预设范围内,则执行步骤S361。
S353,计算候选数据串中各个词语数据间的互信息。可以理解的是,此时互信息的计算仅针对频次在预设范围内的候选数据串进行。
S354,判断候选数据串中各个词语数据间的互信息是否在预设范围内,若候选数据串中各个词语数据间的互信息在预设范围内,则执行步骤S355;若候选数据串中各个词语数据间的互信息不在预设范围内,则执行步骤S361。
S355,计算候选数据串的边界词语数据与内侧词语数据的信息熵。
可以理解的是,此时候选数据串的与内侧词语数据的信息熵的计算仅针对互信息在预设范围内且频次在预设范围内的候选数据串进行。
S356,判断候选数据串的边界词语数据与内侧词语数据的信息熵是否在预设范围内,若候选数据串的边界词语数据与内侧词语数据的信息熵在预设范围内,则执行步骤S357;若候选数据串的边界词语数据与内侧词语数据的信息熵不在预设范围内,则执行步骤S361。
S357,计算候选数据串的边界词语数据与外侧词语数据的信息熵。
可以理解的是,此时选数据串的边界词语数据与外侧词语数据的信息熵的计算仅针对互信息在预设范围内、频次在预设范围内且边界词语数据与内侧词语数据的信息熵在预设范围内的候选数据串进行。
S358,判断候选数据串的边界词语数据与外侧词语数据的信息熵是否在预设范围内,若相候选数据串的边界词语数据与外侧词语数据的信息熵在预设范围内,则执行步骤S361;若候选数据串的边界词语数据与外侧词语数据的信息熵不在预设范围内,则执行步骤S362。
在本发明实施例中,由于依次计算频次、互信息、候选数据串的边界词语数据与内侧词语数据的信息熵,而上述三种概率特征值的计算难度递增,次序在前的计算可以排除不在预设范围内的候选数据串,被排除的候选数据串不再参与次序在后的计算,从而可以节省计算时间,提高新词发现方法的效率。
如前所述,本发明实施例中的新词发现方法可用于词典更新,在发现新词时,将该新词加入词典,以更新后的词典再次进行分词处理、组合处理和发现新词的过程,直至未发现新词为止。
在一个具体例子中,接收到的语料为语音数据“我办理华北商厦龙卡需要多长时间?”。通过第一次预处理将上述语音数据处理为文本数据;通过第一次分行处理将该文本数据与其它行的文本数据区分;通过第一次分词处理将该文本数据划分为:我、办理、华北、商厦、龙卡、需要、多、长和时间这几个单独词。
通过第一次组合处理得到以下几个候选数据串:我办理、办理华北、华北商厦、商厦龙卡、龙卡需要、需要多、多长、长时间;通过第一次计算频次,去除“我办理”和“办理华北”这两个候选数据串;通过第一次计算互信息,去除“需要多”、“多长”和“长时间”这三个候选数据串;通过第一次计算与外侧词语数据的信息熵,去除“龙卡需要”这个候选数据串,从而获得新词“华北商厦”,将“华北商厦”添加到基础词典中。
通过第二次分词处理将该文本数据划分为:我、办理、华北商厦、龙卡、需要、多、长和时间这几个单独词;通过第二次组合处理得到以下几个候选数据串:我办理、办理华北商厦、华北商厦龙卡、龙卡需要、需要多、多长、长时间;通过第二次计算频次,去除“我办理”和“办理华北商厦”这两个候选数据串;通过第二次计算互信息,去除“需要多”、“多长”和“长时间”这三个候选数据串;通过第二次计算与外侧词语数据的信息熵,去除“龙卡需要”这个候选数据串,从而获得新词“华北商厦龙卡”,又将“华北商厦龙卡”添加到基础词典中。
后面可以继续根据包括“华北商厦龙卡”的基础词典进行分词处理、组合处理和判断处理,并利用每次发现的新词不断更新所述基础词典。
需要说明的是,在上述例子中,后面进行的判断处理中,既可以对所有的候选数据串重新进行判断;也可以记录前一次的判断结果,从而对同一候选数据串可以直接调用前面的判断结果;还可以仅形成包括新词的候选数据串,从而仅对包括新词的候选数据串进行判断。
本发明实施例通过计算所述候选数据串中各词语与其外侧词语的信息熵,判断候选数据串中各词语与外侧词语的信息熵,可以判断候选数据串中各词语与其外侧词语相结合的可能性;去除各词语与其外侧词语的信息熵在预设范围外的候选数据串,可以去除候选数据串中词语与其外侧词语相结合的可能性较大的候选数据串,从而可以提升新词发现方法的准确性。
本发明实施例还提供一种新词发现装置,包括:预处理单元61、分行处理单元62、分词处理单元63、组合处理单元64以及新词发现单元65;
所述预处理单元61,适于对接收到的语料进行预处理,以得到文本数据;
所述分行处理单元62,适于对所述文本数据进行分行处理,得到语句数据;
所述分词处理单元63,适于依照词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;
所述组合处理单元64,适于对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
所述新词发现单元65,适于对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。
在具体实施中,所述判断处理还可以包括:计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
在具体实施中,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
在具体实施中,所述判断处理还可以包括:计算所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
在具体实施中,所述判断处理还可以包括:计算所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
参照图7,在具体实施中,所述新词发现单元65可以包括:频次过滤单元651、互信息过滤单元652、内部信息熵过滤单元653以及外部信息熵过滤单元654;
所述频次过滤单元651,适于计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
所述互信息过滤单元652,适于计算经所述频次过滤单元过滤后,剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
所述内部信息熵过滤单元653,适于计算经所述互信息过滤单元过滤后,剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
所述外部信息熵过滤单元654,适于计算经所述内部信息熵过滤单元过滤后,剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
在具体实施中,所述组合处理单元适于利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
在具体实施中,所述预处理单元适于将语料的格式统一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。
在具体实施中,所述分词处理单元适于采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
在具体实施中,所述新词发现装置还可以包括:长度过滤单元66,适于设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
所述新词发现装置的具体工作过程可以参考前述方法,在此不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (17)
1.一种新词发现方法,其特征在于,包括:
对接收到的语料进行预处理,以得到文本数据;
对所述文本数据进行分行处理,得到语句数据;
依照词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;
对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:先计算所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;再计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。
2.根据权利要求1所述的新词发现方法,其特征在于,所述判断处理还包括:计算候选数据串的频次相关的概率特征值,所述候选数据串的频次相关的概率特征值在预设范围外时,去除该候选数据串。
3.根据权利要求2所述的新词发现方法,其特征在于,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
4.根据权利要求1所述的新词发现方法,其特征在于,所述判断处理还包括:计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。
5.根据权利要求1所述的新词发现方法,其特征在于,对所述候选数据串进行判断处理,以发现新词依次包括:
计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
计算剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
计算剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
剩余的所述候选数据串作为新词。
6.根据权利要求1所述的新词发现方法,其特征在于,所述生成候选数据串,包括:利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
7.根据权利要求1所述的新词发现方法,其特征在于,所述对接收到的语料进行预处理,以得到文本数据包括:将语料的格式统一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。
8.根据权利要求1所述的新词发现方法,其特征在于,所述分词处理采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
9.根据权利要求1所述的新词发现方法,其特征在于,还包括:设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
10.一种新词发现装置,其特征在于,包括:预处理单元、分行处理单元、分词处理单元、组合处理单元以及新词发现单元;
所述预处理单元,适于对接收到的语料进行预处理,以得到文本数据;
所述分行处理单元,适于对所述文本数据进行分行处理,得到语句数据;
所述分词处理单元,适于依照词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;
所述组合处理单元,适于对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
所述新词发现单元,适于对所述候选数据串进行判断处理,以发现新词;
所述判断处理包括:先计算所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;再计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。
11.根据权利要求10所述的新词发现装置,其特征在于,所述判断处理还包括:计算候选数据串的频次相关的概率特征值,所述候选数据串的频次相关的概率特征值在预设范围外时,去除该候选数据串。
12.根据权利要求11所述的新词发现装置,其特征在于,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
13.根据权利要求10所述的新词发现装置,其特征在于,所述新词发现单元包括:频次过滤单元、互信息过滤单元、内部信息熵过滤单元以及外部信息熵过滤单元;
所述频次过滤单元,适于计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
所述互信息过滤单元,适于计算经所述频次过滤单元过滤后,剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
所述内部信息熵过滤单元,适于计算经所述互信息过滤单元过滤后,剩余的所述候选数据串边界词语数据与内侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
所述外部信息熵过滤单元,适于计算经所述内部信息熵过滤单元过滤后,剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
14.根据权利要求10所述的新词发现装置,其特征在于,所述组合处理单元适于利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
15.根据权利要求10所述的新词发现装置,其特征在于,所述预处理单元适于将语料的格式统一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。
16.根据权利要求10所述的新词发现装置,其特征在于,所述分词处理单元适于采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
17.根据权利要求10所述的新词发现装置,其特征在于,还包括:长度过滤单元,适于设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510706254.XA CN105183923B (zh) | 2015-10-27 | 2015-10-27 | 新词发现方法及装置 |
CN201810677081.7A CN108875040B (zh) | 2015-10-27 | 2015-10-27 | 词典更新方法及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510706254.XA CN105183923B (zh) | 2015-10-27 | 2015-10-27 | 新词发现方法及装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810677081.7A Division CN108875040B (zh) | 2015-10-27 | 2015-10-27 | 词典更新方法及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105183923A CN105183923A (zh) | 2015-12-23 |
CN105183923B true CN105183923B (zh) | 2018-06-22 |
Family
ID=54906004
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510706254.XA Active CN105183923B (zh) | 2015-10-27 | 2015-10-27 | 新词发现方法及装置 |
CN201810677081.7A Active CN108875040B (zh) | 2015-10-27 | 2015-10-27 | 词典更新方法及计算机可读存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810677081.7A Active CN108875040B (zh) | 2015-10-27 | 2015-10-27 | 词典更新方法及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN105183923B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975460A (zh) * | 2016-05-30 | 2016-09-28 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN107463548B (zh) * | 2016-06-02 | 2021-04-27 | 阿里巴巴集团控股有限公司 | 短语挖掘方法及装置 |
CN106126494B (zh) * | 2016-06-16 | 2018-12-28 | 上海智臻智能网络科技股份有限公司 | 同义词发现方法及装置、数据处理方法及装置 |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN106502984B (zh) * | 2016-10-19 | 2019-05-24 | 上海智臻智能网络科技股份有限公司 | 一种领域新词发现的方法及装置 |
CN107066447B (zh) * | 2017-04-19 | 2021-03-26 | 广东惠禾科技发展有限公司 | 一种无意义句子识别的方法和设备 |
CN109241392A (zh) * | 2017-07-04 | 2019-01-18 | 北京搜狗科技发展有限公司 | 目标词的识别方法、装置、系统及存储介质 |
CN107622051A (zh) * | 2017-09-14 | 2018-01-23 | 马上消费金融股份有限公司 | 一种新词筛选方法及装置 |
CN107577667B (zh) * | 2017-09-14 | 2020-10-27 | 北京奇艺世纪科技有限公司 | 一种实体词处理方法和装置 |
CN107861940A (zh) * | 2017-10-10 | 2018-03-30 | 昆明理工大学 | 一种基于hmm的中文分词方法 |
CN107704452B (zh) * | 2017-10-20 | 2020-12-22 | 传神联合(北京)信息技术有限公司 | 泰语术语提取的方法及装置 |
CN108509425B (zh) * | 2018-04-10 | 2021-08-24 | 中国人民解放军陆军工程大学 | 一种基于新颖度的中文新词发现方法 |
CN108829658B (zh) * | 2018-05-02 | 2022-05-24 | 石家庄天亮教育科技有限公司 | 新词发现的方法及装置 |
CN108595433A (zh) * | 2018-05-02 | 2018-09-28 | 北京中电普华信息技术有限公司 | 一种新词发现方法及装置 |
CN108959259B (zh) * | 2018-07-05 | 2019-11-08 | 第四范式(北京)技术有限公司 | 新词发现方法及系统 |
CN109408818B (zh) * | 2018-10-12 | 2023-04-07 | 平安科技(深圳)有限公司 | 新词识别方法、装置、计算机设备及存储介质 |
CN110442685A (zh) * | 2019-08-14 | 2019-11-12 | 杭州品茗安控信息技术股份有限公司 | 建筑专业词库的数据扩充方法、装置、设备及存储介质 |
CN111061866B (zh) * | 2019-08-20 | 2024-01-02 | 河北工程大学 | 一种基于特征扩展和T-oBTM的弹幕文本聚类方法 |
CN110674252A (zh) * | 2019-08-26 | 2020-01-10 | 银江股份有限公司 | 一种面向司法领域的高精度语义搜索系统 |
CN111090742B (zh) * | 2019-12-19 | 2024-05-17 | 东软集团股份有限公司 | 一种问答对的评价方法、装置、存储介质及设备 |
CN111209746B (zh) * | 2019-12-30 | 2024-01-30 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111209372B (zh) * | 2020-01-02 | 2021-08-17 | 北京字节跳动网络技术有限公司 | 一种关键词的确定方法、装置、电子设备和存储介质 |
CN111832299A (zh) * | 2020-07-17 | 2020-10-27 | 成都信息工程大学 | 一种中文分词系统 |
CN115410558A (zh) * | 2022-08-26 | 2022-11-29 | 思必驰科技股份有限公司 | 集外词处理方法、电子设备和存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8825648B2 (en) * | 2010-04-15 | 2014-09-02 | Microsoft Corporation | Mining multilingual topics |
CN102169496A (zh) * | 2011-04-12 | 2011-08-31 | 清华大学 | 基于锚文本分析的领域术语自动生成方法 |
CN102360383B (zh) * | 2011-10-15 | 2013-07-31 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
CN103678371B (zh) * | 2012-09-14 | 2017-10-10 | 富士通株式会社 | 词库更新装置、数据整合装置和方法以及电子设备 |
CN102930055B (zh) * | 2012-11-18 | 2015-11-04 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
KR101544690B1 (ko) * | 2012-12-06 | 2015-08-13 | 라쿠텐 인코포레이티드 | 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램 |
CN103049501B (zh) * | 2012-12-11 | 2016-08-03 | 上海大学 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
CN103294664A (zh) * | 2013-07-04 | 2013-09-11 | 清华大学 | 开放领域新词发现的方法及系统 |
CN103970733B (zh) * | 2014-04-10 | 2017-07-14 | 中国信息安全测评中心 | 一种基于图结构的中文新词识别方法 |
-
2015
- 2015-10-27 CN CN201510706254.XA patent/CN105183923B/zh active Active
- 2015-10-27 CN CN201810677081.7A patent/CN108875040B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105183923A (zh) | 2015-12-23 |
CN108875040B (zh) | 2020-08-18 |
CN108875040A (zh) | 2018-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105183923B (zh) | 新词发现方法及装置 | |
CN105389349B (zh) | 词典更新方法及装置 | |
CN105224682B (zh) | 新词发现方法及装置 | |
US11301637B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
WO2021139262A1 (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
US8892420B2 (en) | Text segmentation with multiple granularity levels | |
EP3819785A1 (en) | Feature word determining method, apparatus, and server | |
US20150170051A1 (en) | Applying a Genetic Algorithm to Compositional Semantics Sentiment Analysis to Improve Performance and Accelerate Domain Adaptation | |
US20070016863A1 (en) | Method and apparatus for extracting and structuring domain terms | |
CN110162630A (zh) | 一种文本去重的方法、装置及设备 | |
US10528662B2 (en) | Automated discovery using textual analysis | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN112633011B (zh) | 融合词语义与词共现信息的研究前沿识别方法及设备 | |
CN111460170B (zh) | 一种词语识别方法、装置、终端设备及存储介质 | |
CN114330343B (zh) | 词性感知嵌套命名实体识别方法、系统、设备和存储介质 | |
CN113033194B (zh) | 语义表示图模型的训练方法、装置、设备和存储介质 | |
CN106970919B (zh) | 新词组发现的方法及装置 | |
US11544277B2 (en) | Query term expansion and result selection | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN117312513B (zh) | 文档搜索模型训练方法、文档搜索方法及相关装置 | |
CN114048742B (zh) | 文本信息的知识实体和关系抽取方法及文本质量评估方法 | |
CN113868508B (zh) | 写作素材查询方法、装置、电子设备和存储介质 | |
CN115329083A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN115391551A (zh) | 事件检测方法及装置 | |
CN114116914A (zh) | 基于语义标签的实体检索方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |