CN111209746B - 自然语言处理方法、装置、存储介质及电子设备 - Google Patents
自然语言处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111209746B CN111209746B CN201911401196.4A CN201911401196A CN111209746B CN 111209746 B CN111209746 B CN 111209746B CN 201911401196 A CN201911401196 A CN 201911401196A CN 111209746 B CN111209746 B CN 111209746B
- Authority
- CN
- China
- Prior art keywords
- data
- word
- word segmentation
- speech
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003058 natural language processing Methods 0.000 title claims abstract description 41
- 230000011218 segmentation Effects 0.000 claims abstract description 233
- 238000004458 analytical method Methods 0.000 claims abstract description 99
- 238000007405 data analysis Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000015654 memory Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本公开涉及一种自然语言处理方法、装置、存储介质及电子设备,所述方法包括:接收待分析文本数据和分析指令,分析指令用于指示对待分析文本数据进行的分析模式和分析结果格式;若分析模式指示对待分析文本数据进行句法依存分析,则对待分析文本数据进行分词处理,获得分词数据;根据分词数据对待分析文本数据进行词性标注,获得分词词性数据;对分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;根据分词词性数据和实体识别数据进行句法依存分析,获得句法依存数据;根据分析结果格式确定文本数据分析结果,输出文本数据分析结果,文本数据分析结果包括分词数据、分词词性数据、实体识别数据和句法依存数据中的一者或多者。
Description
技术领域
本公开涉及计算机技术领域,具体地,涉及一种自然语言处理方法、装置、存储介质及电子设备。
背景技术
随着计算机技术的发展,自然语言处理技术也随之兴起。如,在税务领域、医学领域等,均可以通过自然语言处理技术从而对该领域中的文本进行标准化处理,降低用户的工作量。
然而,在现有技术中,该自然语言处理的不同技术通常是被单独的在各智能平台及自然语言处理工具中提供,这样往往会导致各种重复性计算问题。如用户在使用实体识别功能时需要重新进行分词和词性标注工作,浪费了大量的运算时间。
发明内容
本公开的目的是提供一种准确地自然语言处理方法、装置、存储介质和电子设备。
为了实现上述目的,根据本公开的第一方面,提供一种自然语言处理方法,包括:
接收待分析文本数据和分析指令,其中,所述分析指令用于指示对所述待分析文本数据进行的分析模式和分析结果格式;
若所述分析模式指示对所述待分析文本数据进行句法依存分析,则对所述待分析文本数据进行分词处理,获得分词数据;
根据所述分词数据对所述待分析文本数据进行词性标注,获得分词词性数据;
对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;
根据所述分词词性数据和所述实体识别数据进行句法依存分析,获得句法依存数据;
根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,其中,所述文本数据分析结果包括所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中的一者或多者。
可选地,所述对所述待分析文本数据进行分词处理,获得分词数据,包括:
将所述待分析文本数据输入分词模型,获得初始分词数据,其中所述分词模型为隐马尔科夫链模型;
针对所述初始分词数据中的各个初始词语,计算该初始词语对应的词内紧密度;
针对待分析文本数据的每句对应的分词数据,若该句对应的分词数据中的最小的词内紧密度小于预设阈值,分别确定该最小的词内紧密度对应的初始词语与初始该词语的相邻词语之间的词间紧密度;
将最大的词间紧密度对应的初始词语合并为新的分词词语,获得所述分词数据,其中,所述分词数据包括所述初始分词数据中未进行合并的初始词语和所述新的分词词语。
可选地,所述针对所述初始分词数据中的各个初始词语,通过以下公式,计算该初始词语对应的词内紧密度:
其中,pmi(C)表示该初始词语对应的词内紧密度;
p(C)表示该初始词语对应的出现概率;
p(Ci)表示第i个初始词语对应的出现概率;
n表示所述分词数据中该初始词语所在句包含的初始词语的总个数。
可选地,所述对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据,包括:
将所述名词词性的分词词语输入实体识别模型,获得所述实体识别数据,其中,所述实体识别模型为基于实体词典、隐马尔科夫链、和通过长短期记忆神经网络对所述新的分词词语进行训练获得的。
可选地,所述方法还包括:
接收用户上传的实体扩展词典;
所述对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据,包括:
将所述分词词性数据中的名词词性的分词词语与所述实体扩展词典进行匹配,以获得实体识别数据。
可选地,所述根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,包括:
根据所述分词结果格式,从所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中确定所述分词结果格式对应的数据,作为所述文本数据分析结果;
分别输出所述文本数据分析数据结果。
根据本公开的第二方面,提供一种自然语言处理装置,所述装置包括:
第一接收模块,用于接收待分析文本数据和分析指令,其中,所述分析指令用于指示对所述待分析文本数据进行的分析模式和分析结果格式;
分词模块,用于若所述分析模式指示对所述待分析文本数据进行句法依存分析,则对所述待分析文本数据进行分词处理,获得分词数据;
标注模块,用于根据所述分词数据对所述待分析文本数据进行词性标注,获得分词词性数据;
识别模块,用于对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;
分析模块,用于根据所述分词词性数据和所述实体识别数据进行句法依存分析,获得句法依存数据;
输出模块,用于根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,其中,所述文本数据分析结果包括所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中的一者或多者。
可选地,所述分词模块包括:
输入子模块,用于将所述待分析文本数据输入分词模型,获得初始分词数据,其中所述分词模型为隐马尔科夫链模型;
第一计算子模块,用于针对所述初始分词数据中的各个词语,计算该词语对应的词内紧密度;
第二计算子模块,用于若所述最小的词内紧密度小于预设阈值,分别计算该词内紧密度对应的词语与该词语的相邻词语之间的词间紧密度;
合并子模块,用于将最大的词间紧密度对应的词语合并为新的分词词语,获得所述分词数据,其中,所述分词数据包括所述初始分词数据中未进行合并的词语和所述新的分词词语。
可选地,所述第一计算子模块用于针对所述初始分词数据中的各个初始词语,通过以下公式,计算该初始词语对应的词内紧密度:
其中,pmi(C)表示该初始词语对应的词内紧密度;
p(C)表示该初始词语对应的出现概率;
p(Ci)表示第i个初始词语对应的出现概率;
n表示所述分词数据中该初始词语所在句包含的初始词语的总个数。
可选地,所述实体识别模块用于:
将所述名词词性的分词词语输入实体识别模型,获得所述实体识别数据,其中,所述实体识别模型为基于实体词典、隐马尔科夫链、和通过长短期记忆神经网络对所述新的分词词语进行训练获得的。
可选地,所述装置还包括:
第二接收模块,用于接收用户上传的实体扩展词典;
所述实体识别模块用于:
将所述分词词性数据中的名词词性的分词词语与所述实体扩展词典进行匹配,以获得实体识别数据。
可选地,所述输出模块包括:
确定子模块,用于根据所述分词结果格式,从所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中确定所述分词结果格式对应的数据,作为所述文本数据分析结果;
输出子模块,用于分别输出所述文本数据分析数据结果。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一所述方法的步骤。
根据本公开的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面任一所述方法的步骤。
在上述技术方案中,通过设置分析指令,可以根据该分析指令确定对待分析文本数据进行的分析模式和分析结果格式,因此,基于该分析模式和分析结果格式对待分析文本数据进行处理时,可以在进行一次自然语言处理后,获得多种格式的分析文本数据分析结果。因此,通过上述技术方案,将分词处理、词性标注处理、实体识别处理和句法依存处理进行管道式连接,从而可以通过一次自然语言处理,获得多个处理过程中的数据,从而避免像现有技术中一般,在用户需要多个分析数据时,需要进行每种分析数据进行单独的分析的过程,从而可以有效避免对文本数据的重复计算和处理,提高自然语言处理的效率和准确度,并且有效降低用户的工作量。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方式提供的自然语言处理方法的流程图;
图2是对所述待分析文本数据进行分词处理,获得分词数据的一种示例性实施例的流程图;
图3是根据本公开的一种实施方式提供的自然语言处理装置的框图;
图4是根据一示例性实施例示出的一种电子设备的框图;
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1所示,为根据本公开的一种实施方式提供的自然语言处理方法的流程图,如图1所示,所述方法可以包括:
在S11中,接收待分析文本数据和分析指令,其中,所述分析指令用于指示对所述待分析文本数据进行的分析模式和分析结果格式。其中,所述分析模式用于指示对待分析文本数据进行何种处理,例如,分词处理、词性标注处理、实体识别处理、句法依存等。所述分析结果格式用于指示根据待分析文本数据进行自然语言处理所得的结果,例如,分析结果格式可以指示根据待分析文本数据获得分词数据和句法依存数据。其中,用户可以通过显示终端设置该分析模式和分析结果格式。
在S12中,若分析模式指示对待分析文本数据进行句法依存分析,则对待分析文本数据进行分词处理,获得分词数据。
在S13中,根据分词数据对待分析文本数据进行词性标注,获得分词词性数据。
在S14中,对分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据。
在S15中,根据分词词性数据和实体识别数据进行句法依存分析,获得句法依存数据。
其中,在进行句法依存分析时,需要先对待分析文本数据进行分词处理、词性标注以及实体识别,进而才可以进行句法依存分析,因此,在该实施例中,可以按照该自然语言处理的逻辑进行分析,从而获得句法依存数据。其中可以基于现有技术中任一分词处理、词性标注以及实体识别的技术执行上述步骤。
在S16中,根据分析结果格式确定文本数据分析结果,并输出文本数据分析结果,其中,所述文本数据分析结果包括所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中的一者或多者。
在该实施例中,文本数据分析结果可以包括所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中的一者或多者,也就是说,在用户需要同时获得分词数据和句法依存数据时,可以通过一次自然语言处理过程获得,无需进行多次重复的分词计算。
在上述技术方案中,通过设置分析指令,可以根据该分析指令确定对待分析文本数据进行的分析模式和分析结果格式,因此,基于该分析模式和分析结果格式对待分析文本数据进行处理时,可以在进行一次自然语言处理后,获得多种格式的分析文本数据分析结果。因此,通过上述技术方案,将分词处理、词性标注处理、实体识别处理和句法依存处理进行管道式连接,从而可以通过一次自然语言处理,获得多个处理过程中的数据,从而避免像现有技术中一般,在用户需要多个分析数据时,需要进行每种分析数据进行单独的分析的过程,从而可以有效避免对文本数据的重复计算和处理,提高自然语言处理的效率和准确度,并且有效降低用户的工作量。
示例地,若分析模式指示对待分析文本数据分词处理,这种情况下可以无需进行管道式连接中在该分词处理之后的步骤,从而可以进一步节省计算资源。又如,若分析模式指示对待分析文本数据实体识别处理,这种情况下,则无需进行句法依存分析的处理。其中,文本数据分析结果的确定和输出与上文所述相似,在此不再赘述。
其中,分词就是将一句话或者一个短语按照语义特性分成若干个词语的过程。然而在不同的领域中,分词处理均具有其独特性,因此,本公开还提供以下实施例,以有效提高分词模型输出结果的准确度。
可选地,在S12中,对待分析文本数据进行分词处理,获得分词数据的一种示例性实施例如下,如图2所示,该步骤可以包括:
在S21中,将待分析文本数据输入分词模型,获得初始分词数据,其中所述分词模型为隐马尔科夫链模型。
示例地,利用隐马尔科夫链模型完成分词的计算过程,通过隐马尔科夫链中观测独立性假设,即观测值只取决于当前状态值,公式如下所示:
P(observed[i],states[j])=P(states[j])*P(observed[i]|states[j])
其中,P(observed[i],states[j])表示在j时刻的状态确定出的i时刻的状态的观测值,P(observed[i]|states[j])是预训练好的状态发射概率,表示当前时刻j的状态下观测时刻i状态的概率,P(states[j])是状态转移概率,表示j时刻之前的m个状态条件下转移到当前时刻j的状态的概率,由于隐马尔科夫链当前时刻的状态只和之前的m个状态有关,即{states(j-1),states(j-2),states(j-m)}。其中,隐马尔科夫链模型的训练和计算为现有技术,在此不再赘述。
在S22中,针对初始分词数据中的各个初始词语,计算该初始词语对应的词内紧密度。其中,该词内紧密度用于表示该初始词语中的各个字之间的紧密度。
可选地,针对初始分词数据中的各个初始词语,可以通过以下公式,计算该初始词语对应的词内紧密度:
其中,pmi(C)表示该初始词语对应的词内紧密度;
p(C)表示该初始词语对应的出现概率;
p(Ci)表示第i个初始词语对应的出现概率;
n表示所述分词数据中该初始词语所在句包含的初始词语的总个数。
其中,计算初始词语对应的出现概率的方式为现有技术,例如可以是该词语中每个字在训练语料中的共现概率,在此不再赘述。
在S23中,针对待分析文本数据的每句对应的分词数据,若该句对应的分词数据中的最小的词内紧密度小于预设阈值,分别确定该最小的词内紧密度对应的初始词语与初始该词语的相邻词语之间的词间紧密度。
其中,词内紧密度越小说明该词语与其相邻词语的关联性越大。因此,在确定出各个初始词语的对应的词内紧密度后,确定出该句数据对应的最小的词内紧密度。若该最小的词内紧密度大于或等于预设阈值,则表示该句中各个初始词语与其相邻词语的关联性较小,即当前分词是准确的。若该最小的词内紧密度小于预设阈值,则表示该最小的词内紧密度对应的初始词语与其相邻词语的关联性较大,即该初始词语应该与其相邻的词语组成一个新的词语。
之后,则可以分别确定该最小的词内紧密度对应的初始词语与初始该词语的相邻词语之间的词间紧密度,公式如下:
其中,PMI(X,Y)表示词语X和词语Y的词间紧密度;
p(X,Y)表示词语X和词语Y在该待分析文本数据中同时出现的概率;
p(X)表示词语X在该待分析文本数据中出现的概率;
p(Y)表示词语Y在该待分析文本数据中出现的概率。
在S24中,将最大的词间紧密度对应的初始词语合并为新的分词词语,获得分词数据,其中,所述分词数据包括所述初始分词数据中未进行合并的初始词语和所述新的分词词语。
由上述可知,词间紧密度越大表示两个词语用于表示一个词语的可能性越高,因此,可以直接将最大的词间紧密度对应的初始词语合并为新的分词词语,从而获得分词数据。
示例地,针对句子“如何报送金税盘”,经过分词后的结果是“如何,报送,金税,盘”,其中“金税”的pmi值最小且小于该预设阈值,则表示“金税”需要和其相邻的词语合并表示一个新的分词词语。之后,可以计算“金税”和“盘”的词间紧密度,以及“金税”和“报送”的词间紧密度,其中,“金税”和“盘”的词间紧密度更大,此时则说明“金税盘”更可能是一个新词,将“金税”和“盘”进行合并,则该句对应的分词数据为“如何,报送,金税盘”。
因此,通过上述技术方案,可以针对不同的领域,在根据分词模型进行分词之后,继续确定该分词数据中是否还存在可以合并的数据,从而可以发现待分析文本中的新的分词词语,从而可以有效提高分词数据的准确性,为后续基于分词数据进行自然语言处理提供准确地数据支持。
可选地,在S13中,对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据,包括:
将所述名词词性的分词词语输入实体识别模型,获得所述实体识别数据,其中,所述实体识别模型为基于实体词典、隐马尔科夫链、和通过长短期记忆神经网络对所述新的分词词语进行训练获得的。
示例地,如上文所述可以发现新的分词词语,因此,对于该新的分词词语,可以通过HMM(Hidden Markov Model,隐马尔可夫模型)概率的方式对新的分词词语进行词性标注,其中HMM概率的确定方式为现有技术,在此不再赘述。
其中,可以基于某一领域的训练语料经过新词发现后识别的新名词对实体识别模型进行训练,从而可以保证该实体识别模型与该领域的文本的适配性。例如,可以通过税务问答语料进行税务领域的文本的自然语言处理。其中可以通过LSTM(Long Short-TermMemory,长短期记忆网络)对实体识别模型进行训练。因此,在发现新的分词词语后,可以将该分词词语输入该LSTM网络中进行反馈调节训练,从而可以提高实体识别模型进行实体识别的准确度。
示例地,针对文本处理中的地名和组织结构名可以通过实体词典进行识别,人名的实体识别可以通过基于隐马尔科夫链和维特比动态规划的算法进行识别,同时结合实体识别模型中的LSTM网络对其他实体进行识别,如税务领域中的税务实体、发票类实体、增值税类实体等。
因此,通过上述技术方案,通过融合实体词典、隐马尔科夫链、和通过长短期记忆神经网络可以准确且全面的实现实体识别,并且,针对于分词过程中发现的新的分词词语,可以无需用户标注便可以实现实体识别模型的更新反馈,从而也可以在提高实体识别模型的准确性的同时,降低人工工作量,提升用户使用体验。
可选地,所述方法还包括:
接收用户上传的实体扩展词典,其中该实体扩展词典可以针对某一特定领域的文本的实体词典,如税务扩展词典等。
则所述对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据的一种示例性实施例如下,该步骤可以包括:
将所述分词词性数据中的名词词性的分词词语与所述实体扩展词典进行匹配,以获得实体识别数据。
其中,基于实体词典进行实体识别的方式为现有技术,在此不再赘述。通过上述技术方案,可以支持用户上传实体扩展词典,从而可以满足各领域下的实体识别能力的扩展,从而提高该自然语言处理的准确性和广泛性,提高该自然语言处理方法的使用范围。
可选地,所述根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,包括:
根据所述分词结果格式,从所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中确定所述分词结果格式对应的数据,作为所述文本数据分析结果;
分别输出所述文本数据分析数据结果。
示例地,如上文所述,分析结果格式可以指示根据待分析文本数据获得分词数据和句法依存数据,因此,在该实施例中,可以将S12中获得的分词数据和S15中获得句法依存数据作为文本数据分析结果。因此,通过上述技术方案,可以在一次自然语言处理的过程中,分别输出分词数据和句法依存数据,从而无需额外的分词处理计算过程,既可以提高自然语言处理的效率,又可以有效降低计算资源的占用,节省系统的计算量。
可选地,本公开提供的方法可以应用于一数据处理模型网络。其中,所述数据处理模型网络包括分词模型、词性标注模型、实体识别模型和句法分析模型,所述词性标注模型的输入与所述分词模型的输出耦合,所述实体识别模型的输入与所述词性标注模型的输出耦合,所述句法分析模型的输入与所述实体分析模型的输出和所述词性标注模型的输出耦合;所述分词模型用于根据所述待分析文本数据进行分词处理,获得所述分词数据;所述词性标注模型用于根据所述分词数据进行词性标注,获得所述分词词性数据;所述实体识别模型用于根据所述分词词性数据中为名词的数据进行实体识别,获得所述实体识别数据;所述句法分析模型用于根据所述分词词性数据和所述实体识别数据进行句法依存分析,获得句法依存数据。
本公开还提供一种自然语言处理装置,如图3所示,所述装置10包括:
第一接收模块100,用于接收待分析文本数据和分析指令,其中,所述分析指令用于指示对所述待分析文本数据进行的分析模式和分析结果格式;
分词模块200,用于若所述分析模式指示对所述待分析文本数据进行句法依存分析,则对所述待分析文本数据进行分词处理,获得分词数据;
标注模块300,用于根据所述分词数据对所述待分析文本数据进行词性标注,获得分词词性数据;
识别模块400,用于对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;
分析模块500,用于根据所述分词词性数据和所述实体识别数据进行句法依存分析,获得句法依存数据;
输出模块600,用于根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,其中,所述文本数据分析结果包括所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中的一者或多者。
可选地,所述分词模块包括:
输入子模块,用于将所述待分析文本数据输入分词模型,获得初始分词数据,其中所述分词模型为隐马尔科夫链模型;
第一计算子模块,用于针对所述初始分词数据中的各个词语,计算该词语对应的词内紧密度;
第二计算子模块,用于若所述最小的词内紧密度小于预设阈值,分别计算该词内紧密度对应的词语与该词语的相邻词语之间的词间紧密度;
合并子模块,用于将最大的词间紧密度对应的词语合并为新的分词词语,获得所述分词数据,其中,所述分词数据包括所述初始分词数据中未进行合并的词语和所述新的分词词语。
可选地,所述第一计算子模块用于针对所述初始分词数据中的各个初始词语,通过以下公式,计算该初始词语对应的词内紧密度:
其中,pmi(C)表示该初始词语对应的词内紧密度;
p(C)表示该初始词语对应的出现概率;
p(Ci)表示第i个初始词语对应的出现概率;
n表示所述分词数据中该初始词语所在句包含的初始词语的总个数。
可选地,所述实体识别模块用于:
将所述名词词性的分词词语输入实体识别模型,获得所述实体识别数据,其中,所述实体识别模型为基于实体词典、隐马尔科夫链、和通过长短期记忆神经网络对所述新的分词词语进行训练获得的。
可选地,所述装置还包括:
第二接收模块,用于接收用户上传的实体扩展词典;
所述实体识别模块用于:
将所述分词词性数据中的名词词性的分词词语与所述实体扩展词典进行匹配,以获得实体识别数据。
可选地,所述输出模块包括:
确定子模块,用于根据所述分词结果格式,从所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中确定所述分词结果格式对应的数据,作为所述文本数据分析结果;
输出子模块,用于分别输出所述文本数据分析数据结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种电子设备700的框图。如图4所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的自然语言处理方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的自然语言处理方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的自然语言处理方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的自然语言处理方法。
图5是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图5,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的自然语言处理方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的自然语言处理方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的自然语言处理方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的自然语言处理方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (8)
1.一种自然语言处理方法,其特征在于,所述方法包括:
接收待分析文本数据和分析指令,其中,所述分析指令用于指示对所述待分析文本数据进行的分析模式和分析结果格式;
若所述分析模式指示对所述待分析文本数据进行句法依存分析,则对所述待分析文本数据进行分词处理,获得分词数据;
根据所述分词数据对所述待分析文本数据进行词性标注,获得分词词性数据;
对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;
根据所述分词词性数据和所述实体识别数据进行句法依存分析,获得句法依存数据;
根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,其中,所述文本数据分析结果包括所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中的一者或多者;
其中,所述对所述待分析文本数据进行分词处理,获得分词数据,包括:
将所述待分析文本数据输入分词模型,获得初始分词数据,其中所述分词模型为隐马尔科夫链模型;
针对所述初始分词数据中的各个初始词语,计算该初始词语对应的词内紧密度,所述词内紧密度为该初始词语中的各个字之间的紧密度;
针对待分析文本数据的每句对应的分词数据,若该句对应的分词数据中的最小的词内紧密度小于预设阈值,分别确定该最小的词内紧密度对应的初始词语与初始该词语的相邻词语之间的词间紧密度;
将最大的词间紧密度对应的初始词语合并为新的分词词语,获得所述分词数据,其中,所述分词数据包括所述初始分词数据中未进行合并的初始词语和所述新的分词词语。
2.根据权利要求1所述的方法,其特征在于,所述针对所述初始分词数据中的各个初始词语,通过以下公式,计算该初始词语对应的词内紧密度:
其中,pmi(C)表示该初始词语对应的词内紧密度;
p(C)表示该初始词语对应的出现概率;
p(Ci)表示第i个初始词语对应的出现概率;
n表示所述分词数据中该初始词语所在句包含的初始词语的总个数。
3.根据权利要求1所述的方法,其特征在于,所述对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据,包括:
将所述名词词性的分词词语输入实体识别模型,获得所述实体识别数据,其中,所述实体识别模型为基于实体词典、隐马尔科夫链、和通过长短期记忆神经网络对所述新的分词词语进行训练获得的。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户上传的实体扩展词典;
所述对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据,包括:
将所述分词词性数据中的名词词性的分词词语与所述实体扩展词典进行匹配,以获得实体识别数据。
5.根据权利要求1所述的方法,其特征在于,所述根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,包括:
根据所述分词结果格式,从所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中确定所述分词结果格式对应的数据,作为所述文本数据分析结果;
分别输出所述文本数据分析数据结果。
6.一种自然语言处理装置,其特征在于,所述装置包括:
第一接收模块,用于接收待分析文本数据和分析指令,其中,所述分析指令用于指示对所述待分析文本数据进行的分析模式和分析结果格式;
分词模块,用于若所述分析模式指示对所述待分析文本数据进行句法依存分析,则对所述待分析文本数据进行分词处理,获得分词数据;
标注模块,用于根据所述分词数据对所述待分析文本数据进行词性标注,获得分词词性数据;
识别模块,用于对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;
分析模块,用于根据所述分词词性数据和所述实体识别数据进行句法依存分析,获得句法依存数据;
输出模块,用于根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,其中,所述文本数据分析结果包括所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中的一者或多者;
其中,所述分词模块包括:
输入子模块,用于将所述待分析文本数据输入分词模型,获得初始分词数据,其中所述分词模型为隐马尔科夫链模型;
第一计算子模块,用于针对所述初始分词数据中的各个词语,计算该词语对应的词内紧密度,所述词内紧密度为该初始词语中的各个字之间的紧密度;
第二计算子模块,用于若最小的词内紧密度小于预设阈值,分别计算该词内紧密度对应的词语与该词语的相邻词语之间的词间紧密度;
合并子模块,用于将最大的词间紧密度对应的词语合并为新的分词词语,获得所述分词数据,其中,所述分词数据包括所述初始分词数据中未进行合并的词语和所述新的分词词语。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
8.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911401196.4A CN111209746B (zh) | 2019-12-30 | 2019-12-30 | 自然语言处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911401196.4A CN111209746B (zh) | 2019-12-30 | 2019-12-30 | 自然语言处理方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111209746A CN111209746A (zh) | 2020-05-29 |
CN111209746B true CN111209746B (zh) | 2024-01-30 |
Family
ID=70786487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911401196.4A Active CN111209746B (zh) | 2019-12-30 | 2019-12-30 | 自然语言处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209746B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507085B (zh) * | 2020-12-18 | 2022-06-03 | 四川长虹电器股份有限公司 | 一种知识嵌入的领域识别方法、计算机设备及存储介质 |
CN113111650A (zh) * | 2021-04-16 | 2021-07-13 | 中国工商银行股份有限公司 | 文本处理方法、装置、系统及存储介质 |
CN113268979B (zh) * | 2021-04-30 | 2023-06-27 | 清华大学 | 基于双词典模型的人工智能文本分析方法及相关设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001067354A (ja) * | 1999-08-27 | 2001-03-16 | Matsushita Electric Ind Co Ltd | 新語性判定装置及び新語性判定方法 |
JP2005173753A (ja) * | 2003-12-09 | 2005-06-30 | Ricoh Co Ltd | 自然語辞書更新装置、更新方法、プログラム及び記録媒体 |
CN101187921A (zh) * | 2007-12-20 | 2008-05-28 | 腾讯科技(深圳)有限公司 | 一种中文复合词的提取方法及提取系统 |
CN105183923A (zh) * | 2015-10-27 | 2015-12-23 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
CN105677664A (zh) * | 2014-11-19 | 2016-06-15 | 腾讯科技(深圳)有限公司 | 基于网络搜索的紧密度确定方法及装置 |
CN106156041A (zh) * | 2015-03-26 | 2016-11-23 | 科大讯飞股份有限公司 | 热点信息发现方法及系统 |
CN108320808A (zh) * | 2018-01-24 | 2018-07-24 | 龙马智芯(珠海横琴)科技有限公司 | 病历分析方法和装置、设备、计算机可读存储介质 |
CN108776709A (zh) * | 2015-10-27 | 2018-11-09 | 上海智臻智能网络科技股份有限公司 | 计算机可读存储介质及词典更新方法 |
CN109271527A (zh) * | 2018-09-27 | 2019-01-25 | 华东师范大学 | 一种需求功能点智能识别方法 |
CN110309400A (zh) * | 2018-02-07 | 2019-10-08 | 鼎复数据科技(北京)有限公司 | 一种智能理解用户查询意图的方法及系统 |
-
2019
- 2019-12-30 CN CN201911401196.4A patent/CN111209746B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001067354A (ja) * | 1999-08-27 | 2001-03-16 | Matsushita Electric Ind Co Ltd | 新語性判定装置及び新語性判定方法 |
JP2005173753A (ja) * | 2003-12-09 | 2005-06-30 | Ricoh Co Ltd | 自然語辞書更新装置、更新方法、プログラム及び記録媒体 |
CN101187921A (zh) * | 2007-12-20 | 2008-05-28 | 腾讯科技(深圳)有限公司 | 一种中文复合词的提取方法及提取系统 |
CN105677664A (zh) * | 2014-11-19 | 2016-06-15 | 腾讯科技(深圳)有限公司 | 基于网络搜索的紧密度确定方法及装置 |
CN106156041A (zh) * | 2015-03-26 | 2016-11-23 | 科大讯飞股份有限公司 | 热点信息发现方法及系统 |
CN105183923A (zh) * | 2015-10-27 | 2015-12-23 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
CN108776709A (zh) * | 2015-10-27 | 2018-11-09 | 上海智臻智能网络科技股份有限公司 | 计算机可读存储介质及词典更新方法 |
CN108320808A (zh) * | 2018-01-24 | 2018-07-24 | 龙马智芯(珠海横琴)科技有限公司 | 病历分析方法和装置、设备、计算机可读存储介质 |
CN110309400A (zh) * | 2018-02-07 | 2019-10-08 | 鼎复数据科技(北京)有限公司 | 一种智能理解用户查询意图的方法及系统 |
CN109271527A (zh) * | 2018-09-27 | 2019-01-25 | 华东师范大学 | 一种需求功能点智能识别方法 |
Non-Patent Citations (4)
Title |
---|
Improving Pointwise Mutual Information (PMI) by Incorporating Significant Co-occurrence;Om P. Damani;arXiv;1-10 * |
李亚松等.一种新词自动提取方法.《电信工程技术与标准化》.2015,(第12期),83-86. * |
袁里驰 ; .基于依存关系的句法分析统计模型.中南大学学报(自然科学版).2009,(第06期),164-169. * |
郭振 ; 张玉洁 ; 苏晨 ; 徐金安 ; .基于字符的中文分词、词性标注和依存句法分析联合模型.中文信息学报.2014,(第06期),5-12+21. * |
Also Published As
Publication number | Publication date |
---|---|
CN111209746A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415679B (zh) | 语音纠错方法、装置、设备和存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111209746B (zh) | 自然语言处理方法、装置、存储介质及电子设备 | |
KR102046486B1 (ko) | 정보 입력 방법 | |
CN111402861B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
US9697194B2 (en) | Contextual auto-correct dictionary | |
CN113743117B (zh) | 用于实体标注的方法和装置 | |
CN110968601A (zh) | 一种数据查询处理方法及装置 | |
CN113470619A (zh) | 语音识别方法、装置、介质及设备 | |
CN112036162A (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
US8356065B2 (en) | Similar text search method, similar text search system, and similar text search program | |
CN111046060A (zh) | 一种基于Elasticsearch的数据检索方法、装置、设备、介质 | |
CN111160004B (zh) | 一种断句模型的建立方法及装置 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN111353035B (zh) | 人机对话方法、装置、可读存储介质及电子设备 | |
KR20090106936A (ko) | 문장 띄어쓰기 시스템 및 방법 | |
CN112417878B (zh) | 实体关系抽取方法、系统、电子设备及存储介质 | |
CN110390085B (zh) | 文本相似度的分析方法、分析装置、存储介质和电子设备 | |
CN113807106B (zh) | 翻译模型的训练方法、装置、电子设备及存储介质 | |
CN110929514B (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
CN116340470B (zh) | 一种基于aigc的关键词关联检索系统 | |
CN112487813A (zh) | 命名实体识别方法及系统、电子设备及存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN115905497B (zh) | 确定答复语句的方法、装置、电子设备和存储介质 | |
KR102308521B1 (ko) | 정보 업데이트 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |