CN106569997B - 一种基于隐式马尔科夫模型的科技类复合短语识别方法 - Google Patents
一种基于隐式马尔科夫模型的科技类复合短语识别方法 Download PDFInfo
- Publication number
- CN106569997B CN106569997B CN201610912585.3A CN201610912585A CN106569997B CN 106569997 B CN106569997 B CN 106569997B CN 201610912585 A CN201610912585 A CN 201610912585A CN 106569997 B CN106569997 B CN 106569997B
- Authority
- CN
- China
- Prior art keywords
- word
- matrix
- dictionary
- compound
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000005516 engineering process Methods 0.000 title abstract description 26
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 19
- 239000008358 core component Substances 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 6
- 238000011160 research Methods 0.000 description 10
- 241000209094 Oryza Species 0.000 description 6
- 235000007164 Oryza sativa Nutrition 0.000 description 6
- 235000009566 rice Nutrition 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 241001463014 Chazara briseis Species 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。
Description
技术领域
本发明涉及一种基于隐式马尔科夫模型的复合短语实体识别方法,属于计算机软件技术领域。
背景技术
随着多科学研究的逐步深入,现今学术界和研究者发表大量的研究成果呈海量爆炸性增长。如何自动化收集、整合、分析这些工作成为了学术界和工业界关注的问题。包括论文、书籍、技术报告、专利的题目、科技项目名称等。这一类短语在这里统称为科技类复合短语。如何高效的从各类网络语料中抽取需要的科技复合短语实体,是自动化进行学术信息抽取、知识产权保护、科技资源数据库在线建设与维护等诸多应用的基础。
传统意义上的命名实体作为是自然语言处理的基本任务抽取的对象主要包括人名、地名、组织机构名、数字、计量单位等专有名词。这些命名实体具有长度相对稳定、结构规范、命名规则统一的有利特点,这使得传统的命名实体识别系统的F1-measure往往能达到90%以上,几乎接近人类正常识别水平。而科技类名词短语不同于人名和地名。科技类复合短语往往内部结构复杂,内部包含嵌套的科技名词实体。而且科技类名词短语纷繁复杂,词语的出现与否本身具有极大的稀疏性,内部实体之间相互组合的冗余度低。这类词法结构导致识别该类命名实体的难度较大。这使得通过词语本身隐式马尔科夫输入的方法不可行。由于复合短语相对于普通的命名实体(人名、地名、机构名)词语本身词法组成更加复杂,传统的纯手工角色标注容易导致标注错误。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种复合短语自动识别与提取方法,为解决复合短语自动化识别,本文提出了一种基于隐式马尔科夫模型的复合短语的识别方法。
本发明的技术方案为:
一种基于隐式马尔科夫模型的复合短语识别方法,其步骤为:
1)采用词性标注工具对输入语料进行词性标注和分词;
2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;
3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语。
进一步的,生成所述特征词集合的方法为:选取一科技名词短语集合,记训练集为P={p1,p2,...,pn},其中pn为第n条文本标题;对该集合P进行分词处理,获取一词典数据W={w1,w2,...,wm},其中wm为词典中第m个单词;然后在该词典W中寻找一个满足最小覆盖的子集S′,使得S′满足:集合S能够覆盖集合P,即集合P的每条语料pi中至少有一个单词在S中出现;以及集合S中元素个数最小;然后将得到的子集S′作为所述特征词集合。
进一步的,采用贪心算法在词典W中寻找一个满足最小覆盖的子集S′。
进一步的,在该词典W中寻找一个满足最小覆盖的子集S′的方法为:
a)利用训练集P和词典W构造一个m×n维的二值矩阵M,其中,该二值矩阵M中的元素Mij为矩阵M的第i行第j列元素;若词典W中第i个单词wi在训练集P中的第j条文本标题pj中出现过,则令Mij=1,否则Mij=0;
b)选择该矩阵M中1数量最多的一行,记为第i行,计算S′=S′∪wi、其中,为二元运算符,计算结果为去掉矩阵M中第i行以及第i行中所有非0元素所在的列,更新矩阵M;
c)重复步骤b),直到该矩阵M为空矩阵,此时单词集S′即所求的最小覆盖集S′。
进一步的,构造该二值矩阵M的方法为:将训练集P中每一短语为矩阵M的一列向量,训练集P中各短语的所有分词构成矩阵M的行向量。
进一步的,采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测的方法为:将词性标注状态作为输入隐式马尔科夫模型的显状态;当输入显状态对应的分词命中上文提示词词典、下文提示词词典或维基百科条目时,将该分词的词性标注显状态置换为命中对象对应的设定值。
进一步的,当该状态序列中的一段序列以前缀开头,中间为核心成分,以后缀结束,则将该段序列截取作为一复合短语。
进一步的,通过启发式规则建立所述上文提示词词典、下文提示词词典。
进一步的,所述特征词为科技类复合短语中的高频词。
本方法模型主要分为三部分:第一部分为首先采用词性标注工具对输入语料进行词性标注和分词。第二部分采用隐式马尔科夫进行输出序列即隐状态的预测,将得到的输出状态序列进行切分,即得到分词组合为复合短语后的结果。第三部分判断上一步的复合短语是否包含特征词,所谓特征词,是指在科技类复合短语中反复出现的一类词语,而在其他命名实体中极少出现的一类词语。将含有特征词的复合短语作为识别的科技类复合短语结果。整个流程如图1所示:
科技类复合短语在上下文中词语转移之间的冗余度低的特性,无法直接采用字面值作为隐式马尔科夫模型输入显状态。在这里采用词性标注状态作为输入的显状态。当输入的显状态对应的分词命中上文提示词词典、下文提示词词典和维基百科条目,此时将其默认的词性标注显状态置换为表1中规定的值。其中上文与下文提示词词典为实现通过启发式规则建立。修改后的显状态序列作为隐式马尔科夫训练与预测的输入序列。在隐式马尔科夫模型输出预测序列中,和候选词语识别左右边界采用表2中规定的前缀、后缀以及核心成分在序列中对应的最大边界。当一段序列以上述三者开头以及结束,中间为表2中除非项目成分中的其他状态,将这样的序列截取作为候选的复合短语。
表1上下文指示词词典和维基百科词典显状态、隐状态例子
表2复合科技名词短语角色标注成分
在切分后的候选科技复合短语实体中,需要对候选的集合进行判断。注意到科技类科技复合短语中包含一类特殊的高频词语、例如上述短语中的“技术”、“研究”和“应用”。我们将这一类词语称为科技复合短语的特征词。特征词集合规模过大会导致过匹配非复合短语。而特征词集合规模过小又会导致遗漏。为了解决上述问题,我们基于最小集合覆盖问题,进行特征词集合的生成。所谓最小集合覆盖,是指给定全集U,以及一个包含n个U的子集且这n个子集的并集为全集U,这些子集本身作为集合S的元素。集合覆盖问题是要找到集合S中最小的子集S′,使得集合S′中元素的并集等于全集U,并且S′的规模最小。给定科技名词短语集合,记训练集为P={p1,p2,...,pn},其中pi为第i条文本标题。通过对P进行分词处理后可以获取一个词典数据W={w1,w2,...,wm},其中wi为词典中第i个单词。关系类型的特征词提取可以转化为在词典W中寻找一个满足最小覆盖的子集S′,使得S′满足:
1.集合S′能够覆盖集合P,即集合P的每条语料pi中至少有一个单词在S中出现;
2.S′中元素个数最小。由于求解最小集合覆盖问题是一个NP-hard问题。这里采用贪心算法求解特征词的覆盖问题。
将求解训练集P的最小覆盖单词集S′问题记为WLAN(Words with the LeAstNumber)。定理1可以证明WLAN问题是一个NP难问题
定理1.WLAN问题是NP-hard难题。
证明:对于每个单词w∈W,可以构造一个语料集其中A(w)表示所有含有单词w的语料集合。记A(W)={A(w1),A(w2),...,A(wm)},显然A(W)是P的一个覆盖,即经典的最小集合覆盖问题为寻找一个集合满足∪AS=p且AS最小。而训练集P的最小覆盖集AS分词后得到的单词集即WLAN问题的解。由此可知,WLAN问题与经典的最小集合覆盖问题是等价的,而最小集合覆盖问题是NP-hard问题,因此WLAN也是一个NP-hard问题。
本发明通过以下方法求解特征词的最小覆盖集合。通过训练集P和词典W可以构造一个m×n维的二值矩阵M(由图2所示),Mij为矩阵M的第i行第j列元素,若词典中第i个单词wi在pj中出现过则Mij=1,否则Mij=0。定义二元运算符 计算结果为去掉矩阵M中第i行以及第i行中所有非0元素所在的列,组成的新矩阵。以图2为例,P={p1,p2,p3}为三条同类型的标题语料,分词后得到含有4个单词的词典W={w1,w2,w3,w4},构造矩阵M。如果选择单词w2,则的计算结果为删除M的第2行和第2行中非零元素M22所在的第2列,得到矩阵M′。利用运算符以使用动态规划的方法来求得问题的最优解。专利中采用贪心算法计算问题的近似最优解,计算过程如下:
构造布尔矩阵M,对训练语料中所有科技复合短语看作矩阵M的列向量,对于训练语料中所有科技复合短语中所有的分词构成矩阵M的列向量。若一个单词在某条科技复合短语中出现,则把其对应结果置为1。
矩阵M作为初始输入值,令单词集
选择M中1数量最多的一行,假设为第i行(矩阵第i行对应的就是第i个单词wi),计算S′=S′∪wi;
令并将其作为下一步输入;
重复上述两个步骤直到M为空矩阵为止,此时单词集S′即所求的最小覆盖集。
本发明针对科技类复合名词短语自身的特点,通过设置上下文词典、维基百科词典以及表1和表2中设定的隐状态和显状态,通过表1中规定的显状态自动置换,通过隐式马尔科夫模型预测生成的序列中,通过表2中定义的候选复合名词短语的边界,从而达到候选科技类复合短语的识别。通过最小集覆盖的思想获取,实现了候选科技复合名词短语的自动预提取。其中上下文词典是通过启发式规则编制,维基百科词典通过JPWL开发包,对维基百科条目名称做提取并导出得到。
本发明根据复合短语特征词中富含特征词这一重要特性,采用了特征词来实现候选科技复合名词短语的最终识别。本专利采用了最小集合覆盖的思想,来获得合适规模的特征词集合。
与现有技术相比,本发明的有益效果:
在测试数据集上,本算法专利取得了48.8%的查全率,47.8%的查准率以及48.3的F1测度。另外本算法在进行算法标注的时候,采取了上下文显状态与隐状态自动置换。另外在自动判定候选边界切分的方法上采用了特征词匹配,采用了最小覆盖的思想构建特征词集合,该过程不需要人工标注。基于以上两点,一定程度上缓解了角色标注的巨大人工成本代价。
附图说明
图1为命名实体识别处理流程;
图2为二元运算计算示意图;
图3为特征词词频曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
以输入语料“我校参与完成的项目‘两系法杂交水稻技术研究与应用’与获得国家科技进步一等奖”为例”,处理流程首先对整句话进行分词与词性标注,得到词性标注序列“我校/r参与/v完成/v的/ude1项目/n"/wyz两/m系/n法/b杂交水稻/wiki技术/n研究/vn与/cc应用/vn"/wyy与/cc获得/v国家/wiki科技/wiki进步/vn一等奖/n”。利用词性标注序列自动置换对应的显状态序列:<r>我校</r><CAO>参与</CAO><CAO>完成</CAO><ude1>的</ude1><WIO>科技</WIO><n>项目</n><wyz>"</wyz><m>两</m><n>系</n><b>法</b><WIO>杂交水稻</WIO><n>技术</n><vn>研究</vn><cc>与</cc><vn>应用</vn><wyy>"</wyy><cc>与</cc><CBO>获得</CBO><WIO>国家<WIO><WIO>科技</WIO><vn>进步</vn><n>一等奖</n>。该序列作为隐式马尔科夫模型的输入模型,通过维特比算法得到预测输出的隐状态:<N>我校</N><CAS>参与</CAS><CAS>完成</CAS><N_AB>的</N_AB><N_AB>科技</N_AB><N_AB>项目</N_AB><SP>"</SP><CWP>两</CWP><CWP>系</CWP><CWP>法</CWP><CW>杂交水稻</CW><CWS>技术</CWS><CWS>研究</CWS><CCLL>与</CCLL><CWS>应用</CWS><SP>"</SP><CBS>获得</CBS><N>国家</N><N>科技</N><N>进步</N><N>一等奖</N>。在序列中,由表2定义的前缀、后缀以及核心成分的最大边界,其对应的序列为:<CWP>两</CWP><CWP>系</CWP><CWP>法</CWP><CW>杂交水稻</CW><CWS>技术</CWS><CWS>研究</CWS><CCLL>与</CCLL><CWS>应用</CWS>。故提取序列“两系法杂交水稻技术研究与应用“作为候选复合实体短语。由于其中包含特征词“技术”与“研究”,故其匹配为科技复合短语。
本文采用最小覆盖的算法产生特征词。特征词的训练集合来源为训练集来源与8所高校的1119个国家自然科学基金。图3表示所有特征词按照词频降序的曲线。如图3,当特征词规模大于72时,可以看到特征词覆盖规模呈幂律分布减小,这表明随着高频特征词往往数量有限,在获取一定规模的特征词,就可以有效避免误匹配科技复合名词短语。我们在这里将特征词的词频规模设置为72。
我们利用包含从2005年到2014年的获得国家科技进步奖的1522个获奖项目的文本作为种子,爬取并选取679条数据作为实验数据。本文将其中146条数据按照表2和进行角色标注,剩余的533条语料作为测试数据。本文的实验结果显示,基于层叠隐式马尔科夫链模型取得了81.1%的准确率,90.1%的召回率以及85.3%的F1值。与不采用上下文词典与维基百科角色标注、以及特征词词典,基于表2中中角色标注的单层隐士马尔科夫模型,层叠隐士马尔科夫模型提高了20.7%的准确率,10.1%的召回率和16.5%的F1值。
Claims (7)
1.一种基于隐式马尔科夫模型的复合短语识别方法,其步骤为:
1)采用词性标注工具对输入语料进行词性标注和分词;
2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,当该状态序列中的一段序列以前缀开头,中间为核心成分,以后缀结束,则将该段序列截取作为一复合短语;根据得到的复合短语得到一复合短语集合;其中,采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测的方法为:将词性标注状态作为输入隐式马尔科夫模型的显状态;当输入显状态对应的分词命中上文提示词词典、下文提示词词典或维基百科条目时,将该分词的词性标注显状态置换为命中对象对应的设定值;
3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的复合短语。
2.如权利要求1所述的方法,其特征在于,生成所述特征词集合的方法为:选取一科技名词短语集合,记训练集为P={p1,p2,...,pn},其中pn为第n条文本标题;对该集合P进行分词处理,获取一词典数据W={w1,w2,...,wm},其中wm为词典中第m个单词;然后在该词典W中寻找一个满足最小覆盖的子集S′,使得S′满足:集合S能够覆盖集合P,即集合P的每条文本标题中至少有一个单词在S中出现;以及集合S中元素个数最小;然后将得到的子集S′作为所述特征词集合。
3.如权利要求2所述的方法,其特征在于,采用贪心算法在词典W中寻找一个满足最小覆盖的子集S′。
4.如权利要求2或3所述的方法,其特征在于,在该词典W中寻找一个满足最小覆盖的子集S′的方法为:
a)利用训练集P和词典W构造一个m×n维的二值矩阵M,其中,该二值矩阵M中的元素Mij为矩阵M的第i行第j列元素;若词典W中第i个单词wi在训练集P中的第j条文本标题pj中出现过,则令Mij=1,否则Mij=0;
b)选择该矩阵M中1数量最多的一行,记为第i行,计算S′=S′∪wi、其中,为二元运算符,计算结果为去掉矩阵M中第i行以及第i行中所有非0元素所在的列,更新矩阵M;
c)重复步骤b),直到该矩阵M为空矩阵,此时单词集S′即所求的最小覆盖集S′。
5.如权利要求4所述的方法,其特征在于,构造该二值矩阵M的方法为:将训练集P中每一短语为矩阵M的一列向量,训练集P中各短语的所有分词构成矩阵M的行向量。
6.如权利要求1所述的方法,其特征在于,通过启发式规则建立所述上文提示词词典、下文提示词词典。
7.如权利要求1或2或3所述的方法,其特征在于,所述特征词为科技类复合短语中的高频词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610912585.3A CN106569997B (zh) | 2016-10-19 | 2016-10-19 | 一种基于隐式马尔科夫模型的科技类复合短语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610912585.3A CN106569997B (zh) | 2016-10-19 | 2016-10-19 | 一种基于隐式马尔科夫模型的科技类复合短语识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106569997A CN106569997A (zh) | 2017-04-19 |
CN106569997B true CN106569997B (zh) | 2019-12-10 |
Family
ID=58533036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610912585.3A Active CN106569997B (zh) | 2016-10-19 | 2016-10-19 | 一种基于隐式马尔科夫模型的科技类复合短语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106569997B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299469B (zh) * | 2018-10-29 | 2023-05-02 | 复旦大学 | 一种在长文本中识别复杂住址的方法 |
CN114492426B (zh) * | 2021-12-30 | 2023-04-07 | 北京百度网讯科技有限公司 | 子词切分方法、模型训练方法、装置和电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0778222A (ja) * | 1992-12-17 | 1995-03-20 | Xerox Corp | キーワードのモデル化方法及び非キーワードhmmの提供方法 |
CN101093504A (zh) * | 2006-03-24 | 2007-12-26 | 国际商业机器公司 | 用于提取新复合词的系统和方法 |
CN101187921A (zh) * | 2007-12-20 | 2008-05-28 | 腾讯科技(深圳)有限公司 | 一种中文复合词的提取方法及提取系统 |
CN101201818A (zh) * | 2006-12-13 | 2008-06-18 | 李萍 | 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法 |
CN101477518A (zh) * | 2009-01-09 | 2009-07-08 | 昆明理工大学 | 基于条件随机场的旅游领域命名实体识别方法 |
CN101576910A (zh) * | 2009-05-31 | 2009-11-11 | 北京学之途网络科技有限公司 | 一种自动识别产品命名实体的方法及装置 |
CN102169591A (zh) * | 2011-05-20 | 2011-08-31 | 中国科学院计算技术研究所 | 一种制图中文本注记分行方法以及绘制方法 |
CN102479191A (zh) * | 2010-11-22 | 2012-05-30 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
CN104794169A (zh) * | 2015-03-30 | 2015-07-22 | 明博教育科技有限公司 | 一种基于序列标注模型的学科术语抽取方法及系统 |
CN104965818A (zh) * | 2015-05-25 | 2015-10-07 | 中国科学院信息工程研究所 | 一种基于自学习规则的项目名实体识别方法及系统 |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
-
2016
- 2016-10-19 CN CN201610912585.3A patent/CN106569997B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0778222A (ja) * | 1992-12-17 | 1995-03-20 | Xerox Corp | キーワードのモデル化方法及び非キーワードhmmの提供方法 |
CN101093504A (zh) * | 2006-03-24 | 2007-12-26 | 国际商业机器公司 | 用于提取新复合词的系统和方法 |
CN101201818A (zh) * | 2006-12-13 | 2008-06-18 | 李萍 | 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法 |
CN101187921A (zh) * | 2007-12-20 | 2008-05-28 | 腾讯科技(深圳)有限公司 | 一种中文复合词的提取方法及提取系统 |
CN101477518A (zh) * | 2009-01-09 | 2009-07-08 | 昆明理工大学 | 基于条件随机场的旅游领域命名实体识别方法 |
CN101576910A (zh) * | 2009-05-31 | 2009-11-11 | 北京学之途网络科技有限公司 | 一种自动识别产品命名实体的方法及装置 |
CN102479191A (zh) * | 2010-11-22 | 2012-05-30 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
CN102169591A (zh) * | 2011-05-20 | 2011-08-31 | 中国科学院计算技术研究所 | 一种制图中文本注记分行方法以及绘制方法 |
CN104794169A (zh) * | 2015-03-30 | 2015-07-22 | 明博教育科技有限公司 | 一种基于序列标注模型的学科术语抽取方法及系统 |
CN104965818A (zh) * | 2015-05-25 | 2015-10-07 | 中国科学院信息工程研究所 | 一种基于自学习规则的项目名实体识别方法及系统 |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
Non-Patent Citations (4)
Title |
---|
A Method Integrating Rule and HMM for Chinese Part-of-speech Tagging;Hui Ning et al;《IEEE》;20071231;全文 * |
术语自动抽取方法研究综述;袁劲松 等;《计算机科学》;20150831;第42卷(第8期);全文 * |
面向文本标题的人物关系抽取;闫旸 等;《计算机应用》;20160310;第36卷(第3期);全文 * |
面向领域的文本信息抽取方法研究;周凡坤;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN106569997A (zh) | 2017-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
CN109344250B (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN110309268B (zh) | 一种基于概念图的跨语言信息检索方法 | |
CN103150381B (zh) | 一种高精度汉语谓词识别方法 | |
WO2018153215A1 (zh) | 一种自动生成语义相近句子样本的方法 | |
JP2011227688A (ja) | テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN108363691B (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN105718532A (zh) | 一种基于多深度网络结构的跨媒体排序方法 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN114818986B (zh) | 一种文本相似度计算去重方法、系统、介质及设备 | |
CN111882462A (zh) | 一种面向多要素审查标准的中文商标近似检测方法 | |
Xu et al. | Implicitly incorporating morphological information into word embedding | |
CN114064901A (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
CN115062151B (zh) | 一种文本特征提取方法、文本分类方法及可读存储介质 | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 | |
CN108536724A (zh) | 一种基于双层哈希索引的地铁设计规范中主体识别方法 | |
CN109189820A (zh) | 一种煤矿安全事故本体概念抽取方法 | |
CN110275957B (zh) | 姓名消歧方法、装置、电子设备及计算机可读存储介质 | |
CN106569997B (zh) | 一种基于隐式马尔科夫模型的科技类复合短语识别方法 | |
Raykar et al. | Assembled LSTM technique used for phonetic-based algorithm for demographical data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |