Nothing Special   »   [go: up one dir, main page]

CN106202037B - 基于组块的越南语短语树构建方法 - Google Patents

基于组块的越南语短语树构建方法 Download PDF

Info

Publication number
CN106202037B
CN106202037B CN201610497061.2A CN201610497061A CN106202037B CN 106202037 B CN106202037 B CN 106202037B CN 201610497061 A CN201610497061 A CN 201610497061A CN 106202037 B CN106202037 B CN 106202037B
Authority
CN
China
Prior art keywords
chunking
vietnamese
treebank
upper layer
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610497061.2A
Other languages
English (en)
Other versions
CN106202037A (zh
Inventor
郭剑毅
李英
余正涛
线岩团
毛存礼
陈玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201610497061.2A priority Critical patent/CN106202037B/zh
Publication of CN106202037A publication Critical patent/CN106202037A/zh
Application granted granted Critical
Publication of CN106202037B publication Critical patent/CN106202037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于组块的越南语短语树构建方法,属于自然语言处理技术领域。本发明首先对越南语短语树标注集进行上层组块和基层组块标注;选取上层组块和基层组块的特征集,再构建基于组块的越南语短语树库构建模型;利用组块分析工具对分词后的越南语句子进行组块分析,得到基于组块构建的初级越南语短语树库;利用短语树库校正器对基于组块构建的初级越南语短语树库进行校正,最后得到校正后的终级越南语短语树库。本发明避免了人工收集和标注越南语短语树库的过程,节省了人力和构建树库的时间;本发明提出的构建短语树的方法相比采用上下文无关文法构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高。

Description

基于组块的越南语短语树构建方法
技术领域
本发明涉及基于组块的越南语短语树构建方法,属于自然语言处理技术领域。
背景技术
短语树库的分析与构建对于语言学的研究有着非常重要的作用,例如句法模式的抽取以及语言现象的调查等;同时它通常被用来训练分词工具、句法分析器和语义角色标注器等体系,这些体系又是信息抽取、机器翻译、问答系统以及文本分类等应用的基础。近年来,随着机器学习方法和人工智能的快速发展,短语树库的自动构建变得越来越重要。
短语句法分析是根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的语法单元和这些语法单元之间的关系(Allen1995),将句子转化为一棵结构化的语法树。短语树由终结符、非终结符以及短语标记这三种符号按照特定的语法规则构成。根据语法规则,若干终结符构成一个短语,作为非终结符参与下一次归约,直至将整个句子归约为根节点。
针对越南语短语树库的研究很少。目前针对越南语的研究主要包含有:Nguyen CT,Nguyen T K(2006)等人利用CRF与SVM构建越南语分词模型,完成了越南语的分词工作;Le H P,Nguyen T M H,Romary L(2006)等人提出针对越南的词汇化链接文法,但并没有讲这个文法利用在短语树的构建上;Nguyen P T,Vu X L,Nguyen T M H(2009)等人简单介绍了一下构建越南语句法树的研究思路,但并没有给出构建结果;Dinh Dien,Thuy Ngan,Xuan Quang(2009)等人通过构建英语-越南语平行句法树进行双语机器翻译,在这个过程中所构建的越南语句法树也存在许多问题,例如英语与越南语不能一一对应,导致越南语句法树准确率非常低。
针对越南语短语树库的缺乏以及构建困难的问题,本发明提供了一种新的基于组块的越南语短语树构建方法。该法能自动分析出越南语的短语结构树,解决了越南语短语树库的构建问题。本发明构建的越南语短语树库对越南语的句法分析、机器翻译、信息抽取等上层应用能提供有力支撑。
发明内容
本发明提供了基于组块的越南语短语树构建方法,以用于解决人工标注越南语短语树库比较困难的问题,构建规模较大的越南语短语树库不便的问题,以及传统构建越南语树库方法准确率低、耗时长的问题。本发明提出的构建短语树的方法相比采用上下文无关文法构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高。同时本发明构建的越南语短语树库对越南语的句法分析、机器翻译、信息抽取等上层应用能提供有力支撑。
本发明的技术方案是:基于组块的越南语短语树构建方法,所述基于组块的越南语短语树构建方法的具体步骤如下:
Step1、首先对越南语短语树标注集进行上层组块和基层组块标注,将标注得到的短语树作为训练语料;利用这种方法所获取的训练语料的准确率比较高,从而使的利用该训练语料获取的特征集更加准确;
Step2、选取上层组块和基层组块的特征集,依据训练语料对CRF模型进行调整,训练出改进后的CRF模型,利用改进后的CRF模型构建上层组块和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;采用改进后的CRF模型所构建出越南语短语树库构建模型,针对越南语短语树库的构建效果更好,质量更高;
Step3、利用组块分析工具对分词后的越南语句子进行组块分析,从而获取组块语料,对所获取的语料进行基层组块和上层组块分析,得到基于组块构建的初级越南语短语树库;采用基于组块的越南语短语树库构建模型进行越南语短语树库的构建相比采用上下文无关文法构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高;
Step4、利用短语树库校正器对基于组块构建的初级越南语短语树库进行校正,最后得到校正后的终级越南语短语树库。对初级越南语短语树库进行进一步的校正保证获取的终级越南语短语树库的质量,能够为机器翻译,信息抽取等上层应用提供语料支撑。
作为本发明的优选方案,所述步骤Step1中,对人工标注得到的越南语短语树进行上层组块和基层组块标注的具体步骤如下:
Step1.1、根据越南语的语言特征同时结合CTB,即中文宾州树库的标注体系,制定越南语短语树的标注集;
Step1.2、结合上层组块和基层组块标的定义完成对越南语短语树的标注集的上层组块和基层组块标注;
Step1.3、将标注得到的有上层组块和基层组块组成的越南语短语树作为训练语料。
作为本发明的优选方案,所述步骤Step2的具体步骤如下:
Step2.1、依据训练语料对CRF模型进行调整,训练出改进后的CRF模型;
Step2.2、选取设定上层组块和基层组块的特征集;
Step2.3、利用选取设定上层组块和基层组块的特征集以及改进后的CRF模型构建上层组块模型和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;
作为本发明的优选方案,所述步骤Step3的具体步骤如下:
Step3.1、对分词后的越南语句子进行组块分析,获取越南语组块语料;
Step3.2、利用获取的上层组块模型和基层组块模型对组块语料进行基层组块和上层组块分析,最终得到基于组块构建的初级越南语短语树库。
本发明的有益效果是:
1、本发明提出的构建短语树的方法相比采用上下文无关文法构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高。同时本发明构建的越南语短语树库对越南语的句法分析、机器翻译、信息抽取等上层应用能提供有力支撑;
2、构建了规模相对较大的越南语短语树语料库;
3、本发明提出的构建短语树的方法省略了人工标注越南语短语树库的过程,大大的节省了人力和构建树库的时间。
附图说明
图1为本发明中的流程图。
具体实施方式
实施例1:如图1所示,基于组块的越南语短语树构建方法,所述基于组块的越南语短语树构建方法的具体步骤如下:
Step1、首先对越南语短语树标注集进行上层组块和基层组块标注,将标注得到的短语树作为训练语料;利用这种方法所获取的训练语料的准确率比较高,从而使的利用该训练语料获取的特征集更加准确;
Step2、选取上层组块和基层组块的特征集,依据训练语料对CRF模型进行调整,训练出改进后的CRF模型,利用改进后的CRF模型构建上层组块和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;采用改进后的CRF模型所构建出越南语短语树库构建模型,针对越南语短语树库的构建效果更好,质量更高;
Step3、利用组块分析工具对分词后的越南语句子进行组块分析,从而获取组块语料,对所获取的语料进行基层组块和上层组块分析,得到基于组块构建的初级越南语短语树库;采用基于组块的越南语短语树库构建模型进行越南语短语树库的构建相比采用上下文无关文法构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高;
Step4、利用短语树库校正器对基于组块构建的初级越南语短语树库进行校正,最后得到校正后的终级越南语短语树库。对初级越南语短语树库进行进一步的校正保证获取的终级越南语短语树库的质量,能够为机器翻译,信息抽取等上层应用提供语料支撑。
实施例2:如图1所示,基于组块的越南语短语树构建方法,本实施例与实施例1相同,其中,作为本发明的优选方案,所述步骤Step1中,对人工标注得到的越南语短语树进行上层组块和基层组块标注的具体步骤如下:
Step1.1、根据越南语的语言特征同时结合CTB,即中文宾州树库的标注体系,制定越南语短语树的标注集;
Step1.2、结合上层组块和基层组块标的定义完成对越南语短语树的标注集的上层组块和基层组块标注;
Step1.3、将标注得到的有上层组块和基层组块组成的越南语短语树作为训练语料。
实施例3:如图1所示,基于组块的越南语短语树构建方法,本实施例与实施例2相同,其中,作为本发明的优选方案,所述步骤Step2的具体步骤如下:
Step2.1、依据训练语料对CRF模型进行调整,训练出改进后的CRF模型;
Step2.2、选取设定上层组块和基层组块的特征集;
Step2.3、利用选取设定上层组块和基层组块的特征集以及改进后的CRF模型构建上层组块模型和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;
实施例4:如图1所示,基于组块的越南语短语树构建方法,本实施例与实施例3相同,其中,作为本发明的优选方案,所述步骤Step3的具体步骤如下:
Step3.1、对分词后的越南语句子进行组块分析,获取越南语组块语料;
Step3.2、利用获取的上层组块模型和基层组块模型对组块语料进行基层组块和上层组块分析,最终得到基于组块构建的初级越南语短语树库。
实施例5:如图1所示,基于组块的越南语短语树构建方法,所述基于组块的越南语短语树构建方法的具体步骤如下:
Step1、首先对越南语短语树标注集进行上层组块和基层组块标注,将标注得到的短语树作为训练语料;利用这种方法所获取的训练语料的准确率比较高,从而使的利用该训练语料获取的特征集更加准确;
Step2、选取上层组块和基层组块的特征集,依据训练语料对CRF模型进行调整,训练出改进后的CRF模型,利用改进后的CRF模型构建上层组块和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;采用改进后的CRF模型所构建出越南语短语树库构建模型,针对越南语短语树库的构建效果更好,质量更高;
Step3、利用组块分析工具对分词后的2.7万句越南语句子进行组块分析,从而获取组块语料,对所获取的语料进行基层组块和上层组块分析,得到2.7万句基于组块构建的初级越南语短语树库;采用基于组块的越南语短语树库构建模型进行越南语短语树库的构建相比采用上下文无关文法构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高;
Step4、利用短语树库校正器对基于组块构建的初级越南语短语树库进行校正,最后得到校正后的终级越南语短语树库。对初级越南语短语树库进行进一步的校正保证获取的终级越南语短语树库的质量,能够为机器翻译,信息抽取等上层应用提供语料支撑。
其中,具体的,所述步骤Step1中首先对人工标注的5000句越南语短语树进行上层组块和基层组块标注,将标注得到的短语树作为训练语料;
构建越南语短语树库语料是进行越南语短语树构建的基础。只有建设出高质量的语料,才能以之为基础进行信息化开发工作。短语树库语料也是进行基于组块的越南语短语树库构建研究不可缺少的一个组成部分。构建短语树库语料具体步骤如下:
1)、根据越南语的语言特征同时结合CTB,即中文宾州树库的标注体系,制定越南语短语树的标注集;
越南语属于南亚语系,它是越南国家的母语。每一种语言都有自己的语序,越南语主要依靠成分的顺序去传达重要的语法信息。尽管越南语文本的书写来源于拉丁字母表的变种,越南语有三个明显的特点区别去西方语言。对越南语短语树库构建有极其重要影响的一些越南语特征如下:
首先,越南语的最小组成单元是音节。单词只能是由一个(美丽的)或者多个(gái女孩)音节构成。像许多亚洲语言一样(如汉语、日语和泰语),越南语没有文字分隔符。空间分隔只是一个一个音节的分隔符,没有一个字的分隔符,所以越南语句子往往可以有很多种分割方法。
然后,越南语是一种孤立语,在这一语言中,单词可以不改变形式而根据在句子中语序确定它的语法功能。也就是说,词序排列是越南语语法中最重要的表义手段。词序的改变会导致语义的改变。例如còn表示儿子,còn却表示人类。并且越语句子中的词序大体上是一种具体性逐渐增强的词序,即词义越是概括性强的词汇在句中的位置就越是靠前,相反,词义越是具体的词汇在句中的位置越是靠后。例如:Anhmua(他买了)táo(一个苹果)。
最后,越南语是一种相当固定语序的语言,由固定的语序构成主谓宾(SVO)。也就是说,他们一般的语序为:主
语+谓语+宾语。例如:Kia(那)là(是)(一些)(座)nhà(房子)vách(土墙)。通过分析越南语的语法特征,会发现越南语有着比较明显的定语后置,状语后置的特点。例如:(我常常吃饭)quán(在食堂)。
针对越南语的上述特征以及CTB(中文宾州树库)的标注体系,制定越南语短语树的标注集,部分越南语短语树标注集如表1所示。
表1部分越南语短语树标注集
短语类型标注 短语类型说明
NP 名词短语
VP 动词短语
PP 介词短语
AP 形容词短语
2)、结合上层组块和基层组块标的定义完成对5000句越南语短语树的标注集的上层组块和基层组块标注;
为了分别训练基层组块分析模型和上层组块分析模型,首先需要将一棵句法树中的所有组块分为两个部分:基层组块集和上层组块集。为了使基层组块和上层组块有明确的定义,本文首先对句法树中的每个节点的高度给出描述性定义:令句法树中每个终结符节点(词)的高度为零,其他的非终结符节点的高度是这个非终极符的孩子节点的高度的最大值加上一个固定的高度值1。其次,对Peen Treebank格式的句法的层次有如下描述性定义:本文认为一棵完整的Peen Treebank格式的句法树可以分为若干层次,句法树的层数就是句法树的根节点的高度,每个层次都由一组有序子树集合构成。令终结符节点构成的子树集合为第0层;第n层子树集合由那些高度小于等于n的子树所构成的集合,如果该层子树集合含有被大子树包含的子树则那么只取大子树,舍去被包含小子树。根据本文所实现的句法分析树模型的需要,将第2层有序子树集合所对应的组块集称为基层组块集合,而将第2层以上的所有的子树集合所对应的组块集合称为上层组块集合。
依据以上定义的上层组块和基层组块标,由人工完成对5000句越南语短语树的上层组块和基层组块标注。
3)、将标注得到的有上层组块和基层组块组成的越南语短语树作为训练语料;
由人工完成对5000句越南语短语树的上层组块和基层组块标注的结果,将作为训练上层组块和基层组块模型的训练语料。
其中,所述Step2中选取上层组块和基层组块的特征集,依据训练语料对CRF模型进行调整,训练出改进后的CRF模型,利用改进后的CRF模型构建上层组块和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;
基于前面构建的越南语短语树语料,这里使用改进的CRF模型训练得到上层组块和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型。
1)、依据训练语料对CRF模型进行调整,训练出改进后的CRF模型;
序列标注任务是包括生物信息学(bioinformatics)、计算语言学(computationallinguistics)以及语音识别(speech recognition)等领域中的一个重要的任务。在自然语言处理领域词性标注和组块分析都是典型的序列标注任务,对以观察到的序列进行标记。例如在组块分析任务中,通过使用序列标注模型来对输入的句子进行标记将能够组成一个新的组块的子序列赋予相同的标记。对于序列标注任务,人们最先想到的是隐马尔科夫模型(Hidden Markov Models)。隐马尔科夫模型是一个生成模型,它是对观察序列随机变量X以及与之相对应的标记随机变量Y进行建模,并计算它们之间的联合分布概率PBXY。但是联合分布概率模型的有个很严重的问题是要枚举所有的观察序列,而这个任务在很多的领域中是不可解的。所以需要一个能够将问题化为可解问题的模型,而条件概率模型就是这样一种模型。条件概率模型计算观察随机变量X和对应的标记随机变量Y的条件分布概率P而不是联合P(X Y),这样就可以将复杂的问题大大的简化。
条件随机场模型就是一种使用条件分布概率的概率框架,也是典型的判别模型。相比较其他的序列标注模型,条件随机场模型有很多的自身优势。首先对比隐马尔科夫模型,条件随机场模型的依存假设需求相对松弛;其次对比最大熵马尔科夫模型C MaximumEntropy Markov Models)和其他的基于有向图的条件马尔科夫模型,条件随机场模型能够避免标记偏置问题。因此在很多现实的任务中条件随机场模型的性能表现都较好。
Lafferty在他的文章中将给定的观察序列二的对应的标记序列v的概率定义如公式1所示。
exp(∑jλjtj(yj-1,yj,x,i)+∑kλktk(yi,x,i)) (1)
其中tj(yj-1,yj,x,i)是整个观察序列和标记序列在i和i-1位置的转移特征函数;而tk(yj,x,i)是标记和观察序列在位置的状态特征函数;否和#、是这两个函数的参数,需要从训练数据中估计。
在定义特征函数时需要构建一个观察序列的实值函数。e(x,i)用这个实值函数来描述训练数据的一些分布特性。如下是在组块分析中一个关于e(x,i)|的具体例子公式2。
为了表达的简化本文将用如下标记进行描述如公式3所示。
S(yj,x,i)=S(yj-1,yj,x,i) (3)
并且有对于给定的观察序列x和标记序列夕的条件随机场模型的全局特征函数定义为公式4。
在上面的式子中函数fj(yj-1,yj,x,i)既可以是状态特征函数S(yj-1,yj,x,i)也可以是转移特征函数tj(yj-1,yj,x,i)。这样对于给定的观察序列x,它的标记序列y的概率分布就可以写成公式5形式。
其中Z(x)是归一化因子。
2)、选取设定上层组块和基层组块的特征集;
基于组块的完全句法分析的相关概念以及基于组块的句法分析的分析过程。通过上面的介绍可知,该句法分析系统是基于组块分析的,因此组块分析的性能能够直接制约整体句法分析的性能。如果组块分析模块能够完全准确的分析出那些词组可以构成新的组块,那么通过正确的组块组装成的句法树也是正确的。而本文使用的组块分析模型是基于序列标注模型的,也就是条件随机场模型(CRFs)。因此,组块分析模型的性能很大程度上取决于该组块分析模型的特征的选取,一组较好的特征能够使模型具有很强的判别能力,提高分析的准确性。本节将介绍本文的基于组块分析的句法分析模型的Baseline系统所使用的一些特征,而这些特征根据应用的需要主要分为两大类:用于基层组块分析的特征和用于上层组块分析的特征。
基层组块分析相当于使用条件随机场模型(CRFs)来进行浅层句法分析,因此在这一层总所用到的特征和浅层句法分析所使用的特征类似。表2给出了Baseline系统中基层组块分析模块所使用的一些特征模板,这些特征模板主要来自于Sha and Pereira和Yoshimasa Tsuruokat等人的工作。
从表2中可以看出,基层组块分析只使用到了词性和词的相关特征。这是因为基层组块分析是对输入的数据的第一层分析,而输入的测试句子只是带有词性标记的词序列,因此只能够使用这两种特征。
表2基准系统基层组块分析所使用的特征
特征类别 特征表示 特征描述
POS Unigram P<sub>i·</sub>i∈{-2,-1,0,1,2} 单元词性特征
POS Bigram P<sub>i</sub>P<sub>i+1·</sub>i∈{-2,-1,0,1} 相邻的二元词性特征
POS Trigram P<sub>i-1</sub>P<sub>i</sub>P<sub>i+1·</sub>i∈{-2,-1,0,1,2} 相邻的三元词性特征
Word Unigram w<sub>i·</sub>i∈{-2,-1,0,1,2} 单元词组特征
Word Bigram w<sub>i</sub>w<sub>i+1·</sub>i∈{-2,-1,0,1} 相邻的二元词组特征
Word Trigram w<sub>i-1</sub>w<sub>i</sub>w<sub>i+1·</sub>i∈{0} 相邻的三元词组特征
在本文介绍的基于组块的句法分析过程中,基层之上的层次组块分析都可以称为上层分析。基层组块分析是基于词和词性的组块分析,而上层的组块分析时基于组块的分析,而且在本文介绍的句法分析的系统里每一个组块都对应这一棵子树,因此上层分析可以使用一些基于句法结构的特征。例如,可以使用非终极符句法标记特征,子树的中心词以及中心词的词性,子树的边界节点信息等。表3列出了基准系统中上层组块分析所使用的特征模板,而其中的部分特征模板来自于Yoshimasa Tsuruoka等人的工作。由表3可知,基准系统总共使用类三大类特征:非终结符标记特征、中心词特征和中心词词性特征,通过使用这三种特征就可以是本文介绍的基于组块的句法分析系统达到较高的性能。但是,仅仅这些特征显然没有充分利用下层组块(每个组块对应于一棵句法子树)所提供的信息,这也是本文的基准系统受限的原因。为此,本文将在后面的章节中介绍更多的改进基准系统性能的特征以及相应的方法。表3为基准系统上层组块分析使用的特征模板
3)、利用选取设定上层组块和基层组块的特征集以及改进后的CRF模型构建上层组块模型和基层组块模型,将上层组块和基层组块模型组合后转换成基于组块的越南语短语树库构建模型;
在进行组块分析时可以将组块分析问题转换为序列标注问题,将详细介绍如何将完全句法分析问题转换为组块分析问题。Yoshimasa Tsuruoka等人在他们的论文中提到采用两个阶段的方法来进行句法分析。他们将第一阶段分析称为基层组块分析(base-levelchunking)和上层组块分析(up-level chunking)。采用两个阶段的分析方法的原因是基层组块分析和上层组块分析所使用的特征不同。基层组块分析的输入一个当个句子,句子中只包含词和对应词性,所以基层组块分析所能使用的特征只有词和词性。而基层组块分析的输出是组块序列,又由于每个组块都可以表示成一棵子树,所以这些组块序列可以表示子树序列。基层组块分析的结果(子树序列)传递给上层组块分析,因此上层组块分析可以使用更加丰富的特征。除了基本的词和词性特征之外,上层组块分析还可以使用子树的句法信息。为了更好的使用条件随机场模型和利用更多的特征,本文将基于组块分析的完全句法分析模型分为两个部分:基层组块分析模型和上层组块分析模型。
在训练基于组块的句法分析模型时也需要分别训练两个模型。具体的做法是:使用训练树库中的基层组块来训练基层组块模型;使用训练树库中的上层组块来训练上层组块模型。为了分别训练基层组块分析模型和上层组块分析模型,首先需要将一棵句法树中的所有组块分为两个部分:基层组块集和上层组块集。为了使基层组块和上层组块有明确的定义,首先对句法树中的每个节点的高度给出描述性定义:令句法树中每个终结符节点(词)的高度为零,其他的非终结符节点的高度是这个非终极符的孩子节点的高度的最大值加上一个固定的高度值1。其次,对Peen Treebank格式的句法的层次有如下描述性定义:本文认为一棵完整的Peen Treebank格式的句法树可以分为若干层次,句法树的层数就是句法树的根节点的高度,每个层次都由一组有序子树集合构成。令终结符节点构成的子树集合为第0层;第n层子树集合由那些高度小于等于n的子树所构成的集合,如果该层子树集合含有被大子树包含的子树则那么只取大子树,舍去被包含小子树。根据本文所实现的句法分析树模型的需要,将第2层有序子树集合所对应的组块集称为基层组块集合,而将第2层以上的所有的子树集合所对应的组块集合称为上层组块集合。
其中,所述步骤Step3中利用组块分析工具对分词后的2.7万句越南语句子进行组块分析,从而获取组块语料,对所获取的语料进行基层组块和上层组块分析,得到2.7万句基于组块构建的初级越南语短语树库;
1)、对分词后的2.7万句越南语句子进行组块分析,获取2.7万句越南语组块语料;
首先利用分词工具对获取的2.7万句越南语句子进行分词,然后利用组块分析工具对2.7万句分词后的句子进行组块分析。
2)、利用获取的上层组块模型和基层组块模型对组块语料进行基层组块和上层组块分析,最终得到2.7万句基于组块构建的初级越南语短语树库。
利用Step2.3中获取的上层组块模型和基层组块模型对组块语料进行基层组块和上层组块分析,最终得到2.7万句越南语短语树库。
其中,所述步骤Step4中利用短语树库校正器对基于组块构建的初级越南语短语树库进行校正,最后得到校正后的终级越南语短语树库。
由于Step3中得到的初级越南语短语树库在质量上存在一些问题,主要是由于所得到的到Step2中得到的越南语组块语料的准确率不够高所造成的,针对这一问题,利用短语树校正器对初级越南语短语树库进行校正,最后得到质量较高的越南语短语树库。
本发明首先将人工标注的5000句越南语短语树进行子树层、基层组块集合和上层组块集合标注作为训练树库;然后选取上层组块和基层组块的特征集,利用CRF构建上层组块和基层组块模型,将组块分析的结果转换成越南语短树;接着,利用组块分析工具对分词后2.7万句越南语句子进行组块分析,从而获取组块语料,对所获取的语料完成基层组块和上层组块分析,得到2.7万句越南语短语树库;再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。
实验结果如表4所示。表4中可以看出,采用基于组块的越南语短语树库构建方法所生成的越南语短语树库,准确率相比采用PCFG构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高;
其中,采用PARSEVAL句法分析评价体系,它是一种国际上通用的评测标准。主要由准确率(LP)、召回率(LR)和F值三个指标,F值综合考虑了准确率和召回率。其定义如下:
表4其他方法和本发明方法的比较
方法 LR% LP% F值%
PCFG构建的越南语短语树库 81.36 80.64 81.00
最大熵构建的越南语短语树库 79.83 78.69 79.26
新的基于组块构建的越南语短语树库 86.32 83.45 85.66
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (1)

1.基于组块的越南语短语树构建方法,其特征在于:所述基于组块的越南语短语树构建方法的具体步骤如下:
Step1、首先对越南语短语树标注集进行上层组块和基层组块标注,将标注得到的短语树作为训练语料;
Step2、选取上层组块和基层组块的特征集,依据训练语料对CRF模型进行调整,训练出改进后的CRF模型,利用改进后的CRF模型构建上层组块和基层组块模型;
Step3、利用组块分析工具对分词后的越南语句子进行组块分析,从而获取组块语料,对所获取的语料进行基层组块和上层组块分析,得到基于组块构建的初级越南语短语树库;
Step4、利用短语树库校正器对基于组块构建的初级越南语短语树库进行校正,最后得到校正后的终级越南语短语树库;
所述步骤Step1中,对人工标注得到的越南语短语树进行上层组块和基层组块标注的具体步骤如下:
Step1.1、根据越南语的语言特征同时结合CTB,即中文宾州树库的标注体系,制定越南语短语树的标注集;
Step1.2、结合上层组块和基层组块标的定义完成对越南语短语树的标注集的上层组块和基层组块标注;
Step1.3、将标注得到的有上层组块和基层组块组成的越南语短语树作为训练语料;
所述步骤Step2的具体步骤如下:
Step2.1、依据训练语料对CRF模型进行调整,训练出改进后的CRF模型;
Step2.2、选取设定上层组块和基层组块的特征集;
Step2.3、利用选取设定上层组块和基层组块的特征集以及改进后的CRF模型构建上层组块模型和基层组块模型
所述步骤Step3的具体步骤如下:
Step3.1、对分词后的越南语句子进行组块分析,获取越南语组块语料;
Step3.2、利用获取的上层组块模型和基层组块模型对组块语料进行基层组块和上层组块分析,最终得到基于组块构建的初级越南语短语树库。
CN201610497061.2A 2016-06-30 2016-06-30 基于组块的越南语短语树构建方法 Active CN106202037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610497061.2A CN106202037B (zh) 2016-06-30 2016-06-30 基于组块的越南语短语树构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610497061.2A CN106202037B (zh) 2016-06-30 2016-06-30 基于组块的越南语短语树构建方法

Publications (2)

Publication Number Publication Date
CN106202037A CN106202037A (zh) 2016-12-07
CN106202037B true CN106202037B (zh) 2019-05-14

Family

ID=57463532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610497061.2A Active CN106202037B (zh) 2016-06-30 2016-06-30 基于组块的越南语短语树构建方法

Country Status (1)

Country Link
CN (1) CN106202037B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491383A (zh) * 2018-03-14 2018-09-04 昆明理工大学 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法
CN110096715A (zh) * 2019-05-06 2019-08-06 北京理工大学 一种融合发音特征汉语-越南语统计机器翻译方法
CN110362691B (zh) * 2019-07-19 2023-06-02 大连语智星科技有限公司 一种句法树库构建系统
CN113627150B (zh) * 2021-07-01 2022-12-20 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置
CN113822070A (zh) * 2021-09-25 2021-12-21 王程 并列中文名词短语精准识别方法及模型

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377770A (zh) * 2007-08-27 2009-03-04 微软公司 中文组块分析的方法及系统
CN101446941A (zh) * 2008-12-10 2009-06-03 苏州大学 一种基于历史信息的自然语言层次句法分析方法
CN103500160A (zh) * 2013-10-18 2014-01-08 大连理工大学 一种基于滑动语义串匹配的句法分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377770A (zh) * 2007-08-27 2009-03-04 微软公司 中文组块分析的方法及系统
CN101446941A (zh) * 2008-12-10 2009-06-03 苏州大学 一种基于历史信息的自然语言层次句法分析方法
CN103500160A (zh) * 2013-10-18 2014-01-08 大连理工大学 一种基于滑动语义串匹配的句法分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"一种基于历史信息的多层次中文句法分析方法";耿向好 等;《计算机应用与软件》;20090630;第26卷(第6期);45-48
"基于层叠条件随机场的汉语句法分析技术的研究";刘新;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100815(第8期);I138-948
"汉语句子的组块分析体系";周强 等;《计算机学报》;19991130;第22卷(第11期);1158-1165

Also Published As

Publication number Publication date
CN106202037A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
Roark et al. Processing South Asian languages written in the Latin script: the Dakshina dataset
CN107741928B (zh) 一种基于领域识别的对语音识别后文本纠错的方法
Saad et al. Osac: Open source arabic corpora
Inkpen et al. Automatic identification of cognates and false friends in French and English
CN106202037B (zh) 基于组块的越南语短语树构建方法
Harrat et al. Maghrebi Arabic dialect processing: an overview
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
Megyesi Data-driven syntactic analysis
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
Kübler et al. Part of speech tagging for Arabic
CN112380877A (zh) 一种用于篇章级英译中机器翻译测试集的构建方法
Comas et al. Sibyl, a factoid question-answering system for spoken documents
Zupan et al. How to tag non-standard language: Normalisation versus domain adaptation for slovene historical and user-generated texts
Singha et al. Part of speech tagging in Manipuri with hidden markov model
Taji et al. The columbia university-new york university abu dhabi sigmorphon 2016 morphological reinflection shared task submission
CN100424685C (zh) 一种基于标点处理的层次化汉语长句句法分析方法及装置
Krotova et al. A joint approach to compound splitting and idiomatic compound detection
Wang et al. Mongolian named entity recognition using suffixes segmentation
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
Hussein et al. Identification of Concrete Poetry within a Modern-Poetry Corpus
CN114282530B (zh) 一种基于语法结构与连接信息触发的复杂句情感分析方法
KR101604553B1 (ko) 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법
Buscaldi et al. How good is NLLB-200 for low-resource languages? A study on Genoese
Oliver et al. An Inflectional Database for Gitksan
Loglo A Lexical Dependency Probability Model for Mongolian Based on Integration of Morphological and Syntactic Features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Yu Zhengtao

Inventor after: Li Ying

Inventor after: Guo Jianyi

Inventor after: Xian Yantuan

Inventor after: Mao Cunli

Inventor after: Chen Wei

Inventor before: Guo Jianyi

Inventor before: Li Ying

Inventor before: Yu Zhengtao

Inventor before: Xian Yantuan

Inventor before: Mao Cunli

Inventor before: Chen Wei

CB03 Change of inventor or designer information