CN110309513A - 一种文本依存分析的方法和装置 - Google Patents
一种文本依存分析的方法和装置 Download PDFInfo
- Publication number
- CN110309513A CN110309513A CN201910615974.3A CN201910615974A CN110309513A CN 110309513 A CN110309513 A CN 110309513A CN 201910615974 A CN201910615974 A CN 201910615974A CN 110309513 A CN110309513 A CN 110309513A
- Authority
- CN
- China
- Prior art keywords
- word
- former
- pair
- sentence
- word pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种文本依存分析的方法和装置,所述方法通过根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,其中,所述参考词语对的至少一个词语与所述原词语对的至少一个词语相同;获取样本词语对集,统计所述参考词语对在样本词语对集中的频率;根据所述参考词语对的频率,校正所述参考词语对对应的原词语对中的词语,并生成新的原词语对。提高原始文本的依存关系输出的准确率。
Description
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种文本依存分析的方法和装置、计算设备及计算机可读存储介质。
背景技术
文本的依存分析是自然语言处理领域的一个关键问题,能够直接服务于各种上层应用,如搜索引擎用户日志分析、信息抽取、自动问答、机器翻译等相关任务。
文本依存分析是分析句子各个语言单位之间的依存关系揭示其句法结构,一般是直接通过文本依存分析工具对文本进行依存分析,在遇到复杂句子结构的情况,比如语句中主要成分多层嵌套,出现语句语义层次较复杂时,难以准确判断出句子中主要成分的依存关系,尤其是最关键的主谓宾语部分,造成依存关系分析后错误率较高,直接影响如搜索引擎用户日志分析、信息抽取等任务的正常进行。
发明内容
有鉴于此,本申请实施例提供了一种文本依存分析的方法和装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种文本依存分析的方法,包括:获取原始文本,对所述原始文本进行分句获取原句,对每个所述原句进行依存分析获得原词语对的原依存关系;
根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,其中,所述参考词语对的至少一个词语与所述原词语对的至少一个词语相同;
获取样本词语对集,统计所述参考词语对在样本词语对集中的频率;
根据所述参考词语对的频率,校正所述参考词语对对应的原词语对中的词语,并生成新的原词语对。
本申请实施例还公开了一种文本依存分析的装置,包括:
处理模块,被配置为获取原始文本,对所述原始文本进行分句获取原句,对每个所述原句进行依存分析获得原词语对的原依存关系;
确定模块,被配置为根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,其中,所述参考词语对的至少一个词语与所述原词语对的至少一个词语相同;
统计模块,被配置为获取样本词语对集,统计所述参考词语对在样本词语对集中的频率;
生成模块,被配置为根据所述参考词语对的频率,校正所述参考词语对对应的原词语对中的词语,并生成新的原词语对。
本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述的文本依存分析的方法的步骤。
本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述的文本依存分析的方法的步骤。
本申请提供的一种文本依存分析的方法和装置,所述方法根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,其中,所述参考词语对的至少一个词语与所述原词语对的至少一个词语相同;获取样本词语对集,统计所述参考词语对在样本词语对集中的频率;根据所述参考词语对的频率,校正所述参考词语对对应的原词语对中的词语,并生成新的原词语对。提高原始文本的依存关系输出的准确率,确保在搜索引擎用户日志分析、信息抽取、自动问答、机器翻译等相关任务的正常使用。
附图说明
图1是本申请实施例的计算设备的结构示意图;
图2是本申请一实施例的文本依存分析方法的流程示意图;
图3是本申请文本一实施例依存分析的方法的流程示意图;
图4是本申请文本依存分析方法中确定所述参考词语对对应的频率的流程示意图;
图5是本申请文本依存分析的方法中生成新的原词语对的流程示意图;
图6是本申请另一实施例文本依存分析的方法的流程示意图;
图7是申请文本依存分析的方法中获得的原词语对的原依存关系的示意图;
图8是本申请实施例的文本依存分析的装置结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
汉语言处理(Han Language Processing,简称HanLP)工具:是由一系列模型与算法组成的工具包,提供中文分词、词性标注、命名实体识别、句法分析、文本分类和情感分析等功能。
语言技术平台(Language Technology Platform,简称LTP):提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理技术。
斯坦福核心自然语言处理(Stanford Core natural language processing,简称Stanford CoreNLP)工具:提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理技术。
知识增强的语义表示(Enhanced Representation from kNowledgeIntEgration,简称ERNIE)模型:通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识,直接对语义知识进行建模,具有语义表示能力。
在本申请中,提供了一种文本依存分析的方法和装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的文本依存分析的方法的示意性流程图,包括步骤202至步骤208。
步骤202:获取原始文本,对所述原始文本进行分句获取原句,对每个所述原句进行依存分析获得原词语对的原依存关系。
本实施例不限制原始文本的长度,比如,原始文本可以是句子文本、也可以是篇章文本;本实施例也不限制原始文本的来源,比如,原始文本可以是来自于语音识别的结果,也可以是从平台的各个业务系统中收集到的日志数据;本实施例也不限制原始文本的类型,比如,原始文本可以是人们日常对话中的某句话,也可以是演讲稿、杂志文章、文学作品等中的部分文本。
对所述原始文本进行分句获取原句,可以利用现有的分句方法对所述原始文本进行分句处理,得到原始文本中的各个原句。
所述步骤202中对每个所述原句进行依存分析获得原词语对的原依存关系包括步骤2021和步骤2022。
步骤2021:对每个所述原句进行分词获取词语并标注所述词语的词性。
可以利用语句分词模型对所述原句进行分词处理。
具体地,语句分词模型可以为多种,利用知识增强的语义表示模型,即ERNIE模型,能够精确地实现所述原句的语义级分词。
对上述原句进行分词获取的词语进行词性标注,词性标注是给原句中每个词语一个词性类别的任务。词性类别可以是名词、动词、形容词或其它。表1示出了常用的词性标签、对应词性的说明以及词性标签的举例。
表1
比如,假设原始文本分句获取的原句为“公司领导张某调研上海外高桥时提出,支持上海积极探索新机制。”,则对原句进行分词处理后,可以得到原句进行分词后的结果为“公司/领导/张某/调研/上海/外高桥/时/提出/,/支持/上海/积极/探索/新/机制/。”。
对上述原句分词后得到的词语进行词性标注后的结果为“公司/n领导/n张某/nr调研/v上海/ns外高桥/ns时/nt提出/v,/wp支持/v上海/ns积极/a探索/v新/a机制/n。/wp”。
步骤2022:根据所述原句和词语的词性,确定所述原句中两个词语组成的原词语对的原依存关系。
为了便于理解词语对的依存关系,表2示出了依存关系类型、关系标签、说明和举例。
表2
需要说明的是,在表2的举例中括号内为关系类型对应的词语对,比如表2中第一行中词语对“我,送”的依存关系为主谓关系。
上述例子中原始文本分句获取的原句为“公司领导张某调研上海外高桥时提出,支持上海积极探索新机制。”,比如上述原句中原词语对“公司,领导”的依存关系为定中关系,原词语对“张某,调研”的依存关系为主谓关系,原词语对“调研,外高桥”的依存关系为动宾关系,原词语对“提出,支持”的依存关系为并列关系。
优选地,通过至少两个依存分析工具分别对每个所述原句进行依存分析获得原词语对的原依存关系。
上述依存分析工具可以为HanLP工具、LTP或Stanford CoreNLP工具,上述工具对每个所述原句进行依存分析获得原词语对的原依存关系。
根据至少两个所述依存分析工具获得的原词语对及其依存关系,提取原句中频率低于预设阈值的原词语对。
即根据不同依存分析工具对同一原句进行依存分析,比如预设阈值为2,即三个依存分析工具中两个依存分析工具对同一原句进行依存分析得到原句中词语对及其依存关系相同,也就是依存分析工具对同一原句进行依存分析得到原句中词语对及其依存关系的结果出现两次,则将上述原句中词语对及其依存关系结果相同的作为正确的分析结果。反之,提取低于预设阈值的原词语对进行下述步骤的处理。
通过至少两个所述依存分析工具获得的原词语对的依存关系,如果对于原句中同一原词语对的原依存关系输出均一致,则判断该词语对的依存关系是准确的,大幅降低了数据的处理量,提高原始文本中原词语对的校正效率。
步骤204:根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,其中,所述参考词语对的至少一个词语与所述原词语对的至少一个词语相同。
参见图3所示,步骤204具体包括步骤302至步骤304。
步骤302:组合所述原词语对所在的原句中的词语形成组合词语对。
需要说明的是,组合词语对的至少一个词语与所述原词语对的至少一个词语相同。
步骤304:将所述组合词语对中与原词语对的两个词语的词性相同的组合词语对作为参考词语对。
本步骤中所述参考词语对是原句中的词语组合而成,参考词语对中的两个词语与原词语对的两个词语的词性组合相同,确定所述原句中与所述原词语对相对应的参考词语对。
步骤206:获取样本词语对集,统计所述参考词语对在样本词语对集中的频率。
参见图4所示,步骤206包括步骤402至步骤406。
步骤402:获取样本文本,对所述样本文本进行依存分析得到样本词语对集。
所述样本文本可以为从语料库中获取的语料,也可以是中文维基中获取的语料,通过对大量的样本文本进行依存分析来获得样本词语对集,所述样本词语对集中包括大量的词语对及其依存关系。
本实施例不限制样本文本的来源,比如,原始文本可以是来自于语音识别的结果,也可以是从平台的各个业务系统中收集到的日志数据;本实施例也不限制原始文本的类型,比如,原始文本可以是人们日常对话中的某句话,也可以是演讲稿、杂志文章、文学作品等中的文本。
步骤404:查找所述样本词语对集中与参考词语对中的词语以及其依存关系一致的样本词语对。
步骤406:确定所述参考词语对对应的频率。
本步骤是在样本文本中所有的词语对中统计每个所述参考词语对的频率。
步骤208:根据所述参考词语对的频率,校正所述参考词语对对应的原词语对中的词语,并生成新的原词语对。
参见图5所示,步骤208包括步骤502和步骤504。
步骤502:提取频率超过判别阈值的参考词语对。
出现提取的所述参考词语对的频率低于判别阈值,则判定参考词语对所对应的原词语对中的词语是准确的,无需进行原词语对的校正,则进行下一个原词语对的判断。
当所述参考词语对的频率超过判别阈值的情况,则需要进行下述步骤对所述参考词语对对应的原词语对中的词语进行校正。
步骤504:基于频率最高的参考词语对,替换所述参考词语对对应的原词语对中的词语,并生成新的原词语对。
提取频率超过判别阈值的至少一个参考词语对,因此,基于频率最高的参考词语对,来调整所述参考词语对对应的筛选词语对中的词语,提高校正的准确率。
本实施例通过根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,其中,所述参考词语对的至少一个词语与所述原词语对的至少一个词语相同;获取样本词语对集,统计所述参考词语对在样本词语对集中的频率;根据所述参考词语对的频率,校正所述参考词语对对应的原词语对中的词语,并生成新的原词语对,提高原始文本的依存关系输出的准确率,确保在搜索引擎用户日志分析、信息抽取、自动问答、机器翻译等相关任务的正常使用。
图6示出了本申请另一实施例的文本依存分析的方法的示意性流程图,包括步骤602至步骤614。
步骤602:获取原始文本,对所述原始文本进行分句获取原句,通过至少两个依存分析工具分别对每个所述原句进行依存分析获得原词语对的原依存关系。
上述依存分析工具可以为HanLP工具、LTP或Stanford CoreNLP工具,上述工具对每个所述原句进行依存分析获得原词语对的原依存关系。
通过至少两个所述依存分析工具获得的原词语对的依存关系,如果对于原句中同一原词语对的原依存关系输出均一致,则判断该词语对的依存关系是准确的,大幅降低了数据的处理量,提高原始文本中原词语对的校正效率。
步骤604:根据至少两个所述依存分析工具获得的原词语对及其依存关系,提取原句中频率低于预设阈值的原词语对。
即根据不同依存分析工具对同一原句进行依存分析,比如预设阈值为2,三个依存分析工具中两个依存分析工具对同一原句进行依存分析得到原句中词语对及其依存关系相同,也就是依存分析工具对同一原句进行依存分析得到原句中词语对及其依存关系的结果出现两次,则将上述原句中词语对及其依存关系结果相同的作为正确的分析结果。反之,提取低于预设阈值的原词语进行下述步骤处理。
步骤606:设置所述目标依存关系以及目标依存关系对应的词语对中两个词语的词性标签,提取与所述目标依存关系相同的原依存关系对应的原词语对。
所述目标依存关系是预先设置的,比如设置的目标依存关系为主谓关系、动宾关系和定中关系,其中设置主谓关系对应的词语对中的两个词的词性分别为主语是名词和谓语是动词。
上述原句的例子中,上述原句中原词语对“公司,领导”的原依存关系为定中关系,原词语对“张某,调研”的原依存关系为主谓关系,原词语对“调研,外高桥”的原依存关系为动宾关系,原词语对“提出,支持”的原依存关系为并列关系。
设置的目标依存关系为主谓关系、动宾关系和定中关系对应,提取与所述目标依存关系相同的原依存关系对应的原词语对为定中关系的“公司,领导”、主谓关系的“张某,调研”、动宾关系的“调研,外高桥”。
步骤608:将与目标依存关系对应的词语对中两个词语的词性标签相同的原词语对作为筛选词语对。
以目标依存关系为主谓关系为例说明,主谓关系所对应的词语对的词性设置为主语是名词和谓语是动词,是主谓关系的“张某,调研”就作为筛选词语对。由于主谓关系对应的词语对中的词语实际结果中混入了其它词性的词。比如主语中还出现了代词,对原词语对进行筛选,防止在下述步骤校正的过程中出现校正错误的情况,提高校正下述参考词语对对应的筛选词语对中的词语的准确率。
步骤610:根据所述筛选词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,所述参考词语对的至少一个词语与所述筛选词语对的至少一个词语相同。
步骤612:获取样本词语对集,统计所述参考词语对在样本词语对集中的频率。
步骤614:根据所述参考词语对的频率,校正所述参考词语对对应的原词语对中的词语,并生成新的原词语对。
本实施例通过至少两个所述依存分析工具获得的原词语对的依存关系,提高原始文本中原词语对的校正效率,并且至少两个所述依存分析工具获得的原词语对的依存关系,这样计算每个所述参考词语对在所述原词语对中的频率,能够提高参考词语对在所述原词语对中的频率的可靠性,提高原始文本依存分析的准确率,另外,提取频率超过判别阈值的参考词语对,基于频率最高的参考词语对,校正所述参考词语对对应的筛选词语对中的词语,进一步提高原始文本的依存分析输出的准确率。
为了便于理解,本申请一实施例以下述的原始文本为例,来对本申请的文本依存分析的技术方案进行示意性的说明。
其中,对原始文本进行分句得到的原句假设为“我国古代四大名著之一《三国演义》写刘备“三顾茅庐”聘请诸葛亮出山辅助他成就帝业的故事。”
对上述原句进行分词获取词语并标注所述词语的词性后,如表3所示。
表3
词语 | 我国 | 古代 | 四大 | 名著 | 之一 | 《 | 三国演义 | 》 |
词性 | n | t | j | n | r | w | nz | w |
词语 | 写 | 刘备 | “ | 三顾茅庐 | ” | 聘请 | 诸葛亮 | 出山 |
词性 | v | nr | w | i | w | v | nr | v |
词语 | 辅助 | 他 | 成就 | 帝业 | 的 | 故事 | 。 | |
词性 | v | r | n | n | u | n | w |
参见图7所示,对上述原句进行依存分析获得原词语对的原依存关系。
设置所述目标依存关系以及目标依存关系对应的词语对中两个词语的词性标签,设置的目标依存关系为动宾关系,动宾关系对应的词语对中两个词语的词性标签为动词和名词。
提取与所述目标依存关系相同的原依存关系对应的原词语对,将与目标依存关系对应的词语对中两个词语的词性标签相同的原词语对作为筛选词语对。
比如设置目标依存关系为动宾关系,提取的原词语对“辅助,故事”,设置动宾关系对应的词语对中两个词语的词性为动词和名词,原词语对“辅助,故事”中的“辅助”和“故事”分别为动词和名词,将原词语对“辅助,故事”就作为筛选词语对。
组合所述筛选词语对所在的原句中的词语形成的词语对作为参考词语对,所述参考词语对中的两个词语与筛选词语对的两个词语的词性组合相同。
组合得到的参考词语对为“写,三顾茅庐”、“辅助,故事”和“写,故事”。
在样本词语集中查找参考词语对“写,三顾茅庐”、“辅助,故事”和“写,故事”,计算每个所述参考词语对在所述样本词语集中的频率。
确定参考词语对“写,三顾茅庐”的频率为0.75,参考词语对“辅助,故事”的频率为0.3,参考词语对“写,故事”的频率为0.85。
设置判别阈值为0.7,参考词语对“写,三顾茅庐”的频率0.75大于判别阈值0.7,参考词语对“写,故事”的频率0.85大于判别阈值0.7。
基于频率最高的参考词语对“写,故事”,校正所述参考词语对对应的筛选词语“辅助,故事”对中的词语“辅助”,并生成新的筛选词语对为“写,故事”,通过原始文本中词语对“辅助,故事”的校正,提高原始文本中词语对的依存关系输出的准确率。
参见图8所示,一种文本依存分析的装置,包括:
处理模块802,被配置为获取原始文本,对所述原始文本进行分句获取原句,对每个所述原句进行依存分析获得原词语对的原依存关系;
确定模块804,被配置为根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,其中,所述参考词语对的至少一个词语与所述原词语对的至少一个词语相同;
统计模块806,被配置为获取样本词语对集,统计所述参考词语对在样本词语对集中的频率;
生成模块808,被配置为根据所述参考词语对的频率,校正所述参考词语对对应的原词语对中的词语,并生成新的原词语对。
所述处理模块802被进一步配置为对每个所述原句进行分词获取词语并标注所述词语的词性;
根据所述原句和所述词语的词性,确定所述原句中两个词语组成的原词语对的原依存关系。
所述处理模块802被进一步配置为通过至少两个依存分析工具分别对每个所述原句进行依存分析获得原词语对的原依存关系。
所述装置还包括:提取模块,被配置为根据至少两个所述依存分析工具获得的原词语对及其依存关系,提取原句中频率低于预设阈值的原词语对。
所述装置还包括:设置模块,被配置为设置所述目标依存关系以及目标依存关系对应的词语对中两个词语的词性标签,提取与所述目标依存关系相同的原依存关系对应的原词语对;
将与目标依存关系对应的词语对中两个词语的词性标签相同的原词语对作为筛选词语对。
所述确定模块804还被配置为根据所述筛选词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,所述参考词语对的至少一个词语与所述筛选词语对的至少一个词语相同。
所述确定模块804被进一步配置为组合所述原词语对所在的原句中的词语形成组合词语对;
将所述组合词语对中与原词语对的两个词语的词性相同的组合词语对作为参考词语对。
确定所述原句中与所述原词语对相对应的参考词语对。
所述统计模块806被进一步配置为获取样本文本,对所述样本文本进行依存分析得到样本词语对集;
查找所述样本词语对集中与参考词语对中的词语以及其依存关系一致的样本词语对;
确定所述参考词语对对应的频率。
所述校正模块808被进一步配置为提取频率超过判别阈值的参考词语对;
基于频率最高的参考词语对,替换所述参考词语对对应的原词语对中的词语,并生成新的原词语对。
上述为本实施例的一种文本依存分析的装置示意性方案。需要说明的是,该文本依存分析的装置的技术方案与上述文本依存分析的方法的技术方案属于同一构思,文本依存分析的装置的技术方案未详细描述的细节内容,均可以参见上述文本依存分析的方法的技术方案的描述。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如前所述文本依存分析的方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述文本依存分析的方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述文本依存分析的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本依存分析的方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种文本依存分析的方法,其特征在于,包括:
获取原始文本,对所述原始文本进行分句获取原句,对每个所述原句进行依存分析获得原词语对的原依存关系;
根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,其中,所述参考词语对的至少一个词语与所述原词语对的至少一个词语相同;
获取样本词语对集,统计所述参考词语对在样本词语对集中的频率;
根据所述参考词语对的频率,校正所述参考词语对对应的原词语对中的词语,并生成新的原词语对。
2.根据权利要求1所述的方法,其特征在于:对每个所述原句进行依存分析获得原词语对的原依存关系,包括:
对每个所述原句进行分词获取词语并标注所述词语的词性;
根据所述原句和所述词语的词性,确定所述原句中两个词语组成的原词语对的原依存关系。
3.根据权利要求1所述的方法,其特征在于:对每个所述原句进行依存分析获得原词语对的原依存关系,包括:
通过至少两个依存分析工具分别对每个所述原句进行依存分析获得原词语对的原依存关系;
根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对之前,还包括:
根据至少两个所述依存分析工具获得的原词语对及其依存关系,提取原句中频率低于预设阈值的原词语对。
4.根据权利要求3所述的方法,其特征在于:根据至少两个所述依存分析工具获得的原词语对及其依存关系,提取原句中频率低于预设阈值的原词语对之后,还包括:
设置所述目标依存关系以及目标依存关系对应的词语对中两个词语的词性标签,提取与所述目标依存关系相同的原依存关系对应的原词语对;
将与目标依存关系对应的词语对中两个词语的词性标签相同的原词语对作为筛选词语对;
根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,包括:
根据所述筛选词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,所述参考词语对的至少一个词语与所述筛选词语对的至少一个词语相同。
5.根据权利要求1所述的方法,其特征在于:根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,包括:
组合所述原词语对所在的原句中的词语形成组合词语对;
将所述组合词语对中与原词语对的两个词语的词性相同的组合词语对作为参考词语对;
确定所述原句中与所述原词语对相对应的参考词语对。
6.根据权利要求1所述的方法,其特征在于:获取样本词语对集,统计所述参考词语对在样本词语对集中的频率,包括:
获取样本文本,对所述样本文本进行依存分析得到样本词语对集;
查找所述样本词语对集中与参考词语对中的词语以及其依存关系一致的样本词语对;
确定所述参考词语对对应的频率。
7.根据权利要求6所述的方法,其特征在于:根据所述参考词语对的频率,校正所述参考词语对对应的原词语对中的词语,并生成新的原词语对,包括:
提取频率超过判别阈值的参考词语对;
基于频率最高的参考词语对,替换所述参考词语对对应的原词语对中的词语,并生成新的原词语对。
8.一种文本依存分析的装置,其特征在于,包括:
处理模块,被配置为获取原始文本,对所述原始文本进行分句获取原句,对每个所述原句进行依存分析获得原词语对的原依存关系;
确定模块,被配置为根据所述原词语对以及所述原句中的词语,确定所述原句中与所述原词语对相对应的参考词语对,其中,所述参考词语对的至少一个词语与所述原词语对的至少一个词语相同;
统计模块,被配置为获取样本词语对集,统计所述参考词语对在样本词语对集中的频率;
生成模块,被配置为根据所述参考词语对的频率,校正所述参考词语对对应的原词语对中的词语,并生成新的原词语对。
9.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910615974.3A CN110309513B (zh) | 2019-07-09 | 2019-07-09 | 一种文本依存分析的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910615974.3A CN110309513B (zh) | 2019-07-09 | 2019-07-09 | 一种文本依存分析的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110309513A true CN110309513A (zh) | 2019-10-08 |
CN110309513B CN110309513B (zh) | 2023-07-25 |
Family
ID=68079924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910615974.3A Active CN110309513B (zh) | 2019-07-09 | 2019-07-09 | 一种文本依存分析的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309513B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626055A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 文本处理方法及装置、计算机存储介质、电子设备 |
CN112613311A (zh) * | 2021-01-07 | 2021-04-06 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
WO2022134779A1 (zh) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 人物动作相关数据的提取方法、装置、设备及存储介质 |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
JP2002215184A (ja) * | 2001-01-19 | 2002-07-31 | Casio Comput Co Ltd | 音声認識装置、及びプログラム |
CN101187921A (zh) * | 2007-12-20 | 2008-05-28 | 腾讯科技(深圳)有限公司 | 一种中文复合词的提取方法及提取系统 |
CN101499133A (zh) * | 2009-03-12 | 2009-08-05 | 武汉大学 | 基于多分类器融合的笔迹鉴别方法 |
CN103020040A (zh) * | 2011-09-27 | 2013-04-03 | 富士通株式会社 | 源语言改写处理方法和设备及机器翻译系统 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
JP2015032166A (ja) * | 2013-08-02 | 2015-02-16 | エヌ・ティ・ティ・コムウェア株式会社 | 分類装置、分類方法、および分類プログラム |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN105005557A (zh) * | 2015-08-06 | 2015-10-28 | 电子科技大学 | 一种基于依存分析的中文兼类词处理方法 |
CN106250367A (zh) * | 2016-07-27 | 2016-12-21 | 昆明理工大学 | 基于改进的Nivre算法构建越南语依存树库的方法 |
CN107102993A (zh) * | 2016-02-19 | 2017-08-29 | 阿里巴巴集团控股有限公司 | 一种用户诉求分析方法和装置 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN107463548A (zh) * | 2016-06-02 | 2017-12-12 | 阿里巴巴集团控股有限公司 | 短语挖掘方法及装置 |
CN107577663A (zh) * | 2017-08-24 | 2018-01-12 | 北京奇艺世纪科技有限公司 | 一种关键短语抽取方法和装置 |
CN108073292A (zh) * | 2016-11-11 | 2018-05-25 | 北京搜狗科技发展有限公司 | 一种智能组词方法和装置、一种用于智能组词的装置 |
CN108170674A (zh) * | 2017-12-27 | 2018-06-15 | 东软集团股份有限公司 | 词性标注方法和装置、程序产品及存储介质 |
CN108228556A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 关键短语提取方法及装置 |
CN108319627A (zh) * | 2017-02-06 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
CN108536663A (zh) * | 2018-04-18 | 2018-09-14 | 深圳市鹰硕技术有限公司 | 自动生成完形填空试题的方法以及装置 |
CN109165386A (zh) * | 2017-08-30 | 2019-01-08 | 哈尔滨工业大学 | 一种中文零代词消解方法及系统 |
CN109255066A (zh) * | 2018-09-30 | 2019-01-22 | 武汉斗鱼网络科技有限公司 | 一种业务对象的标签标记方法、装置、服务器和存储介质 |
CN109670170A (zh) * | 2018-11-21 | 2019-04-23 | 东软集团股份有限公司 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
CN109815333A (zh) * | 2019-01-14 | 2019-05-28 | 金蝶软件(中国)有限公司 | 信息获取方法、装置、计算机设备和存储介质 |
-
2019
- 2019-07-09 CN CN201910615974.3A patent/CN110309513B/zh active Active
Patent Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
JP2002215184A (ja) * | 2001-01-19 | 2002-07-31 | Casio Comput Co Ltd | 音声認識装置、及びプログラム |
CN101187921A (zh) * | 2007-12-20 | 2008-05-28 | 腾讯科技(深圳)有限公司 | 一种中文复合词的提取方法及提取系统 |
CN101499133A (zh) * | 2009-03-12 | 2009-08-05 | 武汉大学 | 基于多分类器融合的笔迹鉴别方法 |
CN103020040A (zh) * | 2011-09-27 | 2013-04-03 | 富士通株式会社 | 源语言改写处理方法和设备及机器翻译系统 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
JP2015032166A (ja) * | 2013-08-02 | 2015-02-16 | エヌ・ティ・ティ・コムウェア株式会社 | 分類装置、分類方法、および分類プログラム |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN105005557A (zh) * | 2015-08-06 | 2015-10-28 | 电子科技大学 | 一种基于依存分析的中文兼类词处理方法 |
CN107102993A (zh) * | 2016-02-19 | 2017-08-29 | 阿里巴巴集团控股有限公司 | 一种用户诉求分析方法和装置 |
CN107463548A (zh) * | 2016-06-02 | 2017-12-12 | 阿里巴巴集团控股有限公司 | 短语挖掘方法及装置 |
CN106250367A (zh) * | 2016-07-27 | 2016-12-21 | 昆明理工大学 | 基于改进的Nivre算法构建越南语依存树库的方法 |
CN108073292A (zh) * | 2016-11-11 | 2018-05-25 | 北京搜狗科技发展有限公司 | 一种智能组词方法和装置、一种用于智能组词的装置 |
CN108228556A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 关键短语提取方法及装置 |
CN108319627A (zh) * | 2017-02-06 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN107577663A (zh) * | 2017-08-24 | 2018-01-12 | 北京奇艺世纪科技有限公司 | 一种关键短语抽取方法和装置 |
CN109165386A (zh) * | 2017-08-30 | 2019-01-08 | 哈尔滨工业大学 | 一种中文零代词消解方法及系统 |
CN108170674A (zh) * | 2017-12-27 | 2018-06-15 | 东软集团股份有限公司 | 词性标注方法和装置、程序产品及存储介质 |
CN108536663A (zh) * | 2018-04-18 | 2018-09-14 | 深圳市鹰硕技术有限公司 | 自动生成完形填空试题的方法以及装置 |
CN109255066A (zh) * | 2018-09-30 | 2019-01-22 | 武汉斗鱼网络科技有限公司 | 一种业务对象的标签标记方法、装置、服务器和存储介质 |
CN109670170A (zh) * | 2018-11-21 | 2019-04-23 | 东软集团股份有限公司 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
CN109815333A (zh) * | 2019-01-14 | 2019-05-28 | 金蝶软件(中国)有限公司 | 信息获取方法、装置、计算机设备和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626055A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 文本处理方法及装置、计算机存储介质、电子设备 |
WO2022134779A1 (zh) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 人物动作相关数据的提取方法、装置、设备及存储介质 |
CN112613311A (zh) * | 2021-01-07 | 2021-04-06 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110309513B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106407211B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
CN109597986A (zh) | 异常问题的定位方法、装置、设备及存储介质 | |
CN106886567B (zh) | 基于语义扩展的微博突发事件检测方法及装置 | |
CN108764480A (zh) | 一种信息处理的系统 | |
US20210397787A1 (en) | Domain-specific grammar correction system, server and method for academic text | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
CN106294466A (zh) | 分类模型构建方法、分类模型构建设备和分类方法 | |
CN110008309A (zh) | 一种短语挖掘方法及装置 | |
CN103885933B (zh) | 用于评价文本的情感度及用于评价实体的方法和设备 | |
CN109522397B (zh) | 信息处理方法及装置 | |
CN109101551B (zh) | 一种问答知识库的构建方法及装置 | |
CN110309513A (zh) | 一种文本依存分析的方法和装置 | |
Zalmout et al. | Adversarial multitask learning for joint multi-feature and multi-dialect morphological modeling | |
CN107102993A (zh) | 一种用户诉求分析方法和装置 | |
CN107291775A (zh) | 错误样本的修复语料生成方法和装置 | |
CN107436916A (zh) | 智能提示答案的方法及装置 | |
CN111026815B (zh) | 基于用户辅助修正下的实体对特定关系抽取方法 | |
CN110472040A (zh) | 评价信息的提取方法及装置、存储介质、计算机设备 | |
CN109614626A (zh) | 基于万有引力模型的关键词自动抽取方法 | |
CN116663530B (zh) | 数据生成方法、装置、电子设备及存储介质 | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN103678270B (zh) | 语义单元抽取方法和语义单元抽取设备 | |
Godbole et al. | Benchmarking long-tail generalization with likelihood splits |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |