CN110866400B - 一种自动化更新的词法分析系统 - Google Patents
一种自动化更新的词法分析系统 Download PDFInfo
- Publication number
- CN110866400B CN110866400B CN201911060395.3A CN201911060395A CN110866400B CN 110866400 B CN110866400 B CN 110866400B CN 201911060395 A CN201911060395 A CN 201911060395A CN 110866400 B CN110866400 B CN 110866400B
- Authority
- CN
- China
- Prior art keywords
- module
- word
- lexical analysis
- user
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种自动化更新的词法分析系统,包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块;所述子模控制模块分别与数据获取及加工模块、用户词库更新模块连;所述数据获取及加工模块依次与新词发现模块、词法分析模块连接;所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接。本发明不仅解决现有词法分析系统普遍存在的领域自适应性问题,而且通过文本数据的自动化获取和词典的自动更新解决了如今互联网背景下用词习惯和新词术语日益更新给词法分析准确度带来的挑战,为中文自然语言处理语义理解、信息检索、机器翻译等上层任务提供了支撑。
Description
技术领域
本发明涉及一种自动化更新的词法分析系统,属于文本词法分析技术领域。
背景技术
分词、词性标注和命名实体识别三项技术密切相关,相互交织,是中文自然语言处理的三项基础技术。词性标注、命名实体识别需要高质量的分词结果作为支撑,自动分词又需要命名实体识别技术的参与,很多命名实体识别方法也需要利用词性特征。作为中文词法分析层面的关键组成,分词、词性标注和命名实体识别的准确性不仅直接影响了信息检索、自动问答、信息抽取等自然语言上层任务的效果,当前知识图谱、搜索引擎等自然语言处理热门领域的技术研究也需要其作为强有力的支撑。
随着信息时代的飞速发展,现阶段新词出现和传播的速度越来越快,语言的使用习惯也在不断发生变化,这给分词、词性标注和命名实体识别三项技术的精度带来了巨大的挑战。现有的技术主要依赖已有用户词典和标注数据,利用词典匹配、统计学习和深度学习等方法实现分词、词性标注和命名实体识别三大任务。基于词典匹配的算法对用户词典的质量要求很高,现有的用户词典难以覆盖所有新词,这使得现有词法分析的准确率大幅度降低;基于统计学习和深度学习的方法依赖于标注语料的数量和质量,标注语料高昂的人力和时间成本使得现有高质量的标注语料很少,且覆盖领域单一,导致模型迁移难度大,在专业领域文本上的表现效果欠佳。
发明内容
为解决上述技术问题,本发明提供了一种自动化更新的词法分析系统,该自动化更新的词法分析系统通过六个模块串联成的闭环系统及该系统的自动化更新,解决了词法分析所依赖的高质量用户词库的构建问题,提升了词法分析任务的准确率和性能。
本发明通过以下技术方案得以实现。
本发明提供的一种自动化更新的词法分析系统,包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块;所述子模控制模块分别与数据获取及加工模块、用户词库更新模块连;所述数据获取及加工模块依次与新词发现模块、词法分析模块连接;所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接。
所述系统控制模块用于人工启动、关闭、重启系统,和检测系统BUG;
所述子模块控制模块用于执行条件设定和判断;
所述数据获取及加工模块用于获取文本数据并进行预处理,对预处理后的数据文本进行对齐;
所述新词发现模块用于发现新词,并进行新词候选词判断、新词候选词修正、新词词库更新和新词词库建立;
所述词法分析模块用于分词、词性标注、命名实体识别、实体词库更新、词法分析结构输出;
所述用户词库更新模块用于更新用户词库,包含通用词典、新词词典、实体词典。
本系统用户词库单次更新的步骤如下:
①执行子模块控制模块:设定数据获取及加工模块和用户词库更新模块执行条件;
②判断是否到达数据获取及加工模块执行条件,若到达数据获取及加工模块执行条件,则执行数据获取及加工模块,对文本数据进行获取及预处理,进入步骤③;若没有达到,不执行用户词库更新模块,结束操作;
③执行新词发现模块:结合用户词库对预处理后的文本数据进行新词发现,将新词发现的结果存入用户词库;
④执行词法分析模块:基于用户词库,对文本数据进行分词、词法分析和命名实体识别,将识别出的实体存入用户词库,并输出词法分析结果;
⑤判断是否达到用户词库更新模块执行条件,若到达用户词库更新模块执行条件,则执行用户词库更新模块,选择用户词库更新策略,筛选保留符合条件的词条,根据筛选结果更新用户词库;若没有达到,不执行用户词库更新模块,结束操作。
所述步骤②中,到达数据获取及加工模块执行条件的步骤如下:
(1)通过爬虫方式自动化获取文本数据;
(2)对文本数据进行预处理;
(3)将文本数据进行对齐处理。
所述文本数据包括通用文本数据和领域文本数据。
对通用文本数据进行清洗、融合,包括非文本字符过滤、换行、空格、特殊符号移除、中英文标点字符统一;对领域文本数据,根据领域文本书写成文特点,清洗文本数据、提取文本字符、过滤特殊符号。
将通用文本数据和领域文本数据进行对齐处理,包括格式、编码统一,中英文字符一致。
所述步骤③分为以下步骤:
(3.1)对对齐后的文本数据进行新词发现,通过用户词库对新词发现结果进行过滤,舍弃用户词库中存在的词,剩余词作为新词候选词;
(3.2)通过分词结果结合互信息熵、成词概率统计指标,对新词候选词进行判断和修正;
(3.3)基于保留和修订后的新词候选词条,更新用户词库,存储内容包括新词、词性、词频及词条进入词库时间。
所述步骤⑤分为以下步骤:
(5.1)基于用户词库对对齐后的文本数据进行分词;
(5.2)对分词后的结果进行词性标注;
(5.3)对词性标注后的结果进行命名实体识别;
(5.4)基于实体识别结果更新用户词库,存储内容包括实体、实体类别及词条入库时间;
(5.5)输出文本数据词法分析结果。
所述步骤⑤中,更新策略包括基于用户词库中词条时间衰减度、外部词库、特定场景规则。
本发明的有益效果在于:不仅解决现有词法分析系统普遍存在的领域自适应性问题,而且通过文本数据的自动化获取和词典的自动更新解决了如今互联网背景下用词习惯和新词术语日益更新给词法分析准确度带来的挑战,为中文自然语言处理语义理解、信息检索、机器翻译等上层任务提供了支撑。
附图说明
图1是本发明的模块连接图;
图2是本发明单次更新的流程图;
图3是本发明执行的流程图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图1所示,一种自动化更新的词法分析系统,包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块;所述子模控制模块分别与数据获取及加工模块、用户词库更新模块连;所述数据获取及加工模块依次与新词发现模块、词法分析模块连接;所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接。
所述系统控制模块用于人工启动、关闭、重启系统,和检测系统BUG;
所述子模块控制模块用于执行条件设定和判断;
所述数据获取及加工模块用于获取文本数据并进行预处理,对预处理后的数据文本进行对齐;
所述新词发现模块用于发现新词,并进行新词候选词判断、新词候选词修正、新词词库更新和新词词库建立;
所述词法分析模块用于分词、词性标注、命名实体识别、实体词库更新、词法分析结构输出;
所述用户词库更新模块用于更新用户词库,包含通用词典、新词词典、实体词典。
如图2所示,本系统用户词库单次更新的步骤如下:
①执行子模块控制模块:设定数据获取及加工模块和用户词库更新模块执行条件;
②判断是否到达数据获取及加工模块执行条件,若到达数据获取及加工模块执行条件,则执行数据获取及加工模块,对文本数据进行获取及预处理,进入步骤③;若没有达到,不执行用户词库更新模块,结束操作;
具体的,到达数据获取及加工模块执行条件的步骤如下:
(1)通过爬虫方式自动化获取文本数据;
(2)对文本数据进行预处理;
(3)将文本数据进行对齐处理;
优选的,文本数据包括通用文本数据和领域文本数据;
进一步地,对通用文本数据进行清洗、融合,包括非文本字符过滤、换行、空格、特殊符号移除、中英文标点字符统一;对领域文本数据,根据领域文本书写成文特点,清洗文本数据、提取文本字符、过滤特殊符号;
进一步地,将通用文本数据和领域文本数据进行对齐处理,包括格式、编码统一,中英文字符一致;
③执行新词发现模块:结合用户词库对预处理后的文本数据进行新词发现,将新词(如未登录的词、低频词)发现的结果存入用户词库,具体分为以下步骤:
(3.1)对对齐后的文本数据进行新词发现,通过用户词库对新词发现结果进行过滤,舍弃用户词库中存在的词,剩余词作为新词候选词;
(3.2)通过分词结果结合互信息熵、成词概率统计指标,对新词候选词进行判断和修正;
(3.3)基于保留和修订后的新词候选词条,更新用户词库,存储内容包括新词、词性、词频及词条进入词库时间;
④执行词法分析模块:基于用户词库,对文本数据进行分词、词法分析和命名实体识别,将识别出的实体存入用户词库,并输出词法分析结果;
⑤判断是否达到用户词库更新模块执行条件,若到达用户词库更新模块执行条件,则执行用户词库更新模块,选择用户词库更新策略,筛选保留符合条件的词条,删除不符合条件的词条,然后根据筛选结果更新用户词库;若没有达到,不执行用户词库更新模块,结束操作,具体分为以下步骤:
(5.1)基于用户词库对对齐后的文本数据进行分词;
(5.2)对分词后的结果进行词性标注;
(5.3)对词性标注后的结果进行命名实体识别;
(5.4)基于实体识别结果更新用户词库,存储内容包括实体、实体类别及词条入库时间;
(5.5)输出文本数据词法分析结果。
所优选的,更新策略包括基于用户词库中词条时间衰减度、外部词库、特定场景规则。
进一步地,通过六个模块组成的闭环体系实现了系统的自动化更新,同时支持通过数据获取及加工模块、新词发现模块、词法分析模块三大模块串联,结合用户词库实现文本数据的词法分析。
具体的,本发明的整个系统执行流程如图3所示,先执行系统控制模块,检测是否有系统BUG或人工终止系统,有直接结束操作,若无,则执行子模块控制模块。
系统控制模块控制整个系统是否运作,在运作下的词法分析系统,会反复执行单次更新流程。
综上所述,本发明将系统控制、子模块控制、文本获取、文本数据预处理、新词发现、分词、词性标注、命名实体识别、词库更新九项技术整合一个闭环系统,既融合了词法分析三大基本任务之间的关系,又解决了高质量词库构建和维护的问题,避免了基于统计学习和深度学习技术构建模型需要的大规模高质量的标注语料数据,提升词法分析的效率和质量,为后续自然语言处理任务的建立和优化提供了支撑。
Claims (9)
1.一种自动化更新的词法分析系统,其特征在于:包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块;所述子模块控制模块分别与数据获取及加工模块、用户词库更新模块连;所述数据获取及加工模块依次与新词发现模块、词法分析模块连接;所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接;
本系统用户词库单次更新的步骤如下:
①执行子模块控制模块:设定数据获取及加工模块和用户词库更新模块执行条件;
②判断是否到达数据获取及加工模块执行条件,若到达数据获取及加工模块执行条件,则执行数据获取及加工模块,对文本数据进行获取及预处理,进入步骤③;若没有达到,不执行用户词库更新模块,结束操作;
③执行新词发现模块:结合用户词库对预处理后的文本数据进行新词发现,将新词发现的结果存入用户词库;
④执行词法分析模块:基于用户词库,对文本数据进行分词、词法分析和命名实体识别,将识别出的实体存入用户词库,并输出词法分析结果;
⑤判断是否达到用户词库更新模块执行条件,若到达用户词库更新模块执行条件,则执行用户词库更新模块,选择用户词库更新策略,筛选保留符合条件的词条,根据筛选结果更新用户词库;若没有达到,不执行用户词库更新模块,结束操作。
2.如权利要求1所述的自动化更新的词法分析系统,其特征在于:
所述系统控制模块用于人工启动、关闭、重启系统,和检测系统BUG;
所述子模块控制模块用于执行条件设定和判断;
所述数据获取及加工模块用于获取文本数据并进行预处理,对预处理后的数据文本进行对齐;
所述新词发现模块用于发现新词,并进行新词候选词判断、新词候选词修正、新词词库更新和新词词库建立;
所述词法分析模块用于分词、词性标注、命名实体识别、实体词库更新、词法分析结构输出;
所述用户词库更新模块用于更新用户词库,包含通用词典、新词词典、实体词典。
3.如权利要求1所述的自动化更新的词法分析系统,其特征在于:所述步骤②中,到达数据获取及加工模块执行条件的步骤如下:
(1)通过爬虫方式自动化获取文本数据;
(2)对文本数据进行预处理;
(3)将文本数据进行对齐处理。
4.如权利要求3所述的自动化更新的词法分析系统,其特征在于:所述文本数据包括通用文本数据和领域文本数据。
5.如权利要求4所述的自动化更新的词法分析系统,其特征在于:对通用文本数据进行清洗、融合,包括非文本字符过滤、换行、空格、特殊符号移除、中英文标点字符统一;对领域文本数据,根据领域文本书写成文特点,清洗文本数据、提取文本字符、过滤特殊符号。
6.如权利要求4所述的自动化更新的词法分析系统,其特征在于:将通用文本数据和领域文本数据进行对齐处理,包括格式、编码统一,中英文字符一致。
7.如权利要求1所述的自动化更新的词法分析系统,其特征在于:所述步骤③分为以下步骤:
(3.1)对对齐后的文本数据进行新词发现,通过用户词库对新词发现结果进行过滤,舍弃用户词库中存在的词,剩余词作为新词候选词;
(3.2)通过分词结果结合互信息熵、成词概率统计指标,对新词候选词进行判断和修正;
(3.3)基于保留和修订后的新词候选词条,更新用户词库,存储内容包括新词、词性、词频及词条进入词库时间。
8.如权利要求1所述的自动化更新的词法分析系统,其特征在于:所述步骤⑤分为以下步骤:
(5.1)基于用户词库对对齐后的文本数据进行分词;
(5.2)对分词后的结果进行词性标注;
(5.3)对词性标注后的结果进行命名实体识别;
(5.4)基于实体识别结果更新用户词库,存储内容包括实体、实体类别及词条入库时间;
(5.5)输出文本数据词法分析结果。
9.如权利要求1所述的自动化更新的词法分析系统,其特征在于:所述步骤⑤中,更新策略包括基于用户词库中词条时间衰减度、外部词库、特定场景规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911060395.3A CN110866400B (zh) | 2019-11-01 | 2019-11-01 | 一种自动化更新的词法分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911060395.3A CN110866400B (zh) | 2019-11-01 | 2019-11-01 | 一种自动化更新的词法分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110866400A CN110866400A (zh) | 2020-03-06 |
CN110866400B true CN110866400B (zh) | 2023-08-04 |
Family
ID=69653443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911060395.3A Active CN110866400B (zh) | 2019-11-01 | 2019-11-01 | 一种自动化更新的词法分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866400B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190569A (zh) * | 2021-05-19 | 2021-07-30 | 中国建设银行股份有限公司 | 统一搜索词库更新方法及装置 |
CN114822527B (zh) * | 2021-10-11 | 2024-11-26 | 北京中电慧声科技有限公司 | 一种语音转文本的纠错方法、装置及电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1154358A2 (en) * | 2000-05-12 | 2001-11-14 | Applied Psychology Research Limited | Automatic text classification system |
CN1641634A (zh) * | 2004-01-15 | 2005-07-20 | 中国科学院计算技术研究所 | 一种中文新词语的检测方法及其检测系统 |
CN102654873A (zh) * | 2011-03-03 | 2012-09-05 | 苏州同程旅游网络科技有限公司 | 基于中文分词的旅游信息抽取与聚合方法 |
CN103440256A (zh) * | 2013-07-26 | 2013-12-11 | 中国科学院深圳先进技术研究院 | 一种中文文字标签云自动生成方法及装置 |
CN104794154A (zh) * | 2015-03-11 | 2015-07-22 | 南通天呈医流互联网技术有限公司 | 基于文本挖掘的医疗器械o2o服务质量评价模型 |
CN108363691A (zh) * | 2018-02-09 | 2018-08-03 | 国网江苏省电力有限公司电力科学研究院 | 一种用于电力95598工单的领域术语识别系统及方法 |
CN108509425A (zh) * | 2018-04-10 | 2018-09-07 | 中国人民解放军陆军工程大学 | 一种基于新颖度的中文新词发现方法 |
CN109408818A (zh) * | 2018-10-12 | 2019-03-01 | 平安科技(深圳)有限公司 | 新词识别方法、装置、计算机设备及存储介质 |
WO2019051057A1 (en) * | 2017-09-06 | 2019-03-14 | Rosoka Software, Inc. | LEXICAL DISCOVERY BY AUTOMATIC LEARNING |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009129315A1 (en) * | 2008-04-15 | 2009-10-22 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
US20130166303A1 (en) * | 2009-11-13 | 2013-06-27 | Adobe Systems Incorporated | Accessing media data using metadata repository |
-
2019
- 2019-11-01 CN CN201911060395.3A patent/CN110866400B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1154358A2 (en) * | 2000-05-12 | 2001-11-14 | Applied Psychology Research Limited | Automatic text classification system |
CN1641634A (zh) * | 2004-01-15 | 2005-07-20 | 中国科学院计算技术研究所 | 一种中文新词语的检测方法及其检测系统 |
CN102654873A (zh) * | 2011-03-03 | 2012-09-05 | 苏州同程旅游网络科技有限公司 | 基于中文分词的旅游信息抽取与聚合方法 |
CN103440256A (zh) * | 2013-07-26 | 2013-12-11 | 中国科学院深圳先进技术研究院 | 一种中文文字标签云自动生成方法及装置 |
CN104794154A (zh) * | 2015-03-11 | 2015-07-22 | 南通天呈医流互联网技术有限公司 | 基于文本挖掘的医疗器械o2o服务质量评价模型 |
WO2019051057A1 (en) * | 2017-09-06 | 2019-03-14 | Rosoka Software, Inc. | LEXICAL DISCOVERY BY AUTOMATIC LEARNING |
CN108363691A (zh) * | 2018-02-09 | 2018-08-03 | 国网江苏省电力有限公司电力科学研究院 | 一种用于电力95598工单的领域术语识别系统及方法 |
CN108509425A (zh) * | 2018-04-10 | 2018-09-07 | 中国人民解放军陆军工程大学 | 一种基于新颖度的中文新词发现方法 |
CN109408818A (zh) * | 2018-10-12 | 2019-03-01 | 平安科技(深圳)有限公司 | 新词识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于字单元分析的中文辅助阅读系统;方高林;于浩;孟遥;邹纲;;中文信息学报(第02期) * |
Also Published As
Publication number | Publication date |
---|---|
CN110866400A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
CN107729468B (zh) | 基于深度学习的答案抽取方法及系统 | |
CN110765759B (zh) | 意图识别方法及装置 | |
CN109726293A (zh) | 一种因果事件图谱构建方法、系统、装置及存储介质 | |
CN105243055B (zh) | 基于多语言的分词方法和装置 | |
CN110020422A (zh) | 特征词的确定方法、装置和服务器 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN110119510B (zh) | 一种基于传递依存关系和结构助词的关系抽取方法及装置 | |
CN110348017B (zh) | 一种文本实体检测方法、系统及相关组件 | |
CN112541070B (zh) | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN110866400B (zh) | 一种自动化更新的词法分析系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN117009461A (zh) | 基于自然语言处理的短视频内容标签知识库快速检索方法 | |
CN112395392A (zh) | 一种意图识别方法及装置、可读存储介质 | |
CN103020311B (zh) | 一种用户检索词的处理方法及系统 | |
CN110413726B (zh) | 一种关系对库表建设方法 | |
CN112307756A (zh) | 基于Bi-LSTM和字词融合的汉语分词方法 | |
CN117910563A (zh) | 知识图谱构建方法、装置、设备、存储介质 | |
CN117875307A (zh) | 一种用于智能问答的文本解析方法和装置 | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 | |
CN113435213B (zh) | 针对用户问题和知识库返回答案的方法和装置 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
CN113569004A (zh) | 一种针对限制性自然语言用例建模的智能提示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |