CN110675962A - 一种基于机器学习和文本规则的中药药理作用识别方法及系统 - Google Patents
一种基于机器学习和文本规则的中药药理作用识别方法及系统 Download PDFInfo
- Publication number
- CN110675962A CN110675962A CN201910853829.9A CN201910853829A CN110675962A CN 110675962 A CN110675962 A CN 110675962A CN 201910853829 A CN201910853829 A CN 201910853829A CN 110675962 A CN110675962 A CN 110675962A
- Authority
- CN
- China
- Prior art keywords
- traditional chinese
- text
- chinese medicine
- pharmacological action
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Toxicology (AREA)
- Public Health (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Computational Linguistics (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于医学或兽医学;卫生学技术领域,公开了一种基于机器学习和文本规则的中药药理作用识别方法及系统,首先基于BIO规则构建训练语料库;然后提取文本特征并对特征进行数字化,采用组合多分类式SVM构建药理作用识别模型;最后采用基于规则的错误驱动学习(TBL)方法对SVM模型输出的标注结果进行后处理,提高实体识别精度。本发明将机器学习方法与基于规则的文本挖掘相关技术相结合,实现从中药文献中自动识别有效的中药药理作用信息,为中药药理作用信息化打下基础,与传统的药理作用研究方法相比,减少人工提取时间以及经济损耗,实现了在中药药理作用实体识别研究方法学上的改进。
Description
技术领域
本发明属于医学或兽医学;卫生学技术领域,尤其涉及一种基于机器学习和文本规则的中药药理作用识别方法及系统。
背景技术
目前,最接近的现有技术:目前,针对中药药理作用还没有使用计算机的方法进行识别的相关报道,因此在现有技术部分内容可述的并不多,先前的方法都是通过人工阅读进行的。中医治病常以方剂为单位,研究方剂对疾病的作用机制有助于解释中医方剂配伍以及治病的科学性。而方剂是由单味药物组成,研究单味药的药理作用将有助于方剂药理作用以及方剂对疾病的作用机制研究。近年来研究人员针对中药的现代药理作用开展了大量研究工作,并积累了海量的中药药理文献数据。在国内早期对于药理实体识别的研究中,主要采用人工结合临床实验的方法来归纳总结中药方剂中药物的药理作用,取得了一定的成果,但该方法往往需要消耗过高的时间及人力成本。
近年来,基于自然语言处理技术的命名实体识别用于人名、地名、机构、国家等特定类型词的识别,主要采用基于词典、规则、或将两者相结合使用,该方法需要人工制定词典以及规则,通过总结实体本身具有的规则和其上下文语境规则来将实体提取出来。该方法可以较好的适应中药文本中药理作用实体表达方式随意的特点。但由于药理作用没有标准的词库,需要自己构建,因此该方法难以实现中药药理作用的自动化识别。此外,基于HMM、MEMM、CRF等传统机器学习模型的统计方法常被用于文本实体识别中,提取人名、地名等短语,但这些方法适用于对反复出现的实体进行识别,而中药药理作用表达方式多样化,很难将其全部识别出来。此外,有研究尝试将实体识别问题转换为分类问题来解决,使用分类思想进行识别。这种方法首先需要有一部分语料作为分类模型的训练语料,然后将语料中的词语实体表示成向量形式输入模型,最后再将向量转化成词从而得到实体。基于分类的方法不依赖专门的语法规则,也不需要专门建立药理作用词典,还可以与人工选择的特征组合使用,可以更好地适应中药药理表达随意的特点。
综上所述,现有技术存在的问题是:
(1)目前药理作用实体识别的研究多采用小部分文本进行人工定量分析方法,主要针对样本量较小的中药药理文献数据进行统计分析,人工需求量大,文献内容提取时间损耗严重,往往在文献的人工收集内容提取和人工整理上花费太多时间,从而延误研究的进度。
(2)由于药理作用没有标准的词库,且文本随意性很强,基于自然语言处理的实体识别技术在中药药理作用识别领域存在巨大挑战;
(3)目前对于中药药理的研究主要基于人工且没有一个成熟的药理作用实体数据库。人工的方法就是通过设置检索关键词,先从文献数据库检索并下载相关主题或研究方向的文献,然后人工进行阅读并整理主要内容,形成一份调研文档,手动将文献中识别的药理作用等内容录入到Excel文档等形式进行保存。
解决上述技术问题的难度:1)针对目前尚没有将计算机方法应用于中药文献进行实体识别的研究,因此在研究过程中可参考的材料有限,这是采用计算机方法进行中药药理识别的难点之一;2)目前在实体识别问题中效果较好的方法均需要构建模型训练语料库,而正是由于尚没有针对中药药理实体识别的研究,该领域也缺少模型训练可用的语料,而人工构造训练语料库则需要克服花费时间久,且语料构建标准制定困难等难题。
解决上述技术问题的意义:1)解决人工方法带来的高成本问题,并加快中药药理研究进程;2)规范的人工语料库可以为进一步的模型研究奠定数据基础,解决目前语料库缺失而导致的计算模型无法训练的问题,对中药药理实体的计算机自动识别方法研究具有重要意义。
发明内容
针对现有技术存在的问题,本发明提供了一种基于机器学习和文本规则的中药药理作用识别方法及系统。
本发明是这样实现的,一种基于机器学习和文本规则的中药药理作用识别方法及系统,所述基于机器学习和文本规则的中药药理作用识别方法具体包括:
步骤一,获取包含中药药理作用实体的文档集;
步骤二,药药理作用文档集进行预处理,去除文献中对药理作用识别无用的干扰信息,包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等,提取正文内容并保存为txt文档;
步骤三,基于BIO规则对文档集的文本进行词性标注,得到规范化语料库,并将规范化语料库划分为训练语料和测试语料;
步骤四,从训练语料中提取对实体识别有效的各类特征信息;
步骤五,将提取的文本特征信息转化为数字特征向量,并采用这些数字特征向量,基于五折交叉验证训练组合多分类式SVM实体识别模型;
步骤六,利用构建的模型对输入文献的药理作用实体进行自动识别,并采用基于规则的错误驱动学习(TBL)方法对SVM模型输出的识别结果进行纠错处理。
进一步,步骤一中,所述文档集获取方法具体包括:
(1)利用关键词从中文期刊文献数据库进行文献检索,并以PDF格式下载文献;
(2)以及从百度百科进行检索,使用网页爬虫的方法将得到的信息保存成TXT文本。
进一步,步骤三,所述基于BIO规则对文献中的文本进行词性标注具体包括:
(1)根据文献的标点“。”对句子进行分割;
(2)基于BIO规则对(1)中分割好的句子进行序列标注,其中B表示实体开始,I表示实体除去开头的其他部分,O表示实体以外的部分。
进一步,步骤四中,所述从文本中提取对实体识别有效的各类特征信息具体包括:
有效文本特征信息,包括原词特征、长短句特征、上下文词性特征等三种;
(1)提取原词特征:提取当前语料分词后的单个词作为原词特征;
(2)提取长句与短句特征:长句被标记为L,短句被标记为S,在药理作用的实体识别中,相比长句式,短句往往更可能表达一个方剂中药物的药理作用;
(3)识别句子中词语的词性,提取词性特征组合,将句子中词语提取为动词+名词、动词+多个名词或使令型动词短语等多种形式。
进一步,步骤五中,所述文本特征转化以及构建多分类SVM实体识别模型具体包括:
(1)特征数字化:采用工具包YamCha组件将文本数据中的字符串特征格式化后输入到支持向量机;YamCha组件计算所有特征的个数并把每个特征转化成一个正整数,最后将每一行的特征转化成SVM的特征向量。其形式为:
+1 1207:1
-1 370:2
其中第一列的“+1”、“-1”分别代表正例和负例;第二列“:”左边的数值表示文本特征数字化后对应的数值,“:”右边表示该特征向量包含左边数值对应的特征;
(2)核函数选择:为减少SVM计算复杂度,引入基于径向基的核函数进行映射:
其中x表示对输入数据进行数字化后得到的向量,i、j分别表示正、负两类样本,σ2表示样本方差;
(3)构建基于Bagging集成思想的组合多分类式SVM模型;对于样本中的每一个词标注,在SVM训练过程中会根据不同样例的特征向量进行计算并形成三个超平面,分别是在词性B和O之间、I和O之间、O和O之间;测试结果中的每一个最优标注取自三个超平面函数中的最大值。
进一步,步骤六中,所述利用构建的模型对输入文献的药理作用实体进行自动识别,并采用TBL方法对SVM模型输出的识别结果进行纠错处理具体包括:
(1)对训练语料做5折交叉验证,将语料库分成5等份,每次选其中4份做训练语料,另一份做测试语料,基于构建的SVM模型进行药理作用识别,经过5次这样的过程,5份训练语料都得到了相应的基于SVM的识别结果,然后将5份合并,就获得了SVM对于整个训练语料的初始识别结果;
(2)将测试语料输入SVM得到一组测试语料的初始识别结果;
(3)对得到的训练语料初始识别结果采用TBL方法进行规则学习,使该识别结果学习预先标注的数据中所存在的规则,生成规则集;
(4)将该规则集用于步骤(2)中得到的测试语料初始识别结果,对其中的错误数据进行纠正,得到最终的识别结果。
进一步,基于机器学习和文本规则的中药药理作用识别方法系统具体包括:文档预处理模块、人工词性标注及语料库构建模块、特征信息提取模块、中药药理作用实体识别模块、识别实体结果后处理模块;
文档预处理模块:用于对获取的文档集进行信息过滤预处理,去除文献中对药理作用识别无用的干扰信息,包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等,提取正文内容并保存为txt文档;
人工词性标注及语料库构建模块:用于基于BIO规则对文档集的文本进行词性标注,得到规范化语料库,并将规范化语料库划分为训练语料和测试语料;
特征信息提取模块:用于从训练语料中提取对实体识别有效的各类特征信息;
中药药理作用实体识别模块:用于将提取的文本特征信息转化为数字特征向量,并采用这些数字特征向量,基于五折交叉验证训练组合多分类式SVM实体识别模型;并基于识别模型进行中药药理作用实体识别;
识别实体结果后处理模块:用于基于规则的错误驱动学习(TBL)方法对SVM模型输出的识别结果进行纠错处理。
综上所述,本发明的优点及积极效果为:
本发明将机器学习方法与基于规则的文本挖掘相关技术相结合,将机器学习方法应用到中药药理作用的自动识别,对中药药理作用进行有效的整理和归纳,为后期标准中药-药理作用数据库的构建提供基础数据;建立药理作用识别模型,实现从中药文献中自动识别有效的中药药理作用信息,为中药药理作用信息化打下基础,与传统的药理作用研究方法相比,减少人工提取时间以及经济损耗,实现了在中药药理作用实体识别研究方法学上的改进。
本发明首先基于BIO规则构建训练语料库,然后提取文本特征并对特征进行数字化,采用组合多分类式SVM构建药理作用识别模型,最后采用基于规则的错误驱动学习(TBL)方法对SVM模型输出的标注结果进行后处理,提高实体识别精度。
本发明能实现在海量文献中自动化的进行中药药理作用信息的提取,比以往方法更加高效和精确,有利于为构建中药药理作用实体基础数据库提供数据来源,为基于中药药理作用进行的研究提供数据基础。如图6所示,模型测试运行效果截图。
附图说明
图1是本发明实施例提供的基于机器学习和文本规则的中药药理作用识别方法流程图。
图2是本发明实施例提供的基于机器学习和文本规则的中药药理作用识别方法原理图。
图3是本发明实施例提供的基于组合多分类SVM的实体识别模型示意图。
图4是本发明实施例提供的采用TBL算法进行后处理流程图。
图5是本发明实施例提供的基于机器学习和文本规则的中药药理作用识别系统结构示意图。
图中:1、文档预处理模块;2、人工词性标注及语料库构建模块;3、特征信息提取模块;4、中药药理作用实体识别模块;5、识别实体结果后处理模块。
图6是本发明实施例提供的模型测试运行效果截图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理做详细描述,
如图1至图3所示,本发明实施例提供的基于机器学习和文本规则的中药药理作用识别方法具体包括:
S101:获取包含中药药理作用实体的文档集;
S102:对获取的中药药理作用文档集进行预处理,去除文献中对药理作用识别无用的干扰信息,包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等,提取正文内容并保存为txt文档;
S103:基于BIO规则对文档集的文本进行词性标注,得到规范化语料库,并将规范化语料库划分为训练语料和测试语料;
S104:从训练语料中提取对实体识别有效的各类特征信息;
S105:将提取的文本特征信息转化为数字特征向量,并采用这些数字特征向量,基于五折交叉验证训练组合多分类式SVM实体识别模型;
S106:利用构建的模型对输入文献的药理作用实体进行自动识别,并采用基于规则的错误驱动学习(TBL)方法对SVM模型输出的识别结果进行纠错处理。
步骤S101中,本发明实施例提供的文档集获取方法具体包括:
(1)利用关键词从中文期刊文献数据库进行文献检索,并以PDF格式下载文献;
(2)以及从百度百科进行检索,使用网页爬虫的方法将得到的信息保存成TXT文本。
步骤S103,本发明实施例提供的基于BIO规则对文献中的文本进行词性标注具体包括:
(1)根据文献的标点“。”对句子进行分割;
(2)基于BIO规则对(1)中分割好的句子进行序列标注,其中B表示实体开始,I表示实体除去开头的其他部分,O表示实体以外的部分。
步骤S104中,本发明实施例提供的从文本中提取对实体识别有效的各类特征信息具体包括:
有效文本特征信息,包括原词特征、长短句特征、上下文词性特征等三种;
(1)提取原词特征:提取当前语料分词后的单个词作为原词特征;
(2)提取长句与短句特征:长句被标记为L,短句被标记为S,在药理作用的实体识别中,相比长句式,短句往往更可能表达一个方剂中药物的药理作用;
(3)识别句子中词语的词性,提取词性特征组合,将句子中词语提取为动词+名词、动词+多个名词或使令型动词短语等多种形式。
步骤S105中,本发明实施例提供的文本特征转化以及构建多分类SVM实体识别模型具体包括:
(1)特征数字化:采用工具包YamCha组件将文本数据中的字符串特征格式化后输入到支持向量机;YamCha组件计算所有特征的个数并把每个特征转化成一个正整数,最后将每一行的特征转化成SVM的特征向量。其形式为:
+1 1207:1
-1 370:2
其中第一列的“+1”、“-1”分别代表正例和负例;第二列“:”左边的数值表示文本特征数字化后对应的数值,“:”右边表示该特征向量包含左边数值对应的特征;
(2)核函数选择:为减少SVM计算复杂度,引入基于径向基的核函数进行映射:
其中x表示对输入数据进行数字化后得到的向量,i、j分别表示正、负两类样本,σ2表示样本方差;
(3)构建基于Bagging集成思想的组合多分类式SVM模型;对于样本中的每一个词标注,在SVM训练过程中会根据不同样例的特征向量进行计算并形成三个超平面,分别是在词性B和O之间、I和O之间、O和O之间;测试结果中的每一个最优标注取自三个超平面函数中的最大值。
如图4所示,步骤S106中,本发明实施例提供的利用构建的模型对输入文献的药理作用实体进行自动识别,并采用TBL方法对SVM模型输出的识别结果进行纠错处理具体包括:
(1)对训练语料做5折交叉验证,将语料库分成5等份,每次选其中4份做训练语料,另一份做测试语料,基于构建的SVM模型进行药理作用识别,经过5次这样的过程,5份训练语料都得到了相应的基于SVM的识别结果,然后将5份合并,就获得了SVM对于整个训练语料的初始识别结果;
(2)将测试语料输入SVM得到一组测试语料的初始识别结果;
(3)对得到的训练语料初始识别结果采用TBL方法进行规则学习,使该识别结果学习预先标注的数据中所存在的规则,生成规则集;
(4)将该规则集用于步骤(2)中得到的测试语料初始识别结果,对其中的错误数据进行纠正,得到最终的识别结果。
如图5所示,本发明实施例提供的机器学习和文本规则的中药药理作用识别方法系统具体包括:
文档预处理模块1、人工词性标注及语料库构建模块2、信息提取模块3、中药药理作用实体识别模块4、识别实体结果后处理模块5;
文档预处理模块1:用于对获取的文档集进行信息过滤预处理,去除文献中对药理作用识别无用的干扰信息,包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等,提取正文内容并保存为txt文档;
人工词性标注及语料库构建模块2:用于基于BIO规则对文档集的文本进行词性标注,得到规范化语料库,并将规范化语料库划分为训练语料和测试语料;
特征信息提取模块3:用于从训练语料中提取对实体识别有效的各类特征信息;
中药药理作用实体识别模块4:用于将提取的文本特征信息转化为数字特征向量,并采用这些数字特征向量,基于五折交叉验证训练组合多分类式SVM实体识别模型;并基于识别模型进行中药药理作用实体识别;
识别实体结果后处理模块5:用于基于规则的错误驱动学习(TBL)方法对SVM模型输出的识别结果进行纠错处理。
下面结合具体实施例对本发明的应用原理做进一步描述。
实施例1:
以中药文献“具有活血化瘀功效的中药药理作用及机制研究进展”为例。采用本发明方法提取其中的所有药理作用实体(即:对药理作用的描述):
“摘要:笔者查阅近年来具有活血化察作用中药的药理作用及机制的相关文献资料发现,随者其药理作用与机制研究的不断深人,活血化察类中药已取得较大进展,被广泛应用于中医临床且效果显著。文章对近年来活血化瘀类中药药理作用与机制的研究进行总结,包括改善血液流变学、改善血流动力学、改善微循环、促血管再生作用、抗血栓作用、抗血小板作用等,旨在唤起人们对这类中药的新认识,为其在临床应阳中提供参考和借鉴”
(1)预处理,去除正文之外的其他部分内容,包括页眉页脚、英文以及作者单位等无用部分。
(2以其文中的摘要部分为例,将该文献处理为BIO标注形式:“包/O括/O改/B善/I血/I液/I流/I变/I学/I、/O改/B善/I血/I流/I动/I力/I学/I、/O改/B善/I微/I循/I环/I、/O促/B进/I血/I管/I再/I生/I。/O旨/O在/O唤/O起/O人/O们/O对/O这/O类/O中/O药/O的/O新/O认/O识/O。/O”
按照上述规则将预处理之后的全文制作为规范化语料库,并划分为训练预料和测试语料。
(3)提取三种文本特征:包括原词特征、长短句特征、上下文词性特征。如上句“改善血液流变学、血流动力学、微循环、促进血管再生”可以标记为长句L,并按照“动词+多个名词”形式标记词性。
(4)采用SVM CHUNKING工具包YamCha组件将提取出的所有文本特征转化为数字特征向量,如“改善血液流变学”可以转化为+11003:1数字特征,+1表示是想要提取的药理作用实体,1003表示其转化成的数字特征,:1表示其在特征向量组中位列第一项。组成[1003,1401,1123,1412,210,….]這样的特征向量组。
(5)将该特征向量组送入SVM分类器进行模型训练,采用五折交叉验证和径向基核函数进行训练。提取出了药理作用实体“改善血液流变学”和“唤起人们对药物新认识”两句,其中第二句为错误提取,并不是药理作用。
(6)对其采用基于规则的错误驱动算法(TBL)进行后处理,根据TBL算法学习该错误句子在文中的上下文语境和词性规则等,将其重新分类为“非药理作用实体”,进行实体识别结果的纠正。
(7)最后得到唯一想要的结果,“改善血液流变学”这一药理作用实体。
本发明实施例提供的TBL方法一种基于规则的学习方法,通过分析正确的分类结果和错误的分类结果,产生纠正该错误的‘规则’(该规则通过人工分析进行制定),对每一条出现的错误产生一条对应的‘纠错规则’模板,组成规则模板库。
基于该规则库对新输入的测试数据产生的错误分类结果进行纠正和排除,即对测试语料的分类结果采用规则集中的所有条目进行逐条匹配,若满足所有条目,则将该结果进行输出,得到最终的正确标注结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于机器学习和文本规则的中药药理作用识别方法,其特征在于,所述基于机器学习和文本规则的中药药理作用识别方法包括:
步骤一,获取包含中药药理作用实体的文档集;
步骤二,获取的中药药理作用文档集进行预处理,去除文献中对药理作用识别无用的干扰信息,包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等,提取正文内容并保存为txt文档;
步骤三,基于BIO规则对文档集的文本进行词性标注,得到规范化语料库,并将规范化语料库划分分为训练语料和测试语料;
步骤四,从训练语料中提取对实体识别有效的各类特征信息;
步骤五,将提取的文本特征信息转化为数字特征向量,并采用这些数字特征向量,基于五折交叉验证训练组合多分类式SVM实体识别模型;
步骤六,利用构建的模型对输入文献的药理作用实体进行自动识别,并采用基于规则的错误驱动学习TBL方法对SVM模型输出的识别结果进行纠错处理。
2.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法,其特征在于,步骤一中,所述文档集获取方法具体包括:
(1)利用关键词从中文期刊文献数据库进行文献检索,并以PDF格式下载文献;
(2)以及从百度百科进行检索,使用网页爬虫的方法将得到的信息保存成TXT文本。
3.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法,其特征在于,步骤三,所述基于BIO规则对文献中的文本进行词性标注具体包括:
(1)根据文献的标点“。”对句子进行分割;
(2)基于BIO规则对(1)中分割好的句子进行序列标注,其中B表示实体开始,I表示实体除去开头的其他部分,O表示实体以外的部分。
4.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法,其特征在于,步骤四中,所述从文本中提取对实体识别有效的各类特征信息具体包括:
有效文本特征信息,包括原词特征、长短句特征、上下文词性特征三种;
(1)提取原词特征:提取当前语料分词后的单个词作为原词特征;
(2)提取长句与短句特征:长句被标记为L,短句被标记为S,在药理作用的实体识别中,相比长句式,短句往往更可能表达一个方剂中药物的药理作用;
(3)识别句子中词语的词性,提取词性特征组合,将句子中词语提取为动词+名词、动词+多个名词或使令型动词短语等多种形式。
5.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法,其特征在于,步骤五中,所述文本特征转化以及构建多分类SVM实体识别模型具体包括:
(1)特征数字化:采用工具包YamCha组件将文本数据中的字符串特征格式化后输入到支持向量机;YamCha组件计算所有特征的个数并把每个特征转化成一个正整数,最后将每一行的特征转化成SVM的特征向量。其形式为:
+1 1207:1
-1 370:2
其中第一列的“+1”、“-1”分别代表正例和负例;第二列“:”左边的数值表示文本特征数字化后对应的数值,“:”右边表示该特征向量包含左边数值对应的特征;
(2)核函数选择:为减少SVM计算复杂度,引入基于径向基的核函数进行映射:
其中x表示对输入数据进行数字化后得到的向量,i、j分别表示正、负两类样本,σ2表示样本方差;
(3)构建基于Bagging集成思想的组合多分类式SVM模型;对于样本中的每一个词标注,在SVM训练过程中会根据不同样例的特征向量进行计算并形成三个超平面,分别是在词性B和O之间、I和O之间、O和O之间;测试结果中的每一个最优标注取自三个超平面函数中的最大值。
6.如权利要求1所述的基于机器学习和文本规则的中药药理作用识别方法,其特征在于,步骤六中,所述利用构建的模型对输入文献的药理作用实体进行自动识别,并采用TBL方法对SVM模型输出的识别结果进行纠错处理具体包括:
(1)对训练语料做5折交叉验证,将语料库分成5等份,每次选其中4份做训练语料,另一份做测试语料,基于构建的SVM模型进行药理作用识别,经过5次这样的过程,5份训练语料都得到了相应的基于SVM的识别结果,然后将5份合并,就获得了SVM对于整个训练语料的初始识别结果;
(2)将测试语料输入SVM得到一组测试语料的初始识别结果;
(3)对得到的训练语料初始识别结果采用TBL方法进行规则学习,使该识别结果学习预先标注的数据中所存在的规则,生成规则集;
(4)将该规则集用于步骤(2)中得到的测试语料初始识别结果,对其中的错误数据进行纠正,得到最终的识别结果。
7.一种执行权利要求1所述基于机器学习和文本规则的中药药理作用识别方法的基于机器学习和文本规则的中药药理作用识别系统,其特征在于,基于机器学习和文本规则的中药药理作用识别方法系统包括:
文档预处理模块:用于对获取的文档集进行信息过滤预处理,去除文献中对药理作用识别无用的干扰信息,包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等,提取正文内容并保存为txt文档;
人工词性标注及语料库构建模块:用于基于BIO规则对文档集的文本进行词性标注,得到规范化语料库,并将规范化语料库划分为训练语料和测试语料;
特征信息提取模块:用于从训练语料中提取对实体识别有效的各类特征信息;
中药药理作用实体识别模块:用于将提取的文本特征信息转化为数字特征向量,并采用这些数字特征向量,基于五折交叉验证训练组合多分类式SVM实体识别模型;并基于识别模型进行中药药理作用实体识别;
识别实体结果后处理模块:用于基于规则的错误驱动学习TBL方法对SVM模型输出的识别结果进行纠错处理。
8.一种应用权利要求1~6任意一项所述基于机器学习和文本规则的中药药理作用识别方法的信息数据处理终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910853829.9A CN110675962A (zh) | 2019-09-10 | 2019-09-10 | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910853829.9A CN110675962A (zh) | 2019-09-10 | 2019-09-10 | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110675962A true CN110675962A (zh) | 2020-01-10 |
Family
ID=69077933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910853829.9A Pending CN110675962A (zh) | 2019-09-10 | 2019-09-10 | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110675962A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159414A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 文本分类方法及系统、电子设备、计算机可读存储介质 |
CN111753099A (zh) * | 2020-06-28 | 2020-10-09 | 中国农业科学院农业信息研究所 | 一种基于知识图谱增强档案实体关联度的方法及系统 |
CN111797630A (zh) * | 2020-06-29 | 2020-10-20 | 大连理工大学 | 一种面向pdf格式论文的生物医学实体识别方法 |
CN113488194A (zh) * | 2021-05-25 | 2021-10-08 | 四川大学华西医院 | 一种基于分布式系统的药品识别方法与装置 |
CN113808752A (zh) * | 2020-12-04 | 2021-12-17 | 四川医枢科技股份有限公司 | 一种医学文档识别方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140082003A1 (en) * | 2012-09-17 | 2014-03-20 | Digital Trowel (Israel) Ltd. | Document mining with relation extraction |
CN103778243A (zh) * | 2014-02-11 | 2014-05-07 | 北京信息科技大学 | 一种领域术语抽取方法 |
CN106708959A (zh) * | 2016-11-30 | 2017-05-24 | 重庆大学 | 一种基于医学文献数据库的组合药物识别与排序方法 |
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
-
2019
- 2019-09-10 CN CN201910853829.9A patent/CN110675962A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140082003A1 (en) * | 2012-09-17 | 2014-03-20 | Digital Trowel (Israel) Ltd. | Document mining with relation extraction |
CN103778243A (zh) * | 2014-02-11 | 2014-05-07 | 北京信息科技大学 | 一种领域术语抽取方法 |
CN106708959A (zh) * | 2016-11-30 | 2017-05-24 | 重庆大学 | 一种基于医学文献数据库的组合药物识别与排序方法 |
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
Non-Patent Citations (2)
Title |
---|
徐昉 等: ""中文Base NP 识别:错误驱动的组合分类器方法"", 《中文信息学报》, vol. 21, no. 1, 30 January 2007 (2007-01-30), pages 115 - 119 * |
杨晓欢 等: ""面向文摘的中药方剂与疾病关系抽取"", 《世界科学技术-中医药现代化》, vol. 19, no. 7, 20 July 2017 (2017-07-20), pages 1167 - 1172 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159414A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 文本分类方法及系统、电子设备、计算机可读存储介质 |
CN111159414B (zh) * | 2020-04-02 | 2020-07-14 | 成都数联铭品科技有限公司 | 文本分类方法及系统、电子设备、计算机可读存储介质 |
CN111753099A (zh) * | 2020-06-28 | 2020-10-09 | 中国农业科学院农业信息研究所 | 一种基于知识图谱增强档案实体关联度的方法及系统 |
CN111753099B (zh) * | 2020-06-28 | 2023-11-21 | 中国农业科学院农业信息研究所 | 一种基于知识图谱增强档案实体关联度的方法及系统 |
CN111797630A (zh) * | 2020-06-29 | 2020-10-20 | 大连理工大学 | 一种面向pdf格式论文的生物医学实体识别方法 |
CN113808752A (zh) * | 2020-12-04 | 2021-12-17 | 四川医枢科技股份有限公司 | 一种医学文档识别方法、装置及设备 |
CN113488194A (zh) * | 2021-05-25 | 2021-10-08 | 四川大学华西医院 | 一种基于分布式系统的药品识别方法与装置 |
CN113488194B (zh) * | 2021-05-25 | 2023-04-07 | 四川大学华西医院 | 一种基于分布式系统的药品识别方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
US8131539B2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
US8275604B2 (en) | Adaptive pattern learning for bilingual data mining | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN109145260B (zh) | 一种文本信息自动提取方法 | |
Valarakos et al. | Enhancing ontological knowledge through ontology population and enrichment | |
Hazman et al. | Ontology learning from domain specific web documents | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
Yan et al. | Chemical name extraction based on automatic training data generation and rich feature set | |
CN111597349A (zh) | 一种基于人工智能的轨道交通规范实体关系自动补全方法 | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
Wang et al. | Semi-supervised chinese open entity relation extraction | |
CN113297851A (zh) | 一种针对易混淆运动损伤实体词的识别方法 | |
CN111881685A (zh) | 基于小粒度策略混合模型的汉语命名实体识别方法及系统 | |
CN106021225A (zh) | 一种基于汉语简单名词短语的汉语最长名词短语识别方法 | |
CN113392189B (zh) | 基于自动分词的新闻文本处理方法 | |
Sirajzade et al. | The LuNa Open Toolbox for the Luxembourgish Language | |
Han et al. | Construction method of knowledge graph under machine learning | |
Ducoffe et al. | Machine Learning under the light of Phraseology expertise: use case of presidential speeches, De Gaulle-Hollande (1958-2016) | |
Cui | Design of intelligent recognition English translation model based on feature extraction algorithm | |
Umidjon | UNLOCKING THE POWER OF NATURAL LANGUAGE PROCESSING (NLP) FOR TEXT ANALYSIS | |
Prasad et al. | Lexicon based extraction and opinion classification of associations in text from Hindi weblogs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200110 |
|
RJ01 | Rejection of invention patent application after publication |