CN110675962A

CN110675962A - 一种基于机器学习和文本规则的中药药理作用识别方法及系统

Info

Publication number: CN110675962A
Application number: CN201910853829.9A
Authority: CN
Inventors: 李巧勤; 刘勇国; 杨尚明; 蒋羽; 李杨; 何家欢; 蔡茁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2020-01-10

Abstract

本发明属于医学或兽医学；卫生学技术领域，公开了一种基于机器学习和文本规则的中药药理作用识别方法及系统，首先基于BIO规则构建训练语料库；然后提取文本特征并对特征进行数字化，采用组合多分类式SVM构建药理作用识别模型；最后采用基于规则的错误驱动学习(TBL)方法对SVM模型输出的标注结果进行后处理，提高实体识别精度。本发明将机器学习方法与基于规则的文本挖掘相关技术相结合，实现从中药文献中自动识别有效的中药药理作用信息，为中药药理作用信息化打下基础，与传统的药理作用研究方法相比，减少人工提取时间以及经济损耗，实现了在中药药理作用实体识别研究方法学上的改进。

Description

一种基于机器学习和文本规则的中药药理作用识别方法及系统

技术领域

本发明属于医学或兽医学；卫生学技术领域，尤其涉及一种基于机器学习和文本规则的中药药理作用识别方法及系统。

背景技术

目前，最接近的现有技术：目前，针对中药药理作用还没有使用计算机的方法进行识别的相关报道，因此在现有技术部分内容可述的并不多，先前的方法都是通过人工阅读进行的。中医治病常以方剂为单位，研究方剂对疾病的作用机制有助于解释中医方剂配伍以及治病的科学性。而方剂是由单味药物组成，研究单味药的药理作用将有助于方剂药理作用以及方剂对疾病的作用机制研究。近年来研究人员针对中药的现代药理作用开展了大量研究工作，并积累了海量的中药药理文献数据。在国内早期对于药理实体识别的研究中，主要采用人工结合临床实验的方法来归纳总结中药方剂中药物的药理作用，取得了一定的成果，但该方法往往需要消耗过高的时间及人力成本。

近年来，基于自然语言处理技术的命名实体识别用于人名、地名、机构、国家等特定类型词的识别，主要采用基于词典、规则、或将两者相结合使用，该方法需要人工制定词典以及规则，通过总结实体本身具有的规则和其上下文语境规则来将实体提取出来。该方法可以较好的适应中药文本中药理作用实体表达方式随意的特点。但由于药理作用没有标准的词库，需要自己构建，因此该方法难以实现中药药理作用的自动化识别。此外，基于HMM、MEMM、CRF等传统机器学习模型的统计方法常被用于文本实体识别中，提取人名、地名等短语，但这些方法适用于对反复出现的实体进行识别，而中药药理作用表达方式多样化，很难将其全部识别出来。此外，有研究尝试将实体识别问题转换为分类问题来解决，使用分类思想进行识别。这种方法首先需要有一部分语料作为分类模型的训练语料，然后将语料中的词语实体表示成向量形式输入模型，最后再将向量转化成词从而得到实体。基于分类的方法不依赖专门的语法规则，也不需要专门建立药理作用词典，还可以与人工选择的特征组合使用，可以更好地适应中药药理表达随意的特点。

综上所述，现有技术存在的问题是：

(1)目前药理作用实体识别的研究多采用小部分文本进行人工定量分析方法，主要针对样本量较小的中药药理文献数据进行统计分析，人工需求量大，文献内容提取时间损耗严重，往往在文献的人工收集内容提取和人工整理上花费太多时间，从而延误研究的进度。

(2)由于药理作用没有标准的词库，且文本随意性很强，基于自然语言处理的实体识别技术在中药药理作用识别领域存在巨大挑战；

(3)目前对于中药药理的研究主要基于人工且没有一个成熟的药理作用实体数据库。人工的方法就是通过设置检索关键词，先从文献数据库检索并下载相关主题或研究方向的文献，然后人工进行阅读并整理主要内容，形成一份调研文档，手动将文献中识别的药理作用等内容录入到Excel文档等形式进行保存。

解决上述技术问题的难度：1)针对目前尚没有将计算机方法应用于中药文献进行实体识别的研究，因此在研究过程中可参考的材料有限，这是采用计算机方法进行中药药理识别的难点之一；2)目前在实体识别问题中效果较好的方法均需要构建模型训练语料库，而正是由于尚没有针对中药药理实体识别的研究，该领域也缺少模型训练可用的语料，而人工构造训练语料库则需要克服花费时间久，且语料构建标准制定困难等难题。

解决上述技术问题的意义：1)解决人工方法带来的高成本问题，并加快中药药理研究进程；2)规范的人工语料库可以为进一步的模型研究奠定数据基础，解决目前语料库缺失而导致的计算模型无法训练的问题，对中药药理实体的计算机自动识别方法研究具有重要意义。

发明内容

针对现有技术存在的问题，本发明提供了一种基于机器学习和文本规则的中药药理作用识别方法及系统。

本发明是这样实现的，一种基于机器学习和文本规则的中药药理作用识别方法及系统，所述基于机器学习和文本规则的中药药理作用识别方法具体包括：

步骤一，获取包含中药药理作用实体的文档集；

步骤二，药药理作用文档集进行预处理，去除文献中对药理作用识别无用的干扰信息，包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等，提取正文内容并保存为txt文档；

步骤三，基于BIO规则对文档集的文本进行词性标注，得到规范化语料库，并将规范化语料库划分为训练语料和测试语料；

步骤四，从训练语料中提取对实体识别有效的各类特征信息；

步骤五，将提取的文本特征信息转化为数字特征向量，并采用这些数字特征向量，基于五折交叉验证训练组合多分类式SVM实体识别模型；

步骤六，利用构建的模型对输入文献的药理作用实体进行自动识别，并采用基于规则的错误驱动学习(TBL)方法对SVM模型输出的识别结果进行纠错处理。

进一步，步骤一中，所述文档集获取方法具体包括：

(1)利用关键词从中文期刊文献数据库进行文献检索，并以PDF格式下载文献；

(2)以及从百度百科进行检索，使用网页爬虫的方法将得到的信息保存成TXT文本。

进一步，步骤三，所述基于BIO规则对文献中的文本进行词性标注具体包括：

(1)根据文献的标点“。”对句子进行分割；

(2)基于BIO规则对(1)中分割好的句子进行序列标注，其中B表示实体开始，I表示实体除去开头的其他部分，O表示实体以外的部分。

进一步，步骤四中，所述从文本中提取对实体识别有效的各类特征信息具体包括：

有效文本特征信息，包括原词特征、长短句特征、上下文词性特征等三种；

(1)提取原词特征：提取当前语料分词后的单个词作为原词特征；

(2)提取长句与短句特征：长句被标记为L，短句被标记为S，在药理作用的实体识别中，相比长句式，短句往往更可能表达一个方剂中药物的药理作用；

(3)识别句子中词语的词性，提取词性特征组合，将句子中词语提取为动词+名词、动词+多个名词或使令型动词短语等多种形式。

进一步，步骤五中，所述文本特征转化以及构建多分类SVM实体识别模型具体包括：

(1)特征数字化：采用工具包YamCha组件将文本数据中的字符串特征格式化后输入到支持向量机；YamCha组件计算所有特征的个数并把每个特征转化成一个正整数，最后将每一行的特征转化成SVM的特征向量。其形式为：

+1 1207：1

-1 370：2

其中第一列的“+1”、“-1”分别代表正例和负例；第二列“：”左边的数值表示文本特征数字化后对应的数值，“：”右边表示该特征向量包含左边数值对应的特征；

(2)核函数选择：为减少SVM计算复杂度，引入基于径向基的核函数进行映射：

其中σ＞0

其中x表示对输入数据进行数字化后得到的向量，i、j分别表示正、负两类样本，σ²表示样本方差；

(3)构建基于Bagging集成思想的组合多分类式SVM模型；对于样本中的每一个词标注，在SVM训练过程中会根据不同样例的特征向量进行计算并形成三个超平面,分别是在词性B和O之间、I和O之间、O和O之间；测试结果中的每一个最优标注取自三个超平面函数中的最大值。

进一步，步骤六中，所述利用构建的模型对输入文献的药理作用实体进行自动识别，并采用TBL方法对SVM模型输出的识别结果进行纠错处理具体包括：

(1)对训练语料做5折交叉验证，将语料库分成5等份，每次选其中4份做训练语料，另一份做测试语料，基于构建的SVM模型进行药理作用识别，经过5次这样的过程，5份训练语料都得到了相应的基于SVM的识别结果，然后将5份合并，就获得了SVM对于整个训练语料的初始识别结果；

(2)将测试语料输入SVM得到一组测试语料的初始识别结果；

(3)对得到的训练语料初始识别结果采用TBL方法进行规则学习，使该识别结果学习预先标注的数据中所存在的规则，生成规则集；

(4)将该规则集用于步骤(2)中得到的测试语料初始识别结果，对其中的错误数据进行纠正，得到最终的识别结果。

进一步，基于机器学习和文本规则的中药药理作用识别方法系统具体包括：文档预处理模块、人工词性标注及语料库构建模块、特征信息提取模块、中药药理作用实体识别模块、识别实体结果后处理模块；

文档预处理模块：用于对获取的文档集进行信息过滤预处理，去除文献中对药理作用识别无用的干扰信息，包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等，提取正文内容并保存为txt文档；

人工词性标注及语料库构建模块：用于基于BIO规则对文档集的文本进行词性标注，得到规范化语料库，并将规范化语料库划分为训练语料和测试语料；

特征信息提取模块：用于从训练语料中提取对实体识别有效的各类特征信息；

中药药理作用实体识别模块：用于将提取的文本特征信息转化为数字特征向量，并采用这些数字特征向量，基于五折交叉验证训练组合多分类式SVM实体识别模型；并基于识别模型进行中药药理作用实体识别；

识别实体结果后处理模块：用于基于规则的错误驱动学习(TBL)方法对SVM模型输出的识别结果进行纠错处理。

综上所述，本发明的优点及积极效果为：

本发明将机器学习方法与基于规则的文本挖掘相关技术相结合，将机器学习方法应用到中药药理作用的自动识别，对中药药理作用进行有效的整理和归纳，为后期标准中药-药理作用数据库的构建提供基础数据；建立药理作用识别模型，实现从中药文献中自动识别有效的中药药理作用信息，为中药药理作用信息化打下基础，与传统的药理作用研究方法相比，减少人工提取时间以及经济损耗，实现了在中药药理作用实体识别研究方法学上的改进。

本发明首先基于BIO规则构建训练语料库，然后提取文本特征并对特征进行数字化，采用组合多分类式SVM构建药理作用识别模型，最后采用基于规则的错误驱动学习(TBL)方法对SVM模型输出的标注结果进行后处理，提高实体识别精度。

本发明能实现在海量文献中自动化的进行中药药理作用信息的提取，比以往方法更加高效和精确，有利于为构建中药药理作用实体基础数据库提供数据来源，为基于中药药理作用进行的研究提供数据基础。如图6所示，模型测试运行效果截图。

附图说明

图1是本发明实施例提供的基于机器学习和文本规则的中药药理作用识别方法流程图。

图2是本发明实施例提供的基于机器学习和文本规则的中药药理作用识别方法原理图。

图3是本发明实施例提供的基于组合多分类SVM的实体识别模型示意图。

图4是本发明实施例提供的采用TBL算法进行后处理流程图。

图5是本发明实施例提供的基于机器学习和文本规则的中药药理作用识别系统结构示意图。

图中：1、文档预处理模块；2、人工词性标注及语料库构建模块；3、特征信息提取模块；4、中药药理作用实体识别模块；5、识别实体结果后处理模块。

图6是本发明实施例提供的模型测试运行效果截图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理做详细描述，

如图1至图3所示，本发明实施例提供的基于机器学习和文本规则的中药药理作用识别方法具体包括：

S101：获取包含中药药理作用实体的文档集；

S102：对获取的中药药理作用文档集进行预处理，去除文献中对药理作用识别无用的干扰信息，包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等，提取正文内容并保存为txt文档；

S103：基于BIO规则对文档集的文本进行词性标注，得到规范化语料库，并将规范化语料库划分为训练语料和测试语料；

S104：从训练语料中提取对实体识别有效的各类特征信息；

S105：将提取的文本特征信息转化为数字特征向量，并采用这些数字特征向量，基于五折交叉验证训练组合多分类式SVM实体识别模型；

S106：利用构建的模型对输入文献的药理作用实体进行自动识别，并采用基于规则的错误驱动学习(TBL)方法对SVM模型输出的识别结果进行纠错处理。

步骤S101中，本发明实施例提供的文档集获取方法具体包括：

步骤S103，本发明实施例提供的基于BIO规则对文献中的文本进行词性标注具体包括：

(1)根据文献的标点“。”对句子进行分割；

步骤S104中，本发明实施例提供的从文本中提取对实体识别有效的各类特征信息具体包括：

步骤S105中，本发明实施例提供的文本特征转化以及构建多分类SVM实体识别模型具体包括：

+1 1207：1

-1 370：2

其中σ＞0

如图4所示，步骤S106中，本发明实施例提供的利用构建的模型对输入文献的药理作用实体进行自动识别，并采用TBL方法对SVM模型输出的识别结果进行纠错处理具体包括：

(2)将测试语料输入SVM得到一组测试语料的初始识别结果；

如图5所示，本发明实施例提供的机器学习和文本规则的中药药理作用识别方法系统具体包括：

文档预处理模块1、人工词性标注及语料库构建模块2、信息提取模块3、中药药理作用实体识别模块4、识别实体结果后处理模块5；

文档预处理模块1：用于对获取的文档集进行信息过滤预处理，去除文献中对药理作用识别无用的干扰信息，包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等，提取正文内容并保存为txt文档；

人工词性标注及语料库构建模块2：用于基于BIO规则对文档集的文本进行词性标注，得到规范化语料库，并将规范化语料库划分为训练语料和测试语料；

特征信息提取模块3：用于从训练语料中提取对实体识别有效的各类特征信息；

中药药理作用实体识别模块4：用于将提取的文本特征信息转化为数字特征向量，并采用这些数字特征向量，基于五折交叉验证训练组合多分类式SVM实体识别模型；并基于识别模型进行中药药理作用实体识别；

识别实体结果后处理模块5：用于基于规则的错误驱动学习(TBL)方法对SVM模型输出的识别结果进行纠错处理。

下面结合具体实施例对本发明的应用原理做进一步描述。

实施例1：

以中药文献“具有活血化瘀功效的中药药理作用及机制研究进展”为例。采用本发明方法提取其中的所有药理作用实体(即:对药理作用的描述)：

“摘要：笔者查阅近年来具有活血化察作用中药的药理作用及机制的相关文献资料发现，随者其药理作用与机制研究的不断深人，活血化察类中药已取得较大进展，被广泛应用于中医临床且效果显著。文章对近年来活血化瘀类中药药理作用与机制的研究进行总结，包括改善血液流变学、改善血流动力学、改善微循环、促血管再生作用、抗血栓作用、抗血小板作用等，旨在唤起人们对这类中药的新认识，为其在临床应阳中提供参考和借鉴”

(1)预处理，去除正文之外的其他部分内容，包括页眉页脚、英文以及作者单位等无用部分。

(2以其文中的摘要部分为例，将该文献处理为BIO标注形式：“包/O括/O改/B善/I血/I液/I流/I变/I学/I、/O改/B善/I血/I流/I动/I力/I学/I、/O改/B善/I微/I循/I环/I、/O促/B进/I血/I管/I再/I生/I。/O旨/O在/O唤/O起/O人/O们/O对/O这/O类/O中/O药/O的/O新/O认/O识/O。/O”

按照上述规则将预处理之后的全文制作为规范化语料库，并划分为训练预料和测试语料。

(3)提取三种文本特征：包括原词特征、长短句特征、上下文词性特征。如上句“改善血液流变学、血流动力学、微循环、促进血管再生”可以标记为长句L，并按照“动词+多个名词”形式标记词性。

(4)采用SVM CHUNKING工具包YamCha组件将提取出的所有文本特征转化为数字特征向量，如“改善血液流变学”可以转化为+11003:1数字特征，+1表示是想要提取的药理作用实体，1003表示其转化成的数字特征，：1表示其在特征向量组中位列第一项。组成[1003,1401,1123,1412,210,….]這样的特征向量组。

(5)将该特征向量组送入SVM分类器进行模型训练，采用五折交叉验证和径向基核函数进行训练。提取出了药理作用实体“改善血液流变学”和“唤起人们对药物新认识”两句，其中第二句为错误提取，并不是药理作用。

(6)对其采用基于规则的错误驱动算法(TBL)进行后处理，根据TBL算法学习该错误句子在文中的上下文语境和词性规则等，将其重新分类为“非药理作用实体”，进行实体识别结果的纠正。

(7)最后得到唯一想要的结果，“改善血液流变学”这一药理作用实体。

本发明实施例提供的TBL方法一种基于规则的学习方法，通过分析正确的分类结果和错误的分类结果，产生纠正该错误的‘规则’(该规则通过人工分析进行制定)，对每一条出现的错误产生一条对应的‘纠错规则’模板，组成规则模板库。

基于该规则库对新输入的测试数据产生的错误分类结果进行纠正和排除，即对测试语料的分类结果采用规则集中的所有条目进行逐条匹配，若满足所有条目，则将该结果进行输出，得到最终的正确标注结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习和文本规则的中药药理作用识别方法，其特征在于，所述基于机器学习和文本规则的中药药理作用识别方法包括：

步骤一，获取包含中药药理作用实体的文档集；

步骤二，获取的中药药理作用文档集进行预处理，去除文献中对药理作用识别无用的干扰信息，包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等，提取正文内容并保存为txt文档；

步骤三，基于BIO规则对文档集的文本进行词性标注，得到规范化语料库，并将规范化语料库划分分为训练语料和测试语料；

步骤六，利用构建的模型对输入文献的药理作用实体进行自动识别，并采用基于规则的错误驱动学习TBL方法对SVM模型输出的识别结果进行纠错处理。

2.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法，其特征在于，步骤一中，所述文档集获取方法具体包括：

3.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法，其特征在于，步骤三，所述基于BIO规则对文献中的文本进行词性标注具体包括：

(1)根据文献的标点“。”对句子进行分割；

4.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法，其特征在于，步骤四中，所述从文本中提取对实体识别有效的各类特征信息具体包括：

有效文本特征信息，包括原词特征、长短句特征、上下文词性特征三种；

5.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法，其特征在于，步骤五中，所述文本特征转化以及构建多分类SVM实体识别模型具体包括：

+1 1207：1

-1 370：2

其中σ＞0

6.如权利要求1所述的基于机器学习和文本规则的中药药理作用识别方法，其特征在于，步骤六中，所述利用构建的模型对输入文献的药理作用实体进行自动识别，并采用TBL方法对SVM模型输出的识别结果进行纠错处理具体包括：

(2)将测试语料输入SVM得到一组测试语料的初始识别结果；

7.一种执行权利要求1所述基于机器学习和文本规则的中药药理作用识别方法的基于机器学习和文本规则的中药药理作用识别系统，其特征在于，基于机器学习和文本规则的中药药理作用识别方法系统包括：

识别实体结果后处理模块：用于基于规则的错误驱动学习TBL方法对SVM模型输出的识别结果进行纠错处理。

8.一种应用权利要求1～6任意一项所述基于机器学习和文本规则的中药药理作用识别方法的信息数据处理终端。