CN105069124A

CN105069124A - 一种自动化的国际疾病分类编码方法及系统

Info

Publication number: CN105069124A
Application number: CN201510496513.0A
Authority: CN
Inventors: 金以东; 朱华玲; 陈志永
Original assignee: Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Current assignee: Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Priority date: 2015-08-13
Filing date: 2015-08-13
Publication date: 2015-11-18
Anticipated expiration: 2035-08-13
Also published as: CN105069124B

Abstract

本发明的实施方式提供了一种自动化的国际疾病分类编码方法。该方法包括：输入中文疾病诊断信息；对中文疾病诊断信息进行自然语言处理，得到一个或多个待编码名称；基于标准术语库和扩充术语库，查找与待编码名称相匹配的标准术语或扩充术语，并将匹配成功的标准术语或扩充术语的编码，确定为待编码名称的编码；其中，标准术语是所要参考的ICD版本中包含的各个疾病术语，扩充术语是标准术语的俗称、别称或缩略语，或标准术语的子类疾病术语，或新产生的疾病术语。通过本发明上述实施方式的方法，可以自动完成ICD编码，无需人工参与，具有编码速度高、成本低、正确率高等优点。此外，本发明的实施方式还提供了一种自动化的国际疾病分类编码系统。

Description

一种自动化的国际疾病分类编码方法及系统

技术领域

本发明的实施方式涉及疾病分类领域，具体地涉及一种自动化的国际疾病分类编码方法及系统。

背景技术

国际疾病分类(InternationalClassificationofDiseases，ICD)是根据疾病的某些特征，按照规则将疾病分门别类，并用编码的方法来表示的系统，在我国的应用已有二十多年。目前全世界使用最广泛的ICD版本是世界卫生组织WHO于1992年公布的ICD-10。根据WHO的规定，WHO只提供4位编码的ICD-10，各国或地区可以根据需要对ICD-10进行扩展形成本地化版本(例如可以通过添加扩展码来增加疾病数量)。

ICD使得疾病术语得以标准化和格式化，是医学信息化、医疗信息管理的应用基础，也是医疗保险结算的重要依据，因此，有效使用ICD对医疗卫生体系的发展具有非常重要的作用。

在ICD应用领域，目前主要分为人工编码和计算机辅助编码两种方式。在我国，人工编码方式一直沿用至今，大医院的病案室都设有专业编码员岗位，通过专业学习和培训可基于编码规范，借助字典库进行查询，选择跟医生的诊断结果相同或相近的编码。随着网络和信息化的发展，计算机辅助编码已成为该领域的热点，并具有很强的发展潜力，国内目前多采用构建疾病分类路径和编码库，配置在信息系统中，根据人工输入的诊断结果自动进行引导和推荐编码，由人工进行选择确认。

发明内容

无论是目前的人工编码方式还是计算机辅助编码方式，都需要人工参与才能完成，而这种人工参与过程存在效率低、成本高的缺点，且不同的人参与可能会输出不同的编码结果，不利于医疗信息管理、医疗保险结算的审核等工作的进行。

另外，由于医师输入的中文疾病诊断信息属于自然语言，格式复杂多样，没有统一的标准(例如，采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等)，使得编码难度进一步增加，出错率也更高。

为此，非常需要一种改进的ICD编码方式。

在本上下文中，本发明的实施方式期望提供一种自动化的国际疾病分类编码方法及系统。

在本发明实施方式的第一方面中，提供了一种自动化的国际疾病分类编码方法，包括：

步骤1，输入中文疾病诊断信息；

步骤2，对所述中文疾病诊断信息进行自然语言处理，得到一个或多个待编码名称；

步骤3，基于标准术语库和扩充术语库，查找与所述待编码名称相匹配的标准术语或扩充术语，并将匹配成功的标准术语或扩充术语的编码，确定为所述待编码名称的编码；

其中，所述标准术语库按照如下方式创建：

确定所要参考的国际疾病分类ICD版本；

将所述所要参考的ICD版本中包含的各个疾病术语，确定为标准术语；

根据所述所要参考的ICD版本，确定每一个标准术语的编码；

存储所述标准术语及其编码，得到标准术语库；

其中，所述扩充术语库按照如下方式创建：

将未包含于所述所要参考的ICD版本中的以下各种类型确定为扩充术语：所述标准术语的俗称\别称\缩略语，所述标准术语的子类疾病术语，以及在所述所要参考的ICD版本公布之后新产生的疾病术语；

当所述扩充术语为任意一个所述标准术语的俗称\别称\缩略语时，将该标准术语的编码赋予该扩充术语；

当所述扩充术语为任意一个所述标准术语的子类疾病术语或所述新产生的疾病术语时，将与该扩充术语的属种关系最接近的标准术语的编码赋予该扩充术语；

存储所述扩充术语及其编码，得到扩充术语库。

在本发明实施方式的第二方面中，提供了一种自动化的国际疾病分类编码系统，包括：

标准术语库创建模块，用于根据所要参考的国际疾病分类版本，将所述所要参考的ICD版本中包含的各个疾病术语，确定为标准术语；根据所述所要参考的ICD版本，确定每一个标准术语的编码；存储所述标准术语及其编码，得到标准术语库；

扩充术语库创建模块，用于将未包含于所述所要参考的ICD版本中的以下各种类型确定为扩充术语：所述标准术语的俗称\别称\缩略语，所述标准术语的子类疾病术语，以及在所述所要参考的ICD版本公布之后新产生的疾病术语；判断所述扩充术语为任意一个所述标准术语的俗称\别称\缩略语时，将该标准术语的编码赋予该扩充术语；判断所述扩充术语为任意一个所述标准术语的子类疾病术语或所述新产生的疾病术语时，将与该扩充术语的属种关系最接近的标准术语的编码赋予该扩充术语；存储所述扩充术语及其编码，得到扩充术语库；

导入模块，用于输入中文疾病诊断信息；

数据处理模块，用于对所述中文疾病诊断信息进行自然语言处理，得到一个或多个待编码名称；

编码模块，用于基于所述标准术语库和所述扩充术语库，查找与所述待编码名称相匹配的标准术语或扩充术语，并将匹配成功的标准术语或扩充术语的编码，确定为所述待编码名称的编码。

根据本发明实施方式的国际疾病分类编码方法及系统，本发明充分考虑了医师输入的中文疾病诊断信息属于自然语言、格式复杂多样、没有统一的标准等特点，利用预先依据ICD-9-CM-3所建立的多种词典对中文手术操作信息字符串进行匹配，以便自动、快速、准确地识别出手术操作名称并对其编码，整个过程无需人工参与，可以自动完成ICD编码，无需人工参与，提高了编码速度，降低了编码成本，并保证了编码正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了本发明的实施方式可以在其中实施的应用场景；

图2A示意性地示出了本发明示例性方法中ICD编码方法的流程示意图；

图2B示意性地示出了本发明示例性方法中创建标准术语库的流程示意图；

图2C示意性地示出了本发明示例性方法中数据表形式的标准术语库；

图2D示意性地示出了本发明示例性方法中创建扩充术语库的流程示意图；

图2E示意性地示出了本发明示例性方法中数据表形式的扩充术语库；

图3A示意性地示出了本发明实施例一中ICD编码方法的流程示意图；

图3B示意性地示出了本发明实施例一中创建假定分类术语库的流程示意图；

图3C示意性地示出了本发明实施例一中数据表形式的假定分类术语库；

图4A示意性地示出了本发明实施例二中ICD编码方法的流程示意图；

图4B示意性地示出了本发明实施例二中创建多编码术语库的流程示意图；

图4C示意性地示出了本发明实施例二中数据表形式的多编码术语库；

图5A示意性地示出了本发明实施例三中ICD编码方法的流程示意图；

图5B示意性地示出了本发明实施例三中创建合并术语库的流程示意图；

图5C示意性地示出了本发明实施例三中数据表形式的合并术语库；

图6A示意性地示出了本发明实施例四中ICD编码方法的流程示意图；

图6B示意性地示出了本发明实施例四中数据表形式的无编码术语库；

图7示意性地示出了本发明示例性设备中ICD编码系统的结构框图；

图8示意性地示出了本发明示例性设备中另一种ICD编码系统的结构框图；

图9示意性地示出了本发明示例性设备中又一种ICD编码系统的结构框图；

图10示意性地示出了本发明示例性设备中再一种ICD编码系统的结构框图；

图11示意性地示出了本发明示例性设备中再一种ICD编码系统的结构框图；

图12A示意性地示出了本发明实施例五中对中文疾病诊断信息进行自然语言处理的流程图；

图12B示意性地示出了疾病程度术语词典包括的部分疾病程度术语；

图12C示意性地示出了疾病并发术语词典包括的部分疾病并发术语；

图12D示意性地示出了发病部位术语词典包括的部分发病部位术语；

图12E示意性地示出了本发明实施例五中切分第一类型子字符串和第二类型子字符串的流程图；

图12F示意性地示出了一种切分规则；

图12G示意性地示出了另一种切分规则；

图12H示意性地示出了再一种切分规则；

图12I示意性地示出了再一种切分规则；

图12J示意性地示出了再一种切分规则；

图12K示意性地示出了再一种切分规则；

图13示意性地示出了本发明实施例六中查找与待编码名称相匹配的标准术语或扩充术语的流程图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种自动化的国际疾病分类编码方法及系统。

在本文中，需要理解的是本文所称的“临床”是指医生亲临床前给病人诊断和治疗疾病，泛指医疗机构的业务实践。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，医学领域里，不同地域、不同单位或不同从业人员在使用疾病术语时，普遍存在所采用的疾病术语标准不同(例如同一疾病术语具有多样表述)，以及疾病术语标准覆盖不全面(例如不能覆盖新生术语)等情况，导致产生的中文疾病诊断信息(例如基本医疗保险结算单记载的信息)中出现大量无章可循的疾病术语，给基于中文疾病诊断信息的ICD编码工作带来极大的障碍，这种情况下必须借助于人工分辨这些无章可循的疾病术语，也就是目前常用的人工编码方式或计算机辅助编码方式，但这种有人工参与的ICD编码方式存在效率低、成本高、不同的人参与可能会输出不同的编码结果等缺点。

为此，本发明提供了一种自动化的ICD编码机制。ICD编码过程可以是：输入中文疾病诊断信息；对中文疾病诊断信息进行自然语言处理，得到一个或多个待编码名称；基于标准术语库和扩充术语库，查找与待编码名称相匹配的标准术语或扩充术语，并将匹配成功的标准术语或扩充术语的编码，确定为所述待编码名称的编码。

其中，标准术语库根据所要参考的ICD版本创建，包括标准术语及其编码，标准术语是所要参考的ICD版本中包含的疾病术语，标准术语的编码与其在所要参考的ICD版本中的编码一致。扩充术语库包括扩充术语及其编码，扩充术语是未包含于所要参考的ICD版本中的以下各种类型：标准术语的俗称\别称\缩略语，标准术语的子类疾病术语，或在所要参考的ICD版本公布之后新产生的疾病术语，扩充术语的编码为与扩充术语同义的标准术语的编码，或者为与扩充术语的属种关系最接近的标准术语的编码。

在本发明中，标准术语库涵盖了所要参考的ICD版本中记载的全部疾病术语及其编码，扩充术语库则涵盖了未包含于所要参考的ICD版本中的一些疾病术语，这些疾病术语包括一些地区或单位经常使用的疾病俗称、别称或缩略语，或ICD版本中记载的疾病术语的子类疾病术语，或随着医学技术的发展而新产生的一些疾病术语。标准术语库和扩充术语库涵盖了绝大多数中文疾病诊断信息中可能出现的疾病术语，基本满足了自动分辨中文疾病诊断信息中的疾病术语的要求，从而使得自动化的ICD编码得以实现。整个ICD编码过程，无需人工参与，具有编码速度快、成本低、正确率高等优点。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1，其示出了本发明的实施方式可以在其中实施的应用场景。

图1中所示的场景包括医疗信息处理终端100和医疗信息处理服务器200。医疗信息处理终端100可以是医生所用的台式电脑、笔记本电脑、平板电脑、个人数字助理等设备。医疗信息处理服务器200可以是运行医院信息管理系统的服务器等。医疗信息处理终端100与医疗信息处理服务器200之间例如可以通过医院局域网等进行通信连接。

当需要基于中文疾病诊断信息进行ICD编码时，可以在医疗信息处理终端100处，更具体地，例如是在医疗信息处理终端100上安装的软件界面上输入中文疾病诊断信息，或者，利用U盘、移动硬盘等数据存储设备向医疗信息处理终端100中导入大批量的中文疾病诊断信息。医疗信息处理服务器200接收这些中文疾病诊断信息，并通过对这些中文疾病诊断信息进行自然语言处理，得到待编码名称；然后，医疗信息处理服务器200基于标准术语库和扩充术语库，查询与待编码名称相匹配的标准术语或扩充术语，最终将与待编码名称相匹配的标准术语的编码或与待编码名称相匹配的扩充术语的编码，确定为待编码名称的编码。

示例性方法

下面结合图1的应用场景，参考图2A至图2E来描述根据本发明示例性实施方式的ICD编码方法。

需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

例如，参见图2A所示，为本发明一实施方式的ICD编码方法的流程图及标准术语库和扩充术语库。

如图2A所示，该ICD编码方法可以包括：

步骤S101，输入中文疾病诊断信息。

可选地，中文疾病诊断信息可以是医务人员输入的病历信息，也可以是基本医疗保险结算单中记载的信息。

步骤S102，对中文疾病诊断信息进行自然语言处理，得到一个或多个待编码名称。

具体地，该步骤可以基于中文疾病诊断信息的特点，对中文疾病诊断信息进行机械分词等处理，进而从中文疾病诊断信息中解析出疾病术语，这些从该中文疾病诊断信息中解析出的疾病术语即为待编码名称。

以下将通过实施例五介绍本示例性方法如何对中文疾病诊断信息进行自然语言处理的一种具体实施例。

步骤S103，基于标准术语库和扩充术语库，查找与待编码名称相匹配的标准术语或扩充术语，并将匹配成功的标准术语或扩充术语的编码，确定为待编码名称的编码。

本实施例中，标准术语库按照如图2B所示的步骤创建：

步骤A1，确定所要参考的国际疾病分类ICD版本。

可选地，所要参考的国际疾病分类ICD版本可以是WHO公布的ICD版本(例如WHO于1992年公布的ICD-10)，也可以是对WHO公布的ICD版本进行了扩展的各种本地化ICD版本(例如中国卫生部推荐使用的ICD-10中文版)。具体实施时，可根据实际需要选择合适的ICD版本作为参考，本发明对此不作限定。

步骤A2，将所要参考的ICD版本中包含的各个疾病术语，确定为标准术语。

步骤A3，根据所要参考的ICD版本，确定每一个标准术语的编码。

具体地，由于所要参考的ICD版本中明确记载了每个疾病术语的编码，因此每个标准术语的编码可以直接从中确定。

步骤A4，存储标准术语及其编码，得到标准术语库。

可选地，标准术语库可以采用数据表或树形结构的形式存储标准术语及其编码。

ICD是按照类别、属种等关系记载疾病术语，疾病术语间的类别、属种等关系有利于提高查找特定疾病术语的速度。基于这一情况，在创建标准术语库时，就可以按照所要参考的ICD版本中各个疾病术语的类别、属种等关系创建数据表或树形结构，以使标准术语库中存储的标准术语结构清晰、便于查找，有利于提高匹配待编码名称的速度。

可选地，还可以实时修改标准术语库，例如，当所参考的ICD版本有新的更新版本时，根据更新版本，增加、修改或删除标准术语，以使标准术语库更符合ICD编码的需要。

图2C所示为本实施例的一树形结构形式的标准术语库。

本实施例中，扩充术语库按照如图2D的步骤创建：

步骤B1，将未包含于所述所要参考的ICD版本中的以下各种类型确定为扩充术语：所述标准术语的俗称\别称\缩略语，所述标准术语的子类疾病术语，以及在所述所要参考的ICD版本公布之后新产生的疾病术语。

在医学领域里，不同地域、不同单位或不同从业人员在使用疾病术语时，可能并非是ICD版本中记载的疾病术语(即标准术语)，而是标准术语的俗称、别称或缩略语，或者是标准术语更细化的名称(即子类疾病名称)等；另外，随着医学技术的发展，会不断有新的疾病术语出现，以往发布的ICD版本就会出现覆盖不到新产生的疾病术语的现象。考虑到这些情况，可在实施本方法的具体地域或具体单位，统计实际工作中用到的标准术语的俗称、别称或缩略语，并且统计新产生的疾病术语，将这些作为扩充术语存入扩充术语库中，以满足ICD编码的需要。

步骤B2，当扩充术语为任意一个标准术语的俗称、别称或缩略语时，将该标准术语的编码赋予该扩充术语；当所述扩充术语为任意一个标准术语的子类疾病术语或所述新产生的疾病术语时，将与该扩充术语的属种关系最接近的标准术语的编码赋予该扩充术语。

扩充术语是标准术语的俗称、别称或缩略语时，扩充术语与标准术语是同义关系，因此，可直接将标准术语的编码作为扩充术语的编码。

扩充术语是任意一个标准术语的子类疾病术语时，为了编码需要，可根据临床经验，确定与子类疾病术语的属种关系最接近的标准术语，将该标准术语的编码作为其子类疾病术语的编码。

由于以往发布的ICD版本不能现覆盖到新产生的疾病术语，为了编码需要，可根据临床经验，查找与这些新产生的疾病术语的属种关系最接近的标准术语，将查找到的标准术语的编码作为这些新产生的疾病术语的编码。

步骤B3，存储所述扩充术语及其编码，得到扩充术语库。

可选地，扩充术语库可以采用数据表或树形结构的形式存储扩充术语及其编码。

可选地，还可以实时修改扩充术语库，例如，增加标准术语的俗称、别称或缩略语，增加新产生的疾病术语，以使扩充术语库涵盖更多的扩充术语，满足ICD编码的需要。

图2E所示为本实施例的一数据表形式的扩充术语库，图2E中阴影部分为解释说明内容，可以不出现在实际的扩充术语库中。

可选地，具体实施步骤S103时，可以采用遍历标准术语库和扩充术语库的方式，查找与待编码名称匹配的标准术语或扩充术语。考虑到遍历术语库的时间成本可能较高，可选地，也可以先根据待编码名称的语义，判断待编码名称可能的属种关系，然后到具体的数据表或树形结构中查找能够匹配的标准术语或扩充术语。

以下将通过实施例六介绍本示例性方法如何查找与待编码名称相匹配的标准术语或扩充术语的一种具体实施例。

本实施例中，标准术语库和扩充术语库涵盖了绝大多数中文疾病诊断信息中可能出现的疾病术语，基本满足了自动分辨中文疾病诊断信息中的疾病术语的要求，从而使得自动化的ICD编码得以实现。本实施例提供的ICD编码方法，无需人工参与，具有编码速度快、成本低、正确率高等优点。

实施例一

参见图3A至图3C所示，为本发明一实施例的ICD编码方法。

如图3A所示，该ICD编码方法可以包括：

步骤S201，输入中文疾病诊断信息。

步骤S202，对所述中文疾病诊断信息进行自然语言处理，得到一个或多个待编码名称。

步骤S203，基于标准术语库、扩充术语库和假定分类术语库，查找与所述待编码名称相匹配的标准术语、扩充术语或假定分类术语，并将匹配成功的标准术语、扩充术语或假定分类术语的编码，确定为所述待编码名称的编码。

其中，本实施例与示例性方法采用相同的方法创建标准术语库和扩充术语库，此处不再赘述。

本实施例中，假定分类术语库按照如图3B所示的步骤创建：

步骤C1，将未包含于所要参考的ICD版本中、且与任意一个标准术语相关、且临床上默认等同于该标准术语、且并非该标准术语的俗称\别称\缩略语的疾病术语，确定为假定分类术语。

步骤C2，将与假定分类术语相关的该标准术语的编码，赋予该假定分类术语。

医学领域经常有这种情况出现：某种疾病分为多种类型，其中一种为临床常见类型，其他均为临床少见类型，这种情况下，医务人员在填写或阅读病案时常将该疾病的统称默认等同于这种临床常见类型的名称，当被诊断为那些临床少见类型时，则会写清楚临床少见类型的名称。例如，二尖瓣狭窄分为风湿性二尖瓣狭窄和非风湿性二尖瓣狭窄，临床上常见的是风湿性二尖瓣狭窄，非风湿性二尖瓣狭窄则非常少见，医务人员在填写或阅读病案时通常将“二尖瓣狭窄”默认等同于“风湿性二尖瓣狭窄”，而只有当诊断为非风湿性二尖瓣狭窄时，才会在填写病案时使用“非风湿性二尖瓣狭窄”，以便区分。

然而ICD中可能没有记载这种疾病的统称，而是记载了其各种具体类型，例如，ICD中没有记载“二尖瓣狭窄”这一疾病术语，而是记载了“风湿性二尖瓣狭窄”和“非风湿性二尖瓣狭窄”。这种情况下，基于中文疾病诊断信息中出现的疾病统称进行ICD编码时，就会出现不知将其归为哪一种具体类型的状况。

本实施例中，将以上这种情况中疾病的统称确定为假定分类术语。

在进行ICD编码时，若遇到这类假定分类术语，可以将其假定为该疾病的临床常见类型，并将该疾病的临床常见类型的编码赋予该假定分类术语。

例如，假定分类术语为“二尖瓣狭窄”，其编码与“风湿性二尖瓣狭窄”的编码相同。

步骤C3，存储假定分类术语及其编码，得到假定分类术语库。

可选地，假定分类术语库可以采用数据表或树形结构的形式存储假定分类术语及其编码。

可选地，还可以实时修订假定分类术语库，例如，增加新的假定分类术语，或删除已有的假定分类术语，以使假定分类术语库更符合ICD编码的需要。

图3C所示为本实施例的一数据表形式的假定分类术语库，图3C中阴影部分为解释说明内容，可以不出现在实际的假定分类术语库中。

可选地，具体实施步骤S203时，可以采用遍历标准术语库、扩充术语库和假定分类术语库的方式，查找与待编码名称匹配的标准术语或扩充术语或假定分类术语。

考虑到遍历术语库的时间成本，可选地，也可以先根据待编码名称的语义，判断待编码名称可能的属种关系，然后到具体的数据表或树形结构中查找能够匹配的标准术语或扩充术语或假定分类术语。

本实施例在标准术语库和扩充术语库的基础上，又增加了假定分类术语库，将中文疾病诊断信息中出现的假定分类术语考虑在内，更大范围地涵盖了中文疾病诊断信息中可能出现的疾病术语，为满足自动分辨中文疾病诊断信息中的疾病术语提供了更加的完备的基础，有利于实现自动化的ICD编码。本实施例提供的ICD编码方法，无需人工参与，具有编码速度快、成本低、正确率高等优点。

实施例二

参见图4A至图4B所示，为本发明一实施例的ICD编码方法。

如图4A所示，该ICD编码方法可以包括：

步骤S301，输入中文疾病诊断信息。

步骤S302，对中文疾病诊断信息进行自然语言处理，得到一个或多个待编码名称。

步骤S303，基于标准术语库、扩充术语库和多编码术语库，查找与待编码名称相匹配的标准术语、扩充术语或多编码术语，并将匹配成功的标准术语、扩充术语或多编码术语的编码，确定为待编码名称的编码。

可选地，该步骤还可以基于假定分类术语库，查找与所述待编码名称相匹配的假定分类术语，并将匹配成功的假定分类术语的编码，确定为待编码名称的编码，其中，本实施例可以与实施例一采用相同的方法创建假定分类术语库，此处不再赘述。

本实施例中，多编码术语库按照如图4B所示的步骤创建：

步骤D1，将未包含于所述所要参考的ICD版本中、且由至少两个不同的所述标准术语组成的疾病术语，确定为多编码术语。

步骤D2，将组成所述多编码术语的全部标准术语的编码组合在一起，作为所述多编码术语的编码。

医学领域经常有多种疾病并发出现的情况，对应的疾病术语可能会是多个标准术语组合在一起的结果。考虑到这种情况，本实施例将这类疾病术语作为多编码术语存入多编码术语库中，并按照组成该多编码术语的多个标准术语的顺序，将这多个标准术语的编码依次组合后作为该多编码术语的编码。

例如对于多编码术语“二尖瓣狭窄合并心房颤动伴左房血栓”，组成该多编码术语的多个标准术语分别为“二尖瓣狭窄”、“心房颤动”、“心房血栓”，其中，“二尖瓣狭窄”的ICD编码为I05.000，“心房颤动”的ICD编码为I487.x01，“心房血栓”的ICD编码为I51.302，则“二尖瓣狭窄合并心房颤动伴左房血栓”的ICD编码为I05.0I487.x01I51.302。

步骤D3，存储所述多编码术语及其编码，得到多编码术语库。

可选地，多编码术语库可以采用数据表或树形结构的形式存储多编码术语及其编码。

可选地，还可以实时修订多编码术语库，例如，增加新的多编码术语，或删除已有的多编码术语，以使多编码术语库更符合ICD编码的需要。

图4C所示为本实施例的一数据表形式的多编码术语库，图4C中阴影部分为解释说明内容，可以不出现在实际的假定分类术语库中。

可选地，具体实施步骤S303时，可以采用遍历标准术语库、扩充术语库和多编码术语库的方式，查找与待编码名称匹配的标准术语或扩充术语或多编码术语。考虑到遍历术语库的时间成本，可选地，也可以先根据待编码名称的语义，判断待编码名称可能的属种关系，然后到具体的数据表或树形结构中查找能够匹配的标准术语或扩充术语或多编码术语。

本实施例在标准术语库和扩充术语库的基础上，又增加了多编码术语库，将中文疾病诊断信息中出现的多编码术语考虑在内，更大范围地涵盖了中文疾病诊断信息中可能出现的疾病术语，为满足自动分辨中文疾病诊断信息中的疾病术语提供了更加的完备的基础，有利于实现自动化的ICD编码。本实施例提供的ICD编码方法，无需人工参与，具有编码速度快、成本低、正确率高等优点。

实施例三

参见图5A至图5B所示，为本发明一实施例的ICD编码方法。

如图5A所示，该ICD编码方法可以包括：

步骤S401，输入中文疾病诊断信息。

步骤S402，对中文疾病诊断信息进行自然语言处理，得到一个或多个待编码名称。

步骤S403，基于合并术语库，对步骤S402得到的一个或多个待编码名称进行预处理，判断所述一个或多个待编码名称中，是否包含任意一个或多个合并术语的全部合并对象，若包含，则将所述任意一个或多个合并术语的全部合并对象替换成对应的合并术语。

本实施例中，合并术语库按照如图5B所示的步骤创建：

步骤E1，将可以替代至少两个同时出现的标准术语的单个标准术语确定为合并术语，确定为合并术语；并将该至少两个不同的标准术语中的每一个确定为该合并术语的合并对象。

步骤E2，根据所述所要参考的ICD版本，确定每一个合并术语的编码。

步骤E3，存储所述合并术语及其编码、以及所述合并术语的全部合并对象，得到合并术语库。

ICD中，若多个疾病术语同时出现，可以由另一个疾病术语来替代这些同时出现的多个疾病术语，在ICD编码时，ICD规定只输出该单个疾病术语的编码即可。在本实施例中，将属于以上情况，可以替代其他多个同时出现的疾病术语的单个疾病术语确定为合并术语，并将可以被替代的每一个疾病术语确定为合并对象。

例如，在疾病类别中，若“胃溃疡”与“上消化道出血”同时出现，则可以由“胃溃疡伴出血”来替代，ICD编码时，只需输出“胃溃疡伴出血”的编码即可。

考虑到以上情况，本实施例在对中文疾病诊断信息进行自然语言处理而得到一个或多个待编码名称之后，增加对这些待编码名称预处理的步骤，即查找这些待编码名称中是否存在可以被替代的合并对象，若其中包含某一个合并术语对应的全部合并对象，则利用这一合并术语替代其全部合并对象。

可选地，合并术语库可以采用数据表或树形结构的形式存储合并术语及其编码。

可选地，还可以实时修改合并术语库，例如，当所参考的ICD版本有新的更新版本时，根据更新版本，增加、修改或删除合并术语，以使合并术语库更符合ICD编码的需要。

图5C所示为本实施例的一数据表形式的合并术语库，图5C中阴影部分为解释说明内容，可以不出现在实际的合并术语库中。

步骤S404，基于已创建的标准术语库、扩充术语库、假定分类术语库和多编码术语库，查找与步骤S403预处理后的待编码名称相匹配的标准术语、扩充术语、假定分类术语或多编码术语，并将匹配成功的标准术语、扩充术语、假定分类术语或多编码术语的编码，确定为待编码名称的编码。

其中，本实施例与示例性方法采用相同的方法创建标准术语库和扩充术语库，与实施例一采用相同的方法创建假定分类术语库，与实施例二采用相同的方法创建多编码术语库，此处均不再赘述。

可选地，具体实施步骤S403时，可以采用遍历标准术语库、扩充术语库、假定分类术语库和多编码术语库的方式，查找与待编码名称匹配的标准术语或扩充术语或假定分类术语库或多编码术语。考虑到遍历术语库的时间成本，可选地，也可以先根据待编码名称的语义，判断待编码名称可能的属种关系，然后到具体的数据表或树形结构中查找能够匹配的标准术语或扩充术语或假定分类术语或多编码术语。

本实施例在标准术语库和扩充术语库的基础上，又增加了合并术语库，将中文疾病诊断信息中出现的合并术语考虑在内，更大范围地涵盖了中文疾病诊断信息中可能出现的疾病术语，为满足自动分辨中文疾病诊断信息中的疾病术语提供了更加的完备的基础，有利于实现自动化的ICD编码。本实施例提供的ICD编码方法，无需人工参与，具有编码速度快、成本低、正确率高等优点。

实施例四

参见图6A所示，为本发明一实施例的ICD编码方法。

如图6A所示，该ICD编码方法可以包括：

步骤S501，输入中文疾病诊断信息。

步骤S502，对中文疾病诊断信息进行自然语言处理，得到一个或多个待编码名称。

步骤S503，基于合并术语库，对步骤S502得到的一个或多个待编码名称进行预处理，判断一个或多个待编码名称中，是否包含任意一个或多个合并术语的全部合并对象，若包含，则将任意一个或多个合并术语的全部合并对象替换成对应的合并术语。

步骤S504，基于标准术语库、扩充术语库、假定分类术语库、多编码术语库，查找与待编码名称相匹配的标准术语、扩充术语、假定分类术语、多编码术语，并将匹配成功的标准术语、扩充术语、假定分类术语、多编码术语的编码，确定为待编码名称的编码；将未查找到相匹配的标准术语、扩充术语、假定分类术语、多编码术语的待编码名称，确定为未确定编码的待编码名称；

步骤S505，将未确定编码的待编码名称与无编码术语库中的无编码术语进行匹配，若匹配成功，则执行预设的处理步骤以表示不对该未确定编码的待编码名称进行编码(例如输出为空，或者，显示“无码可编”等字符信息)，若匹配失败，则将该未确定编码的待编码名称发送至人工处理平台进行人工处理。

本实施例中，无编码术语库包括若干无编码术语。这些无编码术语包括：预设的中医类术语；预设的手术操作术语；预设的药品名称术语；预设的医疗耗材术语；以及预设的检查检验术语。

图6B所示为本实施例的一数据表形式的无编码术语库，图6B中阴影部分为解释说明内容，可以不出现在实际的无编码术语库中。

实际的中文疾病诊断信息中往往会涉及医疗领域的多种概念，不仅仅是疾病术语，还可能是手术操作术语、药品名称术语、医疗耗材术语、检查检验术语等，但本发明只是涉及对疾病的分类编码，并且国际疾病分类ICD版本中没有对手术操作术语、药品名称术语、医疗耗材术语、检查检验术语等进行分类编码，因此，若中文疾病诊断信息中出现了手术操作术语、药品名称术语、医疗耗材术语、检查检验术语，不予编码(即无码可编)。另外，国际疾病分类ICD版本中也没有对中医类术语进行分类编码，因此，若中文疾病诊断信息中出现了中医类术语，也不予编码(即无码可编)。

对于这类不予编码的术语，可以输出一预先设定的结果(例如可以输出“无码可编”之类的结果)，以表明已识别出其为手术操作术语、药品名称术语、医疗耗材术语、检查检验术语或中医类术语，只是没有ICD码可以赋予。

本实施例中，对于未查找到相匹配的标准术语、扩充术语、假定分类术语、多编码术语的待编码名称，若能查找到相匹配的无编码术语，则说明其属于手术操作术语、药品名称术语、医疗耗材术语、检查检验术语或中医类术语中的一种，不予编码，而对于不能查找到相匹配的无编码术语，说明其不属于上述类型，对于这类待编码名称，本实施例将其发送给人工处理平台，由人工继续处理，具体处理过程，本发明对其不作限定。

实施例五

如图12A所示，为适用于本发明示例性方法的一种对中文疾病诊断信息进行自然语言处理以得到待编码名称的具体实施方式，包括：

步骤S61，对中文疾病诊断信息字符串进行预处理，得到预处理后的中文疾病诊断信息字符串。

该步骤的目的是将中文疾病诊断信息字符串中的字符转换成统一的编码格式，以便后续处理。

可选地，该步骤可以按照如下具体方式实施：对中文疾病诊断信息字符串中的非汉字进行格式归一化处理(例如，将中文疾病诊断信息字符串中的符号全部转换为半角格式或全部转换为全角格式，将其中的英文字母全部转换为大写格式或小写格式)；并删除中文疾病诊断信息字符串中的非医学术语。其中非医学术语由一预先建立的非医学术语词典提供，且非医学术语为起备注作用的词语或描述性语句(例如“待查、原因、温馨提示、建议、如病情加重请随时就诊”等)。

步骤S62，基于预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典，将预处理后的中文疾病诊断信息字符串切分成第一类型子字符串和/或第二类型子字符串。

其中，第一类型子字符串和第二类型子字符串具有独立语义，即所表示的医疗信息不受其之前或之后的字符影响，且第一类型子字符串能够与本体词典中的本体直接匹配，第二类型子字符串不能够与本体词典中的本体直接匹配。

本体词典包括前述标准术语库和扩充术语库，具体包括标准术语和扩充术语以及相应的编码，其中，标准术语和扩充术语被视作本体词典中的本体。

需要说明的是，当本发明提供的自动化的国际疾病分类编码方法中使用到了前述的假定分类术语库和/或多编码术语库时，本体词典也应当包括假定分类术语库和/或多编码术语库(此时，假定分类术语和/或多编码术语也被视作本体词典中的本体)，以使得切分出的第一类型子字符串或第二类型子字符串作为待编码名称时能够与假定分类术语或多编码术语相匹配。

疾病程度术语词典包括若干疾病程度术语，疾病程度术语是用于描述疾病急慢性程度或疾病严重程度或病理类型或临床分期等的词语。如图12B所示为疾病程度术语词典包括的部分疾病程度术语。

疾病并发术语词典包括若干疾病并发术语，疾病并发术语是用于描述至少两种疾病并发出现的词语。如图12C所示为疾病并发术语词典包括的部分疾病并发术语。

发病部位术语词典包括若干发病部位术语，发病部位术语是用于描述疾病发病部位的词语。如图12D所示为发病部位术语词典包括的部分发病部位术语。

该步骤的目的是将中文疾病诊断信息切分成具有独立语义的子字符串(第一类型子字符串或第二类型子字符串)，以有效避免将具有关联关系的多个字符分别进行识别从而导致识别错误的问题。

步骤S63，将切分出的第一类型子字符串和第二类型子字符串确定为待编码名称。

将切分出的第一类型子字符串和第二类型子字符串确定为待编码名称之后，在后续利用实施例三中的合并术语库对待编码名称进行预处理时，由于第一类型子字符串和第二类型子字符串对应的本体可能是扩充术语，而合并术语库中的合并对象均为标准术语，因此，需将第一类型子字符串和第二类型子字符串所对应的扩充术语转换为相应的标准术语，然后再利用合并术语库进行预处理。

如图12E所示，步骤S62具体包括：

步骤S70，判断预处理后的中文疾病诊断信息字符串是否包含符号；如果包含符号，则执行步骤S71；如果未包含符号，则执行步骤S72。

步骤S71，将预处理后的中文疾病诊断信息字符串中每相邻两个符号之间的字符作为整体与本体词典中的本体进行匹配；若匹配成功，则执行步骤S711；若匹配失败，则执行步骤S712。

步骤S711，将该相邻两个符号之间的字符切分出来作为第一类型子字符串。

步骤S712，该相邻两个符号及其之间的字符确定为暂不切分字符串，然后执行步骤S73。

步骤S71、步骤S711、步骤S712依据的处理规则是：将相邻符号之间的全部字符作为整体与本体进行匹配，只有匹配时才切分，否则暂时不予切分。

例如图12F所示对“重度关节炎，并积血；A型胸腺瘤；冠心病”的切分，其中，“重度关节炎，并积血”、“A型胸腺瘤”和“冠心病”均为符号之间的全部字符，并且可以查找到相匹配的本体，因此，分别被切分出来。

步骤S72，采用机械分词法将预处理后的中文疾病诊断信息字符串与本体词典中的本体进行匹配；若预处理后的中文疾病诊断信息字符串中的所有字符均能够与本体匹配，则执行步骤S721；若预处理后的中文疾病诊断信息字符串中存在未能与本体匹配的单个字符或多个连续的字符，则执行步骤S722。

步骤S721，依据所匹配的本体将预处理后的中文疾病诊断信息字符串中的字符切分出来作为第一类型子字符串。

步骤S722，判断未能与本体匹配的单个字符或多个连续的字符是否是疾病程度术语、疾病并发术语或发病部位术语，如果是疾病程度术语、疾病并发术语或发病部位术语，则执行步骤S7221；如果不是疾病程度术语、疾病并发术语或发病部位术语，则执行步骤S7222。

步骤S72、步骤S721、步骤S722依据的处理规则是：采用机械分词法将预处理后的中文疾病诊断信息字符串中的字符与本体进行匹配，只有全部字符都能查找到相匹配的本体时才切分，否则暂时不予切分。

例如图12G所示为对“高血压冠心病”的切分，采用机械分词法可分别查找到“高血压”和“冠心病”相匹配的本体，因此，分别被切分出来。

步骤S72采用的机械分词法可以是正向最大匹配型，逆向最大匹配型，或最少切分型。具体的切分过程，本实施例不再赘述。

步骤S7221，根据未能与本体匹配的单个字符或多个连续的字符在预处理后的中文疾病诊断信息字符串中的位置，将未能与本体匹配的单个字符或多个连续的字符与其之前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字符串，并将其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子字符串。

步骤S7222，将预处理后的中文疾病诊断信息字符串整体切分出来作为第二类型子字符串。

步骤S7221、步骤S7222依据的处理规则是：如果未能与本体匹配的单个字符或多个连续的字符为疾病程度术语、疾病并发术语或发病部位术语，则执行切分，并且切分时是将其与其之前或之后的字符合并切分出来。

例如图12H所示为对“前列腺增生伴急性尿潴留糖尿病”的切分，采用机械分词法可分别查找到“前列腺增生”、“急性尿潴留”和“糖尿病”相匹配的本体，其中的“伴”为疾病并发术语，因此，将“前列腺增生”与“急性尿潴留”合并切分出来，“糖尿病”单独切分出来。

例如图12I所示为对“前列腺增生急性肾性贫血”的切分，采用机械分词法可分别查找到“前列腺增生”和“肾性贫血”相匹配的本体，其中的“急性”为疾病程度术语，因此，将“前列腺增生”单独切分出来，将“急性”和“肾性贫血”合并切分出来。

例如图12J所示为对“亚急性支气管炎前列腺增生”的切分，采用机械分词法可分别查找到“支气管炎”和“前列腺增生”相匹配的本体，其中的“亚急性”为疾病程度术语，且“亚急性”在预处理后的中文疾病诊断信息字符串中的位置为开头，因此，将“亚急性”和“支气管炎”合并切分出来，将“前列腺增生”单独切分出来。

例如图12K所示为对“支气管炎前列腺癌晚期”的切分，采用机械分词法可分别查找到“支气管炎”和“前列腺癌”相匹配的本体，其中的“晚期”为疾病程度术语，且“晚期”在预处理后的中文疾病诊断信息字符串中的位置为末尾，因此，将“支气管炎”单独切分出来，将“前列腺癌”和“晚期”合并切分出来。

步骤S73，判断暂不切分字符串中是否包含预设的特殊符号；如果暂不切分字符串中包含特殊符号，则执行步骤S731；如果暂不切分字符串中不包含特殊符号，则执行步骤S733。

步骤S731，查找暂不切分字符串所属的字符模型，并根据该所属的字符模型对应的切分规则对暂不切分字符串进行切分；其中，字符模型由一预先建立的字符模型库提供，且字符模型具有一一对应的切分规则。

步骤332，将切分出来的字符与本体词典中的本体进行匹配，若匹配成功，则将该切分出来的字符确定为第一类型子字符串，若匹配失败，则将该切分出来的字符确定为第二类型子字符串；

步骤S733，将暂不切分字符串直接确定为第二类型子字符串。

步骤S73、步骤S731、步骤332、步骤S733依据的处理规则是：当暂不切分字符串中包含预设的特殊符号时，根据暂不切分字符串所属的字符模型进行切分，否则直接切分出来；而且将基于字符模型切分出的字符再次与本体进行匹配，将其中能够与本体直接匹配的作为第一类型子字符串，不能够直接匹配的作为第二类型子字符串。

例如预设的特殊符号可以包括但不限于逗号、顿号、句号、冒号、加号、分号、斜杠线等等。

例如以下为字符模型库中的部分字符模型及其切分规则：

(1)字符模型：XABY型，A为数字，B为逗号、顿号或句号；

切分规则：分别将X和Y切分出来；

(2)字符模型：CDE型，且C、E之一为汉字，D为冒号；

切分规则：将C、E中的汉字切分出来；

(3)字符模型：FGH型，且F、H均为汉字，G为加号；

切分规则：将FGH作为整体切分出来；

(4)字符模型：IJK型，且I、K均为汉字，J为分号、句号、问号、叹号，

切分规则：将I和K分别切分出来；

(5)字符模型：LOP型，且L、P均均为汉字，O为冒号；

切分规则：将LOP作为整体切分出来；

(6)字符模型：STU型，且S和/或U为单个汉字，T为斜杠线；

切分规则：将STU作为整体切分出来。

例如对“腹痛：？”进行切分，经查找字符模型库可知属于CDE型，则将“腹痛”单独切分出来。

例如对“先天性心脏病：室间隔缺损”进行切分，经查找字符模型库可知属于LOP型，则将“先天性心脏病：室间隔缺损”整体切分出来。

例如对“支/衣原体感染”进行切分，经查找字符模型库可知属于STU型，则将“支/衣原体感染”整体切分出来。

例如对“腹痛；前列腺炎”进行切分，经查找字符模型库可知属于IJK型，则将其切分为“腹痛”和“前列腺炎”。

例如对“1、颈椎病2、腰椎间盘膨出3、孕24+3周4、子宫脱垂，II度；5、支/衣原体感染”进行切分，经查找字符模型库可知该字符串涉及多种字符模型，最终切分出的字符分别为“颈椎病”、“腰椎间盘膨出”、“孕24+3周”、“子宫脱垂，II度”、“支/衣原体感染”，将这些切分出的字符继续与本体进行匹配，其中的“颈椎病”、“腰椎间盘膨出”能够与本体直接匹配，则作为第一类型子字符串，而“孕24+3周”、“子宫脱垂，II度”、“支/衣原体感染”不能够与本体直接匹配，则作为第二类型子字符串。

本实施例在对中文疾病诊断信息进行自然语言处理的过程中，充分考虑了中文疾病诊断信息属于自然语言、格式复杂多样、没有统一的标准等特点，利用预先所建立的多种词典对中文疾病诊断信息字符串进行切分和匹配，以此将疾病诊断名称识别出来作为待编码名称。

实施例六

如图13所示，为适用于本发明示例性方法的一种查找与待编码名称相匹配的标准术语或扩充术语的具体实施方式，包括：

步骤S80，若待编码名称为第一类型子字符串，则将该第一类型子字符串相匹配的本体，确定为与该待编码名称相匹配的标准术语或扩充术语，若待编码名称为第二类型子字符串，则对第二类型子字符串和本体词典中的每个本体进行第一维度的解析，得到第二类型子字符串的若干第一维度解析结果，以及每个本体的若干第一维度解析结果；

该步骤将第二类型子字符串和本体分别作为解析对象，可选地，对解析对象进行第一维度的解析可以包括但不限于：

(1)确定解析对象中开头部分的字母，如果其中开头部分不是字母，则该项解析结果为空；

(2)确定解析对象中包含的疾病程度术语，如果其中不包含疾病程度术语，则该项解析结果为空；

(3)确定解析对象中逗号后的字符，如果其中不包含逗号，则该项解析结果为空；

(4)确定解析对象中括号内的字符，如果其中不包含括号，则该项解析结果为空；以及，

(5)确定解析对象中除开头部分的字母、疾病程度术语、逗号后的字符、括号内的字符以外的字符(以下简称本体中的剩余字符)，一般为解析对象的核心词干。

当解析对象为第二类型子字符串时，其各个第一维度解析结果可以包括但不限于：第二类型子字符串开头部分的字母、第二类型子字符串中包含的疾病程度术语、第二类型子字符串中逗号后的字符、第二类型子字符串中括号内的字符、剩余字符。

当解析对象为本体时，其各个第一维度解析结果可以包括但不限于：本体开头部分的字母、本体中包含的疾病程度术语、本体中逗号后的字符、本体中括号内的字符、剩余字符。

步骤S81，将第二类型子字符串的各第一维度解析结果与本体词典中每个本体的各第一维度解析结果进行匹配，查找是否存在某个本体的各第一维度解析结果均与第二类型子字符串的各第一维度解析结果相匹配；如果存在这样的本体，则执行步骤S82，如果不存在这样的本体，则执行步骤S83。

步骤S82，将查找到的本体确定为第二类型子字符串相匹配的本体。

步骤S83，选取第二类型子字符串的全部第一维度解析结果中的部分第一维度解析结果与本体词典中每个本体的全部第一维度解析结果中的部分第一维度解析结果进行匹配，并查找是否存在某个本体的该部分第一维度解析结果与第二类型子字符串的该部分第一维度解析结果相匹配；如果存在这样的本体，则执行步骤S831；如果不存在这样的本体，则执行步骤S832。

步骤S831，将查找到的本体确定为第二类型子字符串相匹配的本体。

分别将第二类型子字符串开头部分的字母与本体开头部分的字母进行匹配，将第二类型子字符串中包含的疾病程度术语与本体中包含的疾病程度术语进行匹配，将第二类型子字符串中逗号后的字符与本体中逗号后的字符进行匹配，将第二类型子字符串中括号内的字符与本体中括号内的字符进行匹配，将第二类型子字符串中的剩余字符与本体中的剩余字符进行匹配。

如果全部的第一维度解析结果均匹配，则将该本体确定为第二类型子字符串相匹配的本体。

如果某些第一维度解析结果不匹配，则选取部分第一维度解析结果分别进行匹配。

考虑到第二类型子字符串中的剩余字符往往是第二类型子字符串的核心词干，因此，在具体实施中，较佳的，所选取的部分第一维度解析结果至少包括第二类型子字符串中的剩余字符，以及本体中的剩余字符。例如，仅选取解析对象的剩余字符和疾病程度术语分别进行匹配，或者，仅选取解析对象的剩余字符进行匹配，或者，还可以选取解析对象的剩余字符与开头部分的字母或疾病程度术语或逗号后的字符或括号内的字符等分别进行匹配。

例如某一第二类型子字符串为“4型粘多糖存贮积症”，对其进行第一维度的解析，得到的解析结果如表1所示，如表2所示为与该第二类型子字符串相匹配的本体及其各个第一维度解析结果。

表1

表2

步骤S832，对第二类型子字符串和本体词典中的每个本体进行第二维度的解析，得到第二类型子字符串的各第二维度解析结果，以及本体词典中每个本体的各第二维度解析结果。

该步骤将第二类型子字符串和本体分别作为解析对象，可选地，对解析对象进行预设维度的解析可以包括但不限于：

(1)确定解析对象中的每个汉字；

(2)确定解析对象中每个汉字的声母；

(3)确定解析对象中每个汉字的韵母；

(4)确定解析对象的首字符；

(5)确定解析对象的首字符的拼音；以及，

(6)确定解析对象中的非汉字字符，如果其中不包含非汉字字符，则该项解析结果为空。

当解析对象为第二类型子字符串时，其各个维度的解析结果可以包括但不限于：第二类型子字符串中的每个汉字、第二类型子字符串中每个汉字的声母、第二类型子字符串中每个汉字的韵母、第二类型子字符串的首字符、第二类型子字符串的首字符的拼音、第二类型子字符串中的非汉字字符。

当解析对象为词条时，解析结果可以包括但不限于：词条中的每个汉字、词条中每个汉字的声母、词条中每个汉字的韵母、词条的首字符、词条的首字符的拼音、词条的非汉字字符。

例如，表3为第二类型子字符串“高血压”的各第二维度解析结果。

表3

步骤S833，基于第二类型子字符串的若干第二维度解析结果，以及本体的若干第二维度解析结果，计算第二类型子字符串与每个本体的匹配程度。

具体地，该步骤可以计算第二类型子字符串与每个本体的相似度，也可以计算第二类型子字符串与每个本体的总置信度。其中，相比于相似度，总置信度更能体现第二类型子字符串与每个本体的匹配程度，但是总置信度的计算过程相比于相似度的计算过程也更复杂。具体实施该步骤S833时，若需要较快的处理速度，则可以选择计算相似度的过程，若需要更准确的匹配结果，则可以选择计算总置信度的过程。

步骤S833的一种实施方式为计算第二类型子字符串与每个本体的相似度，具体如下：

按照如下公式计算第二类型子字符串与每个本体的相似度，并将计算得到的相似度确定为第二类型子字符串与各个本体的匹配程度：

M = \underset{\begin{matrix} t & i n & q \end{matrix}}{Σ} (t f (\begin{matrix} t & i n & d \end{matrix}) \cdot i d f {(t)}^{2} \cdot t . g e t B o o s t () \cdot n o r m (t, d))

其中，M表示相似度；

t表示第二类型子字符串的各第二维度解析结果；

q表示第二类型子字符串；

tinq表示第二类型子字符串的各第二维度；

d表示本体；

tf(tind)表示在相同的第二维度上，第二类型子字符串的第二维度解析结果与本体的第二维度解析结果相匹配的频次；

其中，T表示本体词典中本体的总数，T(t)表示各第二维度解析结果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数；

t.getBoost()表示各第二维度的预设权值；

norm(t,d)表示本体的长度归一化因子。

步骤S833的一种实施方式为计算第二类型子字符串与每个本体的总置信度，具体如下：

按照如下过程计算第二类型子字符串与每个本体的总置信度，并将计算得到的总置信度确定为第二类型子字符串与各个本体的匹配程度：

1)确定第二类型子字符串中的每个汉字。

2)按照如下公式计算第二类型子字符串与其相匹配的各个本体的余弦置信度：

N = \frac{Σ_{j = 1}^{V} w_{Q, j} \times w_{d^{'}, j}}{\sqrt{Σ_{j = 1}^{V} {w_{Q, j}}^{2} \times Σ_{j = 1}^{V} {w_{d^{'}, j}}^{2}}}

其中，N表示余弦置信度；

V表示第二类型子字符串及其相匹配的本体所包含的汉字总数；

Q表示第二类型子字符串；

d'表示与第二类型子字符串相匹配的本体；

w_Q,j表示每个汉字在第二类型子字符串中出现的频次；

w_d',j表示每个汉字在第二类型子字符串相匹配的本体中出现的频次；

j表示第二类型子字符串及其相匹配的本体所包含的汉字的序号。

3)按照如下公式计算第二类型子字符串与其相匹配的各个本体的总置信度：

S＝M×a+N×b

其中，S表示总置信度；

M表示相似度；

a表示相似度M对应的预设权值；

b表示余弦置信度N对应的预设权值；

并且，相似度M按照如下公式计算：

M = \underset{\begin{matrix} t & i n & q \end{matrix}}{Σ} (t f (\begin{matrix} t & i n & d \end{matrix}) \cdot i d f {(t)}^{2} \cdot t . g e t B o o s t () \cdot n o r m (t, d))

其中，t表示第二类型子字符串的各第二维度解析结果；

q表示第二类型子字符串；

tinq表示第二类型子字符串的各第二维度；

d表示本体；

t.getBoost()表示各第二维度的预设权值；

norm(t,d)表示本体的长度归一化因子。

步骤S834，根据第二类型子字符串与各个本体的匹配程度，确定一个或多个本体作为第二类型子字符串相匹配的本体。

可选地，该步骤可以有如下的具体实施方式：按照与第二类型子字符串的匹配程度的大小对全部本体排序，并将其中排序靠前的预设数量(例如排序靠前的2个)的本体确定为第二类型子字符串相匹配的本体；或者，将与第二类型子字符串的匹配程度达到预设阈值的一个或多个本体，确定为第二类型子字符串相匹配的本体。

具体实施本发明时，为了明确第二类型子字符串与每一个相匹配的本体的匹配程度并对其加以利用，还可以在最终输出的结果中还可以包括第二类型子字符串与其相匹配的各个本体的匹配程度。例如，输出第二类型子字符串与各个相匹配的本体的匹配程度，然后可以根据匹配程度的大小，通过人工方式从中再选出一个作为第二类型子字符串相匹配的本体。

步骤S84，将第二类型子字符串相匹配的本体或与第二类型子字符串达到预设匹配条件的一个或多个本体，确定为待编码名称相匹配的标准术语或扩充术语。

本实施例在对中文疾病诊断信息进行自然语言处理的过程中，充分考虑了中文疾病诊断信息属于自然语言、格式复杂多样、没有统一的标准等特点，利用预先所建立的多种词典对中文疾病诊断信息字符串进行切分和匹配，以此查找待编码名称相匹配的标准术语或扩充术语。

示例性设备

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的ICD编码系统进行介绍。

ICD编码系统的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的术语“模块”，可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

如图7所示，ICD编码系统可以包括：标准术语库创建模块61、扩充术语库创建模块62、导入模块63、数据处理模块64、编码模块65。

标准术语库创建模块61，用于根据所要参考的ICD版本，将所述所要参考的ICD版本中包含的各个疾病术语，确定为标准术语；根据所述所要参考的ICD版本，确定每一个标准术语的编码；存储所述标准术语及其编码，得到标准术语库。

可选地，所要参考的CD版本可以是WHO公布的ICD版本(例如WHO于1992年公布的ICD-10)，也可以是对WHO公布的ICD版本进行了扩展的各种本地化ICD版本(例如中国卫生部推荐使用的ICD-10中文版)。具体实施时，可根据实际需要选择合适的ICD版本作为参考，本发明对此不作限定。

扩充术语库创建模块62，用于将未包含于所述所要参考的ICD版本中的以下各种类型确定为扩充术语：所述标准术语的俗称\别称\缩略语，所述标准术语的子类疾病术语，以及在所述所要参考的ICD版本公布之后新产生的疾病术语；判断所述扩充术语为任意一个所述标准术语的俗称\别称\缩略语时，将该标准术语的编码赋予该扩充术语；判断所述扩充术语为任意一个所述标准术语的子类疾病术语或所述新产生的疾病术语时，将与该扩充术语的属种关系最接近的标准术语的编码赋予该扩充术语；存储所述扩充术语及其编码，得到扩充术语库。

导入模块63，用于输入中文疾病诊断信息。

数据处理模块64，用于对所述中文疾病诊断信息进行自然语言处理，得到一个或多个待编码名称。

具体地，数据处理模块64可以基于中文疾病诊断信息的特点，对中文疾病诊断信息进行分词、抽词等处理，进而从中文疾病诊断信息中解析出疾病术语，这些从该中文疾病诊断信息中解析出的疾病术语即为待编码名称。

编码模块65，用于基于所述标准术语库和所述扩充术语库，查找与所述待编码名称相匹配的标准术语或扩充术语，并将匹配成功的标准术语或扩充术语的编码，确定为所述待编码名称的编码。

可选地，如图8所示，ICD编码系统除包括上述标准术语库创建模块61、扩充术语库创建模块62、导入模块63、数据处理模块64、编码模块65之外，还可以包括：假定分类术语库创建模块71。

假定分类术语库创建模块71，用于将未包含于所述所要参考的ICD版本中、且与任意一个所述标准术语相关、且临床上默认等同于该标准术语、且并非该标准术语的俗称\别称\缩略语的疾病术语确定为假定分类术语；将与所述假定分类术语相关的该标准术语的编码，赋予所述假定分类术语；存储所述假定分类术语及其编码，得到假定分类术语库。

图8所示ICD编码系统中，编码模块65还用于基于所述假定分类术语库，查找与所述待编码名称相匹配的假定分类术语；将匹配成功的假定分类术语的编码，确定为所述待编码名称的编码。

可选地，如图9所示，ICD编码系统除包括上述标准术语库创建模块61、扩充术语库创建模块62、导入模块63、数据处理模块64、编码模块65之外，还可以包括：多编码术语库创建模块81。

多编码术语库创建模块81，用于将未包含于所述所要参考的ICD版本中、且由至少两个不同的所述标准术语组成的疾病术语，确定为多编码术语；将组成所述多编码术语的全部标准术语的编码组合在一起，作为所述多编码术语的编码；存储所述多编码术语及其编码，得到多编码术语库。

图9所示ICD编码系统中，编码模块65还用于基于所述多编码术语库，查找与所述待编码名称相匹配的多编码术语；将匹配成功的多编码术语的编码，确定为所述待编码名称的编码。

可选地，如图10所示，ICD编码系统除包括上述标准术语库创建模块61、扩充术语库创建模块62、导入模块63、数据处理模块64、编码模块65之外，还可以包括：合并术语库创建模块91和预处理模块92。

合并术语库创建模块91，用于将可以替代至少两个同时出现的标准术语的单个标准术语，确定为合并术语；并将该至少两个同时出现的标准术语中的每一个确定为该合并术语的合并对象；根据所述所要参考的ICD版本，确定每一个合并术语的编码；存储所述合并术语及其编码、以及所述合并术语的全部合并对象，得到合并术语库。

预处理模块92，用于对所述数据处理模块64得到的一个或多个待编码名称进行预处理，判断所述一个或多个待编码名称中，是否包含任意一个或多个合并术语的全部合并对象，若包含，则将所述任意一个或多个合并术语的全部合并对象替换成对应的合并术语；然后将预处理之后的待编码名称发送给编码模块65。

可选地，ICD编码系统除包括上述标准术语库创建模块61、扩充术语库创建模块62、导入模块63、数据处理模块64、编码模块65之外，还可以包括：实时修订模块，用于实时对标准术语库、扩充术语库、假定分类术语库、多编码术语库、合并术语库进行修订。

可选地，如图11所示，ICD编码系统除包括上述标准术语库创建模块61、扩充术语库创建模块62、导入模块63、数据处理模块64、编码模块65之外，还可以包括：无编码处理模块101。

无编码处理模块101，用于将未确定编码的待编码名称与无编码术语库中的无编码术语进行匹配，若匹配成功，则不对该未确定编码的待编码名称进行编码和/或输出预设的结果，若匹配失败，则将该未确定编码的待编码名称发送至人工处理平台进行人工处理。其中，无编码术语库包括若干无编码术语。这些若干无编码术语包括：预设的中医类术语；预设的手术操作术语；预设的药品名称术语；预设的医疗耗材术语；以及预设的检查检验术语。

本发明实施例提供的ICD编码系统，通过创建多个术语库以涵盖绝大多数中文疾病诊断信息中可能出现的疾病术语，满足了自动分辨中文疾病诊断信息中的疾病术语的要求，使得自动化的ICD编码得以实现，利用本发明实施例提供的ICD编码系统进行ICD编码，无需人工参与，具有编码速度快、成本低、正确率高等优点。

应当注意，尽管在上文详细描述中提及了ICD编码系统的若干模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种自动化的国际疾病分类编码方法，包括：

步骤1，输入中文疾病诊断信息；

其中，所述标准术语库按照如下方式创建：

确定所要参考的国际疾病分类ICD版本；

根据所述所要参考的ICD版本，确定每一个标准术语的编码；

存储所述标准术语及其编码，得到标准术语库；

其中，所述扩充术语库按照如下方式创建：

存储所述扩充术语及其编码，得到扩充术语库。

2.根据权利要求1所述的自动化的国际疾病分类编码方法，其中，

所述步骤3还包括：基于假定分类术语库，查找与所述待编码名称相匹配的假定分类术语；将匹配成功的假定分类术语的编码，确定为所述待编码名称的编码；

其中，所述假定分类术语库按照如下方式创建：

将未包含于所述所要参考的ICD版本中、且与任意一个所述标准术语相关、且临床上默认等同于该标准术语、且并非该标准术语的俗称\别称\缩略语的疾病术语，确定为假定分类术语；

将与所述假定分类术语相关的该标准术语的编码，赋予所述假定分类术语；

存储所述假定分类术语及其编码，得到假定分类术语库。

3.根据权利要求1所述的自动化的国际疾病分类编码方法，其中，

所述步骤3还包括：基于多编码术语库，查找与所述待编码名称相匹配的多编码术语；将匹配成功的多编码术语的编码，确定为所述待编码名称的编码；

其中，所述多编码术语库按照如下方式创建：

将未包含于所述所要参考的ICD版本中、且由至少两个不同的所述标准术语组成的疾病术语，确定为多编码术语；

将组成所述多编码术语的全部标准术语的编码组合在一起，作为所述多编码术语的编码；

存储所述多编码术语及其编码，得到多编码术语库。

4.根据权利要求1所述的自动化的国际疾病分类编码方法，其中，

在所述步骤3之前，还包括：基于合并术语库，对所述一个或多个待编码名称进行预处理；

所述合并术语库按照如下方式创建：

将可以替代至少两个同时出现的标准术语的单个标准术语，确定为合并术语；并将该至少两个同时出现的标准术语中的每一个确定为该合并术语的合并对象；

根据所述所要参考的ICD版本，确定每一个合并术语的编码；

存储所述合并术语及其编码、以及所述合并术语的全部合并对象，得到合并术语库；

所述的基于已创建的合并术语库，对所述一个或多个待编码名称进行预处理的步骤，包括：

判断所述一个或多个待编码名称中，是否包含任意一个或多个合并术语的全部合并对象，若包含，则将所述任意一个或多个合并术语的全部合并对象替换成对应的合并术语。

5.根据权利要求1～4任一所述的自动化的国际疾病分类编码方法，其中，所述步骤3之后，还包括：

步骤4，将未确定编码的待编码名称与无编码术语库中的无编码术语进行匹配，若匹配成功，则执行预设的处理步骤以表示不对该未确定编码的待编码名称进行编码，若匹配失败，则将该未确定编码的待编码名称发送至人工处理平台进行人工处理；

其中，所述无编码术语库包括若干无编码术语；

所述若干无编码术语包括：

预设的中医类术语；

预设的手术操作术语；

预设的药品名称术语；

预设的医疗耗材术语；以及

预设的检查检验术语。

6.根据权利要求1所述的自动化的国际疾病分类编码方法，其中，所述所要参考的ICD版本是世界卫生组织WHO公布的ICD版本，或者是对世界卫生组织WHO公布的ICD版本进行了扩展的各种本地化ICD版本。

7.根据权利要求1所述的自动化的国际疾病分类编码方法，其中，所述步骤2包括：

步骤21，对所述中文疾病诊断信息字符串进行预处理，得到预处理后的中文疾病诊断信息字符串；

步骤22，基于预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典，将所述预处理后的中文疾病诊断信息字符串切分成若干第一类型子字符串和/或第二类型子字符串；

其中，所述本体词典包括所述标准术语库和所述扩充术语库，所述标准术语和所述扩充术语均为本体；

所述疾病程度术语词典包括若干疾病程度术语，所述疾病程度术语是用于描述疾病急慢性程度或疾病严重程度或病理类型或临床分期的词语；

所述疾病并发术语词典包括若干疾病并发术语，所述疾病并发术语是用于描述至少两种疾病并发出现的词语；

所述发病部位术语词典包括若干发病部位术语，所述发病部位术语是用于描述疾病发病部位的词语；

所述第一类型子字符串能够与所述本体词典中的本体直接匹配，所述第二类型子字符串不能够与所述本体词典中的本体直接匹配；

步骤23，将切分出的第一类型子字符串和第二类型子字符串确定为待编码名称。

8.根据权利要求7所述的自动化的国际疾病分类编码方法，其中，所述步骤21包括：

对所述中文疾病诊断信息字符串中的非汉字进行格式归一化处理，并删除所述中文疾病诊断信息字符串中的非医学术语，得到预处理后的中文疾病诊断信息字符串，其中所述非医学术语由一预先建立的非医学术语词典提供，且所述非医学术语为起备注作用的词语。

9.根据权利要求8所述的自动化的国际疾病分类编码方法，其中，所述步骤22包括：

判断所述预处理后的中文疾病诊断信息字符串是否包含符号；

如果所述预处理后的中文疾病诊断信息字符串包含符号，则将所述预处理后的中文疾病诊断信息字符串中每相邻两个符号之间的字符作为整体与本体词典中的本体进行匹配；若匹配成功，则将该相邻两个符号之间的字符切分出来作为第一类型子字符串；若匹配失败，则将该相邻两个符号及其之间的字符确定为暂不切分字符串，并判断所述暂不切分字符串中是否包含预设的特殊符号；

若所述暂不切分字符串中包含特殊符号，则查找所述暂不切分字符串所属的字符模型，并根据该所属的字符模型对应的切分规则对所述暂不切分字符串进行切分，将切分出来的字符与本体词典中的本体进行匹配，若匹配成功，则将该切分出来的字符作为第一类型子字符串，若匹配失败，则将该切分出来的字符作为第二类型子字符串；其中，所述字符模型由一预先建立的字符模型库提供，且所述字符模型具有一一对应的切分规则；

若所述暂不切分字符串中不包含特殊符号，则将所述暂不切分字符串直接确定为第二类型子字符串；

如果所述预处理后的中文疾病诊断信息字符串未包含符号，则采用机械分词法将所述预处理后的中文疾病诊断信息字符串中的单个字符或多个连续的字符与所述本体词典中的本体进行匹配；

若所述预处理后的中文疾病诊断信息字符串中的所有字符均能够与本体匹配，则依据所匹配的本体将所述预处理后的中文疾病诊断信息字符串中的单个字符或多个连续的字符切分出来作为第一类型子字符串；

若所述预处理后的中文疾病诊断信息字符串中存在未能与本体匹配的单个字符或多个连续的字符，则判断所述未能与本体匹配的单个字符或多个连续的字符是否为疾病程度术语、疾病并发术语或发病部位术语；

当所述未能与本体匹配的单个字符或多个连续的字符为疾病程度术语、疾病并发术语或发病部位术语时，根据所述未能与本体匹配的单个字符或多个连续的字符在所述预处理后的中文疾病诊断信息字符串中的位置，将所述未能与本体匹配的单个字符或多个连续的字符与其之前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字符串，并将所述预处理后的中文疾病诊断信息字符串中其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子字符串；

当所述未能与本体匹配的单个字符或多个连续的字符不为疾病程度术语、疾病并发术语或发病部位术语时，将所述预处理后的中文疾病诊断信息字符串整体切分出来作为第二类型子字符串。

10.根据权利要求7所述的自动化的国际疾病分类编码方法，其中，所述步骤3中查找与所述待编码名称相匹配的标准术语或扩充术语的步骤，包括：

若所述待编码名称为第一类型子字符串，则将该第一类型子字符串相匹配的本体，确定为与该待编码名称相匹配的标准术语或扩充术语；

若所述待编码名称为第二类型子字符串，则：

对所述第二类型子字符串和所述本体词典中的每个本体进行第一维度的解析，得到所述第二类型子字符串的若干第一维度解析结果，以及所述本体词典中每个本体的若干第一维度解析结果；

将所述第二类型子字符串的各第一维度解析结果与所述本体词典中每个本体的各第一维度解析结果进行匹配，判断是否存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体；

如果存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体，则将该本体确定为所述第二类型子字符串相匹配的本体；

如果不存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体，则选取所述第二类型子字符串的全部第一维度解析结果中的部分第一维度解析结果与所述本体词典中每个本体的全部第一维度解析结果中的部分第一维度解析结果进行匹配，并判断是否存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体；

若存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体，则将该本体确定为所述第二类型子字符串相匹配的本体；

若不存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体，则对所述第二类型子字符串和所述本体词典中的每个本体进行第二维度的解析，得到所述第二类型子字符串的若干第二维度解析结果，以及所述本体词典中每个本体的若干第二维度解析结果；

基于所述第二类型子字符串的若干第二维度解析结果，以及所述本体的若干第二维度解析结果，计算所述第二类型子字符串与每个本体的匹配程度；

根据所述第二类型子字符串与各个本体的匹配程度，确定一个或多个本体作为所述第二类型子字符串相匹配的本体；

将所述第二类型子字符串相匹配的本体，确定为所述待编码名称相匹配的标准术语或扩充术语。

11.根据权利要求10所述的自动化的国际疾病分类编码方法，其中，所述第二类型子字符串\所述本体的各第一维度解析结果分别是：

所述第二类型子字符串\所述本体中的方位术语；

所述第二类型子字符串\所述本体中的等级术语；

所述第二类型子字符串\所述本体中括号内的字符；

所述第二类型子字符串\所述本体中破折号后的字符；以及，

所述第二类型子字符串\所述本体中除方位术语、等级术语、括号内的字符、破折号后的字符以外的字符；

所述第二类型子字符串\所述本体的全部第一维度解析结果中的部分第一维度解析结果包括：所述二类型子字符串中\所述本体中除方位术语、等级术语、括号内的字符、破折号后的字符以外的字符；以及，以下各项中的一项或多项：

所述第二类型子字符串\所述本体中的方位术语、等级术语；

所述第二类型子字符串\所述本体中括号内的字符；

所述第二类型子字符串\所述本体中破折号后的字符。

12.根据权利要求10所述的自动化的国际疾病分类编码方法，其中，所述第二类型子字符串\所述本体的各第二维度解析结果分别是：

所述第二类型子字符串\所述本体的每个汉字；

所述第二类型子字符串\所述本体的每个汉字的声母；

所述第二类型子字符串\所述本体的每个汉字的韵母；

所述第二类型子字符串\所述本体的首字符；

所述第二类型子字符串\所述本体的首字符的拼音；以及，

所述第二类型子字符串\所述本体中的非汉字字符。

13.根据权利要求10所述的自动化的国际疾病分类编码方法，其中，所述基于所述第二类型子字符串的若干第二维度解析结果，以及所述本体的若干第二维度解析结果，计算所述第二类型子字符串与每个本体的匹配程度的步骤包括：

按照如下公式计算所述第二类型子字符串与每个本体的相似度：

M = \underset{\begin{matrix} t & i n & q \end{matrix}}{Σ} (t f (\begin{matrix} t & i n & d \end{matrix}) \cdot i d f {(t)}^{2} \cdot t . g e t B o o s t () \cdot n o r m (t, d))

其中，M表示相似度；

t表示第二类型子字符串的各第二维度解析结果；

q表示第二类型子字符串；

tinq表示第二类型子字符串的各第二维度；

d表示本体；

t.getBoost()表示各第二维度的预设权值；

norm(t,d)表示本体的长度归一化因子；

将计算得到的相似度确定为所述第二类型子字符串与各个本体的匹配程度。

14.根据权利要求10所述的自动化的国际疾病分类编码方法，其中，所述基于所述第二类型子字符串的若干第二维度解析结果，以及所述本体的若干第二维度解析结果，计算所述第二类型子字符串与每个本体的匹配程度的步骤包括：

确定所述第二类型子字符串中的每个汉字；

按照如下公式计算所述第二类型子字符串与其相匹配的各个本体的余弦置信度：

N = \frac{Σ_{j = 1}^{V} w_{Q, j} \times w_{d^{'}, j}}{\sqrt{Σ_{j = 1}^{V} {w_{Q, j}}^{2} \times Σ_{j = 1}^{V} {w_{d^{'}, j}}^{2}}}

按照如下公式计算所述第二类型子字符串与其相匹配的各个本体的总置信度：

S＝M×a+N×b

其中，N表示余弦置信度；

Q表示第二类型子字符串；

d'表示与第二类型子字符串相匹配的本体；

w_Q,j表示每个汉字在第二类型子字符串中出现的频次；

j表示第二类型子字符串及其相匹配的本体所包含的汉字的序号；

S表示总置信度；

M表示相似度；

a表示相似度M对应的预设权值；

b表示余弦置信度N对应的预设权值；

并且，相似度M按照如下公式计算：

M = \underset{\begin{matrix} t & i n & q \end{matrix}}{Σ} (t f (\begin{matrix} t & i n & d \end{matrix}) \cdot i d f {(t)}^{2} \cdot t . g e t B o o s t () \cdot n o r m (t, d))

其中，t表示第二类型子字符串的各第二维度解析结果；

q表示第二类型子字符串；

tinq表示第二类型子字符串的各第二维度；

d表示本体；

t.getBoost()表示各第二维度的预设权值；

norm(t,d)表示本体的长度归一化因子；

将计算得到的总置信度确定为所述第二类型子字符串与各个本体的匹配程度。

15.根据权利要求10所述的自动化的国际疾病分类编码方法，其中，所述的根据所述第二类型子字符串与各个本体的匹配程度，确定一个或多个本体作为所述第二类型子字符串相匹配的本体的步骤，包括：

按照与所述第二类型子字符串的匹配程度的大小对全部本体排序，并将其中排序靠前的预设数量的本体确定为所述第二类型子字符串相匹配的本体；

或者，

将与所述第二类型子字符串的匹配程度达到预设阈值的一个或多个本体，确定为所述第二类型子字符串相匹配的本体。

16.一种自动化的国际疾病分类编码系统，包括：

导入模块，用于输入中文疾病诊断信息；

17.根据权利要求16所述的自动化的国际疾病分类编码系统，其中，所述系统还包括：

假定分类术语库创建模块，用于将未包含于所述所要参考的ICD版本中、且与任意一个所述标准术语相关、且临床上默认等同于该标准术语、且并非该标准术语的俗称\别称\缩略语的疾病术语，确定为假定分类术语；将与所述假定分类术语相关的该标准术语的编码，赋予所述假定分类术语；存储所述假定分类术语及其编码，得到假定分类术语库；

所述编码模块，还用于基于所述假定分类术语库，查找与所述待编码名称相匹配的假定分类术语；将匹配成功的假定分类术语的编码，确定为所述待编码名称的编码。

18.根据权利要求16所述的自动化的国际疾病分类编码系统，其中，所述系统还包括：

多编码术语库创建模块，用于将未包含于所述所要参考的ICD版本中、且由至少两个不同的所述标准术语组成的疾病术语，确定为多编码术语；将组成所述多编码术语的全部标准术语的编码组合在一起，作为所述多编码术语的编码；存储所述多编码术语及其编码，得到多编码术语库；

所述编码模块，还用于基于所述多编码术语库，查找与所述待编码名称相匹配的多编码术语；将匹配成功的多编码术语的编码，确定为所述待编码名称的编码。

19.根据权利要求16所述的自动化的国际疾病分类编码系统，其中，所述系统还包括：

合并术语库创建模块，用于将可以替代至少两个同时出现的标准术语的单个标准术语，确定为合并术语；并将该至少两个同时出现的标准术语中的每一个确定为该合并术语的合并对象；根据所述所要参考的ICD版本，确定每一个合并术语的编码；存储所述合并术语及其编码、以及所述合并术语的全部合并对象，得到合并术语库；

预处理模块，用于对所述数据处理模块得到的一个或多个待编码名称进行预处理，判断所述一个或多个待编码名称中，是否包含任意一个或多个合并术语的全部合并对象，若包含，则将所述任意一个或多个合并术语的全部合并对象替换成对应的合并术语；然后将预处理之后的待编码名称发送给所述编码模块。

20.根据权利要求16～19任一所述的自动化的国际疾病分类编码系统，还包括：

无编码处理模块，用于将未确定编码的待编码名称与无编码术语库中的无编码术语进行匹配，若匹配成功，则不对该未确定编码的待编码名称进行编码和/或输出预设的结果，若匹配失败，则将该未确定编码的待编码名称发送至人工处理平台进行人工处理；

其中，所述无编码术语库包括若干无编码术语；

所述若干无编码术语包括：

预设的中医类术语；

预设的手术操作术语；

预设的药品名称术语；

预设的医疗耗材术语；以及

预设的检查检验术语。

21.根据权利要求16所述的自动化的国际疾病分类编码系统，其中，所述所要参考的ICD版本是世界卫生组织WHO公布的ICD版本，或者是对世界卫生组织WHO公布的ICD版本进行了扩展的各种本地化ICD版本。