CN111949759A

CN111949759A - 病历文本相似度的检索方法、系统及计算机设备

Info

Publication number: CN111949759A
Application number: CN201910407594.0A
Authority: CN
Inventors: 郭士成; 王�琦
Original assignee: Peking University Medical Information Technology Co ltd
Current assignee: Peking University Medical Information Technology Co ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2020-11-17

Abstract

本发明提供了一种病历文本相似度的检索方法、系统及计算机设备，病历文本相似度的检索方法包括：接收文本信息；对文本信息进行分词处理，生成词语；将词语训练成长文本向量；根据长文本向量在数据库中获取与文本信息相似的病历信息。本发明提供的病历文本相似度的检索方法，不需要专家参与，而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识，构建相似病历比较的模型，该模型能综合多种类型自由文本的比较结果，能高效、准确地得到相似的病历推荐，与医生人工比较得到的结果高度相符，能给医生提供具有实用价值的临床路径参考结果，有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题。

Description

病历文本相似度的检索方法、系统及计算机设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种病历文本相似度的检索方法、系统及计算机设备。

背景技术

目前，电子病历(Electronic Medical Record,EMR)是患者在医疗机构就诊时产生的医疗记录，是医生诊疗经验和模式的载体，它的核心价值体现在辅助诊断方面，为医生提供决策支持。电子病历数据的主要形式有表格、自由文本、图像这三种，其中自由文本主要以非结构化数据的形式呈现。随着医院信息化的发展，医院已经积累了大量非结构化的电子病历自由文本，其中蕴含了大量宝贵的医学和临床信息。随着医疗信息的标准化的提升，自由文本中覆盖了更标准更完整的患者信息。目前国内外有很多学者、机构以及企业致力于基于EMR(电子病历)的辅助诊断系统的研究，其领域可以涉及完整的医疗过程，在优化工作流程、提高工作效率、降低医疗差错、提高医疗质量等方面具有重要作用。国内基于中文EMR(电子病历)的应用研究一方面是针对EMR(电子病历)系统的研发，另一方是基于EMR(电子病历)的临床路径优化和相似EMR(电子病历)搜索。相关技术中，都用到了相似中文病历文本检索这一核心技术，其方法主要是通过关键词或本体模型进行比较，依赖医学专家的知识，而已有的大规模EMR(电子病历)数据本身所蕴含的信息，却没有很好挖掘利用。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的第一方面提供了一种病历文本相似度的检索方法。

本发明的第二方面提供了一种病历文本相似度的检索系统。

本发明的第三方面提供了一种计算机设备。

本发明的第四方面提供了一种计算机可读存储介质。

有鉴于此，本发明的第一方面提出了一种病历文本相似度的检索方法，包括：接收文本信息；对文本信息进行分词处理，生成词语；将词语训练成长文本向量；根据长文本向量在数据库中获取与文本信息相似的病历信息。

本发明提供的病历文本相似度的检索方法，将接收的文本信息进行分词处理，分词包括词的歧义切分，未登录词的识别，可以将疾病、病症和时间切分，分好的词语用于下一步的训练，精确分词决定下一步的准确率，将生成的词语训练成长文本向量，得到对应的长文本数字标识符，进而根据长文本向量在数据库中获取到与文本信息相似的病历信息。通过这种方法检索病历信息，不需要专家参与，而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识，构建相似病历比较的模型，该模型能综合多种类型自由文本的比较结果，能高效、准确地得到相似的病历推荐，与医生人工比较得到的结果高度相符，能给医生提供具有实用价值的临床路径参考结果，有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题，同时也能够使用这个方法来协助缺乏医学经验的医生，使患者更好的、及时的得到诊断治疗，进而提高临床就诊效率和临床诊断准确率。

具体地，本方法的主要处理对象为自由文本中的主诉、现病史、既往史、个人史、家族史和一般检查结果，得到对病人完善的辅助诊断。

根据本发明提供的上述的病历文本相似度的检索方法，还可以具有以下附加技术特征：

在上述技术方案中，优选地，病历文本相似度的检索方法还包括：对文本信息进行分词处理，生成词语的步骤之后，还包括：对词语的词性进行标注处理；根据词语的词性的标注对词语进行分类处理。

在该技术方案中，通过命名实体识别应用对文本信息进行预处理，对词语的词性进行标注处理，再根据标注对词语进行分类处理，为句子中的每个词赋予正确的词法标记，为每一个词赋予一个类别。进一步地，命名实体识别应用可以将未登录词准确分割，词性标注主要分为基于规则的和基于统计的方法。具体地，首先使用CRF(条件随机场)算法将长文本切分的词进行词性标注，根据标注好词性的词语作为RNN(循环神经网络)输入，依据词性的类别种类，反馈长文本出现的疾病和病症的词汇分类。

在上述任一技术方案中，优选地，对文本信息进行分词处理，生成词语的步骤，具体包括：根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理，生成词语。

在该技术方案中，根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理，达到了去除干扰词的效果，同时，使用最大匹配法提高了分词的准确率。

在上述任一技术方案中，优选地，将词语训练成长文本向量的步骤，具体包括：将词语训练成词语向量；将词语向量组成长文本向量。

在该技术方案中，首先将分好的词语训练成词语向量，再将每句中的词语向量组合形成长文本向量，进而得到病历长文本的数字符号。

在上述任一技术方案中，优选地，根据长文本向量在数据库中获取与文本信息相似的病历信息步骤，具体包括：在数据库中获取与文本信息相似的多个长文本，并将多个长文本分别切分成词集合，作为筛选集合；在筛选集合中获取与文本信息进行分词处理后的词语集合相匹配的长文本，并作为优先考虑结果；根据长文本向量计算筛选集合中与文本信息不匹配的词集合和文本信息进行分词处理后的词语集合的关联性；判断关联性是否大于预设阈值；若关联性大于预设阈值，则将与文本信息不匹配的长文本按照关联性的大小正序排列。

在该技术方案中，首先使用编辑距离，求解出EMR(电子病历)字面最相似的正序排序，并切分成相应的词集合，使用jaccard(杰卡德)距离在词集合中计算与文本信息完全相匹配的长文本，并将其优先级设置为最高，将不完全匹配的长文本使用余弦距离求得词之间的关联性，设置预设阈值，如果关联性小于预设阈值则关联性为0，可认为无关联，将关联的词距加和正序排序，求解出次优先级长文本匹配。具体地，比如当前长文本分词集合{A，B}，与库中的一个集合{C，A}，则其经过余弦距离计算之后求得的加权相似距离为：(B·C)/(||B||·||C||)。

本发明的第二方面，提出了一种病历文本相似度的检索系统，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现：接收文本信息；对文本信息进行分词处理，生成词语；将词语训练成长文本向量；根据长文本向量在数据库中获取与文本信息相似的病历信息。

本发明提供的病历文本相似度的检索系统，将接收的文本信息进行分词处理，分词包括词的歧义切分，未登录词的识别，可以将疾病、病症和时间切分，分好的词语用于下一步的训练，精确分词决定下一步的准确率，将生成的词语训练成长文本向量，得到对应的长文本数字标识符，进而根据长文本向量在数据库中获取到与文本信息相似的病历信息。通过这种系统检索病历信息，不需要专家参与，而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识，构建相似病历比较的模型，该模型能综合多种类型自由文本的比较结果，能高效、准确地得到相似的病历推荐，与医生人工比较得到的结果高度相符，能给医生提供具有实用价值的临床路径参考结果，有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题，同时也能够使用这个系统来协助缺乏医学经验的医生，使患者更好的、及时的得到诊断治疗，进而提高临床就诊效率和临床诊断准确率。

具体地，本系统的主要处理对象为自由文本中的主诉、现病史、既往史、个人史、家族史和一般检查结果，得到对病人完善的辅助诊断。

根据本发明提供的上述的病历文本相似度的检索系统，还可以具有以下附加技术特征：

在上述技术方案中，优选地，所述处理器执行所述计算机程序时还实现：对文本信息进行分词处理，生成词语的步骤之后，还包括：对词语的词性进行标注处理；根据词语的词性的标注对词语进行分类处理。

在上述任一技术方案中，优选地，所述处理器执行所述计算机程序时实现对文本信息进行分词处理，生成词语的步骤，具体包括：根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理，生成词语。

在上述任一技术方案中，优选地，所述处理器执行所述计算机程序时实现将词语训练成长文本向量的步骤，具体包括：将词语训练成词语向量；将词语向量组成长文本向量。

在上述任一技术方案中，优选地，所述处理器执行所述计算机程序时实现根据长文本向量在数据库中获取与文本信息相似的病历信息步骤，具体包括：在数据库中获取与文本信息相似的多个长文本，并将多个长文本分别切分成词集合，作为筛选集合；在筛选集合中获取与文本信息进行分词处理后的词语集合相匹配的长文本，并作为优先考虑结果；根据长文本向量计算筛选集合中与文本信息不匹配的词集合和文本信息进行分词处理后的词语集合的关联性；判断关联性是否大于预设阈值；若关联性大于预设阈值，则将与文本信息不匹配的长文本按照关联性的大小正序排列。

在该技术方案中，首先使用编辑距离，求解出EMR(电子病历)字面最相似的正序排序，并切分成相应的词集合，使用jaccard(杰卡德)距离在词集合中计算与文本信息完全相匹配的长文本，并将其优先级设置为最高，将不完全匹配的长文本使用余弦距离求得词之间的关联性，设置预设阈值，如果关联性小于预设阈值则关联性为0，可认为无关联，将关联的词距加和正序排序，求解出次优先级长文本匹配。具体地，比如当前长文本分词集合{A，B}，与库中的一个集合{C，A}，则其经过余弦距离计算之后求得的加权相似距离：(B·C)/(||B||·||C||)。

本发明的第三方面，提出了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一技术方案所述的病历文本相似度的检索方法。

本发明提出的技术方案，因包括第一方面任一技术方案所述的病历文本相似度的检索方法，因此具有所述病历文本相似度的检索方法的全部有益效果。

本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一技术方案所述方法的步骤，因而具备病历文本相似度的检索方法的全部技术效果，在此不再赘述。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本申请一个实施例的病历文本相似度的检索方法的流程示意图；

图2示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图；

图3示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图；

图4示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图；

图5示出了本申请一个实施例的病历文本相似度的检索系统的框图；

图6示出了本申请一个实施例的病历文本相似度的检索系统的另一框图；

图7示出了本申请一个实施例的病历文本相似度的检索系统的另一框图；

图8示出了本申请一个实施例的计算机设备的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照图1至图8描述根据本发明一些实施例所述的病历文本相似度的检索方法、系统及计算机设备。

图1示出了本申请一个实施例的病历文本相似度的检索方法的流程示意图。如图1所示，该方法包括：

步骤102，接收文本信息；

步骤104，对文本信息进行分词处理，生成词语；

步骤106，将词语训练成长文本向量；

步骤108，根据长文本向量在数据库中获取与文本信息相似的病历信息。

在上述实施例中，优选地，对文本信息进行分词处理，生成词语的步骤之后，还包括：对词语的词性进行标注处理；根据词语的词性的标注对词语进行分类处理。

在该实施例中，通过命名实体识别应用对文本信息进行预处理，对词语的词性进行标注处理，再根据标注对词语进行分类处理，为句子中的每个词赋予正确的词法标记，为每一个词赋予一个类别。进一步地，命名实体识别应用可以将未登录词准确分割，词性标注主要分为基于规则的和基于统计的方法。具体地，首先使用CRF(条件随机场)算法将长文本切分的词进行词性标注，根据标注好词性的词语作为RNN(循环神经网络)输入，依据词性的类别种类，反馈长文本出现的疾病和病症的词汇分类。

在上述任一实施例中，优选地，对文本信息进行分词处理，生成词语的步骤，具体包括：根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理，生成词语。

在该实施例中，根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理，达到了去除干扰词的效果，同时，使用最大匹配法提高了分词的准确率。

在上述任一实施例中，优选地，将词语训练成长文本向量的步骤，具体包括：将词语训练成词语向量；将词语向量组成长文本向量。

在该实施例中，首先将分好的词语训练成词语向量，再将每句中的词语向量组合形成长文本向量，进而得到病历长文本的数字符号。

在上述任一实施例中，优选地，根据长文本向量在数据库中获取与文本信息相似的病历信息步骤，具体包括：在数据库中获取与文本信息相似的多个长文本，并将多个长文本分别切分成词集合，作为筛选集合；在筛选集合中获取与文本信息进行分词处理后的词语集合相匹配的长文本，并作为优先考虑结果；根据长文本向量计算筛选集合中与文本信息不匹配的词集合和文本信息进行分词处理后的词语集合的关联性；判断关联性是否大于预设阈值；若关联性大于预设阈值，则将与文本信息不匹配的长文本按照关联性的大小正序排列。

在该实施例中，首先使用编辑距离，求解出EMR(电子病历)字面最相似的正序排序，并切分成相应的词集合，使用jaccard(杰卡德)距离在词集合中计算与文本信息完全相匹配的长文本，并将其优先级设置为最高，将不完全匹配的长文本使用余弦距离求得词之间的关联性，设置预设阈值，如果关联性小于预设阈值则关联性为0，可认为无关联，将关联的词距加和正序排序，求解出次优先级长文本匹配。具体地，比如当前长文本分词集合{A，B}，与库中的一个集合{C，A}，则其经过余弦距离计算之后求得的加权相似距离：(B·C)/(||B||·||C||)。

图2示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图。如图2所示，该方法包括：

步骤202，接收患者病历主诉信息；

步骤204，对患者病历主诉信息进行分词处理，生成词语；

步骤206，将词语训练成长文本向量；

步骤208，根据是否包含疾病名称或特异性状筛选检索范围；

步骤210，根据组合距离算法计算主诉相似度。

在该实施例中，接收的数据对象是患者的主诉数据(文本类型)，疾病史(数值型)。首先计算出主诉数据的相似度，如图2所示，根据医生输入的患者主诉，使用CRF(条件随机场)算法、RNN(循环神经网络)和Doc2Vec(情感分析)将主诉训练成长文本向量，根据主诉中是否包含疾病名称或特异性状筛选检索范围，其中使用编辑距离缩小检索范围，降低时间复杂度，达到快速检索的效果，之后再使用jaccard(杰卡德)距离和cos(余弦)距离来组合计算主诉相似度。

图3示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图。如图3所示，该方法包括：

步骤302，根据病史统计获取患者病历中的病史信息；

步骤304，将病史自动化编码；

步骤306，对病史进行分词处理，生成词语；

步骤308，将词语训练成长文本向量；

步骤310，根据长文本向量计算病史相似度。

在该实施例中，通过病史统计获取病历中的病史记录，使用one-hot编码将病史编码，之后计算病史之间的相似度，得到病史相似度。

图4示出了本申请一个实施例的病历文本相似度的检索方法的另一流程示意图。如图4所示，该方法包括：

步骤402，接收文本信息；

步骤404，对文本信息进行分词处理，生成词语；

步骤406，将词语训练成长文本向量；

步骤408，计算主诉相似度和病史相似度；

步骤410，将主诉相似度和病史相似度归一化；

步骤412，特征选取；

步骤414，通过特征选取计算各个特征所占的权重比；

步骤416，根据得到的权重比加权求和主诉相似度和病史相似度得到综合相似度。

在该实施例中，得到主诉和病史的相似度之后，计算两者的综合相似度。如图4所示，将主诉相似度和病史相似度进行归一化，标准化输入数据格式；通过特征选取，计算各个特征所占的权重比；根据得到的权重比加权求和主诉相似度和病史相似度得到综合相似度。

本发明的第二方面，提出了一种病历文本相似度的检索系统50，包括：存储器502、处理器504及存储在所述存储器502上并可在所述处理器504上运行的计算机程序，所述处理器504执行所述计算机程序时实现：接收文本信息；对文本信息进行分词处理，生成词语；将词语训练成长文本向量；根据长文本向量在数据库中获取与文本信息相似的病历信息。

如图5所示，本发明提供的病历文本相似度的检索系统50，将接收的文本信息进行分词处理，分词包括词的歧义切分，未登录词的识别，可以将疾病、病症和时间切分，分好的词语用于下一步的训练，精确分词决定下一步的准确率，将生成的词语训练成长文本向量，得到对应的长文本数字标识符，进而根据长文本向量在数据库中获取到与文本信息相似的病历信息。通过这种系统检索病历信息，不需要专家参与，而是通过医疗人工智能的方法自动从数据库中挖掘和学习医疗知识，构建相似病历比较的模型，该模型能综合多种类型自由文本的比较结果，能高效、准确地得到相似的病历推荐，与医生人工比较得到的结果高度相符，能给医生提供具有实用价值的临床路径参考结果，有效地解决了医生消耗大量的时间在查阅历史以往病历上面的问题，同时也能够使用这个系统来协助缺乏医学经验的医生，使患者更好的、及时的得到诊断治疗，进而提高临床就诊效率和临床诊断准确率。

具体地，本系统的主要处理对象为自由文本中的主诉、现病史、既往史、个人史、家族史、和一般检查结果，得到对病人完善的辅助诊断。

在上述实施例中，优选地，所述处理器504执行所述计算机程序时还实现：对文本信息进行分词处理，生成词语的步骤之后，还包括：对词语的词性进行标注处理；根据词语的词性的标注对词语进行分类处理。

在上述任一实施例中，优选地，所述处理器504执行所述计算机程序时实现对文本信息进行分词处理，生成词语的步骤，具体包括：根据疾病词典、正则表达式、去除停用词对文本信息进行分词处理，生成词语。

在上述任一实施例中，优选地，所述处理器504执行所述计算机程序时实现将词语训练成长文本向量的步骤，具体包括：将词语训练成词语向量；将词语向量组成长文本向量。

在上述任一实施例中，优选地，所述处理器执行所述计算机程序时实现根据长文本向量在数据库中获取与文本信息相似的病历信息步骤，具体包括：在数据库中获取与文本信息相似的多个长文本，并将多个长文本分别切分成词集合，作为筛选集合；在筛选集合中获取与文本信息进行分词处理后的词语集合相匹配的长文本，并作为优先考虑结果；根据长文本向量计算筛选集合中与文本信息不匹配的词集合和文本信息进行分词处理后的词语集合的关联性；判断关联性是否大于预设阈值；若关联性大于预设阈值，则将与文本信息不匹配的长文本按照关联性的大小正序排列。

具体地，如图6所示，输入患者病历6，在病历数据库60中获取相似病历62，并将结果返给医生。具体地，患者将病症描述一遍后，医生可以根据经验来检索长文本相似病历，做出相对应的临床诊断，提供一个合适的治疗方案给患者。

具体地，如图7所示，医生根据新患者的输入新患者的病历数据7，将病历数据中的主诉输入数据70、患者疾病史数据72、一般检查数据74分离，根据分离的数据进行主诉相似度计算702、病史相似度计算722、综合相似度计算742，从中文电子病历数据库78中获取相似病历，将检查结果返回76，辅助医生做出临床诊断。

如图8所示，本发明的第三方面，提出了一种计算机设备8，包括存储器80、处理器82及存储在所述存储器80上并可在所述处理器82上运行的计算机程序，所述处理器82执行所述计算机程序时实现如上述任一实施例所述的病历文本相似度的检索方法。

本发明提出的实施例，因包括上述任一实施例所述的病历文本相似度的检索方法，因此具有所述病历文本相似度的检索方法的全部有益效果。

本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一实施例所述方法的步骤，因而具备病历文本相似度的检索方法的全部技术效果，在此不再赘述。

在本发明中，术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种病历文本相似度的检索方法，其特征在于，包括：

接收文本信息；

对所述文本信息进行分词处理，生成词语；

将所述词语训练成长文本向量；

根据所述长文本向量在数据库中获取与所述文本信息相似的病历信息。

2.根据权利要求1所述的病历文本相似度的检索方法，其特征在于，所述对所述文本信息进行分词处理，生成词语的步骤之后，还包括：

对所述词语的词性进行标注处理；

根据所述词语的词性的标注对所述词语进行分类处理。

3.根据权利要求1所述的病历文本相似度的检索方法，其特征在于，所述对所述文本信息进行分词处理，生成词语的步骤，具体包括：

根据疾病词典、正则表达式、去除停用词对所述文本信息进行分词处理，生成词语。

4.根据权利要求2所述的病历文本相似度的检索方法，其特征在于，所述将所述词语训练成长文本向量的步骤，具体包括：

将所述词语训练成词语向量；

将所述词语向量组成所述长文本向量。

5.根据权利要求1至4中任一项所述的病历文本相似度的检索方法，其特征在于，所述根据所述长文本向量在数据库中获取与所述文本信息相似的病历信息步骤，具体包括：

在所述数据库中获取与所述文本信息相似的多个长文本，并将所述多个长文本分别切分成词集合，作为筛选集合；

在所述筛选集合中获取与所述文本信息进行分词处理后的词语集合相匹配的长文本，并作为优先考虑结果；

根据所述长文本向量计算所述筛选集合中与所述文本信息不匹配的词集合和所述文本信息进行分词处理后的词语集合的关联性；

判断所述关联性是否大于预设阈值；

若所述关联性大于所述预设阈值，则将与所述文本信息不匹配的长文本按照关联性的大小正序排列。

6.一种病历文本相似度的检索系统，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现：

接收文本信息；

对所述文本信息进行分词处理，生成词语；

将所述词语训练成长文本向量；

7.根据权利要求6所述的病历文本相似度的检索系统，其特征在于，所述处理器执行所述计算机程序时实现所述对所述文本信息进行分词处理，生成词语的步骤之后，还包括：

对所述词语的词性进行标注处理；

根据所述词语的词性的标注对所述词语进行分类处理。

8.根据权利要求6所述的病历文本相似度的检索系统，其特征在于，所述处理器执行所述计算机程序时实现所述对所述文本信息进行分词处理，生成词语的步骤，具体包括：

9.根据权利要求7所述的病历文本相似度的检索系统，其特征在于，所述处理器执行所述计算机程序时实现所述将所述词语训练成长文本向量的步骤，具体包括：

将所述词语训练成词语向量；

将所述词语向量组成所述长文本向量。

10.根据权利要求6至9中任一项所述的病历文本相似度的检索系统，其特征在于，所述处理器执行所述计算机程序时实现所述根据所述长文本向量在数据库中获取与所述文本信息相似的病历信息步骤，具体包括：

判断所述关联性是否大于预设阈值；

11.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的病历文本相似度的检索方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的病历文本相似度的检索方法。