CN113284577B

CN113284577B - 药品预测方法、装置、设备及存储介质

Info

Publication number: CN113284577B
Application number: CN202110566394.7A
Authority: CN
Inventors: 吴汉
Original assignee: Kangjian Information Technology Shenzhen Co Ltd
Current assignee: Kangjian Information Technology Shenzhen Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2023-08-11
Anticipated expiration: 2041-05-24
Also published as: WO2022247549A1; CN113284577A

Abstract

本发明涉及人工智能领域，公开了一种药品预测方法、装置、设备及存储介质，用于解决现有技术中药品预测方法对药品进行预测时准确度较低的技术问题。该方法包括：获取经授权的历史问诊数据中的多条历史问诊记录，并提取其中的第一问诊特征；统计各第一问诊特征对应的历史问诊记录的数量，并生成每种第一问诊特征在历史问诊数据中的分布数据；对历史问诊数据进行清洗，根据分布数据组成的问诊数据训练集对预置的深度学习工具进行训练得到药品预测模型；基于药品预测请求获取问诊信息文本，根据问诊信息文本提取第二问诊特征后输入药品预测模型中进行预测，得到药品预测结果。此外，本发明还涉及区块链技术，药品预测的相关信息可存储于区块链中。

Description

药品预测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种药品预测方法、装置、设备及存储介质。

背景技术

患者就诊时，医生需通过患者的病情描述以及检验结果对病情进行综合判断，并根据判断结果对患者的用药进行选择；随着人工智能领域的技术发展，在各行各业中逐渐采用人工智能辅助或替代人们做一些简单的工作，例如：根据问诊信息进行药品预测，医生或患者可以基于预测的结果进行药品选择。

但是，现有药品预测方法中需要进行数据的学习训练，而在目前的学习训练过程中，对于训练数据集的清洗并没有考虑到原本的数据集中的问诊数据具有一定的规律性和特殊性，而是直接对数据集中的问诊数据进行清洗，使得在数据处理的过程中一定程度上破坏了数据集的规律性和特殊性，从而使得训练得出的药品预测模型推荐不准确，进一步导致药品预测的准确度降低。

发明内容

本发明的主要目的在于解决现有技术中药品预测方法预测的准确度较低的技术问题。

本发明第一方面提供了一种药品预测方法，包括：获取经授权的历史问诊数据，并提取所述历史问诊数据中的所有第一问诊特征，其中，所述历史问诊数据包括多条历史问诊记录；根据所述第一问诊特征对所述历史问诊数据中的历史问诊记录进行统计，得到各第一问诊特征对应的历史问诊记录的数量，并基于所述数量生成对应的第一问诊特征在所述历史问诊数据中的分布数据；对各第一问诊特征对应的历史问诊记录进行清洗，并将清洗后的历史问诊记录与其对应的分布数据形成问诊数据训练集；根据所述问诊数据训练集对预置的深度学习工具进行训练，得到药品预测模型；在接收到药品预测请求后，获取与所述药品预测请求对应的问诊信息文本，并提取所述问诊信息文本中的第二问诊特征；将所述第二问诊特征输入所述药品预测模型中进行药品预测，得到所述第二问诊特征对应的药品预测结果。

可选的，在本发明第一方面的第一种实现方式中，所述获取经授权的历史问诊数据，并提取所述历史问诊数据中的所有第一问诊特征包括：获取经授权的历史问诊数据中的多条历史问诊记录，对所述历史问诊记录进行格式转换，得到历史问诊字符串数据；提取所述历史问诊字符串数据中的问诊信息特征以及使用药品信息，并计算所述问诊信息特征与所述使用药品信息之间的相关系数；筛选出相关系数满足预设相关系数条件的问诊信息特征，得到第一问诊特征。

可选的，在本发明第一方面的第二种实现方式中，所述筛选出相关系数满足预设相关系数条件的问诊信息特征，得到第一问诊特征包括：将所述相关系数按相关系数值由高到低进行排序，得到相关系数序列；在所述相关系数序列中按相关系数的排序，顺序筛选出多个问诊信息特征，将所述筛选出的问诊信息特征作为第一问诊特征。

可选的，在本发明第一方面的第三种实现方式中，所述根据所述第一问诊特征对所述历史问诊数据中的历史问诊记录进行统计，得到各第一问诊特征对应的历史问诊记录的数量，并基于所述数量生成对应的第一问诊特征在所述历史问诊数据中的分布数据包括：根据所述使用药品信息对所述历史问诊记录进行分类，得到分类问诊记录集；调用主成分分析法对所述分类问诊记录集中的第一问诊特征进行分析，得到所述分类问诊记录集相关性最大的第一问诊特征，并将所述相关性最大的第一问诊特征标记为所述分类问诊记录相关的主要特征；基于所述历史问诊记录中含有每种所述主要特征的历史问诊记录的数量生成第一问诊特征在所述历史问诊数据中的分布数据。

可选的，在本发明第一方面的第四种实现方式中，所述对各第一问诊特征对应的历史问诊记录进行清洗，并将清洗后的历史问诊记录与其对应的分布数据形成问诊数据训练集包括：对所述历史问诊数据进行数据一次清洗，去除错误数据，得到一次清洗数据集；对所述一次清洗数据集进行二次清洗，去除不符合所述分布数据的历史问诊数据，得到二次清洗数据集；按照所述分布数据在所述二次清洗数据集中抽取历史问诊数据，将抽取得到的历史问诊数据组成问诊数据训练集。

可选的，在本发明第一方面的第五种实现方式中，所述对所述历史问诊数据进行数据一次清洗，去除错误数据，得到一次清洗数据集包括：对所述历史问诊数据进行预清洗，去除脏数据，得到预清洗数据集；对所述预清洗数据集进行合法性匹配清洗，去除不合法数据，得到一次清洗数据集。

可选的，在本发明第一方面的第六种实现方式中，所述对所述一次清洗数据集进行二次清洗，去除不符合所述分布数据的历史问诊数据，得到二次清洗数据集包括：获取所述一次清洗数据集中的使用药品信息，根据所述使用药品信息种类以及所述药品信息种类对应的第一问诊特征绘制箱型图；基于所述箱型图对所述一次清洗数据集中的历史问诊数据进行筛选，得到异常数据，将所述异常数据去除；将所述一次清洗数据集中剩余的历史问诊数据组成二次清洗数据集。

本发明第二方面提供了一种药品预测装置，包括：第一特征获取模块，用于获取经授权的历史问诊数据，并提取所述历史问诊数据中的所有第一问诊特征，其中，所述历史问诊数据包括多条历史问诊记录；分布数据计算模块，用于根据所述第一问诊特征对所述历史问诊数据中的历史问诊记录进行统计，得到各第一问诊特征对应的历史问诊记录的数量，并基于所述数量生成对应的第一问诊特征在所述历史问诊数据中的分布数据；训练集构建模块，用于对各第一问诊特征对应的历史问诊记录进行清洗，并将清洗后的历史问诊记录与其对应的分布数据形成问诊数据训练集；训练模块，用于根据所述问诊数据训练集对预置的深度学习工具进行训练，得到药品预测模型；第二特征获取模块，用于在接收到药品预测请求后，获取与所述药品预测请求对应的问诊信息文本，并提取所述问诊信息文本中的第二问诊特征；预测模块，用于将所述第二问诊特征输入所述药品预测模型中进行药品预测，得到所述第二问诊特征对应的药品预测结果。

可选的，在本发明第二方面的第一种实现方式中，所述第一特征获取模块包括：字符串获取单元，用于获取经授权的历史问诊数据中的多条历史问诊记录，对所述历史问诊记录进行格式转换，得到历史问诊字符串数据；相关系数计算单元，用于提取所述历史问诊字符串数据中的问诊信息特征以及使用药品信息，并计算所述问诊信息特征与所述使用药品信息之间的相关系数；特征筛选单元，用于筛选出相关系数满足预设相关系数条件的问诊信息特征，得到第一问诊特征。

可选的，在本发明第二方面的第二种实现方式中，所述特征筛选单元具体用于：将所述相关系数按相关系数值由高到低进行排序，得到相关系数序列；在所述相关系数序列中按相关系数的排序，顺序筛选出多个问诊信息特征，将所述筛选出的问诊信息特征作为第一问诊特征。

可选的，在本发明第二方面的第三种实现方式中，所述分布数据计算模块包括：数据分类单元，用于根据所述使用药品信息对所述历史问诊记录进行分类，得到分类问诊记录集；特征分析单元，用于调用主成分分析法对所述分类问诊记录集中的第一问诊特征进行分析，得到所述分类问诊记录集相关性最大的第一问诊特征，并将所述相关性最大的第一问诊特征标记为所述分类问诊记录相关的主要特征；计算单元，用于基于所述历史问诊记录中含有每种所述主要特征的历史问诊记录的数量生成第一问诊特征在所述历史问诊数据中的分布数据。

可选的，在本发明第二方面的第四种实现方式中，所述训练集构建模块包括：一次清洗单元，用于对所述历史问诊数据进行数据一次清洗，去除错误数据，得到一次清洗数据集；二次清洗单元，用于对所述一次清洗数据集进行二次清洗，去除不符合所述分布数据的历史问诊数据，得到二次清洗数据集；

训练集构建单元，用于按照所述分布数据在所述二次清洗数据集中抽取历史问诊数据，将抽取得到的历史问诊数据组成问诊数据训练集。

可选的，在本发明第二方面的第五种实现方式中，所述数据清洗单元包括：预清洗子单元，用于对所述历史问诊数据进行预清洗，去除脏数据，得到预清洗数据集；合法性清洗子单元，用于对所述预清洗数据集进行合法性匹配清洗，去除不合法数据，得到一次清洗数据集。

可选的，在本发明第二方面的第六种实现方式中，所述二次清洗单元包括：箱型图绘制子单元，用于获取所述一次清洗数据集中的使用药品信息，根据所述使用药品信息种类以及所述药品信息种类对应的第一问诊特征绘制箱型图；异常值去除子单元，用于基于所述箱型图对所述一次清洗数据集中的历史问诊数据进行筛选，得到异常数据，将所述异常数据去除；数据集构建子单元，用于将所述一次清洗数据集中剩余的历史问诊数据组成二次清洗数据集。

本发明第三方面提供了一种药品预测设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述药品预测设备执行上述的药品预测方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的药品预测方法。

本发明提供的技术方案中，获取历史问诊数据并提取历史问诊数据中的所有第一问诊特征，其中，历史问诊数据包括多条历史问诊记录；统计历史问诊记录中各第一问诊特征对应的历史问诊记录的数量，并生成对应的第一问诊特征在历史问诊数据中的分布数据；对各第一问诊特征对应的历史问诊记录进行清洗后根据生成的分布数据形成问诊数据训练集；调用该问诊数据训练集对预置的深度学习工具进行训练，得到药品预测模型；在接收到药品预测请求后，获取问诊信息文本，并提取第二问诊特征；将第二问诊特征输入药品预测模型中进行药品预测，得到第二问诊特征对应的药品预测结果。本发明实施例中，对生成药品预测模型的问诊数据训练集进行数据处理时，根据历史问诊数据中原本的分布数据进行处理，使得本申请中药品预测模型的精度提高，从而提高药品预测的准确度。

附图说明

图1为本发明实施例中药品预测方法的一个实施例示意图；

图2为本发明实施例中药品预测方法的另一个实施例示意图；

图3为本发明实施例中药品预测方法的另一个实施例示意图；

图4为本发明实施例中药品预测方法的另一个实施例示意图；

图5为本发明实施例中使用的箱型图的示意图；

图6为本发明实施例中药品预测装置的一个实施例示意图；

图7为本发明实施例中药品预测装置的另一个实施例示意图；

图8为本发明实施例中药品预测设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种药品预测方法、装置、设备及存储介质，该方法具体是通过获取历史问诊数据并提取历史问诊数据中的所有第一问诊特征，其中，历史问诊数据包括多条历史问诊记录；统计历史问诊记录中各第一问诊特征对应的历史问诊记录的数量，并生成对应的第一问诊特征在历史问诊数据中的分布数据；对各第一问诊特征对应的历史问诊记录进行清洗后根据生成的分布数据形成问诊数据训练集；调用该问诊数据训练集对预置的深度学习工具进行训练，得到药品预测模型；在接收到药品预测请求后，获取问诊信息文本，并提取第二问诊特征；将第二问诊特征输入药品预测模型中进行药品预测，得到第二问诊特征对应的药品预测结果。本发明实施例中，对生成药品预测模型的问诊数据训练集进行数据处理时，根据历史问诊数据中原本的分布数据进行处理，使得本申请中药品预测模型的精度提高，从而提高药品预测的准确度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中药品预测方法的一个实施例包括：

101、获取经授权的历史问诊数据，并提取历史问诊数据中的所有第一问诊特征；

可以理解的是，本发明的执行主体可以为药品预测装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中，历史问诊数据包括多条历史问诊记录,通过信息提取工具对本实施例中的问诊平台或网络上的历史问诊记录中的内容进行提取，其中本实施例中所述问诊平台或网络上的历史问诊记录是经过问诊当事人同意后获取使用权限的信息数据，该信息数据中包含有问诊的患者信息、问诊信息、诊断结果、以及用药信息等内容，其中患者信息包括如患者年龄、性别、孕育情况、过敏史、禁忌等信息；问诊信息包括如就诊科室、主诉内容等信息。其中获得到的信息数据包含有结构化、半结构化和非结构化多种数据种类，故首先将这些信息数据进行整理并统一数据格式，得到历史问诊数据。

由于历史问诊数据中包含有的患者信息、问诊信息与诊断结果有一定的相关性，且诊断结果与用药信息一定程度上有直接的关联，本实施例中使用过滤法对获取到的历史问诊数据中包含的数据特征进行提取，并根据数据特征与用药信息进行相关度评分，根据相关度评分选择出相关度较高的数据特征，将这些相关度较高的数据特征保存为第一问诊特征，并提取出所述历史问诊数据中包含的所有第一问诊特征。

102、根据第一问诊特征对历史问诊数据中的历史问诊记录进行统计，得到各第一问诊特征对应的历史问诊记录的数量，并基于数量生成对应的第一问诊特征在历史问诊数据中的分布数据；

本实施例中，获取到第一问诊特征后，根据每种第一问诊特征对获取到的历史问诊记录进行查找与筛选，分别计算出所述历史问诊记录中包含每种第一问诊特征的历史问诊记录的数量，将得到的多个包含有不同问诊特征的历史问诊记录的数量信息组成特征统计数据。并基于特征统计数据计算出所述历史问诊数据中每种第一问诊特征的分布数据。

进一步地，由于一条历史问诊数据中可能包含有多个第一问诊特征，故本实施例还可对利用主成分分析法对获取到的多条历史问诊数据中影响最大的第一问诊特征进行提取，得到可代表各历史问诊数据中相关性最大的第一问诊特征，并将该相关性最大的第一问诊特征标记为对应的历史问诊数据的第一问诊特征。随后，根据每条历史问诊数据中相关性最大的第一问诊特征进行分类，得到多个历史问诊数据分类集。并统计得到的多个历史问诊数据分类集包含的历史问诊数据条数，得到特征统计数据。根据该特征统计数据计算第一问诊特征的分布数据。例如：获取得到的妇科类病人相关的历史问诊数据数量为a条，前述步骤中获得到的全部历史问诊数据数量为10a，则可以计算出“妇科类”这一第一问诊特征的分布数据为10％。

103、对各第一问诊特征对应的历史问诊记录进行清洗，并将清洗后的历史问诊记录与其对应的分布数据形成问诊数据训练集；

由于历史问诊数据中的历史问诊记录本身具有一定的规律性和特殊性，如果不针对数据本身的规律性和特殊性直接对数据进行筛选，会导致对数据集本身的结构进行破坏，故本实施例中，在对历史问诊数据进行清洗时，首先根据第一问诊特征对历史问诊记录进行分类，首先将分类后的得到的问诊记录集分别进行数据清洗去除脏数据以及噪音干扰，得到清洗完毕的一次清洗数据集，随后基于上步骤中获取到的分布数据，从一次清洗数据集中抽取清洗问诊数据按照对应的分布数据组成问诊数据训练集。

其中，获取到的该问诊数据训练集中包含的分布数据与原本的而历史问诊数据集中的数据分布保持相同，以保证问诊数据训练集中的分布数据保持原有的规律性和特殊性，防止在数据清洗的过程中对数据集本身的结构进行破坏，将分类后的历史问诊数据分别进行数据的清洗，例如：某种第一问诊特征对应某种药品的数据在妇科类病人中占比为10％，但由于妇科类病人在历史问诊数据集中占比仅有10％，则所述第一问诊特征对应某种药品的数据在全部的历史问诊数据集中占比仅为1％，若直接对数据进行筛选时有一定的几率会将该数据清除，会破坏历史问诊数据的完整性。

104、根据问诊数据训练集对预置的深度学习工具进行训练，得到药品预测模型；

获取到上步骤中清洗完毕的问诊数据训练集后，将问诊数据训练集中的历史问诊数据分为训练集、测试集以及验证集，其中，该训练集、测试集以及验证集中的历史问诊数据的分布数据也与所述问诊数据训练集中的分布数据相同。采用该训练集、测试集以及验证集对预置的深度学习工具进行训练，其中，该预置的深度学习工具中包含有深度学习算法，基于问诊数据训练集调整深度学习算法中的原始参数，获得训练参数，基于训练参数获取到药品预测模型。

105、在接收到药品预测请求后，获取与药品预测请求对应的问诊信息文本，并提取问诊信息文本中的第二问诊特征；

建立好药品预测模型之后，接收药品预测请求并获取药品预测请求中包含的与药品预测请求对应的问诊信息文本，根据问诊信息文本中的内容提取出当前接收到的问诊信息文本中含有的第二问诊特征，所述第二问诊特征与前述步骤中提取第一问诊特征的内容相似，即同样是通过获取问诊信息文本包括如患者年龄、性别、孕育情况、过敏史、禁忌等信息；问诊信息包括如就诊科室、主诉内容等信息，并根据获取到的信息对前述步骤中筛选获得的数据特征进行匹配，得到当前问诊信息文本中含有的第二问诊特征。

106、将第二问诊特征输入药品预测模型中进行药品预测，得到第二问诊特征对应的药品预测结果。

将第二问诊特征输入构建好的药品预测模型中进行处理，输出与第二问诊特征相对应的药品预测结果。其中药品预测结果是根据历史问诊数据中使用的药品通过药品预测模型处理后输出的候选药品。此外，药品预测模型在输出候选药品后，还可以根据预先建立的药品数据库基于得出的候选药在药品数据库中查找与候选药品相同或高度相似的替代药品作为推荐药品输出结果。

本发明实施例中，对生成药品预测模型的问诊数据训练集进行数据处理时，根据历史问诊数据中原本的分布数据进行处理，提高了本申请中药品预测方法对药品预测的准确度。

请参阅图2，本发明实施例中药品预测方法的另一个实施例包括：

201、获取经授权的历史问诊数据中的多条历史问诊记录，对历史问诊记录进行格式转换，得到历史问诊字符串数据；

本实施例中，通过信息提取工具对本实施例中的问诊平台或网络上的历史问诊记录进行提取，其中本实施例中所述问诊平台或网络上的历史问诊记录是经过问诊当事人同意后获取使用权限的信息数据，将这些历史问诊记录按字符进行编码，将其转换为机器可读的字符串数据进行保存。

202、提取历史问诊字符串数据中的问诊信息特征以及使用药品信息，并计算问诊信息特征与使用药品信息之间的相关系数；

203、筛选出相关系数满足预设相关系数条件的问诊信息特征，得到第一问诊特征；

提取前述步骤中获得的历史问诊数据对应的字符串数据中包含有问诊的患者信息、问诊信息、诊断结果、以及用药信息等内容，其中患者信息包括如患者年龄、性别、孕育情况、过敏史、禁忌等信息；问诊信息包括如就诊科室、主诉内容等信息。使用过滤法对这些信息中包含的特征进行提取，德奥问诊特征信息，并将每条字符串数据中的使用药品信息进行保存。具体地，在进行使用药品信息保存时，预先获取药品名称信息库，将表示同种药品的不同商品名进行关联，在获取使用药品信息时将使用同种药品的不同商品名药品的问诊信息作为同种使用药品的问诊信息。

由于历史问诊数据对应的字符串数据中包含有的患者信息、问诊信息与诊断结果有一定的相关性，且诊断结果与用药信息一定程度上有直接的关联，本实施例中使用单变量特征选择法对获取到的历史问诊数据中包含的数据特征进行提取，并根据数据特征与用药信息进行相关度评分，根据相关度评分选择出相关度较高的数据特征，将这些相关度较高的数据特征保存为第一问诊特征。

具体地，根据所述问诊信息特征与所述使用药品信息计算出其间的相关系数，根据相关系数对相关性进行打分，保留评分最高的预先设置的数值N个特征或保留相关性评分最高一定百分数的特征，也可以对每个特征应用常见的单变量统计测试，统计假阳性率(Fpr，false positive rate)、伪发现率(Fdr，false discovery rate)或者族系误差(Fwe，family wise error)，从而选择出符合相关系数阈值的问诊信息特征，将出符合相关系数阈值的问诊信息特征保存为第一问诊特征。

204、根据第一问诊特征对历史问诊数据中的历史问诊记录进行统计，得到各第一问诊特征对应的历史问诊记录的数量，并基于数量生成对应的第一问诊特征在历史问诊数据中的分布数据；

本步骤中具体内容与前述实施例中步骤102中内容基本相同，故在此不再赘述。

205、对历史问诊数据进行数据一次清洗，去除错误数据，得到一次清洗数据集；

首先对历史问诊数据进行一次清洗去除错误数据，其中，本步骤中一次清洗主要是使用数据清洗技术对数据进行规模化的清洗，具体地，首先对历史问诊数据中的错误数据进行清洗并去除，例如，不足以用作训练数据的具有质量问题的数据，其中具体可以表现为问诊对话未完成就中断的数据；缺少必要的特征项如年龄性别和处方结果的数据等；数据明显异常如年龄明显超出正常值的数据；存在明显不合理情况如男性40岁科室显示为儿科等的数据；或明显重复的数据。将这些错误数据取出后，得到一次清洗数据集。

206、对一次清洗数据集进行二次清洗，去除不符合分布数据的历史问诊数据，得到二次清洗数据集；

调用数据分布分析法对上步骤中获取到的一次清洗数据进行数据分布特征的分析，将数据中的极端值去除，得到二次清洗数据集。例如出现过一次的99岁男性泌尿科数据，属于特殊极小批量数据，将此种特殊极小批量数据删除。

207、按照分布数据在二次清洗数据集中抽取历史问诊数据，将抽取得到的历史问诊数据组成问诊数据训练集；

在二次清洗数据集中抽取历史问诊数据，具体地，在进行抽取时是按照分布数据对二次清洗数据集进行抽取的，将抽取得到的历史问诊数据组成问诊数据训练集，其中，得到的问诊数据训练集中的分布数据与前述步骤中获得到的第一问诊特征的原本的分布数据相同，使得本实施例中获取到的问诊数据训练集保留原本的历史问诊数据集中的规律性与特殊性，使得预测模型的训练效果更好。

208、根据问诊数据训练集对预置的深度学习工具进行训练，得到药品预测模型；

209、在接收到药品预测请求后，获取与药品预测请求对应的问诊信息文本，并提取问诊信息文本中的第二问诊特征；

210、将第二问诊特征输入药品预测模型中进行药品预测，得到第二问诊特征对应的药品预测结果。

步骤208、209和步骤210中具体内容与前述实施例中步骤104、105和106中内容基本相同，故在此不再赘述。

本发明实施例中，对生成药品预测模型的问诊数据训练集进行数据处理时，首先获取历史问诊数据中的问诊特征，根据问诊特征计算出根据历史问诊数据中原本的分布数据，根据分布数据生成问诊数据训练集从而获得药品预测模型，通过该方法提高了本申请中药品预测方法对药品预测的准确度。

请参阅图3，本发明实施例中药品预测方法的另一个实施例包括：

301、获取经授权的历史问诊数据，并提取历史问诊数据中的所有第一问诊特征；

本步骤中具体内容与前述实施例中步骤101中内容基本相同，故在此不再赘述。

302、根据使用药品信息对历史问诊记录进行分类，得到分类问诊记录集；

获取所述历史问诊记录中的使用药品信息，具体地，在进行使用药品信息保存时，预先获取药品名称信息库，将表示同种药品的不同商品名进行关联，在获取使用药品信息时将使用同种药品的不同商品名药品的问诊信息作为同种使用药品的历史问诊记录。根据使用药品信息对所述历史问诊记录进行分类，得到多个分类问诊记录集。

303、调用主成分分析法对分类问诊记录集中的第一问诊特征进行分析，得到分类问诊记录集相关性最大的第一问诊特征，并将相关性最大的第一问诊特征标记为分类问诊记录相关的主要特征；

本步骤中包含的多个分类问诊记录集中，同一分类问诊记录集中包含有多种第一问诊特征，这些第一问诊特征中包含有患者信息、问诊信息等相关的多种种类，为计算时数据集规整，调用主成分分析法对所述分类历史问诊数据集中的第一问诊特征进行分析，选取所述分类问诊记录集相关性最大的若干第一问诊特征作为当前分类问诊记录集的第一问诊特征对分类问诊记录集进行标注。其中主成分分析(Principal Component Analysis，PCA)，是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分，在本实施例中就是选取数据集中的相关性最大的若干第一问诊特征作为主要特征。

304、基于历史问诊记录中含有每种主要特征的历史问诊记录的数量生成第一问诊特征在历史问诊数据中的分布数据；

获取到主要特征后，统计出所述历史问诊数据中含有每种所述主要特征的历史问诊记录的数量，将得到的统计结果作为特征统计数据，调用线性回归分析法对特征统计数据进行计算，得到各主要特征在所述历史问诊数据中的分布数据，例如：获取得到的妇科类病人相关的历史问诊数据数量为a条，前述步骤中获得到的全部历史问诊数据数量为10a，则可以计算出“妇科类”这一第一问诊特征的分布数据为10％。

305、对历史问诊数据进行数据一次清洗，去除错误数据，得到一次清洗数据集；

306、对一次清洗数据集进行二次清洗，去除不符合分布数据的历史问诊数据，得到二次清洗数据集；

307、按照分布数据在二次清洗数据集中抽取历史问诊数据，将抽取得到的历史问诊数据组成问诊数据训练集；

步骤305、306和307中具体内容与前述实施例中步骤205、206和207中内容基本相同，故在此不再赘述，

308、根据问诊数据训练集对预置的深度学习工具进行训练，得到药品预测模型；

309、在接收到药品预测请求后，获取与药品预测请求对应的问诊信息文本，并提取问诊信息文本中的第二问诊特征；

310、将第二问诊特征输入药品预测模型中进行药品预测，得到第二问诊特征对应的药品预测结果。

步骤308、309和步骤310中具体内容与前述实施例中步骤104、105和106中内容基本相同，故在此不再赘述。

请参阅图4以及图5，本发明实施例中药品预测方法的另一个实施例包括：

401、获取经授权的历史问诊数据中的多条历史问诊记录，对历史问诊记录进行格式转换，得到历史问诊字符串数据；

本步骤中具体内容与前述实施例中步骤201中内容基本相同，故在此不再赘述。

402、提取历史问诊字符串数据中的问诊信息特征以及使用药品信息，并计算问诊信息特征与使用药品信息之间的相关系数；

403、将相关系数按相关系数值由高到低进行排序，得到相关系数序列；

404、在相关系数序列中按相关系数的排序，顺序筛选出多个问诊信息特征，将筛选出的问诊信息特征作为第一问诊特征；

由于历史问诊字符串数据中包含有的患者信息、问诊信息与诊断结果有一定的相关性，且诊断结果与用药信息一定程度上有直接的关联，本实施例中使用单变量特征选择法对获取到的历史问诊字符串数据中包含的数据特征进行提取，并根据数据特征与用药信息进行相关度评分，根据相关度评分选择出相关度较高的数据特征，将这些相关度较高的数据特征保存为第一问诊特征。

具体地，根据所述问诊信息特征与所述使用药品信息计算出其间的相关系数，根据相关系数对相关性进行打分，得到相关系数分数值。根据相关系数分数值将问诊信息特征与所述使用药品信息按照相关系数的分数值由相关程度从高到低进行排序，得到相关系数序列。

得到相关系数序列后，在相关系数序列中按照相关系数的排序情况，按照排序的顺序选择出至少一个问诊信息特征。其中，具体可以保留相关系数序列的前N个特征或保留相关系数序列中占前M％的问诊信息特征，并将筛选出的问诊信息特征作为第一问诊特征。

此外，也可以对每个特征应用常见的单变量统计测试，统计假阳性率(Fpr，falsepositive rate)、伪发现率(Fdr，false discovery rate)或者族系误差(Fwe，family wiseerror)，从而选择出符合相关系数阈值的问诊信息特征，将出符合相关系数阈值的问诊信息特征保存为第一问诊特征。

405、根据使用药品信息对历史问诊记录进行分类，得到分类问诊记录集；

406、调用主成分分析法对分类问诊记录集中的第一问诊特征进行分析，得到分类问诊记录集相关性最大的第一问诊特征，并将相关性最大的第一问诊特征标记为分类问诊记录相关的主要特征；

407、基于历史问诊记录中含有每种主要特征的历史问诊记录的数量生成第一问诊特征在历史问诊数据中的分布数据；

步骤405、406和407中具体内容与前述实施例中步骤302、303和304中内容基本相同，故在此不再赘述。

408、对历史问诊数据进行预清洗，去除脏数据，得到预清洗数据集；

使用数据清洗技术对数据进行规模化的清洗，本步骤中具体首先是欲对历史问诊数据中含有质量问题的数据进行清洗并去除，得到一次清洗数据，例如，不足以用作训练数据的具有质量问题的数据，其中具体可以表现为问诊对话未完成就中断的数据；缺少必要的特征项如年龄性别和处方结果的数据等；数据明显异常如年龄明显超出正常值的数据；存在明显错误如男性40岁科室显示为儿科等的数据。

409、对预清洗数据集进行合法性匹配清洗，去除不合法数据，得到一次清洗数据集；

得到一次清洗数据后，利用已获得的第一问诊特征对一次清洗数据集进行正则匹配，具体地，预先建立本步骤中进行合法性匹配的正则表达式，调用该正则表达式对将上步骤中得到的一次清洗数据的字符串进行过滤，去除不需要的字符，得到清洗后的历史问诊数据集。

410、获取一次清洗数据集中的使用药品信息，根据使用药品信息种类以及药品信息种类对应的第一问诊特征绘制箱型图；

请参阅图5，获取所述清洗问诊数据集中的使用药品信息，将每个药品信息种类作为数轴并将对应的第一问诊特征绘制箱型图。其中，箱形图(Box-plot)又称为盒须图、盒式图或箱线图，是一种用作显示一组数据分散情况资料的统计图，主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较。箱线图的绘制方法是：先找出一组数据的上边缘、下边缘、中位数和两个四分位数；然后，连接两个四分位数画出箱体；再将上边缘和下边缘与箱体相连接，中位数在箱体中间。本步骤中通过上述步骤绘出清洗问诊数据集对应的箱型图。

411、基于箱型图对一次清洗数据集中的历史问诊数据进行筛选，得到异常数据，将异常数据去除；

412、将一次清洗数据集中剩余的历史问诊数据组成二次清洗数据集；

请继续参阅图5，获得到箱型图后，根据箱型图中的内容筛选出数据异常值，具体地，异常值被定义为小于Q₁－1.5IQR或大于Q₃+1.5IQR的值，其中Q₃和Q₁分别表示数据批的上、下四分位数，IQR表示四分位距，将数据异常值去除，将剩余的清洗问诊数据组成二次清洗数据集。其中，本实施例中的方案可以通过筛选并去除数据异常值达到除噪音和异常值(outliers)干扰的目的，如仅出现过一次的99岁男性泌尿科数据，属于特殊极小批量数据，为数据异常值，将该值去掉后可以一定程度上提高后续模型预测的准确性。

413、按照分布数据在二次清洗数据集中抽取历史问诊数据，将抽取得到的历史问诊数据组成问诊数据训练集；

本步骤中具体内容与前述实施例中步骤207中内容基本相同，故在此不再赘述。

414、根据问诊数据训练集对预置的深度学习工具进行训练，得到药品预测模型；

415、在接收到药品预测请求后，获取与药品预测请求对应的问诊信息文本，并提取问诊信息文本中的第二问诊特征；

416、将第二问诊特征输入药品预测模型中进行药品预测，得到第二问诊特征对应的药品预测结果。

步骤414、415和步骤416中具体内容与前述实施例中步骤104、105和106中内容基本相同，故在此不再赘述。

本发明实施例中，对生成药品预测模型的问诊数据训练集进行数据处理时，首先根据历史问诊数据中的问诊特征对根据历史问诊数据的分布数据进行计算，在对历史问诊数据进行清洗以及筛选后，根据获取到的历史问诊数据的分布数据生成问诊数据训练集，保留了原本历史问诊数据的规律性和特殊性，从而提高了本申请中药品预测方法对药品预测的准确度。

上面对本发明实施例中药品预测方法进行了描述，下面对本发明实施例中药品预测装置进行描述，请参阅图6，本发明实施例中药品预测装置一个实施例包括：

第一特征获取模块601，用于获取经授权的历史问诊数据，并提取所述历史问诊数据中的所有第一问诊特征，其中，所述历史问诊数据包括多条历史问诊记录；

分布数据计算模块602，用于根据所述第一问诊特征对所述历史问诊数据中的历史问诊记录进行统计，得到各第一问诊特征对应的历史问诊记录的数量，并基于所述数量生成对应的第一问诊特征在所述历史问诊数据中的分布数据；

训练集构建模块603，用于对各第一问诊特征对应的历史问诊记录进行清洗，并将清洗后的历史问诊记录与其对应的分布数据形成问诊数据训练集；

训练模块604，用于根据所述问诊数据训练集对预置的深度学习工具进行训练，得到药品预测模型；

第二特征获取模块605，用于在接收到药品预测请求后，获取与所述药品预测请求对应的问诊信息文本，并提取所述问诊信息文本中的第二问诊特征；

预测模块606，用于将所述第二问诊特征输入所述药品预测模型中进行药品预测，得到所述第二问诊特征对应的药品预测结果。

本发明实施例中，对生成药品预测模型的问诊数据训练集进行数据处理时，根据历史问诊数据中原本的分布数据进行处理，提高了本申请中药品预测装置对药品预测的准确度。

请参阅图7，本发明实施例中药品预测装置的另一个实施例包括：

可选的，第一特征获取模块601包括：

字符串获取单元6011，用于获取经授权的历史问诊数据中的多条历史问诊记录，对所述历史问诊记录进行格式转换，得到历史问诊字符串数据；

相关系数计算单元6012，用于提取所述历史问诊字符串数据中的问诊信息特征以及使用药品信息，并计算所述问诊信息特征与所述使用药品信息之间的相关系数；

特征筛选单元6013，用于筛选出相关系数满足预设相关系数条件的问诊信息特征，得到第一问诊特征。

可选的，特征筛选单元6013具体用于：

将所述相关系数按相关系数值由高到低进行排序，得到相关系数序列；

在所述相关系数序列中按相关系数的排序，顺序筛选出多个问诊信息特征，将所述筛选出的问诊信息特征作为第一问诊特征。

可选的，分布数据计算模块602包括：

数据分类单元6021，用于根据所述使用药品信息对所述历史问诊记录进行分类，得到分类问诊记录集；

特征分析单元6022，用于调用主成分分析法对所述分类问诊记录集中的第一问诊特征进行分析，得到所述分类问诊记录集相关性最大的第一问诊特征，并将所述相关性最大的第一问诊特征标记为所述分类问诊记录相关的主要特征；

计算单元6023，用于基于所述历史问诊记录中含有每种所述主要特征的历史问诊记录的数量生成第一问诊特征在所述历史问诊数据中的分布数据。

可选的，训练集构建模块603包括：

一次清洗单元6031，用于对所述历史问诊数据进行数据一次清洗，去除错误数据，得到一次清洗数据集；

二次清洗单元6032，用于对所述一次清洗数据集进行二次清洗，去除不符合所述分布数据的历史问诊数据，得到二次清洗数据集；

训练集构建单元6033，用于按照所述分布数据在所述二次清洗数据集中抽取历史问诊数据，将抽取得到的历史问诊数据组成问诊数据训练集。

可选的，一次清洗单元6031包括：

预清洗子单元，用于对所述历史问诊数据进行预清洗，去除脏数据，得到预清洗数据集；

合法性清洗子单元，用于对所述预清洗数据集进行合法性匹配清洗，去除不合法数据，得到一次清洗数据集。

可选的，二次清洗单元6032包括：

箱型图绘制子单元，用于获取所述一次清洗数据集中的使用药品信息，根据所述使用药品信息种类以及所述药品信息种类对应的第一问诊特征绘制箱型图；

异常值去除子单元，用于基于所述箱型图对所述一次清洗数据集中的历史问诊数据进行筛选，得到异常数据，将所述异常数据去除；

数据集构建子单元，用于将所述一次清洗数据集中剩余的历史问诊数据组成二次清洗数据集。

本发明实施例中，对生成药品预测模型的问诊数据训练集进行数据处理时，首先根据历史问诊数据中的问诊特征对根据历史问诊数据的分布数据进行计算，在对历史问诊数据进行清洗以及筛选后，根据获取到的历史问诊数据的分布数据生成问诊数据训练集，保留了原本历史问诊数据的规律性和特殊性，从而提高了本申请中药品预测装置对药品预测的准确度。

上面图6和图7从模块化功能实体的角度对本发明实施例中的药品预测装置进行详细描述，下面从硬件处理的角度对本发明实施例中药品预测设备进行详细描述。

图8是本发明实施例提供的一种药品预测设备的结构示意图，该药品预测设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对药品预测设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在药品预测设备800上执行存储介质830中的一系列指令操作。

药品预测设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的药品预测设备结构并不构成对药品预测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种药品预测设备，所述药品预测设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述药品预测方法的步骤。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述药品预测方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种药品预测方法，其特征在于，所述药品预测方法包括：

获取经授权的历史问诊数据，并提取所述历史问诊数据中的所有第一问诊特征，其中，所述历史问诊数据包括多条历史问诊记录；

根据所述第一问诊特征对所述历史问诊数据中的历史问诊记录进行统计，得到各第一问诊特征对应的历史问诊记录的数量，并基于所述数量生成对应的第一问诊特征在所述历史问诊数据中的分布数据；

对各第一问诊特征对应的历史问诊记录进行清洗，并将清洗后的历史问诊记录与其对应的分布数据形成问诊数据训练集；

根据所述问诊数据训练集对预置的深度学习工具进行训练，得到药品预测模型；

在接收到药品预测请求后，获取与所述药品预测请求对应的问诊信息文本，并提取所述问诊信息文本中的第二问诊特征；

将所述第二问诊特征输入所述药品预测模型中进行药品预测，得到所述第二问诊特征对应的药品预测结果；

所述对各第一问诊特征对应的历史问诊记录进行清洗，并将清洗后的历史问诊记录与其对应的分布数据形成问诊数据训练集包括：

对所述历史问诊数据进行数据一次清洗，去除错误数据，得到一次清洗数据集；

对所述一次清洗数据集进行二次清洗，去除不符合所述分布数据的历史问诊数据，得到二次清洗数据集；

按照所述分布数据在所述二次清洗数据集中抽取历史问诊数据，将抽取得到的历史问诊数据组成问诊数据训练集。

2.根据权利要求1所述的药品预测方法，其特征在于，所述获取经授权的历史问诊数据，并提取所述历史问诊数据中的所有第一问诊特征包括：

获取经授权的历史问诊数据中的多条历史问诊记录，对所述历史问诊记录进行格式转换，得到历史问诊字符串数据；

提取所述历史问诊字符串数据中的问诊信息特征以及使用药品信息，并计算所述问诊信息特征与所述使用药品信息之间的相关系数；

筛选出相关系数满足预设相关系数条件的问诊信息特征，得到第一问诊特征。

3.根据权利要求2所述的药品预测方法，所述筛选出相关系数满足预设相关系数条件的问诊信息特征，得到第一问诊特征包括：

4.根据权利要求2或3所述的药品预测方法，其特征在于，所述根据所述第一问诊特征对所述历史问诊数据中的历史问诊记录进行统计，得到各第一问诊特征对应的历史问诊记录的数量，并基于所述数量生成对应的第一问诊特征在所述历史问诊数据中的分布数据包括：

根据所述使用药品信息对所述历史问诊记录进行分类，得到分类问诊记录集；

调用主成分分析法对所述分类问诊记录集中的第一问诊特征进行分析，得到所述分类问诊记录集相关性最大的第一问诊特征，并将所述相关性最大的第一问诊特征标记为所述分类问诊记录相关的主要特征；

基于所述历史问诊记录中含有每种所述主要特征的历史问诊记录的数量生成第一问诊特征在所述历史问诊数据中的分布数据。

5.根据权利要求1所述的药品预测方法，其特征在于，所述对所述历史问诊数据进行数据一次清洗，去除错误数据，得到一次清洗数据集包括：

对所述历史问诊数据进行预清洗，去除脏数据，得到预清洗数据集；

对所述预清洗数据集进行合法性匹配清洗，去除不合法数据，得到一次清洗数据集。

6.根据权利要求1或5所述的药品预测方法，其特征在于，所述对所述一次清洗数据集进行二次清洗，去除不符合所述分布数据的历史问诊数据，得到二次清洗数据集包括：

获取所述一次清洗数据集中的使用药品信息，根据所述使用药品信息种类以及所述药品信息种类对应的第一问诊特征绘制箱型图；

基于所述箱型图对所述一次清洗数据集中的历史问诊数据进行筛选，得到异常数据，将所述异常数据去除；

将所述一次清洗数据集中剩余的历史问诊数据组成二次清洗数据集。

7.一种药品预测装置，其特征在于，所述药品预测装置包括：

第一特征获取模块，用于获取经授权的历史问诊数据，并提取所述历史问诊数据中的所有第一问诊特征，其中，所述历史问诊数据包括多条历史问诊记录；

分布数据计算模块，用于根据所述第一问诊特征对所述历史问诊数据中的历史问诊记录进行统计，得到各第一问诊特征对应的历史问诊记录的数量，并基于所述数量生成对应的第一问诊特征在所述历史问诊数据中的分布数据；

训练集构建模块，用于对各第一问诊特征对应的历史问诊记录进行清洗，并将清洗后的历史问诊记录与其对应的分布数据形成问诊数据训练集；

训练模块，用于根据所述问诊数据训练集对预置的深度学习工具进行训练，得到药品预测模型；

第二特征获取模块，用于在接收到药品预测请求后，获取与所述药品预测请求对应的问诊信息文本，并提取所述问诊信息文本中的第二问诊特征；

预测模块，用于将所述第二问诊特征输入所述药品预测模型中进行药品预测，得到所述第二问诊特征对应的药品预测结果；

所述训练集构建模块，具体用于对所述历史问诊数据进行数据一次清洗，去除错误数据，得到一次清洗数据集；对所述一次清洗数据集进行二次清洗，去除不符合所述分布数据的历史问诊数据，得到二次清洗数据集；按照所述分布数据在所述二次清洗数据集中抽取历史问诊数据，将抽取得到的历史问诊数据组成问诊数据训练集。

8.一种药品预测设备，其特征在于，所述药品预测设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述药品预测设备执行如权利要求1-6中任一项所述的药品预测方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述药品预测方法的步骤。