CN114707608B

CN114707608B - 医疗质控数据处理方法、装置、设备、介质及程序产品

Info

Publication number: CN114707608B
Application number: CN202210383158.6A
Authority: CN
Inventors: 周睿; 宋彪; 王哲
Original assignee: Inner Mongolia Weishu Data Technology Co ltd
Current assignee: Inner Mongolia Weishu Data Technology Co ltd
Priority date: 2021-04-14
Filing date: 2022-04-13
Publication date: 2023-08-01
Anticipated expiration: 2042-04-13
Also published as: CN114707608A; CN113537274A

Abstract

本申请提供了一种医疗质控数据处理方法、装置、设备、介质及程序产品，通过获取多个医院的历史检测数据以及用户输入的异常控制比例和循环结束条件；利用预设聚类模型，根据聚类结果对预设的初始分类模型进行训练，以确定质控分类模型；通过质控分类模型对测试数据进行误差识别测试，并根据测试结果对应的假阳率判断是否满足循环结束条件，假阳率用于表征被误判数据占测试数据的比例；若否，则根据预设调整规则调整异常控制比例的取值，并重新根据调整后的异常控制比例对历史检测数据进行聚类处理，重新训练质控分类模型，直至假阳率满足循环结束条件。解决了如何为医疗数据质控方法建立起一个标准参考系的技术问题。

Description

医疗质控数据处理方法、装置、设备、介质及程序产品

本申请要求于2021年4月14日提交中国专利局，申请号为202110398353.1，申请名称为“一种基于机器学习技术的设备异常识别方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及医疗质控技术领域，尤其涉及一种医疗质控数据处理方法、装置、设备、介质及程序产品。

背景技术

质量监控是产品生产过程中的一个重要环节，由此也形成了对人们生产生活中方方面面的质量监控思想，医疗卫生领域自然也应当存在医疗质控技术，利用该医疗质控技术对医院、医疗研究机构、医疗监管机构中的医疗数据进行质量监控。

但是诞生于产品或服务领域的质控技术在应用到医疗卫生领域时却面临着非常巨大的困难。因为质量监控的核心是检测某个产品或某个服务的一个或多个指标是否在预设的标准范围内，而对于产品或者服务来说，其内在的特性较为简单，如产品的尺寸是否满足正态分布的六西格玛准则。但是对于医疗卫生领域来说，生物的各项生理学特性之间的关联关系是非常复杂的，人类在医学领域的理论研究仍然无法完全挖掘出这些生理学特性之间的相互作用或者相互影响，例如人体血压、血糖等生理指标的波动就和很多因素相关联。

这就造成了质控技术无法得到一个标准且明确的参考系，从而使得对医疗设备的检测数据的质控效果较差，总体质控精度不高，且易受离群值因素的影响。因此，如何为医疗数据质控方法建立起一个标准参考系成为了亟待解决的技术问题。

发明内容

本申请提供一种医疗质控数据处理方法、装置、设备、介质及程序产品，以解决如何为医疗数据质控方法建立起一个标准参考系的技术问题。

第一个方面，本申请提供一种医疗质控数据处理方法，包括：

获取多个医院的历史检测数据以及用户输入的异常控制比例和循环结束条件；

利用预设聚类模型，根据异常控制比例对历史检测数据进行聚类处理，以确定聚类结果；

根据聚类结果对预设的初始分类模型进行训练，以确定质控分类模型；

通过质控分类模型对测试数据进行误差识别测试，并根据测试结果对应的假阳率判断是否满足循环结束条件，假阳率用于表征被误判数据占测试数据的比例，被误判数据包含在误差识别测试的被剔除数据集中；

若否，则根据预设调整规则调整异常控制比例的取值，并重新根据调整后的异常控制比例对历史检测数据进行聚类处理，重新训练质控分类模型，直至假阳率满足循环结束条件。

可选的，循环结束条件包括：

假阳率小于第一预设阈值，和/或，

假阳率与第一预设阈值的比值小于或等于第二预设阈值。

在一种可能的设计中，第一预设阈值的第一取值范围包括：1％至5％，第二预设阈值的第二取值范围小于或等于20％。

在一种可能的设计中，异常控制比例的取值区间包括：20％至50％。

可选的，异常控制比例的取值区间包括：第一子区间、第二子区间以及第三子区间，第一子区间包括：20％至30％，第二子区间包括：30％至40％，第三子区间包括：40％至50％。

在一种可能的设计中，根据预设调整规则调整异常控制比例的取值，包括：

当异常控制比例的当前取值属于第二子区间时，判断异常控制比例的上一个取值所在的区间；

若上一个取值所在的区间为第一子区间，则将异常控制比例的取值调整为第三子区间中的数值；

若上一个取值所在的区间为第三子区间，则将异常控制比例的取值调整为第一子区间中的数值；

若上一个取值所在的区间为第二子区间，则根据第一预设间隔值增大或减小异常控制比例的取值。

当异常控制比例的当前取值属于第一子区间时，判断异常控制比例的上一个取值所在的区间；

当上一个取值所在的区间为第二子区间时，若当前取值对应的假阳率小于上一个取值所对应的假阳率，则根据第二预设间隔值减小异常控制比例的取值；否则，根据第三预设间隔值增大异常控制比例的取值；

若上一个取值所在的区间为第三子区间，若当前取值对应的假阳率大于上一个取值所对应的假阳率，则将异常控制比例的取值调整为第二子区间中的数值；否则根据第三预设间隔值增大异常控制比例的取值；

当上一个取值所在的区间为第一子区间时，若当前取值对应的假阳率小于上一个取值所对应的假阳率，且当前取值大于上一个取值，则根据第三预设间隔值增大异常控制比例的取值；若当前取值对应的假阳率小于上一个取值所对应的假阳率，且当前取值小于上一个取值，则根据第四预设间隔值减小异常控制比例的取值。

当异常控制比例的当前取值属于第三子区间时，判断异常控制比例的上一个取值所在的区间；

当上一个取值所在的区间为第二子区间时，若当前取值对应的假阳率小于上一个取值所对应的假阳率，则根据第五预设间隔值增大异常控制比例的取值；否则根据第六预设间隔值增大异常控制比例的取值；

当上一个取值所在的区间为第一子区间时，若当前取值对应的假阳率大于上一个取值所对应的假阳率，则将异常控制比例的取值调整为第二子区间中的数值；否则，根据第六预设间隔值增大异常控制比例的取值；

当上一个取值所在的区间为第三子区间时，若当前取值对应的假阳率小于上一个取值所对应的假阳率，且当前取值大于上一个取值，则根据第五预设间隔值增大异常控制比例的取值；若当前取值对应的假阳率小于上一个取值所对应的假阳率，且当前取值小于上一个取值，则根据第七预设间隔值减小异常控制比例的取值。

在一种可能的设计中，当异常控制比例的当前取值属于第二子区间时，判断异常控制比例的上一个取值所在的区间，还包括：

若不存在上一个取值，则将异常控制比例随机调整为第一子区间或第三子区间中的最大值或最小值。

在一种可能的设计中，当异常控制比例的当前取值属于第一子区间时，判断异常控制比例的上一个取值所在的区间，还包括：

若不存在上一个取值，则将异常控制比例调整为第三子区间中的最大值或最小值。

在一种可能的设计中，当异常控制比例的当前取值属于第三子区间时，判断异常控制比例的上一个取值所在的区间，还包括：

若不存在上一个取值，则将异常控制比例调整为第一子区间中的最大值或最小值。

第二方面，本申请提供一种医疗质控数据处理装置，包括：

获取模块，用于获取多个医院的历史检测数据以及用户输入的异常控制比例和循环结束条件；

处理模块，用于：

可选的，循环结束条件包括：

假阳率小于第一预设阈值，和/或，

假阳率与第一预设阈值的比值小于或等于第二预设阈值。

在一种可能的设计中，处理模块，用于：

在一种可能的设计中，处理模块，还用于：

当异常控制比例的当前取值属于第二子区间时，若不存在上一个取值，则将异常控制比例随机调整为第一子区间或第三子区间中的最大值或最小值。

在一种可能的设计中，处理模块，还用于：

当异常控制比例的当前取值属于第一子区间时，若不存在上一个取值，则将异常控制比例调整为第三子区间中的最大值或最小值。

在一种可能的设计中，处理模块，还用于：

当异常控制比例的当前取值属于第三子区间时，若不存在上一个取值，则将异常控制比例调整为第一子区间中的最大值或最小值。

第三个方面，本申请提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行第一方面所提供的任意一种可能的医疗质控数据处理方法。

第四方面，本申请提供一种车辆，包括：第三方面所提供的电子设备。

第五个方面，本申请提供一种存储介质，可读存储介质中存储有计算机程序，计算机程序用于执行第一方面所提供的任意一种可能的医疗质控数据处理方法。

第六方面，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所提供的任意一种可能的医疗质控数据处理系统方法。

本申请提供了一种医疗质控数据处理方法、装置、设备、介质及程序产品，通过获取多个医院的历史检测数据以及用户输入的异常控制比例和循环结束条件；利用预设聚类模型，根据异常控制比例对历史检测数据进行聚类处理，以确定聚类结果；根据聚类结果对预设的初始分类模型进行训练，以确定质控分类模型；通过质控分类模型对测试数据进行误差识别测试，并根据测试结果对应的假阳率判断是否满足循环结束条件，假阳率用于表征被误判数据占测试数据的比例，被误判数据包含在误差识别测试的被剔除数据集中；若否，则根据预设调整规则调整异常控制比例的取值，并重新根据调整后的异常控制比例对历史检测数据进行聚类处理，重新训练质控分类模型，直至假阳率满足循环结束条件。解决了如何为医疗数据质控方法建立起一个标准参考系的技术问题。以精准度较高的数据聚类处理结果作为医疗质控方法的标注参考系，提高了质控方法的识别准确度和对各类型医疗数据的识别稳定性的技术效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种医疗质控数据处理的应用场景示意图；

图2为本申请实施例提供的一种医疗质控数据处理方法的流程示意图；

图3为本申请实施例提供的一种异常控制比例与假阳率的关系曲线示意图；

图4为本申请实施提供的一种当异常控制比例的当前取值属于第二子区间时的预设调整规则的示意图；

图5为本申请实施例提供的一种当异常控制比例的当前取值属于第一子区间时的预设调整规则的示意图；

图6为本申请实施例提供的一种当异常控制比例的当前取值属于第三子区间时的预设调整规则的示意图；

图7为本申请实施例提供的一种医疗质控数据处理装置的结构示意图；

图8为本申请提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，包括但不限于对多个实施例的组合，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

医院实验室、检验科或医疗研究机构对医疗数据的检测及分析的过程可以分为前、中、后三个阶段，在这三个阶段中都可能会出现检测误差。前阶段的检测误差一般是在患者或样本的识别，标本的采集、运输、处理等过程中，由于错误的人工操作而导致的。中阶段的检测误差与检验时使用的仪器设备相关。而后阶段则与统计分析方法本身所存在的理论误差相关。

对于中阶段的检验误差，现有的质量控制程序，或者称为医疗数据质控方法，在检测、分析医疗设备或仪器的检测误差方面存在缺陷。如在1965年，由霍夫曼(Hoffman)和韦德(Waid)提出的基于患者数据的AON(Average of Normal)平均值质量控制方法，简称AON质控法，其将连续的患者数据的平均值作为控制限值，并且一般使用95％置信区间来确定稳定的患者平均值，若检测数据超出控制限值，就会发出错误信号，提示检测设备的检测质量出现了问题。但AON质控法在生物化学临床项目中对检测设备在检测葡萄糖、总蛋白临界值时出现检测质量问题的识别效果较差，总体识别准确度不高，且对检测设备的检测质量控制的效果容易受离群值影响。

本申请发明人在长期的对生化临床质控项目进行深入研究后发现，这种基于患者数据的医疗数据质控方法，仅适用于稳定的且呈正态分布的数据样本。然而在医院或者医疗研究机构中，多数检检测项目的医疗检测数据会因人群的不同、各类疾病的不同特点以及多种疾病之间的相互影响或相互关联等因素，会在检测到的医疗数据中引入大量的呈现干扰性质的噪音数据，使得检测到的医疗数据在统计后整体呈现出了非正态分布。

基于上述原因，就需要对医疗设备检测到的医疗数据进行去噪处理，或者数据清洗，剔除部分数据，使得非正态分布的医疗数据修正为呈正态分布的数据。但是，现有的质控方法中对于这个技术问题的处理十分粗糙，仅利用统计学的传统做法进行数据筛选，如对AON质控法中对95％置信区间之外的数据进行简单剔除。

但是由于各项医疗数据之间具有复杂关联性，即对于医疗卫生领域来说，生物的各项生理学特性之间的关联关系是非常复杂的，人类在医学领域的理论研究仍然无法完全挖掘出这些生理学特性之间的相互作用或者相互影响，例如人体血压、血糖等生理指标的波动就和很多因素相关联。

本申请发明人经深入研究发现，仅从统计学的角度(如加权平均值、移动平均值、置信区间、预设控制限制值等等)进行数据剔除，其准确性较差，可能还存在着大量噪声数据没有被筛查出来，造成最终作为质控评判参考的参考系，或者称为参考空间的范围过大，从而使得医疗数据质控方法在对医疗设备进行质控监测时，存在对医疗设备的非在控状态误判为在控状态，即导致医疗数据质控方法的识别精准度较低，对较小的检测误差的识别精度不够。并且由于统计学方法中，采用如平均值来进行数据筛选时易受极端值的影响，这就使得医疗数据质控方法易受离群值的影响。

因此，亟需采用新的聚类处理方法来剔除检测到的医疗数据中的噪声数据。

综上，为解决上述技术问题，本申请的发明构思是：

跳出研究分析各项医疗数据之间的复杂关联关系或统计学关系的惯有思维，利用机器学习的方式让计算机通过大数据构建对医疗数据的聚类模型，以假阳率来作为该聚类模型的训练指标，从而让计算机替代人来快速进行医疗数据进行分类甄别，剔除噪声数据，从而实现将医疗数据质控方法的标准参考系进行优化，提高质控精度、准确性和不同数据类型或不同误差类型的质控稳定性。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请实施例提供的一种医疗质控数据处理的应用场景示意图。如图1所示，医疗数据质控系统100包括：数据获取模块101、数据处理模块102、质控模型构建模块103、异常识别模块104。

其中，数据获取模块101用于获取医学检验项目中的质控在控数据，例如，实验室信息系统(Laboratory Information System,LIS)的检验结果数据。所谓质控在控数据是指经医学检验领域质控行业标准判定的，由符合该质控行业标准的医疗设备所检测到的医疗数据。数据获取模块101获取的质控在控数据的数据量非常大，一般至少在10万个以上。

数据处理模块102用于：将获取到的质控在控数据进行预处理，包括：去除特殊值、统一单位量纲、离群值过滤、数据标准正态化、特征强化等等。

质控模型构建模块103用于：利用数据处理模块102处理后的数据构建质控分类模型，例如通过处理后的数据，训练随机森林模型，从而得到质控分类器即质控分类模型。

异常识别模块104用于：利用质控模型构建模块103构建的质控分类模型来识别各个医疗设备所采集或检测的数据是否出现异常状态，即识别各个医疗设备是处于质控在控状态，还是处于异常的质控非在控状态。

医疗数据质控系统100中数据处理模块102对质控在控数据进行离群值过滤与上述“剔除检测到的医疗数据中的噪声数据”相对应。本申请所提供的医疗质控数据处理方法即可实现较为精准的离群值过滤，以提高质控模型构建模块103进行质控分类模型构建时的精度，或者说是缩小质控参考系的空间范围，使得质控分类模型在提高识别医疗设备的非在控状态的准确度的同时，也提高了质控分类模型对数值较小的检测误差的识别精度。但是，由于离群值过滤的效果需要通过对质控分类模型进行医疗数据检测的误差识别测试，如假阳率、假阴率等指标来判断，这就使得离群值过滤的策略的调整得不到及时的反馈，需要消耗大量的计算资源，严重影响了质控方案的构建和实施，甚至造成医疗质控方案不能落地的技术问题。

为解决上述问题，下面对本申请提供的医疗质控数据处理方法的具体步骤流程进行举例说明。

图2为本申请实施例提供的一种医疗质控数据处理方法的流程示意图。如图2所示，该医疗质控数据处理方法的具体步骤，包括：

S201、获取多个医院的历史检测数据以及用户输入的异常控制比例和循环结束条件。

在本步骤中，历史检测数据来源于多个医院的多个不同的医疗设备，每个医疗设备都能够检测收集到一项或多项医疗数据。需要说明的历史检测数据都必须是经过处于质控在控状态，即正常检测状态的医疗设备所检测的医疗数据，即质控在控数据。

在本实施例中，如图1所示，医疗数据质控系统100的数据获取模块101通过网络接口接收各个医院或者医疗研究机构上传的历史检测数据，并将历史检测数据存储到数据库中。可选的，数据获取模块101也可以直接读取已经由用户预先存储在数据库中的历史检测数据。

在一种可能的设计中，由于各个医院所使用的医疗设备的生产商不同，或者是对医疗数据的检测要求不同，上传的历史检测数据的取值、单位量纲等会出现数据格式规范不统一的现象。因此，需要先对历史检测数据进行特殊值去除，包括：去除非数值型的数据，例如“*”、“-”、“#”等无法与数值进行比对的特殊字符。然后，统一相同类型的医疗数据的单位量纲，以避免后续聚类处理时出现错误或者偏差。接下来，去除数值大于正常生理极限值N倍的历史检测数据，可选的N大于或等于2。

对于异常控制比例和循环结束条件，用户可以通过预设的交互界面进行选择或者输入。异常控制比例用于控制在聚类处理时从历史检测数据中剔除的最大数据量，可以理解的是，在所剔除的数据量可以小于此最大数据量。循环结束条件用于判断聚类处理结果是否达到用户的预设要求。

S202、利用预设聚类模型，根据异常控制比例对历史检测数据进行聚类处理，以确定聚类结果。

在本步骤中，对历史检测数据进行聚类处理包括：将历史检测数据划分成多个数据群(即聚类结果)，每个数据群中的医疗数据之间在一个或多个特征维度的相似性满足预设聚类模型的第一聚类规则要求，而不同数据群中的医疗数据之间其相似性满足预设聚类模型的第二聚类规则要求。第一聚类规则要求包括：相似性大于或等于第一预设阈值，第二聚类规则包括相似性小于第二预设阈值，其中第一预设阈值大于或等于第二预设阈值。

如果某个医疗数据不能被归入到任意一个数据群当中，那么该医疗数据就会被滤除，即离群值过滤，也就达到了剔除历史检测数据中的噪声数据。

需要说明的是，“聚类”是在不知道各个医疗数据之间的复杂关联关系的情况下，通过在不同特征维度观测各个医疗数据之间的汇聚情况，进而为每个数据群设立决策边界，决策边界所围的空间区域就形成了医疗数据质控方法的质控对比依据，即参考系或者参考空间。其与现有的医疗数据质控技术中基于统计学方法的“分类”是完全不同的，“分类”需要依靠已知的分类规则，这个分类规则已经从统计的方式得到，比如平均值、方差、置信区间等等，本申请所提供的医疗数据处理方法抛弃了用统计方法进行分类的惯性思维，从“机器学习”的角度对质控参考系的构建进行了全新的尝试。并且经过本申请发明人的测试，利用聚类处理所得到的质控参考系，其假阳率即误判识别率可以做到小于1％，比国家标准规定的5％的假阳率要低的多。

还需要说明的是，在各类机器学习的聚类模型中，如K-Means算法模型、K-Means++算法模型、K-Medoids算法模型、随机森林模型、孤立森林模型等等模型中，本申请发明人经过大量测试对比，发现孤立森林模型对各类型的医疗数据的聚类效果都比较理想，即孤立森林模型在应用于医疗数据质控领域的质控参考系构建时其泛化性能最好。可以理解的是，若本领域技术人员需要针对某个生化临床项目进行针对性的质控时，也可以选用其它的聚类模型，本申请不作限定。

孤立森林会综合样本的距离与密度筛选有效数据。但是如果异常控制比例设置过小，则无法有效减少噪声数据；如果异常控制比例设置过大，则在实际检测环节会导致延迟，从而扩大受影响的患者样本数。这就需要通过对质控分类模型进行测试后，再根据测试结果循环调整异常控制比例，以达到最优的过滤效果。

还需要说明的是，异常控制比例有两个作用：一是避免预设聚类模型过度剔除数据，即避免假阳率过高，另一个是控制预设聚类模型的聚类时间，提高聚类处理的效率，避免陷入死循环。

S203、根据聚类结果对预设的初始分类模型进行训练，以确定质控分类模型。

在本步骤中，数据处理模块102在步骤S202中完成了离群值过滤处理，得到了聚类结果，即用于训练质控模型的标准参考系，然后为该标准参考系添加一个或多个预设偏移量，这个过程可以用公式(1)来表示：

x′＝x(1+e) (1)

其中，x′表示偏移后的数值，x表示标准参考系中的数值，e表示预设偏移量，就得到了质控识别范围。

数据处理模块102将标准参考系、质控识别范围传输给质控模型构建模块103。质控模型构建模块103利用标准参考系和质控识别范围对预设的随机森林模型进行训练，得到了质控分类器，并将其发送给异常识别模块104。

S204、通过质控分类模型对测试数据进行误差识别测试，并根据测试结果对应的假阳率判断是否满足循环结束条件。

在本步骤中，假阳率用于表征被误判数据占测试数据的比例，被误判数据包含在被剔除数据集中。可选的，测试数据可以从历史检测数据中提取。

循环结束条件包括：假阳率小于第一预设阈值，和/或，假阳率与第一预设阈值的比值小于或等于第二预设阈值。

在本实施例中，若是，则证明聚类结果已经满足要求，结束循环流程，若否，则执行S205。

具体的，可以通过对历史检测数据进行人工标定，以判断各个历史检测数据的特征属性，然后再与聚类结果进行比对，以确定假阳率。也可以只针对聚类结果中的被剔除数据集进行人工标定，这样可以大为减少人工标定的工作量，判断被剔除数据集中被误判的医疗数据的数据量，以确定假阳率。

循环结束条件是用户设定或选择的，医疗质控领域的国家标准要求假阳率控制在5％以内，而为了进一步提高质控精度和准确度，可以将第一预设阈值设置在5％以内，可以理解的是，第一预设阈值越小，可能的循环次数越多，处理所需的时间久越长，处理效率就越低，因此，本领域技术人员可以根据实际使用场景的效率和精确度的要求综合进行选用。

需要说明的是，假阳率与第一预设阈值的比值小于或等于第二预设阈值的作用在于进一步保证聚类结果的精度和准确度，或者是验证聚类模型的极限聚类准确性和极限精度。

S205、根据预设调整规则调整异常控制比例的取值。

在本步骤中，在假阳率不满足循环结束条件，即聚类结果不满足用户预设的要求时，需要重新给异常控制比例赋值，并返回S202重新进行聚类处理。

在本实施例中，异常控制比例的取值区间包括：20％至50％。

不同的预设调整规则会对循环的次数产生影响，即对本实施例所提供的处理方法的处理效率产生影响。此外还可能会影响最终的质控参考系的精准度。例如，采用相同的聚类模型，但是由于不同的预设调整规则，会使得找到最佳的异常控制比例所需要的循环次数，甚至无法找到理论上最佳的异常控制比例，或者说所找到的最佳控制比例并不是理论上的最优值，这就会影响质控参考系的精准度。

具体的预设调整规则下面会结合图2至图6进行举例介绍，在此不再赘述。

本实施例提供了一种医疗质控数据处理方法，通过获取多个医院的历史检测数据以及用户输入的异常控制比例和循环结束条件；利用预设聚类模型，根据异常控制比例对历史检测数据进行聚类处理，以确定聚类结果；根据聚类结果对预设的初始分类模型进行训练，以确定质控分类模型；通过质控分类模型对测试数据进行误差识别测试，并根据测试结果对应的假阳率判断是否满足循环结束条件，假阳率用于表征被误判数据占测试数据的比例，被误判数据包含在误差识别测试的被剔除数据集中；若否，则根据预设调整规则调整异常控制比例的取值，并重新根据调整后的异常控制比例对历史检测数据进行聚类处理，重新训练质控分类模型，直至假阳率满足循环结束条件。解决了如何为医疗数据质控方法建立起一个标准参考系的技术问题。以精准度较高的数据聚类处理结果作为医疗质控方法的标注参考系，提高了质控方法的识别准确度和对各类型医疗数据的识别稳定性的技术效果。

为了便于理解，下面对S204中的预设调整规则进行举例说明。

图2所示实施例中，由于异常控制比例决定着最终作为质控标准的参考系的准确性和误差识别精度，即最大化地减小假阳性或者假阴性的比例。

对于调整异常控制比例，一般的思路是先为异常控制比例预设一个遍历范围，然后根据预设的遍历步长，从小到大或者从大到小进行遍历，最终得到异常控制比例与假阳率的拟合关系曲线，再根据该拟合关系曲线找到假阳率最低时对应的异常控制比例。

最终异常识别模块104利用该质控分类器对测试数据进行质控识别，检测其识别准确率，以及对较小的检测误差的识别精度。在测试通过后，就可以将该质控分类器发送给各个医院或者医疗研究机构，对各个医疗设备实时检测的医疗数据进行质控监测，及时发现处于非质控在控状态的医疗设备，避免发生误诊的现象。

这种做法理论上没有问题，但是在实际实施时，每个异常控制比例会得到一个参考系，再用这个参考系去训练质控分类器，再对该质控分类器进行误差识别的假阳率进行测试，这就导致需要大量的计算资源才能得到最终的异常控制比例与假阳率的拟合关系曲线，然而这条拟合关系曲线与实际关系曲线不可避免的存在着偏差，遍历步长越小，这种偏差也越小，但也需要更多的计算资源。这就导致了医疗数据质控方法的落地实施成本高、效率低，进而无法进行推广的技术问题。

图3为本申请实施例提供的一种异常控制比例与假阳率的关系曲线示意图。如图3所示，横坐标为异常控制比例，纵坐标为假阳率，为了得到该关系曲线，需要异常控制比例以2％为预设间隔，对质控分类模型进行多次误差识别测试，对异常控制比例的各个取值进行遍历，从图3的遍历结果可以得到在异常控制比例为40％时，假阳率达到最小值。但是如果在医疗质控方案实际进行部署时，为了得到这条关系曲线的测试成本过高，导致很多实验室都无法将医疗质控方案落地实施。

因此，本申请提出了一种新的对异常控制比例进行调节的预设调整规则，摒弃依赖图3所示的关系曲线的惯用调整方式，以减少异常控制比例的调整次数，尽快寻找到最优的异常控制比例，或者接近最优的异常控制比例。下面对该预设调整规则进行介绍：

首先，将异常控制比例的取值区间划分为三个子区间，包括：第一子区间、第二子区间以及第三子区间。

本申请发明人结合大量医疗质控领域的建模数据，发现一般在医疗质控领域，对异常控制比例的取值调控区间一般在20％至50％，则在一种可能的设计中，第一子区间包括：20％至30％，第二子区间包括：30％至40％，第三子区间包括：40％至50％。

图4为本申请实施提供的一种当异常控制比例的当前取值属于第二子区间时的预设调整规则的示意图。如图4所示，该预设调整规则的具体步骤，包括：

S401、判断异常控制比例是否存在上一个取值。

在本步骤中，若是，则执行S402，若否，则执行S406。

具体的，当异常控制比例为用户输入的数值时，其不存在上一个取值，即当前取值就是第一个取值，否则其只要不是第一个取值，就会存在上一个取值。

S402、判断异常控制比例的上一个取值所在的区间。

在本实施例中，当上一个取值所在的区间为第一子区间时，若当前取值对应的假阳率大于上一个取值所对应的假阳率，则执行步骤S403，否则执行步骤S405。当上一个取值所在的区间为第三子区间时，若当前取值对应的假阳率大于上一个取值所对应的假阳率时，执行步骤S404，否则执行步骤S405。当上一个取值所在的区间也为第二子区间时，执行步骤S405。

S403、将异常控制比例的取值调整为第三子区间中的数值。

S404、将异常控制比例的取值调整为第一子区间中的数值。

对于步骤S403和步骤S404，本申请发明人经过对大量实验数据的比较，发现在医疗质控领域，最优的异常控制比例分布在第一子区间和第三子区间的概率较大，因此，可以通过在这两个区间交替寻找的方式可以快速寻找最优的或者接近最优的异常控制比例，大大减少调整的次数。

S405、根据第一预设间隔值增大或减小异常控制比例的取值。

在本步骤是当假阳率在前后两次调整中改变了之前的变化趋势时，证明异常控制比例已经调整到了最优值的附近，因此需要进行微调，以得到最优的异常控制比例，进一步将假阳率降低。可选的，在首次执行本步骤时，可以开启微调计数，当计数次数达到计数阈值时，停止微调，取之前所得到的假阳率的最小值所对应的异常控制比例作为最终的异常控制比例，这样可以进一步提高调整的效率。

S406、将异常控制比例随机调整为第一子区间或第三子区间中的最大值或最小值。

在本步骤中，异常控制比例的当前值即用户输入的第一个异常控制比例，为了尽快找到最优异常控制比例，则需要在最优的异常控制比例分布概率较高的第一子区间或者第三子区间中选择，所以本步骤可以包括四种方式：

将异常控制比例调整为第一子区间的最小值；

将异常控制比例调整为第三子区间的最大值；

将异常控制比例调整为第一子区间的最大值；

将异常控制比例调整为第三子区间的最小值。

以上四种方式可以随机选择一种作为下一个异常控制比例的取值。可以理解的是，也可以固定选择其中一种调整方式，本领域技术人员可以根据实际应用的需要进行选择，本申请不作限定。

图5为本申请实施例提供的一种当异常控制比例的当前取值属于第一子区间时的预设调整规则的示意图。如图5所示，该预设调整规则的具体步骤，包括：

S501、判断异常控制比例是否存在上一个取值。

在本步骤中，若是，则执行S502，若否，则执行S507。

S502、判断异常控制比例的上一个取值所在的区间。

在本步骤中，当上一个取值所在的区间为第二子区间时，若当前取值对应的假阳率小于上一个取值所对应的假阳率，则执行步骤S503，否则执行步骤S505。

当上一个取值所在的区间为第三子区间时，若当前取值对应的假阳率大于上一个取值所对应的假阳率，则执行步骤S504，否则执行步骤S505。

当上一个取值所在的区间也为第一子区间时，若当前取值对应的假阳率小于上一个取值所对应的假阳率，且当前取值大于上一个取值，则执行步骤S505；若当前取值对应的假阳率小于上一个取值所对应的假阳率，且当前取值小于上一个取值，则执行步骤S506。

S503、根据第二预设间隔值减小异常控制比例的取值。

S504、将异常控制比例的取值调整为第二子区间中的数值。

S505、根据第三预设间隔值增大异常控制比例的取值。

S506、根据第四预设间隔值减小异常控制比例的取值。

S507、将异常控制比例调整为第三子区间中的最大值或最小值。

在本步骤中，为了尽快找到最优异常控制比例，由于本申请发明人比对了大量试验数据发现最优的异常控制比例分布在第一子区间或者第三子区间的概率较高，则需要在第一子区间或者第三子区间中选择异常控制比例。由于当前取值在第一子区间，因此，可以先将第二个异常控制比例调整为第三子区间的最大值或最小值，进入到图6所示实施例继续进行调整。

图6为本申请实施例提供的一种当异常控制比例的当前取值属于第三子区间时的预设调整规则的示意图。如图6所示，该预设调整规则的具体步骤，包括：

S601、判断异常控制比例是否存在上一个取值。

在本步骤中，若是，则执行S602，若否，则执行S606。

S602、判断异常控制比例的上一个取值所在的区间。

在本步骤中，当上一个取值所在的区间为第二子区间时，若当前取值对应的假阳率小于上一个取值所对应的假阳率，则执行步骤S603，否则执行步骤S605。

当上一个取值所在的区间为第一子区间时，若当前取值对应的假阳率大于上一个取值所对应的假阳率，则执行步骤S604，否则执行步骤S605。

当上一个取值所在的区间也为第三子区间时，若当前取值对应的假阳率小于上一个取值所对应的假阳率，且当前取值大于上一个取值，则执行步骤S605，若当前取值对应的假阳率小于上一个取值所对应的假阳率，且当前取值小于上一个取值，则执行步骤S606。

S603、根据第五预设间隔值增大异常控制比例的取值。

S604、将异常控制比例的取值调整为第二子区间中的数值。

S605、根据第六预设间隔值增大异常控制比例的取值。

S606、根据第七预设间隔值减小异常控制比例的取值。

S607、将异常控制比例调整为第一子区间中的最大值或最小值。

在本步骤中，为了尽快找到最优异常控制比例，由于本申请发明人比对了大量试验数据发现最优的异常控制比例分布在第一子区间或者第三子区间的概率较高，则需要在第一子区间或者第三子区间中选择异常控制比例。由于当前取值在第一子区间，因此，可以先将第二个异常控制比例调整为第三子区间的最大值或最小值，进入到图5所示实施例继续进行调整。

通过结合图4、图5和图6所示的预设调整规则，实现了无需遍历异常控制比例的总取值范围，即可快速寻找到最优的异常控制比例，大大提高了处理效率，节省了计算资源，为本申请方案的推广实施垫定了基础。

图7为本申请实施例提供的一种医疗质控数据处理装置的结构示意图。该医疗质控数据处理装置700可以通过软件、硬件或者两者的结合实现。

如图7所示，该医疗质控数据处理装置700包括：

获取模块701，用于获取多个医院的历史检测数据以及用户输入的异常控制比例和循环结束条件；

处理模块702，用于：

通过质控分类模型对测试数据进行误差识别测试，并根据测试结果对应的假阳率判断是否满足循环结束条件，假阳率用于表征被误判数据占测试数据的比例，被误判数据包含在被剔除数据集中；

可选的，循环结束条件包括：

假阳率小于第一预设阈值，和/或，

假阳率与第一预设阈值的比值小于或等于第二预设阈值。

在一种可能的设计中，处理模块702，用于：

在一种可能的设计中，处理模块702，还用于：

值得说明的是，图7所示实施例提供的装置，可以执行上述任一方法实施例中所提供的方法，其具体实现原理、技术特征、专业名词解释以及技术效果类似，在此不再赘述。

图8为本申请实施例提供的一种电子设备的结构示意图。如图8所示，该电子设备800，可以包括：至少一个处理器801和存储器802。图8示出的是以一个处理器为例的电子设备。

存储器802，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器802可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器801用于执行存储器802存储的计算机执行指令，以实现以上各方法实施例所述的方法。

其中，处理器801可能是一个中央处理器(central processing unit，简称为CPU)，或者是特定集成电路(application specific integrated circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选地，存储器802既可以是独立的，也可以跟处理器801集成在一起。当所述存储器802是独立于处理器801之外的器件时，所述电子设备800，还可以包括：

总线803，用于连接所述处理器801以及所述存储器802。总线可以是工业标准体系结构(industry standard architecture，简称为ISA)总线、外部设备互连(peripheralcomponent，PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器802和处理器801集成在一块芯片上实现，则存储器802和处理器801可以通过内部接口完成通信。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random accessmemory，RAM)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序指令，程序指令用于上述各方法实施例中的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由本申请的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种医疗质控数据处理方法，其特征在于，包括：

获取多个医院的历史检测数据以及用户输入的异常控制比例和循环结束条件；其中，所述历史检测数据来源于多个医院的多个不同的医疗设备，每个医疗设备都能够检测收集到一项或多项医疗数据，所述历史检测数据经过处于质控在控状态，即正常检测状态的医疗设备所检测的医疗数据，所述异常控制比例用于控制在聚类处理时从所述历史检测数据中剔除的最大数据量；

利用预设聚类模型，根据所述异常控制比例对所述历史检测数据进行聚类处理，以确定聚类结果，若所述医疗数据不能被归入到任意一个聚类结果当中，则该医疗数据会被踢除；

根据所述聚类结果对预设的初始分类模型进行训练，以确定质控分类模型；

通过所述质控分类模型对测试数据进行误差识别测试，并根据测试结果对应的假阳率判断是否满足所述循环结束条件，所述假阳率用于表征被误判数据占所述测试数据的比例，所述被误判数据包含在所述误差识别测试的被剔除数据集中；

若否，则根据预设调整规则调整所述异常控制比例的取值，并重新根据调整后的所述异常控制比例对所述历史检测数据进行聚类处理，重新训练所述质控分类模型，直至所述假阳率满足所述循环结束条件。

2.根据权利要求1所述的医疗质控数据处理方法，其特征在于，所述循环结束条件包括：

所述假阳率小于第一预设阈值，和/或，

所述假阳率与所述第一预设阈值的比值小于或等于第二预设阈值。

3.根据权利要求2所述的医疗质控数据处理方法，其特征在于，所述第一预设阈值的第一取值范围包括：1％至5％，所述第二预设阈值的第二取值范围小于或等于20％。

4.根据权利要求1-3中任意一项所述的医疗质控数据处理方法，其特征在于，所述异常控制比例的取值区间包括：20％至50％。

5.根据权利要求1所述的医疗质控数据处理方法，其特征在于，所述异常控制比例的取值区间包括：第一子区间、第二子区间以及第三子区间，所述第一子区间包括：20％至30％，所述第二子区间包括：30％至40％，所述第三子区间包括：40％至50％。

6.根据权利要求5所述的医疗质控数据处理方法，其特征在于，所述根据预设调整规则调整所述异常控制比例的取值，包括：

当所述异常控制比例的当前取值属于所述第二子区间时，判断所述异常控制比例的上一个取值所在的区间；

若所述上一个取值所在的区间为所述第一子区间，则将所述异常控制比例的取值调整为所述第三子区间中的数值；

若所述上一个取值所在的区间为所述第三子区间，则将所述异常控制比例的取值调整为所述第一子区间中的数值；

若所述上一个取值所在的区间为所述第二子区间，则根据第一预设间隔值增大或减小所述异常控制比例的取值。

7.根据权利要求5所述的医疗质控数据处理方法，其特征在于，所述根据预设调整规则调整所述异常控制比例的取值，包括：

当所述异常控制比例的当前取值属于所述第一子区间时，判断所述异常控制比例的上一个取值所在的区间；

当所述上一个取值所在的区间为所述第二子区间时，若所述当前取值对应的假阳率小于所述上一个取值所对应的假阳率，则根据第二预设间隔值减小所述异常控制比例的取值；否则，根据第三预设间隔值增大所述异常控制比例的取值；

若所述上一个取值所在的区间为所述第三子区间，若当前取值对应的假阳率大于上一个取值所对应的假阳率，则将所述异常控制比例的取值调整为所述第二子区间中的数值；否则根据所述第三预设间隔值增大所述异常控制比例的取值；

当所述上一个取值所在的区间为所述第一子区间时，若所述当前取值对应的假阳率小于所述上一个取值所对应的假阳率，且所述当前取值大于所述上一个取值，则根据第三预设间隔值增大所述异常控制比例的取值；若所述当前取值对应的假阳率小于所述上一个取值所对应的假阳率，且所述当前取值小于所述上一个取值，则根据第四预设间隔值减小所述异常控制比例的取值。

8.根据权利要求6所述的医疗质控数据处理方法，其特征在于，所述根据预设调整规则调整所述异常控制比例的取值，包括：

当所述异常控制比例的当前取值属于所述第三子区间时，判断所述异常控制比例的上一个取值所在的区间；

当所述上一个取值所在的区间为所述第二子区间时，若所述当前取值对应的假阳率小于所述上一个取值所对应的假阳率，则根据第五预设间隔值增大所述异常控制比例的取值；否则根据第六预设间隔值增大所述异常控制比例的取值；

当所述上一个取值所在的区间为所述第一子区间时，若所述当前取值对应的假阳率大于上一个取值所对应的假阳率，则将所述异常控制比例的取值调整为所述第二子区间中的数值；否则，根据所述第六预设间隔值增大所述异常控制比例的取值；

当所述上一个取值所在的区间为所述第三子区间时，若所述当前取值对应的假阳率小于所述上一个取值所对应的假阳率，且所述当前取值大于所述上一个取值，则根据第五预设间隔值增大所述异常控制比例的取值；若所述当前取值对应的假阳率小于所述上一个取值所对应的假阳率，且所述当前取值小于所述上一个取值，则根据第七预设间隔值减小所述异常控制比例的取值。

9.根据权利要求6所述的医疗质控数据处理方法，其特征在于，所述当所述异常控制比例的当前取值属于所述第二子区间时，判断所述异常控制比例的上一个取值所在的区间，还包括：

若不存在所述上一个取值，则将所述异常控制比例随机调整为所述第一子区间或所述第三子区间中的最大值或最小值。

10.根据权利要求7所述的医疗质控数据处理方法，其特征在于，所述当所述异常控制比例的当前取值属于所述第一子区间时，判断所述异常控制比例的上一个取值所在的区间，还包括：

若不存在所述上一个取值，则将所述异常控制比例调整为所述第三子区间中的最大值或最小值。

11.根据权利要求8所述的医疗质控数据处理方法，其特征在于，所述当所述异常控制比例的当前取值属于所述第三子区间时，判断所述异常控制比例的上一个取值所在的区间，还包括：

若不存在所述上一个取值，则将所述异常控制比例调整为所述第一子区间中的最大值或最小值。

12.一种医疗质控数据处理装置，其特征在于，包括：

获取模块，用于获取多个医院的历史检测数据以及用户输入的异常控制比例和循环结束条件，其中，所述历史检测数据来源于多个医院的多个不同的医疗设备，每个医疗设备都能够检测收集到一项或多项医疗数据，所述历史检测数据经过处于质控在控状态，即正常检测状态的医疗设备所检测的医疗数据，所述异常控制比例用于控制在聚类处理时从所述历史检测数据中剔除的最大数据量；

处理模块，用于：

13.一种电子设备，其特征在于，包括：处理器以及存储器；

所述存储器，用于存储所述处理器的计算机程序；

所述处理器配置为经由执行所述计算机程序来执行权利要求1至11任一项所述的医疗质控数据处理方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11任一项所述的医疗质控数据处理方法。