CN115101182A - 基于qmr信念网络的导诊方法 - Google Patents
基于qmr信念网络的导诊方法 Download PDFInfo
- Publication number
- CN115101182A CN115101182A CN202210746063.6A CN202210746063A CN115101182A CN 115101182 A CN115101182 A CN 115101182A CN 202210746063 A CN202210746063 A CN 202210746063A CN 115101182 A CN115101182 A CN 115101182A
- Authority
- CN
- China
- Prior art keywords
- patient
- qmr
- belief network
- outpatient
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000003745 diagnosis Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 208000024891 symptom Diseases 0.000 claims description 31
- 201000010099 disease Diseases 0.000 claims description 25
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 2
- 239000000463 material Substances 0.000 claims description 2
- 206010033675 panniculitis Diseases 0.000 description 13
- 210000004304 subcutaneous tissue Anatomy 0.000 description 13
- 238000012360 testing method Methods 0.000 description 7
- 206010028980 Neoplasm Diseases 0.000 description 5
- 238000001356 surgical procedure Methods 0.000 description 5
- 208000029836 Inguinal Hernia Diseases 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 210000003414 extremity Anatomy 0.000 description 4
- 238000002682 general surgery Methods 0.000 description 4
- 206010019233 Headaches Diseases 0.000 description 3
- 206010024612 Lipoma Diseases 0.000 description 3
- 201000004404 Neurofibroma Diseases 0.000 description 3
- 208000009905 Neurofibromatoses Diseases 0.000 description 3
- 238000002316 cosmetic surgery Methods 0.000 description 3
- 201000000160 cryptorchidism Diseases 0.000 description 3
- 210000004013 groin Anatomy 0.000 description 3
- 231100000869 headache Toxicity 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 201000004931 neurofibromatosis Diseases 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 206010027476 Metastases Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007917 intracranial administration Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 210000001550 testis Anatomy 0.000 description 2
- 206010002091 Anaesthesia Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010008111 Cerebral haemorrhage Diseases 0.000 description 1
- 206010008479 Chest Pain Diseases 0.000 description 1
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 206010011498 Cryptorchism Diseases 0.000 description 1
- 102100040401 DNA topoisomerase 3-alpha Human genes 0.000 description 1
- 208000002699 Digestive System Neoplasms Diseases 0.000 description 1
- 208000010412 Glaucoma Diseases 0.000 description 1
- 206010019909 Hernia Diseases 0.000 description 1
- 101000611068 Homo sapiens DNA topoisomerase 3-alpha Proteins 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000008771 Lymphadenopathy Diseases 0.000 description 1
- 206010025323 Lymphomas Diseases 0.000 description 1
- 208000019695 Migraine disease Diseases 0.000 description 1
- 208000024313 Testicular Neoplasms Diseases 0.000 description 1
- 206010057644 Testis cancer Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000037005 anaesthesia Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 208000021018 autosomal dominant inheritance Diseases 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000013132 cardiothoracic surgery Methods 0.000 description 1
- 206010008118 cerebral infarction Diseases 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000003748 differential diagnosis Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 206010015037 epilepsy Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 201000005787 hematologic cancer Diseases 0.000 description 1
- 208000024200 hematopoietic and lymphoid system neoplasm Diseases 0.000 description 1
- 230000001631 hypertensive effect Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002601 intratumoral effect Effects 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 206010027599 migraine Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 201000001119 neuropathy Diseases 0.000 description 1
- 230000007823 neuropathy Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 230000002360 prefrontal effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007920 subcutaneous administration Methods 0.000 description 1
- 210000004003 subcutaneous fat Anatomy 0.000 description 1
- 230000002381 testicular Effects 0.000 description 1
- 201000003120 testicular cancer Diseases 0.000 description 1
- 206010044652 trigeminal neuralgia Diseases 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及智能医疗技术领域,提出一种基于QMR信念网络的导诊方法,包括下列步骤:根据门诊病历数据确定输入特征以及输出标签,其中所述输出标签包括科室信息;利用QMR信念网络对所述输入特征以及所述输出标签进行训练以使得所述输入特征与所述输出标签关联;利用生成式实体抽取模型从患者描述中获取实体;以及将所述实体输出所述QMR信念网络中,其中将所述实体转化为所述输入特征并且生成预测标签,所述预测标签包括推荐科室。
Description
技术领域
本发明总的来说涉及智能医疗技术领域。具体而言,本发明涉及一种基于QMR(Quick Medical Reference,快速医学参考)信念网络的导诊方法。
背景技术
现实生活中当患者罹患疾病时,常常由于患者缺乏专业的医疗知识而无法前往合适的科室就诊。
现有技术中的导诊方法可以实现一定程度上的智能导诊,然而其对患者发病部位以及症状信息的获取不够人性化、并且准确率和全面率也不高。这是由于现有的导诊方法对于患者发病部位以及症状信息的获取通常是基于患者点选的专业词汇或者基于对自然文本通过正则进行提取。患者点选的专业词汇虽然提高了发病部位及症状信息的严谨性,但对用户而言是不友好的,因为用户无法掌握专业的发病部位及症状的描述,而自然文本通过正则进行提取相关信息,则存在提取不到超出词库范围外的症状、部位信息,并且对于“无发热”“无头痛”之类的否定描述会造成错误提取。
另外现有的导诊方法通常通过固定的部位-科室映射规则或者知识图谱来实现导诊,而这会导致导诊准确率不高。以固定的部位-科室映射规则方法为例,患者描述胸部疼痛,与胸部相关的科室有呼吸科、心内科、心胸外科、皮肤科等,无法做到科学合理的导诊,而基于知识图谱进行导诊的方法则并未考虑各种疾病发病率是有差异的,两种疾病可能会有同样的发病部位、症状。
发明内容
为至少部分解决现有技术中的上述问题,本发明提出一种基于QMR信念网络的导诊方法,包括下列步骤:
根据门诊病历数据确定输入特征以及输出标签,其中所述输出标签包括科室信息;
利用QMR信念网络对所述输入特征以及所述输出标签进行训练以使得所述输入特征与所述输出标签关联;
利用生成式实体抽取模型从患者描述中获取实体;以及
将所述实体输出所述QMR信念网络中,其中将所述实体转化为所述输入特征并且生成预测标签,所述预测标签包括推荐科室。
在本发明一个实施例中规定,对原始的门诊病历数据进行数据清洗以生成第一门诊病历数据,其中包括下列步骤:
读取所述原始的门诊病例数据,所述原始的门诊病例数据包括数据id、患者性别、患者年龄、患者主诉、现病史、既往史、确诊疾病以及科室信息;
对所述原始的门诊病例数据添加数据序号,并且将所述患者主诉、所述现病史、所述既往史的缺失处设置为空值;
删除所述患者主诉以及所述现病史均为空值的原始门诊病例数据;以及
删除所述一级科室为空值的原始的门诊病例数据以生成所述第一门诊病例数据。
在本发明一个实施例中规定,将所述第一门诊病历数据结构化,其中包括下列步骤:
构造医疗同义词词典;
基于所述医疗同义词词典构造AC自动机;以及
基于所述第一门诊病例数据中的患者主诉以及现病史,通过所述AC自动机进行匹配以便将所述第一门诊病历数据结构化。
在本发明一个实施例中规定,提取所述第一门诊病历数据中患者主诉以及现病史的标准词,并且对所述标准词进行特征限定,其中包括下列步骤:
构造标准词对照表,所述标准词对照表包括症状标准词、疾病标准词、科室标准词、部位标准词以及检查和操作标准词;以及
将所述标准词与所述标准词对照表进行比对,并且删除所述标准词不在所述标准词对照表中的所述第一门诊病历数据。
在本发明一个实施例中规定,将所述患者性别、患者年龄以及患者主诉和现病史中的症状信息、部位信息以及检查和操作信息作为输入特征,其中包括下列步骤:
将患者年龄划分为新生儿、儿童、中青年以及老年,将患者性别划分为男以及女;以及
对所述新生儿、儿童、中青年、老年、男、女、症状信息、部位信息以及检查和操作信息进行取值,其中取值为真或者假。
在本发明一个实施例中规定,利用QMR信念网络对所述输入特征以及输出标签进行训练包括:
对所述输入特征以及所述科室信息进行编号;
通过所述QMR信念网络确定与所述科室信息关联的所述输入特征;以及
确定与所述科室信息关联的所述输入特征取值为真的概率。
在本发明一个实施例中规定,利用生成式实体抽取模型从患者描述中抽取实体包括下列步骤:
根据医患对话材料构造问句,其中所述问句与实体的类型对应;
将所述问句输入自回归响应生成模型中进行训练;
将患者描述转换为对话记录;以及
将所述对话记录输入自回归响应生成模型中,其中通过所述问句对所述对话记录进行询问以获取所述实体。
在本发明一个实施例中规定,通过贝叶斯推理算法公式根据所述输入特征生成所述预测标签及其对应概率,表示为下式:
其中,P表示概率、d表示所述预测标签、f表示所述输入特征、f右上角的正号表示所述输入特征取值为真,f右上角的负号表示所述输入特征取值为假以及i和j表示编号。
在本发明一个实施例中规定,将概率最高的10个推荐科室的概率值进行归一化,并且将概率最高的10个推荐科室及其对应的归一化概率传入下游接口。
本发明还提出一种导诊台,其包括:
控制器,其被配置为执行下列动作:
根据门诊病历数据确定输入特征以及输出标签,其中所述输出标签包括科室信息;
利用QMR信念网络对所述输入特征以及所述输出标签进行训练以使得所述输入特征与所述输出标签关联;
利用生成式实体抽取模型从患者描述中获取实体;以及
将所述实体输出所述QMR信念网络中,其中将所述实体转化为所述输入特征并且生成预测标签,所述预测标签包括推荐科室;以及显示器,其被配置为显示预测标签。
应当指出,本发明并不涉及疾病的诊断和治疗方法,而是仅仅提供了方便患者到相应科室就诊的信息,属于一种智能信息系统,也就是说,本发明也既不旨在确定患者的疾病,也不旨在提供用于诊断疾病某种参数或指标,亦不是一种疾病初筛方法。相反,本发明的方案所提供的信息不能用于疾病的诊断和治疗,而是相应的诊断和治疗应当由医院/医生向用户提供。
本发明至少具有如下有益效果:本发明可以通过中文医学命名实体识别技术提取患者信息(症状、部位)并且进行归一化,提高了获取患者主诉信息的准确率及用户使用的便捷性,主要体现在三方面,首先患者直接输入口语化的不适描述即可(例:我大腿内侧长了个包),提高了用户使用的便捷性;对于不在症状库、部位库的患者信息能够进行提取;对于否定描述实现了准确的提取,例如患者输入:我头疼俩天了,但是不发热,本发明提取患者症状为“头疼”“不发热”,提高了准确性。另外本发明的科室决策模型,基于100万份患者数据训练得出,以患者年龄、性别、发病部位、症状、发病时间作为科室决策模型的输入特征,科室及概率为输出,提高了科室推荐的准确率,模型来源于实际数据结合了疾病发病率、医院科室设置等实际信息,可以直接给用户提供亚专科的推荐,大大提高了推荐科室的精细对及准确性。以“患者76岁,男性,头痛2天”为例,可能诊断:偏头痛、高血压急性发作、青光眼、鼻窦炎、颅内感染、三叉神经痛、癫痫、脑出血、脑梗死、颅内肿瘤…现有技术方案通过贫乏的症状、部位信息进行诊断疾病,再通过疾病映射到相应科室,命中率非常低,本发明直接以实际数据为训练来源,直接推荐科室,跳过诊断疾病这一环节,提升了导诊效率和准确性。
附图说明
为进一步阐明本发明的各实施例中具有的及其它的优点和特征,将参考附图来呈现本发明的各实施例的更具体的描述。可以理解,这些附图只描绘本发明的典型实施例,因此将不被认为是对其范围的限制。在附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。
图1示出了本发明一个实施例中一个基于QMR信念网络的导诊方法的流程示意图。
图2示出了本发明一个实施例中利用生成式实体抽取模型从患者描述中获取实体的示意图。
具体实施方式
应当指出,各附图中的各组件可能为了图解说明而被夸大地示出,而不一定是比例正确的。在各附图中,给相同或功能相同的组件配备了相同的附图标记。
在本发明中,除非特别指出,“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外,“布置在…上或上方”仅仅表示两个部件之间的相对位置关系,而在一定情况下、如在颠倒产品方向后,也可以转换为“布置在…下或下方”,反之亦然。
在本发明中,各实施例仅仅旨在说明本发明的方案,而不应被理解为限制性的。
在本发明中,除非特别指出,量词“一个”、“一”并未排除多个元素的场景。
在此还应当指出,在本发明的实施例中,为清楚、简单起见,可能示出了仅仅一部分部件或组件,但是本领域的普通技术人员能够理解,在本发明的教导下,可根据具体场景需要添加所需的部件或组件。另外,除非另行说明,本发明的不同实施例中的特征可以相互组合。例如,可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征,所得到的实施例同样落入本申请的公开范围或记载范围。
在此还应当指出,在本发明的范围内,“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等,而是允许一定的合理误差,也就是说,所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推,在本发明中,表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。
另外,本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出,各方法步骤可以以不同顺序执行。
下面结合具体实施方式参考附图进一步阐述本发明。
图1示出了本发明一个实施例中一个基于QMR信念网络的导诊方法的流程示意图。如图1所示,该方法可以包括下列步骤:
步骤101、根据门诊病历数据确定输入特征以及输出标签,其中所述输出标签包括科室信息;
步骤102、利用QMR信念网络对所述输入特征以及所述输出标签进行训练以使得所述输入特征与所述输出标签关联;
步骤103、利用生成式实体抽取模型从患者描述中获取实体;以及
步骤104、将所述实体输出所述QMR信念网络中,其中将所述实体转化为所述输入特征并且生成预测标签,所述预测标签包括推荐科室。
在步骤101中可以通过python工具库对原始门诊病例数据进行数据清洗,其中包括下列步骤:
读取原始门诊病例数据,原始门诊病例数据的总数据量约为100万,其中每份所述门诊病例数据包括数据id、患者性别、患者年龄、患者主诉、现病史、既往史、确诊疾病以及一级科室等主要字段;
对每条所述门诊病例数据添加数据序号,并且将患者主诉、现病史、既往史的缺失情况确定为空列表;以及
筛选出患者主诉与现病史字段中至少一项不为空值的门诊病例数据,进一步地筛选出一级科室字段不为空值的门诊病例数据,其中每条门诊病例数据至多仅有一个一级科室标签。
经过上述数据清洗后,统计得到清洗后的门诊病例数据中包括约80种一级科室,有效数据量约70万。
进一步地,可以通过自建的医疗同义词词典将所述第一门诊病历数据结构化,其中包括下列步骤:
遍历医疗同义词词典中收录的所有单词以构造AC(Aho-Corasick)自动机,KEY为单词,VALUE为(类型,单词,标准词)三元组;
提取原数据中患者主诉、现病史中的文本,利用所述AC自动机进行匹配,在文本快速搜索词表中涉及的词语,并得到对应的(开始位置,结束位置,类型,单词,标准词)五元组。
提取原数据中患者主诉、现病史的标准词,并参考院方给出的“症状”、“疾病”、“科室”、“部位”、“检查&操作”五个类别的标准词对照表,将每条数据中患者主诉与现病史字段中不在标准词对照表中的记录删除,以限定特征词在既定范围中。
可以结合实际需求,确定并选取输入特征,并对数据中的患者年龄作转换与分段处理,其中包括下列步骤:
根据实际应用情况,选取患者性别、患者年龄、患者主诉以及现病史中的“症状”记录、“部位”记录和“检查&操作”记录作为输入特征集,选取一级科室作为输出标签;
由于原数据中年龄字段以毫秒计,将其转以年为单位,并将其分为四个年龄段,即年龄介于0与0.1315之间为“新生儿”,年龄介于0.1315与14之间为“儿童”,年龄介于14与60之间为“中青年”,年龄介于60与140之间为“老年”,其余年龄取值视为“年龄错误”;
针对性别、年龄段特征,作one hot处理,也就是说将性别拆成(男,女)两个子特征,将年龄段拆成(新生儿、儿童、中青年、老年)四个子特征;
经过上述数据处理,患者的每个特征(性别#男、性别#女、年龄#新生儿、年龄#儿童、年龄#中青年、年龄#老年、症状等、部位等、检查&操作等)均为二值属性,即或取值为真,或取值为假;
针对每条数据患者主诉与现病史中存在的“症状”、“部位”和“检查&操作”特征取值均定为真,未出现的其余特征取值均定为假,性别与年龄则依据实际情况令其中一个子特征取值为真,其余所有子特征取值为假。
另外可以分析实际数据中科室标签的分布规律与特征数目,制作训练与测试数据集,其中包括下列步骤:
提取数据中包含的“性别”、“年龄段”、“症状”、“部位”、“检查&操作”作为输入集合,提取每条数据包含的一级科室作为输出标签,构成以下操作的数据基础;
为进一步提高数据质量,从上述数据中提取特征集元素数目不少于4的数据样本,也就是说要求每条数据的输入特征中,除了包括性别与年龄信息外,还需要包含“症状”、“部位”、“检查&操作”范围内至少2个特征记录;
由于实际情况下各科室被造访的频率不一,因此分析数据中科室的概率分布(以科室被造访的频率作为概率的估计值),发现“乳腺恶性肿瘤综合治疗”“老年心血管科”“胃肠道肿瘤诊治MDT”“疫苗门诊”“高压氧舱”等5类科室的样本数目不足5条,故从数据中丢弃这些样本;另外根据实际需求,将科室标签为“麻醉科”的样本一并丢弃;
按照7∶3的比例划分数据集得到训练子集与测试子集,并保持每类科室样本在训练子集与测试子集中分布比例一致(也为7∶3)。
在步骤102中可以引入QMR信念网络作为科室预测模型,使用训练数据进行模型参数拟合,其中可以包括下列步骤:
为了便于模型处理,将依照院方给出的标准词对照表将“症状”、“部位”、“检查&操作”以及“男”、“女”、“新生儿”、“儿童”、“中青年”、“老年”等特征词配以整数编号;
类似地,将训练数据中涉及的所有类型的科室名称也配以整数编号
将训练数据与测试数据中所有的特征词以及科室标签全部替换为所述整数编号;
使用训练数据拟合QMR模型参数,主要是得到每种特征所关联的科室,以及每类科室下各种特征取值为真的条件概率(以特征出现的频率作为条件概率的估计值);由于QMR模型基于统计理论,不涉及神经网络等复杂模型的前后向传播流程,故模型训练效率极高,可在一分钟以内完成模型内部各类参数估计。
图2示出了本发明一个实施例中利用生成式实体抽取模型从患者描述中获取实体的示意图。在步骤103中可以利用生成式实体抽取模型抽取患者描述中的症状部位检查等实体,其中包括:
收集一定量标注了症状部位检查实体医患对话语料,对其中每一个实体类型构建符合对话格式的问句,将其转换为基于历史对话记录生成当前对话的生成任务;
将转换后的数据传入自回归响应生成模型(Autoregressive ResponseGeneration Model)中进行训练,输入历史对话记录,输出当前对话;
将实际的患者描述转换成对话记录的格式,传入自回归响应生成模型,配合构建的问句对其询问,从而抽取得到对应的症状部位检查等实体。
在步骤104中可以将抽取得到的实体输入QMR信念网络进行推理,其中包括下列步骤:
通过贝叶斯推理算法公式根据所述输入特征生成所述预测标签及其对应概率,表示为下式:
其中,P表示概率、d表示所述预测标签、f表示所述输入特征、f右上角的正号表示所述输入特征取值为真,f右上角的负号表示所述输入特征取值为假以及i和j表示编号;
针对应用场景,在接收到原始输入数据后,会对数据中的年龄做转化并归属到前述四个年龄段之一,提取性别、年龄段、症状、部位、检查&操作等信息并区别各类信息的取值真假情况,依照整数编号转为数值输入供模型推理计算推荐科室及其概率;以及
对于模型推理给出的推荐科室和概率结果,取Top10个科室并对其概率值进行归一化,将这10个科室名称和对应的归一化概率传入下游接口。
本发明经过实验验证,信息提取准确率达到98%,TOP3科室推荐准确率达到96%,T0P1科室推荐准确率达到93%。
下面对使用本发明方法进行患者就诊导诊进行模拟测试,其中选取鉴别诊断复杂、涉及科室众多的症状表现进行实验。在该种情况下,患者(儿)无法正确选择科室,常辗转2至3个科室才能确定诊治方向,不仅是资源的巨大浪费,也延误了患者(儿)治疗,损害了患者(儿)的就医体验。
以“皮下组织肿块”导诊示例展示模型测试结果。皮下组织包块是许多常见疾病的症状,因发病年龄、发病原因、表现部位等的差异需要在不同科室就诊。并且皮下组织包块的数量、部位、质地、颜色等变化多样,确诊金标准常需依靠标本病理诊断,患者(儿)难以明确就诊科室。下面示例一些常见“皮下组织包块”疾病。例如,脂肪瘤是最常见的良性肿瘤,其主要症状即为“皮下组织包块”。大多数脂肪瘤(84.5%)位于皮下脂肪层,少数(15.5%)位于肌内、肌间和肌下层。浅表的可至皮肤科就诊,深层次的可至普外科就诊。考虑发病部位差异,例如前额部脂肪瘤患者多至整形外科进行手术,以获得更优的术后外观。
神经纤维瘤病是一种常见的神经皮肤病,具有常染色体显性遗传模式。并发症多种多样,疾病表现各不相同。神经纤维瘤病NIH诊断标准中有一条:2个及以上的皮肤/皮下神经纤维瘤或1个丛状神经纤维瘤,故而“皮下组织包块”也是其重要主诉之一,且包块多发生于四肢、躯干。神经纤维瘤病一般推荐患者(儿)至神经外科就诊,若患者(儿)单次就诊目的为切除包块,也可以至普外科、整形外科就诊。
睾丸未降又称为隐睾症,是男孩中观察到的最常见的先天性异常之一,也是为数不多的已知的睾丸癌危险因素之一。1岁之前的早期识别和手术仍然是减少单侧和双侧隐睾负面影响的最重要干预措施。患者(儿)首次发现患病多为触碰或注意到腹股沟部位的皮下组织包块,需要至小儿泌尿外科或泌尿外科就诊。
腹股沟疝是最常被诊断出的疝气,据评估,约有三分之一的男性在一生中会被诊断出患有腹股沟疝。年龄分布呈双峰分布,儿童期和50岁以后发病率最高。就诊主诉通常为腹股沟区域的肿块,诊断也是需要对腹股沟区域的肿块进行临床检查,需至普外科就诊。
另外,肿瘤晚期发生远期转移因腹股沟淋巴结肿大,也可表现为腹股沟区域的皮下组织包块。需至肿瘤内科就诊,或查明具体原发癌症至对应科室就诊。
本发明方法可以基于上述各类鉴别诊断,模拟不同病人导诊分流场景,并且进行算法推荐。
当患者主诉“皮下组织包块”启动导诊时,需要输入性别(必填)、年龄(必填)、发病部位(选填)。性别分析:就性别而言,对比可以发现,女性患者(儿)未推荐睾丸未降等疾病。部位分析:当控制变量症状、性别、年龄不变只校正部位时,观察主诉“皮下组织包块”的28岁女性患者,对比部位为面部和四肢,可以发现部位变化时,科室推出的比率会因疾病表现型发生相应变化。例如神经纤维瘤包块发生在躯干四肢(0.1183)的概率高于面部(0.0737),推荐概率相应微调(增加60.51%)。考虑面部的美观化需求,推出了整形外科,而四肢部位的优先科室中未推出整形外科。对比8岁男性皮下组织包块未明确具体部位的案例,3岁男性皮下组织包块明确为腹股沟区域后,小儿泌尿外科推荐概率增加(自0.2328增至0.3978,增加67.87%),说明更准确的部位描述有利于精准的科室定位。年龄分析:对于“皮下组织包块”主诉,控制男性,腹股沟区条件,仅进行年龄变化时,疾病在不同年龄段的发生频率也准确反馈在科室推荐上。3岁幼儿第一推荐为小儿泌尿外科(0.3978),考虑睾丸未降的发生率高,同时腹股沟疝等诊断可能性也较高,第二推荐为儿外科(0.3677)。成年男性38岁,考虑腹股沟疝等诊断,优先推荐普外科(0.4953),此年龄段肿瘤发病率低,相应肿瘤内科(0.1468)推荐优先度低。而老年男性79岁,其发生各类肿瘤比率明显升高,易于因转移灶为第一主诉就诊,所以肿瘤内科(0.4691)为第一推荐科室,且淋巴瘤等血液肿瘤也应考虑,在腹股沟区产生无痛性肿大淋巴结,故而血液科(0.0855)也应纳入考虑。
综上所述,本算法模型在仅有症状、性别、年龄、部位条件下,能综合不同疾病的发生频率,精准预测科室,使用效果佳。实现患者(儿)导诊分流优化,极大的方便患者(儿)就诊效率,避免诊治延误,有力提高患者就医体验,保障了医疗资源的高效利用和运作。
尽管上文描述了本发明的各实施例,但是,应该理解,它们只是作为示例来呈现的,而不作为限制。对于相关领域的技术人员显而易见的是,可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此,此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制,而应当仅根据所附权利要求书及其等同替换来定义。
Claims (10)
1.一种基于QMR信念网络的导诊方法,其特征在于,包括下列步骤:
根据门诊病历数据确定输入特征以及输出标签,其中所述输出标签包括科室信息;
利用QMR信念网络对所述输入特征以及所述输出标签进行训练以使得所述输入特征与所述输出标签关联;
利用生成式实体抽取模型从患者描述中获取实体;以及
将所述实体输出所述QMR信念网络中,其中将所述实体转化为所述输入特征并且生成预测标签,所述预测标签包括推荐科室。
2.根据权利要求1所述的基于QMR信念网络的导诊方法,其特征在于,对原始的门诊病历数据进行数据清洗以生成第一门诊病历数据,其中包括下列步骤:
读取所述原始的门诊病例数据,所述原始的门诊病例数据包括数据id、患者性别、患者年龄、患者主诉、现病史、既往史、确诊疾病以及科室信息;
对所述原始的门诊病例数据添加数据序号,并且将所述患者主诉、所述现病史、所述既往史的缺失处设置为空值;
删除所述患者主诉以及所述现病史均为空值的原始门诊病例数据;以及
删除所述一级科室为空值的原始的门诊病例数据以生成所述第一门诊病例数据。
3.根据权利要求2所述的基于QMR信念网络的导诊方法,其特征在于,将所述第一门诊病历数据结构化,其中包括下列步骤:
构造医疗同义词词典;
基于所述医疗同义词词典构造AC自动机;以及
基于所述第一门诊病例数据中的患者主诉以及现病史,通过所述AC自动机进行匹配以便将所述第一门诊病历数据结构化。
4.根据权利要求3所述的基于QMR信念网络的导诊方法,其特征在于,提取所述第一门诊病历数据中患者主诉以及现病史的标准词,并且对所述标准词进行特征限定,其中包括下列步骤:
构造标准词对照表,所述标准词对照表包括症状标准词、疾病标准词、科室标准词、部位标准词以及检查和操作标准词;以及
将所述标准词与所述标准词对照表进行比对,并且删除所述标准词不在所述标准词对照表中的所述第一门诊病历数据。
5.根据权利要求4所述的基于QMR信念网络的导诊方法,其特征在于,将所述患者性别、患者年龄以及患者主诉和现病史中的症状信息、部位信息以及检查和操作信息作为输入特征,其中包括下列步骤:
将患者年龄划分为新生儿、儿童、中青年以及老年,将患者性别划分为男以及女;以及
对所述新生儿、儿童、中青年、老年、男、女、症状信息、部位信息以及检查和操作信息进行取值,其中取值为真或者假。
6.根据权利要求5所述的基于QMR信念网络的导诊方法,其特征在于,利用QMR信念网络对所述输入特征以及输出标签进行训练包括:
对所述输入特征以及所述科室信息进行编号;
通过所述QMR信念网络确定与所述科室信息关联的所述输入特征;以及
确定与所述科室信息关联的所述输入特征取值为真的概率。
7.根据权利要求6所述的基于QMR信念网络的导诊方法,其特征在于,利用生成式实体抽取模型从患者描述中抽取实体包括下列步骤:
根据医患对话材料构造问句,其中所述问句与实体的类型对应;
将所述问句输入自回归响应生成模型中进行训练;
将患者描述转换为对话记录;以及
将所述对话记录输入自回归响应生成模型中,其中通过所述问句对所述对话记录进行询问以获取所述实体。
9.根据权利要求8所述的基于QMR信念网络的导诊方法,其特征在于,将概率最高的10个推荐科室的概率值进行归一化,并且将概率最高的10个推荐科室及其对应的归一化概率传入下游接口。
10.一种导诊台,其特征在于,包括:
控制器,其被配置为执行下列动作:
根据门诊病历数据确定输入特征以及输出标签,其中所述输出标签包括科室信息;
利用QMR信念网络对所述输入特征以及所述输出标签进行训练以使得所述输入特征与所述输出标签关联;
利用生成式实体抽取模型从患者描述中获取实体;以及
将所述实体输出所述QMR信念网络中,其中将所述实体转化为所述输入特征并且生成预测标签,所述预测标签包括推荐科室;以及
显示器,其被配置为显示预测标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210746063.6A CN115101182A (zh) | 2022-06-28 | 2022-06-28 | 基于qmr信念网络的导诊方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210746063.6A CN115101182A (zh) | 2022-06-28 | 2022-06-28 | 基于qmr信念网络的导诊方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115101182A true CN115101182A (zh) | 2022-09-23 |
Family
ID=83294004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210746063.6A Pending CN115101182A (zh) | 2022-06-28 | 2022-06-28 | 基于qmr信念网络的导诊方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115101182A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096273A (zh) * | 2016-06-08 | 2016-11-09 | 江苏华康信息技术有限公司 | 一种基于tf‑idf改进算法的疾病症状推导方法 |
CN110364251A (zh) * | 2019-06-14 | 2019-10-22 | 南京理工大学 | 一种基于机器阅读理解的智能交互导诊咨询系统 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN113282761A (zh) * | 2021-05-27 | 2021-08-20 | 平安科技(深圳)有限公司 | 科室信息的推送方法、装置、设备以及存储介质 |
CN114441698A (zh) * | 2020-11-04 | 2022-05-06 | 中国科学院沈阳自动化研究所 | 一种基于贝叶斯网的气相色谱仪故障诊断方法 |
-
2022
- 2022-06-28 CN CN202210746063.6A patent/CN115101182A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096273A (zh) * | 2016-06-08 | 2016-11-09 | 江苏华康信息技术有限公司 | 一种基于tf‑idf改进算法的疾病症状推导方法 |
CN110364251A (zh) * | 2019-06-14 | 2019-10-22 | 南京理工大学 | 一种基于机器阅读理解的智能交互导诊咨询系统 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN114441698A (zh) * | 2020-11-04 | 2022-05-06 | 中国科学院沈阳自动化研究所 | 一种基于贝叶斯网的气相色谱仪故障诊断方法 |
CN113282761A (zh) * | 2021-05-27 | 2021-08-20 | 平安科技(深圳)有限公司 | 科室信息的推送方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kilgo et al. | The worst injury predicts mortality outcome the best: rethinking the role of multiple injuries in trauma outcome scoring | |
Ahmed et al. | IoT based risk level prediction model for maternal health care in the context of Bangladesh | |
Rushdi et al. | Karnaugh-map utility in medical studies: The case of Fetal Malnutrition | |
CN108198615B (zh) | 一种在线认知评估系统 | |
Bozkurt et al. | Using automatically extracted information from mammography reports for decision-support | |
CN112102937A (zh) | 一种慢性病辅助决策的患者数据可视化方法及系统 | |
CN117077786A (zh) | 一种基于知识图谱的数据知识双驱动智能医疗对话系统和方法 | |
Chen et al. | Disease concept-embedding based on the self-supervised method for medical information extraction from electronic health records and disease retrieval: Algorithm development and validation study | |
CN111563891B (zh) | 基于颜色认知的疾病预测系统 | |
Liu et al. | Deep learning based syndrome diagnosis of chronic gastritis | |
Chen et al. | A deep-learning based ultrasound text classifier for predicting benign and malignant thyroid nodules | |
Grant | Explaining source of payment differences in US cesarean rates: why do privately insured mothers receive more cesareans than mothers who are not privately insured? | |
CN117271804B (zh) | 一种共病特征知识库生成方法、装置、设备及介质 | |
Al-Mualemi et al. | A deep learning-based sepsis estimation scheme | |
CN117033568A (zh) | 一种医学数据指标解读方法、装置、存储介质及设备 | |
Jaiswal et al. | An improved ensembling techniques for prediction of breast cancer tissues | |
Ebrahimi et al. | Predicting the risk of alcohol use disorder using machine learning: a systematic literature review | |
CN110008925A (zh) | 一种基于集成学习的皮肤自动检测方法 | |
Mansouri et al. | Predicting hospital length of stay of neonates admitted to the NICU using data mining techniques | |
CN112365962A (zh) | 基于肺部ct影像和临床信息的医疗资源分配方法及设备 | |
CN112216383B (zh) | 基于证素和深度学习的中医智能问诊舌诊综合系统 | |
CN115101182A (zh) | 基于qmr信念网络的导诊方法 | |
Zhang et al. | Bert with enhanced layer for assistant diagnosis based on Chinese obstetric EMRs | |
Hee | Is data quality enough for a clinical decision?: apply machine learning and avoid bias | |
Sultan et al. | Cesarean section classification using machine learning with feature selection, data balancing and explainability |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |