CN116453702B - 孤独症行为特征集的数据处理方法、设备、系统及介质 - Google Patents
孤独症行为特征集的数据处理方法、设备、系统及介质 Download PDFInfo
- Publication number
- CN116453702B CN116453702B CN202310315701.3A CN202310315701A CN116453702B CN 116453702 B CN116453702 B CN 116453702B CN 202310315701 A CN202310315701 A CN 202310315701A CN 116453702 B CN116453702 B CN 116453702B
- Authority
- CN
- China
- Prior art keywords
- keywords
- autism spectrum
- spectrum disorder
- keyword
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 206010003805 Autism Diseases 0.000 title description 2
- 208000020706 Autistic disease Diseases 0.000 title description 2
- 208000029560 autism spectrum disease Diseases 0.000 claims abstract description 76
- 238000012216 screening Methods 0.000 claims abstract description 59
- 230000003542 behavioural effect Effects 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013145 classification model Methods 0.000 description 5
- 208000030251 communication disease Diseases 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 208000035475 disorder Diseases 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 208000029726 Neurodevelopmental disease Diseases 0.000 description 2
- 208000025890 Social Communication disease Diseases 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000012938 design process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910001416 lithium ion Inorganic materials 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007472 neurodevelopment Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/70—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Psychology (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Biomedical Technology (AREA)
- Developmental Disabilities (AREA)
- Social Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
公开了一种用于生成孤独症谱系障碍行为特征集的数据处理方法、计算设备、数据处理系统及可读存储介质。该数据处理方法包括:从相关文献数据获取关键词及关键词参数,并对关键词进行排序,由此获取关键词的第一集合;基于独立来源临床数据集,构建第一分类器;利用第一分类器,对筛查诊断特征进行排序;筛选第一集合中的关键词,以形成包括关键词和筛查诊断特征的第二集合;对第二集合进行扩展,以得到第三集合;利用经标记的第三集合的数据集,构建第二分类器;利用第二分类器,对第三集合中的筛查诊断特征进行排序,以形成孤独症谱系障碍行为特征集。
Description
技术领域
本公开涉及孤独症谱系障碍行为特征集数据处理技术领域,更具体地,涉及一种用于生成孤独症谱系障碍行为特征集的数据处理方法、计算设备、数据处理系统及可读存储介质。
背景技术
孤独症谱系障碍是以社会交往障碍、言语和非语言交流障碍、狭隘的兴趣爱好及重复刻板行为为主要临床特征的神经发育障碍性障碍。该障碍起病于婴幼儿时期,呈长期慢性病程,多数患者疾病持续终生,严重损害患者的社会功能,是导致人类精神残疾的重要疾病。目前,尚未发现可以治愈孤独症谱系障碍的药物。孤独症谱系障碍患者的行为特征包括上述主要临床特征方面的数据。
在进行孤独症谱系障碍筛查诊断时,需要用到筛查诊断量表对孤独症谱系障碍进行筛查及辅助诊断。筛查诊断量表是由一系列关键特征问题及可选回答构成的孤独症谱系障碍行为特征集,是孤独症谱系障碍筛查诊断时经常使用的工具。目前,已经有很多机构设计并提供这种工具。筛查诊断量表主要采用人工处理的方式生成。由专家在阅读大量文献资料之后人工生成筛查诊断量表。这是一个耗时、耗力且效率低下的过程。此外,难以精细化评价及量化这种通过人工方式生成的筛查诊断量表。此外,也难以对通过人工方式生成的筛查诊断量表进行对比和排序。
发明内容
本公开的一个目的是提供一种新的用于生成孤独症谱系障碍行为特征集的数据处理技术方案。
根据本公开的第一方面,提供了一种用于生成孤独症谱系障碍行为特征集的数据处理方法,包括:获取相关文献数据;从所述文献数据获取与孤独症谱系障碍相关的关键词及关键词参数;基于所述关键词及关键词参数,对关键词进行排序;基于所述排序,获取所述关键词的第一集合;基于孤独症谱系障碍特征字典的独立来源临床数据集,利用机器学习算法构建第一分类器;利用所述第一分类器,对孤独症谱系障碍特征字典中的、与关键字相关的筛查诊断特征进行排序;基于所排序的筛查诊断特征,筛选第一集合中的关键词,以形成包括关键词和筛查诊断特征的第二集合;基于孤独症谱系障碍特征专家库,对所述第二集合进行扩展,以得到包括关键词和筛查诊断特征的第三集合,其中,孤独症谱系障碍特征专家库是由专家产生的关于孤独症谱系障碍特征的数据库;获取经标记的第三集合的数据集;利用经标记的第三集合的数据集,利用机器学习算法构建第二分类器;利用所述第二分类器,对第三集合中的筛查诊断特征进行排序;以及基于第三集合中所排序的筛查诊断特征,形成包括关键词和筛查诊断特征的孤独症谱系障碍行为特征集。
根据本公开的第二方面,提供了一种计算设备,包括处理器和可读存储介质,其中,所述可读存储介质存储可执行指令,当所述处理器执行所述可执行指令时,所述可执行指令使得所述处理器实现根据实施例所述的数据处理方法。
根据本公开的第三方面,提供了一种用于生成孤独症谱系障碍行为特征集的数据处理系统,包括通过通信网络连接的至少一个处理器和至少一个可读存储介质,其中,所述可读存储介质存储可执行指令,当所述处理器执行所述可执行指令时,所述可执行指令使得所述处理器实现根据实施例所述的数据处理方法。
根据本公开的第四方面,提供了一种可读存储介质,存储有可执行指令,所述可执行指令包括用于实现根据实施例所述的数据处理方法的指令。
根据本公开的实施例,提供了一种自动生成孤独症谱系障碍行为特征集的数据处理技术方案,从而可以提高生成孤独症谱系障碍行为特征集的数据处理性能。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本公开的原理。
图1是根据一个实施例的用于生成孤独症谱系障碍行为特征集的数据处理方法的示意性流程图。
图2是根据另一个实施例的计算设备的示意性框图。
图3示意性地示出了根据另一个实施例的用于生成孤独症谱系障碍行为特征集的数据处理系统。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
在孤独症谱系障碍研究技术领域中,在处理孤独症谱系障碍状况时,使用筛查诊断量表进行判断。筛查诊断量表是由人工事先根据经验设计的孤独症谱系障碍行为特征集。
孤独症谱系障碍行为特征集可以包括关键词。关键词可以用于标识孤独症谱系障碍行为特征集中的不同种类的特征。每个关键词可以代表一类特征的集合,例如,“发育”、“社交与情感交互的缺陷”等。
孤独症谱系障碍行为特征集中的特征包括特征问题及若干可选回答选项。
在实践过程中,可以采用现场调查的方式,针对用户的具体情况,对孤独症谱系障碍行为特征集中的特征进行选择,并产生相应的判断结果。通过这种方式,可以产生标记的数据集。
在设计筛查诊断量表的过程中,研究者或开发人员通常参考大量专业文献。这种处理方式,一方面耗时、耗力,另一方面,受限于研究者或开发人员的经验知识。
在目前的筛查诊断量表的设计过程中,由于没有引入实际的临床数据,因此,所设计的筛查诊断量表有时会偏离实际的患者情况。此外,由于仅利用研究者或开发人员的经验知识,而没有在设计过程中将研究者或开发人员的经验知识与产生的实际数据相结合,因此,所设计的量表更新迭代速度较慢,无法反映最新的用户状况。最新的实际数据无法迅速反映到所设计的筛查诊断量表中。因此,用户无法享受最新的研究成果。最新的研究成果也无法被迅速利用。在某些情况下,这可能会导致对部分用户的处置延误。
在各个实施例中,提出了一种数据处理方案,能够有效地将最新的实际数据与历史研究成果相结合。
下面,参照图1,说明根据一个实施例的用于生成孤独症谱系障碍行为特征集的数据处理方法。
如图1所示,在步骤S1,获取相关文献数据。
相关文献数据例如包括孤独症谱系障碍领域的相关论文、专业文章等。可以通过访问文献数据库,获取相关文献数据(论文、文章)。应当理解,在这里,通过计算设备访问/获取相关文献数据。
目前,在孤独症谱系障碍行为特征集的数据处理技术领域中,由研究员或设计人员阅读相关论文、文章,从而设计孤独症谱系障碍行为特征集。相反,在这里,通过计算设备获取相关文献数据,借助于计算设备自动生成孤独症谱系障碍行为特征集。
在一个实施例中,可以将相关文献数据的来源限定为特定的专业数据库。在这种情况下,由于专业数据库的范围被限定,因此,可以在一定程度上提升最终生成孤独症谱系障碍行为特征集的有效性。
在步骤S2,从所述文献数据获取与孤独症谱系障碍相关的关键词及关键词参数。
关键词参数包括与提取关键词的处理相关的提取指标和从所述文献数据中识别的临床指标中的至少一个。关键词参数用于表征相应关键词的重要程度或有效程度。
关键词例如是“社会交往障碍”、“狭隘的兴趣爱好”、“言语交流障碍”、“非语言交流障碍”、“重复刻板行为”和“神经发育障碍”等。提取指标例如是词频、占比等。
临床指标例如是灵敏度、特异度、信度、效度、样本量。通常,这些文献指标在文献数据中被明确标识。
在示例性实施例中,可以通过各种方式提取关键词、临床指标。例如,如果文献数据的格式为图片,则可以利用OCR(光学字符识别)技术提取文献数据的文本。如果文献数据的格式为PDF,则可以使用PDF解析工具包提取文献数据的文本。可以通过统计模型从上述文本中获取孤独症谱系障碍相关的关键词和/或临床指标。例如,该统计学模型可以是BERT(Bidirectional Encoder Representation from Transformers,即双向Transformer(变换器)的Encoder(编码器))模型)。可以使用BERT预训练模型来获取通用语义表示,实现从自然语言到机器语言的转化。
BERT是2018年10月由Google AI(Artificial Intelligence,人工智能)研究院提出的一种以无监督的方式利用海量无标注文本训练而成的语言代表模型。BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩。
BERT预训练模型是一个迁移能力很强的通用语义表示模型。它以Transformer(变换器)为网络基本组件,以Masked Bi-Language Model(一种掩码语言模型)和NextSentence Prediction(下一句预测)为训练目标,通过大规模文本数据自监督性质的预训练得到通用语义表示。与传统的Word2Vec(word to vector,用来产生词向量的相关模型)、GloVe(Global Vectors for Word Representation,一个基于全局词频统计(count-based&overall statistics)的词表征(word representation)工具)等嵌入词向量相比,BERT满足了近年来十分盛行的语境词表征(contextual word representation)的概念,即考虑上下文的内容,同个词语在不同语境中有不同的表示方式。这个也满足人类自然语言的真实情况,即同一个词汇的含义在不同情景中是很有可能不相同的。由于BERT模型采用了多层Transformer(变换器)对文本进行双向学习,且Transformer采用一次性读取方式对文本进行读取,因此可以更准确地学习到文本中词之间的上下文关系,对语境的理解更加深刻。即,双向训练的语言模型对语境的理解会比单向的语言模型更深刻,从而能够准确地对文本进行特征抽取。因此,BERT模型相较于处理自然语言处理任务的其他模型而言,具有更好的任务处理效果。
在通过BERT语义向量获取对应的孤独症谱系障碍相关的关键词和/或临床指标时,由于都是基于统计学的模型,因此可以采用统计概率实现孤独症谱系障碍相关的关键词和/或临床指标的获得。
在步骤S3,基于所述关键词及关键词参数,对关键词进行排序。
例如,可以确定在孤独症谱系障碍特征字典中具有对应特征的第一关键词,以及删除剩余的关键词。
孤独症谱系障碍特征字典是已有的关于孤独症谱系障碍特征的数据。孤独症谱系障碍特征字典可以包括至少一个用于孤独症谱系障碍特征的孤独症谱系障碍行为特征集或筛查诊断量表。每个量表包括多个特征,每个特征包括至少一个问题及其答案选项。
例如,还可以基于所述第一关键词及其关键词参数,为所述第一关键词赋予第一权重;以及基于所述第一权重,对第一关键词进行排序。
在这里,通过删除部分关键词,可以减小后续处理的工作量。此外,这有利于避免不必要的关键词对于最终结果的不利干扰。
在步骤S4,基于所述排序,获取所述关键词的第一集合。第一集合可以包括所述关键词的全部或部分。
在步骤S5,基于孤独症谱系障碍特征字典的独立来源临床数据集,利用机器学习算法构建第一分类器。
独立来源临床数据集是经过标记的数据集。例如,独立来源临床数据集中的每个特征数据例如包括:针对用户的问题;多个答案;用户的选择结果;标签(即,判断结果)。
通过独立来源临床数据集可以用来构建(训练)第一分类器。通过第一分类器确定各个特征的问题的重要性,即,可以确定各个特征(问题)对于分类结果的影响。
分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上训练一个分类函数或构造出一个分类模型(即,通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。分类器是数据挖掘中利用人工智能机器学习算法对样本进行分类的方法的统称,包含决策树、梯度提升决策树、随机森林、逻辑回归、支持向量机SVM、神经网络等算法。
分类器的构造和实施大体会经过以下几个步骤:
-选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。
-在训练样本上执行分类器算法,生成分类模型。
-在测试样本上执行分类模型,生成预测结果。
-根据预测结果,计算必要的评估指标,评估分类模型的性能。
在本公开的分类器示例性实施例中,可以采用机器学习算法梯度提升决策树对模型进行训练和测试,评估分类模型的性能指标。梯度提升决策树(Gradient BoostingDecision Tree,GBDT)是一种集成算法,集成学习Boosting算法族中的一种。该算法通过在数据集上构建多个决策树模型(即基评估器,base estimator),集成所有模型的建模结果(即集成评估器,ensemble estimator),其核心思想是训练基评估器时采用串行的方式,各个基评估器之间有依赖,且层层叠加。每一层在训练的时候,对前一层基评估器分错的样本,给予更高的权重,测试时,根据各层基评估器的结果的加权得到最终结果,具有很强的鲁棒性,能够自动发现特征间的高阶关系。
在步骤S6,利用所述第一分类器,对孤独症谱系障碍特征字典中的、与关键字相关的筛查诊断特征进行排序。
在步骤S7,基于所排序的筛查诊断特征,筛选第一集合中的关键词,以形成包括关键词和筛查诊断特征的第二集合。例如,第二集合包括排序靠前的N个特征(问题)。
此外,在步骤S6中,可以为筛查诊断特征赋予第二权重。
在步骤7中,为每个关键词赋予关键词权重。关键词权重是所述第一权重和第二权重的线性代数和;以及基于所述关键词权重,筛选第一集合中的关键词。
在一个实施例中,可以通过下面的公式计算关键词权重:
W关键词=aW1+b∑W2。
W1是第一权重,即,基于关键词参数的权重。W2是第二权重,即,基于第一分类器的分类结果的权重。
此外,在这里,还可以删除排序靠后的至少一个筛查诊断特征,以及删除没有对应筛查诊断特征的关键词。这样,可以减小后续数据处理量。此外,这还可以减小不必要的关键词对于最终结果的干扰。
在这里,通过实际的独立来源临床数据集,对通过文献数据所获的关键词进行筛选,从而将特征和关键词融合起来。此外,通过这种方式,还可以将临床维度的数据信息引入到关键词初步设计的关键词集合中。
在步骤S8,基于孤独症谱系障碍特征专家库,对所述第二集合进行扩展,以得到包括关键词和筛查诊断特征的第三集合。孤独症谱系障碍特征专家库是由专家产生的关于孤独症谱系障碍特征的数据库。
例如,在这里,可以增加新的关键词和对应的筛查诊断特征。所述新的关键词和对应的筛查诊断特征可以是由人工(例如,研究人员或设计人员)输入的,或者是由计算设备从孤独症谱系障碍特征专家库抓取的,并由计算设备将其增加到第三集合中。
所述关键词例如包括:“社会交往障碍”、“狭隘的兴趣爱好”、“言语交流障碍”、“非语言交流障碍”、“重复刻板行为”和“神经发育障碍”。所输入的数据还可以包括相应关键词的参数数据,例如,相应关键词的重要程度或有效程度。
在这里,通过孤独症谱系障碍特征专家库,对第二集合进行扩展,可以减小通过纯粹数据分析处理所可能产生的偏差,从而使得最终得到的孤独症谱系障碍行为特征集的偏差最小化。
在步骤S9,获取经标记的第三集合的数据集。
经标记的第三集合的数据集可以包括经过筛选之后的且经过标记的特征,即,针对用户的问题;多个答案;用户的选择结果;标签(即,判断结果)
在步骤S10,利用经标记的第三集合的数据集,利用机器学习算法构建第二分类器。
与第一分类器类似,第二分类器可以用于确定各个特征的问题的重要性。
在步骤S11,利用所述第二分类器,对第三集合中的筛查诊断特征进行排序。
在这里,首先,通过将利用文献数据获取的关键词和独立来源临床数据集中的特征进行融合,获取包括关键词及相应特征的第三集合。然后,再次利用标记数据集,对第三集合进行修正。通过这种方式,可以更加准确地确定所需的筛查诊断特征。
在步骤S12,基于第三集合中所排序的筛查诊断特征,形成包括关键词和筛查诊断特征的孤独症谱系障碍行为特征集。
所述孤独症谱系障碍行为特征集包括第三集合的子集。例如,可以选取作用较大的前M个特征,即,排序在前的M个筛查诊断特征。在选取特征之后,删除没有对应特征的关键词。
可选地,还可以,在确保每个关键词至少包含一个特征的前提下,选取特征。
在本公开的实施例中,将文献数据和独立来源临床数据集融合起来,之后利用标记的数据集,对所融合的特征集进行修正,从而能够得到较准确的孤独症谱系障碍行为特征集。此外,在实施例的处理过程中,既引入了已有的不同来源的历史研究成果(例如,相关文献数据和独立来源临床数据集),又可以利用当前的或最新的实践数据(例如,经标记的第三集合的数据集)。通过这种方式,可以快速地将已有研究成果与最新的实践数据结合起来。
可以对这里产生的孤独症谱系障碍行为特征集进行标记,从而形成新的经标记的数据集。该新的经标记的数据集可以用作新的独立来源临床数据集,用于图1所示的方法,从而对孤独症谱系障碍行为特征集进行改进和迭代。此外,相对于现有技术,这种改进和迭代过程可以是通过计算设备实现的,从而加快改进和迭代的速度。
图2示出了根据另一个实施例的计算设备的硬件示意性框图。
如图2所示,计算设备200包括处理器202、可读存储介质204。
计算设备200还可以包括显示屏210、用户接口212、摄像头214、音频/视频接口216、传感器218和通信部件220等。此外,计算设备200还可以还包括电源管理芯片206以及电池208等。计算设备200可以各种智能设备等。
处理器202可以是各种处理器。可读存储介质204可以存储计算设备200运行所需的底层软件、系统软件、应用软件、数据等。可读存储介质204可以包括多种形式的存储器,例如,ROM、RAM、Flash等。
显示屏210可以是液晶显示屏、OLED显示屏等。在一个例子中,显示屏210可以是触摸屏。用户可以通过显示屏210进行输入操作。此外,用户还可以通过触摸屏进行指纹识别等。
用户接口212可以包括USB接口、闪电接口、键盘等。
摄像头214可以是单摄像头,也可以是多摄像头。此外,摄像头214可以用于用户的面容识别。
音频/视频接口216例如可以包括扬声器接口、麦克风接口、诸如HDMI的视频传输接口等。
传感器218例如可以包括陀螺仪、加速度计、温度传感器、湿度传感器、压力传感器等等。例如,通过传感器可以确定计算设备周围的环境等。
通信部件220例如可以包括WiFi通信部件、蓝牙通信部件、3G、4G和5G通信部件等。通过通信部件220,计算设备200可以被布置中网络中。
电源管理芯片206可以用于管理输入计算设备200电源功率,还可以对电池208进行管理,以保证较大的利用效率。电池208例如是锂离子电池等。
图2所示的计算设备仅是解释性的,并且决不是为了要限制这里的实施例、其应用或用途。
图2所示的计算设备可以用于执行上面根据图1所描述的方法。例如,可读存储介质204存储可执行指令。当处理器202执行可执行指令时,所述可执行指令使得处理器202实现图1所描述的数据处理方法。
此外,随着技术的发展,上述技术方案还可以通过网络以分布式的方式实现。图3示意性地示出了根据另一个实施例的用于生成孤独症谱系障碍行为特征集的数据处理系统。
图3示出了多个终端设备31、32、33以及通信网络40。在网络40中可以设置多个服务器41、42。终端设备31、32、33以及服务器41、42中的每个例如可以是图2所示的计算设备。根据一个实施例的数据处理系统包括至少一个处理器和至少一个可读存储介质。所述至少一个处理器和至少一个可读存储介质可以被分布在终端设备31、32、33以及服务器41、42中。所述可读存储介质存储可执行指令。当所述处理器执行所述可执行指令时,所述可执行指令使得所述处理器实现根据实施例所述的数据处理方法。
本公开的内容还可以包括计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令,即,可执行指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是,但不限于,电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、计算设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的计算设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的计算设备来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。
Claims (13)
1.一种用于生成孤独症谱系障碍行为特征集的数据处理方法,包括:
获取相关文献数据;
从所述文献数据获取与孤独症谱系障碍相关的关键词及关键词参数;
基于所述关键词及关键词参数,对关键词进行排序;
基于所述排序,获取所述关键词的第一集合;
基于孤独症谱系障碍特征字典的独立来源临床数据集,利用机器学习算法构建第一分类器;
利用所述第一分类器,对孤独症谱系障碍特征字典中的、与关键字相关的筛查诊断特征进行排序;
基于所排序的筛查诊断特征,筛选第一集合中的关键词,以形成包括关键词和筛查诊断特征的第二集合;
基于孤独症谱系障碍特征专家库,对所述第二集合进行扩展,以得到包括关键词和筛查诊断特征的第三集合,其中,孤独症谱系障碍特征专家库是由专家产生的关于孤独症谱系障碍特征的数据库;
获取经标记的第三集合的数据集;
利用经标记的第三集合的数据集,利用机器学习算法构建第二分类器;
利用所述第二分类器,对第三集合中的筛查诊断特征进行排序;以及
基于第三集合中所排序的筛查诊断特征,形成包括关键词和筛查诊断特征的孤独症谱系障碍行为特征集。
2.根据权利要求1所述的方法,其中,所述孤独症谱系障碍行为特征集包括第三集合的子集。
3.根据权利要求1所述的方法,其中,所述关键词参数包括与提取关键词的处理相关的提取指标和从所述文献数据中识别的临床指标中的至少一个。
4.根据权利要求3所述的方法,其中,所述孤独症谱系障碍特征字典包括至少一个量表,每个量表包括多个特征,每个特征包括至少一个问题及其答案选项。
5.根据权利要求4所述的方法,其中,基于所述关键词及关键词参数,对关键词进行排序还包括:
确定在孤独症谱系障碍特征字典中具有对应特征的第一关键词;以及
删除剩余的关键词。
6.根据权利要求5所述的方法,其中,基于所述关键词及关键词参数,对关键词进行排序还包括:
基于所述第一关键词及其关键词参数,为所述第一关键词赋予第一权重;以及
基于所述第一权重,对第一关键词进行排序。
7.根据权利要求6所述的方法,其中,独立来源临床数据集是经过标记的数据集。
8.根据权利要求7所述的方法,其中,基于所排序的筛查诊断特征,筛选第一集合中的关键词,以形成包括关键词和筛查诊断特征的第二集合,还包括:
删除排序靠后的至少一个筛查诊断特征;以及
删除没有对应筛查诊断特征的关键词。
9.根据权利要求7所述的方法,其中,利用所述第一分类器,对孤独症谱系障碍特征字典中的、与关键字相关的筛查诊断特征进行排序包括:
为筛查诊断特征赋予第二权重,以及
其中,基于所排序的筛查诊断特征,筛选第一集合中的关键词,以形成包括关键词和筛查诊断特征的第二集合,还包括:
为每个关键词赋予关键词权重,其中,所述关键词权重是所述第一权重和第二权重的线性代数和;以及
基于所述关键词权重,筛选第一集合中的关键词。
10.根据权利要求1所述的方法,其中,基于孤独症谱系障碍特征专家库,对所述第二集合进行扩展,对所述第二集合进行扩展,以得到包括关键词和筛查诊断特征的第三集合,包括:
增加新的关键词和对应的筛查诊断特征。
11.一种计算设备,包括处理器和可读存储介质,其中,所述可读存储介质存储可执行指令,当所述处理器执行所述可执行指令时,所述可执行指令使得所述处理器实现根据权利要求1-10中的任何一项所述的数据处理方法。
12.一种用于生成孤独症谱系障碍行为特征集的数据处理系统,包括通过通信网络连接的至少一个处理器和至少一个可读存储介质,其中,所述可读存储介质存储可执行指令,当所述处理器执行所述可执行指令时,所述可执行指令使得所述处理器实现根据权利要求1-10中的任何一项所述的数据处理方法。
13.一种可读存储介质,存储有可执行指令,所述可执行指令包括用于实现根据权利要求1-10中的任何一项所述的数据处理方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310315701.3A CN116453702B (zh) | 2023-03-24 | 2023-03-24 | 孤独症行为特征集的数据处理方法、设备、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310315701.3A CN116453702B (zh) | 2023-03-24 | 2023-03-24 | 孤独症行为特征集的数据处理方法、设备、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116453702A CN116453702A (zh) | 2023-07-18 |
CN116453702B true CN116453702B (zh) | 2023-11-17 |
Family
ID=87121205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310315701.3A Active CN116453702B (zh) | 2023-03-24 | 2023-03-24 | 孤独症行为特征集的数据处理方法、设备、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116453702B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111009321A (zh) * | 2019-08-14 | 2020-04-14 | 电子科技大学 | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 |
CN112289412A (zh) * | 2020-10-09 | 2021-01-29 | 深圳市儿童医院 | 自闭症谱系障碍分类器的构建方法、其装置及电子设备 |
CN114187258A (zh) * | 2021-12-09 | 2022-03-15 | 深圳先进技术研究院 | 基于人脑功能磁共振影像的自闭症分类器构建方法及系统 |
CN114358194A (zh) * | 2022-01-07 | 2022-04-15 | 吉林大学 | 基于姿态跟踪的孤独症谱系障碍异常肢体行为检测方法 |
CN115482924A (zh) * | 2022-09-06 | 2022-12-16 | 浙江大学医学院附属儿童医院 | 孤独症谱系障碍儿童智力障碍诊断模型的建立方法及装置 |
WO2023026158A1 (en) * | 2021-08-23 | 2023-03-02 | Analytics For Life Inc. | Methods and systems for engineering conduction deviation features from biophysical signals for use in characterizing physiological systems |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012074565A1 (en) * | 2010-01-26 | 2012-06-07 | University Of Utah Research Foundation | Imaging-based identification of a neurological disease or a neurological disorder |
-
2023
- 2023-03-24 CN CN202310315701.3A patent/CN116453702B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111009321A (zh) * | 2019-08-14 | 2020-04-14 | 电子科技大学 | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 |
CN112289412A (zh) * | 2020-10-09 | 2021-01-29 | 深圳市儿童医院 | 自闭症谱系障碍分类器的构建方法、其装置及电子设备 |
WO2023026158A1 (en) * | 2021-08-23 | 2023-03-02 | Analytics For Life Inc. | Methods and systems for engineering conduction deviation features from biophysical signals for use in characterizing physiological systems |
CN114187258A (zh) * | 2021-12-09 | 2022-03-15 | 深圳先进技术研究院 | 基于人脑功能磁共振影像的自闭症分类器构建方法及系统 |
CN114358194A (zh) * | 2022-01-07 | 2022-04-15 | 吉林大学 | 基于姿态跟踪的孤独症谱系障碍异常肢体行为检测方法 |
CN115482924A (zh) * | 2022-09-06 | 2022-12-16 | 浙江大学医学院附属儿童医院 | 孤独症谱系障碍儿童智力障碍诊断模型的建立方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116453702A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
CN111401066B (zh) | 基于人工智能的词分类模型训练方法、词处理方法及装置 | |
US20180075368A1 (en) | System and Method of Advising Human Verification of Often-Confused Class Predictions | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
US20170169355A1 (en) | Ground Truth Improvement Via Machine Learned Similar Passage Detection | |
CN115017294B (zh) | 代码搜索方法 | |
KR20200009117A (ko) | 텍스트 데이터 수집 및 분석을 위한 시스템 | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN117454884B (zh) | 历史人物信息纠错方法、系统、电子设备和存储介质 | |
CN112614559A (zh) | 病历文本处理方法、装置、计算机设备和存储介质 | |
US12008341B2 (en) | Systems and methods for generating natural language using language models trained on computer code | |
US11797281B2 (en) | Multi-language source code search engine | |
CN115714002B (zh) | 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备 | |
US11501071B2 (en) | Word and image relationships in combined vector space | |
CN113722507A (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN116453702B (zh) | 孤独症行为特征集的数据处理方法、设备、系统及介质 | |
CN117033649A (zh) | 文本处理模型的训练方法、装置、电子设备及存储介质 | |
CN116010593B (zh) | 疾病情感信息的确定方法、装置、计算机设备和存储介质 | |
US11983488B1 (en) | Systems and methods for language model-based text editing | |
US11886826B1 (en) | Systems and methods for language model-based text insertion | |
US20240362421A1 (en) | Systems and methods for language model-based content classification | |
CN118690001B (zh) | 一种基于检测增强生成技术的查询优化方法及系统 | |
CN117874261B (zh) | 基于课程学习的问答式事件抽取方法以及相关设备 | |
Balasundaram et al. | Social Media Monitoring Of Airbnb Reviews Using AI: A Sentiment Analysis Approach For Immigrant Perspectives In The UK |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |