CN118538372B

CN118538372B - 基于多模态大模型的术中信息提取方法和手术引导系统

Info

Publication number: CN118538372B
Application number: CN202411003242.6A
Authority: CN
Inventors: 罗东东; 舒启航; 周嘉琪; 康盛伟
Original assignee: Sichuan Cancer Hospital
Current assignee: Sichuan Cancer Hospital
Priority date: 2024-07-25
Filing date: 2024-07-25
Publication date: 2024-09-17
Anticipated expiration: 2044-07-25
Also published as: CN118538372A

Abstract

本发明属于图像信息处理技术领域，提供了基于多模态大模型的术中信息提取方法和手术引导系统。基于多模态大模型的术中信息提取方法和手术引导系统包括步骤1，数据获取模块获取外部医学数据，用于构建医学向量知识库；步骤2，监测模块获取内窥镜图像和手术预案，给出手术指令引导，并监测当前的手术进程与手术预案是否相同；步骤3：检索模块根据医生提出的问题，从医学向量知识库中进行检索，生成上下文信息；本申请所提供的技术方案中，检索模块从中提取到与手术过程相关的关键信息，然后将其整理为针对医生手术的融合信息，从而让医生在手术过程中具有相关的参考信息。

Description

基于多模态大模型的术中信息提取方法和手术引导系统

技术领域

本发明涉及图像和语言处理技术领域，特别涉及一种基于多模态大模型的术中信息提取方法和手术引导系统。

背景技术

内窥镜是一种通过视觉检查和反射隐藏的体腔光学仪器。内窥镜外科手术的医生在手术时只能通过监视器上观看病人身体内部的情况，但由于手术前对病人的检测均是体外检查，并不完全准确，在内窥镜手术过程中可能发现病人体内的真实病况和事先检查的病况有差异，那么前期的手术预案就会失效，这时就需要医生根据病人的实际情况临时改变手术方案。

在出现实际情况与手术预案不同时，医生需要对内窥镜手术过程中传递回来的信息进行判断，因为手术时，不仅仅要考虑图像信息，还需要考虑其余的临床案例信息，医生在出现新突发情况时，因为难以快速的大量的案例信息和图像信息综合起来考虑，所以导致了内窥镜手术时间延长，增加了手术风险。

如此，目前亟需一种能够帮助医生进行图像信息和案例信息进行融合，得到融合信息的信息提取方法。

发明内容

作为本申请的第一个方面，为了解决内窥镜手术过程无法提取关键信息，以帮助医生进行手术决策的问题，本申请提供了一种基于多模态大模型的术中信息提取方法，包括如下步骤：

步骤1，数据获取模块获取外部医学数据，用于构建医学向量知识库；

步骤2，监测模块获取内窥镜图像和手术预案，给出手术指令引导，并监测当前的手术进程与手术预案是否相同；

如果当前的手术进程与手术预案相同，则监测模块向显示模块发送引导信息；

如果当前的手术进程与手术预案不同，则监测模块将内窥镜图像发送至检索模块；

步骤3：检索模块根据医生提出的问题，从医学向量知识库中进行检索，生成上下文信息；

步骤4，检索模块将检索到的上下文信息、生成上下文信息的问题以及手术预案发送至融合模块，融合模块基于上下文信息、生成上下文信息的问题以及手术预案生成prompt，并将prompt发送至分析模块；

步骤5，分析模块基于prompt和内窥镜图像，生成手术的融合信息。

本申请所提供的技术方案中，利用内窥镜图像、医生的问题以及检索出来的相关信息，共同输入至检索模块中，从而检索模块从中提取到与手术过程相关的图像信息，然后将其整理为针对医生提出问题的手术的融合信息，因为该手术的融合信息融合案例信息、图像信息，所以能够作为手术决策的参考，进而提高了医生的手术效率。

进一步的，步骤2包括以下步骤：

步骤21：监测模块获取手术预案，根据手术预案将手术分解为若干个手术进程，并根据识别信息，得出当前的手术预案中的手术进程；

步骤22：监测模块获取内窥镜图像，监测模块从内窥镜图像中提取图像特征，然后图像特征发送至信息整合模块，信息整合模块输出当前的手术进程；

步骤23：当手术预案中的手术进程与当前的手术进程相同时，则监测模块向显示模块发送引导信息；

当手术预案中的手术进程与当前的手术进程不同时，则监测模块将内窥镜图像发送至检索模块。

进一步的，所述步骤3具体包括以下步骤：

步骤31，检索模块对医学向量知识库进行预检索；

步骤32：医生通过输入模块向检索模块输入问题，检索模块计算问题和医学向量知识库中的块的相似度，以提取出上下文序列，医学向量知识库中的块为医学向量知识库中的文本的段落；

步骤33：检索模块通过LangChain框架计算上下文序列中各上下文与问题之间的语义相似度，对检索得到的上下文进行重排名，将与问题最相关的上下文重新定位到输出位置，从而输出上下文信息。

进一步的，预检索包括增强数据粒度、优化索引结构、添加元数据、对齐优化和混合检索。

进一步的，检索模块包括多模态混合检索模型，预先建立内窥镜手术医学数据库；

步骤32中，对提取上下文序列的多模态混合检索模型进行微调训练；

微调训练过程包括如下步骤：

S1：在医学向量知识库上预训练一个文本编码器；

S2：在内窥镜手术医学数据库上训练多模态混合检索模型的图像-文本投射层并冻结多模态混合检索模型的其它部分；

S3：持续训练文本编码器和多模态混合检索模型的图像-文本投射层。

步骤5包括如下步骤：

步骤51：将内窥镜图像发送至Vision Encoder模块，Vision Encoder模块将内窥镜图像提取为图像特征序列，Vision Encoder模块对图像特征序列压缩为固定长度为256的序列；

步骤52：映射结构FM将图像特征序列映射至文本内容中，得到映射信息；

步骤53：信息整合模块内置有Qwen-VL-Plus模型，信息整合模块接收映射信息和prompt，将映射信息和prompt输入至Qwen-VL-Plus模型中得到回答和新的手术预案。

进一步的，Vision Encoder模块中，使用了一个Vision Encoder模型，VisionEncoder模型对输入图像进行编码，从最后一层提取标记嵌入。同时还使用来自ViT倒数第二层的特征嵌入来实现更完整的表示。

进一步的，映射结构FM包括两个组件：一个2层MLP和一个Transformer块；

Transformer块利用2层多层感知机将图像特征序列转换为大小的可视化embedding嵌入；

Transformer块利用与文本查询的交叉注意力，实现查询感知图像特征映射,进而将图像特征转化为文本。

作为本申请的第二个方面，本申请提供了一种手术引导系统，包括数据获取模块、监测模块、检索模块以及分析模块，所述手术引导系统基于前述提供的基于多模态大模型的术中信息提取方法提取出手术的融合信息。

本申请的有益效果在于：

（1）本发明构建了内窥镜手术中的动态决策辅助能力，可以根据手术过程中的实时变化做出对应的医学与手术方案引导。及时理解手术过程中病变组织的变化，在遇到意外情况或复杂病变时，本发明可以根据术中实际情况给出对应案例与辅助多科医学知识支持。

（2）本发明提供基于人工智能的内窥镜数字化手术智能引导助理系统可以辅助医生内窥镜全手术流程，缩短手术时间并提高手术效率，同时保证手术质量的稳定与一致性。

（3）本发明主要是对内窥镜手术的医生进行实时的辅助，通过辅助手术系统可以实时提示可疑病灶，提示手术步骤及注意事项，相关资料快速提示，自动生成的图文手术报告。大大降低了医生的工作量，让医生可以有更多精力专注于手术本身。

（4）本发明利用人工智能的临床应用改善数字化手术体验，有助于减少医生错误，提供一致性，并实现外科医生在内窥镜手术的能力增强。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为基于多模态大模型的内窥镜操作信息的筛选方法的流程图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：基于多模态大模型的内窥镜操作信息的筛选方法运用于内窥镜手术中。所述方法根据内窥镜手术过程中传递的内窥镜图像和医生的交互信息以及手术预案从海量的数据库中，提取出融合信息，以让医生能够利用这些融合信息快速生成新的手术方案。

其中的，内窥镜图像为内窥镜端部摄像头实时传递过来的视频流信息。在实际的内窥镜手术中，医生就是根据传递回来的内窥镜图像来完成手术操作。对应的，本申请中，则是会将这些内窥镜图像收集起来，用于内窥镜操作信息的筛选。

如图1所示，基于多模态大模型的内窥镜操作信息的筛选方法，包括以下步骤：

步骤1，数据获取模块获取外部医学数据，用于构建医学向量知识库。

如图1所示，本方案将大量的外部医学数据进行整理，外部医学数据包括内窥镜手术知识库中的数据、内窥镜手术实操指南数据、医院内窥镜手术积累数据、内窥镜手术指令与操作数据、临床医学知识库、普外科手术知识库中的数据。除开上述列举的数据来源之外，还可以是自建的数据库。

在收集了大量的外部医学数据之后，需要对文档进行处理，主要处理方式为：对各个数据的文档进行分段，然后将分段的文档转换为文档向量，然后将文档向量存入向量数据库中形成医学向量知识库。如何将文档转化为向量为现有技术，这里不再阐述。

为了增加生成的融合信息的准确度，本申请中将收集到的文档按照自然段落进行划分。

如果当前的手术进程与手术预案不同，则监测模块将内窥镜图像发送至检索模块。

进一步的，手术预案包括手术进程和各手术进程的识别信息。

虽然每个患者的内窥镜手术的具体执行方式不一致。但是，内窥镜手术在操作时每个小的步骤都是有具体规范和要求的。所以，每个不同患者的内窥镜手术都能够分解为若干个手术进程。而每个手术进程在完成之后，都会存在这一个对应的节点，这个节点就是手术进程的识别信息，例如在夹取赘生物时，最终能看到赘生物去除的照片，此时的照片就是夹取赘生物这个手术进程的识别信息。

进一步的，引导信息在经过编译器的编译之后，为手术进程的操作示意视频、手术进程的操作说明以及手术进程的操作示意图中的1种或几种。

引导信息主要是用于给医生的手术过程起到引导作用。所以在实践中可以将对应手术进程的相关视频、示意图以及操作说明这类信息向医生展示出来。让医生能够根据前述的引导信息，了解当前的手术进程的操作要点，进而便于手术的快速进行。

所述步骤2具体包括以下步骤：

步骤21：监测模块获取手术预案，根据手术预案将手术分解为若干个手术进程，并根据识别信息，得出当前的手术预案中的手术进程。

患者在进行内窥镜手术之前医生都会根据体外的诊断资料，生成一个内窥镜手术方案。该方案就是本申请中所提及的手术预案，所以在患者开始内窥镜手术之前，就将该手术预案输入给监测模块，因而监测模块能够将手术预案分解为若干个手术进程。而每个手术进程都设置了对应的识别信息，进而监测模块可以根据接收到的识别信息，判断出当前的手术应当执行到那个手术进程了。这个手术进程就是手术预案中的手术进程，该进程与实际进程无关，只和前一个接收到的识别信息有关系。

步骤22：监测模块获取内窥镜图像，监测模块从内窥镜图像中提取图像特征，然后图像特征发送至信息整合模块，信息整合模块输出当前的手术进程。

监测模块根据内窥镜图像判断当前的当前的手术进程是否为手术预案中的手术进程。

在进行内窥镜手术时，会不断的收集内窥镜图像，而将这些内窥镜图像收集到之后，就能够对收集到的内窥镜图像进行分析，根据对内窥镜图像进行分析，可以判断当前内窥镜图像是否为手术预案中的手术进程。

如果，发现当前的内窥镜图像分析出来的手术进程并不是手术预案中的手术进程，则说明内窥镜的手术情况，与实际手术情况存在差别，所以需要对手术进程进行调整。

在本申请所提供的方案中，判断当前的手术进程是否为手术预案中的手术进程，是根据信息整合模块进行处理。

信息整合模块具体判断方式在后文进行介绍。但是，监测模块需要将图像信息转化为信息整合模块能够读取的信息。这里检测模块将图像信息转化为信息整合模块能够读取的信息的方式，采用Vision Encoder模块中对应的方案进行。

例如，显示模块的电子界面上左侧为内窥镜图像；右侧上方为基于手术预案给出的融合信息。电子界面就是显示模块的电子界面。其主要是用于展示融合信息和内窥镜图像。

步骤3：检索模块根据医生提出的问题，从医学向量知识库中进行检索，生成上下文信息。

检索模块采用RAG进行信息检索，RAG结合了检索阶段和生成阶段。RAG包括初步检索模型和多模态混合检索模型。

在检索阶段，在多模态混合检索模型中，RAG基于用户的输入问题从预先构建的知识库中检索与问题高度相关的文本片段。知识库的构建方式可以参考步骤1中医学向量知识库的构建方式。

生成阶段：结合用户的输入问题与检索到的文本片段，输入多模态混合检索模型进行综合处理和理解，最终生成满足用户需求的高质量响应输出。通过这两步的紧密结合，RAG赋予了多模态混合检索模型获取外部知识的能力，从根本上解决了仅依赖内部训练数据导致的单一性和局限性问题。多模态混合检索模型为Large Language Model，指的是使用大量文本数据训练的深度学习模型，具体的模型结构为本领域的常见技术手段。

所述步骤3具体包括以下步骤：

步骤31，检索模块对医学向量知识库进行预检索。

预检索的作用为优化数据索引，预检索的目标是提高被索引内容的质量，预检索包括增强数据粒度、优化索引结构、添加元数据、对齐优化和混合检索。

（1）增强数据粒度旨在提高文本的标准化、一致性、事实准确性和丰富上下文，以改善RAG的性能，包括移除无关信息、消除实体和术语的歧义、确认事实准确性、保持上下文和更新过时文档。

（2）优化索引结构涉及调整块的大小以捕获相关的上下文，跨多个索引路径查询，并利用图结构中的节点关系来捕获相关的上下文。

（3）添加元数据涉及将引用的元数据整合到块中以用于过滤，并整合章节和子部分的参考元数据以提高检索效率。

（4）对齐优化通过在文档中引入“假设性问题”来解决文档之间的对齐问题和差异。

（5）混合检索通过多路召回的方式进行检索融合，例如BM25的sparse retrieval和深度学习模型的dense retrieval方式。

增强数据粒度、优化索引结构、添加元数据、对齐优化和混合检索是提升RAG检索性能的关键步骤。这些步骤共同作用于提高检索的准确性、效率。具体的，处理方式为现有技术，本申请并不对进行展开描述。

步骤32：医生通过输入模块向检索模块输入问题，检索模块计算问题和块之间的相似度来识别医学向量知识库中的信息，得到上下文序列；

医生在内窥镜手术过程中，通过输入模块向检索模块输入问题，检索模块在接收到问题后，基于RAG检索技术，从医学向量知识库检索出与问题相关的上下文。

具体的，若医生在内窥镜手术过程中发现病人体内的真实病况和事先检查的病况有差异，那么前期的手术预案就会失效，同时医生向检索模块提出问题；

若真实病况和事先检查的病况没有差异，但医生在手术操作时存在疑问，则医生向检索模块提出问题，且不在问题中表明手术预案失效。所以无论是那两种情况，检索模块都会根据医生提出的问题向检索出上下文信息。

进一步的，步骤32中，通过微调嵌入模型增强检索的相关性，得到上下文序列。

在本申请中微调嵌入模型为：多模态混合检索模型。

微调训练过程如下所示：

S1：在医学向量知识库上预训练一个文本编码器。

S2：在内窥镜手术医学数据库上训练多模态混合检索模型的图像-文本投射层并冻结多模态混合检索模型的其它部分。

内窥镜手术医学数据库为预先建立的一个有区别于医学向量知识库的数据库，内窥镜手术医学数据库中的数据为，内窥镜手术视频以及对应的文字讲解信息。

该阶段只使用经过投射的图像向量进行检索，旨在防止模型过度依赖文本信息也就是将多模态混合检索模型中图像-文本投射层根据训练数据进行调整，其余的层或者说其余的权重信息冻结，而不发生变化。

在S1~S3中，主要是利用了多模态混合检索模型的文字检索和图像检索能够相互融合，并且理解图像信息的功能。

所述的输出位置，就是上下文排名之后，靠近最前面的能够被检索模块输出的位置。检索模块在对医生提出的问题进行检索之后，能够得到上下文信息。

具体的，在步骤33中，文本查询由一个指令和一个问题组成，本方案使用具有隐藏大小的语言模型来获取所有令牌的嵌入。

步骤4，检索模块将检索到的上下文信息、生成上下文信息的问题以及手术预案发送至融合模块，融合模块基于上下文信息、生成上下文信息的问题以及手术预案生成prompt，并将prompt发送至分析模块。

进一步的，步骤5包括如下步骤：

步骤51：将内窥镜图像发送至Vision Encoder模块，Vision Encoder模块将内窥镜图像提取为图像特征序列，Vision Encoder模块对图像特征序列压缩为固定长度为256的序列。

具体的，Vision Encoder模块中，使用了一个Vision Encoder模型，VisionEncoder模型对输入图像进行编码，从最后一层提取标记嵌入。同时还使用来自ViT倒数第二层的特征嵌入来实现更完整的表示。

步骤52：映射结构FM将图像特征序列映射至文本内容中，得到映射信息。

其中，映射结构FM包括两个组件：一个2层MLP和一个Transformer块。

Transformer块利用2层多层感知机将图像特征序列转换为大小的可视化embedding嵌入。

步骤53：信息整合模块内置有Qwen-VL-Plus模型，信息整合模块接收映射信息和prompt，将映射信息和prompt输入至Qwen-VL-Plus模型中得到手术的融合信息。

所述的Qwen-VL-Plus模型为本领域技术人员熟知的大数据模型，具体结构不再阐述。

该手术的融合信息在经过编译器编译之后，就是对问题的回答和新的手术预案。

若医生提出的问题中未包含手术预案失效的内容，则多模态大模型针对医生提出的问题给出回答，回答来源于多模态混合检索模型根据问题从医学向量知识库中检索得到的上下文相关信息，对上下文相关信息进行整理后给出手术的融合信息，经过编译器解析之后，得到对应问题的回答，然后将回答在显示模块的电子界面上显示。

若医生提出的问题中包含手术预案失效的内容，则多模态大模型根据内窥镜图像、手术预案、上下文相关信息和问题，分析得到手术的融合信息，该手术的融合信息经过编译器的编译之后，得到新的手术预案和针对问题的回答，然后在电子界面上显示。

实施例2：手术引导系统，包括数据获取模块、监测模块、检索模块以及分析模块，所述手术引导系统基于实施例1提供的基于多模态大模型的术中信息提取方法提取出手术的融合信息。其中，数据获取模块，用于构建医学向量知识库；监测模块，用于获取内窥镜图像和手术预案，给出手术指令引导，并监测当前的手术进程与手术预案是否相同，如果当前的手术进程与手术预案相同，则监测模块向显示模块发送引导信息；如果当前的手术进程与手术预案不同，则监测模块将内窥镜图像发送至检索模块；检索模块，根据医生提出的问题，从医学向量知识库中进行检索，生成上下文信息，然后将检索到的上下文信息、生成上下文信息的问题以及手术预案发送至融合模块，融合模块基于上下文信息、生成上下文信息的问题以及手术预案生成prompt；分析模块，基于prompt和内窥镜图像，生成手术的融合信息。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.基于多模态大模型的术中信息提取方法，其特征在于：包括如下步骤：

步骤5，分析模块基于prompt和内窥镜图像，生成手术的融合信息；

步骤2包括以下步骤：

步骤22：监测模块获取内窥镜图像，监测模块从内窥镜图像中提取图像特征，然后将图像特征发送至信息整合模块，信息整合模块输出当前的手术进程；

当手术预案中的手术进程与当前的手术进程不同时，则监测模块将内窥镜图像发送至检索模块；

所述步骤3具体包括以下步骤：

步骤31，检索模块对医学向量知识库进行预检索；

步骤33：检索模块通过LangChain框架计算上下文序列中各上下文与问题之间的语义相似度，对检索得到的上下文进行重排名，将与问题最相关的上下文重新定位到输出位置，从而输出上下文信息；

步骤5包括如下步骤：

步骤53：信息整合模块内置有Qwen-VL-Plus模型，信息整合模块接收映射信息和prompt，将映射信息和prompt输入至Qwen-VL-Plus模型中生成手术的融合信息；

外部医学数据包括内窥镜手术知识库中的数据、内窥镜手术实操指南数据、医院内窥镜手术积累数据、内窥镜手术指令与操作数据、临床医学知识库、普外科手术知识库中的数据。

2.根据权利要求1所述的基于多模态大模型的术中信息提取方法，其特征在于：将外部医学数据中的文档按照自然段落进行划分。

3.根据权利要求1所述的基于多模态大模型的术中信息提取方法，其特征在于：预检索包括增强数据粒度、优化索引结构、添加元数据、对齐优化和混合检索。

4.根据权利要求1所述的基于多模态大模型的术中信息提取方法，其特征在于：

检索模块包括多模态混合检索模型，预先建立内窥镜手术医学数据库；

微调训练过程包括如下步骤：

S1：在医学向量知识库上预训练一个文本编码器；

5.一种手术引导系统，其特征在于，所述手术引导系统采用权利要求1~4中任一项所述的基于多模态大模型的术中信息提取方法提取出手术的融合信息，手术引导系统包括：

数据获取模块，用于构建医学向量知识库；

监测模块，用于获取内窥镜图像和手术预案，给出手术指令引导，并监测当前的手术进程与手术预案是否相同，如果当前的手术进程与手术预案相同，则监测模块向显示模块发送引导信息；如果当前的手术进程与手术预案不同，则监测模块将内窥镜图像发送至检索模块；

检索模块，根据医生提出的问题，从医学向量知识库中进行检索，生成上下文信息，然后将检索到的上下文信息、生成上下文信息的问题以及手术预案发送至融合模块，融合模块基于上下文信息、生成上下文信息的问题以及手术预案生成prompt；

分析模块，基于prompt和内窥镜图像，生成手术的融合信息。