CN111340859A

CN111340859A - 用于图像配准的方法、学习装置和医学成像装置

Info

Publication number: CN111340859A
Application number: CN201911310644.XA
Authority: CN
Inventors: P·塞卡尔迪; T·库尔岑德费尔; T·芒西; P·茂恩特尼; S·皮亚; D·托特
Original assignee: Siemens Healthineers AG
Current assignee: Siemens Medical Ag
Priority date: 2018-12-19
Filing date: 2019-12-18
Publication date: 2020-06-26
Anticipated expiration: 2039-12-18
Also published as: US10832392B2; CN111340859B; US20200202507A1

Abstract

本公开涉及用于图像配准的方法、学习装置和医学成像装置。方法训练根据机器学习算法的学习代理以确定使用3D模型而模拟的解剖结构的多个不同视图的相应坐标系之间的变换。视图是包含标记的图像。学习代理包括域分类器，其包括由学习代理在训练操作期间生成的特征图。分类器被配置为生成指示图像数据是合成还是真实图像数据的分类输出。训练包括使用未标记的真实图像数据来训练计算机系统以确定被成像结构的合成视图和该结构在真实图像内的视图的坐标系之间的变换。这样做的同时刻意降低了域分类器在结构的合成图像与真实图像之间进行区分的能力。

Description

用于图像配准的方法、学习装置和医学成像装置

技术领域

本发明涉及用于确定多组图像数据的坐标系之间的对应变换的方法。在另外的方面，本发明涉及实现这种方法的医学成像装置和非暂态计算机可读数据存储介质。具体地，本发明涉及根据机器学习算法训练计算机系统以用于确定多组图像数据的坐标系之间的对应变换的方法。

背景技术

对于涉及术前计划和术中指导的医学应用，能够确定术前获取的图像的坐标系与术中获得的图像的坐标系之间的变换通常是有益的。这种对变换的确定通常被称为配准。

在使用不同成像模式/装置获取的图像之间的配准是具有挑战性的，因为在使用一种成像模式/成像装置获取的图像中可观察到的结构在使用不同的成像模式/装置获取的图像中可能看起来是不同的(或根本不可见)。图像对比度、分辨率和强度值以及视场在不同的成像模式/装置之间可能显著不同。作为一个示例，在磁共振图像中可观察到的软组织结构在X射线荧光透视图像中可能不可见(或不可容易地观察到)。因此，寻找使用根本不同的成像模式/装置获取的两个图像数据集之间的变换可能是具有挑战性的。

使用术前图像和术中图像两者的应用的一个示例是微创心脏干预，诸如心脏再同步治疗。在这个过程中，术前图像数据和术中图像数据之间的差异可能是显著的。通常，术前数据是使用磁共振成像技术获取的，而术中数据是使用二维X射线荧光透视技术获取的。术前磁共振获取可以包括一堆叠的图像，每个图像示出了具有高面内分辨率但低面外分辨率的软组织解剖结构。

磁共振图像的堆叠中的每一个可以具有相对小的视场，以便集中于感兴趣的解剖结构(例如，心脏的心室)，从而仅示出了一些周围的结构。因此，在磁共振数据中可能看不到原本可以用于配准的结构(诸如脊柱或肋骨)。与之相比，术中执行的X射线透视可能具有较宽的视场并且示出诸如骨头或器械等致密结构，但可能无法清楚地示出软组织解剖结构。

典型地，例如，人工地执行将术前磁共振图像配准至术中X射线以进行心脏再同步治疗。为了解决几乎没有使用每种模态获取的图像所共同的结构(即，跨模态信息受到高度限制)的问题，可以使用基准标志。然而，使用基准标志用于配准需要术前成像在程序(以及对应的术中成像)之前被立即执行，以确保基准标志在成像模态之间是一致的。这可能需要改变临床程序，并且可能在手术室中还需要附加的成像硬件。

基于人工智能的方法已经用于执行使用不同成像模态获取的不同组的图像数据之间的配准。然而，在实现成像模态之间的精确且鲁棒配准方面存在很多挑战。需要大量具有地面真值信息的训练数据集，以便训练系统以准确且鲁棒地执行配准。对于成像模态的某些组合，难以获得这样的数据。获得这样的数据集是一个挑战。

因此，非常需要可训练以在这些情况下执行图像配准而较少依赖于包含地面真值信息的大型训练数据的人工智能或学习机。

“学习机”(或智能代理)可以是例如其中程序根据由机器本身在完整运行期间得到的经验而被改变的计算机。

发明内容

根据本发明的用于训练计算机系统的方法具有以下步骤，该计算机系统用于在确定表示被成像对象的图像数据的坐标系之间的变换中使用。

该计算机系统接收表示合成结构的第一源图像数据，该合成结构呈现在根据结构的模型而合成的多个不同视图中。

该计算机系统接收表示合成结构的第二源图像数据，该合成结构呈现在根据结构的模型而合成的多个不同视图中。

该计算机系统接收第三源图像数据，该第三源图像数据表示由成像装置在捕获对象的图像中生成的被成像结构的视图。

在第一训练操作中，使用第一源图像数据和与之相关联的标记来训练根据机器学习算法而被配置为学习代理的计算机系统，以便确定合成结构的多个不同视图中的至少两个视图的相应坐标系之间的变换；

根据本发明，学习代理包括域分类器，该域分类器具有由学习代理在第一训练操作期间生成的特征图，并且被配置为由此生成指示所接收的图像数据是第三源图像数据(第一域)或第二源图像数据(第二域)之一的分类输出。

使用第二源图像数据和第三源图像数据而不使用与之相关联的标记来执行第二训练操作，其中计算机系统被训练以确定被成像结构的视图和合成结构的视图的相应坐标系之间的变换，使得域分类器在合成结构与被成像结构之间进行区分的能力降低。

第一源图像数据可以是经标记的数据。第二源图像数据可以是未标记的图像数据。第三源图像数据可以是未标记的数据。

术语“经标记的数据”是指数据的一个样本或一组样本，诸如已经用与即将到来(at hand)的学习任务相关联的一个或多个标记而加标签的图像或图像数据。作为示例，经标记的图像可以包含或包括标签或具有与其相关联的标签，该标签指示在图像内示出了什么解剖结构。可以通过要求人们关于给定段的未标记的数据做出判断来获得标记。可以通过提供经标记的数据集(例如，由人标记)并且将机器学习模型应用于该数据集来获得标记，该机器学习模型被布置为学习如何适当地标记图像数据，从而后续可以将未标记的图像数据应用于经训练的机器学习模型，并且可以通过经训练的模型为该图像估计可能的标记。术语“未标记”是指不带有与即将到来的学习任务相关联的标签(或根本没有标签)的数据(例如，图像)。这些标记限定和技术符合本领域中已经建立的实践，并且对于本领域普通技术人员而言是容易获得的。

一个说明性示例如下：标记可以表示针对每个可能动作的奖励。这些可以在将其投影到2D图像中之前从应用于3D模型的扰动来计算。例如，在下面的实施例中描述的属于第一源图像数据的标记(例如，参见：图1的“合成图像#1和#2”)表示针对每个可能动作的奖励。备选地或另外地，标记可以直接表示动作。第一源图像数据的任何两个图像以及与其相关联的标记(奖励和/或动作)可以形成用于训练的三元组。动作越好，奖励越高(即，越接近目标越好)。

以这种方式，本发明提供了一种训练学习代理的方法，以标识诸如人体的解剖结构(例如，器官、肌肉、骨骼、脉管系统等)的结构的模型的不同合成视图之间的合适变换。这些合成视图是经标记的图像数据。在很多不同的视图中快速产生并且正确标记经标记结构的大量图像非常容易。该经标记的合成图像数据用于在第一训练操作中训练学习代理，使得学习代理越来越能够标识经标记的合成图像数据之间的变换。重要的是，在该第一训练操作的过程中，适当地训练学习代理的特征图以标识对于确定变换有用的相关图像特征。

然后，该特征图数据被用在域分类器的一个或多个层的一个或多个特征图中，根据第二训练操作训练学习代理，第二训练操作使用未标记的图像数据进行训练。

在第二训练操作期间，学习代理被训练以使得当域分类器变得不太能在合成的第二源数据与“真实的”第三源数据进行区分时，该代理被认为是最优的。这样的目的和目标是训练学习代理以采用第二图像数据和第三图像数据的域不可知特征，以用于确定图像数据的坐标系之间的变换的目的。这意味着用于该目的的图像内的图像特征将不太可能包含用于合成第二图像数据的模型的合成人为现象，并且将更有可能是合成的第二图像和“真实的”第三图像两者共同的解剖特征。这意味着可以使用完全标记的合成图像数据(第一图像数据)来训练学习代理，而无需使用已经预先手动标记的“真实的”训练图像。

域分类器可以被配置为从上述特征图生成所接收的图像数据是第三源图像数据(第一域)或第二源图像数据(第二域)之一的概率估计。优选地，第二训练操作包括训练计算机系统以确定被成像结构的视图和合成结构的视图的相应坐标系之间的变换，使得概率估计接近为0.5的值，从而降低域分类器在合成结构与被成像结构之间进行区分的能力。

以这种方式，域分类器可以被布置为生成概率值，以表达输入到域分类器的图像数据来自第一域和第二域之一的可能性。随着区分器变得更不能进行这种区分，作为第二训练操作的结果，可能性测量(例如，概率值)将变得更加模棱两可。以数值角度，当概率值接近于0.5时，它变得更加模棱两可。也就是说，当图像数据属于第一域的概率等于其属于第二域的概率时，区分器变得完全不能在两个域之间进行区分。

在其他的一些机器学习算法中，分类到给定域的可能性的数值表达可以是诸如本领域技术人员很清楚的“距离”度量。

机器学习算法可以包括一个或多个神经网络。机器学习算法可以包括对抗神经网络，诸如域对抗神经网络(DANN)。机器学习算法可以包括对抗神经网络，诸如生成对抗神经网络(GAN)。GAN被布置为执行区分步骤(第二训练操作)以抵消第一训练操作的目标(生成步骤)，同时尝试在第一域与第二域之间进行区别。GAN可以包括Wasserstein GAN(WGAN)，其中分类不是基于概率值/答案而发生的，而是通过测量表示第一域与第二域的概率分布之间的差异(距离度量的大小)的距离度量(Wasserstein距离)而发生的。

机器学习算法可以包括：第一神经网络，被布置用于接收输入图像数据，并且从其生成第一网络输出；第二神经网络，被布置用于接收输入图像数据，并且从其生成第二网络输出；第三神经网络，被布置用于接收第一网络输出和第二网络输出两者作为输入，并且从其生成第三网络输出以用于确定变换；第四神经网络，限定域分类器并且被布置用于接收由第一神经网络和/或第二神经网络的层生成的激活中的一个或多个激活作为输入。

第四神经网络可以限定上述的域分类器。它可以限定域对抗神经网络(DANN)。第四神经网络可以被布置为接收由第一神经网络的一个(例如，仅一个单独的)层或第一神经网络的多个层生成的激活中的一个或多个(例如，全部)激活作为其一个或多个输入，而没有从第二网络接收任何激活。备选地，第四神经网络可以被布置为同时接收由第一神经网络和第二神经网络的一个(例如，仅一个单独的)层或多个层生成的激活作为其输入。第四神经网络可以包括一个或多于一个的层。

第四神经网络的每个层可以接收由第一神经网络和第二神经网络中的任一个的层生成的激活作为其输入。机器学习算法可以包括两个上述分类器，一个分类器被布置为从第一神经网络接收激活，而另一分类器被布置为从第二神经网络接收激活。一个分类器可以被布置为关于与经标记的数据(例如，第一图像源数据)相关联的域来适配第一神经网络，并且另一分类器可以被布置为关于与未标记的数据(例如，第二图像源数据和/或第三图像源数据)相关联的域来适配第二神经网络。

第四神经网络可以限定第一上述域分类器，并且可以被布置用于接收由第一神经网络的层生成的激活中的一个或多个激活作为输入，并且机器学习算法可以包括第五神经网络，第五神经网络限定第二上述域分类器并且被布置用于接收由第二神经网络的层生成的激活中的一个或多个激活作为输入。由于第四神经网络(例如，DANN)被应用以将第一神经网络从第一域适配到第二域，因此第五神经网络(例如，DANN)可以被应用以适配第二神经网络。因此，如果想要同时适配第一神经网络和第二神经网络，则可能存在作为第二区分器的第五网络。

分类器可以被布置为关于第二源图像数据和/或第三源图像数据适配第二神经网络。

第一神经网络、第二神经网络和第四神经网络可以各自包括相应的卷积神经网络(CNN)。第三神经网络可以包括全连接神经网络(FC)。

机器学习算法可以包括域对抗神经网络。

第二训练操作可以包括：训练计算机系统，使得概率估计达到0.6与0.4之间的值，诸如在0.45至0.55之间的值，或者更接近目标值0.5的值。当然，在采用距离度量(例如，Wasserstein距离)作为分类输出的情况下，代替概率值，则可以选择针对该距离的适当目标值作为所计算的距离应当优选地接近于的目标值。

该模型可以是包括三维图像数据的三维模型，并且第一目标图像数据可以包括二维图像数据，该二维图像数据表示三维模型用以限定上述视图的二维投影。

该模型可以是包括三维图像数据的三维模型，并且第一训练操作可以包括：基于模型的二维投影来生成投影图像数据；在计算机系统处，接收投影图像数据作为第一源图像数据；由计算机系统确定针对适用于投影图像数据的多个动作中的每个动作的奖励；基于所确定的奖励来选择动作；以及根据所选择的动作来变换投影图像数据。

以这种方式，第一训练操作可以选择具有最佳奖励的变换。

变换投影图像数据的步骤可以包括：将所选择的动作应用于模型，以生成经变换的模型；以及基于经变换的模型的二维投影来生成另外的投影图像数据。因此，所选择的动作可以包括线性变换和/或旋转、和/或由所选择的动作限定的用于实现变换的任何其他合适种类的空间变换。优选地将动作应用于模型(例如，解剖对象的3D模型)和从其绘制的2D投影，但是如果期望的话，则可以将变换或动作应用于现有的2D投影。

可以基于投影图像数据的平移和/或旋转或者任何其他类型的空间变换，确定针对多个动作中的每个动作的奖励。

该模型可以是包括三维图像数据的三维模型，并且第二训练操作可以包括：基于模型的二维投影来生成投影图像数据；在计算机系统处，接收投影图像数据作为第二源图像数据；由计算机系统确定针对适用于投影图像数据的多个动作中的每个动作的奖励；基于所确定的奖励来选择动作；以及根据所选择的动作来变换投影图像数据。

在第二训练操作中变换投影图像数据的步骤可以包括：将所选择的动作应用于模型，以生成经变换的模型；以及基于经变换的模型的二维投影，生成另外的投影图像数据。可以基于投影图像数据的平移和/或旋转来确定针对多个动作中的每个动作的奖励。更具体地，变换可以是任何，而不仅仅是旋转或平移。根据情况，旋转或平移适合于刚性配准，然而，在仿射配准中，例如，变换可以是剪切/缩放，或者其可以是非刚性配准中的任何变换。在第一训练操作和第二训练操作中的任一训练操作中，奖励可以是本领域普通技术人员很清楚的任何合适的奖励度量或测量。示例包括表示成本函数或损失函数的值。动作的选择可以使得与来自已经被确定的那些成本/损失函数值中的最低成本/损失函数值(或最高值，在某些情况下，诸如域对抗网络)相关联的动作被选择。动作选择的过程可以优选地是迭代过程，其中依次寻求和选择具有依次/更好/奖励的动作，以便接近提供最佳奖励(例如，最低损失/成本)的最优动作。

第三源图像数据可以是磁共振图像数据、计算断层摄影图像数据、和超声图像数据、和X射线图像数据中的任何一项。

因此，本发明还涵盖确定表示被成像对象的图像数据的坐标系之间的变换的方法，其中如上文所述那样被训练的经训练的计算机系统被提供。

该方法还包括：接收合成图像数据，该合成图像数据表示根据结构的模型而合成的结构的视图；接收捕获图像数据，该捕获图像数据表示通过捕获对象的图像而生成的被成像结构；以及使用经训练的计算机系统确定合成图像数据与捕获图像数据的坐标系之间的变换。

合成图像数据可以是未标记的数据。捕获图像数据可以是未标记的数据。

本发明还涵盖学习机器，该学习机器包括如上文所述那样被训练的经训练的计算机系统。

本发明还涵盖利用编程指令而被编码的非暂态计算机可读数据存储介质，当存储介质被加载到要被训练的计算机系统中时，该编程指令使得计算机系统实现如上文所述的根据本发明的方法的任何实施例或所有实施例。

本发明还涵盖具有处理器和医学数据采集扫描仪的医学成像装置。

处理器接收表示合成结构的第一源图像数据，合成结构呈现在根据结构的模型而合成的多个不同视图中，并且处理器接收合成结构的第二源图像数据表示，合成结构呈现在根据结构的模型而合成的多个不同视图中。

处理器接收第三图像数据，第三图像数据表示通过由扫描仪的操作来捕获对象的图像而生成的被成像结构的视图。

处理器被配置为：使用第一源图像数据和与之相关联的标记，作为根据机器学习算法的学习代理来执行第一训练操作，以确定合成结构的多个不同视图中的至少两个视图的相应坐标系之间的变换。

学习代理包括域分类器，该域分类器具有由学习代理在第一训练操作期间生成的特征图，并且被配置为由此生成所接收的图像数据是第三源图像数据(第一域)或第二源图像数据(第二域)之一的概率估计。

处理器被配置为：作为根据机器学习算法的学习代理，使用第二源图像数据和第三源图像数据而不使用与之相关联的标记来执行第二训练操作，以确定被成像结构的视图与合成结构的视图的相应坐标系之间的变换，使得域分类器在合成结构与被成像结构之间进行区分的能力降低。第一源数据可以是经标记的数据。第二源数据可以是未标记的数据。第三源图像数据可以是未标记的数据。

处理器可以被布置为：接收合成图像数据，该合成图像数据表示根据结构的模型而合成的结构的视图；以及接收捕获图像数据，该捕获图像数据表示通过捕获对象的图像而生成的被成像结构；以及确定合成图像数据与捕获图像数据的坐标系之间的变换。合成图像数据可以是未标记的数据。捕获图像数据可以是未标记的数据。

附图说明

图1示出了经受第一训练操作的根据本发明的一个实施例的神经网络的示意图；

图2示出了在第二训练操作中或在第二训练操作之后的使用中的根据本发明的一个实施例的神经网络的示意图；

图3示出了与本发明的实施例相关的卷积神经网络(CNN)的示意图；

图4示出了与本发明的实施例相关的卷积神经网络(CNN)的相邻层的操作序列的示意图；

图5示出了在与本发明的实施例相关并且对理解有用的卷积神经网络(CNN)中由修正线性单元实现的过程和由池化操作实现的过程的示意图；

图6示出了与本发明的实施例相关的卷积神经网络(CNN)的示意图；

图7示出了与本发明的实施例相关的域对抗神经网络(DANN)的示意图；以及

图8示出了在C型臂X射线系统上运行的经训练的学习代理的示意图。

具体实施方式

图3示意性地图示了作为用于深度学习的机器学习算法的卷积神经网络(CNN)。该CNN被特别布置用于图像数据作为输入。CNN与其他类型的神经网络的不同之处在于，CNN的网络层中的神经元在该层之前连接到网络层的子区，而不是像其他类型的神经网络那样完全连接。所讨论的神经元对图像中这些子区之外的区域不进行响应。

这些子区可以重叠，因此CNN的神经元产生空间上相关的结果，而在其他类型的神经网络中，神经元不共享任何连接并且产生独立的结果。在具有全连接的神经元的神经网络中，参数(权重)的数目可以随着输入图像大小的增加而迅速增加。

卷积神经网络通过减少连接的数目、通过共享权重和通过下采样来减少参数的数目。CNN通常可以由多个层组成，诸如卷积层、修正线性单元/层(ReLU)、池化层和全连接(FC)层。这些在图3中被示意性图示。

CNN的每个层中的神经元(未示出)以3D方式布置，从而将3D输入变换为3D输出。例如，对于图像输入，第一层(输入层)将图像保持为3D输入，其中维度是图像高度、图像宽度和图像的颜色通道。第一卷积层中的神经元连接到这些图像的区，并且将它们变换为3D输出。每个层中的隐藏单元(神经元)学习原始输入的非线性组合。这个学习过程被称为“特征提取”。这些从一个层学到的特征(也称为激活)成为用于下一层的输入。这在图4中被示意性地图示，并且在下面描述的图6中更详细地图示。最终，所学习的特征成为到在网络末端处的分类器或回归函数的输入。

参考图4，与输入图像的共同区域相对应的输入组被组合并且输入到CNN的隐藏层的一个共同神经元。为此，隐藏层具有与输入图像的单独区域一样多的神经元。卷积隐藏层的神经元然后可以全连接到相应地生成输出的FC层。

图5示意性地图示了CNN中由修正线性单元/层(ReLU)和池化层实现的过程。ReLU过程将来自CNN的卷积层的激活作为输入，并且通过将任何负值输入/激活值改变为零来改变(修正)那些输入。所有正值输入/激活均保持不变。如图5所示，通常在已经将ReLU过程应用于来自CNN的卷积层的激活之后，池化过程将来自CNN的卷积层的激活作为其输入，并且如下对那些输入/激活进行下采样。为了实现下采样，将所讨论的输入激活层的整个区域划分为大小相等的子区域，并且来自每个子区域内的值最高的激活被选择用于输出。

相对于所选择的其他激活的位置，所选择的激活在池化输出层中被分配与由与其相关联的子区域占据的相对位置相同的相对位置。

图6示意性地图示了使用适于标识输入图像内的不同特征(抽象级别)的一系列过滤器来针对CNN的每个卷积层生成激活的过程。将第一系列过滤器中的每个过滤器与输入图像进行卷积(符号“*”)。这些第一过滤器可以被布置为标识例如形状，但是没有更多细节。这产生了被输入到CNN的第一隐藏层的第一组激活。第二系列过滤器中的每个过滤器与第一隐藏层的激活进行卷积(符号“*”)。这些第二过滤器可以被布置为标识例如更多细节。这产生了被输入到CNN的第二隐藏层的第二组激活。第三系列过滤器中的每个过滤器与第二隐藏层的激活卷积(符号“*”)。这些第三过滤器可以被布置为标识例如更多细节。这产生了被输入到CNN的第三隐藏层的第三组激活。该过程继续通过所期望的尽可能多的连续隐藏层，直到由最终隐藏层生成的激活被输入到全连接(FC)神经网络，该全连接(FC)神经网络被训练为处理输入激活以产生最终输出，诸如根据预定义分类对输入图像进行分类的分类概率。

参考图1，示意性地示出了根据本发明的实施例的在计算机系统中被配置的域对抗神经网络(DANN)，该计算机系统用于在确定表示被成像对象的图像数据的坐标系之间的变换中使用。

DANN包括第一CNN神经网络，该第一CNN神经网络被布置用于接收第一合成且经标记的输入图像数据(图像#1)，并且用于从其生成第一网络输出。DANN包括第二CNN，该第二CNN被布置用于接收第二合成且经标记的输入图像数据(图像#2)，并且用于从其生成第二网络输出。第一CNN输出和第二CNN输出分别被输入到共同的全连接(FC)神经网络。FC神经网络被布置为从这些输入生成第三网络输出，以用于确定图像#1与图像#2之间的坐标变换。

限定域分类器的第四神经网络被布置用于接收由第二神经网络的第一层生成的激活作为到其第一隐藏层的输入。

第四神经网络的添加确保了机器学习算法被配置为域对抗神经网络。

该计算机系统被布置为接收表示合成结构的第一图像数据(图像#1)，该合成结构呈现在根据结构的模型而合成的多个不同视图中的第一视图中。该数据是经标记的数据。同时，计算机系统被布置为接收表示多个不同视图中的第二视图(不同于第一视图)的第二图像数据(图像#2)。该数据也是经标记的数据。应用于图1的“合成图像#1和#2”的标记表示针对每个可能动作的奖励。这些是从在将3D模型投影到2D图像之前应用于3D模型的扰动而计算的。第一源图像数据中的任何两个图像以及与其相关联的标记(奖励和/或动作)可以形成用于训练的三元组。动作越好，奖励越高(即，越接近目标越好)。

该计算机系统被布置为实现第一训练操作，该第一训练操作用于训练计算机系统以确定合成结构的多个不同视图中的图像#1和图像#2的相应坐标系之间的变换。这是使用经标记的图像数据而进行的。因为第四CNN能够接收第二CNN的第一隐藏层的激活，所以在该训练过程中，它变为“加载”有适合于在标识坐标变换中标识特征(即，“特征图”)的激活。

该计算机系统被布置为在完成第一训练操作之后实现第二训练操作。使用完全未标记的图像数据来执行第二训练操作。该第二训练过程如图2所示。

特别地，第二CNN被布置为接收表示合成结构的第三图像数据(图像#3)，该合成结构呈现在根据结构的模型而合成的多个不同视图中的第一视图中。该数据是未标记的数据。第四图像数据(“真实图像”)被输入到第二CNN。

第四图像数据表示通过捕获对象的图像而生成的被成像结构的视图。该图像数据是未标记的数据。

域对抗网络的域分类器的第一隐藏层包括由学习代理在第一训练操作期间生成的特征图。计算机系统被配置为生成输入到第二CNN的图像数据与“合成的”图像数据相对在“真实”图像数据的域内的概率估计。

受还使用未标记的数据确定图像#3与“真实图像”之间的坐标变换的约束，来进行该第二训练步骤。因此，使用未标记的图像数据的第二训练操作需要训练计算机系统以确定“真实图像”的视图与合成图像#3的视图的相应坐标系之间的变换。训练继续进行，直到由域分类器生成的概率估计达到0.6与0.4之间的值。出于充分的实践目的，该条件被认为是指示已经降低了域分类器在合成结构与被成像结构进行区分的能力。

当第二训练操作完成并且计算机系统被视为“经训练”时，可以后续将未标记的图像用作到第一CNN和第二CNN两者的输入，以便标识它们之间的坐标变换。训练的效果是“学习”更有效的特征图，该特征图更适合于标识实际结构(无论是合成的还是“真实的”)的特征，而不是仅将图像标识为“合成”或“真实”的特征。

图7示意性地图示了图1和图2的DANN的第二CNN和域分类器的优化和对抗更新的过程。DANN的目标是将适应嵌入到图像的训练/学习变换的过程中，使得最终分类决策基于对域变化(例如，合成图像域与“真实”图像域)既可区分又不变的特征来进行。学习代理进行学习以做出分类决策所基于的特征是在给定训练操作(例如，使用第二图像源数据和第三图像源数据的第二训练操作)使用的两个图像数据源中均具有相同或相似统计分布的那些特征。

该目标可以被视为训练学习代理以使用图像特征来确定图像变换，该图像特征是代理无法从中标识图像所来源于的域的特征。

图7示意性地示出了以这种方式训练学习代理的数学过程，从而实现了可区别和具有领域不变性(或“域不可知”)的组合。域分类器的工作是在训练期间在域之间进行区分。在该过程期间生成的特征图的参数被优化，以便最小化标识图像变换的第三神经网络的损失(即，通过函数的损失来量化)，同时使域分类器的损失最大化。以这种方式，域分类器以与第三神经网络相反的方式工作。它鼓励域不变特征在执行第一训练操作和/或第二训练操作的同时在优化的过程中展现(emerge)。

图7示出了连接到第二卷积神经网络的域对抗神经网络，如图1和图2所示的完整学习代理的示意图所示。使用来自第二卷积神经网络的所选择的抽象级别(特征图)的分支。计算域分类器的交叉熵损失(L_D(θ_D))，其中θ_D表示域分类器的参数。在包括以下三个连续更新规则的迭代训练期间，使用梯度反向传播来优化整个网络的权重：

具有学习速率λ_f的图像变换分类器(第二CNN)的优化：

具有学习速率λ_D的域分类器的优化：

图像变换分类器的对抗性更新：

变量θ_f表示图像变换分类器CNN的参数，其被布置为最小化交叉熵损失(L_f(θ_f))。用于该网络的第一更新规则(1)以与第三更新规则(3)相反的方式工作。第一更新规则通过最小化L_f(θ_f)来更新用于图像变换分类的同一参数θ_f。然而，第三更新规则通过最大化L_D(θ_D)来更新同一参数，以防止原始域从用于标识图像变换的图像的陆地(land)特征中被恢复。参数α是值介于零(0)与一(1)之间的实数。它控制对抗分量的“强度”。

图8示意性地图示了包括已经根据上述方法训练的经训练的学习代理的医学成像装置。该成像装置包括C型臂X射线图像捕获和显示系统(10)。C型臂X射线图像系统是一种基于X射线技术的医学成像设备。该名称从用于将X射线源和X射线检测器彼此连接的C形臂得出。C形连接的元件允许水平、竖直和围绕旋转轴运动，使得患者的X射线图像可以从多个角度产生。C型臂包括X射线源和平板检测器。X射线源发出穿透患者身体的X射线。入射X射线的强度被直接转换为数字值。平板检测器将X射线转换为显示在设备的显示屏上的可见图像。用户可以标识和检查图像上的解剖细节(诸如器官、骨骼等)以及植入物和器械的位置。

C型臂X射线图像捕获和显示系统(10)包括计算机系统(未示出)，该计算机系统被布置为生成诸如器官、骨骼等的解剖部位的三维模型，并且生成针对那些部位的三维合成图像数据。该计算机系统被布置为基于给定解剖部位的3D模型的多个二维(2D)投影来生成投影图像数据。计算机系统根据需要确定要应用于2D投影图像的空间/坐标变换，以实现合成的解剖图像和解剖对象的实际X射线图像之间的配准。

这通过相对于实际X射线图像数据计算针对适用于投影2D图像数据的多个动作中的每个动作的奖励来进行。该计算机系统基于所确定的奖励来选择动作，然后根据所选择的动作来变换投影2D图像数据。变换投影图像数据的步骤包括将所选择的动作应用于3D模型以生成经变换的模型。然后，计算机系统基于该经变换的3D模型的二维投影来生成另外的投影图像数据。通过应用这些步骤，C型臂X射线图像捕获和显示系统(10)的计算机系统能够实现上述的训练操作。

如图8示意性地所示，C型臂X射线图像捕获系统的显示系统(10)还被布置为后续显示解剖对象的真实X射线图像以及该解剖对象的最佳配准的2D投影图像(合成的)。这准许用户实时地在X射线图像内准确地表示和定位解剖对象。

本文中描述的示例实施例中的至少一些可以使用专用硬件来部分或全部地构造。本文中使用的诸如“组件”、“模块”或“单元”的术语可以包括但不限于执行某些任务或提供相关联功能的硬件设备，诸如以分立或集成组件形式的电路、现场可编程门阵列(FPGA)或专用集成电路(ASIC)。在一些实施例中，所描述的元件可以被配置为驻留在有形的、持久的、可寻址的存储介质上，并且可以被配置为在一个或多个处理器上执行。在一些实施例中，这些功能元件可以包括例如组件，诸如软件组件、面向对象的软件组件、类组件和任务组件、进程、功能、属性、过程、子例程、程序代码段、驱动程序、固件、微码、电路、数据、数据库、数据结构、表、阵列和变量。尽管已经参考本文中讨论的组件、模块和单元描述了示例实施例，但是这样的功能元件可以被组合成更少的元件或者被分离成另外的元件。本文中已经描述了可选特征的各种组合，并且应当理解，所描述的特征可以以任何合适的组合来组合。

特别地，任何一个示例实施例的特征可以适当地与任何其他实施例的特征组合，除非在这种组合是互斥的情况下。在整个说明书中，术语“包括”或“包含”意味着包括指定的(多个)组件，但不排除其他组件的存在。

注意结合本申请与本说明书同时或在本说明书之前提交并且随本说明书向公众开放的所有文章和文件，并且所有这些文章和文件的内容在此引入作为参考。

在本说明书中公开的所有特征(包括任何所附权利要求、摘要和附图)和/或如此公开的任何方法或过程的所有步骤可以以任何组合进行组合，除了其中这样的特征和/或步骤中的至少一些是互斥的组合。

除非另有明确说明，否则本说明书中公开的每个特征(包括任何所附权利要求、摘要和附图)可以由用作相同、等同或相似目的的备选特征代替。因此，除非另有明确说明，否则所公开的每个特征仅是通用的一系列等同或相似特征的示例。

尽管本领域技术人员可以提出修改和改变，但是申请人的意图是将所有改变和修改合理地实施在所获批的专利内并且适当地在申请人对本领域的贡献的范围之内。

Claims

1.一种训练计算机系统的方法，所述计算机系统用于在确定表示被成像对象的图像数据的坐标系之间的变换中使用，所述方法包括：

接收表示合成结构的第一源图像数据，所述合成结构呈现在根据所述结构的模型而合成的多个不同视图中；

接收表示合成结构的第二源图像数据，所述合成结构呈现在根据所述结构的模型而合成的多个不同视图中；

接收第三源图像数据，所述第三源图像数据表示由成像装置在捕获所述对象的图像中生成的被成像结构的视图；

在第一训练操作中，使用经标记的所述第一源图像数据和与经标记的所述第一源图像数据相关联的标记，训练根据机器学习算法被配置为学习代理的计算机系统，以确定所述合成结构的所述多个不同视图中的至少两个视图的相应坐标系之间的变换；

其中所述学习代理包括域分类器，所述域分类器包括由所述学习代理在所述第一训练操作期间生成的特征图并且被配置为从所述特征图生成分类输出，所述分类输出指示所接收的图像数据是所述第三源图像数据或所述第二源图像数据之一；以及

在第二训练操作中，使用未标记的所述第二源图像数据和所述第三源图像数据而不使用与未标记的所述第二源图像数据和所述第三源图像数据相关联的标记，训练计算机系统以确定所述被成像结构的所述视图与所述合成结构的所述视图的相应坐标系之间的变换，使得所述域分类器在所述合成结构与所述被成像结构之间进行区分的能力降低。

2.根据权利要求1所述的训练计算机系统的方法，其中所述机器学习算法包括一个或多个神经网络。

3.根据权利要求1所述的训练计算机系统的方法，其中所述机器学习算法包括：

第一神经网络，被布置用于接收输入图像数据，并且从所述输入图像数据生成第一网络输出；

第二神经网络，被布置用于接收输入图像数据，并且从所述输入图像数据生成第二网络输出；

第三神经网络，被布置用于接收所述第一网络输出和所述第二网络输出两者作为输入，并且从所述第一网络输出和所述第二网络输出生成第三网络输出，以用于确定所述变换；以及

第四神经网络，限定所述域分类器，并且被布置用于接收由所述第一神经网络和/或所述第二神经网络的层生成的激活中的一个或多个激活作为输入。

4.根据权利要求1所述的训练计算机系统的方法，其中所述第一神经网络、所述第二神经网络和所述第四神经网络均是卷积神经网络(CNN)，并且所述第三神经网络是全连接神经网络(FC)。

5.根据权利要求1所述的训练计算机系统的方法，其中所述机器学习算法包括域对抗神经网络。

6.根据权利要求1所述的训练计算机系统的方法，其中所述分类输出是概率估计，并且所述第二训练操作包括训练所述计算机系统以确定所述变换，使得所述概率估计接近为0.5的值，从而降低所述域分类器在所述合成结构与所述被成像结构之间进行区分的能力。

7.根据权利要求6所述的训练计算机系统的方法，其中所述第二训练操作包括：训练所述计算机系统，使得所述概率估计达到0.6与0.4之间的值。

8.根据权利要求1所述的训练计算机系统的方法，其中所述模型是包括三维图像数据的三维模型，并且所述第一目标图像数据包括二维图像数据，所述二维图像数据表示所述三维模型用以限定所述视图的二维投影。

9.根据权利要求1所述的训练计算机系统的方法，其中所述模型是包括三维图像数据的三维模型，所述第一训练操作包括：

基于所述模型的二维投影，生成投影图像数据；

在所述计算机系统处，接收所述投影图像数据作为所述第一源图像数据；

由所述计算机系统确定针对适用于所述投影图像数据的多个动作中的每个动作的奖励；

基于所确定的所述奖励，选择动作；以及

根据所选择的所述动作，变换所述投影图像数据。

10.根据权利要求9所述的训练计算机系统的方法，其中所述变换所述投影图像数据包括：

将所选择的所述动作应用于所述模型，以生成经变换的模型；以及

基于所述经变换的模型的二维投影，生成另外的投影图像数据。

11.根据权利要求9所述的训练计算机系统的方法，其中针对所述多个动作中的每个动作的所述奖励基于所述投影图像数据的空间变换而被确定。

12.根据权利要求1所述的训练计算机系统的方法，其中所述模型是包括三维图像数据的三维模型，所述第二训练操作包括：

基于所述模型的二维投影，生成投影图像数据；

在所述计算机系统处，接收所述投影图像数据作为所述第二源图像数据；

基于所确定的所述奖励，选择动作；以及

根据所选择的所述动作，变换所述投影图像数据。

13.根据权利要求12所述的训练计算机系统的方法，其中所述变换所述投影图像数据包括：

14.根据权利要求12所述的训练计算机系统的方法，其中针对所述多个动作中的每个动作的所述奖励基于所述投影图像数据的空间变换而被确定。

15.根据权利要求1所述的训练计算机系统的方法，其中所述第三源图像数据包括以下中的一项：磁共振图像数据、计算断层摄影图像数据、超声图像数据和X射线图像数据。

16.根据权利要求1所述的训练计算机系统的方法，通过以下来确定表示被成像对象的图像数据的坐标系之间的变换：

将合成图像数据接收到经训练的所述计算机系统中，所述合成图像数据表示根据结构的模型而合成的所述结构的视图；

将捕获图像数据接收到经训练的所述计算机系统中，所述捕获图像数据表示通过捕获所述对象的图像而生成的被成像结构；以及

在经训练的所述计算机系统中，使用经训练的所述计算机系统确定所述合成图像数据与所述捕获图像数据的坐标系之间的变换。

17.一种医学成像装置，包括：

医学数据采集扫描仪；以及

处理器，接收表示合成结构的第一源图像数据，所述合成结构呈现在根据所述结构的模型而合成的多个不同视图中；

所述处理器还接收表示合成结构的第二源图像数据，所述合成结构呈现在根据所述结构的模型而合成的多个不同视图中；

所述处理器还接收第三源图像数据，所述第三源图像数据表示通过由操作所述扫描仪来捕获所述对象的图像而生成的被成像结构的视图；

所述处理器被配置为：使用经标记的所述第一源图像数据并且使用与经标记的所述第一源图像数据相关联的标记，作为根据机器学习算法的学习代理执行第一训练操作，以确定所述合成结构的所述多个不同视图中的至少两个视图的相应坐标系之间的变换；

其中所述学习代理包括域分类器，所述域分类器包括由所述学习代理在所述第一训练操作期间生成的特征图，并且被配置为从所述特征图生成分类输出，所述分类输出指示所接收的图像数据是所述第三源图像数据或所述第二源图像数据之一；

所述处理器被配置为：作为根据机器学习算法的学习代理，使用未标记的所述第二源图像数据和所述第三源图像数据而不使用与未标记的所述第二源图像数据和所述第三源图像数据相关联的标记，执行第二训练操作，以确定所述被成像结构的所述视图与所述合成结构的所述视图的相应坐标系之间的变换，使得所述域分类器在所述合成结构与所述被成像结构之间进行区分的能力降低。

18.根据权利要求17所述的医学成像装置，其中所述处理器：

接收合成图像数据，所述合成图像数据表示根据结构的模型而合成的所述结构的视图；

接收捕获图像数据，所述捕获图像数据表示通过捕获所述对象的图像而生成的被成像结构；

确定所述合成图像数据与所述捕获图像数据的坐标系之间的变换。

19.一种利用编程指令被编码的非暂态计算机可读数据存储介质，所述存储介质被加载到计算机系统中并且所述编程指令使得所述计算机系统：

其中所述学习代理包括域分类器，所述域分类器包括由所述学习代理在所述第一训练操作期间生成的特征图，并且被配置为从所述特征图生成分类输出，所述分类输出指示所接收的图像数据是所述第三源图像数据或所述第二源图像数据之一；以及

在第二训练操作中，使用未标记的所述第二源图像数据和所述第三源图像数据而不使用与未标记的所述第二源图像数据和所述第三源图像数据相关联的标记，训练计算机系统，以确定所述被成像结构的所述视图与所述合成结构的所述视图的相应坐标系之间的变换，使得所述域分类器在所述合成结构与所述被成像结构之间进行区分的能力降低。