CN115019078A

CN115019078A - 数据聚类方法以及装置

Info

Publication number: CN115019078A
Application number: CN202210946778.6A
Authority: CN
Inventors: 刘俊龙; 申晨; 沈旭; 黄建强
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-09-06
Anticipated expiration: 2042-08-09
Also published as: CN115019078B

Abstract

本说明书实施例提供数据聚类方法以及装置，其中所述数据聚类方法包括：获取待聚类数据集，并根据所述待聚类数据集中任意两个待聚类数据间的匹配概率，对所述任意两个待聚类数据进行聚类处理，生成中间聚类结果，根据所述中间聚类结果中任意两个待聚类数据间的匹配概率，确定所述中间聚类结果中、每个待聚类数据对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值，根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果。

Description

数据聚类方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种数据聚类方法以及装置。

背景技术

在互联网科技领域，所应用的服务场景非常多且复杂，并且用户群体庞大，从而导致会产生海量数据，并且需要对海量数据进行实时计算（也称为在线计算）处理，以向用户提供实时响应。

在线计算的其中一种方式即在线聚类，由于目前的聚类方法，通常需要预定义聚类结果（聚类簇）的数量，但在实际的服务场景中，由于实时生成的在线数据的不确定性，将数据聚类生成的聚类结果的数量可能无法预先获取，因此，若在对数据进行聚类之前，盲目的设置聚类结果的数量，则会导致聚类结果不够准确，因此，亟需提供一种有效的方法以解决此类问题。

发明内容

有鉴于此，本说明书实施例提供了一种数据聚类方法。本说明书一个或者多个实施例同时涉及一种数据聚类装置，一种图像聚类方法，一种图像聚类装置，一种车辆图像处理方法，一种车辆图像处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据聚类方法，包括：

获取待聚类数据集，并根据所述待聚类数据集中任意两个待聚类数据间的匹配概率，对所述任意两个待聚类数据进行聚类处理，生成中间聚类结果；

根据所述中间聚类结果中任意两个待聚类数据间的匹配概率，确定所述中间聚类结果中、每个待聚类数据对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值；

根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果。

根据本说明书实施例的第二方面，提供了一种数据聚类装置，包括：

获取模块，被配置为获取待聚类数据集，并根据所述待聚类数据集中任意两个待聚类数据间的匹配概率，对所述任意两个待聚类数据进行聚类处理，生成中间聚类结果；

确定模块，被配置为根据所述中间聚类结果中任意两个待聚类数据间的匹配概率，确定所述中间聚类结果中、每个待聚类数据对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值；

调整模块，被配置为根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果。

根据本说明书实施例的第三方面，提供了一种图像聚类方法，包括：

获取待聚类图像集，并根据所述待聚类图像集中任意两个待聚类图像间的匹配概率，对所述任意两个待聚类图像进行聚类处理，生成中间聚类结果；

根据所述中间聚类结果中任意两个待聚类图像间的匹配概率，确定所述中间聚类结果中、每个待聚类图像对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值；

根据本说明书实施例的第四方面，提供了一种图像聚类装置，包括：

聚类模块，被配置为获取待聚类图像集，并根据所述待聚类图像集中任意两个待聚类图像间的匹配概率，对所述任意两个待聚类图像进行聚类处理，生成中间聚类结果；

确定模块，被配置为根据所述中间聚类结果中任意两个待聚类图像间的匹配概率，确定所述中间聚类结果中、每个待聚类图像对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值；

生成模块，被配置为根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果。

根据本说明书实施例的第五方面，提供了一种车辆图像处理方法，包括：

获取待聚类车辆图像集，并根据所述待聚类车辆图像集中任意两个待聚类车辆图像间的匹配概率，对所述任意两个待聚类车辆图像进行聚类处理，生成中间聚类结果；

根据所述中间聚类结果中任意两个待聚类车辆图像间的匹配概率，确定所述中间聚类结果中、每个待聚类车辆图像对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值；

根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果；

根据包含目标车辆的待聚类车辆图像的目标聚类结果，确定所述目标车辆的运动轨迹。

根据本说明书实施例的第六方面，提供了一种车辆图像处理装置，包括：

获取模块，被配置为获取待聚类车辆图像集，并根据所述待聚类车辆图像集中任意两个待聚类车辆图像间的匹配概率，对所述任意两个待聚类车辆图像进行聚类处理，生成中间聚类结果；

第一确定模块，被配置为根据所述中间聚类结果中任意两个待聚类车辆图像间的匹配概率，确定所述中间聚类结果中、每个待聚类车辆图像对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值；

调整模块，被配置为根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果；

第二确定模块，被配置为根据包含目标车辆的待聚类车辆图像的目标聚类结果，确定所述目标车辆的运动轨迹。

根据本说明书实施例的第七方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令实现任意一项所述数据聚类方法、所述图像聚类方法或所述车辆图像处理方法的步骤。

根据本说明书实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现任意一项所述数据聚类方法、所述图像聚类方法或所述车辆图像处理方法的步骤。

根据本说明书实施例的第九方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据聚类方法、所述图像聚类方法或所述车辆图像处理方法的步骤。

本说明书一个实施例通过获取待聚类数据集，并根据所述待聚类数据集中任意两个待聚类数据间的匹配概率，对所述任意两个待聚类数据进行聚类处理，生成中间聚类结果，根据所述中间聚类结果中任意两个待聚类数据间的匹配概率，确定所述中间聚类结果中、每个待聚类数据对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值，根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果。

本说明书实施例在对待聚类数据进行聚类的过程中，无需指定聚类结果的数量，仅是根据各待聚类数据间的匹配概率进行聚类，并实时根据各聚类结果中待聚类数据对应的聚类准确度期望值和/或聚类分裂度期望值，对聚类结果进行调整，有利于保证聚类结果的准确性。

附图说明

图1是本说明书一个实施例提供的一种数据聚类方法的流程图；

图2是本说明书一个实施例提供的一种数据聚类过程的示意图；

图3是本说明书一个实施例提供的一种数据聚类方法的处理过程流程图；

图4是本说明书一个实施例提供的一种数据聚类装置的结构示意图；

图5是本说明书一个实施例提供的一种图像聚类方法的流程图；

图6是本说明书一个实施例提供的一种图像聚类装置的结构示意图；

图7是本说明书一个实施例提供的一种车辆图像处理方法的流程图；

图8是本说明书一个实施例提供的一种车辆图像处理装置的结构示意图；

图9是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

欧式距离：指在欧几里得空间中两点之间的距离，用于计算某两个对象之间的某一个模态的特征向量之间的欧式距离。

特征向量：对图片计算的一维数组，通常两个图片的相似度可以通过两者的特征向量计算欧式距离得到。

余弦相似度：通过计算两个向量的夹角余弦值来评估他们的相似度，用于计算某两个对象之间的某一个模态的特征数据之间的相似度。

匹配概率：一对（两个）对象属于同一个聚类类别的概率。

在线聚类：流式数据下要求聚类进行近实时聚类，即数据到达时间与该数据聚类完成时间的延迟满足一定要求。

准确度：即一个类别内属于同一个类的最大数量/总数量。

分裂度：事实上属于同一类的对象聚类后划分成的类数量/1。

匹配概率：对象间可计算对象间为同一类的概率，例如图片对之间抽取特征向量后，计算欧式距离，通过一些标注数据或者预设映射规则，可以统计/计算欧式距离到匹配概率的映射结果。

在本说明书中，提供了一种数据聚类方法，本说明书同时涉及一种数据聚类装置，一种图像聚类方法，一种图像聚类装置，一种车辆图像处理方法，一种车辆图像处理装置，一种计算设备，一种计算机可读存储介质，以及一种计算机程序，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一个实施例提供的一种数据聚类方法的流程图，具体包括以下步骤。

步骤102，获取待聚类数据集，并根据所述待聚类数据集中任意两个待聚类数据间的匹配概率，对所述任意两个待聚类数据进行聚类处理，生成中间聚类结果。

具体的，待聚类数据集中包含至少两个待聚类数据；待聚类数据为目标项目中的项目数据，可通过对项目数据进行聚类，以根据聚类结果进行相应的项目处理，本说明书实施例中，目标项目包括但不限于面部识别项目、人流量统计项目、车流量统计项目等，待聚类数据包括但不限于待聚类图像、待聚类文本、待聚类视频等。

在待聚类数据为待聚类图像的情况下，待聚类数据集即为待聚类图像集。

由于目前的数据聚类方法，通常需要预定义聚类结果（聚类簇）的数量，但在目标项目实际的应用场景中，该数量不一定可以获取；例如，在目标项目运行过程中，若生成流式数据，流式数据下要求进行近实时聚类，即数据到达时间与该数据聚类完成时间的延迟满足一定要求，因此，通常采用在线聚类的方式，而在线聚类过程中，由于数据是实时生成的，即待聚类数据集中包含哪些待聚类数据，这些待聚类数据将聚类生成哪些聚类结果，这些都是不能预先确定的，若在对待聚类数据进行聚类之前，盲目的设置聚类结果的数量，则会导致聚类结果不够准确。

基于此，本说明书实施例通过计算待聚类数据集中、邻近对象间的匹配概率，将聚类目标形式化为极大似然优化，并通过准确度/分裂度的分析，实现对聚类结果进行拆解决策，以满足不同项目对类别的准确度要求下达到较优的分裂度。通过这种方式，无需预先指定聚类结果的数量，可适应不同在线数据窗口，可以有效解决在线聚类问题。可广泛应用于多种聚类场景，例如城市大规模行人、机动车、非机动车的在线聚类，大规模短视频在线聚类，社交平台发布动态实时聚类，购物平台商品分类等。

具体实施时，根据所述待聚类数据集中任意两个待聚类数据间的匹配概率，对所述任意两个待聚类数据进行聚类处理，包括：

对所述待聚类数据集中包含的至少两个待聚类数据进行特征提取处理，生成对应的特征提取结果；

基于所述特征提取结果确定所述至少两个待聚类数据中、任意两个待聚类数据间的匹配概率；

根据所述匹配概率，对所述至少两个待聚类数据进行聚类处理。

进一步的，基于所述特征提取结果确定所述至少两个待聚类数据中、任意两个待聚类数据间的匹配概率，包括：

基于所述特征提取结果确定所述至少两个待聚类数据中、任意两个待聚类数据间的目标欧式距离；

根据预设的欧式距离与匹配概率间的映射关系，确定与所述目标欧式距离存在映射关系的目标匹配概率，并将所述目标匹配概率确定为所述至少两个待聚类数据中、任意两个待聚类数据间的匹配概率。

具体的，待聚类数据集中包含至少两个待聚类数据，在对待聚类数据集中的待聚类数据进行聚类的过程中，可先对各待聚类数据进行特征提取处理，获得各待聚类数据对应的特征向量，然后通过计算任意两个待聚类数据的特征向量间的欧式距离或余弦相似度的方式，确定待聚类数据集中任意两个待聚类数据间的匹配概率，以根据匹配概率确定是否将两个待聚类数据聚类为同一类别。

其中，可先设置欧式距离与匹配概率间的映射关系，或设置余弦相似度与匹配概率间的映射关系，例如，欧式距离为0-3，映射至匹配概率，匹配概率的值为0.1、欧式距离为3.1-5，映射至匹配概率，匹配概率的值为0.2，等等；具体的映射关系可根据实际需求确定，在此不作限制。

在计算获得任意两个待聚类数据间的欧式距离或余弦相似度后，可将欧式距离或余弦相似度的值映射至匹配概率，以根据映射得到的目标匹配概率的大小，确定两个待聚类数据是否聚类为同一类别，例如，若目标匹配概率的大小大于预设概率阈值50%，则可将两个待聚类数据聚类为同一类别，以生成对应的中间聚类结果。

实际应用中，聚类生成的中间聚类结果可以是一个或至少两个。

另外，假设待聚类数据为数据1、数据2、数据3、数据4，在对数据1、数据2和数据3进行聚类时，确定数据1与数据2间的匹配概率、数据1与数据3间的匹配概率、数据2与数据3间的匹配概率均大于预设概率阈值，则先将数据1、数据2、数据3聚类至同一中间聚类结果，在对数据4进行聚类处理时，先计算数据4与数据1、数据4与数据2、数据4与数据3间的三个匹配概率，并在确定三个匹配概率中存在的一定数量（超过一半）的匹配概率均大于预设概率阈值，则可将数据4聚类至该中间聚类结果，若三个匹配概率中超过一半的匹配概率均不大于预设概率阈值，则可先将数据4单独聚类至另一中间聚类结果。

本说明书实施例未预先设置待聚类数据的聚类结果的数量，在聚类过程中，通过计算任意两个待聚类数据间的欧式距离或余弦相似度，以根据欧式距离或余弦相似度进一步确定任意两个待聚类数据间的匹配概率，进而根据匹配概率对各待聚类数据进行聚类处理，有利于保证生成的聚类结果的准确度。

或者，在目标项目的在线运行过程中，若需对目标项目中实时生成的目标待聚类数据进行在线聚类处理，则可将目标项目的历史待聚类数据和实时生成的目标待聚类数据共同组成待聚类数据集，并根据待聚类数据集中任意两个待聚类数据间的匹配概率，对各待聚类数据进行聚类处理，生成中间聚类结果，具体可通过以下方式实现：

根据所述待聚类数据集中任意两个历史待聚类数据间的第一匹配概率，对所述任意两个历史待聚类数据进行聚类处理，生成初始聚类结果；

确定待聚类数据集中、目标待聚类数据与每个历史待聚类数据间的第二匹配概率；

根据所述第二匹配概率，对所述初始聚类结果进行更新，生成中间聚类结果。

具体的，待聚类数据集中包含历史待聚类数据和目标待聚类数据，历史待聚类数据即目标项目在历史时间区间内运行的过程中，所生成的数据，而目标待聚类数据，即目标项目在当前时间区间内运行的过程中，所生成的数据。

由于在接收到目标待聚类数据时，历史待聚类数据实际可能已被聚类到对应的初始聚类结果，具体的聚类方式即根据任意两个历史待聚类数据间的第一匹配概率进行聚类，即若两个历史待聚类数据间的第一匹配概率大于预设概率阈值，则可将两个历史待聚类数据聚类至同一初始聚类结果，或者，若历史聚类数据A与初始聚类结果中超半数的历史聚类数据间的第一匹配概率均大于预设概率阈值，则可将该历史聚类数据A添加至该初始聚类结果，以实现聚类。

因此，若对历史待聚类数据进行聚类生成初始聚类结果，则对目标待聚类数据进行在线聚类，即确定是否可将目标待聚类数据聚类至某一初始聚类结果，具体即确定目标待聚类数据与任意初始聚类结果中包含的每个历史待聚类数据间的第二匹配概率，以确定是否将目标待聚类数据添加至初始聚类结果，或将目标待聚类数据聚类至新的初始聚类结果，以生成中间聚类结果。

或者，可确定每个初始聚类结果的类代表对象，即确定每个初始聚类结果中处于中心点的历史待聚类数据，并将该历史待聚类数据作为类代表对象，然后计算目标待聚类数据与类代表对象间的第二匹配概率，从而确定是否将目标待聚类数据添加至对应的初始聚类结果，或将目标待聚类数据重新聚类至新的初始聚类结果，以生成中间聚类结果。

例如，历史待聚类数据包括数据1、数据2、数据3、数据4、数据5，目标待聚类数据为数据6，数据1、数据2、数据3聚为初始聚类结果J1，数据4和数据5聚为初始聚类结果J2，在需对数据6进行聚类时，可先计算数据6与数据1、数据6与数据2、数据6与数据3、数据6与数据4、数据6与数据5间的匹配概率，并根据匹配概率确定是否将数据6聚类至初始聚类结果J1或初始聚类结果J2，或将数据6聚类至新的初始聚类结果J3。

或者，可先确定初始聚类结果J1和初始聚类结果J2的类代表对象，若初始聚类结果J1的类代表对象为数据1，初始聚类结果J2的类代表对象为数据4，则可计算数据6与数据1、数据6与数据4间的匹配概率，并根据匹配概率确定是否将数据6聚类至初始聚类结果J1或初始聚类结果J2，或将数据6聚类至新的初始聚类结果J3，以实现对初始聚类结果进行更新，生成中间聚类结果。

本说明书实施例未预先设置待聚类数据的聚类结果的数量，在聚类过程中，先对历史待聚类数据进行聚类，生成初始聚类结果，然后在存在新的目标待聚类数据，并需对新的目标待聚类数据进行在线聚类的情况下，可通过计算目标待聚类数据与各初始聚类结果中历史待聚类数据间的匹配概率的方式，确定是否可将目标待聚类数据聚类至任意初始聚类结果，有利于保证生成的聚类结果的准确度。

其中，根据所述第二匹配概率，对所述初始聚类结果进行更新，包括：

根据所述第二匹配概率确定所述目标待聚类数据对应的第一类别；

根据所述第一类别及所述初始聚类结果对应的第二类别，对所述初始聚类结果进行更新。

具体的，在需对待聚类数据集中的目标待聚类数据进行在线聚类时，可先为目标待聚类数据设置初始类别标签，然后计算目标待聚类数据与各初始聚类结果中每个历史待聚类数据间的第二匹配概率，并根据第二匹配概率对初始聚类结果进行更新。

在根据第二匹配概率对初始聚类结果进行更新的过程中，可先根据以下公式确定目标待聚类数据对应的第一类别：

其中，i表示目标待聚类数据，即待聚类数据集中的第i个目标待聚类数据；t表示初始聚类结果的数量；j表示目标历史待聚类数据，目标历史待聚类数据与目标待聚类数据间的第二匹配概率大于预设概率阈值；

表示包含j的初始聚类结果；KNN(i)为i的K近邻所属的类别，即各目标历史待聚类数据所属的类别；

为第i个对象的初始类别标签；

为j的类别标签，即第二类别；

表示i和j的类别标签一致；

表示i和j的类别标签一致的概率，即第二匹配概率；

表示i和j的类别标签不一致；

表示i和j的类别标签不一致的概率；

表示

与

一致所对应的权重，其为常数。

实际应用中，

。

因此，具体可将

、

和

输入上述公式，得到目标待聚类数据对应的第一类别。

然后通过判断第一类别与各初始聚类结果对应的第二类别是否一致，来确定是否将目标待聚类数据聚类至某一初始聚类结果，或将目标待聚类数据聚类至新的初始聚类结果，以实现对初始聚类结果进行更新。

实际应用中，初始聚类结果对应的第二类别（类别标签），可根据初始聚类结果的生成顺序确定，例如，先聚类得到第一初始聚类结果，则第一初始聚类结果的类别即为类别1，接着聚类得到第二初始聚类结果，则第二初始聚类结果的类别即为类别2，以此类推。而为历史待聚类数据添加初始类别标签，同样可按照待聚类数据集中各数据的排列顺序实现，例如，数据1的类别即为类别1，数据2的类别即为类别2，以此类推。

沿用上例，数据1、数据2、数据3聚为初始聚类结果J1，其对应的类别标签为类别1，数据4和数据5聚为初始聚类结果J2，其对应的类别标签为类别2，在需对数据6进行聚类时，计算数据6与数据1、数据6与数据2、数据6与数据3、数据6与数据4、数据6与数据5间的第二匹配概率，并根据计算结果确定数据6与数据1、数据2、数据5间的第二匹配概率大于预设概率阈值，因此，将数据1、数据2、数据5确定为目标历史待聚类数据。

然后可基于数据6与数据1间的第二匹配概率以及上述公式确定数据6的第一类别，若确定数据6的第一类别为类别1，则将数据6聚类至初始聚类结果J1；若确定数据6的第一类别不是类别1，则基于数据6与数据2间的第二匹配概率以及上述公式确定数据6的第一类别，若确定数据6的第一类别为类别1，则将数据6聚类至初始聚类结果J1；若确定数据6的第一类别不是类别1，则基于数据6与数据5间的第二匹配概率以及上述公式确定数据6的第一类别，若确定数据6的第一类别为类别2，则将数据6聚类至初始聚类结果J2；若确定数据6的第一类别不是类别2，则将数据6聚类至新的初始聚类结果J3。

或者，为降低聚类复杂度，本说明书实施例在计算第二匹配概率时，可先确定各初始聚类结果中的类代表对象，然后计算目标待聚类数据与类代表对象间的第二匹配概率，再根据第二匹配概率在各类代表对象中筛选目标待聚类数据的k个近邻对象，即将与目标待聚类数据间的第二匹配概率大于预设概率阈值的k个类代表对象作为目标待聚类数据的近邻对象，然后根据近邻对象与目标待聚类数据间第二匹配概率，确定目标待聚类数据对应的第一类别。

另外，在同时存在至少两个目标待聚类数据的情况下，还可计算任意两个目标待聚类数据间的第二匹配概率，以及目标待聚类数据与各类代表对象间的第二匹配概率，对于其中任意一个目标待聚类数据，则可根据该目标待聚类数据与类代表对象间的第二匹配概率，以及该目标待聚类数据与其他目标待聚类数据间的第二匹配概率，在类代表对象和其他目标待聚类数据中筛选目标待聚类数据的k个近邻对象，然后根据近邻对象与目标待聚类数据间第二匹配概率，确定目标待聚类数据对应的第一类别，以根据第一类别实现对应的聚类过程。

本说明书实施例未预先设置待聚类数据的聚类结果的数量，在对新的目标待聚类数据进行在线聚类的过程中，可通过计算目标待聚类数据与各初始聚类结果中历史待聚类数据间的匹配概率，或通过计算目标待聚类数据与各初始聚类结果中的类代表对象间的匹配概率的方式，确定是否可将目标待聚类数据聚类至任意初始聚类结果，有利于保证生成的聚类结果的准确度。

进一步的，根据所述第一类别及所述初始聚类结果对应的第二类别，对所述初始聚类结果进行更新，包括：

在所述第一类别与初始聚类结果对应的第二类别一致的情况下，将所述目标待聚类数据添加至所述第一初始聚类结果，其中，所述第一初始聚类结果为所述初始聚类结果之一；

确定所述第一初始聚类结果的第一类代表对象，并确定所述第一类代表对象与第一历史待聚类数据间的第三匹配概率，其中，所述第一历史待聚类数据属于第二初始聚类结果，所述第二初始聚类结果为所述初始聚类结果之一；

根据所述第三匹配概率对所述初始聚类结果进行更新。

或者，在所述第一类别与所述第二类别不一致的情况下，对所述目标待聚类数据及第一初始聚类结果中的第二历史待聚类数据进行聚类，生成第三初始聚类结果，其中，目标待聚类数据与所述第二历史待聚类数据间的第二匹配概率大于预设概率阈值；

确定所述第三初始聚类结果的第三类代表对象，并确定所述第三类代表对象与所述第一初始聚类结果和/或第二初始聚类结果中每个历史待聚类数据间的第四匹配概率；

根据所述第四匹配概率，对所述初始聚类结果进行更新。

具体的，在对历史待聚类数据进行聚类生成第一初始聚类结果和第二初始聚类结果，并在确定目标待聚类数据的类别与第一初始聚类结果对应的类别一致，则可将目标待聚类数据聚类至第一初始聚类结果；然后重新确定第一初始聚类结果的类代表对象，并通过计算该类代表对象与第二初始聚类结果中各历史待聚类数据间的第三匹配概率，以确定在将目标待聚类数据聚类至第一初始聚类结果的情况下，第二初始聚类结果中的历史待聚类数据是否需要聚类至第一初始聚类结果，以实现对初始聚类结果的更新。

或者，在确定目标待聚类数据的类别与第一初始聚类结果对应的类别不一致，则可确定第一初始聚类结果中，与目标待聚类数据间的第二匹配概率大于预设概率阈值的历史待聚类数据，并将该历史待聚类数据和目标待聚类数据聚类至第三初始聚类结果。

然后重新确定第三初始聚类结果的类代表对象，并通过计算该类代表对象与第一初始聚类结果和/或第二初始聚类结果中、各历史待聚类数据间的匹配概率，以确定在生成第三初始聚类结果的情况下，是否需要将第一初始聚类结果和第二初始聚类结果中的其他历史待聚类数据聚类至第三初始聚类结果，以实现对初始聚类结果的更新。

然后可基于数据6与数据1间的第二匹配概率以及上述公式确定数据6的第一类别，若确定数据6的第一类别为类别1，则将数据6聚类至初始聚类结果J1；然后重新确定初始聚类结果的类代表对象，并通过计算该类代表对象与数据4或数据5间的第三匹配概率，以确定在将数据6聚类至初始聚类结果J1的情况下，数据4或数据5是否需要聚类至初始聚类结果J1。

具体的，在第三匹配概率大于预设概率阈值的情况下，即可将数据4或数据4聚类至初始聚类结果J1，以实现对初始聚类结果进行更新。

若确定数据6的第一类别不是类别1，而数据6与数据1间的匹配概率大于预设阈值，则可将数据1和数据6聚类至初始聚类结果J3，然后确定初始聚类结果J3的类代表对象，并计算该类代表对象与数据2、数据3、数据4、数据5间的匹配概率，从而确定是否需将数据2、数据3、数据4、数据5聚类至初始聚类结果J3，以实现对初始聚类结果进行更新。

本说明书实施例未预先设置待聚类数据的聚类结果的数量，在对新的目标待聚类数据进行在线聚类的过程中，根据目标待聚类数据对应的类别，以及各初始聚类结果对应的类别，对目标待聚类数据进行聚类，以实现对初始聚类结果的更新，有利于保证聚类结果的准确性。

步骤104，根据所述中间聚类结果中任意两个待聚类数据间的匹配概率，确定所述中间聚类结果中、每个待聚类数据对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值。

具体实施时，根据所述中间聚类结果中任意两个待聚类数据间的匹配概率，确定所述中间聚类结果中、每个待聚类数据对应的期望值，包括：

确定目标中间聚类结果中，第i个待聚类数据与所述目标中间聚类结果中每个待聚类数据间的匹配概率，其中，所述目标中间聚类结果为所述至少两个中间聚类结果中的任一个；

根据所述匹配概率，确定所述第i个待聚类数据属于所述目标中间聚类结果的第一概率，以及所述第i个待聚类数据不属于所述目标中间聚类结果的第二概率；

在将所述第i个待聚类数据划分至所述目标中间聚类结果的情况下，确定所述第i个待聚类数据属于所述目标中间聚类结果所对应的第一准确度和第一分裂度，并确定所述第i个待聚类数据不属于所述目标中间聚类结果所对应的第二准确度和第二分裂度；

基于所述第一概率、所述第二概率、所述第一准确度及所述第二准确度，确定所述第i个待聚类数据对应的第一聚类准确度期望值；

基于所述第一概率、所述第二概率、所述第一分裂度及所述第二分裂度，确定所述第i个待聚类数据对应的第一聚类分类度期望值。

进一步的，在未将所述第i个待聚类数据划分至所述目标中间聚类结果的情况下，确定所述第i个待聚类数据属于所述目标中间聚类结果所对应的第三准确度和第三分裂度，并确定所述第i个待聚类数据不属于所述目标中间聚类结果所对应的第四准确度和第四分裂度；

基于所述第一概率、所述第二概率、所述第三准确度及所述第四准确度，确定所述第i个待聚类数据对应的第二聚类准确度期望值；

基于所述第一概率、所述第二概率、所述第三分裂度及所述第四分裂度，确定所述第i个待聚类数据对应的第二聚类分类度期望值。

具体的，在将各待聚类数据进行聚类生成至少两个中间聚类结果后，可进一步对中间聚类结果中包含的待聚类数据进行调整，以保证聚类结果的准确性。

对于每个中间聚类结果，若该中间聚类结果中包含一个或至少两个待聚类数据，则可确定各待聚类数据被聚类至该中间聚类结果的情况下，其对应的聚类准确度期望值和/或聚类分裂度期望值，以根据聚类准确度期望值和/或聚类分裂度期望值确定该待聚类数据的聚类结果是否需要调整，即是否需要将该待聚类数据从该中间聚类结果调整到其他中间聚类结果。

其中，分裂度用于表征属于同一类别的待聚类数据，在不同聚类结果中的分布情况，例如，若属于同一类别的待聚类数据均聚类至同一聚类结果，即分布于同一聚类结果，则该类别中的各待聚类数据对应的分裂度均为1；若属于同一类别的待聚类数据被聚类至两个不同的聚类结果，则该类别中的各待聚类数据对应的分裂度均为2，以此类推。

本说明书实施例以至少两个中间聚类结果中的目标中间聚类结果为例，并以该目标中间聚类结果中的第i个待聚类数据为例，对目标中间聚类结果的调整过程进行说明。

首先确定第i个待聚类数据与目标中间聚类结果中的其他每个待聚类数据间的匹配概率，再根据匹配概率确定第i个待聚类数据属于该目标中间聚类结果的第一概率，以及第i个待聚类数据不属于该目标中间聚类结果的第二概率。

其中，第一概率p可通过以下公式计算：

其中，

。

假设目标中间聚类结果中包含数据1、数据2、数据3，第i个待聚类数据为数据1，数据1与数据2间的匹配概率为0.6，数据1与数据2间的不匹配概率即为0.4，数据1与数据3之间的匹配概率为0.7，数据1与数据3间的不匹配概率为0.3，基于此，将0.6、0.4、0.7、0.3输入上述第一概率p的计算公式，即可确定数据1属于该目标中间聚类结果的第一概率，以及数据2不属于该目标中间聚类结果的第二概率。

然后可根据第一概率和第二概率计算聚类分裂度期望值和聚类准确度分裂值。

实际应用中，若将第i个待聚类数据聚类至目标中间聚类结果，则发生第i个待聚类数据属于目标中间聚类结果的概率为p，对应的聚类准确度Z1为1.0，分裂度F1为1.0；发生第i个待聚类数据不属于目标中间聚类结果的概率为1-p，对应的聚类准确度Z2为(n-1)/n，分裂度F2为1.0。

基于此，若将第i个待聚类数据聚类至目标中间聚类结果，则其对应的第一聚类准确度期望值E1=p*Z1+(1-p)*Z1=p + (1-p)*(n-1)/n，第一聚类分裂度期望值E2=p*F1+(1-p)*F2=1。

若将第i个待聚类数据聚类至新的中间聚类结果，即未将第i个待聚类数据划分至目标中间聚类结果的情况下，发生第i个待聚类数据属于目标中间聚类结果的概率为p，对应的聚类准确度Z3为1.0，分裂度F3为2.0；发生第i个待聚类数据不属于目标中间聚类结果的概率为1-p，对应的聚类准确度Z4为1，分裂度F4为1.0。

基于此，若未将第i个待聚类数据聚类至目标中间聚类结果，则其对应的第二聚类准确度期望值E3=p*Z3+(1-p)*Z4=1，第二聚类分裂度期望值E4=p*F3+(1-p)*F4=1。

在计算获得聚类准确率期望值和聚类分类度期望值后，即可根据二者值的大小，确定是否需要对第i个待聚类数据的聚类结果进行调整，实际应用中，若聚类准确率期望值和聚类分类度期望值中的任意一个值小于预设阈值，则可将第i个待聚类数据独立成新类，以实现对每个中间聚类结果进行调整，生成对应的目标聚类结果。

步骤106，根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果。

具体的，如前所述，在计算获得聚类准确率期望值和聚类分类度期望值后，即可根据二者值的大小，确定是否需要对第i个待聚类数据的聚类结果进行调整，实际应用中，若聚类准确率期望值和聚类分类度期望值中的任意一个值小于预设阈值，则可将第i个待聚类数据独立成新类，以实现对各中间聚类结果进行调整，生成对应的目标聚类结果。

由于在实际的聚类过程中，聚类结果对应的聚类准确度和聚类分裂度往往是矛盾体，高聚类准确度意味着高聚类分裂度，本说明书实施例通过计算中间聚类结果中每个待聚类数据的聚类准确度期望值和聚类分类度期望值，以根据二者的值综合调整各待聚类数据的聚类结果，有利于在能够保证待聚类数据的聚类准确度的情况下，将待聚类数据的聚类分裂度达到较优的处理结果。

本说明书实施例提供的一种数据聚类过程的示意图如图2所示。图2中，历史待聚类数据即为已聚类数据，在线数据即为目标待聚类数据，对于在线数据D_t或D_t+1，对其进行在线聚类的过程中，可先批量聚类，并确定各聚类结果中的类代表对象，然后计算已聚类数据中，与各类代表对象的近邻对象，并将类代表对象与其邻近对象进行极大似然概率聚类优化，得到对应的概率聚类结果，然后对每个概率聚类结果进行准确率评估后进行拆分决策，并根据决策结果对已聚类数据对应的聚类结果进行更新，生成目标聚类结果。

具体的，获取在线数据中的批量数据可先进行批量聚类，以降低后续处理步骤的计算量。也可以直接每个数据作为一类，直接确定其近邻对象。其中，聚类方式可使用传统聚类方法，也可以使用概率聚类方法，优先保证准确率。

本说明书实施例的概率聚类无需指定类别数，无论批量数据大小，当批量聚类保证高准确率的条件下，其在线聚类结果均近似于全量数据的极大似然概率目标。另外，通过对概率聚类结果的准确率估计，进行对象的拆分优化，满足不同项目对类别准确率的要求下尽可能的优化分裂度；以及，设计未归类数据和已归类数据的增量聚类优化过程，保证优化过程中的计算量与未归类数据量相关，不随着数据积累而增长，并保证增量聚类效果与全量离线聚类效果接近。

由于城市大脑场景需要不断对视频流解析得到的车流/人流，并对其进行聚类（聚档）分析，延迟性要求最多为1天，且延迟越短越好，若将本说明书实施例提供的数据聚类方法应用于城市大脑场景，则可实现秒级响应，从而可以使产品具备强竞争力。

下述结合附图3，以本说明书提供的数据聚类方法在图像聚类场景的应用为例，对所述数据聚类方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种数据聚类方法的处理过程流程图，具体包括以下步骤。

步骤302，根据任意两个历史待聚类图像间的第一匹配概率，对任意两个历史待聚类图像进行聚类处理，生成初始聚类结果。

步骤304，确定待聚类图像集中、目标待聚类图像与每个历史待聚类图像间的第二匹配概率。

步骤306，根据第二匹配概率确定目标待聚类图像对应的第一类别。

步骤308，在第一类别与第一初始聚类结果对应的第二类别一致的情况下，将目标待聚类图像添加至第一初始聚类结果。

步骤310，确定第一初始聚类结果的第一类代表对象，并确定第一类代表对象与第一历史待聚类图像间的第三匹配概率，其中，第一历史待聚类数据属于第二初始聚类结果，第二初始聚类结果为初始聚类结果之一。

步骤312，根据第三匹配概率对初始聚类结果进行更新，生成至少两个中间聚类结果。

步骤314，在第一类别与第二类别不一致的情况下，对目标待聚类图像及第一初始聚类结果中的第二历史待聚类图像进行聚类，生成第三初始聚类结果，其中，目标待聚类图像与所述第二历史待聚类图像间的第二匹配概率大于预设概率阈值。

步骤316，确定第三初始聚类结果的第三类代表对象，并确定第三类代表对象与第一初始聚类结果和/或第二初始聚类结果中每个历史待聚类数据间的第四匹配概率。

步骤318，根据第四匹配概率，对初始聚类结果进行更新，生成至少两个中间聚类结果。

步骤320，根据每个中间聚类结果中任意两个待聚类图像间的匹配概率，确定每个中间聚类结果中、每个待聚类图像对应的聚类准确度期望值和/或聚类分裂度期望值。

步骤322，根据聚类准确度期望值和/或聚类分裂度期望值，对每个中间聚类结果进行调整，生成对应的目标聚类结果。

本说明书实施例在对待聚类图像进行聚类的过程中，无需指定聚类结果的数量，仅是根据各待聚类图像间的匹配概率进行聚类，并实时根据各聚类结果中待聚类图像对应的聚类准确度期望值和/或聚类分裂度期望值，对聚类结果进行调整，有利于保证聚类结果的准确性。

与上述方法实施例相对应，本说明书还提供了数据聚类装置实施例，图4示出了本说明书一个实施例提供的一种数据聚类装置的结构示意图。如图4所示，该装置包括：

获取模块402，被配置为获取待聚类数据集，并根据所述待聚类数据集中任意两个待聚类数据间的匹配概率，对所述任意两个待聚类数据进行聚类处理，生成中间聚类结果；

确定模块404，被配置为根据所述中间聚类结果中任意两个待聚类数据间的匹配概率，确定所述中间聚类结果中、每个待聚类数据对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值；

调整模块406，被配置为根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果。

可选地，所述获取模块402，进一步被配置为：

在所述第一类别与第一初始聚类结果对应的第二类别一致的情况下，将所述目标待聚类数据添加至所述第一初始聚类结果，其中，所述第一初始聚类结果为所述初始聚类结果之一；

根据所述第三匹配概率对所述初始聚类结果进行更新。

可选地，所述获取模块402，进一步被配置为：

在所述第一类别与所述第二类别不一致的情况下，对所述目标待聚类数据及第一初始聚类结果中的第二历史待聚类数据进行聚类，生成第三初始聚类结果，其中，目标待聚类数据与所述第二历史待聚类数据间的第二匹配概率大于预设概率阈值；

根据所述第四匹配概率，对所述初始聚类结果进行更新。

可选地，所述确定模块404，进一步被配置为：

确定目标中间聚类结果中，第i个待聚类数据与所述目标中间聚类结果中每个待聚类数据间的匹配概率，其中，所述目标中间聚类结果为所述中间聚类结果中的任一个；

可选地，所述确定模块404，还被配置为：

在未将所述第i个待聚类数据划分至所述目标中间聚类结果的情况下，确定所述第i个待聚类数据属于所述目标中间聚类结果所对应的第三准确度和第三分裂度，并确定所述第i个待聚类数据不属于所述目标中间聚类结果所对应的第四准确度和第四分裂度；

可选地，所述待聚类数据集中包含待聚类图像集。

上述为本实施例的一种数据聚类装置的示意性方案。需要说明的是，该数据聚类装置的技术方案与上述的数据聚类方法的技术方案属于同一构思，数据聚类装置的技术方案未详细描述的细节内容，均可以参见上述数据聚类方法的技术方案的描述。

图5示出了根据本说明书一个实施例提供的一种图像聚类方法的流程图，具体包括以下步骤。

步骤502，获取待聚类图像集，并根据所述待聚类图像集中任意两个待聚类图像间的匹配概率，对所述任意两个待聚类图像进行聚类处理，生成中间聚类结果。

步骤504，根据所述中间聚类结果中任意两个待聚类图像间的匹配概率，确定所述中间聚类结果中、每个待聚类图像对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值。

步骤506，根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果。

与上述方法实施例相对应，本说明书还提供了图像聚类装置实施例，图6示出了本说明书一个实施例提供的一种图像聚类装置的结构示意图。如图6所示，该装置包括：

聚类模块602，被配置为获取待聚类图像集，并根据所述待聚类图像集中任意两个待聚类图像间的匹配概率，对所述任意两个待聚类图像进行聚类处理，生成中间聚类结果；

确定模块604，被配置为根据所述中间聚类结果中任意两个待聚类图像间的匹配概率，确定所述中间聚类结果中、每个待聚类图像对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值；

生成模块606，被配置为根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果。

上述为本实施例的一种图像聚类装置的示意性方案。需要说明的是，该图像聚类装置的技术方案与上述的图像聚类方法的技术方案属于同一构思，图像聚类装置的技术方案未详细描述的细节内容，均可以参见上述图像聚类方法的技术方案的描述。

图7示出了根据本说明书一个实施例提供的一种车辆图像处理方法的流程图，具体包括以下步骤。

步骤702，获取待聚类车辆图像集，并根据所述待聚类车辆图像集中任意两个待聚类车辆图像间的匹配概率，对所述任意两个待聚类车辆图像进行聚类处理，生成中间聚类结果。

步骤704，根据所述中间聚类结果中任意两个待聚类车辆图像间的匹配概率，确定所述中间聚类结果中、每个待聚类车辆图像对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值。

步骤706，根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果。

步骤708，根据包含目标车辆的待聚类车辆图像的目标聚类结果，确定所述目标车辆的运动轨迹。

具体的，本说明书实施例提供的车辆图像处理方法，应用于车辆轨迹识别场景，对待聚类车辆图像集进行聚类生成目标聚类结果的具体实现过程，与前述数据聚类方法中，对待聚类数据集中的待聚类数据进行聚类生成目标聚类结果的实现过程类似，在此不再赘述。

在对待聚类车辆图像进行聚类生成目标聚类结果后，可确定包含目标车辆的待聚类车辆图像的目标聚类结果，并根据该目标聚类结果中目标车辆的待聚类车辆图像，结合时空信息综合确定目标车辆的运动轨迹。

本说明书实施例提供的车辆图像处理方法，在对待聚类车辆图像进行聚类的过程中，无需指定聚类结果的数量，仅是根据各待聚类车辆图像间的匹配概率进行聚类，并实时根据各聚类结果中待聚类车辆图像对应的聚类准确度期望值和/或聚类分裂度期望值，对聚类结果进行调整，有利于保证聚类结果的准确性，进而有利于提高对目标车辆轨迹还原的准确性。

上述为本实施例的一种车辆图像处理方法的示意性方案。需要说明的是，该车辆图像处理方法的技术方案与上述的图像聚类方法的技术方案属于同一构思，车辆图像处理方法的技术方案未详细描述的细节内容，均可以参见上述图像聚类方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了车辆图像处理装置实施例，图8示出了本说明书一个实施例提供的一种车辆图像处理装置的结构示意图。如图8所示，该装置包括：

获取模块802，被配置为获取待聚类车辆图像集，并根据所述待聚类车辆图像集中任意两个待聚类车辆图像间的匹配概率，对所述任意两个待聚类车辆图像进行聚类处理，生成中间聚类结果；

第一确定模块804，被配置为根据所述中间聚类结果中任意两个待聚类车辆图像间的匹配概率，确定所述中间聚类结果中、每个待聚类车辆图像对应的期望值，其中，所述期望值包括聚类准确度期望值和/或聚类分裂度期望值；

调整模块806，被配置为根据所述期望值，对所述中间聚类结果进行调整，生成对应的目标聚类结果；

第二确定模块808，被配置为根据包含目标车辆的待聚类车辆图像的目标聚类结果，确定所述目标车辆的运动轨迹。

上述为本实施例的一种车辆图像处理装置的示意性方案。需要说明的是，该车辆图像处理装置的技术方案与上述的车辆图像处理方法的技术方案属于同一构思，车辆图像处理装置的技术方案未详细描述的细节内容，均可以参见上述车辆图像处理方法的技术方案的描述。

图9示出了根据本说明书一个实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接，数据库950用于保存数据。

计算设备900还包括接入设备940，接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网（PSTN）、局域网（LAN）、广域网（WAN）、个域网（PAN）或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC））中的一个或多个，诸如IEEE802.11无线局域网（WLAN）无线接口、全球微波互联接入（Wi-MAX）接口、以太网接口、通用串行总线（USB）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC）接口，等等。

在本说明书的一个实施例中，计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图9所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备900可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。

其中，处理器920用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据聚类方法、上述图像聚类方法或上述车辆图像处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据聚类方法、所述图像聚类方法或所述车辆图像处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据聚类方法、上述图像聚类方法或所述车辆图像处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据聚类方法、上述图像聚类方法或上述车辆图像处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据聚类方法、上述图像聚类或上述车辆图像处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据聚类方法、上述图像聚类方法或上述车辆图像处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据聚类方法、上述图像聚类方法或上述车辆图像处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的数据聚类方法、上述图像聚类或上述车辆图像处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述数据聚类方法、上述图像聚类方法或上述车辆图像处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据聚类方法，包括：

获取与目标项目相关的视频流，对所述视频流进行解析获得待聚类数据集，并根据所述待聚类数据集中任意两个待聚类数据间的匹配概率，对所述任意两个待聚类数据进行聚类处理，生成中间聚类结果；

2.根据权利要求1所述的数据聚类方法，所述根据所述待聚类数据集中任意两个待聚类数据间的匹配概率，对所述任意两个待聚类数据进行聚类处理，包括：

3.根据权利要求2所述的数据聚类方法，所述基于所述特征提取结果确定所述至少两个待聚类数据中、任意两个待聚类数据间的匹配概率，包括：

4.根据权利要求1任意一项所述的数据聚类方法，所述根据所述待聚类数据集中任意两个待聚类数据间的匹配概率，对所述任意两个待聚类数据进行聚类处理，生成中间聚类结果，包括：

5.根据权利要求4所述的数据聚类方法，所述根据所述第二匹配概率，对所述初始聚类结果进行更新，包括：

6.根据权利要求5所述的数据聚类方法，所述根据所述第一类别及所述初始聚类结果对应的第二类别，对所述初始聚类结果进行更新，包括：

根据所述第三匹配概率对所述初始聚类结果进行更新。

7.根据权利要求5或6所述的数据聚类方法，所述根据所述第一类别及所述初始聚类结果对应的第二类别，对所述初始聚类结果进行更新，包括：

根据所述第四匹配概率，对所述初始聚类结果进行更新。

8.根据权利要求1至6任意一项所述的数据聚类方法，所述根据所述中间聚类结果中任意两个待聚类数据间的匹配概率，确定所述中间聚类结果中、每个待聚类数据对应的期望值，包括：

9.根据权利要求8所述的数据聚类方法，还包括：

10.根据权利要求1至6任意一项所述的数据聚类方法，所述待聚类数据集中包含待聚类图像集。

11.一种图像聚类方法，包括：

12.一种车辆图像处理方法，包括：

13.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述数据聚类方法、权利要求11所述图像聚类方法或权利要求12所述车辆图像处理方法的步骤。

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述数据聚类方法、权利要求11所述图像聚类方法或权利要求12所述车辆图像处理方法的步骤。