CN112131322B - 时间序列分类方法及装置 - Google Patents
时间序列分类方法及装置 Download PDFInfo
- Publication number
- CN112131322B CN112131322B CN202011003407.1A CN202011003407A CN112131322B CN 112131322 B CN112131322 B CN 112131322B CN 202011003407 A CN202011003407 A CN 202011003407A CN 112131322 B CN112131322 B CN 112131322B
- Authority
- CN
- China
- Prior art keywords
- classified
- sliding window
- subset
- time series
- lengths
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/70—Game security or game management aspects
- A63F13/79—Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的实施例提供了一种时间序列分类方法及装置。该时间序列分类方法包括:获取待分类时间序列和已分类时间序列集,所述已分类时间序列集中包含多个已分类时间序列和各个已分类时间序列的类别,所述各个已分类时间序列包含有通过目标滑动窗口长度进行划分得到的多个第一子序列;根据所述目标滑动窗口长度对所述待分类时间序列进行划分,得到多个第二子序列;根据所述多个第二子序列与所述各个已分类时间序列包含的多个第一子序列,计算所述待分类时间序列与所述各个已分类时间序列之间的相似度;根据所述待分类时间序列与所述各个已分类时间序列之间的相似度,确定所述待分类时间序列的类别。本申请实施例的技术方案能够提高分类准确性。
Description
技术领域
本申请涉及数据挖掘技术领域,具体而言,涉及一种时间序列分类方法及装置。
背景技术
时间序列是某种现象或统计指标在不同时间点上的各个数值,按照时间顺序排列而成的有序序列。时间序列的分类问题一直是时间序列数据挖掘领域研究人员关注的重点。然而,相关时间序列分类算法通常默认待分类的时间序列数据是预处理好的,而真实世界中时间序列数据往往不等长、存在缺失和异常值,从而使得相关时间序列分类算法难以简单有效地应用于真实环境下的数据,难以保证分类准确性。
发明内容
本申请的实施例提供了一种时间序列分类方法及装置,进而至少在一定程度上能够提高分类准确性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种时间序列分类方法,包括:获取待分类时间序列和已分类时间序列集,所述已分类时间序列集中包含多个已分类时间序列和各个已分类时间序列的类别,所述各个已分类时间序列包含有通过目标滑动窗口长度进行划分得到的多个第一子序列;根据所述目标滑动窗口长度对所述待分类时间序列进行划分,得到多个第二子序列;根据所述多个第二子序列与所述各个已分类时间序列包含的多个第一子序列,计算所述待分类时间序列与所述各个已分类时间序列之间的相似度;根据所述待分类时间序列与所述各个已分类时间序列之间的相似度,确定所述待分类时间序列的类别。
根据本申请实施例的一个方面,提供了一种时间序列分类装置,包括:获取单元,配置为获取待分类时间序列和已分类时间序列集,所述已分类时间序列集中包含多个已分类时间序列和各个已分类时间序列的类别,所述各个已分类时间序列包含有通过目标滑动窗口长度进行划分得到的多个第一子序列;第一划分单元,配置为根据所述目标滑动窗口长度对所述待分类时间序列进行划分,得到多个第二子序列;计算单元,配置为根据所述多个第二子序列与所述各个已分类时间序列包含的多个第一子序列,计算所述待分类时间序列与所述各个已分类时间序列之间的相似度;第一确定单元,配置为根据所述待分类时间序列与所述各个已分类时间序列之间的相似度,确定所述待分类时间序列的类别。
在本申请的一些实施例中,基于前述方案,所述第一确定单元配置为:获取所述待分类时间序列与所述各个已分类时间序列之间的相似度中的最大相似度,将所述最大相似度对应的已分类时间序列的类别作为所述待分类时间序列的类别。
在本申请的一些实施例中,基于前述方案,所述装置还包括:生成单元,配置为将所述已分类时间序列集分为第一子集和第二子集,并根据所述各个已分类时间序列的序列长度,生成多个滑动窗口长度;第二划分单元,配置为根据各个滑动窗口长度对所述第一子集中包含的已分类时间序列进行划分,得到所述各个滑动窗口长度对应的多个第三子序列,并根据所述各个滑动窗口长度对所述第二子集中包含的已分类时间序列进行划分,得到所述各个滑动窗口长度对应的多个第四子序列;第二确定单元,配置为根据所述多个第三子序列与所述多个第四子序列,确定所述各个滑动窗口长度对应的分类准确率;第三确定单元,配置为根据所述各个滑动窗口长度对应的分类准确率,确定所述目标滑动窗口长度。
在本申请的一些实施例中,基于前述方案,所述第三确定单元配置为:获取所述各个滑动窗口长度对应的分类准确率中的最大分类准确率,将所述最大分类准确率对应的滑动窗口长度作为目标滑动窗口长度。
在本申请的一些实施例中,基于前述方案,所述第二确定单元包括:计算子单元,配置为根据所述多个第三子序列与所述多个第四子序列,计算所述第一子集中包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度;第一确定子单元,配置为根据所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别;第二确定子单元,配置为根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别,确定所述各个滑动窗口长度对应的分类准确率。
在本申请的一些实施例中,基于前述方案,所述第一确定子单元配置为:获取所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度中的最大相似度,将所述最大相似度对应的已分类时间序列的类别,作为所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别。
在本申请的一些实施例中,基于前述方案,所述第二确定子单元配置为:根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的分类准确率;根据所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的分类准确率以及所述第二子集中包含的已分类时间序列的数量,确定所述各个滑动窗口长度对应的分类准确率。
在本申请的一些实施例中,基于前述方案,所述第二确定子单元配置为:计算所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的分类准确率之和与所述第二子集中包含的已分类时间序列的数量的比值,将所述比值作为所述各个滑动窗口长度对应的分类准确率。
在本申请的一些实施例中,基于前述方案,所述第二确定单元配置为:根据所述多个第三子序列与所述多个第四子序列,多次计算所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度;根据每次计算得到的相似度,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的单次参考类别;根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的单次参考类别,确定所述各个滑动窗口长度对应的多个分类准确率;计算所述各个滑动窗口长度对应的多个分类准确率之和与次数之间的比值,将计算得到的比值作为所述各个滑动窗口长度对应的分类准确率。
在本申请的一些实施例所提供的技术方案中,通过获取待分类时间序列和已分类时间序列集,各个已分类时间序列包含有通过目标滑动窗口长度进行划分得到的多个第一子序列,同时根据目标滑动窗口长度对待分类时间序列进行划分,得到多个第二子序列,进而通过多个第二子序列和多个第一子序列计算得到待分类时间序列与各个已分类时间序列之间的相似度,根据相似度确定出待分类时间序列的类别。本申请实施例提供的技术方案无需额外对时间序列进行预处理,可以直接应用于真实场景中存在的原始时间序列数据,利用目标滑动窗口长度对时间序列数据进行划分得到子序列,有效避免了时间序列不等长、缺失值或者异常值的影响,且兼容任何相似度度量方法,可以有效地对时间序列进行分类,提高了分类准确性和效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的一个示例性系统架构的示意图;
图2示出了根据本申请的一个实施例的时间序列分类方法的流程图;
图3示出了根据本申请的一个实施例的确定目标滑动窗口长度的流程图;
图4示出了根据本申请的一个实施例的步骤S330的详细流程图;
图5示出了根据本申请的一个实施例的步骤S3303的详细流程图;
图6示出了根据本申请的另一个实施例的步骤S330的详细流程图;
图7示出了根据本申请的一个实施例的时间序列分类装置的框图;
图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
需要说明的是,本申请的说明书和权利要求书及上述附图中使用的术语仅用于描述实施例,并不旨在限制本申请的范围。应该理解的是,术语“包括”、“包含”、“具有”等在本文中使用时指定存在所陈述的特点、整体、步骤、操作、元件、组件和/或其群组,但并不排除存在或添加其他特点、整体、步骤、操作、元件、组件和/或其群组中的一个或多个。
将进一步理解的是,尽管术语“第一”、“第二”、“第三”等可以在本文中用于描述各种元件,但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件和另一个元件。例如,在不脱离本发明的范围的情况下,第一元件可以被称为第二元件。类似地,第二元件可以被称为第一元件。如本文所使用的,术语“和/或”包含关联的列出的项目中的一个或多个的任何和所有组合。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
时间序列:某种现象或统计指标在不同时间点上的各个数值,按照时间顺序排列而成的有序序列。
用户画像:基于用户的行为特征数据(通常是时间序列数据)对用户进行聚类或分类,从而实现对用户的刻画。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本申请实施例所提供的时间序列分类方法一般由服务器105执行,相应地,时间序列分类装置一般设置于服务器105中。但本领域技术人员容易理解的是,本申请实施例所提供的时间序列分类方法也可以由终端设备101、102、103执行,相应地,时间序列分类装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以是用户通过终端设备101、102、103将时间序列上传至服务器105,服务器105通过本申请实施例所提供的时间序列分类方法对该时间序列进行处理,并将得到的分类结果发送给终端设备101、102、103。
可以理解的是,上述时间序列分类方法可以应用于任何真实世界的时间序列数据的分类场景,例如心电信号异常分类、传感动作分类,此外,本申请实施例提供的时间序列分类方法还可以应用在用户画像分析中,通过时间序列分类对用户进行有效分类,实现对不同类型的用户的刻画。
就游戏用户画像分析的应用场景来说,如今,为了保护未成年人的身心健康,识别游戏用户中的未成年人是一个非常重要的问题。当前尽管已经有了未成年人身份验证,但是依然存在大量未成年人使用家长手机玩游戏的现象。一方面,过度游戏会影响未成年人的健康成长,另一方面,这也会导致未成年人通过家长手机进行游戏付费这一潜在问题,从而引发不良的退费投诉和负面社会舆论。因此,如何识别未成年游戏用户依然是一个很重要和值得研究的问题。
在游戏用户画像分析的应用场景下,服务器105可以是游戏服务器,终端设备101、102、103可以是安装有游戏应用程序的终端设备,游戏应用程序中登录有游戏账号。用户通过游戏账号进行游戏的游戏数据均带有时间戳,可以形成时间序列,因此可以通过对时间序列进行分类,以识别出进行游戏的用户是否为未成年用户。
待识别用户为需要进行未成年用户识别的用户,待识别用户通过终端设备的游戏应用程序进行游戏行为,形成待分类时间序列,游戏服务器可以获取得到待分类时间序列,同时游戏服务器还可以获取得到已分类时间序列集,其中,已分类时间序列集包含有多个已分类时间序列和各个已分类时间序列的类别,各个已分类时间序列可以以用户的退费行为作为类别,已分类时间序列中包含有通过目标滑动窗口长度进行划分得到的多个第一子序列;然后,游戏服务器可以根据目标滑动窗口长度对待分类时间序列进行划分,得到多个第二子序列;进而,游戏服务器根据多个第二子序列和多个第一子序列,计算得到待分类时间序列与各个已分类时间序列之间的相似度,最后,游戏服务器根据待分类时间序列与各个已分类时间之间的相似度,确定出待分类时间序列的类别,从而实现对待识别用户的用户画像的刻画,以判定待识别用户是否为未成年人。
通过时间序列分类的技术方案可以有效地实现对游戏用户的分析,实现对游戏用户的刻画,从而识别游戏中的未成年用户,发掘未成年人玩游戏的现象,从而规避潜在的退费投诉和负面社会舆论。
需要说明的是,以上应用场景仅仅是一种示意性的举例,并不构成对本申请实施例技术方案的应用场景的限定,本申请实施例的技术方案可以应用于任何时间序列数据的分类场景。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
对时间序列进行分类的分类方法主要包括最近邻分类方法、Shapelet序列分析方法、模式袋方法(Bag of Patterns,BoP)以及基于转换的集成的分级投票集体方法(Hierarchical Vote Collective of Transformation-based Ensembles,HIVE-COTE)。
其中,最近邻分类方法采用欧式距离等方法度量时间序列间的相似性,然后选择最相似的时间序列的类别作为分类结果;Shapelet序列分析方法搜索一个特定子序列,利用该子序列的存在与否作为区分不同类别序列的关键特征,其中存在与否的刻画基于欧式距离;模式袋方法首先利用XML解析的替代方法(Simple API for XML,SAX)技术将实值序列转化为符号序列,确定单词长度后根据符号序列中出现的单词构造字典,然后记录单词出现的频次信息,最后利用频次进行分类;相较于最近邻分类方法、Shapelet序列分析方法以及模式袋方法,基于转换的集成的分级投票集体方法分类准确率会更高,该方法集合了超过30个独立分类器,包括最近邻分类方法、Shapelet序列分析方法、模式袋方法等。
除此以外,对时间序列进行分类还包括使用深度神经网络进行实值序列的分类,例如,使用残差网络(Residual Neural Network,ResNet),该网络包括了9个残差卷积层以及超过500000个网络参数。
上述时间序列分类方法默认时间序列数据已经经过了预处理,已经是等长、无缺失、无异常值的序列。但在实际应用中,就游戏应用来说,游戏中用户的付费、活跃等数据均带有时间戳,因此都是典型的时间序列数据。而在对用户进行画像分析时,时间序列分类可以有效地实现对用户的分类,实现对不同类型用户的刻画。然而,由于游戏频次不同,不同用户会产生不同长度的时间序列,此外,由于处理错误或记录缺失,时间序列数据中也往往存着缺失值和异常值。因此,时间序列数据通常存在缺失和异常值,且不等长。
尽管可以通过简单截断或采样的方式保证时间序列等长,但这会丢失时间序列的部分信息,而且不等长时间序列本身是自然存在的。例如,心跳时间序列通常都是不等长的,因为心跳本身就不是完全等间隔。将时间序列变为等长这个操作本身可能就会扭曲数据,造成后续分析的问题。
缺失值可以通过插值等方法进行补全,但这些方法只适用于少量不连续缺失的情形,对于存在连续缺失值的情况并不适用。而这种存在连续缺失的情形非常常见的,往往由网络传输问题造成。此外,即便能够补全也难以保证补全值的有效性,可能会对后续分析造成影响。
异常值可以通过异常检测算法来识别,但是后续如何处理异常值仍然是一个棘手的问题。通常识别出异常值可以将其当成缺失来处理,但这依然会遇到缺失值处理的问题。
上述时间序列分类方法,最近邻分类方法可以通过选择动态时间规整算法来度量两个不等长时间序列的相似度,但其无法处理缺失值、异常值的问题,而且这种动态时间规整算法的时间复杂度很高,难以适用于大规模数据的场景。
Shapelet序列分析方法可以规避不等长、缺失值、异常值的问题,但这种方法由于要遍历所有可能的子序列,因此时间复杂度极高,完全缺乏实用性。除此之外,该方法的实际分类性能较差,显著低于最近邻方法。模式袋方法可以应用于不等长时间序列,但必须对缺失值和异常值预处理。
基于转换的集成的分级投票集体方法基于最近邻、Shapelet、模式袋等基础算法,自然无法规避这一问题,而深度学习方法也需要提前对时间序列进行预处理才能实现有效的模型训练。
综上,时间序列分类算法通常默认待分类的时间序列数据是预处理好的,而真实世界中时间序列数据往往不等长、存在缺失和异常值,因此,相关时间序列分类算法难以简单有效地应用于真实环境下的数据。此外,传统的预处理流程难以保证数据处理后的质量,导致后续数据分析存在潜在的问题。
对此,本申请实施例中提供了一种时间序列分类方法,通过获取待分类时间序列和已分类时间序列集,其中,已分类时间序列集中包含有多个已分类时间序列和各个已分类时间序列的类别,各个已分类时间序列包含有通过目标滑动窗口长度进行划分得到的多个第一子序列,然后,根据目标滑动窗口长度对待分类时间序列进行划分,得到多个第二子序列,进而,根据多个第二子序列和多个第一子序列,计算得到待分类时间序列与各个已分类时间序列之间的相似度,最后,根据待分类时间序列与各个已分类时间之间的相似度,确定出待分类时间序列的类别。本申请实施例提供的技术方案无需额外对时间序列进行预处理,可以直接应用于真实场景中存在的原始时间序列数据,利用目标滑动窗口长度对时间序列数据进行划分得到子序列,有效避免了时间序列不等长、缺失值或者异常值的影响,且兼容任何相似度度量方法,可以有效地对时间序列进行分类,提高了分类准确性和效率。
图2示出了根据本申请的一个实施例的时间序列分类方法的流程图,该时间序列分类方法可以由服务器来执行,该服务器可以是图1中所示的服务器105,当然该时间序列分类方法也可以由终端设备来执行,比如可以由图1中所示的终端101来执行。参照图2所示,所述时间序列分类方法包括:
步骤S210、获取待分类时间序列和已分类时间序列集,所述已分类时间序列集中包含多个已分类时间序列和各个已分类时间序列的类别,所述各个已分类时间序列包含有通过目标滑动窗口长度进行划分得到的多个第一子序列;
步骤S220、根据所述目标滑动窗口长度对所述待分类时间序列进行划分,得到多个第二子序列;
步骤S230、根据所述多个第二子序列与所述各个已分类时间序列包含的多个第一子序列,计算所述待分类时间序列与所述各个已分类时间序列之间的相似度;
步骤S240、根据所述待分类时间序列与所述各个已分类时间序列之间的相似度,确定所述待分类时间序列的类别。
下面对这些步骤进行详细描述。
在步骤S210中,获取待分类时间序列和已分类时间序列集,所述已分类时间序列集中包含多个已分类时间序列和各个已分类时间序列的类别,所述各个已分类时间序列包含有通过目标滑动窗口长度进行划分得到的多个第一子序列。
本实施例中,待分类时间序列是需要进行分类的时间序列,已分类时间序列集是多个已分类时间序列组成的集合,且该集合中包含有各个已分类时间序列的类别。
基于目标滑动窗口长度将各个已分类时间序列划分为多个第一子序列,划分得到的各个第一子序列的长度均为目标滑动窗口长度。举例说明,若已分类时间序列为T1=(t1,t2,t3,t4,t5),目标滑动窗口长度为2,则可以基于目标滑动窗口长度将T1划分得到的5个第一子序列为T11=(t1,t2),T12=(t2,t3),T13=(t3,t4),T14=(t3,t4),T15=(t4,t5)。
在步骤S220中,根据所述目标滑动窗口长度对所述待分类时间序列进行划分,得到多个第二子序列。
除了通过目标滑动窗口长度对各个已分类时间序列进行划分得到多个第一子序列以外,进一步基于目标滑动窗口长度对待分类时间序列进行划分,得到多个第二子序列。
在步骤S230中,根据所述多个第二子序列与所述各个已分类时间序列包含的多个第一子序列,计算所述待分类时间序列与所述各个已分类时间序列之间的相似度。
在获取待分类时间序列以及对待分类时间序列进行划分得到多个第二子序列之后,通过多个第二子序列与各个已分类时间序列包含的多个第一子序列,可以计算得到待分类时间序列与各个已分类时间序列之间的相似度。其中,计算相似度的方法可以包括欧式距离、动态时间规整等,本申请实施例在此对计算相似度的方法不做具体限定。
举例说明,假设已分类时间序列集中包括4个已分类时间序列,分别为T1=(t1,t2,t3,t4),T2=(t5,t6),T3=(t7,t8),T4=(t9,t10,t11),待分类时间序列为P1=(p1,p2,p3),目标滑动窗口长度为2。基于目标滑动窗口长度可以划分得到多个第一子序列,分别为T11=(t1,t2),T12=(t2,t3),T13=(t3,t4),T21=(t5,t6),T31=(t7,t8),T41=(t9,t10),T42=(t10,t11),基于目标滑动窗口长度可以划分得到多个第二子序列,分别为P11=(p1,p2),P12=(p2,p3)。
为了计算已分类时间序列T1与待分类时间序列P1之间的相似度,可以通过计算T11=(t1,t2)与P11=(p1,p2)之间的相似度S1,T11=(t1,t2)与P12=(p2,p3)之间的相似度S2,T12=(t2,t3)与P11=(p1,p2)之间的相似度为S3,T12=(t2,t3)与P12=(p2,p3)之间的相似度S4,T13=(t3,t4)与P11=(p1,p2)之间的相似度S5,T13=(t3,t4)与P12=(p2,p3)之间的相似度S6,在得到六个相似度S1、S2、S3、S4、S5、S6后,可以将六个相似度中的最大值作为已分类时间序列T1与待分类时间序列P1之间的相似度,同理,还可以计算已分类时间序列T2与待分类时间序列P1之间的相似度,已分类时间序列T3与待分类时间序列P1之间的相似度,已分类时间序列T4与待分类时间序列P1之间的相似度。
在步骤S240中,根据所述待分类时间序列与所述各个已分类时间序列之间的相似度,确定所述待分类时间序列的类别。
相似度描述了待分类时间序列与各个已分类时间序列之间的局部特征的相似程度,因此,在通过步骤S230计算得到待分类时间序列与各个已分类时间序列之间的相似度之后,可以据此确定出待分类时间序列的类别。
在本申请的一个实施例中,在计算得到待分类时间序列与各个已分类时间序列之间的相似度后,可以获取待分类时间序列与各个已分类时间序列之间的相似度中的最大相似度,将最大相似度对应的已分类时间序列的类别作为待分类时间序列的类别。
基于以上实施例的技术方案,利用目标滑动窗口长度对时间序列数据进行划分得到子序列,有效避免了时间序列不等长、缺失值或者异常值的影响,无需额外对时间序列进行预处理,可以直接应用于真实场景中存在的原始时间序列数据,且兼容任何相似度度量方法,可以有效地对时间序列进行分类,提高了分类准确性和效率。
图3示出了根据本申请的一个实施例的确定目标滑动窗口长度的流程图,如图3所示,具体可以包括步骤S310-步骤S340,现详细说明如下:
步骤S310、将所述已分类时间序列集分为第一子集和第二子集,并根据所述各个已分类时间序列的序列长度,生成多个滑动窗口长度。
在本实施例中,为了确定目标滑动窗口长度,可以首先对已分类时间序列集进行划分,具体而言,可以按照一定数量比例的方式将已分类时间序列集分为第一子集和第二子集,第一子集和第二子集中分别包含有不同数量的已分类时间序列。同时,可以根据各个已分类时间序列的序列长度,生成多个滑动窗口长度。
其中,多个滑动窗口长度可以是小于等于已分类时间序列集中最短的序列长度的所有长度,例如,假设已分类时间序列集中包括5个已分类时间序列,5个已分类时间序列的序列长度分别为10,6,12,4,5,由于已分类时间集中最短的序列长度为4,因此多个滑动窗口长度可以包括有1,2,3,4。
此处,可以将第一子集作为训练子集,用于训练对时间序列的分类;而第二子集作为验证子集,用于验证训练子集对时间序列进行分类的正确与否。因此,为了保证分类效果,可以使得第一子集中包含的已分类时间序列的数量大于第二子集中包含的已分类时间序列的数量,例如第一子集与第二子集的数量比例为7:3。
步骤S320、根据各个滑动窗口长度对所述第一子集中包含的已分类时间序列进行划分,得到所述各个滑动窗口长度对应的多个第三子序列,并根据所述各个滑动窗口长度对所述第二子集中包含的已分类时间序列进行划分,得到所述各个滑动窗口长度对应的多个第四子序列。
在生成了多个滑动窗口长度后,进一步,可以根据各个滑动窗口长度对第一子集中包含的已分类时间序列进行划分,得到各个滑动窗口长度对应的多个第三子序列,同时,也可以根据各个滑动窗口长度对第二子集中包含的已分类时间序列进行划分,得到各个滑动窗口长度对应的多个第四子序列。
举例说明,假设第一子集中包含3个已分类时间序列,分别为T1、T2和T3,其中T1=(t1,t2)、T2=(t3,t4,t5,t6)、T3=(t7,t8,t9),第二子集中包含有2个已分类子序列,分别为T4和T5,其中T4=(t10,t11,t12,t13,t14,t15),T5=(t16,t17,t18),由于已分类时间序列集中最短的序列长度为2,则可以生成2个滑动窗口长度w1和w2,分别为w1=1,w2=2。
因此,在w1=1时,可以对第一子集中包含的3个已分类时间序列进行划分,得到9个第三子序列:T111=(t1),T112=(t2),T121=(t3),T122=(t4),T123=(t5),T124=(t6),T131=(t7),T132=(t8),T133=(t9);在w2=2时,可以对第一子集中包含的3个已分类时间序列进行划分,得到6个第三子序列:T211=(t1,t2),T221=(t3,t4),T222=(t4,t5),T223=(t5,t6),T231=(t7,t8),T232=(t8,t9)。
同理,w1=1时,对第二子集中包含的2个已分类时间序列进行划分,可以得到9个第四子序列:T141=(t10),T142=(t11),T143=(t12),T144=(t13),T145=(t14),T146=(t15),T151=(t16),T152=(t17),T153=(t18);w2=2时,对第二子集中包含的2个已分类时间序列进行划分,可以得到7个第四子序列:T241=(t10,t11),T242=(t11,t12),T243=(t12,t13),T244=(t13,t14),T245=(t14,t15),T251=(t16,t17),T252=(t17,t18)。
步骤S330、根据所述多个第三子序列与所述多个第四子序列,确定所述各个滑动窗口长度对应的分类准确率。
由于第三子序列是通过对第一子集进行划分得到的,第一子集可以作为训练集,用于训练对时间序列的分类,而第四子序列是通过对第二子集进行划分得到的,第二子集可以作为验证子集,用于验证训练子集对时间序列进行分类的正确与否。因此,通过多个第三子序列的分类,通过多个第四子序列的验证,则可以确定出各个滑动窗口长度对应的分类准确率。
在本申请的一个实施例中,如图4所示,步骤S330具体包括步骤S410-步骤S430,具体说明如下:
步骤S410、根据所述多个第三子序列与所述多个第四子序列,计算所述第一子集中包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度。
在本实施例中,为了确定出各个滑动窗口长度对应的分类准确率,可以首先根据多个第三子序列与多个第四子序列,计算第一子集包含的已分类时间序列与第二子集中包含的已分类时间序列相对于各个滑动窗口长度的相似度。
继续步骤S320中的举例进行说明,滑动窗口长度w1=1时,对第一子集中包含的3个已分类时间序列进行划分,得到9个第三子序列:T111=(t1),T112=(t2),T121=(t3),T122=(t4),T123=(t5),T124=(t6),T131=(t7),T132=(t8),T133=(t9),对第二子集中包含的2个已分类时间序列进行划分,得到9个第四子序列:T141=(t10),T142=(t11),T143=(t12),T144=(t13),T145=(t14),T146=(t15),T151=(t16),T152=(t17),T153=(t18),因此,通过T111=(t1),T112=(t2)分别与T141=(t10),T142=(t11),T143=(t12),T144=(t13),T145=(t14),T146=(t15),可以计算得到多个相似度,在计算得到多个相似度后,可以将多个相似度中的最大值可以作为T1与T4之间的相似度S11。同样地,还可以通过多个第三子序列和多个第四子序列计算得到T2与T4之间的相似度S12,T3与T4之间的相似度S13,T1与T5之间的相似度S14,T2与T5之间的相似度S15,T3与T5之间的相似度S16。
滑动窗口长度w2=2时,对第一子集中包含的3个已分类时间序列进行划分,得到6个第三子序列:T211=(t1,t2),T221=(t3,t4),T222=(t4,t5),T223=(t5,t6),T231=(t7,t8),T232=(t8,t9),对第二子集中包含的2个已分类时间序列进行划分,得到7个第四子序列:T241=(t10,t11),T242=(t11,t12),T243=(t12,t13),T244=(t13,t14),T245=(t14,t15),T251=(t16,t17),T252=(t17,t18),因此,通过第三子序列T211=(t1,t2)与第四子序列T241=(t10,t11),T242=(t11,t12),T243=(t12,t13),T244=(t13,t14),T245=(t14,t15),可以计算得到多个相似度,在计算得到多个相似度后,可以将多个相似度中的最大值可以作为T1与T4之间的相似度S21。同样地,还可以通过多个第三子序列和多个第四子序列计算得到T2与T4之间的相似度S22,T3与T4之间的相似度S23,T1与T5之间的相似度S24,T2与T5之间的相似度S25,T3与T5之间的相似度S26。
步骤S420、根据所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别。
在计算出第一子集包含的已分类时间序列与第二子集中包含的已分类时间序列相对于各个滑动窗口长度的相似度之后,也即通过相似度描述出了第一子集包含的已分类时间序列与第二子集中包含的已分类时间序列之间的局部特征的相似程度,因此,可以据此确定第二子集中包含的已分类时间序列相对于各个滑动窗口长度的参考类别。
在本申请的一个实施例中,步骤S420可以具体包括:
获取所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度中的最大相似度,将所述最大相似度对应的已分类时间序列的类别,作为所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别。
具体而言,最大相似度描述了第一子集包含的已分类时间序列与第二子集中包含的已分类时间序列之间最大相似程度,因此,可以将最大相似度对应的已分类时间序列的类别作为第二子集中包含的已分类时间序列相对于各个滑动窗口长度的参考类别。
继续步骤S410中的举例进行说明,滑动窗口长度w1=1时,可以计算得到T1与T4之间的相似度S11,T2与T4之间的相似度S12,T3与T4之间的相似度S13,T1与T5之间的相似度S14,T2与T5之间的相似度S15,T3与T5之间的相似度S16。若S11、S12、S13中S12为最大相似度,则可以将T2的类别作为T4的参考类别;若S14、S15、S16中S16为最大相似度,则可以将T3的类别作为T5的参考类别。
滑动窗口长度w2=2时,可以计算得到T1与T4之间的相似度S21,同理,还可以计算得到T2与T4之间的相似度S22,T3与T4之间的相似度S23,T1与T5之间的相似度S24,T2与T5之间的相似度S25,T3与T5之间的相似度S26。若S21、S22、S23中S23为最大相似度,则可以将T3的类别作为T4的参考类别;若S24、S25、S26中S25为最大相似度,则可以将T2的类别作为T5的参考类别。
步骤S430、根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别,确定所述各个滑动窗口长度对应的分类准确率。
可以理解的是,如果已分类时间序列的类别与已分类时间序列的参考类别相同,则可以确定该已分类时间序列的分类准确率为100%,相反,如果不相同,则可以确定该已分类时间序列的分类准确率为0%。
具体到本步骤中,如果第二子集中包含的已分类时间序列相对于各个滑动窗口长度的参考类别与第二子集中包含的已分类时间序列的类别相同,则可以确定第二子集中包含的已分类时间序列相对于各个滑动窗口长度的分类准确率为100%,反之,可以确定第二子集中包含的已分类时间序列相对于各个滑动窗口长度的分类准确率为0%。
进而,根据第二子集中包含的已分类时间序列相对于各个滑动窗口长度的分类准确率,可以确定出各个滑动窗口长度对应的分类准确率。
在本申请的一个实施例中,步骤S430可以具体包括:
计算所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的分类准确率之和与所述第二子集中包含的已分类时间序列的数量的比值,将所述比值作为所述各个滑动窗口长度对应的分类准确率。
在该实施例中,可以将第二子集中包含的已分类时间序列相对于各个滑动窗口长度的分类准确率之和与第二子集中包含的已分类时间序列的数量的比值,作为各个滑动窗口长度对应的分类准确率。
继续步骤S420中的举例进行说明,滑动窗口长度w1=1时,将T2的类别作为T4的参考类别,将T3的类别作为T5的参考类别,若T2的类别为c1,则T4的参考类别为c1,而T4的类别也为c1,因此T4相对于滑动窗口长度w=1的分类准确率为100%;若T3的类别为c2,则T5的参考类别为c2,而T5的类别为c3,则T5相对于滑动窗口长度w=1的分类准确率为0%,从而,可以计算得到滑动窗口长度w1对应的分类准确率为(100%+0%)/2=50%。
滑动窗口长度w2=2时,将T3的类别作为T4的参考类别,将T2的类别作为T5的参考类别,T3的类别为c2,则T4的参考类别为c2,而T4的类别也为c1,因此T4相对于滑动窗口长度w=2的分类准确率为0%;T2的类别为c1,则T5的参考类别为c1,而T5的类别为c3,则T5相对于滑动窗口长度w=2的分类准确率为0%,从而,可以计算得到滑动窗口长度w2对应的分类准确率为(0%+0%)/2=0%。
在本申请的一个实施例中,如图6所示,步骤S330还可以具体包括步骤S610-步骤S640,现具体说明如下:
步骤S610、根据所述多个第三子序列与所述多个第四子序列,多次计算所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度。
在本实施例中,为了确定出各个滑动窗口长度对应的分类准确率,可以首先根据多个第三子序列与多个第四子序列,计算第一子集包含的已分类时间序列与第二子集中包含的已分类时间序列相对于各个滑动窗口长度的相似度,并且可以进行多次计算。其中,多次计算的次数可以与计算的数据量成反比,即如果计算的数据量大,则次数可以减少;如果计算的数据量小,则次数可以增加,具体可以根据实际情况进行确定。
步骤S620、根据每次计算得到的相似度,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的单次参考类别。
在进行多次计算后,可以根据每次计算得到的相似度,确定第二子集中包含的已分类时间序列相对于各个滑动窗口长度的单次参考类别。具体确定方法同步骤S420。
步骤S630、根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的单次参考类别,确定所述各个滑动窗口长度对应的多个分类准确率。
具体而言,如果第二子集中包含的已分类时间序列的类别以及第二子集中包含的已分类时间序列相对于各个滑动窗口长度的单次参考类别相同,则可以确定第二子集中包含的已分类时间序列相对于各个滑动窗口长度的单次分类准确率为100%,反之,可以确定第二子集中包含的已分类时间序列相对于各个滑动窗口长度的单次分类准确率为0%。
进而,根据第二子集中包含的已分类时间序列相对于各个滑动窗口长度的单次分类准确率,可以确定出各个滑动窗口长度对应的单次分类准确率。例如,计算第二子集中包含的已分类时间序列相对于各个滑动窗口长度的单次分类准确率之和与第二子集中包含的已分类时间序列的数量的比值,将比值作为各个滑动窗口长度对应的单次分类准确率。
在得到各个滑动窗口长度对应的单次分类准确率后,也即得到了各个滑动窗口长度对应的多个分类准确率。
继续步骤S430中的举例进行说明,通过步骤S430计算得到的滑动窗口长度w1对应的分类准确率为(100%+0%)/2=50%,滑动窗口长度w2对应的分类准确率为(0%+0%)/2=0%,为一次计算结果,如果在本实施例中进行了5次计算,则可以得到5个分类准确率,示意性地,5次计算结果可以如表1所示。
w1=1 | w2=2 | |
第一次 | 50% | 0% |
第二次 | 50% | 50% |
第三次 | 50% | 0% |
第四次 | 0% | 0% |
第五次 | 50% | 0% |
表1
步骤S640、计算所述各个滑动窗口长度对应的多个分类准确率之和与次数之间的比值,将计算得到的比值作为所述各个滑动窗口长度对应的分类准确率。
在确定出各个滑动窗口长度对应的多个分类准确率之后,可以进一步计算多个分类准确率之和与次数之间的比值,从而将计算得到的比值作为各个滑动窗口长度对应的分类准确率。
例如,假设得到如上表1所示的分类准确率,则可以得到滑动窗口长度w1对应的分类准确率为(50%+50%+50%+0%+50%)/5=40%,滑动窗口长度w2对应的分类准确率为(0%+50%+0%+0%+0%)/5=10%。
继续参见图3,在步骤S340中,根据所述各个滑动窗口长度对应的分类准确率,确定所述目标滑动窗口长度。
在通过以上实施例得到各个滑动窗口长度对应的分类准确率之后,则可以根据各个滑动窗口长度对应的分类准确率,确定目标滑动窗口长度,例如,可以将各个滑动窗口长度对应的分类准确率中大于预设阈值的分类准确率对应的滑动窗口长度作为目标滑动窗口长度。
在本申请的一个实施例中,在确定各个滑动窗口长度对应的分类准确率之后,还可以获取各个滑动窗口长度对应的分类准确率中的最大分类准确率,将最大分类准确率对应的滑动窗口长度作为目标滑动窗口长度。
在该实施例中,可以将最大分类准确率对应的滑动窗口长度作为目标滑动窗口长度,例如在通过步骤S640得到滑动窗口长度w1对应的分类准确率为最大分类准确率,因此可以将滑动窗口长度w1作为目标滑动窗口长度。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的时间序列分类方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的时间序列分类方法的实施例。
图7示出了根据本申请的一个实施例的时间序列分类装置的框图,参照图7所示,根据本申请的一个实施例的时间序列分类装置700,包括:获取单元702、第一划分单元704、计算单元706和第一确定单元708。
其中,所述获取单元702,配置为获取待分类时间序列和已分类时间序列集,所述已分类时间序列集中包含多个已分类时间序列和各个已分类时间序列的类别,所述各个已分类时间序列包含有通过目标滑动窗口长度进行划分得到的多个第一子序列;所述第一划分单元704,配置为根据所述目标滑动窗口长度对所述待分类时间序列进行划分,得到多个第二子序列;计算单元706,配置为根据所述多个第二子序列与所述各个已分类时间序列包含的多个第一子序列,计算所述待分类时间序列与所述各个已分类时间序列之间的相似度;第一确定单元708,配置为根据所述待分类时间序列与所述各个已分类时间序列之间的相似度,确定所述待分类时间序列的类别。
在本申请的一些实施例中,所述第一确定单元708配置为:获取所述待分类时间序列与所述各个已分类时间序列之间的相似度中的最大相似度,将所述最大相似度对应的已分类时间序列的类别作为所述待分类时间序列的类别。
在本申请的一些实施例中,所述装置还包括:生成单元,配置为将所述已分类时间序列集分为第一子集和第二子集,并根据所述各个已分类时间序列的序列长度,生成多个滑动窗口长度;第二划分单元,配置为根据各个滑动窗口长度对所述第一子集中包含的已分类时间序列进行划分,得到所述各个滑动窗口长度对应的多个第三子序列,并根据所述各个滑动窗口长度对所述第二子集中包含的已分类时间序列进行划分,得到所述各个滑动窗口长度对应的多个第四子序列;第二确定单元,配置为根据所述多个第三子序列与所述多个第四子序列,确定所述各个滑动窗口长度对应的分类准确率;第三确定单元,配置为根据所述各个滑动窗口长度对应的分类准确率,确定所述目标滑动窗口长度。
在本申请的一些实施例中,所述第三确定单元配置为:获取所述各个滑动窗口长度对应的分类准确率中的最大分类准确率,将所述最大分类准确率对应的滑动窗口长度作为目标滑动窗口长度。
在本申请的一些实施例中,所述第二确定单元包括:计算子单元,配置为根据所述多个第三子序列与所述多个第四子序列,计算所述第一子集中包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度;第一确定子单元,配置为根据所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别;第二确定子单元,配置为根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别,确定所述各个滑动窗口长度对应的分类准确率。
在本申请的一些实施例中,所述第一确定子单元配置为:获取所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度中的最大相似度,将所述最大相似度对应的已分类时间序列的类别,作为所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别。
在本申请的一些实施例中,所述第二确定子单元配置为:根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的分类准确率;根据所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的分类准确率以及所述第二子集中包含的已分类时间序列的数量,确定所述各个滑动窗口长度对应的分类准确率。
在本申请的一些实施例中,所述第二确定子单元配置为:计算所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的分类准确率之和与所述第二子集中包含的已分类时间序列的数量的比值,将所述比值作为所述各个滑动窗口长度对应的分类准确率。
在本申请的一些实施例中,所述第二确定单元配置为:根据所述多个第三子序列与所述多个第四子序列,多次计算所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度;根据每次计算得到的相似度,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的单次参考类别;根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的单次参考类别,确定所述各个滑动窗口长度对应的多个分类准确率;计算所述各个滑动窗口长度对应的多个分类准确率之和与次数之间的比值,将计算得到的比值作为所述各个滑动窗口长度对应的分类准确率。
图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图8示出的电子设备的计算机系统800仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(Central Processing Unit,CPU)801,其可以根据存储在只读存储器(Read-Only Memory,ROM)802中的程序或者从存储部分808加载到随机访问存储器(Random Access Memory,RAM)803中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output,I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种时间序列分类方法,其特征在于,所述方法包括:
获取待分类时间序列和已分类时间序列集,所述已分类时间序列集中包含多个已分类时间序列和各个已分类时间序列的类别,所述各个已分类时间序列包含有通过目标滑动窗口长度进行划分得到的多个第一子序列;
根据所述目标滑动窗口长度对所述待分类时间序列进行划分,得到多个第二子序列;
根据所述多个第二子序列与所述各个已分类时间序列包含的多个第一子序列,计算所述待分类时间序列与所述各个已分类时间序列之间的相似度;
根据所述待分类时间序列与所述各个已分类时间序列之间的相似度,确定所述待分类时间序列的类别;
将所述已分类时间序列集分为第一子集和第二子集,并根据所述各个已分类时间序列的序列长度,生成多个滑动窗口长度;
根据各个滑动窗口长度对所述第一子集中包含的已分类时间序列进行划分,得到所述各个滑动窗口长度对应的多个第三子序列,并根据所述各个滑动窗口长度对所述第二子集中包含的已分类时间序列进行划分,得到所述各个滑动窗口长度对应的多个第四子序列;
根据所述多个第三子序列与所述多个第四子序列,确定所述各个滑动窗口长度对应的分类准确率;
根据所述各个滑动窗口长度对应的分类准确率,确定所述目标滑动窗口长度。
2.根据权利要求1所述的方法,其特征在于,根据所述待分类时间序列与所述各个已分类时间序列之间的相似度,确定所述待分类时间序列的类别,包括:
获取所述待分类时间序列与所述各个已分类时间序列之间的相似度中的最大相似度,将所述最大相似度对应的已分类时间序列的类别作为所述待分类时间序列的类别。
3.根据权利要求1所述的方法,其特征在于,根据所述各个滑动窗口长度对应的分类准确率,确定所述目标滑动窗口长度,包括:
获取所述各个滑动窗口长度对应的分类准确率中的最大分类准确率,将所述最大分类准确率对应的滑动窗口长度作为目标滑动窗口长度。
4.根据权利要求1所述的方法,其特征在于,根据所述多个第三子序列与所述多个第四子序列,确定所述各个滑动窗口长度对应的分类准确率,包括:
根据所述多个第三子序列与所述多个第四子序列,计算所述第一子集中包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度;
根据所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别;
根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别,确定所述各个滑动窗口长度对应的分类准确率。
5.根据权利要求4所述的方法,其特征在于,根据所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别,包括:
获取所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度中的最大相似度,将所述最大相似度对应的已分类时间序列的类别,作为所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别。
6.根据权利要求4所述的方法,其特征在于,根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别,确定所述各个滑动窗口长度对应的分类准确率,包括:
根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的参考类别,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的分类准确率;
根据所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的分类准确率以及所述第二子集中包含的已分类时间序列的数量,确定所述各个滑动窗口长度对应的分类准确率。
7.根据权利要求6所述的方法,其特征在于,根据所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的分类准确率以及所述第二子集中包含的已分类时间序列的数量,确定所述各个滑动窗口长度对应的分类准确率,包括:
计算所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的分类准确率之和与所述第二子集中包含的已分类时间序列的数量的比值,将所述比值作为所述各个滑动窗口长度对应的分类准确率。
8.根据权利要求1所述的方法,其特征在于,根据所述多个第三子序列与所述多个第四子序列,确定所述各个滑动窗口长度对应的分类准确率,包括:
根据所述多个第三子序列与所述多个第四子序列,多次计算所述第一子集包含的已分类时间序列与所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的相似度;
根据每次计算得到的相似度,确定所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的单次参考类别;
根据所述第二子集中包含的已分类时间序列的类别以及所述第二子集中包含的已分类时间序列相对于所述各个滑动窗口长度的单次参考类别,确定所述各个滑动窗口长度对应的多个分类准确率;
计算所述各个滑动窗口长度对应的多个分类准确率之和与次数之间的比值,将计算得到的比值作为所述各个滑动窗口长度对应的分类准确率。
9.一种时间序列分类装置,其特征在于,所述装置包括:
获取单元,配置为获取待分类时间序列和已分类时间序列集,所述已分类时间序列集中包含多个已分类时间序列和各个已分类时间序列的类别,所述各个已分类时间序列包含有通过目标滑动窗口长度进行划分得到的多个第一子序列;
第一划分单元,配置为根据所述目标滑动窗口长度对所述待分类时间序列进行划分,得到多个第二子序列;
计算单元,配置为根据所述多个第二子序列与所述各个已分类时间序列包含的多个第一子序列,计算所述待分类时间序列与所述各个已分类时间序列之间的相似度;
第一确定单元,配置为根据所述待分类时间序列与所述各个已分类时间序列之间的相似度,确定所述待分类时间序列的类别;
生成单元,配置为将所述已分类时间序列集分为第一子集和第二子集,并根据所述各个已分类时间序列的序列长度,生成多个滑动窗口长度;
第二划分单元,配置为根据各个滑动窗口长度对所述第一子集中包含的已分类时间序列进行划分,得到所述各个滑动窗口长度对应的多个第三子序列,并根据所述各个滑动窗口长度对所述第二子集中包含的已分类时间序列进行划分,得到所述各个滑动窗口长度对应的多个第四子序列;
第二确定单元,配置为根据所述多个第三子序列与所述多个第四子序列,确定所述各个滑动窗口长度对应的分类准确率;
第三确定单元,配置为根据所述各个滑动窗口长度对应的分类准确率,确定所述目标滑动窗口长度。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质承载有一个或者多个程序,当所述一个或者多个程序被电子设备执行时,使得所述电子设备实现如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011003407.1A CN112131322B (zh) | 2020-09-22 | 2020-09-22 | 时间序列分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011003407.1A CN112131322B (zh) | 2020-09-22 | 2020-09-22 | 时间序列分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112131322A CN112131322A (zh) | 2020-12-25 |
CN112131322B true CN112131322B (zh) | 2023-10-10 |
Family
ID=73842422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011003407.1A Active CN112131322B (zh) | 2020-09-22 | 2020-09-22 | 时间序列分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131322B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112965963B (zh) * | 2021-02-05 | 2023-07-21 | 同盾科技有限公司 | 信息处理方法 |
CN113821574B (zh) * | 2021-08-31 | 2024-07-30 | 北京达佳互联信息技术有限公司 | 用户行为分类方法和装置及存储介质 |
CN113836240B (zh) * | 2021-09-07 | 2024-02-20 | 招商银行股份有限公司 | 时序数据分类方法、装置、终端设备及存储介质 |
CN116541784B (zh) * | 2023-07-04 | 2023-09-26 | 乐山师范学院 | 一种基于字典树和覆盖度的时间序列分类方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136327A (zh) * | 2012-12-28 | 2013-06-05 | 中国矿业大学 | 一种基于局部特征聚类的时间序列符号化方法 |
CN104657749A (zh) * | 2015-03-05 | 2015-05-27 | 苏州大学 | 一种时间序列的分类方法及装置 |
CN105224543A (zh) * | 2014-05-30 | 2016-01-06 | 国际商业机器公司 | 用于处理时间序列的方法和装置 |
CN111291824A (zh) * | 2020-02-24 | 2020-06-16 | 网易(杭州)网络有限公司 | 时间序列的处理方法、装置、电子设备和计算机可读介质 |
-
2020
- 2020-09-22 CN CN202011003407.1A patent/CN112131322B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136327A (zh) * | 2012-12-28 | 2013-06-05 | 中国矿业大学 | 一种基于局部特征聚类的时间序列符号化方法 |
CN105224543A (zh) * | 2014-05-30 | 2016-01-06 | 国际商业机器公司 | 用于处理时间序列的方法和装置 |
CN104657749A (zh) * | 2015-03-05 | 2015-05-27 | 苏州大学 | 一种时间序列的分类方法及装置 |
CN111291824A (zh) * | 2020-02-24 | 2020-06-16 | 网易(杭州)网络有限公司 | 时间序列的处理方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112131322A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131322B (zh) | 时间序列分类方法及装置 | |
Bolón-Canedo et al. | Feature selection for high-dimensional data | |
CN109583332B (zh) | 人脸识别方法、人脸识别系统、介质及电子设备 | |
CN111612039B (zh) | 异常用户识别的方法及装置、存储介质、电子设备 | |
CN108540826B (zh) | 弹幕推送方法、装置、电子设备及存储介质 | |
CN111785384B (zh) | 基于人工智能的异常数据识别方法及相关设备 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN108197652B (zh) | 用于生成信息的方法和装置 | |
CN112528025A (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
JP7153004B2 (ja) | コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 | |
US11017774B2 (en) | Cognitive audio classifier | |
CN111612038B (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
Li et al. | A general framework for association analysis of heterogeneous data | |
WO2017013529A1 (en) | System and method for determining credit worthiness of a user | |
CN110390408A (zh) | 交易对象预测方法和装置 | |
Zhang et al. | A generative adversarial network–based method for generating negative financial samples | |
CN116402166A (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN112541069A (zh) | 一种结合关键词的文本匹配方法、系统、终端及存储介质 | |
WO2024103765A1 (zh) | 敏感数据识别模型的生成方法、装置、设备及存储介质 | |
CN111275683A (zh) | 图像质量评分处理方法、系统、设备及介质 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
Bakery et al. | A new double truncated generalized gamma model with some applications | |
CN113888265A (zh) | 产品推荐方法、装置、设备及计算机可读存储介质 | |
CN113260044A (zh) | 基于双层字典学习的csi指纹定位方法、装置及设备 | |
CN113868438B (zh) | 信息可信度的校准方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |