CN110659655B

CN110659655B - 一种指标归类方法及装置和计算机可读存储介质

Info

Publication number: CN110659655B
Application number: CN201810691299.8A
Authority: CN
Inventors: 姚冬阳
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2021-03-02
Anticipated expiration: 2038-06-28
Also published as: CN110659655A

Abstract

本申请提供一种指标归类方法及装置、计算机可读存储介质和电子设备。其中，标归类方法包括：获取当前指标归类请求；使用指标归类模型对当前指标归类请求中携带的当前指标进行归类处理，以将当前指标归类到对应的归类主题；其中，指标归类模型基于预先建立主题的已标注指标的每个分词在不同主题下的出现次数、不同主题的指标个数和每个分词出现的主题个数确定。本申请实施例，通过使用指标归类模型对获取的当前指标归类请求中携带的当前指标进行归类处理，可以将当前指标归类到对应的归类主题，即可以实现指标的自动归类，不需要专业人员长期维护指标归类，节省了人力成本且降低了用户的使用门槛。

Description

一种指标归类方法及装置和计算机可读存储介质

技术领域

本申请涉及一种人工智能技术，尤其涉及一种指标归类方法及装置、计算机可读存储介质和电子设备。

背景技术

商业智能(Business Intelligence，简称BI)是一套完整的解决方案，用来将企业中现有的数据进行有效的整合，快速准确地提供报表并提出决策依据，帮助企业做出明智的业务经营决策。

目前，BI的业务指标归类主要依赖熟悉业务且具有经验的人员进行人工处理。依赖人工处理存在两个方面的问题：一方面，随着业务指标数量的日益膨胀，数据仓库中积压了大量未被分类的指标，而让业务人员逐一处理并维护需要消耗一定的人力成本；另一方面，数据分析师在使用BI分析工具的过程中，经常会引入新的数据源，也就是会增加新的业务指标，而给新的业务指标分类抬高了工具的使用门槛。因此，迫切需要提供一种指标自动归类方法。

发明内容

有鉴于此，本申请提供一种指标归类方法及装置、计算机可读存储介质和电子设备。

具体地，本申请是通过如下技术方案实现的：

根据本公开实施例的第一方面，提供一种指标归类方法，所述方法包括：

获取当前指标归类请求；

使用指标归类模型对所述当前指标归类请求中携带的当前指标进行归类处理，以将所述当前指标归类到对应的归类主题；

其中，所述指标归类模型基于预先建立主题的已标注指标的每个分词在不同主题下的出现次数、不同主题的指标个数和每个分词出现的主题个数确定。

在一实施例中，所述方法还包括：

通过多个计算节点从数据仓库获取所述预先建立主题的已标注指标；

通过所述多个计算节点基于获取到的所述已标注指标的每个分词在不同主题下的出现次数、所述不同主题的指标个数和所述每个分词出现的主题个数确定所述指标归类模型，并缓存所述指标归类模型。

在一实施例中，所述基于获取到的所述已标注指标的每个分词在不同主题下的出现次数、所述不同主题的指标个数和所述每个分词出现的主题个数确定所述指标归类模型，包括：

对获取到的每个已标注指标进行分词；

统计每个分词在不同主题下的出现次数；

基于所述每个分词在不同主题下的出现次数、所述不同主题的指标个数和所述每个分词出现的主题个数，计算出所述每个分词在不同主题下的分数；

将所述每个分词在不同主题下的分数，确定为所述指标归类模型。

在一实施例中，所述使用指标归类模型对所述当前指标归类请求中携带的当前指标进行归类处理，以将所述当前指标归类到对应的归类主题，包括：

根据所述当前指标归类请求获取每个计算节点对所述当前指标的归类主题的投票结果及所述当前指标在对应归类主题下的总分数；

若票数最多的归类主题个数为一个，则将票数最多的归类主题作为所述当前指标的归类主题；

若票数最多的归类主题个数大于一个，则将票数最多且总分数之和最大的归类主题作为所述当前指标的归类主题。

在一实施例中，所述根据所述当前指标归类请求获取每个计算节点对所述当前指标的归类主题的投票结果及所述当前指标在对应归类主题下的总分数，包括：

对所述当前指标进行分词；

根据所述当前指标对应的当前分词查询每个计算节点缓存的所述指标归类模型，得到每个计算节点缓存的每个当前分词在每个主题下的分数；

对所述每个计算节点缓存的每个当前分词在每个主题下的分数进行优化运算，得到所述每个计算节点计算出的所述当前指标在每个主题下的总分数；

将所述每个计算节点计算出的所述总分数最大的主题作为对应计算节点得到的所述当前指标的归类主题。

在一实施例中，所述对所述每个计算节点缓存的每个当前分词在每个主题下的分数进行优化运算，得到所述每个计算节点计算出的所述当前指标在每个主题下的总分数，包括：

对所述每个计算节点缓存的所述每个当前分词在每个主题下的分数取对数运算，得到运算结果；

对所述运算结果求和，得到所述每个计算节点计算出的所述当前指标在每个主题下的总分数。

在一实施例中，所述通过多个计算节点从数据仓库获取所述预先建立主题的已标注指标，包括：

通过多个计算节点从所述数据仓库的每个预先建立的主题下均等地获取所述已标注指标。

在一实施例中，所述当前指标包括实时新增指标或离线导入指标。

根据本公开实施例的第二方面，提供一种指标归类装置，所述装置包括：

获取模块，用于获取当前指标归类请求；

归类模块，用于使用指标归类模型对所述获取模块获取的所述当前指标归类请求中携带的当前指标进行归类处理，以将所述当前指标归类到对应的归类主题；

根据本公开实施例的第三方面，提供一种种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述指标归类方法。

根据本公开实施例的第四方面，提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述指标归类方法。

本申请实施例，通过使用指标归类模型对获取的当前指标归类请求中携带的当前指标进行归类处理，可以将所述当前指标归类到对应的归类主题，即可以实现指标的自动归类，不需要专业人员长期维护指标归类，节省了人力成本且降低了用户的使用门槛。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请一示例性实施例示出的一种指标归类方法的流程图；

图2是本申请一示例性实施例示出的一种指标归类模型的确定过程的流程图；

图3是本申请一示例性实施例示出的每个计算节点确定指标归类模型的流程图；

图4是本申请一示例性实施例示出的另一种指标归类方法的流程图；

图5是本申请一示例性实施例示出的获取每个计算节点对所述当前指标的归类主题的投票结果及当前指标在对应归类主题下的总分数的流程图；

图6是本申请指标归类装置所在电子设备的一种硬件结构图；

图7是本申请一示例性实施例示出的一种指标归类装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是本申请一示例性实施例示出的一种指标归类方法的流程图，如图1所示，该方法包括：

步骤S101，获取当前指标归类请求。

当用户在业务平台的前端触发对当前指标的归类请求时，业务平台可以获取当前指标归类请求。

由于当前指标可以包括实时新增指标，也可以包括离线导入指标，因此，当前指标归类请求可以包括当前实时新增指标归类请求，也可以包括当前离线导入指标归类请求。

步骤S102，使用指标归类模型对当前指标归类请求中携带的当前指标进行归类处理，以将当前指标归类到对应的归类主题。

其中，指标归类模型基于预先建立主题的已标注指标的每个分词在不同主题下的出现次数、不同主题的指标个数和每个分词出现的主题个数确定。

在该实施例中，业务人员可以预先建立主题，并为每一个主题标注少量业务指标。然后，业务平台例如BI报表平台可以以已标注指标作为训练数据建立指标归类模型。之后，会定期以所有已标注指标作为训练数据重新更新指标归类模型。

具体地，业务平台可以基于已标注指标的每个分词在不同主题下的出现次数、不同主题的指标个数和每个分词出现的主题个数建立或更新指标归类模型。

由于在该实施例中，已经确定好指标归类模型，因此，可以使用指标归类模型对当前指标归类请求中携带的当前指标进行归类处理，以将当前指标归类到对应的归类主题。例如，将当前实时新增指标归类到某个主题，将大量离线导入指标批量归类到对应的主题。

由此可见，该实施例不需要专业人员长期维护指标归类，只需要他们准确地标注少量的历史指标，便可为实时新增指标和历史指标实现自动分类。

上述实施例，通过使用指标归类模型对获取的当前指标归类请求中携带的当前指标进行归类处理，可以将当前指标归类到对应的归类主题，即可以实现指标的自动归类，不需要专业人员长期维护指标归类，节省了人力成本且降低了用户的使用门槛。

图2是本申请一示例性实施例示出的一种指标归类模型的确定过程的流程图，如图2所示，该确定过程包括：

步骤S201，通过多个计算节点从数据仓库获取预先建立主题的已标注指标。

为了保证在海量已标注指标的情况下，指标归类模型的在线更新频率，该实施例通过多个计算节点从数据仓库获取预先建立主题的已标注指标。

其中，可以通过多个计算节点从数据仓库的每个预先建立的主题下均等地获取已标注指标。

为了充分提高并行度，可以使用单指令多数据流(Single Instruction MultipleData，简称SIMD)的模式。例如，每个计算节点可以通过取模(mod)各自的节点标识(ID)，从每一个主题下均等地(Load Balance)拉取指标，如果指标数小于节点个数，则拉取全部指标。

例如，若多个计算节点为节点1-3，主题1包括指标1-6，主题2包括指标7，则计算节点1可以从数据仓库拉取到主题1的指标1和指标4以及主题2的指标7，计算节点2可以从数据仓库拉取到主题1的指标2和指标5以及主题2的指标7，计算节点3可以从数据仓库拉取到主题1的指标3和指标6以及主题2的指标7。

步骤S202，通过多个计算节点基于获取到的已标注指标的每个分词在不同主题下的出现次数、不同主题的指标个数和每个分词出现的主题个数确定指标归类模型，并缓存指标归类模型。

如图3所示，每个计算节点确定指标归类模型的过程可以包括：

步骤S2021，对获取到的每个已标注指标进行分词。

步骤S2022，统计每个分词在不同主题下的出现次数。

为了清楚地描述每个计算节点确定指标归类模型的过程，下面结合具体示例进行描述。

例如，当前计算节点获取到的主题为主题1和主题2，主题1包括指标1-3，主题2包括指标4，指标1包括分词1和分词2，指标2包括分词1和分词3，指标3包括分词4，指标4包括分词1和分词2，则分词1在主题1下的出现次数为2次，分词1在主题2下的出现次数为1次，分词2在主题1下的出现次数为1次，分词2在主题2下的出现次数为1次，分词3在主题1下的出现次数为1次，分词4在主题1下的出现次数为1次。

步骤S2023，基于每个分词在不同主题下的出现次数、不同主题的指标个数和每个分词出现的主题个数，计算出每个分词在不同主题下的分数。

其中，每个分词在不同主题下的分数可以为：每个分词在不同主题下的出现次数除以不同主题的指标个数，再除以对应分词出现的主题个数。

继续上例进行描述，主题1的指标个数为3个，主题2的指标个数为1个，分词1出现的主题个数为2个，分词2出现的主题个数为2个，分词3出现的主题个数为1个，分词4出现的主题个数为1个。

因此，分词1在主题1下的分数为：2/3/2＝0.33，分词2在主题1下的分数为：1/3/2＝0.17，分词3在主题1下的分数为：1/3/1＝0.33，分词4在主题1下的分数为：1/3/1＝0.33，分词1在主题2下的分数为：1/1/2＝0.5，分词2在主题2下的分数为：1/1/2＝0.5。

步骤S2024，将每个分词在不同主题下的分数，确定为指标归类模型。

在该实施例中，将每个分词在不同主题下的分数，确定为指标归类模型。

在确定好指标归类模型之后，缓存指标归类模型使得归类时间复杂度与指标个数无关，只与主题个数有关，由于主题个数远小于指标个数，因此，可以有效降低指标的归类时间，即提高指标的归类效率。

上述实施例，通过多个计算节点从数据仓库获取预先建立主题的已标注指标，并通过多个计算节点基于获取到的已标注指标的每个分词在不同主题下的出现次数、不同主题的指标个数和每个分词出现的主题个数确定指标归类模型，并缓存指标归类模型，可以提高指标归类模型的确定效率，并为后续提高指标自动分类效率提供了条件。

图4是本申请一示例性实施例示出的另一种指标归类方法的流程图，如图4所示，该指标归类方法包括：

步骤S401，通过多个计算节点从数据仓库获取预先建立主题的已标注指标。

步骤S402，通过多个计算节点基于获取到的已标注指标的每个分词在不同主题下的出现次数、不同主题的指标个数和每个分词出现的主题个数确定指标归类模型，并缓存指标归类模型。

步骤S403，获取当前指标归类请求。

步骤S404，根据当前指标归类请求获取每个计算节点对当前指标的归类主题的投票结果及当前指标在对应归类主题下的总分数。

如图5所示，获取每个计算节点对当前指标的归类主题的投票结果及当前指标在对应归类主题下的总分数可以包括：

步骤S4041，对当前指标进行分词。

假设，当前指标对应的分词为分词1和分词2。

步骤S4042，根据当前指标对应的当前分词查询每个计算节点缓存的指标归类模型，得到每个计算节点缓存的每个当前分词在每个主题下的分数。

假设，计算节点1缓存的指标归类模型为：分词1在主题1下的分数为：2/3/2＝0.33，分词2在主题1下的分数为：1/3/2＝0.17，分词3在主题1下的分数为：1/3/1＝0.33，分词4在主题1下的分数为：1/3/1＝0.33，分词1在主题2下的分数为：1/1/2＝0.5，分词2在主题2下的分数为：1/1/2＝0.5。

步骤S4043，对每个当前分词在每个主题下的分数进行优化运算，得到每个计算节点计算出的当前指标在每个主题下的总分数。

在该实施例中，对每个计算节点缓存的每个当前分词在每个主题下的分数取对数运算，得到运算结果，并对运算结果求和，得到每个计算节点计算出的当前指标在每个主题下的总分数。

继续上例进行描述，分词1在主题1下的分数为0.33，分词2在主题1下的分数为0.17，则可以得到计算节点1计算出的当前指标在主题1下的总分数为：log(0.33)+log(0.17)。分词1在主题2下的分数为0.5，分词2在主题2下的分数为0.5，则可以得到计算节点1计算出的当前指标在主题2下的总分数为：log(0.5)+log(0.5)。

在该实施例中，通过对每个当前分词在每个主题下的分数取对数运算，以体现每个分词对确定归类主题都很重要，即提高多个分词的整体作用，有利于后续提高指标归类的准确性。

步骤S4044，将每个计算节点计算出的总分数最大的主题作为对应计算节点得到的当前指标的归类主题。

继续上例进行描述，由于计算节点1计算出的当前指标在主题2下的总分数大于当前指标在主题1下的总分数，故计算节点1得到当前指标的归类主题为主题2。

对于其他结算节点而言，其确定当前指标的归类主题的过程与计算节点1的确定过程相同，此处不赘述。

步骤S405，若票数最多的归类主题个数为一个，则将票数最多的归类主题作为当前指标的归类主题。

若计算节点1、计算节点3和计算节点4均得到当前指标的归类主题为主题2，计算节点2得到当前指标的归类主题为主题1，则最终确定主题2为当前指标的归类主题。

步骤S406，若票数最多的归类主题个数大于一个，则将票数最多且总分数之和最大的归类主题作为当前指标的归类主题。

若计算节点1和计算节点3均得到当前指标的归类主题为主题2，计算节点2和计算节点4均得到当前指标的归类主题为主题1，则计算计算节点1得到的当前指标在主题2下的总分数和计算节点3得到的当前指标在主题2下的总分数之和，假设为X，以及计算计算节点2得到的当前指标在主题1下的总分数和计算节点4得到的当前指标在主题1下的总分数之和，假设为Y，且X大于Y，则确定当前指标的归类主题为主题2。

上述实施例，根据多个计算节点的投票结果和多个计算节点计算的当前指标在每个主题下的总分数，为当前指标确定归类主题，有利于减少归类偏见，提高指标归类的准确性。

与前述指标归类方法的实施例相对应，本申请还提供了指标归类装置的实施例。

本申请指标归类装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。如图6所示，为本申请指标归类装置600所在电子设备的一种硬件结构图，该电子设备包括处理器610、存储器620及存储在存储器620上并可在处理器610上运行的计算机程序，该处理器610执行该计算机程序时实现上述指标归类方法。除了图6所示的处理器610及存储器620之外，实施例中装置所在的电子设备通常根据指标归类的实际功能，还可以包括其他硬件，对此不再赘述。

图7是本申请一示例性实施例示出的一种指标归类装置的框图，如图7所示，该装置包括：获取模块71和归类模块72。

获取模块71用于获取当前指标归类请求。

当用户在业务平台的前端触发对当前指标的归类请求时，业务平台的获取模块71可以获取当前指标归类请求。

归类模块72用于使用指标归类模型对获取模块71获取的当前指标归类请求中携带的当前指标进行归类处理，以将当前指标归类到对应的归类主题。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序用于执行上述指标归类方法，其中，该指标归类方法包括：

获取当前指标归类请求；

使用指标归类模型对当前指标归类请求中携带的当前指标进行归类处理，以将当前指标归类到对应的归类主题；

上述计算机可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、光盘只读存储器(CD-ROM)、磁带、软盘和光数据存储设备等。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种指标归类方法，其特征在于，所述方法包括：

获取当前指标归类请求；

其中，所述指标归类模型基于预先建立主题的已标注指标的每个分词在不同主题下的出现次数、不同主题的指标个数和每个分词出现的主题个数确定；

确定所述指标归类模型，包括：

通过所述多个计算节点基于获取到的所述已标注指标的每个分词在不同主题下的出现次数、所述不同主题的指标个数和所述每个分词出现的主题个数确定所述指标归类模型，并缓存所述指标归类模型；

其中，所述通过多个计算节点从数据仓库获取所述预先建立主题的已标注指标，包括：

通过多个计算节点从所述数据仓库的每个预先建立的主题下均等地获取所述已标注指标；其中，每个计算节点通过取模各自的节点标识，从每一个主题下均等地拉取所述已标注指标；

当使用所述指标归类模型对所述当前指标归类请求中携带的当前指标进行归类处理，以将所述当前指标归类到对应的归类主题，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于获取到的所述已标注指标的每个分词在不同主题下的出现次数、所述不同主题的指标个数和所述每个分词出现的主题个数确定所述指标归类模型，包括：

对获取到的每个已标注指标进行分词；

统计每个分词在不同主题下的出现次数；

3.根据权利要求1所述的方法，其特征在于，所述根据所述当前指标归类请求获取每个计算节点对所述当前指标的归类主题的投票结果及所述当前指标在对应归类主题下的总分数，包括：

对所述当前指标进行分词；

4.根据权利要求3所述的方法，其特征在于，所述对所述每个计算节点缓存的每个当前分词在每个主题下的分数进行优化运算，得到所述每个计算节点计算出的所述当前指标在每个主题下的总分数，包括：

5.根据权利要求1所述的方法，其特征在于，所述当前指标包括实时新增指标或离线导入指标。

6.一种指标归类装置，其特征在于，所述装置包括：

获取模块，用于获取当前指标归类请求；

通过多个计算节点从数据仓库获取所述预先建立主题的已标注指标；通过所述多个计算节点基于获取到的所述已标注指标的每个分词在不同主题下的出现次数、所述不同主题的指标个数和所述每个分词出现的主题个数确定所述指标归类模型，并缓存所述指标归类模型；通过多个计算节点从所述数据仓库的每个预先建立的主题下均等地获取所述已标注指标，其中，每个计算节点通过取模各自的节点标识，从每一个主题下均等地拉取所述已标注指标；

根据所述当前指标归类请求获取每个计算节点对所述当前指标的归类主题的投票结果及所述当前指标在对应归类主题下的总分数；若票数最多的归类主题个数为一个，则将票数最多的归类主题作为所述当前指标的归类主题；若票数最多的归类主题个数大于一个，则将票数最多且总分数之和最大的归类主题作为所述当前指标的归类主题。

7.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一所述的指标归类方法。

8.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1-5任一所述的指标归类方法。