CN111090877B

CN111090877B - 数据生成、获取方法及对应的装置、存储介质

Info

Publication number: CN111090877B
Application number: CN201911148392.5A
Authority: CN
Inventors: 王绍蔚; 杜家春
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2023-07-28
Anticipated expiration: 2039-11-21
Also published as: CN111090877A

Abstract

本申请公开了一种数据生成、获取方法及对应的装置、存储介质，所述方法包括：获取目标对象的投票偏好数据；对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合；使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据；将所述目标对象的投票偏好数据的无偏估计数据发送给服务器，以便所述服务器获取决策数据。本申请实施例具有适用范围广、计算开销小、非交互、有效性高的特点，可以适用于大规模分布式网络、低资源终端环境下的投票偏好数据聚合。

Description

数据生成、获取方法及对应的装置、存储介质

技术领域

本申请实施例涉及信息安全技术领域，具体涉及一种数据生成、获取方法及对应的装置、存储介质。

背景技术

随时网络技术的发展，以及移动终端设备的普及，如何对用户数据进行采集和分析的同时保护用户隐私成为业界关注的一个重要课题。

基于密码学的方案中，计算和通信交互开销较高，无法应用于网络环境下百万级别或者百万级别以上的大规模投票偏好数据聚合决策的场景。

基于数据扰动的方案中，基于拉普拉斯(Laplace)噪声添加的投票偏好数据聚合结果的误差巨大，不利于进行有效地决策。

因此，现有技术存在缺陷，有待改进与发展。

发明内容

本申请实施例提供一种数据生成、获取方法及对应的装置、存储介质，具有适用范围广、计算开销小、非交互、有效性高的特点，可以适用于大规模分布式网络、低资源终端环境下的投票偏好数据聚合。

本申请实施例提供一种数据生成方法，适用于终端，所述方法包括：

获取目标对象的投票偏好数据；

对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合；

使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据；

将所述目标对象的投票偏好数据的无偏估计数据发送给服务器，以便所述服务器获取决策数据。

在本申请实施例所述的数据生成方法中，所述投票偏好数据包括目标对象的类别数据、集合数据及偏好数据中的任一种。

本申请实施例还提供一种数据获取方法，适用于服务器，所述方法包括：

接收终端发送的目标对象的投票偏好数据的无偏估计数据，所述投票偏好数据的无偏估计数据由所述终端对投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，并对所述扰动数据集合进行转化后得到；

根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间；

根据所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，生成投票决策。

本申请实施例还提供一种数据生成装置，适用于终端，所述装置包括：

获取单元，用于获取目标对象的投票偏好数据；

扰动单元，用于对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合；

转化单元，用于使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据；

发送单元，用于将所述目标对象的投票偏好数据的无偏估计数据发送给服务器，以便所述服务器获取决策数据。

在本申请实施例所述的数据生成装置中，所述获取单元包括：

采集子单元，用于采集目标对象的候选集，其中所述候选集包括多个候选项；

确定子单元，用于根据所述候选集中所有候选项的偏好顺序，确定所述目标对象的投票偏好数据。

在本申请实施例所述的数据生成装置中，所述候选集的多个候选项中每一候选项对应的所述投票偏好数据的无偏估计数据的均值，等于所述投票偏好数据中对应候选项的积分无偏估计量。

在本申请实施例所述的数据生成装置中，所述投票偏好数据包括目标对象的类别数据、集合数据及偏好数据中的任一种。

本申请实施例还提供一种数据获取装置，适用于服务器，所述装置包括：

接收单元，用于接收终端发送的目标对象的投票偏好数据的无偏估计数据，所述投票偏好数据的无偏估计数据由所述终端对投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，并对所述扰动数据集合进行转化后得到；

计算单元，用于根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间；

决策单元，用于根据所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，生成投票决策。

在本申请实施例所述的数据获取装置中，所述计算单元包括：

第一计算子单元，用于将所述投票偏好数据中同一个候选项对应的投票偏好数据的无偏估计数据进行累加，以得到所述每个候选项的投票积分无偏估计量；

第二计算子单元，用于根据所述投票积分无偏估计量的方差，计算所述置信区间。

在本申请实施例所述的数据获取装置中，所述第二计算子单元，用于将所述投票积分无偏估计量的方差输入切比雪夫不等式中进行计算，以得到所述置信区间。

在本申请实施例所述的数据获取装置中，所述决策单元，用于在所述置信区间限定范围内，将所述投票偏好数据中投票积分无偏估计量的数值最大的候选项确定为获胜的候选项。

本申请实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，执行本申请实施例所提供的任一种所述的数据生成方法中的步骤，或者执行本申请实施例所提供的任一种所述的数据获取方法中的步骤。

本申请实施例通过获取目标对象的投票偏好数据；对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合；使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据；将所述目标对象的投票偏好数据的无偏估计数据发送给服务器，以便所述服务器获取决策数据。本申请实施例具有适用范围广、计算开销小、非交互、有效性高的特点，可以适用于大规模分布式网络、低资源终端环境下的投票偏好数据聚合。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理系统的系统架构图。

图2为本申请实施例提供的一种数据处理系统的场景示意图。

图3为本申请实施例提供的一种数据生成方法的流程示意图。

图4为本申请实施例提供的一种数据获取方法的流程示意图。

图5为本申请实施例提供的一种数据获取方法的试验结果示意图。

图6为本申请实施例提供的一种数据获取方法的另一试验结果示意图。

图7为本申请实施例提供的一种数据生成装置的结构示意图。

图8为本申请实施例提供的一种数据获取装置的结构示意图。

图9为本申请实施例提供的一种终端的结构示意图。

图10为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

基于密码学的方案中，通过安全多方计算(如同态加密)等对投票偏好数据进行聚合，使得数据收集方或其他第三方无法获取投票偏好数据明文，达到保护投票偏好数据隐私的目的。但是该方案的计算和通信交互开销较高，无法应用于网络环境下百万级别或者百万级别以上的大规模投票偏好数据聚合决策的场景。

基于数据扰动的方案中，依据投票偏好数据的最大l₁范数变化Δ，通过添加scale为的Laplace噪声，防止网络节点、数据收集方或其他第三方获取真实的投票偏好数据，达到保护投票偏好数据隐私的目的。但基于Laplace噪声添加的投票偏好数据聚合结果的误差巨大，不利于进行有效地决策。

因而，本申请实施例提供了一种数据生成、获取方法及对应的装置、存储介质，通过概率性地输出扰动数据集合，对目标对象(个体或机构)的投票偏好数据进行本地化差分隐私保护，使得数据收集方可以计算得到候选项的投票积分无偏估计和置信区间，从而在保护目标对象(个体或机构)数据隐私的同时进行有效的数据聚合分析。本申请实施例具有适用范围广、计算开销小、非交互、有效性高的特点，可以适用于大规模分布式网络、低资源终端环境下的投票偏好数据聚合。

本申请实施例提供了一种数据处理系统，该系统可以包括本申请实施例所提供的任一种适用于终端的数据生成装置，以及任一种适用于服务器的数据获取装置。该数据生成装置可以集成在终端中。该数据获取装置可以集成在网络设备中，比如，服务器等设备中。

例如，请参阅图1，提供了一种数据处理系统的系统架构图，该图案系统包括：终端10、服务器20以及网络30，终端10与服务器20通过网络连接。其中，网络30包括路由器、网关等等网络实体，图中并未示意出。其中，数据生成装置集成在终端10中，数据获取装置集成在服务器20中。

其中，终端10可以用于：获取目标对象的投票偏好数据；对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合；使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据；将所述目标对象的投票偏好数据的无偏估计数据发送给服务器20，以便所述服务器20获取决策数据。比如，终端10将采集到的投票偏好数据进行本地隐私保护后再发送至服务器20，以指示服务器20计算候选项的投票积分无偏估计和置信区间，以便服务器20根据候选项的投票积分无偏估计和置信区间进行投票决策。

该终端10可以为手机、平板电脑、笔记本电脑、可穿戴设备等设备，图1示出的终端10以手机为例。该终端10中还可以安装有用户所需的各种应用，比如具备娱乐功能的应用(如直播应用，音频播放应用，游戏应用，阅读软件)，又如具备服务功能的应用(如地图导航应用、购物应用等)。

其中，服务器20用于：接收终端10发送的目标对象的投票偏好数据的无偏估计数据，所述投票偏好数据的无偏估计数据由所述终端10对投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，并对所述扰动数据集合进行转化后得到；根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间；根据所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，生成投票决策。比如，服务器20根据接收到的具有隐私保护的数据视图，计算候选项的投票积分无偏估计量和置信区间，进而做出投票决策。

例如，请参阅图2，图2示出了数据处理系统的场景示意图，用户在客户端或终端侧对自身的投票偏好数据V独立地进行随机扰动得到具有隐私保护的数据扰动数据集合Z，然后通过网络通信传输数据扰动数据集合Z给数据收集方(如云端服务器)，云端服务器在收集到用户的数据视图后可以通过数据分析和计算得到聚合数据的无偏估计及其置信区间，进而做出投票决策。

上述图1涉及的系统架构只是实现本申请实施例的一个系统架构实例，上述系统架构并不构成对本申请所涉及的系统架构的限定。基于该系统架构，提出本申请各个实施例。

以下将分别进行详细说明，以下各个实施例的描述先后顺序并不构成对具体实施先后顺序的限定。

请参阅图3，图3为本申请实施例提供的一种数据生成方法的流程示意图。所述方法适用于终端，所述方法包括：

步骤101，获取目标对象的投票偏好数据。

在一些实施例中，所述获取目标对象的投票偏好数据，包括：

采集目标对象的候选集，其中所述候选集包括多个候选项；

根据所述候选集中所有候选项的偏好顺序，确定所述目标对象的投票偏好数据。

例如，本申请实施例中用于采集投票偏好数据的对象，可以由安装于终端中的客户端进行数据采集，也可以由终端本身直接进行数据采集。其中，所述客户端为与服务器相对应、为客户提供本地服务的程序，例如网页浏览器、电子邮件客户端、即时通信客户端、网购应用客户端等。

客户端或者终端侧对用户敏感数据的采集，其中用户的类别数据(如性别、地区)、集合数据(如网站访问记录、购物篮列表、App列表)、偏好数据(如选票、点击的内容、购买的道具)中的任一种或多种都可以作为投票偏好数据，这些投票偏好数据包含着敏感的个人信息。

其中，候选集可以包括多个候选项，候选集A的表达式可以为：A＝{A₁，A₂，……，A_d}，其中，候选集A中的每一项称之为候选项。

其中，所述投票偏好数据可以包括目标对象的类别数据、集合数据及偏好数据中的任一种。例如，一个投票偏好数据可以为类别数据中的性别男、性别女或者A地区等；例如，一个投票偏好数据也可以为集合数据中的一个网址、一个商品或者一个App列表等；例如，一个投票偏好数据也可以为偏好数据中的一个选票、一个点击内容或者一个道具等。其中，目标对象为被采集数据的用户，比如为被采集数据的个体或者机构。

其中，一个个体或机构的投票偏好数据V由该个体或机构对于候选集上所有候选项的偏好顺序决定。假设偏好顺序排第i个的候选项得到的积分为W_i，如果标记候选项A_j在偏好排序的位置R(j)，则投票偏好数据V＝{W_R(1)，W_R(2)，……，W_R(d)}。其中，在一个投票规则中，W＝{W₁，W₂，……，W_d}的取值是固定的且是非增序的。例如，在波达(Borda)投票规则中W＝{d-1，d-2，……，0}，将每个候选项逐个地与其他候选项进行比较，每获胜一次得1分。例如，在Nauru投票规则中根据排名顺序，用公式1/n计算每一张选票的积分。例如，在相对多数(Plurality)投票规则中W＝{1，0，……，0}，每个投票者投一个选票，获得选票数最多的候选项胜出。

例如，d表示d个候选项(或者候选人)，W₁表示排第一位的候选项(或者候选人)的分数(积分)，W₂表示排第二位的候选项(或者候选人)的分数(积分)，W_d表示排第d位的候选项(或者候选人)的分数(积分)。

R(1)表示候选项1在一个投票偏好数据中的排名，R(2)表示候选项2在一个投票偏好数据中的排名。因为R(1)表示候选项1在一个投票偏好数据中的排名，所以投票偏好数据V里面的W_R(1)表示候选项1在这个投票里得到的分数(积分)。例如，R(1)表示排名，比如排名第一或者第三，R(1)是一个数值，比如R(1)＝3，则W_R(1)＝W₃。

步骤102，对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合。

其中，以一个个体或机构的投票偏好数据V作为输入，通过一个ε-本地差分隐私机制Q处理后的输出为一个扰动数据集合Z，该扰动数据集合Z的输出概率需要满足以下不等式一的限制(对于任意可能的V和V’)，不等式一为：

Pr[Z|V]≤Pr[Z|V’]·exp(ε)；

其中，Z表示扰动数据集合，V表示投票偏好数据，V’表示任意一个另外的投票偏好数据。Pr表示概率，Pr[Z|V]表示以投票偏好数据V为输入的扰动数据集合Z的输出概率，Pr[Z|V’]表示以任意一个另外的投票偏好数据V’为输入的扰动数据集合Z的输出概率。exp表示以自然常数e为底的指数函数，exp(ε)表示e的ε次方，ε为大于零的实数，本申请实施例中的ε可以为处于0到3之间的实数，即0<ε<3。

其中，输出满足ε-本地差分隐私机制Q的扰动数据集合Z，Z可以表示候选集A中的一个子集，扰动数据集合Z可能以集合方式来表示。扰动数据集合Z也可以用位图(bitmap)的方式来表示，位图(bitmap)又称栅格图(Raster graphics)或点阵图，是使用像素阵列(Pixel-array/Dot-matrix点阵)来表示的图像。

其中，可以将投票偏好数据V中的数值输入公式一中计算所述扰动数据集合Z的输出概率。其中，公式一为：

其中，A_j表示第j个候选项，Ω为归一化因子，d表示d个候选项，W_R(d)表示候选项d在投票偏好数据V中得到的分数(积分)，R(1)表示候选项1在投票偏好数据V中的排名，W₁表示排第一位的候选项的分数(积分)，W_d表示排第d位的候选项的分数(积分)。

其中，归一化因子Ω可以用公式二来表达，公式二为：

其中，W_i表示偏好顺序排第i个的候选项得到的分数(积分)，d表示d个候选项，d为大于等于1的正整数，W₁表示排第一位的候选项的分数(积分)，W_d表示排第d位的候选项的分数(积分)。

其中，该输出概率Pr[Z＝A_j|V]满足上述ò-本地差分隐私机制的定义。

步骤103，使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据。

具体的，将所述扰动数据集合输入预设函数中进行转化，得到所述目标对象的投票偏好数据的无偏估计数据。其中，所述候选集的多个候选项中每一候选项对应的所述投票偏好数据的无偏估计数据的均值，等于所述投票偏好数据中对应候选项的积分无偏估计量。

其中，依据候选项A_j在子集Z(扰动数据集合)中是否出现转化得到投票偏好数据V中对应候选项A_j的积分无偏估计量的转化条件，来对所述扰动数据集合Z进行转化处理，以生成所述目标对象的投票偏好数据的无偏估计数据X。例如，该转化条件可以用公式三来表达，公式三为：

E[X_j]＝E[f([A_j∈Z])]＝W_R(j)；

其中，E[X_j]表示X_j的均值，E[X_j]等于候选项A_j的积分W_R(j)的无偏估计量。X_j＝f([A_j∈Z])，X_j表示候选项A_j对应的投票偏好数据的无偏估计数据，预设函数f可以是一个线性变换，例如，预设函数f可以用公式四来表达，公式四为：

f([A_j∈Z])＝a·[A_j∈Z]+c；

其中，参数a可以用公式五计算得出，公式五为：

其中，W_i表示偏好顺序排第i个的候选项得到的分数(积分)，d表示d个候选项，d为大于等于1的正整数，W₁表示排第一位的候选项的分数(积分)，W_d表示排第d位的候选项的分数(积分)，exp(ε)表示e的ε次方，ε为大于零的实数。

其中，参数c可以用公式六计算得出，公式六为：

其中，d表示d个候选项，d为大于等于1的正整数，W₁表示排第一位的候选项的分数(积分)，W_d表示排第d位的候选项的分数(积分)，exp(ε)表示e的ε次方，ε为大于零的实数。

其中，所述目标对象的投票偏好数据的无偏估计数据包括多个候选项对应的投票偏好数据的无偏估计数据，投票偏好数据的无偏估计数据X的表达式可以为：X＝{X₁，X₂，……，X_d}，其中，X₁表示候选项A₁对应的投票偏好数据的无偏估计数据，X₂表示候选项A₂对应的投票偏好数据的无偏估计数据，X_d表示候选项A_d对应的投票偏好数据的无偏估计数据。

步骤104，将所述目标对象的投票偏好数据的无偏估计数据发送给服务器，以便所述服务器获取决策数据。

例如，将目标对象的投票偏好数据的无偏估计数据X发送至作为数据收集方的服务器中，以便所述服务器获取决策数据。

所述目标对象的投票偏好数据的无偏估计数据X是具有隐私保护的数据。

在一些实施例中，生成所述目标对象的投票偏好数据的无偏估计数据X的步骤也可以在服务器端执行。具体的，终端设备获取到满足本地差分隐私机制的扰动数据集合Z之后，直接把所述扰动数据集合Z发送至服务器端进行数据分析和处理。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

请参阅图4至图6，图4为本申请实施例提供的一种数据获取方法的流程示意图，图5为本申请实施例提供的一种数据获取方法的试验结果示意图，图6为本申请实施例提供的一种数据获取方法的另一试验结果示意图。所述方法适用于服务器，所述方法包括：

步骤201，接收终端发送的目标对象的投票偏好数据的无偏估计数据，所述投票偏好数据的无偏估计数据由所述终端对投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，并对所述扰动数据集合进行转化后得到。

例如，服务器收集终端发送的用户k的投票偏好数据的无偏估计数据X^(k)。例如，可以在预设时间间隔内触发收集指令，以便可以及时接收到终端的发送数据请求。例如，服务器可以先向终端发送收集数据的请求，以指示终端按要求收集具有隐私保护的投票偏好数据的无偏估计数据，随后服务器会接收到终端发送的目标对象的投票偏好数据的无偏估计数据。

步骤202，根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间。

在一些实施例中，所述根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，包括：

将所述投票偏好数据中同一个候选项对应的投票偏好数据的无偏估计数据进行累加，以得到所述每个候选项的投票积分无偏估计量；

根据所述投票积分无偏估计量的方差，计算所述置信区间。

其中，对于作为目标对象的所有个体或机构，分别对每个候选项A_j计算对应的投票积分无偏估计量以作为真实积分P_j的无偏估计。

其中，通过将所述投票偏好数据中同一个候选项A_j对应的投票偏好数据的无偏估计数据进行累加，得到每个候选项A_j的投票积分无偏估计量/> 可以用公式七表示，公式七为：

其中，表示第k个个体或机构发布的投票偏好数据中候选项A_j的积分，即为终端发送至服务器的第k个个体或机构对应的候选项A_j的投票偏好数据的无偏估计数据/>n表示用户的数量，n为大于等于1的正整数。

候选项A_j的真实积分P_j可以用公式八表示，候选项A_j的真实积分P_j即为候选项A_j的投票积分的数学期望值，公式八为：

其中，表示第k个个体或机构真实的投票偏好数据中候选项A_j的积分，n表示用户的数量，n为大于等于1的正整数。

可以根据所述投票积分无偏估计量的方差，计算所述置信区间。

具体的，可以根据每个候选项的真实积分以及所述投票积分无偏估计量的方差，计算所述置信区间。

其中，根据公式九计算每个候选项A_j的投票积分无偏估计量的方差，公式九为：

其中，为候选项A_j的投票积分无偏估计量，P_j为候选项A_j的真实积分，n表示投票的数量或者用户的数量，n为大于等于1的正整数。

在一些实施例中，将所述投票积分无偏估计量的方差输入切比雪夫不等式中进行计算，以得到所述置信区间。

设随机变量Y的数学期望值E(Y)＝μ，方差D(Y)＝σ²，则对任意的正数λ，不等式二成立，不等式二表示切比雪夫不等式，不等式二为：

不等式二还可以变换为不等式三，不等式三为：

其中，随机变量Y可以表示任意一次随机进行的投票结果，候选项A_j的投票积分的数学期望值μ表示候选项A_j的真实积分P_j，方差σ²表示候选项A_j的投票积分无偏估计量的方差/>任意的正数λ表示投票积分无偏估计量/>与真实积分P_j之差的绝对值。

其中，置信区间是衡量结果可靠程度的参考，不等式三中的表示置信度。

步骤203，根据所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，生成投票决策。

具体的，在所述置信区间限定范围内，将所述投票偏好数据中投票积分无偏估计量的数值最大的候选项确定为获胜的候选项。

本申请实施例的计算通信开销小，本申请实施例在个体客户端侧或者终端侧仅有Θ(d)线性计算代价，在作为数据收集方的服务器仅有Θ(n·d)的复杂度，其中d为候选集大小，n为个体/机构数量。实验结果表明，当d＝32时，在台式机上，单个个体所需的计算时间小于0.1ms，收集方聚合1000个个体投票偏好数据的无偏估计数据所需的时间仅为约20ms。

本申请实施例的决策有效性高，本申请实施例得到的候选项的投票积分是无偏估计量，且其方差较小，可以得到较细致的置信区间。

如图5及图6所示，图5表示通过Borda投票规则聚合1000个个体或者机构的总变差误差比较图，部分(a)、(b)、(c)和(d)分别展示了候选项为d＝4、d＝8、d＝1和d＝32时的实验结果，其中纵坐标为总变差对数(log(errTV E))，横坐标为隐私等级ε(privacy levelε)，图中示出四个不同方法对应的曲线，曲线1表示拉普拉斯(Laplace)方法对应的曲线，曲线2表示原始采样(Naive Sampling)方法对应的曲线，曲线3表示加权采样(WeightedSampling)方法对应的曲线，曲线4表示加法(Additive)方法对应的曲线。图6表示通过Borda投票规则聚合1000个个体或机构的Top-1准确率比较图，部分(a)、(b)、(c)和(d)分别展示了候选项为d＝4、d＝8、d＝16和d＝32时的实验结果，其中纵坐标为获胜候选项的准确率(accuracy AOW)，横坐标为隐私等级ε(privacy levelε)，图中示出四个不同方法对应的曲线，曲线1表示拉普拉斯(Laplace)方法对应的曲线，曲线2表示原始采样(NaiveSampling)方法对应的曲线，曲线3表示加权采样(Weighted Sampling)方法对应的曲线，曲线4表示加法(Additive)方法对应的曲线。标记本申请实施例描述方案中的方法为Additive方法，实验结果表明，当d＝16时，在相同的隐私保护等级下(ε＝1时)，总变差相较Laplace方法降低了约50％，排第一位(Top-1)的候选项的准确率由60％提高到了80％。其中，总变差越小说明实验结果的误差越小，准确率越高说明实验结果的准确度越高。

本申请实施例通过接收终端发送的目标对象的投票偏好数据的无偏估计数据，所述投票偏好数据的无偏估计数据由所述终端对投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，并对所述扰动数据集合进行转化后得到；根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间；根据所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，生成投票决策。本申请实施例具有适用范围广(任意投票规则)、计算开销小(线性复杂度低)、非交互(单次数据通信即可完成投票偏好数据的提交)、有效性高(投票积分聚合误差小)的特点，可以适用于大规模分布式网络、低资源终端环境下的投票偏好数据聚合。

本申请实施例还提供一种数据生成装置，如图7所示，图7为本申请实施例提供的一种数据生成装置的结构示意图。所述数据生成装置300适用于终端，所述数据生成装置300可以包括获取单元301，扰动单元302，转化单元303以及发送单元304。

其中，所述获取单元301，用于获取目标对象的投票偏好数据；

所述扰动单元302，用于对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合；

所述转化单元303，用于使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据；

所述发送单元304，用于将所述目标对象的投票偏好数据的无偏估计数据发送给服务器，以便所述服务器获取决策数据。

在一些实施例中，所述获取单元301包括：

采集子单元3011，用于采集目标对象的候选集，其中所述候选集包括多个候选项；

确定子单元3012，用于根据所述候选集中所有候选项的偏好顺序，确定所述目标对象的投票偏好数据。

在一些实施例中，所述候选集的多个候选项中每一候选项对应的所述投票偏好数据的无偏估计数据的均值，等于所述投票偏好数据中对应候选项的积分无偏估计量。

在一些实施例中，所述投票偏好数据包括目标对象的类别数据、集合数据及偏好数据中的任一种。

本申请实施例提供的数据生成装置300，通过获取单元301获取目标对象的投票偏好数据；扰动单元302对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合；转化单元303使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据；发送单元304将所述目标对象的投票偏好数据的无偏估计数据发送给服务器，以便所述服务器获取决策数据。本申请实施例具有适用范围广、计算开销小、非交互、有效性高的特点，可以适用于大规模分布式网络、低资源终端环境下的投票偏好数据聚合。

本申请实施例还提供一种数据生成装置，如图8所示，图8为本申请实施例提供的一种数据获取装置的结构示意图。所述数据获取装置400适用于服务器，所述数据获取装置400可以包括接收单元401，计算单元402，以及决策单元403。

其中，所述接收单元401，用于接收终端发送的目标对象的投票偏好数据的无偏估计数据，所述投票偏好数据的无偏估计数据由所述终端对投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，并对所述扰动数据集合进行转化后得到；

所述计算单元402，用于根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间；

所述决策单元403，用于根据所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，生成投票决策。

在一些实施例中，所述计算单元402包括：

第一计算子单元4021，用于将所述投票偏好数据中同一个候选项对应的投票偏好数据的无偏估计数据进行累加，以得到所述每个候选项的投票积分无偏估计量；

第二计算子单元4022，用于根据所述投票积分无偏估计量的方差，计算所述置信区间。

在一些实施例中，所述第二计算子单元4022，用于将所述投票积分无偏估计量的方差输入切比雪夫不等式中进行计算，以得到所述置信区间。

在一些实施例中，所述决策单元403，用于在所述置信区间限定范围内，将所述投票偏好数据中投票积分无偏估计量的数值最大的候选项确定为获胜的候选项。

本申请实施例提供的数据获取装置400，通过接收单元401接收终端发送的目标对象的投票偏好数据的无偏估计数据，所述投票偏好数据的无偏估计数据由所述终端对投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，并对所述扰动数据集合进行转化后得到；计算单元402根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间；决策单元403根据所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，生成投票决策。本申请实施例具有适用范围广、计算开销小、非交互、有效性高的特点，可以适用于大规模分布式网络、低资源终端环境下的投票偏好数据聚合。

相应的，本申请实施例还提供一种终端，如图9所示，该终端可以包括射频(RF，Radio Frequency)电路501、包括有一个或一个以上计算机可读存储介质的存储器502、输入单元503、显示单元504、传感器505、音频电路506、无线保真(WiFi，Wireless Fidelity)模块507、包括有一个或者一个以上处理核心的处理器508、以及电源509等部件。本领域技术人员可以理解，图7中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路501可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器508处理；另外，将涉及上行的数据发送给基站。通常，RF电路501包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路501还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器502可用于存储软件程序以及模块，处理器508通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器508和输入单元503对存储器502的访问。

输入单元503可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元503可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器508，并能接收处理器508发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元503还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元504可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元504可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器508以确定触摸事件的类型，随后处理器508根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图9中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路506、扬声器，传声器可提供用户与终端之间的音频接口。音频电路506可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路506接收后转换为音频数据，再将音频数据输出处理器508处理后，经RF电路501以发送给比如另一终端，或者将音频数据输出至存储器502以便进一步处理。音频电路506还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块507，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器508是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行终端的各种功能和处理数据，从而对手机进行整体处理。可选的，处理器508可包括一个或多个处理核心；优选的，处理器508可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器508中。

终端还包括给各个部件供电的电源509(比如电池)，优选的，电源可以通过电源管理系统与处理器508逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源509还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器508会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器508来运行存储在存储器502中的应用程序，从而实现各种功能：

获取目标对象的投票偏好数据；对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合；使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据；将所述目标对象的投票偏好数据的无偏估计数据发送给服务器，以便所述服务器获取决策数据。

在一些实施例中，处理器508用于所述获取目标对象的投票偏好数据，包括：

采集目标对象的候选集，其中所述候选集包括多个候选项；

以上操作具体可参见前面的实施例，在此不作赘述。

由上可知，本实施例提供的终端，获取目标对象的投票偏好数据；对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合；使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据；将所述目标对象的投票偏好数据的无偏估计数据发送给服务器，以便所述服务器获取决策数据。本申请实施例具有适用范围广、计算开销小、非交互、有效性高的特点，可以适用于大规模分布式网络、低资源终端环境下的投票偏好数据聚合。

本申请实施例还提供一种服务器，如图10所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图10中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体处理。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

服务器还包括给各个部件供电的电源603，优选的，电源603可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

接收终端发送的目标对象的投票偏好数据的无偏估计数据，所述投票偏好数据的无偏估计数据由所述终端对投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，并对所述扰动数据集合进行转化后得到；根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间；根据所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，生成投票决策。

在一些实施例中，处理器601用于所述根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，包括：

根据所述投票积分无偏估计量的方差，计算所述置信区间。

在一些实施例中，处理器601用于所述根据所述投票积分无偏估计量的方差，计算所述置信区间，包括：

将所述投票积分无偏估计量的方差输入切比雪夫不等式中进行计算，以得到所述置信区间。

在一些实施例中，处理器601用于所述根据所述中每个候选项的投票积分无偏估计量和置信区间，生成投票决策，包括：

在所述置信区间限定范围内，将所述投票偏好数据中投票积分无偏估计量的数值最大的候选项确定为获胜的候选项。

以上操作具体可参见前面的实施例，在此不作赘述。

由上可知，本实施例提供的服务器，接收终端发送的目标对象的投票偏好数据的无偏估计数据，所述投票偏好数据的无偏估计数据由所述终端对投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，并对所述扰动数据集合进行转化后得到；根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间；根据所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，生成投票决策。本申请实施例具有适用范围广(任意投票规则)、计算开销小(线性复杂度低)、非交互(单次数据通信即可完成投票偏好数据的提交)、有效性高(投票积分聚合误差小)的特点，可以适用于大规模分布式网络、低资源终端环境下的投票偏好数据聚合。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种数据生成方法中的步骤，或者以执行本申请实施例所提供的任一种数据获取方法中的步骤。例如，该指令可以执行如下步骤：

例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种数据生成方法或者数据获取方法中的步骤，因此，可以实现本申请实施例所提供的任一种数据生成方法或者数据获取方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种数据生成、获取方法及对应的装置、存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据生成方法，适用于终端，其特征在于，所述方法包括：

采集目标对象的候选集，所述候选集包括多个候选项；

基于所述目标对象的所述候选集，获取目标对象的投票偏好数据；

对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，所述扰动数据集合为所述候选集的子集；

若所述候选项在所述扰动数据集合中进行转化，使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据；

2.如权利要求1所述的数据生成方法，其特征在于，所述获取目标对象的投票偏好数据，包括：

采集目标对象的候选集，其中所述候选集包括多个候选项；

3.如权利要求2所述的数据生成方法，其特征在于，所述候选集的多个候选项中每一候选项对应的所述投票偏好数据的无偏估计数据的均值，等于所述投票偏好数据中对应候选项的积分无偏估计量。

4.一种数据获取方法，适用于服务器，其特征在于，所述方法包括：

接收终端发送的目标对象的投票偏好数据的无偏估计数据，所述投票偏好数据的无偏估计数据由所述终端对投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，并对所述扰动数据集合进行转化后得到，所述无偏估计数据是采用如权利要求1所述的方法得到的；

5.如权利要求4所述的数据获取方法，其特征在于，所述根据所述投票偏好数据的无偏估计数据，计算所述投票偏好数据中每个候选项的投票积分无偏估计量和置信区间，包括：

根据所述投票积分无偏估计量的方差，计算所述置信区间。

6.如权利要求5所述的数据获取方法，其特征在于，所述根据所述投票积分无偏估计量的方差，计算所述置信区间，包括：

7.如权利要求4所述的数据获取方法，其特征在于，所述根据所述中每个候选项的投票积分无偏估计量和置信区间，生成投票决策，包括：

8.一种数据生成装置，适用于终端，其特征在于，所述装置包括：

获取单元，用于采集目标对象的候选集，所述候选集包括多个候选项；基于所述目标对象的所述候选集，获取目标对象的投票偏好数据；

扰动单元，用于对所述投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，所述扰动数据集合为所述候选集的子集；

转化单元，用于若所述候选项在所述扰动数据集合中进行转化，使用预设函数对所述扰动数据集合进行转化，以生成所述目标对象的投票偏好数据的无偏估计数据；

9.一种数据获取装置，适用于服务器，其特征在于，所述装置包括：

接收单元，用于接收终端发送的目标对象的投票偏好数据的无偏估计数据，所述投票偏好数据的无偏估计数据由所述终端对投票偏好数据进行随机扰动，以输出满足本地差分隐私机制的扰动数据集合，并对所述扰动数据集合进行转化后得到，所述无偏估计数据是采用如权利要求1所述的方法得到的；

10.一种存储介质，其特征在于，所述存储介质存储有指令，所述指令适于处理器进行加载，以执行如权利要求1-3任一项所述的数据生成方法中的步骤、或者执行如权利要求4-7任一项所述的数据获取方法中的步骤。