Nothing Special   »   [go: up one dir, main page]

CN108280766B - 交易行为风险识别方法及装置 - Google Patents

交易行为风险识别方法及装置 Download PDF

Info

Publication number
CN108280766B
CN108280766B CN201710009840.8A CN201710009840A CN108280766B CN 108280766 B CN108280766 B CN 108280766B CN 201710009840 A CN201710009840 A CN 201710009840A CN 108280766 B CN108280766 B CN 108280766B
Authority
CN
China
Prior art keywords
word
user
behavior
determining
word set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710009840.8A
Other languages
English (en)
Other versions
CN108280766A (zh
Inventor
郑霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201710009840.8A priority Critical patent/CN108280766B/zh
Publication of CN108280766A publication Critical patent/CN108280766A/zh
Application granted granted Critical
Publication of CN108280766B publication Critical patent/CN108280766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及一种交易行为风险识别方法及装置,在一种交易行为风险识别方法中,获取用户的当前交易行为的行为数据,并从行为数据中提取关键文本。对关键文本进行预处理,得到用户对应的第一词语集合。根据预设的词语集合中各个词语以及对应的权重值,确定第一词语集合中各个词语的权重值。根据第一词语集合中各个词语的权重值以及预设的词语集合中各个词语的权重值,确定用户的当前交易行为与历史交易行为之间的偏移度;根据偏移度,对用户的当前交易行为进行风险识别。由此,可以提高交易行为风险识别的准确性。

Description

交易行为风险识别方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种交易行为风险识别方法及装置。
背景技术
传统技术中,一般通过如下两种方法来对用户的交易行为进行风险识别:
第一种方法是,基于个体行为参照的方法,即通过分析用户历史的交易行为的设备环境信息,如,用户过去常用的设备、无线网络(如,wifi)、IP地址、用户过去的实物交易笔数、虚拟交易笔数或者用户过去支付资金来源于余额、银行卡以及余额宝的比例等,来对用户当前的交易行为进行风险识别。如,当用户当前的交易行为的设备与用户过去常用的设备不一致时,也即当用户当前的交易行为的设备不是常用设备时,将该交易行为识别为有风险的交易行为。然而,该方法过于依赖用户的设备环境信息,如,当用户更换设备或者工作生活城市时,用户的设备环境信息会发生变化,上述方法会将用户的交易行为识别为有风险的交易行为,而事实上,该交易行为是安全的交易行为。由此可见,根据第一种方法,对用户的交易行为进行风险识别是不准确的。
第二种方法是,基于群体行为参照的方法,即通过分析用户所在群体的行为特征,如,交易地点,交易时间,交易金额等,来对用户的交易行为进行风险识别。当用户的交易行为与其所在群体的行为特征不一致时,将该交易行为识别为有风险的交易行为。举例来说,假设用户所在群体为学生,该群体的行为特征包括:交易金额比较小且交易时间比较规律,一般集中在周末的白天。如果用户交易行为的交易金额巨大,且交易时间为上学时间时,将该用户的交易行为识别为有风险的交易行为。然而,该方法要求将用户划分到准确的群体中,且需要枚举出群体所有的行为特征。一旦用户被划分到错误的群体中,或者用户的交易行为为未被枚举到的行为特征时,则会误将安全的交易行为识别为有风险的交易行为,从而影响了用户的体验。
发明内容
本申请描述了一种交易行为风险识别方法及装置,可以提高交易行为风险识别的准确性。
第一方面,提供了一种交易行为风险识别方法,包括:
获取用户的当前交易行为的行为数据;
从所述行为数据中提取关键文本;
对所述关键文本进行预处理,得到所述用户对应的第一词语集合;
根据预设的词语集合中各个词语以及对应的权重值,确定所述第一词语集合中各个词语的权重值,其中,所述预设的词语集合是根据所述用户的历史交易行为的行为数据得到的;
根据所述第一词语集合中各个词语的权重值以及预设的词语集合中各个词语的权重值,确定所述用户的当前交易行为与历史交易行为之间的偏移度;
根据所述偏移度,对所述用户的当前交易行为进行风险识别。
第二方面,提供了一种交易行为风险识别装置,包括:
获取单元,用于获取用户的当前交易行为的行为数据;
提取单元,用于从所述获取单元获取的所述行为数据中提取关键文本;
预处理单元,用于对所述提取单元提取的所述关键文本进行预处理,得到所述用户对应的第一词语集合;
确定单元,用于根据预设的词语集合中各个词语以及对应的权重值,确定所述第一词语集合中各个词语的权重值,其中,所述预设的词语集合是根据所述用户的历史交易行为的行为数据得到的;
所述确定单元,还用于根据所述第一词语集合中各个词语的权重值以及预设的词语集合中各个词语的权重值,确定所述用户的当前交易行为与历史交易行为之间的偏移度;
识别单元,用于根据所述确定单元确定的所述偏移度,对所述用户的当前交易行为进行风险识别。
本申请提供的交易行为风险识别方法及装置,获取用户的当前交易行为的行为数据,并从行为数据中提取关键文本。对关键文本进行预处理,得到用户对应的第一词语集合。根据预设的词语集合中各个词语以及对应的权重值,确定第一词语集合中各个词语的权重值。根据第一词语集合中各个词语的权重值以及预设的词语集合中各个词语的权重值,确定用户的当前交易行为与历史交易行为之间的偏移度;根据偏移度,对用户的当前交易行为进行风险识别。也即本申请是根据用户的当前交易行为与历史交易行为之间的偏移度,来对用户的交易行为进行风险识别,在偏移度不符合要求时,才将用户的交易行为识别为有风险的交易行为。由此,可以提高交易行为风险识别的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请提供的交易行为风险识别方法的应用场景示意图;
图2为本申请一种实施例提供的交易行为风险识别方法流程图;
图3为本申请提供的偏移度的示意图;
图4为本申请另一种实施例提供的交易行为风险识别装置示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
本申请提供的交易行为风险识别方法可以应用于如图1所示的场景中,图1中,可以向交易行为偏移度计算模块中输入多个用户的当前交易行为的行为数据,以输入一个用户的当前交易行为的行为数据为例来说,交易行为偏移度计算模块可以预先搜集该用户历史购买商品的行为习惯,如,可以搜集该用户的历史交易行为的行为数据。之后,可以根据当前交易行为的行为数据和历史交易行为的行为数据,计算用户的当前交易行为的偏移度。最后,将用户的当前交易行为的偏移度输入到风险识别模块中,由风险识别模块根据该偏移度、该偏移度与基于个体行为参照的方法或者该偏移度与基于群体行为参照的方法,来对用户的当前交易行为的风险进行识别。
需要说明的是,图1中,当用户的交易行为为用户购买商品的购买行为(也即支付行为)时,上述行为数据可以包括用户当前所购买商品的商品标题、交易时间以及交易金额等信息,其中,商品标题可以包括商品的商品名称和/或商品类目等。
图2为本申请一种实施例提供的交易行为风险识别方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置,如图2所示,所述方法具体可以包括:
步骤210,获取用户的当前交易行为的行为数据。
此处,当用户的当前交易行为为用户购买商品的购买行为时,在用户在购物网站上下单并通过第三方支付系统请求支付时,服务器就可以获取到上述行为数据。该行为数据可以包括:用户当前所购买商品的商品标题、交易时间以及交易金额等信息,其中,商品标题可以包括商品的商品名称和/或商品类目等。当然,在实际应用中,商品类目也可以不包含在商品标题中。
步骤220,从行为数据中提取关键文本。
此处的关键文本可以包括购买的商品信息,如,商品的商品标题,或者,在商品标题中不包括商品类目时,上述商品信息也可以为商品类目。在本申请中,以关键文本为商品的商品标题为例来说。
步骤230,对关键文本进行预处理,得到用户对应的第一词语集合。
此处,对关键文本进行预处理可以包括:对关键文本进行分词处理和/或去除停用词和/或去除特殊字符等,其中,特殊字符可以包括:数字、英文字符以及标点符号等。由于上述行分词处理、去除停用词以及去除特殊字符的处理过程属于传统常规技术,本申请在此不复赘述。
以关键文本为“网易一卡通30元卡密/梦幻西游30元点卡克寄售网易官方卡密自动”为例来说,得到的第一词语集合可以为:W={“网易”、“一卡通”、“梦幻西游”、“点卡”、“寄售”、“网易”、“官方”、“卡密”、“自动”}。
步骤240,根据预设的词语集合中各个词语以及对应的权重值,确定第一词语集合中各个词语的权重值。
其中,上述预设的词语集合可以是根据用户的历史交易行为的行为数据得到的。需要说明的是,当用户的历史交易行为为用户历史购买商品的购买行为时,可以由服务器或者人工从第三方支付系统的数据库中获取用户的历史交易行为的行为数据。当获取的行为数据为多个时,该多个行为数据构成预设的预料库。此处,预设的预料库中的行为数据可以包括:用户历史所购买商品的商品标题、交易时间以及交易金额等信息。
在一种实现方式中,根据用户的历史交易行为的行为数据得到预设的词语集合的过程可以为:从历史交易行为的行为数据中提取关键文本(如,商品标题),对关键文本进行预处理,得到预设的词语集合。此处,从历史交易行为的行为数据中提取关键文本,以及对关键文本进行预处理的过程可以参照上述步骤120-步骤130所述,在此不复赘述。
在一个例子中,获得的预设的词语集合中各个词语可以如表1所示。
表1
Figure BDA0001204373050000061
表1中,第一列的商品标题可以是从用户的历史交易行为的行为数据中提取的关键文本。第二列的词语可以是在对行为数据的关键文本进行预处理后得到的。可以理解的是,表1中第二列的所有词语构成预设的词语集合。
在获得预设的词语集合之后,可以通过如下步骤来确定预设的词语集合中各个词语的权重值:
步骤A:获取与用户相关联的至少一个其它用户的历史交易行为的行为数据。
此处的其它用户可以是指与上述用户属于同一群体(如,学生)的用户。在其它用户的历史交易行为为购买商品的购买行为时,可以由服务器或者人工从第三方支付系统的数据库中获取其它用户的历史交易行为的行为数据。
步骤B:根据各个其它用户的历史交易行为的行为数据,确定各个其它用户对应的词语集合。
同样地,可以从其它用户的历史交易行为的行为数据中提取关键文本,并对该关键文本进行预处理,得到各个其它用户对应的词语集合。
步骤C:对预设的词语集合中的每个词语,确定该词语在预设的词语集合中出现的次数。
以词语“梦幻西游”,且预设的词语集合为表1为例来说,该词语在表1的第二列中出现两次,也即该词语在预设的词语集合中出现的次数为:2次。
步骤D:统计预设的词语集合中所包含词语的个数。
如前述例子,预设的词语集合中所包含的词语的个数为:24个。
步骤E:根据各个其它用户对应的词语集合是否包含该词语,从各个其它用户中选取目标用户。
如前述例子,假设其它用户的个数为4,也即总用户数为5。且上述词语在4个其它用户中1个其它用户对应的词语集合中出现过,则目标用户为该1个其它用户。
步骤F:根据次数、词语的个数、总用户数以及目标用户的个数,确定该词语的权重值。
在一种实现方式中,可以根据公式1,来确定该词语的权重值。
Figure BDA0001204373050000071
其中,w为预设的词语集合中的任一词语,Countw为词语w在预设的词语集合中出现的次数,Count为预设的词语集合中所包含的词语的个数,N为总用户数(即:其它用户数+1),nw为目标用户的个数。如前述例子,公式1可以为:
Figure BDA0001204373050000072
此外,公式1中,
Figure BDA0001204373050000073
可以理解为词语w的词频(term frequency,TF),而
Figure BDA0001204373050000074
可以理解为词语w的逆文档频率(inverse document frequency,IDF),也即上述公式1也可以表示为:weightw=TF*IDF。
需要说明的是,根据步骤C-步骤F可以确定出预设的词语集合中每个词语的权重值。
在确定预设的词语集合中各个词语以及对应的权重值之后,可以将各个词语以及对应的权重值表示为:S1={w1:weight1,w2:weight2,…,wm:weightm},其中,m为预设的词语集合中所包含词语的个数。
需要说明的是,本申请在确定预设的词语集合中各个词语的权重值时,还考虑其它用户对应的词语集合中的词语,是因为如果一个词语在所有用户对应的词语集合中普遍出现时,说明该词语对该用户不重要,所以应该降低其权重值。由此可以看出,本申请的交易行为风险识别方法更具有个性化。
回到步骤240中,步骤240具体可以为:对第一词语集合中的每个词语,将该词语与预设的词语集合中的各个词语进行比对,若与预设的词语集合任一词语比对一致,则将任一词语对应的权重值确定为该词语的权重值;否则将预设数值确定为该词语的权重值。
举例来说,假设第一词语集合C={c1,c2,…,cn},其中,n为第一词语集合中所包含词语的个数。且预设的词语集合中各个词语及对应的权重值表示为:S1={w1:weight1,w2:weight2,…,wm:weightm}。以确定第一词语集合中词语c1的权重值为例来说,其过程可以为:将c1依次与w1,w2,…,wm进行比对,若与w2比对一致,则将weight2确定为c1的权重值wei1;若c1与w1,w2,…,wm均比对不一致,则可以将0确定为c1的权重值。根据词语c1的权重值的确定方法,可以依次确定词语c2,…,cn的权重值。之后可以将第一词语集合中各个词语及对应的权重值表示为S2={c1:wei1,c2:wei2,…,cn:wein}。
步骤250,根据第一词语集合中各个词语的权重值以及预设的词语集合中各个词语的权重值,确定用户的当前交易行为与历史交易行为之间的偏移度。
其中,步骤250具体可以包括:根据第一词语集合中各个词语的权重值,将用户的当前交易行为的行为数据表示为向量空间中的第一向量;根据预设的词语集合中各个词语的权重值,将用户的历史交易行为的行为数据表示为向量空间中的第二向量;确定第一向量与第二向量之间的夹角;将该夹角确定为用户的当前交易行为与历史交易行为之间的偏移度。
举例来说,根据S2={c1:wei1,c2:wei2,…,cn:wein},可以将用户的当前交易行为表示为图3的向量空间中的向量
Figure BDA0001204373050000081
根据S1={w1:weight1,w2:weight2,…,wm:weightm},可以将用户的历史交易行为的行为数据表示为图3的向量空间中的向量
Figure BDA0001204373050000094
此处,将具有多个数值的词语集合表示为向量空间中的向量属于传统常规技术,在此不复赘述。
图3中,当向量
Figure BDA0001204373050000095
和向量
Figure BDA0001204373050000096
分别用于表示用户的当前交易行为的行为数据和历史交易行为的行为数据时,夹角θ可以表示用户的当前交易行为与历史交易行为之间的偏移度。在一种实现方式中,可以根据第一向量与第二向量之间的余弦距离,确定夹角θ,如,夹角θ可以通过公式2进行计算。
Figure BDA0001204373050000091
其中,θ为第一向量与第二向量之间的夹角,
Figure BDA0001204373050000092
为第一向量,
Figure BDA0001204373050000093
为第二向量。
步骤260,根据偏移度,对用户的当前交易行为进行风险识别。
在确定出用户的当前交易行为与历史交易行为之间的偏移度之后,可以将该偏移度作为变量输入到风险识别模块中,从而由风险识别模块根据该偏移度、该偏移度与基于个体行为参照的方法或者该偏移度与基于群体行为参照的方法,来对用户的当前交易行为进行风险识别。
其中,根据偏移度,来对用户的当前交易行为进行风险识别的过程可以为:若偏移度低,则可以将用户的当前交易行为识别为安全的交易行为;若偏移度高,则可以将用户的当前交易行为识别有风险的交易行为。
可以理解的是,在个体行为参照的方法中加入用户所购买商品的商品标题这类非结构化信息,可以丰富判断的维度,即使用户的设备环境信息等会发生变化,但是兴趣爱好和购买商品的行为习惯不会有太大变化,因此,可以准确地对用户的交易行为进行风险识别。举例来说,当用户当前的交易行为的设备环境信息发生变化时,如果用户购买的还是一直以来频繁购买的商品,符合其购买商品的行为习惯,也即偏移度低,从而可以对基于个体行为参照的方法进行一定程度的修正。
与上述交易行为风险识别方法对应地,本申请实施例还提供的一种交易行为风险识别装置,如图4所示,该装置包括:
获取单元401,用于获取用户的当前交易行为的行为数据。
提取单元402,用于从获取单元401获取的行为数据中提取关键文本。
预处理单元403,用于对提取单元402提取的关键文本进行预处理,得到用户对应的第一词语集合。
确定单元404,用于根据预设的词语集合中各个词语以及对应的权重值,确定第一词语集合中各个词语的权重值,其中,预设的词语集合是根据用户的历史交易行为的行为数据得到的。
确定单元404,还用于根据第一词语集合中各个词语的权重值以及预设的词语集合中各个词语的权重值,确定用户的当前交易行为与历史交易行为之间的偏移度。
识别单元405,用于根据确定单元404确定的偏移度,对用户的当前交易行为进行风险识别。
也即,上述获取单元401、提取单元402、预处理单元403以及确定单元404可以用于实现图1中交易行为偏移度计算模块的功能,而识别单元405可以用于实现图1中风险识别模块的功能。
可选地,确定单元404具体可以用于:
获取与用户相关联的至少一个其它用户的历史交易行为的行为数据;
根据各个其它用户的历史交易行为的行为数据,确定各个其它用户对应的词语集合;
对预设的词语集合中的每个词语,确定词语在预设的词语集合中出现的次数;
统计预设的词语集合中所包含词语的个数;
根据各个其它用户对应的词语集合是否包含词语,从各个其它用户中选取目标用户;
根据次数、词语的个数、总用户数以及目标用户的个数,确定词语的权重值。
可选地,确定单元404还具体可以用于:
对第一词语集合中的每个词语,将词语与预设的词语集合中的各个词语进行比对,若与预设的词语集合任一词语比对一致,则将任一词语对应的权重值确定为词语的权重值;否则将预设数值确定为词语的权重值。
在一个例子中,上述预设阈值可以为0。
可选地,确定单元404还可以具体用于:
根据第一词语集合中各个词语的权重值,将用户的当前交易行为的行为数据表示为向量空间中的第一向量;
根据预设的词语集合中各个词语的权重值,将用户的历史交易行为的行为数据表示为向量空间中的第二向量;
确定第一向量与第二向量之间的夹角;
将夹角确定为用户的当前交易行为与历史交易行为之间的偏移度。
其中,确定第一向量与第二向量之间的夹角,包括:
计算第一向量与第二向量之间的余弦距离;
根据余弦距离,确定夹角。
本申请实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本申请提供的装置的具体工作过程,在此不复赘述。
本申请提供的交易行为风险识别装置,获取单元401获取用户的当前交易行为的行为数据。提取单元402从第一行为数据中提取关键文本。预处理单元403对关键文本进行预处理,得到用户对应的第一词语集合。确定单元404根据预设的词语集合中各个词语以及对应的权重值,确定第一词语集合中各个词语的权重值。确定单元404根据第一词语集合中各个词语的权重值以及预设的词语集合中各个词语的权重值,确定用户的当前交易行为与历史交易行为之间的偏移度。识别单元405根据偏移度,对用户的当前交易行为进行风险识别。由此,可以提高交易行为风险识别的准确性。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (12)

1.一种交易行为风险识别方法,其特征在于,包括:
获取用户的当前交易行为的行为数据;
从所述行为数据中提取关键文本;所述关键文本包括商品标题;
对所述关键文本进行预处理,得到所述用户对应的第一词语集合;
根据预设的词语集合中各个词语以及对应的权重值,确定所述第一词语集合中各个词语的权重值,其中,所述预设的词语集合是根据所述用户的历史交易行为的行为数据得到的;
根据所述第一词语集合中各个词语的权重值以及预设的词语集合中各个词语的权重值,确定所述用户的当前交易行为与历史交易行为之间的偏移度;
根据所述偏移度与基于个体行为参照的方法,对所述用户的当前交易行为进行风险识别;
所述预设的词语集合中各个词语对应的权重值通过以下步骤确定:
获取与所述用户相关联的至少一个其它用户的历史交易行为的行为数据,并基于其确定所述各个其它用户对应的词语集合;
对于所述预设的词语集合中的每个词语,根据所述各个其它用户对应的词语集合是否包含所述词语,从所述各个其它用户中选取对应的目标用户;
根据所述预设的词语集合中的每个词语出现的次数、所述预设的词语集合中所包含词语的个数、总用户数以及对应目标用户的个数,确定所述词语的权重值。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的词语集合中各个词语以及对应的权重值,确定所述第一词语集合中各个词语的权重值,包括:
对所述第一词语集合中的每个词语,将所述词语与预设的词语集合中的各个词语进行比对,若与所述预设的词语集合任一词语比对一致,则将所述任一词语对应的权重值确定为所述词语的权重值;否则将预设数值确定为所述词语的权重值。
3.根据权利要求2所述的方法,其特征在于,所述预设数值为0。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一词语集合中各个词语的权重值以及预设的词语集合中各个词语的权重值,确定所述用户的当前交易行为与历史交易行为之间的偏移度,包括:
根据所述第一词语集合中各个词语的权重值,将所述用户的当前交易行为的行为数据表示为向量空间中的第一向量;
根据所述预设的词语集合中各个词语的权重值,将所述用户的历史交易行为的行为数据表示为所述向量空间中的第二向量;
确定所述第一向量与所述第二向量之间的夹角;
将所述夹角确定为所述用户的当前交易行为与历史交易行为之间的偏移度。
5.根据权利要求4所述的方法,其特征在于,所述确定所述第一向量与所述第二向量之间的夹角,包括:
计算所述第一向量与所述第二向量之间的余弦距离;
根据所述余弦距离,确定所述夹角。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述用户的当前交易行为为用户购买商品的购买行为,所述用户的历史交易行为的行为数据为用户历史购买商品的行为习惯。
7.一种交易行为风险识别装置,其特征在于,包括:
获取单元,用于获取用户的当前交易行为的行为数据;
提取单元,用于从所述获取单元获取的所述行为数据中提取关键文本;所述关键文本包括商品标题;
预处理单元,用于对所述提取单元提取的所述关键文本进行预处理,得到所述用户对应的第一词语集合;
确定单元,用于根据预设的词语集合中各个词语以及对应的权重值,确定所述第一词语集合中各个词语的权重值,其中,所述预设的词语集合是根据所述用户的历史交易行为的行为数据得到的;
所述确定单元,还用于根据所述第一词语集合中各个词语的权重值以及预设的词语集合中各个词语的权重值,确定所述用户的当前交易行为与历史交易行为之间的偏移度;
识别单元,用于根据所述确定单元确定的所述偏移度与基于个体行为参照的方法,对所述用户的当前交易行为进行风险识别;
所述确定单元具体用于:
获取与所述用户相关联的至少一个其它用户的历史交易行为的行为数据,并基于其确定所述各个其它用户对应的词语集合;
对于所述预设的词语集合中的每个词语,根据所述各个其它用户对应的词语集合是否包含所述词语,从所述各个其它用户中选取对应的目标用户;
根据所述预设的词语集合中的每个词语出现的次数、所述预设的词语集合中所包含词语的个数、总用户数以及对应目标用户的个数,确定所述词语的权重值。
8.根据权利要求7所述的装置,其特征在于,所述确定单元还具体用于:
对所述第一词语集合中的每个词语,将所述词语与预设的词语集合中的各个词语进行比对,若与所述预设的词语集合任一词语比对一致,则将所述任一词语对应的权重值确定为所述词语的权重值;否则将预设数值确定为所述词语的权重值。
9.根据权利要求8所述的装置,其特征在于,所述预设数值为0。
10.根据权利要求7所述的装置,其特征在于,所述确定单元还具体用于:
根据所述第一词语集合中各个词语的权重值,将所述用户的当前交易行为的行为数据表示为向量空间中的第一向量;
根据所述预设的词语集合中各个词语的权重值,将所述用户的历史交易行为的行为数据表示为所述向量空间中的第二向量;
确定所述第一向量与所述第二向量之间的夹角;
将所述夹角确定为所述用户的当前交易行为与历史交易行为之间的偏移度。
11.根据权利要求10所述的装置,其特征在于,所述确定所述第一向量与所述第二向量之间的夹角,包括:
计算所述第一向量与所述第二向量之间的余弦距离;
根据所述余弦距离,确定所述夹角。
12.根据权利要求7-11任一项所述的装置,其特征在于,所述用户的当前交易行为为用户购买商品的购买行为,所述用户的历史交易行为的行为数据为用户历史购买商品的行为习惯。
CN201710009840.8A 2017-01-06 2017-01-06 交易行为风险识别方法及装置 Active CN108280766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710009840.8A CN108280766B (zh) 2017-01-06 2017-01-06 交易行为风险识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710009840.8A CN108280766B (zh) 2017-01-06 2017-01-06 交易行为风险识别方法及装置

Publications (2)

Publication Number Publication Date
CN108280766A CN108280766A (zh) 2018-07-13
CN108280766B true CN108280766B (zh) 2022-05-13

Family

ID=62800889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710009840.8A Active CN108280766B (zh) 2017-01-06 2017-01-06 交易行为风险识别方法及装置

Country Status (1)

Country Link
CN (1) CN108280766B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829713B (zh) * 2019-01-28 2020-09-15 重庆邮电大学 一种基于知识与数据共同驱动的移动支付方式识别方法
CN115147227B (zh) * 2022-08-29 2022-12-27 支付宝(杭州)信息技术有限公司 一种交易风险的检测方法、装置及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN103593609B (zh) * 2012-08-16 2017-04-12 阿里巴巴集团控股有限公司 一种可信行为识别的方法和装置
CN104156351B (zh) * 2014-08-08 2017-04-26 西安交通大学 一种基于纳税人年报的纳税人税务交易行为识别方法
CN104331483B (zh) * 2014-11-05 2017-12-01 北京航空航天大学 基于短文本数据的区域事件检测方法和设备
CN104318268B (zh) * 2014-11-11 2017-09-08 苏州晨川通信科技有限公司 一种基于局部距离度量学习的多交易账户识别方法
CN104616198B (zh) * 2015-02-12 2018-01-26 哈尔滨工业大学 一种基于文本分析的p2p网络借贷风险预测系统
KR101741509B1 (ko) * 2015-07-01 2017-06-15 지속가능발전소 주식회사 뉴스의 데이터마이닝을 통한 기업 평판 분석 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
CN105335496B (zh) * 2015-10-22 2019-05-21 国网山东省电力公司电力科学研究院 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN105468742B (zh) * 2015-11-25 2018-11-20 小米科技有限责任公司 恶意订单识别方法及装置
CN106296422A (zh) * 2016-07-29 2017-01-04 重庆邮电大学 一种融合多算法的社交网络垃圾用户检测方法

Also Published As

Publication number Publication date
CN108280766A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN109697629B (zh) 产品数据推送方法及装置、存储介质、计算机设备
Pournarakis et al. A computational model for mining consumer perceptions in social media
CN107146089B (zh) 一种刷单识别方法及装置,电子设备
CN107066616B (zh) 用于账号处理的方法、装置及电子设备
US20220405607A1 (en) Method for obtaining user portrait and related apparatus
CN108805598B (zh) 相似度信息确定方法、服务器及计算机可读存储介质
CN107194430B (zh) 一种样本筛选方法及装置,电子设备
CN109635029B (zh) 基于标签指标体系的数据处理方法、装置、设备及介质
CN106776897B (zh) 一种用户画像标签确定方法及装置
CN106951571B (zh) 一种给应用标注标签的方法和装置
CN105550227B (zh) 一种命名实体识别方法及装置
CN106651232B (zh) 运单号数据分析方法及装置
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN114581207B (zh) 一种面向电商平台的商品图像大数据精准推送方法及系统
CN106095972B (zh) 一种信息分类方法及装置
CN110717097A (zh) 业务推荐方法、装置、计算机设备和存储介质
CN106997350B (zh) 一种数据处理的方法及装置
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN107403311A (zh) 账户用途的识别方法及装置
CN108280766B (zh) 交易行为风险识别方法及装置
CN107885754B (zh) 基于lda模型从交易数据中提取信用变量的方法和装置
Sitorus et al. Sensing trending topics in twitter for greater Jakarta area
CN110751354B (zh) 一种异常用户的检测方法和装置
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
CN108959289B (zh) 网站类别获取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201016

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201016

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant