Nothing Special   »   [go: up one dir, main page]

CN110378364A - 话单诈骗模型识别方法和系统 - Google Patents

话单诈骗模型识别方法和系统 Download PDF

Info

Publication number
CN110378364A
CN110378364A CN201910458891.8A CN201910458891A CN110378364A CN 110378364 A CN110378364 A CN 110378364A CN 201910458891 A CN201910458891 A CN 201910458891A CN 110378364 A CN110378364 A CN 110378364A
Authority
CN
China
Prior art keywords
data
swindle
model
ticket
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910458891.8A
Other languages
English (en)
Inventor
周红敏
张飞
王红熳
贾岩峰
丁正
顾晓东
李传营
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI XINFANG SOFTWARE Co Ltd
BEIJING XINFANG INTELLIGENT SYSTEM CO LTD
Original Assignee
SHANGHAI XINFANG SOFTWARE Co Ltd
BEIJING XINFANG INTELLIGENT SYSTEM CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI XINFANG SOFTWARE Co Ltd, BEIJING XINFANG INTELLIGENT SYSTEM CO LTD filed Critical SHANGHAI XINFANG SOFTWARE Co Ltd
Priority to CN201910458891.8A priority Critical patent/CN110378364A/zh
Publication of CN110378364A publication Critical patent/CN110378364A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2218Call detail recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Technology Law (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种话单诈骗模型识别方法和系统,包括以下步骤:S1将训练数据进行特征工程处理;S2将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;S3将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。本发明有益效果:1、对话单欺诈进行分类检测;2、不仅能够提高破案准确率及降低破案成本,而且避免办案人员错判及漏判行为。

Description

话单诈骗模型识别方法和系统
技术领域
本发明涉及移动通信技术领域,具体来说,涉及一种话单诈骗模型识别方法和系统。
背景技术
随着信息通信诈骗案件高频爆发,多部委开始联合行动开展治理工作,不法分子多使用电话行骗,运营商如何识别、筛选、拦截、提醒和报警诈骗电话等显得尤为关键。
目前各种不明电话困扰着人们,如何清晰甄别,有效防止信息泄露,维护信息不被窃取至关重要。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种话单诈骗模型识别方法,不仅能够对话单欺诈进行分类检测,而且提高破案准确率及降低破案成本,同时避免办案人员错判及漏判行为。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种话单诈骗模型识别方法,包括以下步骤:
S1将训练数据进行特征工程处理;
S2将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
S3将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
进一步地,所述步骤S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示包括:
S41将所述诈骗预测模型得出的预测结果与实际结果进行比对;
S42采用精准率、召回率和F1-score指标评估诈骗预测模型。
进一步地,在所述步骤S1之前将所述训练数据存储于大数据服务器集群。
进一步地,所述训练数据的主要字段包括但不限于主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度。
进一步地,所述步骤S1中所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
本发明的另一方面,提供一种话单诈骗模型识别系统,包括:
特征工程模块,用于将训练数据进行特征工程处理;
概率值计算模块,用于将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
模型构建模块,用于将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
导入模型模块,用于将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
进一步地,所述导入模型模块包括:
比对模块,用于将所述诈骗预测模型得出的预测结果与实际结果进行比对;
评估模块,用于采用精准率、召回率和F1-score指标评估诈骗预测模型。
进一步地,该系统还包括存储模块,用于将所述训练数据存储于大数据服务器集群。
进一步地,所述训练数据的主要字段包括但不限于主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度。
进一步地,所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
本发明的有益效果:
对话单欺诈进行分类检测;
不仅能够提高破案准确率及降低破案成本,而且避免办案人员错判及漏判行为;
具有自我学习的能力和极强的可扩展性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的话单诈骗模型识别方法的流程图;
图2是根据本发明实施例所述的网络结构的示意图之一;
图3是根据本发明实施例所述的网络结构的示意图之二;
图4是根据本发明实施例所述的话单诈骗模型识别系统的示意图;
图5是根据本发明实施例所述的单个神经元结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,根据本发明实施例所述的一种话单诈骗模型识别方法,包括以下步骤:
S1将训练数据进行特征工程处理;
S2将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
具体的,神经网络算法将每一个话单进行诈骗指标评估,经过神经网络算法内部运算可将其是否属于诈骗的概率输出,将得到一列概率矩阵,将概率矩阵进一步通过逻辑回归投票评估其是否为诈骗号码;其中,人工神经网络(Artificial Neural Networks)是一种模仿生物神经网络行为特征,进行分布式并行信息处理的算法数学模型,这种网络依靠系统的复杂程度,通过调整内部大量节点(神经元)之间相互连接的权重,从而达到处理信息的目的。
神经网络
单个神经元结构如图5所示,其中:
神经元中每个字母含义:
a1~an为输入向量的各个分量;w1~wn为神经元各个突触的权值;b为偏置;
f为传递函数,通常为非线性函数;t为输出函数值;
2、神经元中f数学公式为:t=f(W'A+b),每个字母含义如下:
(1)W为权向量,W'为W的转置;(2)A为输入向量;(3)b为偏置;(4) f称为传递函数。
3、神经网络是多层次的,该结构包含输入层、隐藏层及输出层,其中输入层与输出层只有一个,隐藏层可以有多个,每个节点都是一个神经元,以人脑中的神经为启发,其特点是信号向前传递,误差反响传播,在传递过程中,输入信号从输入层经隐含层,直到输出层,每一层神经元的状态值影响下一层神经元的状态。
S3将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
其中,逻辑回归算法公式:
1、Logistic函数(或称为Sigmoid函数),函数形式为:
公式中每个字母含义如下:
其中,(1)字母e是常量;
(2)θ代表此数据的各个特征的权重;(3)x代表此数据的各个特征值;
(4)z代表此数据预测出来的目标值;(5)g(z)是逻辑函数的输出值。
2、损失函数J(θ)
将预测值与实际值的差的和就是这条数据的总损失值,损失值越小越好。
公式如下:
公式中每个字母含义如下:
m是样本的个数;hθ(xi)为预测值;yi为真实值;
S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
在本发明的一个具体实施例中,所述步骤S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示包括:
S41将所述诈骗预测模型得出的预测结果与实际结果进行比对;
S42采用精准率、召回率和F1-score指标评估诈骗预测模型。
其中,精准率、召回率和F1-score指标的计算公式如下所示:
Precision(精准率)=TP/(TP+FP) (1)
Recall(召回率)=TP/(TP+FN) (2)
F1-score=2*Precision*Recall/(Precision+Recall) (3)
公式中字母含义:
TP代表样本为正,预测结果为正的个数;
FP代表样本为负,预测结果为正的个数;
FN代表样本为正,预测结果为负的个数。
上述公式中每个字母的含义如下:
TP:预测为正,实际为正;
FN:预测为负,实际为负;
TN:预测为正,实际为负;
FP:预测为负,实际为正。
在本发明的一个具体实施例中,在所述步骤S1之前将所述训练数据保存放在大数据服务器集群中,服务器中训练数据,其中,训练数据为话单CDR 数据。
在本发明的一个具体实施例中,在所述步骤S4之后将所述分类结果进行展示。
在本发明的一个具体实施例中,所述训练数据的主要字段包括主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度等字段。
在本发明的一个具体实施例中,所述步骤S1中所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
具体的,填补缺失值能够避免以下影响:系统丢失了大量的有用信息;系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出;
数据归一化解决神经网避免数据极端值问题,其公式如下,公式:x'=(x -X_min)/(X_max-X_min),数据归一化可以避免一些不必要的数值问题,输入变量如果太大,不经数据归一化处理,数据在训练过程中会有梯度消失现象,诈骗预测模型训练无法进行。
输入变量的数量级未致于会引起数值问题,但其实要引起也并不是那么困难,因为tanh的非线性区间大约在[-1.7,1.7],意味着要使神经元有效, tan(w1x1+w2x2+b)里的w1x1+w2x2+b数量级应该在1(1.7所在的数量级)左右,这时输入较大,就意味着权值必须较小,一个较大,一个较小,两者相乘,就引起数值问题,在python环境里输入421·0.00243==0.421·2.43,会发现不相等,这就是一个数值问题。
如图4所示,本发明的另一方面,提供一种话单诈骗模型识别系统,包括:
特征工程模块,用于将训练数据进行特征工程处理;
概率值计算模块,用于将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
模型构建模块,用于将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
导入模型模块,用于将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
在本发明的一个具体实施例中,所述导入模型模块包括:
比对模块,用于将所述诈骗预测模型得出的预测结果与实际结果进行比对;
评估模块,用于采用精准率、召回率和F1-score指标评估诈骗预测模型。
在本发明的一个具体实施例中,该系统还包括存储模块,用于将所述训练数据存储于大数据服务器集群。
在本发明的一个具体实施例中,所述训练数据的主要字段包括但不限于主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度。
在本发明的一个具体实施例中,所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,根据本发明所述的话单诈骗模型识别方法,通过神经网络预测欺诈号码,该神经网络是一个非线性函数,网络输入值和预测值分别为该函数的自变量和因变量,神经网络的输入层起缓冲存储的作用,多个神经网络的输出。
实施例一
本案例数据为江西省某市通信管理局用户通讯话单数据,指标整理后内容如下:主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率及拨打区域离散度;数据指标处理为:a1、a2、a3、a4、a5、a6、a7供7个指标数据。以单条换单加密后数据为例,各指标数值为0.11、0.28、0.35、0.19、0.42、0.81、0.32。系统展示平台调用诈骗预测模型接口,将用户话单数据输入诈骗预测模型中,话单数据进入诈骗预测模型后,算法依据输入数据乘以自己的权重,经激活函数处理后的数据加权处理,数据数值就是预测值,0代表正常号码,1代表诈骗号码。其中生成的网络结构如图 2所示:
输入节点a1、a2、a3、a4、a5、a6、a7的7个指标数据,以单条短信加密后数据为例,各指标数值为0.11、0.28、0.35、0.19、0.42、0.81、0.32,神经网络的预测过程如下:
(1)A1=0.11*w1+0.28*w5+0.35*w9+0.19*w13+0.42*w17+ 0.81*w21+0.32*w25
(2)A2=0.11*w2+0.28*w6+0.35*w10+0.19*w14+0.42*w18 +0.81*w22+0.32*w26
(3)A3=0.11*w3+0.28*w7+0.35*w11+0.19*w15+0.42*w19 +0.81*w23+0.32*w27
(4)A4=0.11*w4+0.28*w8+0.35*w12+0.19*w16+0.42*w20 +0.81*w24+0.32*w28
(5)A5=Sigmoid(A1)*w201
(6)A6=Sigmoid(A2)*w202
(7)A7=Sigmoid(A3)*w203
(8)A8=Sigmoid(A4)*w204
(9)输出值为:Sigmoid(A5+A6+A5+A7+A8)=0.99
输出值为“0.99”即约等于1,即判断该条话单是诈骗电话,若输出结果为“0”则为正常电话,诈骗预测模型训练好,以脚本形式部署在系统上,定时运行CDR通讯话单数据,输出判断结果。
实施例二
本案例数据为甘肃省某市通信管理局用户通讯话单数据,指标整理后内容如下:主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率及拨打区域离散度;数据指标处理为:x1、x2、x3、x4、x5、x6、x7供7个指标数据。以单条换单加密后数据为例,各指标数值为0.32、0.28、0.35、0.19、0.42、0.81、0.11,系统展示平台调用诈骗预测模型接口,将用户话单数据输入诈骗预测模型中,话单数据进入诈骗预测模型后,算法依据输入数据乘以自己的权重,经激活函数处理后的数据加权处理,数据数值就是预测值,0代表正常号码,1代表诈骗号码。其中生成的网络结构如图 3所示:
输入节点x1、x2、x3、x4、x5、x6、x7的7个指标数据,以单条短信加密后数据为例,各指标数值为0.32、0.28、0.35、0.19、0.42、0.81、0.11。
神经网络的预测过程如下:
(1)A1=0.32*w1+0.28*w5+0.35*w9+0.19*w13+0.42*w17+ 0.81*w21+0.11*w25
(2)A2=0.32*w2+0.28*w6+0.35*w10+0.19*w14+0.42*w18 +0.81*w22+0.11*w26
(3)A3=0.32*w3+0.28*w7+0.35*w11+0.19*w15+0.42*w19 +0.81*w23+0.11*w27
(4)A4=0.32*w4+0.28*w8+0.35*w12+0.19*w16+0.42*w20 +0.81*w24+0.11*w28
(5)A5=Sigmoid(A1)*w01
(6)A6=Sigmoid(A2)*w02
(7)A7=Sigmoid(A3)*w03
(8)A8=Sigmoid(A4)*w04
(9)输出值为:Sigmoid(A5+A6+A5+A7+A8)=0.008
输出值为“0.008”即约等于0,即判断该条话单是正常电话,若输出结果为“1”则为诈骗电话,诈骗预测模型训练好,以脚本形式部署在系统上,定时运行CDR通讯话单数据,输出判断结果。
综上所述,借助于本发明的上述技术方案,利用机器学习算法(包括神经网络和逻辑回归)对话单欺诈进行分类检测,通过诈骗预测模型可以提高破案准确率及降低破案成本,同时也避免办案人员错判及漏判行为。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种话单诈骗模型识别方法,其特征在于,包括以下步骤:
S1将训练数据进行特征工程处理;
S2将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
S3将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
2.根据权利要求1所述的话单诈骗模型识别方法,其特征在于,所述步骤S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示包括:
S41将所述诈骗预测模型得出的预测结果与实际结果进行比对;
S42采用精准率、召回率和F1-score指标评估诈骗预测模型。
3.根据权利要求1所述的话单诈骗模型识别方法,其特征在于,在所述步骤S1之前将所述训练数据存储于大数据服务器集群。
4.根据权利要求1所述的话单诈骗模型识别方法,其特征在于,所述训练数据的主要字段包括但不限于主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度。
5.根据权利要求1-4任一项所述的话单诈骗模型识别方法,其特征在于,所述步骤S1中所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
6.一种话单诈骗模型识别系统,其特征在于,包括:
特征工程模块,用于将训练数据进行特征工程处理;
概率值计算模块,用于将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
模型构建模块,用于将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
导入模型模块,用于将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
7.根据权利要求6所述的话单诈骗模型识别系统,其特征在于,所述导入模型模块包括:
比对模块,用于将所述诈骗预测模型得出的预测结果与实际结果进行比对;
评估模块,用于采用精准率、召回率和F1-score指标评估诈骗预测模型。
8.根据权利要求6所述的话单诈骗模型识别系统,其特征在于,该系统还包括存储模块,用于将所述训练数据存储于大数据服务器集群。
9.根据权利要求6所述的话单诈骗模型识别系统,其特征在于,所述训练数据的主要字段包括但不限于主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度。
10.根据权利要求6-9任一项所述的话单诈骗模型识别系统,其特征在于,所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
CN201910458891.8A 2019-05-29 2019-05-29 话单诈骗模型识别方法和系统 Pending CN110378364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910458891.8A CN110378364A (zh) 2019-05-29 2019-05-29 话单诈骗模型识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910458891.8A CN110378364A (zh) 2019-05-29 2019-05-29 话单诈骗模型识别方法和系统

Publications (1)

Publication Number Publication Date
CN110378364A true CN110378364A (zh) 2019-10-25

Family

ID=68248797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910458891.8A Pending CN110378364A (zh) 2019-05-29 2019-05-29 话单诈骗模型识别方法和系统

Country Status (1)

Country Link
CN (1) CN110378364A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292182A (zh) * 2020-03-27 2020-06-16 北京信息科技大学 一种信贷欺诈检测方法及系统
CN113163057A (zh) * 2021-01-20 2021-07-23 北京工业大学 一种诈骗电话动态识别区间构建方法
CN113630495A (zh) * 2020-05-07 2021-11-09 中国电信股份有限公司 涉诈订单预测模型训练方法和装置,订单预测方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507038A (zh) * 2017-09-01 2017-12-22 美林数据技术股份有限公司 一种基于stacking和bagging算法的电费敏感用户分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507038A (zh) * 2017-09-01 2017-12-22 美林数据技术股份有限公司 一种基于stacking和bagging算法的电费敏感用户分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴挡平 等: "基于Stacking策略的稳定性分类器组合模型研究", 《小型微型计算机系统》 *
张璞 等: "基于特征融合和集成学习的建议语句分类模型", 《山东大学学报(工学版)》 *
徐慧丽: "基于随机森林的多阶段集成学习方法", 《高师理科学刊》 *
操玮 等: "基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究", 《数据分析与知识发现》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292182A (zh) * 2020-03-27 2020-06-16 北京信息科技大学 一种信贷欺诈检测方法及系统
CN113630495A (zh) * 2020-05-07 2021-11-09 中国电信股份有限公司 涉诈订单预测模型训练方法和装置,订单预测方法和装置
CN113630495B (zh) * 2020-05-07 2022-08-02 中国电信股份有限公司 涉诈订单预测模型训练方法和装置,订单预测方法和装置
CN113163057A (zh) * 2021-01-20 2021-07-23 北京工业大学 一种诈骗电话动态识别区间构建方法
CN113163057B (zh) * 2021-01-20 2022-09-30 北京工业大学 一种诈骗电话动态识别区间构建方法

Similar Documents

Publication Publication Date Title
CN112364943B (zh) 一种基于联邦学习的联邦预测方法
CN111144718B (zh) 基于私有数据保护的风险决策方法、装置、系统及设备
CN110378364A (zh) 话单诈骗模型识别方法和系统
CA2821095C (en) System and method for detecting fraudulent account access and transfers
CN108428132A (zh) 欺诈交易识别方法、装置、服务器及存储介质
CN111818093B (zh) 用于进行风险评估的神经网络系统、方法及装置
Bidah et al. Stability and Global Sensitivity Analysis for an Agree‐Disagree Model: Partial Rank Correlation Coefficient and Latin Hypercube Sampling Methods
CN110134587A (zh) 一种测试方法、测试装置及计算机可读存储介质
CN113379042B (zh) 保护数据隐私的业务预测模型训练方法及装置
CN109615518A (zh) 一种智能合约系统的构建方法和智能合约系统
CN109711746A (zh) 一种基于复杂网络的信用评估方法和系统
CN109146661A (zh) 用户类型预测方法、装置、电子设备及存储介质
CN110362999A (zh) 用于检测账户使用异常的方法及装置
Mao et al. A novel user membership leakage attack in collaborative deep learning
CN110162995B (zh) 评估数据贡献程度的方法及其装置
CN111353554A (zh) 预测缺失的用户业务属性的方法及装置
CN111402028A (zh) 一种信息处理方法、装置及设备
Chang et al. Who is the boss? Identifying key roles in telecom fraud network via centrality-guided deep random walk
Hamacher et al. Public security: simulations need to replace conventional wisdom
Lebedev et al. Analysis of Network Traffic in Telecommunication Networks of a Transport Company
Solo et al. Type-One Fuzzy Logic for Quantitatively Defining Imprecise Linguistic Terms in Politics and Public Policy
Galdon et al. Optimising user engagement in highly automated virtual assistants to improve energy management and consumption
CN112288575B (zh) 基于区块链的交易管理方法及装置
Kasianova Detecting money laundering using hidden Markov model
CN114358186A (zh) 一种数据处理方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191025