CN110378364A - 话单诈骗模型识别方法和系统 - Google Patents
话单诈骗模型识别方法和系统 Download PDFInfo
- Publication number
- CN110378364A CN110378364A CN201910458891.8A CN201910458891A CN110378364A CN 110378364 A CN110378364 A CN 110378364A CN 201910458891 A CN201910458891 A CN 201910458891A CN 110378364 A CN110378364 A CN 110378364A
- Authority
- CN
- China
- Prior art keywords
- data
- swindle
- model
- ticket
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 210000002569 neuron Anatomy 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 210000004218 nerve net Anatomy 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2218—Call detail recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2281—Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Technology Law (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种话单诈骗模型识别方法和系统,包括以下步骤:S1将训练数据进行特征工程处理;S2将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;S3将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。本发明有益效果:1、对话单欺诈进行分类检测;2、不仅能够提高破案准确率及降低破案成本,而且避免办案人员错判及漏判行为。
Description
技术领域
本发明涉及移动通信技术领域,具体来说,涉及一种话单诈骗模型识别方法和系统。
背景技术
随着信息通信诈骗案件高频爆发,多部委开始联合行动开展治理工作,不法分子多使用电话行骗,运营商如何识别、筛选、拦截、提醒和报警诈骗电话等显得尤为关键。
目前各种不明电话困扰着人们,如何清晰甄别,有效防止信息泄露,维护信息不被窃取至关重要。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种话单诈骗模型识别方法,不仅能够对话单欺诈进行分类检测,而且提高破案准确率及降低破案成本,同时避免办案人员错判及漏判行为。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种话单诈骗模型识别方法,包括以下步骤:
S1将训练数据进行特征工程处理;
S2将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
S3将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
进一步地,所述步骤S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示包括:
S41将所述诈骗预测模型得出的预测结果与实际结果进行比对;
S42采用精准率、召回率和F1-score指标评估诈骗预测模型。
进一步地,在所述步骤S1之前将所述训练数据存储于大数据服务器集群。
进一步地,所述训练数据的主要字段包括但不限于主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度。
进一步地,所述步骤S1中所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
本发明的另一方面,提供一种话单诈骗模型识别系统,包括:
特征工程模块,用于将训练数据进行特征工程处理;
概率值计算模块,用于将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
模型构建模块,用于将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
导入模型模块,用于将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
进一步地,所述导入模型模块包括:
比对模块,用于将所述诈骗预测模型得出的预测结果与实际结果进行比对;
评估模块,用于采用精准率、召回率和F1-score指标评估诈骗预测模型。
进一步地,该系统还包括存储模块,用于将所述训练数据存储于大数据服务器集群。
进一步地,所述训练数据的主要字段包括但不限于主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度。
进一步地,所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
本发明的有益效果:
对话单欺诈进行分类检测;
不仅能够提高破案准确率及降低破案成本,而且避免办案人员错判及漏判行为;
具有自我学习的能力和极强的可扩展性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的话单诈骗模型识别方法的流程图;
图2是根据本发明实施例所述的网络结构的示意图之一;
图3是根据本发明实施例所述的网络结构的示意图之二;
图4是根据本发明实施例所述的话单诈骗模型识别系统的示意图;
图5是根据本发明实施例所述的单个神经元结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,根据本发明实施例所述的一种话单诈骗模型识别方法,包括以下步骤:
S1将训练数据进行特征工程处理;
S2将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
具体的,神经网络算法将每一个话单进行诈骗指标评估,经过神经网络算法内部运算可将其是否属于诈骗的概率输出,将得到一列概率矩阵,将概率矩阵进一步通过逻辑回归投票评估其是否为诈骗号码;其中,人工神经网络(Artificial Neural Networks)是一种模仿生物神经网络行为特征,进行分布式并行信息处理的算法数学模型,这种网络依靠系统的复杂程度,通过调整内部大量节点(神经元)之间相互连接的权重,从而达到处理信息的目的。
神经网络
单个神经元结构如图5所示,其中:
神经元中每个字母含义:
a1~an为输入向量的各个分量;w1~wn为神经元各个突触的权值;b为偏置;
f为传递函数,通常为非线性函数;t为输出函数值;
2、神经元中f数学公式为:t=f(W'A+b),每个字母含义如下:
(1)W为权向量,W'为W的转置;(2)A为输入向量;(3)b为偏置;(4) f称为传递函数。
3、神经网络是多层次的,该结构包含输入层、隐藏层及输出层,其中输入层与输出层只有一个,隐藏层可以有多个,每个节点都是一个神经元,以人脑中的神经为启发,其特点是信号向前传递,误差反响传播,在传递过程中,输入信号从输入层经隐含层,直到输出层,每一层神经元的状态值影响下一层神经元的状态。
S3将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
其中,逻辑回归算法公式:
1、Logistic函数(或称为Sigmoid函数),函数形式为:
公式中每个字母含义如下:
其中,(1)字母e是常量;
(2)θ代表此数据的各个特征的权重;(3)x代表此数据的各个特征值;
(4)z代表此数据预测出来的目标值;(5)g(z)是逻辑函数的输出值。
2、损失函数J(θ)
将预测值与实际值的差的和就是这条数据的总损失值,损失值越小越好。
公式如下:
公式中每个字母含义如下:
m是样本的个数;hθ(xi)为预测值;yi为真实值;
S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
在本发明的一个具体实施例中,所述步骤S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示包括:
S41将所述诈骗预测模型得出的预测结果与实际结果进行比对;
S42采用精准率、召回率和F1-score指标评估诈骗预测模型。
其中,精准率、召回率和F1-score指标的计算公式如下所示:
Precision(精准率)=TP/(TP+FP) (1)
Recall(召回率)=TP/(TP+FN) (2)
F1-score=2*Precision*Recall/(Precision+Recall) (3)
公式中字母含义:
TP代表样本为正,预测结果为正的个数;
FP代表样本为负,预测结果为正的个数;
FN代表样本为正,预测结果为负的个数。
上述公式中每个字母的含义如下:
TP:预测为正,实际为正;
FN:预测为负,实际为负;
TN:预测为正,实际为负;
FP:预测为负,实际为正。
在本发明的一个具体实施例中,在所述步骤S1之前将所述训练数据保存放在大数据服务器集群中,服务器中训练数据,其中,训练数据为话单CDR 数据。
在本发明的一个具体实施例中,在所述步骤S4之后将所述分类结果进行展示。
在本发明的一个具体实施例中,所述训练数据的主要字段包括主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度等字段。
在本发明的一个具体实施例中,所述步骤S1中所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
具体的,填补缺失值能够避免以下影响:系统丢失了大量的有用信息;系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出;
数据归一化解决神经网避免数据极端值问题,其公式如下,公式:x'=(x -X_min)/(X_max-X_min),数据归一化可以避免一些不必要的数值问题,输入变量如果太大,不经数据归一化处理,数据在训练过程中会有梯度消失现象,诈骗预测模型训练无法进行。
输入变量的数量级未致于会引起数值问题,但其实要引起也并不是那么困难,因为tanh的非线性区间大约在[-1.7,1.7],意味着要使神经元有效, tan(w1x1+w2x2+b)里的w1x1+w2x2+b数量级应该在1(1.7所在的数量级)左右,这时输入较大,就意味着权值必须较小,一个较大,一个较小,两者相乘,就引起数值问题,在python环境里输入421·0.00243==0.421·2.43,会发现不相等,这就是一个数值问题。
如图4所示,本发明的另一方面,提供一种话单诈骗模型识别系统,包括:
特征工程模块,用于将训练数据进行特征工程处理;
概率值计算模块,用于将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
模型构建模块,用于将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
导入模型模块,用于将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
在本发明的一个具体实施例中,所述导入模型模块包括:
比对模块,用于将所述诈骗预测模型得出的预测结果与实际结果进行比对;
评估模块,用于采用精准率、召回率和F1-score指标评估诈骗预测模型。
在本发明的一个具体实施例中,该系统还包括存储模块,用于将所述训练数据存储于大数据服务器集群。
在本发明的一个具体实施例中,所述训练数据的主要字段包括但不限于主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度。
在本发明的一个具体实施例中,所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,根据本发明所述的话单诈骗模型识别方法,通过神经网络预测欺诈号码,该神经网络是一个非线性函数,网络输入值和预测值分别为该函数的自变量和因变量,神经网络的输入层起缓冲存储的作用,多个神经网络的输出。
实施例一
本案例数据为江西省某市通信管理局用户通讯话单数据,指标整理后内容如下:主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率及拨打区域离散度;数据指标处理为:a1、a2、a3、a4、a5、a6、a7供7个指标数据。以单条换单加密后数据为例,各指标数值为0.11、0.28、0.35、0.19、0.42、0.81、0.32。系统展示平台调用诈骗预测模型接口,将用户话单数据输入诈骗预测模型中,话单数据进入诈骗预测模型后,算法依据输入数据乘以自己的权重,经激活函数处理后的数据加权处理,数据数值就是预测值,0代表正常号码,1代表诈骗号码。其中生成的网络结构如图 2所示:
输入节点a1、a2、a3、a4、a5、a6、a7的7个指标数据,以单条短信加密后数据为例,各指标数值为0.11、0.28、0.35、0.19、0.42、0.81、0.32,神经网络的预测过程如下:
(1)A1=0.11*w1+0.28*w5+0.35*w9+0.19*w13+0.42*w17+ 0.81*w21+0.32*w25
(2)A2=0.11*w2+0.28*w6+0.35*w10+0.19*w14+0.42*w18 +0.81*w22+0.32*w26
(3)A3=0.11*w3+0.28*w7+0.35*w11+0.19*w15+0.42*w19 +0.81*w23+0.32*w27
(4)A4=0.11*w4+0.28*w8+0.35*w12+0.19*w16+0.42*w20 +0.81*w24+0.32*w28
(5)A5=Sigmoid(A1)*w201
(6)A6=Sigmoid(A2)*w202
(7)A7=Sigmoid(A3)*w203
(8)A8=Sigmoid(A4)*w204
(9)输出值为:Sigmoid(A5+A6+A5+A7+A8)=0.99
输出值为“0.99”即约等于1,即判断该条话单是诈骗电话,若输出结果为“0”则为正常电话,诈骗预测模型训练好,以脚本形式部署在系统上,定时运行CDR通讯话单数据,输出判断结果。
实施例二
本案例数据为甘肃省某市通信管理局用户通讯话单数据,指标整理后内容如下:主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率及拨打区域离散度;数据指标处理为:x1、x2、x3、x4、x5、x6、x7供7个指标数据。以单条换单加密后数据为例,各指标数值为0.32、0.28、0.35、0.19、0.42、0.81、0.11,系统展示平台调用诈骗预测模型接口,将用户话单数据输入诈骗预测模型中,话单数据进入诈骗预测模型后,算法依据输入数据乘以自己的权重,经激活函数处理后的数据加权处理,数据数值就是预测值,0代表正常号码,1代表诈骗号码。其中生成的网络结构如图 3所示:
输入节点x1、x2、x3、x4、x5、x6、x7的7个指标数据,以单条短信加密后数据为例,各指标数值为0.32、0.28、0.35、0.19、0.42、0.81、0.11。
神经网络的预测过程如下:
(1)A1=0.32*w1+0.28*w5+0.35*w9+0.19*w13+0.42*w17+ 0.81*w21+0.11*w25
(2)A2=0.32*w2+0.28*w6+0.35*w10+0.19*w14+0.42*w18 +0.81*w22+0.11*w26
(3)A3=0.32*w3+0.28*w7+0.35*w11+0.19*w15+0.42*w19 +0.81*w23+0.11*w27
(4)A4=0.32*w4+0.28*w8+0.35*w12+0.19*w16+0.42*w20 +0.81*w24+0.11*w28
(5)A5=Sigmoid(A1)*w01
(6)A6=Sigmoid(A2)*w02
(7)A7=Sigmoid(A3)*w03
(8)A8=Sigmoid(A4)*w04
(9)输出值为:Sigmoid(A5+A6+A5+A7+A8)=0.008
输出值为“0.008”即约等于0,即判断该条话单是正常电话,若输出结果为“1”则为诈骗电话,诈骗预测模型训练好,以脚本形式部署在系统上,定时运行CDR通讯话单数据,输出判断结果。
综上所述,借助于本发明的上述技术方案,利用机器学习算法(包括神经网络和逻辑回归)对话单欺诈进行分类检测,通过诈骗预测模型可以提高破案准确率及降低破案成本,同时也避免办案人员错判及漏判行为。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种话单诈骗模型识别方法,其特征在于,包括以下步骤:
S1将训练数据进行特征工程处理;
S2将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
S3将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
2.根据权利要求1所述的话单诈骗模型识别方法,其特征在于,所述步骤S4将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示包括:
S41将所述诈骗预测模型得出的预测结果与实际结果进行比对;
S42采用精准率、召回率和F1-score指标评估诈骗预测模型。
3.根据权利要求1所述的话单诈骗模型识别方法,其特征在于,在所述步骤S1之前将所述训练数据存储于大数据服务器集群。
4.根据权利要求1所述的话单诈骗模型识别方法,其特征在于,所述训练数据的主要字段包括但不限于主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度。
5.根据权利要求1-4任一项所述的话单诈骗模型识别方法,其特征在于,所述步骤S1中所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
6.一种话单诈骗模型识别系统,其特征在于,包括:
特征工程模块,用于将训练数据进行特征工程处理;
概率值计算模块,用于将所述特征工程处理后的训练数据输入多个神经网络算法,并计算每个神经网络算法分类的概率值;
模型构建模块,用于将多个概率值整合成新数据集,将所述新数据集输入逻辑回归算法进行分类,根据分类后的数据构建诈骗预测模型,将所述诈骗预测模型进行存储;
导入模型模块,用于将测试数据导入所述诈骗预测模型输出分类结果,根据所述分类结果进行展示。
7.根据权利要求6所述的话单诈骗模型识别系统,其特征在于,所述导入模型模块包括:
比对模块,用于将所述诈骗预测模型得出的预测结果与实际结果进行比对;
评估模块,用于采用精准率、召回率和F1-score指标评估诈骗预测模型。
8.根据权利要求6所述的话单诈骗模型识别系统,其特征在于,该系统还包括存储模块,用于将所述训练数据存储于大数据服务器集群。
9.根据权利要求6所述的话单诈骗模型识别系统,其特征在于,所述训练数据的主要字段包括但不限于主叫号码、被叫号码、振铃时长、通话时长、主叫放弃次数、主叫拨打话单数、主叫本地拨打次数、主叫外地拨打次数、电话接通率和拨打区域离散度。
10.根据权利要求6-9任一项所述的话单诈骗模型识别系统,其特征在于,所述特征工程包括填补缺失值、数据归一化、数据标准化和数据衍生变量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458891.8A CN110378364A (zh) | 2019-05-29 | 2019-05-29 | 话单诈骗模型识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458891.8A CN110378364A (zh) | 2019-05-29 | 2019-05-29 | 话单诈骗模型识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110378364A true CN110378364A (zh) | 2019-10-25 |
Family
ID=68248797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910458891.8A Pending CN110378364A (zh) | 2019-05-29 | 2019-05-29 | 话单诈骗模型识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110378364A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292182A (zh) * | 2020-03-27 | 2020-06-16 | 北京信息科技大学 | 一种信贷欺诈检测方法及系统 |
CN113163057A (zh) * | 2021-01-20 | 2021-07-23 | 北京工业大学 | 一种诈骗电话动态识别区间构建方法 |
CN113630495A (zh) * | 2020-05-07 | 2021-11-09 | 中国电信股份有限公司 | 涉诈订单预测模型训练方法和装置,订单预测方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107507038A (zh) * | 2017-09-01 | 2017-12-22 | 美林数据技术股份有限公司 | 一种基于stacking和bagging算法的电费敏感用户分析方法 |
-
2019
- 2019-05-29 CN CN201910458891.8A patent/CN110378364A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107507038A (zh) * | 2017-09-01 | 2017-12-22 | 美林数据技术股份有限公司 | 一种基于stacking和bagging算法的电费敏感用户分析方法 |
Non-Patent Citations (4)
Title |
---|
吴挡平 等: "基于Stacking策略的稳定性分类器组合模型研究", 《小型微型计算机系统》 * |
张璞 等: "基于特征融合和集成学习的建议语句分类模型", 《山东大学学报(工学版)》 * |
徐慧丽: "基于随机森林的多阶段集成学习方法", 《高师理科学刊》 * |
操玮 等: "基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究", 《数据分析与知识发现》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292182A (zh) * | 2020-03-27 | 2020-06-16 | 北京信息科技大学 | 一种信贷欺诈检测方法及系统 |
CN113630495A (zh) * | 2020-05-07 | 2021-11-09 | 中国电信股份有限公司 | 涉诈订单预测模型训练方法和装置,订单预测方法和装置 |
CN113630495B (zh) * | 2020-05-07 | 2022-08-02 | 中国电信股份有限公司 | 涉诈订单预测模型训练方法和装置,订单预测方法和装置 |
CN113163057A (zh) * | 2021-01-20 | 2021-07-23 | 北京工业大学 | 一种诈骗电话动态识别区间构建方法 |
CN113163057B (zh) * | 2021-01-20 | 2022-09-30 | 北京工业大学 | 一种诈骗电话动态识别区间构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364943B (zh) | 一种基于联邦学习的联邦预测方法 | |
CN111144718B (zh) | 基于私有数据保护的风险决策方法、装置、系统及设备 | |
CN110378364A (zh) | 话单诈骗模型识别方法和系统 | |
CA2821095C (en) | System and method for detecting fraudulent account access and transfers | |
CN108428132A (zh) | 欺诈交易识别方法、装置、服务器及存储介质 | |
CN111818093B (zh) | 用于进行风险评估的神经网络系统、方法及装置 | |
Bidah et al. | Stability and Global Sensitivity Analysis for an Agree‐Disagree Model: Partial Rank Correlation Coefficient and Latin Hypercube Sampling Methods | |
CN110134587A (zh) | 一种测试方法、测试装置及计算机可读存储介质 | |
CN113379042B (zh) | 保护数据隐私的业务预测模型训练方法及装置 | |
CN109615518A (zh) | 一种智能合约系统的构建方法和智能合约系统 | |
CN109711746A (zh) | 一种基于复杂网络的信用评估方法和系统 | |
CN109146661A (zh) | 用户类型预测方法、装置、电子设备及存储介质 | |
CN110362999A (zh) | 用于检测账户使用异常的方法及装置 | |
Mao et al. | A novel user membership leakage attack in collaborative deep learning | |
CN110162995B (zh) | 评估数据贡献程度的方法及其装置 | |
CN111353554A (zh) | 预测缺失的用户业务属性的方法及装置 | |
CN111402028A (zh) | 一种信息处理方法、装置及设备 | |
Chang et al. | Who is the boss? Identifying key roles in telecom fraud network via centrality-guided deep random walk | |
Hamacher et al. | Public security: simulations need to replace conventional wisdom | |
Lebedev et al. | Analysis of Network Traffic in Telecommunication Networks of a Transport Company | |
Solo et al. | Type-One Fuzzy Logic for Quantitatively Defining Imprecise Linguistic Terms in Politics and Public Policy | |
Galdon et al. | Optimising user engagement in highly automated virtual assistants to improve energy management and consumption | |
CN112288575B (zh) | 基于区块链的交易管理方法及装置 | |
Kasianova | Detecting money laundering using hidden Markov model | |
CN114358186A (zh) | 一种数据处理方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191025 |