CN110287188B - 通话详单数据的特征变量生成方法及装置 - Google Patents
通话详单数据的特征变量生成方法及装置 Download PDFInfo
- Publication number
- CN110287188B CN110287188B CN201910529196.6A CN201910529196A CN110287188B CN 110287188 B CN110287188 B CN 110287188B CN 201910529196 A CN201910529196 A CN 201910529196A CN 110287188 B CN110287188 B CN 110287188B
- Authority
- CN
- China
- Prior art keywords
- data
- call
- screening
- grouping
- data table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M15/00—Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
- H04M15/41—Billing record details, i.e. parameters, identifiers, structure of call data record [CDR]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种通话详单数据的特征变量生成方法及装置,其中方法包括:获取原始通话流水数据,并将原始通话流水数据进行表格化,得到原始数据表格;对原始数据表格进行数据类型和格式验证,确定原始数据表格符合要求;在原始数据表格上对每次通话执行增加标签操作;按照预设筛选规则筛选原始数据表格,得到筛选数据;按照预设分组规则对筛选数据进行分组,得到分组数据;按照预设统计规则对分组数据进行计算,得到特征变量值的直接指标;将直接指标中的第n级分组变量与对应第n‑1级分组变量的值做比值,得到特征变量值的次生指标;将特征变量值的直接指标和特征变量值的次生指标横向拼接得到特征宽表。
Description
技术领域
本发明涉及特征工程技术领域,尤其涉及一种通话详单数据的特征变量生成方法及装置。
背景技术
随着金融科技的发展,许多机器学习算法开始被用到金融领域,来构建用于自动决策的模型。模型训练需要大量带特征变量的样本。从原始数据生成备用的特征变量的过程就是特征工程。特征工程被认为是建立模型的关键步骤,特征工程的质量通常会直接影响模型效果的好坏。在个人信贷领域,征信机构或部门会使用各种来源的数据,对贷款申请客户的信用进行评价。其中一种常使用到的数据就是客户授权的运营商详单数据。通过特征工程可以从通话记录中生成相关的特征变量,这些特征变量将被用作规则或用来训练模型,以达到反欺诈或信用评估的目的。
通话记录包含非常详细的信息,通常包括对方号码(加密)、主被叫类型、开始时间、持续时长、发生地点、通话费用等。大部分现有方案生成的特征变量只关注到其中部分的信息,会忽略一些信息,如通话发生地点、通话费用等。
通话记录特征工程的一个关键方法在于对通话记录进行分类,然后再计算相应字段的统计量。如将通话分为主叫和被叫通话,然后分别统计通话数量的计数,得到主叫通话数量和被叫通话数量两个变量。大部分现有方法只统计一级分类,如前述只按主被叫类型对通话进行分类,从而会错过很多效果更好的组合分类特征变量。另一方面,很多现有方案生成的特征变量只包含简单的统计量计算,缺乏丰富的统计指标,如前述的通话数量的计数或对通话时长的求和等等。简单的统计量,无法捕捉到更深层的信息,从而达不到最佳效果。
目前大部分运营商变量生成都是以单条变量为基本单元的,缺少内在的统一逻辑。每生成一条或数条变量,就有对应的一部分固定的生成代码,这个特点带来了诸多问题。代码量通常会随着变量数目线性增加,工程量过大,也增加了代码出错的概率。同时,在增加相似逻辑变量时,有大量冗余逻辑被重复实现,变量生成效率较低。
由于现有特征工程方案没有统一的生成逻辑主线,大部分变量最后也都没有统一的命名逻辑。在拿到一个复杂变量时,无法快速得知变量的生成逻辑,需要借助额外的说明来理解含义。
发明内容
本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的通话详单数据的特征变量生成方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种通话详单数据的特征变量生成方法,包括:获取原始通话流水数据,并将原始通话流水数据进行表格化,得到原始数据表格;对原始数据表格进行数据类型和格式验证,确定原始数据表格符合要求;在原始数据表格上对每次通话执行增加标签操作;按照预设筛选规则筛选原始数据表格,得到筛选数据,其中,筛选数据包括与筛选数据对应的标签;按照预设分组规则对筛选数据进行多级分组,得到分组数据,其中,分组数据包括分组标签;按照预设统计规则对分组数据进行计算,得到特征变量值的直接指标,其中,直接指标的完整名称包括时间窗口、多级分类标签、用于统计的列名和统计指标名;将直接指标中的第n级分组变量与对应第n-1级分组变量的值做比值,得到特征变量值的次生指标,其中,次生指标的完整名称为直接指标中的第n级分组变量的完整变量名后加上比例后缀,其中,n为分组的总数,n=1,2,3,……,且为自然数;将特征变量值的直接指标和特征变量值的次生指标横向拼接得到特征宽表。
其中,原始数据表格包括行和列,每行表示一个客户的一条通话记录,列至少包括通话信息、客户唯一识别编码和贷款申请日期。
其中,预设筛选规则包括:通话开始时间与贷款申请日期之间的时间距离窗口。
其中,预设分组规则包括:按照客户、单个标签和多个标签之一或其任意组合进行分组。
其中,对原始数据表格进行数据类型和格式验证,确定原始数据表格符合要求包括:对原始数据表格进行数据类型和格式验证,确定每一列的数据是预期的数据类型,且符合要求;如果不符合要求,按预设格式转化规则进行格式转化,至符合要求;如果无法转化或转化失败,则提示修改,终止程序。
本发明另一方面提供了一种通话详单数据的特征变量生成装置,包括:表格化模块,用于获取原始通话流水数据,并将原始通话流水数据进行表格化,得到原始数据表格;验证模块,用于对原始数据表格进行数据类型和格式验证,确定原始数据表格符合要求;标签增加模块,用于在原始数据表格上对每次通话执行增加标签操作;筛选模块,用于按照预设筛选规则筛选原始数据表格,得到筛选数据,其中,筛选数据包括与筛选数据对应的标签;分组模块,用于按照预设分组规则对筛选数据进行多级分组,得到分组数据,其中,分组数据包括分组标签;直接指标计算模块,用于按照预设统计规则对分组数据进行计算,得到特征变量值的直接指标,其中,直接指标的完整名称包括时间窗口、多级分类标签、用于统计的列名和统计指标名;次生指标计算模块,用于将直接指标中的第n级分组变量与对应第n-1级分组变量的值做比值,得到特征变量值的次生指标,其中,特征变量值的次生指标的完整名称为直接指标中的第n级分组变量的完整变量名后加上比例后缀,其中,n为分组的总数,n=1,2,3,……,且为自然数;拼接模块,用于将特征变量值的直接指标和特征变量值的次生指标横向拼接得到特征宽表。
其中,原始数据表格包括行和列,每行表示一个客户的一条通话记录,列至少包括通话信息、客户唯一识别编码和贷款申请日期。
其中,预设筛选规则包括:通话开始时间与贷款申请日期之间的时间距离窗口。
其中,预设分组规则包括:按照客户、单个标签和多个标签之一或其任意组合进行分组。
其中,验证模块通过如下方式对原始数据表格进行数据类型和格式验证,确定原始数据表格符合要求:验证模块,具体用于对原始数据表格进行数据类型和格式验证,确定每一列的数据是预期的数据类型,且符合要求;如果不符合要求,按预设格式转化规则进行格式转化,至符合要求;如果无法转化或转化失败,则提示修改,终止程序。
由此可见,本发明实施例提供的通话详单数据的特征变量生成方法及装置,在标记通话记录时,使用更加全面的信息,提供了更多分组维度,在通话分组时,考虑了多维组合分类,不局限于通过某种标签单独分类,使用了更多种的统计指标,而不只是简单计数和求和,使用了规范的命名系统,名字本身就能清晰描述变量生成逻辑,将所有变量生成纳入到同一套逻辑下,保证线下建模和线上部署不同的实现保持结果一致,提高部署效率,减少出错可能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的通话详单数据的特征变量生成方法的流程图;
图2为本发明实施例提供的通话详单数据的特征变量生成方法的一种具体实例的流程图;
图3示出了本发明实施例提供的通话详单数据的特征变量生成方法生成的特征变量的名字的一个具体示例。
图4为本发明实施例提供的通话详单数据的特征变量生成装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的通话详单数据的特征变量生成方法的流程图,参见图1,本发明实施例提供的通话详单数据的特征变量生成方法,包括:
S1,获取原始通话流水数据,并将原始通话流水数据进行表格化,得到原始数据表格。
具体地,本步骤中,将各种形式的原始运营商爬虫数据,整理成统一的表格形式。
作为本发明实施例的一个可选实施方式,原始数据表格包括行和列,每行表示一个客户的一条通话记录,列至少包括通话信息、客户唯一识别编码和贷款申请日期。具体地,其中每一行表示一个客户的一条通话记录,每一列表示该通话的一个维度,除了通话信息外,列还需要包含客户唯一识别编码、贷款申请日期。由此保证原始数据表格具有多维度信息。具体地,作为本发明实施例的一个可选实施方式,统一的表格形式可以具体参加下表1:
详单ID | 获取时间 | 对方号码 | 主被叫类型 | 开始时间 | 持续时长 | 发生地点 | 通话费用 | 通话类型 |
1 | … | … | … | … | … | … | … | … |
1 | … | … | … | … | … | … | … | … |
… | … | … | … | … | … | … | … | … |
2 | … | … | … | … | … | … | … | … |
表1
S2,对原始数据表格进行数据类型和格式验证,确定原始数据表格符合要求。
具体地,本步骤中对上一步骤传入的原始数据表格进行数据类型和格式验证,保证每一列的数据是预期的数据类型,且符合要求。
作为本发明实施例的一个可选实施方式,对原始数据表格进行数据类型和格式验证,确定原始数据表格符合要求包括:对原始数据表格进行数据类型和格式验证,确定每一列的数据是预期的数据类型,且符合要求;如果不符合要求,按预设格式转化规则进行格式转化,至符合要求;如果无法转化或转化失败,则提示修改,终止程序。具体地,如果不符合要求,则要按预设转化规则进行格式转化,若无法转化或转化失败,则给出修改提示,终止程序。由此保证原始数据表格的数据类型和格式符合要求,如果不符合要求则不进行下一步的执行,保证原始数据表格的准确性。
S3,在原始数据表格上对每次通话执行增加标签操作。
具体地,本步骤中,在原始数据表格上增加描述该次通话类型的列,对每一次通话打上标签,包括按通话时长、通话开始时段、对方号码联系频率等的分类。
S4,按照预设筛选规则筛选原始数据表格,得到筛选数据,其中,筛选数据包括与筛选数据对应的标签。
作为本发明实施例的一个可选实施方式,预设筛选规则包括:通话开始时间与贷款申请日期之间的时间距离窗口。具体地,按通话开始时间距离贷款申请日期的距离来筛选数据表格,如近7天、近30天等。筛选出的每一组数据分别进入后续步骤,且变量名起始带上对应标签。
S5,按照预设分组规则对筛选数据进行多级分组,得到分组数据,其中,分组数据包括分组标签。
作为本发明实施例的一个可选实施方式,预设分组规则包括:按照客户、单个标签和多个标签之一或其任意组合进行分组。具体地,本步骤可以只按客户、按单个标签和多个标签组合形式对通话数据进行分组,每组内的数据分别进入后续步骤,且对应变量名按顺序带上本组标签名。
S6,按照预设统计规则对所述分组数据进行计算,得到特征变量值的直接指标,其中,直接指标的完整名称包括时间窗口、多级分类标签、用于统计的列名和统计指标名。
具体地,计算每组的通话数据各列的多种统计量,得到最终特征变量值,变量名按顺序带上用于统计的列名和统计指标名,构成完整的变量名。例如如果步骤S5中的某个分组包括:近30天晚上的通话数据,则该分组中可以包含T条通话数据,在进行统计计算时,可以对T条通话数据中各列进行如求和、均值、方差等等的计算进行统计。
S7,将直接指标中的第n级分组变量与对应第n-1级分组变量的值做比值,得到特征变量值的次生指标,其中,次生指标的完整名称为直接指标中的第n级分组变量的完整变量名后加上比例后缀,其中,n为分组的总数,n=1,2,3,……,且为自然数。
具体地,将直接指标中的第n级分组变量与对应第n-1级分组变量的值做比值,得到次生指标,次生指标的完整名称为直接指标中的第n级分组变量名后加上比例后缀。其中,n为分组的总数,n=1,2,3,……,且为自然数。其中,当n=1时,n-1=0表示未分组的变量。
S8,将特征变量值的直接指标和特征变量值的次生指标横向拼接得到特征宽表。
具体地,将步骤S6和步骤S7得到的变量,横向拼接得到最终的特征宽表,供建模和规则决策使用。
由此可见,通过本发明实施例提供的通话详单数据的特征变量生成方法,在标记通话记录时,使用更加全面的信息,提供了更多分组维度,在通话分组时,考虑了多维组合分类,不局限于通过某种标签单独分类,使用了更多种的统计指标,而不只是简单计数和求和,使用了规范的命名系统,名字本身就能清晰描述变量生成逻辑,将所有变量生成纳入到同一套逻辑下,保证线下建模和线上部署不同的实现保持结果一致,提高部署效率,减少出错可能。
图2示出了本发明实施例提供的通话详单数据的特征变量生成方法的一种具体的流程图,以下通过图2对本发明实施例提供的通话详单数据的特征变量生成方法进行进一步说明,本发明实施例提供的通话详单数据的特征变量生成方法,包括:
通话流水数据表格化,得到通话数据表格;
对通话数据表格中的数据进行数据类型和格式校验;
对通话数据表格中的数据的通话类型进行标签添加的操作;
对通话数据表格中的数据根据通话距今的时间进行筛选;
对通话数据表格中的数据进行多层次分组;
对进行多层次分组后的通话数据表格中的数据进行计算,计算直接指标;
根据直接指标进行计算,计算次生指标;
将直接指标和次生指标进行拼接,得到特征宽表。
具体地,参见图3,示出了本发明实施例提供的通话详单数据的特征变量生成方法生成的特征宽表的一种具体示例:该特征宽表依次包括:对通话数据的时间窗口(例如近6个月)、多级分类标签(工作日_下午_主叫)、被统计列(通话时长)、统计指标(总和)、仅次生变量(占比)。
由此可见,通过本发明实施例提供的通话详单数据的特征变量生成方法,在标记通话记录时,使用更加全面的信息,提供了更多分组维度,在通话分组时,考虑了多维组合分类,不局限于通过某种标签单独分类,使用了更多种的统计指标,而不只是简单计数和求和,使用了规范的命名系统,名字本身就能清晰描述变量生成逻辑,将所有变量生成纳入到同一套逻辑下,保证线下建模和线上部署不同的实现保持结果一致,提高部署效率,减少出错可能。
图4示出了本发明实施例提供的通话详单数据的特征变量生成装置的结构示意图,该通话详单数据的特征变量生成装置应用于上述通话详单数据的特征变量生成方法,以下仅对通话详单数据的特征变量生成装置的结构进行简要说明,其他未尽事宜,请参照上述通话详单数据的特征变量生成方法的相关说明,在此不再赘述。参见图4,本发明实施例提供的通话详单数据的特征变量生成装置,包括:
表格化模块401,用于获取原始通话流水数据,并将原始通话流水数据进行表格化,得到原始数据表格;
验证模块402,用于对原始数据表格进行数据类型和格式验证,确定原始数据表格符合要求;
标签增加模块403,用于在原始数据表格上对每次通话执行增加标签操作;
筛选模块404,用于按照预设筛选规则筛选原始数据表格,得到筛选数据,其中,筛选数据包括与筛选数据对应的标签;
分组模块405,用于按照预设分组规则对筛选数据进行多级分组,得到分组数据,其中,分组数据包括分组标签;
直接指标计算模块406,用于按照预设统计规则对分组数据进行计算,得到特征变量值的直接指标,其中,直接指标的完整名称包括时间窗口、多级分类标签、用于统计的列名和统计指标名;
次生指标计算模块407,用于将直接指标中的第n级分组变量与对应第n-1级分组变量的值做比值,得到特征变量值的次生指标,其中,特征变量值的次生指标的完整名称为直接指标中的第n级分组变量的完整变量名后加上比例后缀,其中,n为分组的总数,n=1,2,3,……,且为自然数;
拼接模块408,用于将特征变量值的直接指标和特征变量值的次生指标横向拼接得到特征宽表。
作为本发明实施例的一个可选实施方式,原始数据表格包括行和列,每行表示一个客户的一条通话记录,列至少包括通话信息、客户唯一识别编码和贷款申请日期。
作为本发明实施例的一个可选实施方式,预设筛选规则包括:通话开始时间与贷款申请日期之间的时间距离窗口。
作为本发明实施例的一个可选实施方式,预设分组规则包括:按照客户、单个标签和多个标签之一或其任意组合进行分组。
作为本发明实施例的一个可选实施方式,验证模块402通过如下方式对原始数据表格进行数据类型和格式验证,确定原始数据表格符合要求:验证模块402,具体用于对原始数据表格进行数据类型和格式验证,确定每一列的数据是预期的数据类型,且符合要求;如果不符合要求,按预设格式转化规则进行格式转化,至符合要求;如果无法转化或转化失败,则提示修改,终止程序。
由此可见,通过本发明实施例提供的通话详单数据的特征变量生成装置,在标记通话记录时,使用更加全面的信息,提供了更多分组维度,在通话分组时,考虑了多维组合分类,不局限于通过某种标签单独分类,使用了更多种的统计指标,而不只是简单计数和求和,使用了规范的命名系统,名字本身就能清晰描述变量生成逻辑,将所有变量生成纳入到同一套逻辑下,保证线下建模和线上部署不同的实现保持结果一致,提高部署效率,减少出错可能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种通话详单数据的特征变量生成方法,其特征在于,包括:
获取原始通话流水数据,并将所述原始通话流水数据进行表格化,得到原始数据表格;
对所述原始数据表格进行数据类型和格式验证,确定所述原始数据表格符合要求;
在所述原始数据表格上对每次通话执行增加标签操作;
按照预设筛选规则筛选所述原始数据表格,得到筛选数据,其中,所述筛选数据包括与所述筛选数据对应的标签;
按照预设分组规则对所述筛选数据进行多级分组,得到分组数据,其中,所述分组数据包括分组标签;
按照预设统计规则对所述分组数据进行计算,得到特征变量值的直接指标,其中,所述直接指标的完整名称包括时间窗口、多级分类标签、用于统计的列名和统计指标名;
将所述直接指标中的第n级分组变量与对应第n-1级分组变量的值做比值,得到特征变量值的次生指标,其中,所述次生指标的完整名称为所述直接指标中的第n级分组变量的完整变量名后加上比例后缀,其中,n为分组的总数,n=1,2,3,……,且为自然数;
将所述特征变量值的直接指标和所述特征变量值的次生指标横向拼接得到特征宽表。
2.根据权利要求1所述的方法,其特征在于,所述原始数据表格包括行和列,每行表示一个客户的一条通话记录,列至少包括通话信息、客户唯一识别编码和贷款申请日期。
3.根据权利要求2所述的方法,其特征在于,所述预设筛选规则包括:通话开始时间与贷款申请日期之间的时间距离窗口。
4.根据权利要求2所述的方法,其特征在于,所述预设分组规则包括:按照客户、单个标签和多个标签之一或其任意组合进行分组。
5.根据权利要求1所述的方法,其特征在于,所述对所述原始数据表格进行数据类型和格式验证,确定所述原始数据表格符合要求包括:
对所述原始数据表格进行数据类型和格式验证,确定每一列的数据是预期的数据类型,且符合要求;如果不符合要求,按预设格式转化规则进行格式转化,至符合要求;如果无法转化或转化失败,则提示修改,终止程序。
6.一种通话详单数据的特征变量生成装置,其特征在于,包括:
表格化模块,用于获取原始通话流水数据,并将所述原始通话流水数据进行表格化,得到原始数据表格;
验证模块,用于对所述原始数据表格进行数据类型和格式验证,确定所述原始数据表格符合要求;
标签增加模块,用于在所述原始数据表格上对每次通话执行增加标签操作;
筛选模块,用于按照预设筛选规则筛选所述原始数据表格,得到筛选数据,其中,所述筛选数据包括与所述筛选数据对应的标签;
分组模块,用于按照预设分组规则对所述筛选数据进行多级分组,得到分组数据,其中,所述分组数据包括分组标签;
直接指标计算模块,用于按照预设统计规则对所述分组数据进行计算,得到特征变量值的直接指标,其中,所述直接指标的完整名称包括时间窗口、多级分类标签、用于统计的列名和统计指标名;
次生指标计算模块,用于将所述直接指标中的第n级分组变量与对应第n-1级分组变量的值做比值,得到特征变量值的次生指标,其中,所述特征变量值的次生指标的完整名称为所述直接指标中的第n级分组变量的完整变量名后加上比例后缀,其中,n为分组的总数,n=1,2,3,……,且为自然数;
拼接模块,用于将所述特征变量值的直接指标和所述特征变量值的次生指标横向拼接得到特征宽表。
7.根据权利要求6所述的装置,其特征在于,所述原始数据表格包括行和列,每行表示一个客户的一条通话记录,列至少包括通话信息、客户唯一识别编码和贷款申请日期。
8.根据权利要求7所述的装置,其特征在于,所述预设筛选规则包括:通话开始时间与贷款申请日期之间的时间距离窗口。
9.根据权利要求7所述的装置,其特征在于,所述预设分组规则包括:按照客户、单个标签和多个标签之一或其任意组合进行分组。
10.根据权利要求6所述的装置,其特征在于,所述验证模块通过如下方式对所述原始数据表格进行数据类型和格式验证,确定所述原始数据表格符合要求:
所述验证模块,具体用于对所述原始数据表格进行数据类型和格式验证,确定每一列的数据是预期的数据类型,且符合要求;如果不符合要求,按预设格式转化规则进行格式转化,至符合要求;如果无法转化或转化失败,则提示修改,终止程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910529196.6A CN110287188B (zh) | 2019-06-19 | 2019-06-19 | 通话详单数据的特征变量生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910529196.6A CN110287188B (zh) | 2019-06-19 | 2019-06-19 | 通话详单数据的特征变量生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287188A CN110287188A (zh) | 2019-09-27 |
CN110287188B true CN110287188B (zh) | 2021-03-12 |
Family
ID=68004495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910529196.6A Active CN110287188B (zh) | 2019-06-19 | 2019-06-19 | 通话详单数据的特征变量生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287188B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111932131B (zh) * | 2020-08-12 | 2024-03-15 | 上海冰鉴信息科技有限公司 | 业务数据处理方法及装置 |
CN112036140B (zh) * | 2020-09-01 | 2023-08-18 | 中国银行股份有限公司 | 前端表格数据分组统计方法及装置 |
CN112559703A (zh) * | 2020-12-01 | 2021-03-26 | 深圳追一科技有限公司 | 通话记录的分析方法、装置、计算机设备和存储介质 |
CN116485282B (zh) * | 2023-06-19 | 2023-09-29 | 浪潮通用软件有限公司 | 一种基于多维指标动态竞争的数据分组方法、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882146A (zh) * | 2010-05-18 | 2010-11-10 | 北京邮电大学 | 一种基于聚类的移动通信业务用户虚开识别方法 |
CN103020063A (zh) * | 2011-09-20 | 2013-04-03 | 佳都新太科技股份有限公司 | 一种在调查问卷中实现多维表格题的系统、方法和装置 |
CN104348983A (zh) * | 2013-07-25 | 2015-02-11 | 中国移动通信集团甘肃有限公司 | 一种管理通信记录的方法和系统 |
CN105812593A (zh) * | 2016-03-30 | 2016-07-27 | 中国联合网络通信集团有限公司 | 对用户进行分级的方法及装置 |
CN108833720A (zh) * | 2018-05-04 | 2018-11-16 | 北京邮电大学 | 诈骗电话号码识别方法与系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1615127B1 (en) * | 2004-07-06 | 2015-04-22 | Comptel Corporation | Data processing in a mediation or service provisioning system |
CN103235815A (zh) * | 2013-04-25 | 2013-08-07 | 北京小米科技有限责任公司 | 一种应用软件的显示方法和设备 |
CN108449306A (zh) * | 2017-02-16 | 2018-08-24 | 上海行邑信息科技有限公司 | 一种离群度检测方法 |
-
2019
- 2019-06-19 CN CN201910529196.6A patent/CN110287188B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882146A (zh) * | 2010-05-18 | 2010-11-10 | 北京邮电大学 | 一种基于聚类的移动通信业务用户虚开识别方法 |
CN103020063A (zh) * | 2011-09-20 | 2013-04-03 | 佳都新太科技股份有限公司 | 一种在调查问卷中实现多维表格题的系统、方法和装置 |
CN104348983A (zh) * | 2013-07-25 | 2015-02-11 | 中国移动通信集团甘肃有限公司 | 一种管理通信记录的方法和系统 |
CN105812593A (zh) * | 2016-03-30 | 2016-07-27 | 中国联合网络通信集团有限公司 | 对用户进行分级的方法及装置 |
CN108833720A (zh) * | 2018-05-04 | 2018-11-16 | 北京邮电大学 | 诈骗电话号码识别方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110287188A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287188B (zh) | 通话详单数据的特征变量生成方法及装置 | |
CN110543483A (zh) | 一种数据稽核方法、装置及电子设备 | |
CN113965389B (zh) | 一种基于防火墙日志的网络安全管理方法、设备及介质 | |
CN110740356A (zh) | 基于区块链的直播数据的监控方法及系统 | |
CN106844320B (zh) | 一种财务报表整合方法和设备 | |
CN106649210A (zh) | 一种数据转换方法及装置 | |
CN109241163B (zh) | 电子凭证的生成方法及终端设备 | |
CN111784246B (zh) | 物流路径的估测方法 | |
CN113923268A (zh) | 一种针对多版本通信规约的解析方法、设备及存储介质 | |
US20130124484A1 (en) | Persistent flow apparatus to transform metrics packages received from wireless devices into a data store suitable for mobile communication network analysis by visualization | |
CN110428156B (zh) | 用于业务数据校验的方法、装置及电子设备 | |
CN116107910B (zh) | 绩效系统的测试方法、电子设备及存储介质 | |
CN114265780B (zh) | 一种报表系统的测试方法、系统、设备及存储介质 | |
CN107016028A (zh) | 数据处理方法及其设备 | |
CN110765100A (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
CN112580915A (zh) | 一种项目里程碑确定方法、装置、存储介质及电子设备 | |
CN111461892B (zh) | 用于风险识别模型的衍生变量选择方法和装置 | |
CN113495831B (zh) | 基于关键字生成测试用例的方法、系统、设备及介质 | |
CN111382068B (zh) | 一种大批量数据的层次测试方法及装置 | |
CN115438637A (zh) | 一种数据核验方法、装置、电子设备及存储介质 | |
CN114358910A (zh) | 异常财务数据处理方法、装置、设备及存储介质 | |
CN107436728A (zh) | 规则分析结果存储方法、规则回溯方法及装置 | |
CN117494702B (zh) | 一种结合rpa和ai的数据推送方法及系统 | |
CN118803696A (zh) | 识别手机卡号码的主副卡属性的方法和装置 | |
CN110688144B (zh) | 业务接口配置优化的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |