CN116484109B - 基于人工智能的客户画像分析系统及方法 - Google Patents
基于人工智能的客户画像分析系统及方法 Download PDFInfo
- Publication number
- CN116484109B CN116484109B CN202310736801.3A CN202310736801A CN116484109B CN 116484109 B CN116484109 B CN 116484109B CN 202310736801 A CN202310736801 A CN 202310736801A CN 116484109 B CN116484109 B CN 116484109B
- Authority
- CN
- China
- Prior art keywords
- user
- unit
- response
- labels
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 23
- 230000004044 response Effects 0.000 claims abstract description 122
- 238000012937 correction Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 238000010276 construction Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 21
- 230000003068 static effect Effects 0.000 claims description 20
- 238000012544 monitoring process Methods 0.000 claims description 13
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000003475 lamination Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 17
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3419—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
- G06F11/3423—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time where the assessed time is active or idle time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3438—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
- G06Q30/0256—User search
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Computer Hardware Design (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及数据分析领域,尤其涉及一种基于人工智能的客户画像分析系统及方法,该系统包括抓取模块,用以抓取用户在访问过程中的若干访问响应网页;记录模块,用以记录在所述访问响应网页中进行的操作数据和基于所述操作数据的响应数据;第一确定模块,用以确定所述用户的初级属性模型;检测修正模块,用以检测用户在响应数据的浏览时长,并对所述初级属性模型进行修正,形成二级属性模型;第二确定模块,用以确定所述初级属性模型的第一权重系数,以及,确定所述二级属性模型的第二权重系数;构建模块,用以构建用户标签,以所述用户标签的集合作为用户画像。本发明通过标签内容的确定完成对用户的精准刻画,提升用户画像的精准度。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种基于人工智能的客户画像分析系统及方法。
背景技术
随着数据处理技术的发展,通常采用用户画像来实现基于数据的广告投放、精准营销、个性化推荐、风控检测、产品设计和数据分析。用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。
公开号为CN115293273A的专利文献公开了一种一种用户画像的生成方法,包括:响应于目标用户针对目标链接的操作行为,获取来自于反向代理服务器的操作行为数据,其中,所述操作行为数据是由所述反向代理服务器对原始操作行为数据进行流量复制处理得到的,所述反向代理服务器用于将所述操作行为信息转发至服务器,所述原始操作行为数据包括与所述操作行为相关联的统一资源标识符,所述原始操作行为数据包括多个类别的数据;基于所述操作行为数据对所述目标用户进行用户行为分析,得到所述目标用户的用户行为标签结果,其中,所述用户行为标签结果包括与所述原始操作行为数据的所述多个类别各自对应的分类概率值;以及根据所述用户行为标签结果,生成所述目标用户的用户画像。
但是,现有技术中按照原始操作行为数据的类别分类概率得到的用户画像并未对操作数据行为进行分析和处理,因此用户画像的特征不全面,进而精准度低。
发明内容
为此,本发明提供一种基于人工智能的客户画像分析系统及方法,可以解决现有技术中用户画像不全面进而精准度低问题。
为实现上述目的,本发明提供一种基于人工智能的客户画像分析系统,包括:
抓取模块,用以抓取用户在访问过程中的若干访问响应网页;
记录模块,与所述抓取模块连接,用以记录在所述访问响应网页中进行的操作数据和基于所述操作数据的响应数据;
第一确定模块,用以根据用户在访问响应网页内执行操作数据对应的类别属性以及在各所述类别属性的点击数量确定所述用户的初级属性模型;
检测修正模块,用以检测用户在响应数据的浏览时长,并基于所述浏览时长对所述初级属性模型进行修正,形成二级属性模型;
第二确定模块,分别与所述第一确定模块和所述检测修正模块连接,用以根据第一占比确定所述初级属性模型的第一权重系数,以及,根据第二占比确定所述二级属性模型的第二权重系数;
构建模块,用以根据所述初级属性模型、第一权重系数、二级属性模型以及第二权重系数构建用户标签,以所述用户标签的集合作为用户画像;
所述第一占比根据访问响应网页中进行的操作数据中点击块的数量所确定,所述第二占比根据响应数据中的响应网页字符量所确定。
进一步地,所述记录模块包括点击识别单元、时间提取单元以及响应弹出单元;
其中所述点击识别单元用以识别在所述访问响应网页中进行的点击操作;
所述时间提取单元与所述点击识别单元连接,用以提取任意两个点击操作时间的时间间隔;
所述响应弹出单元,用以在接收到对应的点击操作后在对应的时间间隔内完成基于所述点击操作的响应网页的展示。
进一步地,所述第一确定模块包括字符提取单元、关键字识别单元和分类单元;
所述字符提取单元用以提取点击操作对应的点击区域内的字符信息;
所述关键字识别单元,与所述字符提取单元连接,用以从所述字符信息中确定是否包含预设的关键字符阵列中的任意关键字符串;
所述分类单元,与所述关键字识别单元连接,用以根据所述关键字符串与类别字符串的重合度确定所述字符信息的所属类别。
进一步地,所述第一确定模块内预先设置有包含若干个用户属性的标签,基于所述属性标签形成所述用户的初级属性模型。
进一步地,所述检测修正模块包括监听单元、识别单元、统计单元和汇总单元;
其中,所述监听单元在监听到响应网页进入活跃状态时,所述识别单元通过所述响应网页的预设的活跃指标取值识别所述响应网页的有效活跃状态,所述统计单元统计所述有效活跃状态对应的有效活跃时长;
所述监听单元早监听到所述响应网页进入静止状态时,利用预设的静止时长阈值识别所述响应网页的有效静止状态,所述统计单元统计所述有效静止状态对应的有效静止时长;
所述监听单元在监听到所述响应网页进入关闭状态时,所述汇总单元汇总所有有效静止时长及所有有效活跃时长,得到所述响应网页的浏览时长。
进一步地,所述检测修正模块包括标签单元、提取单元、比较单元和叠加单元,
其中,所述标签单元用以确定所述初级属性模型对应的初始标签群;
所述提取单元用以提取网页标签的属性信息;采用列表存储所述属性信息,每个网页标签对应所述列表中的一行信息;
所述比较单元用以在网页标签的浏览长度小于预定长度或者网页标签的数量大于预定数量时,根据所述属性信息对网页标签进行分组,得到标签组;
所述叠加单元用以根据所述标签组中网页标签的数量,采用层叠的方式显示所述标签组,以完成对所述初级属性模型的修正。
进一步地,所述构建模块包括获取单元、剔除单元和合并单元,
其中,所述获取单元用以获取初级属性模型中的标签数量,并将所述标签数量按照标签名称对应的字母进行排序,形成标签序列;
所述剔除单元用以根据第一权重系数将所述标签数量进行剔除,删除标签序列中的部分排列在所述标签序列靠后的标签;
所述获取单元还用以从保留的标签中确定与各标签对应的网页的浏览时长,进而根据浏览时长确定保留的各标签的在标签序列中的位置,并将更新位置后的标签序列作为二级属性模型的标签序列;
所述剔除单元选择第二权重系数对所述更新位置后的标签序列进行处理,以从标签序列中不规则选择原标签序列中标签数量的一半作为二级标签序列;
所述合并单元将利用第一权重系数处理过并进行保留的标签序列与经过第二权重系数处理过的二级标签序列进行合并,将两者的合集中对应的标签作为所述用户标签。
另一方面,本发明还提供一种基于如上所述的基于人工智能的客户画像分析系统的分析方法,该方法包括:
抓取用户在访问过程中的若干访问响应网页;
记录在所述访问响应网页中进行的操作数据和基于所述操作数据的响应数据;
根据用户在访问响应网页内执行操作数据对应的类别属性以及在各所述类别属性的点击数量确定所述用户的初级属性模型;
检测用户在响应数据的浏览时长,并基于所述浏览时长对所述初级属性模型进行修正,形成二级属性模型;
根据第一占比确定所述初级属性模型的第一权重系数,以及,根据第二占比确定所述二级属性模型的第二权重系数;
根据所述初级属性模型、第一权重系数、二级属性模型以及第二权重系数构建用户标签,以所述用户标签的集合作为用户画像;
所述第一占比根据访问响应网页中进行的操作数据中点击块的数量所确定,所述第二占比根据响应数据中的响应网页字符量所确定。
进一步地,记录在所述访问响应网页中进行的操作数据和基于所述操作数据的响应数据包括:
识别在所述访问响应网页中进行的点击操作;
提取任意两个点击操作时间的时间间隔;
在接收到对应的点击操作后在对应的时间间隔内完成基于所述点击操作的响应网页的展示。
进一步地,根据所述初级属性模型、第一权重系数、二级属性模型以及第二权重系数构建用户标签包括:
获取初级属性模型中的标签数量,并将所述标签数量按照标签名称对应的字母进行排序,形成标签序列;
根据第一权重系数将所述标签数量进行剔除,删除标签序列中的部分排列在所述标签序列靠后的标签;
从保留的标签中确定与各标签对应的网页的浏览时长,进而根据浏览时长确定保留的各标签的在标签序列中的位置,并将更新位置后的标签序列作为二级属性模型的标签序列;
选择第二权重系数对所述更新位置后的标签序列进行处理,以从标签序列中不规则选择原标签序列中标签数量的一半作为二级标签序列;
将利用第一权重系数处理过并进行保留的标签序列与经过第二权重系数处理过的二级标签序列进行合并,将两者的合集中对应的标签作为所述用户标签。
与现有技术相比,本发明的有益效果在于,通过基于用户的点击操作确定对应的响应网页数据,并基于在响应网页内的操作以及对响应网页的浏览时长来对用户进行精准分析,根据用户的操作确定基于用户的初级属性模型,并分析用户对响应数据的执行操作实现对初级属性模型的修正,使得用户标签的确定更为精准,并将用户标签的集合作为用户画像,实现通过标签内容的确定完成对用户的精准刻画,提升用户画像的精准度。
尤其,通过识别在响应网页中进行的点击操作,确定两个点击操作之间的时间间隔,并在对应的时间间隔内完成点击操作的响应网页的展示,实现对用户在响应网页内的操作内容的有效记录,作为用户属性建立的基础,使得在对用户属性分析的过程中具备充足的数据进行分析,保证用户属性分析的精准度。
尤其,通过对响应网页进行有效监听,确定响应网页的运行状态,有效对响应网页的运行状态进行有效记录,实现对响应网页的有效静止时长和有效活跃时长进行精准确定,进而确定用户对响应网页的浏览时长,进而实现通过检测修正模块确定的浏览时长对所述初级属性模型进行修正,实现对初级属性模型的合理修正,且修正所依据的内容为用户的直接操作,进而实现对用户基于实际操作确定用户的属性信息,提高对用户初级属性模型建立以及修正的精准性。
尤其,通过对初级属性模型中的标签进行有效剔除和删减,实现对用户标签的有效提取,并且在二级属性模型进行选择,以保证标签选择的随机性,使得对于用户的标签进行多次筛选,以实现对标签序列进行合并,保证并集内的标签的数量,避免标签数量过多或过少,无法确定用户属性的问题,实现对用户的属性信息的清晰界定,提高用户属性确定的精准性。
附图说明
图1为本发明实施例提供的基于人工智能的客户画像分析系统的一种结构示意图;
图2为本发明实施例提供的基于人工智能的客户画像分析系统的另一种结构示意图;
图3为本发明实施例提供的基于人工智能的客户画像分析系统的第三种结构示意图;
图4为本发明实施例提供的基于人工智能的客户画像分析系统的第四种结构示意图;
图5为本发明实施例提供的基于人工智能的客户画像分析方法的流程示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,本发明实施例提供的基于人工智能的客户画像分析系统,包括:
抓取模块10,用以抓取用户在访问过程中的若干访问响应网页;
记录模块20,与所述抓取模块连接,用以记录在所述访问响应网页中进行的操作数据和基于所述操作数据的响应数据;
第一确定模块30,用以根据用户在访问响应网页内执行操作数据对应的类别属性以及在各所述类别属性的点击数量确定所述用户的初级属性模型;
检测修正模块40,用以检测用户在响应数据的浏览时长,并基于所述浏览时长对所述初级属性模型进行修正,形成二级属性模型;
第二确定模块50,分别与所述第一确定模块和所述检测修正模块连接,用以根据第一占比确定所述初级属性模型的第一权重系数,以及,根据第二占比确定所述二级属性模型的第二权重系数;
构建模块60,用以根据所述初级属性模型、第一权重系数、二级属性模型以及第二权重系数构建用户标签,以所述用户标签的集合作为用户画像;
所述第一占比根据访问响应网页中进行的操作数据中点击块的数量所确定,所述第二占比根据响应数据中的响应网页字符量所确定。
具体而言,本发明实施例通过基于用户的点击操作确定对应的响应网页数据,并基于在响应网页内的操作以及对响应网页的浏览时长来对用户进行精准分析,根据用户的操作确定基于用户的初级属性模型,并分析用户对响应数据的执行操作实现对初级属性模型的修正,使得用户标签的确定更为精准,并将用户标签的集合作为用户画像,实现通过标签内容的确定完成对用户的精准刻画,提升用户画像的精准度。
具体而言,如图2所示,所述记录模块包括点击识别单元21、时间提取单元22以及响应弹出单元23;
其中所述点击识别单元用以识别在所述访问响应网页中进行的点击操作;
所述时间提取单元与所述点击识别单元连接,用以提取任意两个点击操作时间的时间间隔;
所述响应弹出单元,用以在接收到对应的点击操作后在对应的时间间隔内完成基于所述点击操作的响应网页的展示。
具体而言,本发明实施例通过识别在响应网页中进行的点击操作,确定两个点击操作之间的时间间隔,并在对应的时间间隔内完成点击操作的响应网页的展示,实现对用户在响应网页内的操作内容的有效记录,作为用户属性建立的基础,使得在对用户属性分析的过程中具备充足的数据进行分析,保证用户属性分析的精准度。
具体而言,继续参阅图2所示,所述第一确定模块30包括字符提取单元31、关键字识别单元32和分类单元33;
所述字符提取单元用以提取点击操作对应的点击区域内的字符信息;
所述关键字识别单元,与所述字符提取单元连接,用以从所述字符信息中确定是否包含预设的关键字符阵列中的任意关键字符串;
所述分类单元,与所述关键字识别单元连接,用以根据所述关键字符串与类别字符串的重合度确定所述字符信息的所属类别。
具体而言,本发明实施例通过对点击区域内的字符信息进行提取,并确定字符信息中是否包含关键字符串,利用类别字符串与关键字符串的重合度确定字符信息对应的所属类别,以实现通过关键字符串的对比来确定点击区域对应的属性类别,确定用户的操作内容的有效提取,提高用户属性的确定精度。
具体而言,所述第一确定模块内预先设置有包含若干个用户属性的标签,基于所述属性标签形成所述用户的初级属性模型。
具体而言,本发明实施例通过设置多个用户属性的标签,来形成用户的初级属性模型,并在后续过程中对初级属性模型中的标签根据用户的操作进行优化处理,实现对用户画像的精准确定,提高处理效率。
具体而言,如图3所示,所述检测修正模块40包括监听单元41、识别单元42、统计单元43和汇总单元44;
其中,所述监听单元在监听到响应网页进入活跃状态时,所述识别单元通过所述响应网页的预设的活跃指标取值识别所述响应网页的有效活跃状态,所述统计单元统计所述有效活跃状态对应的有效活跃时长;
所述监听单元早监听到所述响应网页进入静止状态时,利用预设的静止时长阈值识别所述响应网页的有效静止状态,所述统计单元统计所述有效静止状态对应的有效静止时长;
所述监听单元在监听到所述响应网页进入关闭状态时,所述汇总单元汇总所有有效静止时长及所有有效活跃时长,得到所述响应网页的浏览时长。
具体而言,本发明实施例通过对响应网页进行有效监听,确定响应网页的运行状态,有效对响应网页的运行状态进行有效记录,实现对响应网页的有效静止时长和有效活跃时长进行精准确定,进而确定用户对响应网页的浏览时长,进而实现通过检测修正模块确定的浏览时长对所述初级属性模型进行修正,实现对初级属性模型的合理修正,且修正所依据的内容为用户的直接操作,进而实现对用户基于实际操作确定用户的属性信息,提高对用户初级属性模型建立以及修正的精准性。
具体而言,所述检测修正模块包括标签单元、提取单元、比较单元和叠加单元,
其中,所述标签单元用以确定所述初级属性模型对应的初始标签群;
所述提取单元用以提取网页标签的属性信息;采用列表存储所述属性信息,每个网页标签对应所述列表中的一行信息;
所述比较单元用以在网页标签的浏览长度小于预定长度或者网页标签的数量大于预定数量时,根据所述属性信息对网页标签进行分组,得到标签组;
所述叠加单元用以根据所述标签组中网页标签的数量,采用层叠的方式显示所述标签组,以完成对所述初级属性模型的修正。
具体而言,本发明实施例通过提取网页标签的属性信息,并在特定条件下根据属性信息对网页标签进行分组,并按照层叠的方式显示标签组,实现对初级属性模型的修正,通过对网页标签的显示方式进行调整,实现对用户属性中的标签进行有效调整,使得对于任意用户基于响应网页信息的操作过程进行合理有效评估及处理,提高对于用户属性确定的效率。
具体而言,如图4所示,所述构建模块60包括获取单元61、剔除单元62和合并单元63,
其中,所述获取单元用以获取初级属性模型中的标签数量,并将所述标签数量按照标签名称对应的字母进行排序,形成标签序列;
所述剔除单元用以根据第一权重系数将所述标签数量进行剔除,删除标签序列中的部分排列在所述标签序列靠后的标签;
所述获取单元还用以从保留的标签中确定与各标签对应的网页的浏览时长,进而根据浏览时长确定保留的各标签的在标签序列中的位置,并将更新位置后的标签序列作为二级属性模型的标签序列;
所述剔除单元选择第二权重系数对所述更新位置后的标签序列进行处理,以从标签序列中不规则选择原标签序列中标签数量的一半作为二级标签序列;
所述合并单元将利用第一权重系数处理过并进行保留的标签序列与经过第二权重系数处理过的二级标签序列进行合并,将两者的合集中对应的标签作为所述用户标签。
具体而言,本发明实施例通过对初级属性模型中的标签进行有效剔除和删减,实现对用户标签的有效提取,并且在二级属性模型进行选择,以保证标签选择的随机性,使得对于用户的标签进行多次筛选,以实现对标签序列进行合并,保证并集内的标签的数量,避免标签数量过多或过少,无法确定用户属性的问题,实现对用户的属性信息的清晰界定,提高用户属性确定的精准性。
本发明实施例还提供一种基于人工智能的客户画像分析方法,如图5所示,该方法包括:
步骤S100:抓取用户在访问过程中的若干访问响应网页;
步骤S200:记录在所述访问响应网页中进行的操作数据和基于所述操作数据的响应数据;
步骤S300:根据用户在访问响应网页内执行操作数据对应的类别属性以及在各所述类别属性的点击数量确定所述用户的初级属性模型;
步骤S400:检测用户在响应数据的浏览时长,并基于所述浏览时长对所述初级属性模型进行修正,形成二级属性模型;
步骤S500:根据第一占比确定所述初级属性模型的第一权重系数,以及,根据第二占比确定所述二级属性模型的第二权重系数;
步骤S600:根据所述初级属性模型、第一权重系数、二级属性模型以及第二权重系数构建用户标签,以所述用户标签的集合作为用户画像;
所述第一占比根据访问响应网页中进行的操作数据中点击块的数量所确定,所述第二占比根据响应数据中的响应网页字符量所确定。
具体而言,记录在所述访问响应网页中进行的操作数据和基于所述操作数据的响应数据包括:
识别在所述访问响应网页中进行的点击操作;
提取任意两个点击操作时间的时间间隔;
在接收到对应的点击操作后在对应的时间间隔内完成基于所述点击操作的响应网页的展示。
具体而言,根据所述初级属性模型、第一权重系数、二级属性模型以及第二权重系数构建用户标签包括:
获取初级属性模型中的标签数量,并将所述标签数量按照标签名称对应的字母进行排序,形成标签序列;
根据第一权重系数将所述标签数量进行剔除,删除标签序列中的部分排列在所述标签序列靠后的标签;
从保留的标签中确定与各标签对应的网页的浏览时长,进而根据浏览时长确定保留的各标签的在标签序列中的位置,并将更新位置后的标签序列作为二级属性模型的标签序列;
选择第二权重系数对所述更新位置后的标签序列进行处理,以从标签序列中不规则选择原标签序列中标签数量的一半作为二级标签序列;
将利用第一权重系数处理过并进行保留的标签序列与经过第二权重系数处理过的二级标签序列进行合并,将两者的合集中对应的标签作为所述用户标签。
具体而言,本发明实施例中的基于人工智能的客户画像分析方法应用于上述基于人工智能的客户画像分析系统,能够实现与上述基于人工智能的客户画像分析系统相同的技术效果,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于人工智能的客户画像分析系统,其特征在于,包括:
抓取模块,用以抓取用户在访问过程中的若干访问响应网页;
记录模块,与所述抓取模块连接,用以记录在所述访问响应网页中进行的操作数据和基于所述操作数据的响应数据;
第一确定模块,用以根据用户在访问响应网页内执行操作数据对应的类别属性以及在各所述类别属性的点击数量确定所述用户的初级属性模型;
检测修正模块,用以检测用户在响应数据的浏览时长,并基于所述浏览时长对所述初级属性模型进行修正,形成二级属性模型;
第二确定模块,分别与所述第一确定模块和所述检测修正模块连接,用以根据第一占比确定所述初级属性模型的第一权重系数,以及,根据第二占比确定所述二级属性模型的第二权重系数;
构建模块,用以根据所述初级属性模型、第一权重系数、二级属性模型以及第二权重系数构建用户标签,以所述用户标签的集合作为用户画像;
所述第一占比根据访问响应网页中进行的操作数据中点击块的数量所确定,所述第二占比根据响应数据中的响应网页字符量所确定;
所述检测修正模块包括监听单元、识别单元、统计单元和汇总单元;
其中,所述监听单元在监听到响应网页进入活跃状态时,所述识别单元通过所述响应网页的预设的活跃指标取值识别所述响应网页的有效活跃状态,所述统计单元统计所述有效活跃状态对应的有效活跃时长;
所述监听单元在监听到所述响应网页进入静止状态时,利用预设的静止时长阈值识别所述响应网页的有效静止状态,所述统计单元统计所述有效静止状态对应的有效静止时长;
所述监听单元在监听到所述响应网页进入关闭状态时,所述汇总单元汇总所有有效静止时长及所有有效活跃时长,得到所述响应网页的浏览时长;
所述检测修正模块包括标签单元、提取单元、比较单元和叠加单元,
其中,所述标签单元用以确定所述初级属性模型对应的初始标签群;
所述提取单元用以提取网页标签的属性信息;采用列表存储所述属性信息,每个网页标签对应所述列表中的一行信息;
所述比较单元用以在网页标签的浏览长度小于预定长度或者网页标签的数量大于预定数量时,根据所述属性信息对网页标签进行分组,得到标签组;
所述叠加单元用以根据所述标签组中网页标签的数量,采用层叠的方式显示所述标签组,以完成对所述初级属性模型的修正。
2.根据权利要求1所述的基于人工智能的客户画像分析系统,其特征在于,所述记录模块包括点击识别单元、时间提取单元以及响应弹出单元;
其中所述点击识别单元用以识别在所述访问响应网页中进行的点击操作;
所述时间提取单元与所述点击识别单元连接,用以提取任意两个点击操作时间的时间间隔;
所述响应弹出单元,用以在接收到对应的点击操作后在对应的时间间隔内完成基于所述点击操作的响应网页的展示。
3.根据权利要求2所述的基于人工智能的客户画像分析系统,其特征在于,所述第一确定模块包括字符提取单元、关键字识别单元和分类单元;
所述字符提取单元用以提取点击操作对应的点击区域内的字符信息;
所述关键字识别单元,与所述字符提取单元连接,用以从所述字符信息中确定是否包含预设的关键字符阵列中的任意关键字符串;
所述分类单元,与所述关键字识别单元连接,用以根据所述关键字符串与类别字符串的重合度确定所述字符信息的所属类别。
4.根据权利要求3所述的基于人工智能的客户画像分析系统,其特征在于,
所述第一确定模块内预先设置有包含若干个用户属性的标签,基于所述属性标签形成所述用户的初级属性模型。
5.根据权利要求1所述的基于人工智能的客户画像分析系统,其特征在于,所述构建模块包括获取单元、剔除单元和合并单元,
其中,所述获取单元用以获取初级属性模型中的标签数量,并将所述标签数量按照标签名称对应的字母进行排序,形成标签序列;
所述剔除单元用以根据第一权重系数将所述标签数量进行剔除,删除标签序列中的部分排列在所述标签序列靠后的标签;
所述获取单元还用以从保留的标签中确定与各标签对应的网页的浏览时长,进而根据浏览时长确定保留的各标签的在标签序列中的位置,并将更新位置后的标签序列作为二级属性模型的标签序列;
所述剔除单元选择第二权重系数对所述更新位置后的标签序列进行处理,以从标签序列中不规则选择原标签序列中标签数量的一半作为二级标签序列;
所述合并单元将利用第一权重系数处理过并进行保留的标签序列与经过第二权重系数处理过的二级标签序列进行合并,将两者的合集中对应的标签作为所述用户标签。
6.一种基于权利要求1-5任一项所述的基于人工智能的客户画像分析系统的分析方法,其特征在于,包括:
抓取用户在访问过程中的若干访问响应网页;
记录在所述访问响应网页中进行的操作数据和基于所述操作数据的响应数据;
根据用户在访问响应网页内执行操作数据对应的类别属性以及在各所述类别属性的点击数量确定所述用户的初级属性模型;
检测用户在响应数据的浏览时长,并基于所述浏览时长对所述初级属性模型进行修正,形成二级属性模型;
根据第一占比确定所述初级属性模型的第一权重系数,以及,根据第二占比确定所述二级属性模型的第二权重系数;
根据所述初级属性模型、第一权重系数、二级属性模型以及第二权重系数构建用户标签,以所述用户标签的集合作为用户画像;
所述第一占比根据访问响应网页中进行的操作数据中点击块的数量所确定,所述第二占比根据响应数据中的响应网页字符量所确定。
7.根据权利要求6所述的分析方法,其特征在于,记录在所述访问响应网页中进行的操作数据和基于所述操作数据的响应数据包括:
识别在所述访问响应网页中进行的点击操作;
提取任意两个点击操作时间的时间间隔;
在接收到对应的点击操作后在对应的时间间隔内完成基于所述点击操作的响应网页的展示。
8.根据权利要求7所述的分析方法,其特征在于,根据所述初级属性模型、第一权重系数、二级属性模型以及第二权重系数构建用户标签包括:
获取初级属性模型中的标签数量,并将所述标签数量按照标签名称对应的字母进行排序,形成标签序列;
根据第一权重系数将所述标签数量进行剔除,删除标签序列中的部分排列在所述标签序列靠后的标签;
从保留的标签中确定与各标签对应的网页的浏览时长,进而根据浏览时长确定保留的各标签的在标签序列中的位置,并将更新位置后的标签序列作为二级属性模型的标签序列;
选择第二权重系数对所述更新位置后的标签序列进行处理,以从标签序列中不规则选择原标签序列中标签数量的一半作为二级标签序列;
将利用第一权重系数处理过并进行保留的标签序列与经过第二权重系数处理过的二级标签序列进行合并,将两者的合集中对应的标签作为所述用户标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310736801.3A CN116484109B (zh) | 2023-06-21 | 2023-06-21 | 基于人工智能的客户画像分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310736801.3A CN116484109B (zh) | 2023-06-21 | 2023-06-21 | 基于人工智能的客户画像分析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116484109A CN116484109A (zh) | 2023-07-25 |
CN116484109B true CN116484109B (zh) | 2023-09-01 |
Family
ID=87227212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310736801.3A Active CN116484109B (zh) | 2023-06-21 | 2023-06-21 | 基于人工智能的客户画像分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484109B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738216B (zh) * | 2023-08-15 | 2023-12-26 | 湖南警察学院 | 预警大数据的关联处理方法和装置 |
CN119128283A (zh) * | 2024-11-18 | 2024-12-13 | 三七信息产业有限公司 | 一种客户信息画像构建处理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056407A (zh) * | 2016-06-03 | 2016-10-26 | 北京网智天元科技股份有限公司 | 基于用户行为分析的网银用户画像方法及设备 |
CN106940705A (zh) * | 2016-12-20 | 2017-07-11 | 上海掌门科技有限公司 | 一种用于构建用户画像的方法与设备 |
CN112632405A (zh) * | 2020-12-31 | 2021-04-09 | 数字广东网络建设有限公司 | 一种推荐方法、装置、设备及存储介质 |
WO2022100518A1 (zh) * | 2020-11-12 | 2022-05-19 | 北京沃东天骏信息技术有限公司 | 一种基于用户画像的物品推荐方法和装置 |
-
2023
- 2023-06-21 CN CN202310736801.3A patent/CN116484109B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056407A (zh) * | 2016-06-03 | 2016-10-26 | 北京网智天元科技股份有限公司 | 基于用户行为分析的网银用户画像方法及设备 |
CN106940705A (zh) * | 2016-12-20 | 2017-07-11 | 上海掌门科技有限公司 | 一种用于构建用户画像的方法与设备 |
WO2022100518A1 (zh) * | 2020-11-12 | 2022-05-19 | 北京沃东天骏信息技术有限公司 | 一种基于用户画像的物品推荐方法和装置 |
CN112632405A (zh) * | 2020-12-31 | 2021-04-09 | 数字广东网络建设有限公司 | 一种推荐方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116484109A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116484109B (zh) | 基于人工智能的客户画像分析系统及方法 | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN104067567B (zh) | 用于使用字符直方图进行垃圾邮件检测的系统和方法 | |
US20110035400A1 (en) | Advertising medium determination device and method therefor | |
US20090089244A1 (en) | Method of detecting spam hosts based on clustering the host graph | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN110336838B (zh) | 账号异常检测方法、装置、终端及存储介质 | |
US20090089373A1 (en) | System and method for identifying spam hosts using stacked graphical learning | |
JP5670787B2 (ja) | 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム | |
CN114187036B (zh) | 一种基于行为特征识别的互联网广告智能推荐管理系统 | |
CN117216403B (zh) | 一种基于Web的个性化服务推荐方法 | |
CN112561565A (zh) | 一种基于行为日志的用户需求识别方法 | |
US20150142782A1 (en) | Method for associating metadata with images | |
CN116452212B (zh) | 一种智能客服商品知识库信息管理方法及系统 | |
CN118364308A (zh) | 数据处理方法 | |
CN111611981A (zh) | 信息识别方法和装置及信息识别神经网络训练方法和装置 | |
CN111783786A (zh) | 图片的识别方法、系统、电子设备及存储介质 | |
CN112445985A (zh) | 一种基于浏览行为优化的相似人群获取方法 | |
CN113486254B (zh) | 一种基于大数据的活动推荐方法及系统 | |
CN112819527B (zh) | 一种用户分群处理方法及装置 | |
CN112818215B (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
CN113569879B (zh) | 异常识别模型的训练方法、异常账号识别方法及相关装置 | |
CN114331740A (zh) | 产业图谱大数据分析及扫描的数字化投资价值管理方法 | |
CN113609270A (zh) | 一种可标签区分客户的用户行为数据分析系统 | |
WO2020106355A1 (en) | Printing relevant content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |