CN111651753A - 用户行为分析系统及方法 - Google Patents
用户行为分析系统及方法 Download PDFInfo
- Publication number
- CN111651753A CN111651753A CN201910161553.8A CN201910161553A CN111651753A CN 111651753 A CN111651753 A CN 111651753A CN 201910161553 A CN201910161553 A CN 201910161553A CN 111651753 A CN111651753 A CN 111651753A
- Authority
- CN
- China
- Prior art keywords
- user behavior
- behavior data
- user
- model
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种用户行为分析系统及方法,该系统包括获取模块、分析模块、生成模块及更新模块。获取模块用于获取的用户行为数据,分析模块用于将用户行为数据输入到规则检测模型、机器学习模型和/或知识图谱模型,输出可疑事件的用户行为数据;生成模块用于生成并保存该可疑事件对应的用户的标签;更新模块用于基于该标签对应的用户行为数据,更新该规则检测模型、机器学习模型和/或知识图谱模型。本申请实施例在对用户行为数据分析后,利用生成保存的标签对应的行为数据以及获取的行为数据对各个用户行为分析模型进行更新优化,完成了用户行为分析,实现了标签数据的循环利用,用户行为分析模型的同步更新,提高了用户行为数据分析的准确性。
Description
技术邻域
本申请一般涉及计算机技术领域,具体涉及一种用户行为分析系统及方法。
背景技术
随着网络的发达,在提供便利的同时,也带来了安全隐患。目前,可以通过大数据挖掘来分析判断异常用户,如通过提取用户的登录或下载等行为数据,来确定用户的行为是否正常,以阻止信息泄露等恶意事件发生。
目前,在利用大数据进行用户行为分析时,通过设置的规则进行判断,或通过预先训练的机器学习模型进行判断。
对于预设的规则,目前的规则所体现的确定因素单一,无法充分体现用户行为的实际意图,导致预测准确度低。对于机器学习,其在训练构建模型时,输入的样本缺少标签,导致预测准确度低。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种用户行为分析系统及方法,以提高用户行为分析的准确度。
第一方面,本申请实施例提供一种用户行为分析系统,包括:
获取模块,用于获取待分析的用户行为数据;
分析模块,用于将该用户行为数据输入到规则检测模型、机器学习模型和/或知识图谱模型,输出可疑事件的用户行为数据;
生成模块,用于基于该可疑事件的用户行为数据,生成并保存该可疑事件对应的用户的标签,该标签用于指示该用户的用户行为数据是否为异常事件;
更新模块,用于基于待分析的用户行为数据或该标签对应的用户行为数据,更新该规则检测模型、机器学习模型和/或知识图谱模型。
第二方面,本申请实施例提供一种用户行为分析方法,包括:
获取待分析的用户行为数据;
将该用户行为数据输入到规则检测模型、机器学习模型和/或知识图谱模型,输出可疑事件的用户行为数据;
基于该可疑事件的用户行为数据,生成并保存该可疑事件对应的用户的标签,该标签用于指示该用户的用户行为数据是否为异常事件;
基于待分析的用户行为数据或该用户标签对应的用户行为数据,更新该规则检测模型、机器学习模型和/或知识图谱模型。
综上,本申请实施例提供的用户行为分析系统及方法,通过利用获取模块获取的用户行为数据后,利用分析模块中的用户行为分析模型对用户行为数据进行分析,得到可疑事件,进而对可疑事件对应的用户添加标签,并利用获取的用户行为数据或标签对应的行为数据对各个用户行为分析模型进行更新优化,完成了用户行为分析,实现了用户标签数据的循环利用,用户行为分析模型的同步更新,提高了用户行为数据分析的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请的实施例的用户行为分析系统的结构示意图;
图2为本申请的实施例的用户行为分析方法的流程示意图;
图3为本申请的又一实施例的用户行为分析方法的流程示意图;
图4为本申请的另一实施例的用户行为分析方法的流程示意图;
图5为本申请的实施例的行为基线的示意图;
图6为本申请的实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与申请相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
可以理解,本申请实施例中,在服务器中预先构建有一个或多个用户行为分析模型,如规则检测模型、机器学习模型和/或知识图谱模型。
在用户行为分析时,当服务器中构建有规则检测模型时,可以首先将待分析用户的行为数据输入到规则检测模型,以对用户行为进行分析预测。
或者,当服务器中没有规则检测模型时,可以对用户行为数据进行训练,初步构建机器学习模型和/或知识图谱模型,并利用构建的机器学习模型和/或知识图谱模型的输出结果,对用户行为进行分析。
可以理解,初步构建的用户行为分析模型,由于获取的样本数量有限,或预测规则为单一尺度的规则,使得用户行为预测的准确性不高。
例如,对于初步构建的规则检测模型。由于实际中的用户行为发生的背景复杂,而采用单一尺度的规则来确定用户是否为异常用户时,无法有准确合理预测。对于初步构建的机器学习模型及知识图谱模型,由于无法获取有效的正负样本的标签,从而使得训练的上述模型的预测效果差。
因此,本申请实施例提供的用户行为分析系统及方法,服务器中初步构建了上述用户行为分析模型后,在实际运行过程中,在利用用户行为分析模型对获取的待分析的用户行为数据分析预测后,进而可以利用每个模型的输出结果,确定正负样本数据的特性,逐步完成每个用户行为分析模型的自循环优化。
为了便于理解和说明,下面通过图1至图6详细说明本申请实施例提供的用户行为分析系统及方法。
图1所示为本申请实施例提供的用户行为分析系统的结构示意图,如图1所示,该系统可以包括获取模块110、分析模块120、生成模块130及更新模块140。
获取模型110,用于获取待分析的用户行为数据。
具体的,本申请实施例提供的用户行为分析系统,运行该系统的服务器可以从存储用户数据的数据库中提取的用户行为数据,包括用户基本信息及用户操作信息等。
例如,获取模块获取待分析的用户行为数据时,可以通过设置条件进行用户行为数据的提取,如最近一年或一个季度的用户行为数据。获取如表1所示的用户ID、操作类型、操作时间及操纵对象等数据。可以理解,用户行为数据预先存储在数据库中,如MySQL等架构的数据库中。
表1用户行为数据
可以理解,本申请实施例中,上述获取行为可以发生在以下两种场景:系统中运行初期,即一个或多个用户行为分析模型初步构建或完成时;系统中运行稳定,即一个或多个用户行为分析模型逐步完善时。
分析模块120,用于将该用户行为数据输入到规则检测模型、机器学习模块和/或知识图谱模型,输出可疑事件对应的行为数据。
具体的,在获取到的用户行为数据后,可以将用户行为数据输入到服务器中构建的上述一种或多种用户行为分析模型,如规则检测模型、机器学习模型和/或知识图谱模型,使得相应的行为分析模型输出可疑事件对应的行为数据。
可选的,在上述第一种场景下,当获取行为发生在用户行为分析模型初步构建时,如系统中初步构建有规则检测模型,也可能初步构建有机器学习模型和/或知识图谱模型。则分析模块具体可将的用户行为数据先输入到初步构建的该规则检测模型中,使得该规则检测模型利用其内部的规则,对输入的用户行为数据进行筛选,输出可疑事件对应的行为数据。
可以理解,初步构建的规则检测模型,可以包括至少一个单一尺度或多尺度的规则,如时间维度或空间维度的规则,每条规则可以定义有阈值及范围。如某个行为发生的频率阈值、时间范围或空间范围。则当用户的某个行为数据超出该阈值或范围时,则说明该用户为异常用户。可以理解,规则检测模型中的规则可以根据先验知识(安全管控、内控合规等要求)、行为基线及同组学习等来确定,如可以利用获取的用户行为数据来确定。
例如,当规则检测模型中的规则为时间维度的单一尺度的规则,该规则可以通过时间序列进行规则确定。如按照时间维度统计某用户的登录次数,可以确定该用户通常情况下的平均登录水平,图5所示的行为基线,在最近五个月的登录情况。则可以确定该用户的登录次数的规则0<n<10,即阈值为10。则当检测到待预测的用户行为数据登录次数大于10时,则可以确定该用户当前的登陆行为为可疑事件,则输出该可疑事件的行为数据,即实际的登录次数。
可选的,在上述第一种场景下,获取行为发生在模型构建初期时,如系统中没有规则检测模型,则分析模型具体可以包括第一构建单元121和/或第二构建单元122。
具体的,当获取到用户行为数据后,首先可以利用第一构建单元对用户行为数据进行训练,即进行无监督学习,如利用聚类等算法进行无监督的机器学习,生成机器学习模型。即将用户进行分群,并分析每个群体的共同属性后,对每个群体添加标签,以确定可疑事件。
对于知识图谱模型的初始搭建时,在首次获取用户的行为数据后,可以利用第二构建单元,根据行为数据的关联关系,搭建初步的用户关系网。此时的知识图谱模型只是普通的关系网,仅仅能够确定用户与用户之间的关系、用户与ip之间的关系、用户与账号之间的关系等。虽然一部分的可疑事件可以直接从普通的关系网络中观察到的,例如账号同享,一个账号同时被两个人使用,则说明该账号的登录行为为可疑事件。然而,其他的可疑事件无法确定,如不同的行为数据是零星地散落在不同的地方,即没有形成密集的分布,无法确认高危行为群体。
可以理解,系统中可以包括第一构建单元及第二构建单元,即可以同时构建两个用户行为分析模型,也可以仅构建其中一个用户行为分析模型。
可选的,在上述的第二场景下,当获取行为数据的操作发生在所有的用户行为分析模型运行稳定时,即当该系统具有大量的正常用户和异常用户标签时,该分析模块可以将获取的待分析的用户行为数据同步输入到各个用户行为分析模型,或者选择性的输入到其中一个行为分析模型,以对用户的行为进行分析。
例如,当用户行为分析模型运行到后期稳定状态时,可以根据的用户行为数据的属性,选择性的仅将的用户行为数据输入到该机器学习模型中,通过半监督对获取的待分析用户的行为数据进行聚类,并利用用户标签对组内的用户进行属性共性的查看,输出可疑事件对应的用户行为数据。
可以理解,在利用运行稳定的机器学习模型分析用户行为时,由于具有客观数量的标签,而标签对应的用户的行为数据具有传染性,一个坏的点可能传染到其他点。例如,已有一个敏感信息外泄的有监督模型,并已发现一定数量的标签的行为数据。另一个登录行为的无监督模型,该模型用聚类算法生成不同的簇,但暂时无法判断可疑事件。此时,可将敏感信息外泄行为的样本数据在登录行为模型的簇中标识出来,若敏感信息外泄样本都集中在同一个簇中,基于传染性,该簇中的其他行为转变成可疑事件的可能性比其他簇的行为大,可对该簇的所有行为对应的用户列为重点观察对象,对其共同属性和行为进行分析。进一步,被挖掘的共同属性也可再次被用于敏感信息外泄的有监督模型中。
又例如,当分析模型运行到后期稳定状态时,可以根据用户行为数据的属性,选择性的将用户的行为数据输入到该知识图谱模型,通过社群划分和异常社群检测技术,输出准异常用户。
可以理解,标签数据的可传染性同样可用于知识图谱,通过用户间的属性关联,圈出与标签对应的行为数据同一分群的用户,从属性上进行异常检测,从而可以与规则学习及机器学习相辅相成,提高异常检测的准确性。
可以理解,由于上述分析模型的输出结果即是对待分析用户的完成的分析,其分析结果存在误差,使得该输出结果中可能包括正常行为。因此,上述各个用户行为分析模型输出的可疑事件可供工作人员对其进行查看筛选,确定每个用户行为分析模型中输出的可疑事件中的正常行为及可疑事件,并在添加标签后,对其进行保存,以作为后续对各个用户行为分析模型更新的样本数据。即本申请实施例中可以对上述输出结果进行循环再利用,实现对用户行为分析模型的优化。
可选的,本申请实施例在各个用户行为分析模型分析输出可疑事件后,为工作人员显示全部或部分可疑事件时,可以根据实际情况确定显示的可疑事件的数量以及方式。
例如,可以对显示给工作人员的准异常用户的数量及方式进行设置。当工作人员工作量大,如工作繁忙时,每天只看20个可疑事件,则可以将推送的数量设置为20等。又或者,可以设置为对机器学习模型输出的可疑事件推送量多,规则的可疑事件推送量。
还可以理解,如果是规则检测模型输出的可疑事件,会根据规则的严重程度进行打分,并直接按照分数高到低进行排序来显示。
如果是机器学习模型中“有监督学习”生成的可疑事件,其结果本身可能就会自带分数,则可以直接按分数高到低进行排序显示。如果是机器学习中“无监督学习”生成的可疑事件,其本身不带分数,工作人员可以随机抽查。
如果是知识图谱模型生成的可疑事件,其本身不带分数,工作人员同样可以随机抽查。
生成模块130,用于基于可疑事件的用户行为数据,生成并保存可疑事件对应的用户的标签,标签用于指示用户的行为数据是否发生异常事件。
具体的,服务器将每个用户行为分析模型筛选出的可疑事件推送到网页前端显示后,工作人员可以根据可疑事件对应的行为数据对可疑事件进行筛选,确定正常事件和异常事件,并根据确定的正常事件和异常事件,对上述可疑事件对应的用户添加标签。然后将可疑事件对应的行为数据、用户基本信息及标签存储到数据库中,以供各个模型利用该标签数据进行模型的更新。
可选的,推送到网页前端的可疑事件可以包括如下表所示的数据。则调查人员收到可疑事件提示之后,可以根据可疑事件上的信息,例如用户id在平台上进行用户搜索,会搜索到用户的明细操作信息,如下表2所示:
表2
可选的,工作人员可以对用户的信息进行单条件筛选,例如只关注登录的信息等。也可以多条件筛选,例如可能在节假日在公司进行异常登录,非法将数据从系统里面下载了,然后外发到公司的竞争对手,从而获利。该情况下,需要跟随该用户的时间轴记录进行一连串行为的根据。
工作人员在调查筛选完之后,将在上述行为数据的用户打上标签,并将生成的标签及该用户的行为数据存储在数据库。在生成标签时,如该可疑事件确实为异常事件的标为1,否则标为0,标签结果如下表3所示:
表3
更新模块140,用于基于待分析的用户行为数据或该标签对应的用户行为数据,更新该规则检测模型、机器学习模型和/或知识图谱模型。
具体的,在通过上述步骤在数据库中保存包括正常用户和异常用户的正负样本标签数据后,可以提取数据库中的正负样本数据以及获取的用户行为数据对已有的用户行为分析模型进行更新优化。
可以理解,进一步,可以根据用户标签对应的用户行为数据来确定更新的用户行为分析模块。如行为数据没有通用性,则可能不适用于机器学习模型的更新,此时可将此类用户标签对应的行为数据应用于规则检测模型的更新。
还可以理解,用户行为分析模型的更新,同样可以发生在以下两种场景:用户行为分析模型构建初期或运行稳定时。在用户行为分析模型构建初期的场景下,可构建多尺度规则、无监督学习模型、知识图谱。随着标签数据量的增加,可以利用获取的用户行为数据,用有监督学习算法对数据进行模型训练;或利用获取的用户行为数据构建半监督学习模型和更新知识图谱。在各个模型运行稳定后场景下,可以对现有的有监督学习模型、半监督学习模型和知识图谱进行更新。
可选的,在模型构建初期,系统可以不用设置更新触发条件,在每次对获取到用户行为数据分析,得到用户标签后,工作人员即可利用用户行为数据对各个用户行为分析模型进行更新。
可选的,在各个模型运行稳定后场景下,系统中可以设置用户行为分析模型更新的触发条件,如用户行为分析模型的分析结果的准确率。如可以设置为准确率低于90%后,触发更新程序。
进一步,为了能够确定每个用户行为分析模型每次分析的准确率,可以在系统中为每个用户行为分析模型设置有模型结果评估指标(方法),以衡量模型效果。
可选的,该准确率具体可以通过比较分析结果与工作人员存储在数据库中的标签数据来确定,即当工作人员对系统推送的可疑时间添加标签完成后,系统可以启动准确率的确定程序,来计算当前用户行为分析模型的准确率。
例如,当前的用户行为分析模型为规则检测模型,则可以比较规则检测模型的检测结果与标签是否一致:
若检测结果与标签一致,则预设算法的检测结果准确;若检测结果与标签不一致,则预设算法的检测结果不准确。通过准确的检测结果和不准确的检测结果,可以计算规则检测模型的准确率。
可以理解,检测结果与标签一致,即检测结果准确,可以是通过预设评估指标检测到可疑事件存在异常,同时,该可疑事件携带“是标签”;或者,也可以是通过预设评估指标检测到可疑事件不存在异常,同时,该可疑事件携带“否标签”。
检测结果与标签不一致,即检测结果不准确,可以是通过预设评估指标检测到可疑事件存在异常,同时,该可疑事件携带“否标签”;或者,也可以是通过预设指标检测到可疑事件不存在异常,同时,该可疑事件携带“是标签”。
可以理解,准确率的计算方法可以有多种,本申请对此不作限制。
可选的,该更新模块140可以包括第一更新单元141、第二更新单元142和/或第三更新单元143。
具体的,第一更新单元,用于在模型运行过程中,可以利用获取的用户行为数据对已有的规则进行评估及补充,以优化规则,生成多尺度的规则。
可选的,当规则检测模型运行稳定时,该第一更新单元首先可以确定规则检测模型的准确率,并判断该准确率是否小于阈值,如果是,则可以基于用户标签对应的行为数据或当前分析的所有用户的行为数据,更新规则检测模型中的规则的阈值和/或范围。或者可以利用获取的用户行为数据和标签对应的行为数据对规则进行补充。
例如,初步构建时,可以通过时间序列进行规则确定,按照时间维度统计某用户的登录次数,可以确定该用户通常情况下的平均登录水平,图4所示的行为基线,在最近五个月等登录情况。则可以确定该用户的时间登录次数的规则0<n<10,即规则的阈值为10。则当检测到登录次数大于阈值10时,则可以确定该行为为可疑事件。
可以理解,由于实际中的用户行为发生的背景复杂。当该规则检测模型输出的用户的登录次数大于10次后,被判定为可疑事件。而经工作人员筛选发现,当前处于季度末,需要频繁登录来处理结算等业务,即为正常事件。此时,说明规则中在全年度范围下,以10为阈值,不够合理,需要更新。则可以更新规则的阈值、时间范围和空间范围,即重新设置规则模型中的规则:在每个季度的前两个月的阈值为10,而在每个季度末,设置阈值为50,所有的登录行为限制在公司内部。
又例如,按时间的维度,一周有分工作日和周末,工作日和周末用户的行为(如登陆系统)是不同的,工作日会多,周末会偏少。或者,不同的工作性质,用户的行为次数不同。因此,不能用同一个规则阈值来判断用户是否行为异常,需要根据具体的情况采用不同的尺度来判断异常。
进一步的,在判断某个用户是否为异常用户时,不能够单单考虑一个因素。例如,当规则检测模型通过检测,发现某个用户在非工作日内登录了账号,则被判定为可疑事件输出。而经过工作人员筛选发现,该用户虽然在非工作人日内登录了账号,单并未产生数据传输的行为,即并未发生数据泄露的行为,则说明仅仅依靠的单一的登录行为无法判定该用户是否为异常用户。
此时,可以进一步更新规则检测模型中的规则,即更新规则为在非工作日发生登录行为,且发生输出传输行为,则为异常用户。
可以理解,多尺度规则检测是将数据按照时间等维度,检测出数据在不同的周期、阶段或范围里展示出的特征、规律和变化,从而针对不同的周期、不同阶段或范围分别设定准确的阈值规则。
可选的,第二更新单元用于基于待分析的用户行为数据或用户标签对应的行为数据,对机器学习模型进行训练。
具体的,该第二更新单元可以在机器学习模型运行稳定时,利用标签数据,确定机器学习模型本次对用户行为预测的准确率。进一步,当该准确率小于阈值时,则可以从数据库中提取生成的标签数据,并可以将待分析用户的行为数据或标签对应的行为数据输入到机器学习模型中,使得该机器学习模型可以输出分析结果;然后可以对分析结果进行分析,以对机器学习模型的算法或参数进行调整。
第三更新单元143,用于将用户标签添加到知识图谱模型中。
具体的,对于知识图谱模型,在分析结果的准确率小于阈值,可以利用得到的标签用户及所有的用户行为数据,重新构建用户行为关系图谱。可以理解,在将用户标签进行相应位置的添加后,从而可以在用户行为分析过程中,利用用户标签的可传染性,通过用户间的属性关联,圈出与样本数据同一分群的用户,从属性上进行异常检测,与规则学习和机器学习相辅相成,进一步提高异常检测的准确性。完成定位出与样本(存在可疑操作的用户)关系紧密的用户。
例如,不同的样本都集中在一个地方,即密集度高,那么可以确认这个群体及周边的用户是高危群体,此时抽取高危群体内尚未定义为异常的用户来进行调查。
本申请实施例中构建的分析机制,在构建初期,由于缺少样本,模型主要依赖规则,搭配机器学习中无监督学习和知识图谱关系网,定位可疑事件,输出正负样本;中期逐步积累样本,模型重心转移到机器学习的无监督学习和知识图谱的传染性分析;后期在充足样本的基础上,运用机器学习中有监督学习,进一步提升异常检测的准确性。整个过程,结合样本的数量、数据的范围和质量和模型的效果决定具体使用规则或机器学习或知识图谱任意一种方法或者方法的组合。
进一步在对获取的用户行为分析的同时,利用已分析的用户行为数据,作为优化模型的样本数据,对模型进行优化,实现了用户标签数据的循环利用,完成了通过已分析用户行为数据进行模型优化的目的,使得每个用户行为分析模型达到最佳,实现用户行为的准确预测。
图2所示为本申请实施例提供的用户行为分析方法的流程示意图,如图2所示,该方法可以包括:
S210,获取待分析的用户行为数据;
S220,将该用户行为数据输入到规则检测模型、机器学习模型和/或知识图谱模型,输出可疑事件对应的用户行为数据。
S230,基于可疑事件的用户行为数据,生成并保存可疑事件对应的用户的标签,标签用于指示用户的行为数据是否发生异常事件。
S240,基于待分析的用户行为数据或该用户标签对应的用户行为数据,更新该规则检测模型、机器学习模型和/或知识图谱模型。
可以理解,该实施例中的上述步骤的具体实现的是上述单元模块实现的过程类似,此处不再赘述。
图3所示为本申请另一实施例的用户行为分析方法的流程示意图,如图3所示,该方法可以包括:
S310,获取待分析的用户行为数据;
S320,将该用户行为数据输入到规则检测模型,输出可疑事件对应的用户行为数据。
S330,基于该可疑事件对应的用户行为数据,生成并保存可疑事件对应的用户的标签。
S341,基于待分析的用户行为数据或该标签对应的用户行为数据,更新该规则检测模型中的规则。
S342,基于待分析的用户行为数据或该标签对应的用户行为数据,对该机器学习模型进行训练。
S343,基于待分析的用户行为数据或标签对应的行为数据更新知识图谱模型的用户关系网。
具体的,该实施例中,用户行为分析的系统中初步仅仅构建了规则检测模型,在分析系统运行的初期,首先利用规则检测模型进行待分析用户的行为预测,并利用行为数据及标签进行机器学习模型和/知识图谱模型的构建及更新,如步骤S341、S342及S343可以选择性的执行。在分析系统运行稳定后,可以选择任意的用户行为分析模型对用户的行为进行分析。
图4所示为本申请实施例提供的另一实施例的用户行为分析方法的流程示意图,如图4所示,该方法可以包括:
S410,获取待分析的用户行为数据;
S421,对待分析的用户行为数据进行训练,生成机器学习模型,并输出可疑事件对应的用户行为数据。
S422,基于待分析的用户行为数据搭建用户关系网,并基于该用户关系网确定可疑事件对应的用户行为数据。
S430,基于该可疑事件对应的用户行为数据,生成并保存可疑事件对应的用户的标签。
S441,基于待分析的用户行为数据或该标签对应的用户行为数据,更新该规则检测模型中的规则。
S442,基于待分析的用户行为数据或该标签对应的用户行为数据,对该机器学习模型进行训练。
具体的,该实施例中,计算机中的用户行为分析系统有机器学习模型和/或知识图谱模型。在实际运行时,首先利用获取的用户行为数据训练构建用户行为分析模型。进而在利用构建的用户行为分析模型分析用户行为的同时,逐步对模型进行更新优化。
另一方面,本申请实施例还提供服务器,该服务器包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行所述程序时实现如上所述的用户行为分析方法。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分603加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请公开的用户行为分析的实施例,上文参考图2至图4描述的过程可以被实现为计算机软件程序。例如,本申请公开的用户行为分析的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,该计算机程序包含用于执行图2的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种用户行为分析实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、分析模块、生成模块及更新模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,更新模块还可以被描述为“用于基于待分析的用户行为数据或所述标签对应的用户行为数据,更新所述规则检测模型、机器学习模型和/或知识图谱模型”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本申请的确定用户行为分析的方法,具体执行:
获取待分析的用户行为数据;
将所述用户行为数据输入到规则检测模型、机器学习模型和/或知识图谱模型,输出可疑事件的用户行为数据;
基于所述可疑事件的用户行为数据,生成并保存所述可疑事件对应的用户的标签,所述标签用于指示所述用户的行为数据是否发生异常事件;
基于待分析的用户的行为数据或所述标签对应的用户行为数据,更新所述规则检测模型、机器学习模型和/或知识图谱模型。
综上所述,本申请实施例提供的用户行为分析系统及方法,通过利用获取模块获取用户的行为数据后,利用分析模块中的用户行为分析模型对用户行为数据进行分析,得到可疑事件,进而对可疑事件对应的行为数据的用户添加标签,并利用获取的数据和标签对应的行为数据对各个用户行为分析模型进行更新优化,完成了用户行为分析,实现了用户标签数据的循环利用,用户行为分析模型的同步更新,提高了用户行为数据分析的准确性。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本邻域技术人员应当理解,本申请中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种用户行为分析系统,其特征在于,所述系统包括:
获取模块,用于获取待分析的用户行为数据;
分析模块,用于将所述用户行为数据输入到规则检测模型、机器学习模型和/或知识图谱模型,输出可疑事件对应的用户行为数据;
生成模块,用于基于所述可疑事件的用户行为数据,生成并保存所述可疑事件对应的用户的标签,所述标签用于指示所述用户行为数据是否发生异常事件;
更新模块,用于基于所述标签对应的用户行为数据或待分析的用户行为数据,更新所述规则检测模型、机器学习模型和/或知识图谱模型。
2.根据权利要求1所述的用户行为分析系统,其特征在于,所述分析模块具体包括:
第一构建单元,用于对待分析的用户行为数据进行训练,生成机器学习模型,并确定所述可疑事件对应的行为数据;和/或
第二构建单元,用于基于待分析的用户行为数据搭建用户关系网,并基于所述用户关系网确定所述可疑事件对应的用户行为数据。
3.根据权利要求1所述的用户行为分析系统,其特征在于,所述更新模块包括:
第一更新单元,用于基于待分析的用户行为数据或所述标签对应的用户行为数据,更新所述规则检测模型中的规则;和/或
第二更新单元,用于基于待分析的用户行为数据或所述标签对应的用户行为数据,对所述机器学习模型进行重新训练;和/或
第三更新单元,用于基于所述待分析的用户行为数据或所述标签对应的用户行为数据更新所述知识图谱模型的用户关系网。
4.根据权利要求3所述的用户行为分析系统,其特征在于,所述第一更新单元具体用于:
确定所述规则检测模型的分析结果的准确率是否小于阈值;
若小于,则根据待分析的用户行为数据或所述标签对应的用户行为数据,更新所述规则检测模型中的规则的阈值和/或范围。
5.根据权利要求3所述的用户行为分析系统,其特征在于,所述第二更新单元具体用于:
确定所述机器学习模型的分析结果的准确率是否小于阈值;
若小于,则将待分析的用户行为数据或所述标签对应的用户行为数据抽样输入到所述机器学习模型中进行模型训练,并更新所述机器学习模型的算法和/或参数。
6.根据权利要求3所述的用户行为分析系统,其特征在于,所述第三更新单元具体用于:
确定所述知识图谱模型的分析结果的准确率是否小于阈值;
若小于,则基于所述待分析的用户行为数据或所述标签对应的用户行为数据更新所述用户关系网。
7.一种用户行为分析方法,其特征在于,所述方法包括:
获取待分析的用户行为数据;
将所述用户行为数据输入到规则检测模型、机器学习模型和/或知识图谱模型,输出可疑事件的用户行为数据;
基于所述可疑事件的用户行为数据,生成并保存所述可疑事件对应的用户的标签,所述标签用于指示所述的用户行为数据是否发生异常事件;
基于待分析的用户行为数据或所述标签对应的用户行为数据,更新所述规则检测模型、机器学习模型和/或知识图谱模型。
8.根据权利要求7所述的用户行为分析方法,其特征在于,所述将所述用户行为数据输入到规则检测模型、机器学习模型和/或知识图谱模型,输出可疑事件的用户行为数据包括:
对待分析的用户行为数据进行训练,生成机器学习模型,并确定所述可疑事件对应的用户行为数据;和/或
基于待分析的用户行为数据搭建用户关系网,并基于所述用户关系网确定所述可疑事件对应的用户行为数据。
9.根据权利要求7所述的用户行为分析方法,其特征在于,所述基于所述标签对应的用户行为数据,更新所述规则检测模型、机器学习模型和/或知识图谱模型包括:
基于待分析的用户行为数据或所述标签对应的用户行为数据,更新所述规则检测模型中的规则;和/或
基于待分析的用户行为数据或所述标签对应的用户行为数据,对所述机器学习模型进行重新训练;和/或
基于所述待分析的用户行为数据或所述标签对应的用户行为数据更新所述知识图谱模型的用户关系网。
10.根据权利要求9所述的用户行为分析方法,其特征在于,所述更新所述规则检测模型中的规则包括:
确定所述规则检测模型的分析结果的准确率是否小于阈值;
若小于,则根据待分析的用户行为数据或所述标签对应的用户行为数据,更新所述规则检测模型中的规则的阈值和/或范围;
所述对所述机器学习模型进行训练包括:
确定所述机器学习模型的分析结果的准确率是否小于阈值;
若小于,则将待分析的用户行为数据和/或所述标签对应的用户行为数据抽样输入到所述机器学习模型中进行模型重新训练,并更新所述机器学习模型的算法和/或参数;
所述将所述标签添加到所述知识图谱模型中包括:
确定所述知识图谱模型的分析结果的准确率是否小于阈值;
若小于,则基于所述待分析的用户行为数据和/或所述标签对应的用户行为数据更新所述用户关系网。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910161553.8A CN111651753A (zh) | 2019-03-04 | 2019-03-04 | 用户行为分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910161553.8A CN111651753A (zh) | 2019-03-04 | 2019-03-04 | 用户行为分析系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111651753A true CN111651753A (zh) | 2020-09-11 |
Family
ID=72344455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910161553.8A Pending CN111651753A (zh) | 2019-03-04 | 2019-03-04 | 用户行为分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651753A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704328A (zh) * | 2021-08-31 | 2021-11-26 | 陈靓 | 基于人工智能的用户行为大数据挖掘方法及系统 |
CN113901456A (zh) * | 2021-11-10 | 2022-01-07 | 北京安天网络安全技术有限公司 | 一种用户行为安全性预测方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5621889A (en) * | 1993-06-09 | 1997-04-15 | Alcatel Alsthom Compagnie Generale D'electricite | Facility for detecting intruders and suspect callers in a computer installation and a security system including such a facility |
US20140165140A1 (en) * | 2011-09-09 | 2014-06-12 | Anurag Singla | Systems and methods for evaluation of events based on a reference baseline according to temporal position in a sequence of events |
US20160078365A1 (en) * | 2014-03-21 | 2016-03-17 | Philippe Baumard | Autonomous detection of incongruous behaviors |
JP2017211978A (ja) * | 2016-05-18 | 2017-11-30 | 株式会社日立製作所 | 業務処理システム監視装置および監視方法 |
US20180293377A1 (en) * | 2015-10-13 | 2018-10-11 | Nec Corporation | Suspicious behavior detection system, information-processing device, method, and program |
CN109325232A (zh) * | 2018-09-25 | 2019-02-12 | 北京明朝万达科技股份有限公司 | 一种基于lda的用户行为异常分析方法、系统及存储介质 |
US20190068620A1 (en) * | 2017-08-30 | 2019-02-28 | International Business Machines Corporation | Detecting malware attacks using extracted behavioral features |
US20190065738A1 (en) * | 2017-08-31 | 2019-02-28 | Entit Software Llc | Detecting anomalous entities |
-
2019
- 2019-03-04 CN CN201910161553.8A patent/CN111651753A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5621889A (en) * | 1993-06-09 | 1997-04-15 | Alcatel Alsthom Compagnie Generale D'electricite | Facility for detecting intruders and suspect callers in a computer installation and a security system including such a facility |
US20140165140A1 (en) * | 2011-09-09 | 2014-06-12 | Anurag Singla | Systems and methods for evaluation of events based on a reference baseline according to temporal position in a sequence of events |
US20160078365A1 (en) * | 2014-03-21 | 2016-03-17 | Philippe Baumard | Autonomous detection of incongruous behaviors |
US20180293377A1 (en) * | 2015-10-13 | 2018-10-11 | Nec Corporation | Suspicious behavior detection system, information-processing device, method, and program |
JP2017211978A (ja) * | 2016-05-18 | 2017-11-30 | 株式会社日立製作所 | 業務処理システム監視装置および監視方法 |
US20190068620A1 (en) * | 2017-08-30 | 2019-02-28 | International Business Machines Corporation | Detecting malware attacks using extracted behavioral features |
US20190065738A1 (en) * | 2017-08-31 | 2019-02-28 | Entit Software Llc | Detecting anomalous entities |
CN109325232A (zh) * | 2018-09-25 | 2019-02-12 | 北京明朝万达科技股份有限公司 | 一种基于lda的用户行为异常分析方法、系统及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704328A (zh) * | 2021-08-31 | 2021-11-26 | 陈靓 | 基于人工智能的用户行为大数据挖掘方法及系统 |
CN113901456A (zh) * | 2021-11-10 | 2022-01-07 | 北京安天网络安全技术有限公司 | 一种用户行为安全性预测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11595415B2 (en) | Root cause analysis in multivariate unsupervised anomaly detection | |
CN108170909B (zh) | 一种智能建模的模型输出方法、设备及存储介质 | |
CN108182515B (zh) | 智能规则引擎规则输出方法、设备及计算机可读存储介质 | |
US20170097863A1 (en) | Detection method and information processing device | |
KR20190109427A (ko) | 침입 탐지를 위한 지속적인 학습 | |
US20110213788A1 (en) | Information fusion for multiple anomaly detection systems | |
CN111754241A (zh) | 一种用户行为感知方法、装置、设备及介质 | |
CN115034596A (zh) | 一种风险传导预测方法、装置、设备和介质 | |
US20180276566A1 (en) | Automated meta parameter search for invariant based anomaly detectors in log analytics | |
CN115061874A (zh) | 日志信息验证方法、装置、设备及介质 | |
CN114036531A (zh) | 一种基于多尺度代码度量的软件安全漏洞检测方法 | |
CN111651753A (zh) | 用户行为分析系统及方法 | |
CN115913710A (zh) | 异常检测方法、装置、设备及存储介质 | |
KR102410151B1 (ko) | 서버 시스템 로그를 이용한 머신러닝 기반의 관측레벨 측정 및 이에 따른 위험도 산출 방법, 장치 및 컴퓨터-판독 가능 기록 매체 | |
CN115204733A (zh) | 数据审计方法、装置、电子设备及存储介质 | |
US11665185B2 (en) | Method and apparatus to detect scripted network traffic | |
CN114706856A (zh) | 故障处理方法及装置、电子设备和计算机可读存储介质 | |
CN110704614B (zh) | 对应用中的用户群类型进行预测的信息处理方法及装置 | |
CN110413482B (zh) | 检测方法和装置 | |
CN114846767A (zh) | 用于解决矛盾的设备分析数据的技术 | |
CN113656314A (zh) | 压力测试处理方法及装置 | |
CN114297911B (zh) | 一种事故分析模型训练方法、装置及设备 | |
CN113094709B (zh) | 风险应用的检测方法、装置和服务器 | |
CN117811767B (zh) | 风险ip地址的预警方法、装置、存储介质及电子设备 | |
CN114237856A (zh) | 运算类型识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |