Nothing Special   »   [go: up one dir, main page]

CN115952459A - 报错识别方法、装置、设备及存储介质 - Google Patents

报错识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115952459A
CN115952459A CN202310031950.XA CN202310031950A CN115952459A CN 115952459 A CN115952459 A CN 115952459A CN 202310031950 A CN202310031950 A CN 202310031950A CN 115952459 A CN115952459 A CN 115952459A
Authority
CN
China
Prior art keywords
error
error reporting
service
node
reporting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310031950.XA
Other languages
English (en)
Inventor
刘鹏程
陈婷
吴三平
王宗泽
廖海波
蔡凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202310031950.XA priority Critical patent/CN115952459A/zh
Publication of CN115952459A publication Critical patent/CN115952459A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及计算机技术领域,尤其涉及一种报错识别方法、装置、设备及存储介质,该报错识别方法包括:获取业务开发过程中的业务报错信息,并解析业务报错信息得到业务报错特征;将业务报错特征输入基于决策树算法构建的报错识别模型,并通过报错识别模型输出错误类别;将报错识别模型输出的错误类别作为业务报错信息对应的目标错误类别。本发明实现了提高查找业务错误的效率。

Description

报错识别方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种报错识别方法、装置、设备及计算机可读存储介质。
背景技术
在业务的开发过程中,当业务开发出现错误时开发系统会报错,开发系统的报错通常会包含无用信息导致错误信息不明确,因此通常需要业务人员根据报错信息在日志记录中定位错误,或者需要依靠业务人员根据自身的经验定位错误。这种处理方式导致定位错误的过程耗时过长,导致业务人员定位错误的效率不高。
发明内容
本发明的主要目的在于提供一种报错识别方法、装置、设备及计算机可读存储介质,旨在提高查找业务错误的效率。
为实现上述目的,本发明提供一种报错识别方法,所述报错识别方法包括以下步骤:
获取业务开发过程中的业务报错信息,并解析所述业务报错信息得到业务报错特征;
将所述业务报错特征输入基于决策树算法构建的报错识别模型,并通过所述报错识别模型输出错误类别;
将所述报错识别模型输出的错误类别作为所述业务报错信息对应的目标错误类别。
可选地,在所述获取业务开发过程中的业务报错信息的步骤之前,所述方法还包括:
获取已知错误类别的多个历史报错信息;
解析各个所述历史报错信息得到各个所述历史报错信息各自的历史报错特征,并基于各个所述历史报错特征建立节点数据集;
基于所述节点数据集和决策树算法构建决策树,并将所述决策树作为报错识别模型。
可选地,所述基于所述节点数据集和决策树算法构建决策树的步骤,包括:
将所述节点数据集确定为根节点的数据集,并计算所述节点数据集中各个历史报错特征各自的各个关键词对应的根节点基尼系数;
将各个所述根节点基尼系数中最小根节点基尼系数对应的历史报错特征作为最优特征,并将所述最小根节点基尼系数对应的关键词作为最优切分点;
基于所述最优特征和所述最优切分点将所述根节点分割为两个子节点,并基于所述最优特征和所述最优切分点将所述节点数据集分割为两个子节点各自的数据集;
检测两个子节点是否存在待分割节点;
若存在所述待分割节点,则基于所述待分割节点的数据集将所述待分割节点分割为两个子节点,并执行所述检测两个子节点是否存在待分割节点的步骤;
若不存在所述待分割节点,则确定完成构建决策树。
可选地,所述检测两个子节点是否存在待分割节点的步骤,包括:
对于两个子节点中任一待检测子节点,计算所述待检测子节点的数据集中各个历史报错特征各自的各个关键词对应的子节点基尼系数;
检测各个所述子节点基尼系数是否小于预设的系数阈值;
若各个所述子节点基尼系数小于所述系数阈值,则确定所述待检测子节点不为所述待分割节点;
若各个所述子节点基尼系数大于或者等于所述系数阈值,则确定所述待检测子节点为所述待分割节点。
可选地,在所述将所述报错识别模型输出的错误类别作为所述业务报错信息对应的目标错误类别的步骤之后,所述方法还包括:
将所述目标错误类别对应的描述和解决方案确定为目标描述和目标方案,并输出显示所述目标描述和所述目标方案。
可选地,所解析所述业务报错信息得到业务报错特征的步骤,包括:
对所述业务报错信息进行关键词提取,并将提取得到的关键词作为业务报错特征。
可选地,在所述通过所述报错识别模型输出错误类别的步骤之后,所述方法还包括:
若所述业务报错信息对应的错误类别为未知类别,则接收业务人员上传的上传类别和上传解决方案;
基于所述业务报错信息、所述上传类别和所述上传解决方案对所述报错识别模型进行模型参数更新得到更新模型,并将所述更新模型作为所述报错识别模型。
此外,为实现上述目的,本发明还提供一种报错识别装置,所述报错识别装置包括:
解析模块,用于获取业务开发过程中的业务报错信息,并解析所述业务报错信息得到业务报错特征;
输入模块,用于将所述业务报错特征输入基于决策树算法构建的报错识别模型,并通过所述报错识别模型输出错误类别;
确定模块,用于将所述报错识别模型输出的错误类别作为所述业务报错信息对应的目标错误类别。
此外,为实现上述目的,本发明还提供一种报错识别设备,所述报错识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的报错识别程序,所述报错识别程序被所述处理器执行时实现上述报错识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有报错识别程序,所述报错识别程序被处理器执行时实现上述的报错识别方法的步骤。
本发明中,通过获取业务开发过程中的业务报错信息,并解析业务报错信息得到业务报错特征,将业务报错特征输入基于决策树算法构建的报错识别模型,并通过报错识别模型输出错误类别,将报错识别模型输出的错误类别作为业务报错信息对应的目标错误类别。
相比于通过业务人员根据业务报错信息依靠日志记录和历史经验去定位问题,本发明通过基于决策树算法构建的报错识别模型根据业务报错信息输出业务错误信息对应的目标错误类别,使得业务人员可以直接根据目标错误类别对业务报错进行处理,减少了业务人员查找业务错误的时间,从而快速对错误进行定位,实现了提高查找业务错误的效率。
附图说明
图1为本发明实施例方案涉及的报错识别设备的结构示意图;
图2为本发明报错识别方法第一实施例的流程示意图;
图3为本发明报错识别方法一实施方式涉及的流程示意图;
图4为本发明实施例方案涉及的报错识别装置的功能模块示意图;
图5为本发明实施例方案涉及的计算机可读存储介质的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
需要说明的是,本发明实施例提供一种报错识别设备,所述报错识别设备可以是智能手机、个人计算机等设备,在此不做具体限制。
如图1所示,该报错识别设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对报错识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及报错识别程序。操作系统是管理和控制设备硬件和软件资源的程序,支持报错识别程序以及其它软件或程序的运行。在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与外部网络建立通信连接;而处理器1001可以用于调用存储器1005中存储的报错识别程序,并执行以下操作:
获取业务开发过程中的业务报错信息,并解析所述业务报错信息得到业务报错特征;
将所述业务报错特征输入基于决策树算法构建的报错识别模型,并通过所述报错识别模型输出错误类别;
将所述报错识别模型输出的错误类别作为所述业务报错信息对应的目标错误类别。
进一步地,在所述获取业务开发过程中的业务报错信息的操作之前,处理器1001还可以用于调用存储器1005中存储的报错识别程序,并执行以下操作:
获取已知错误类别的多个历史报错信息;
解析各个所述历史报错信息得到各个所述历史报错信息各自的历史报错特征,并基于各个所述历史报错特征建立节点数据集;
基于所述节点数据集和决策树算法构建决策树,并将所述决策树作为报错识别模型。
进一步地,所述基于所述节点数据集和决策树算法构建决策树的操作,包括:
将所述节点数据集确定为根节点的数据集,并计算所述节点数据集中各个历史报错特征各自的各个关键词对应的根节点基尼系数;
将各个所述根节点基尼系数中最小根节点基尼系数对应的历史报错特征作为最优特征,并将所述最小根节点基尼系数对应的关键词作为最优切分点;
基于所述最优特征和所述最优切分点将所述根节点分割为两个子节点,并基于所述最优特征和所述最优切分点将所述节点数据集分割为两个子节点各自的数据集;
检测两个子节点是否存在待分割节点;
若存在所述待分割节点,则基于所述待分割节点的数据集将所述待分割节点分割为两个子节点,并执行所述检测两个子节点是否存在待分割节点的步骤;
若不存在所述待分割节点,则确定完成构建决策树。
进一步地,所述检测两个子节点是否存在待分割节点的操作,包括:
对于两个子节点中任一待检测子节点,计算所述待检测子节点的数据集中各个历史报错特征各自的各个关键词对应的子节点基尼系数;
检测各个所述子节点基尼系数是否小于预设的系数阈值;
若各个所述子节点基尼系数小于所述系数阈值,则确定所述待检测子节点不为所述待分割节点;
若各个所述子节点基尼系数大于或者等于所述系数阈值,则确定所述待检测子节点为所述待分割节点。
进一步地,在所述将所述报错识别模型输出的错误类别作为所述业务报错信息对应的目标错误类别的操作之后,处理器1001还可以用于调用存储器1005中存储的报错识别程序,并执行以下操作:
将所述目标错误类别对应的描述和解决方案确定为目标描述和目标方案,并输出显示所述目标描述和所述目标方案。
进一步地,所解析所述业务报错信息得到业务报错特征的操作,包括:
对所述业务报错信息进行关键词提取,并将提取得到的关键词作为业务报错特征。
进一步地,在所述通过所述报错识别模型输出错误类别的操作之后,处理器1001还可以用于调用存储器1005中存储的报错识别程序,并执行以下操作:
若所述业务报错信息对应的错误类别为未知类别,则接收业务人员上传的上传类别和上传解决方案;
基于所述业务报错信息、所述上传类别和所述上传解决方案对所述报错识别模型进行模型参数更新得到更新模型,并将所述更新模型作为所述报错识别模型。
基于上述结构,提出本发明报错识别方法的各个实施例。
本发明实施例提供了一种报错识别方法,参照图2所示,图2是本发明报错识别方法第一实施例的流程示意图。
本发明实施例提供了报错识别方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中,报错识别方法的执行主体可以是报错识别设备,报错识别设备可以是智能手机、个人计算机等设备,以下为便于描述,省略执行主体进行各实施例的阐述。在本实施例中,所述报错识别方法包括:
步骤S10:获取业务开发过程中的业务报错信息,并解析所述业务报错信息得到业务报错特征;
在开发业务的过程中,在开发出现错误时,业务开发平台会报错。本实施例中,获取业务开发过程中的报错信息(以下称为业务报错信息以示区分),在具体实施方式中,业务报错信息可能是代码,例如404等状态码,业务报错信息也可能是文字形式的信息,例如堆栈,具体在此不做限制。
本实施例中,获取业务开发过程中的业务报错信息后,解析业务报错信息得到业务报错信息的特征,以下将该特征称为业务报错特征以示区分。具体地,在一实施方式中,解析业务报错信息得到业务报错特征可以是通过关键词提取得到,例如文本分析、基于深度学习的关键词提取等方式;在另一实施方式中,解析业务报错信息得到业务报错特征也可以是预先设置词库,将业务报错信息中与预设词库中的预设词相同的词作为业务报错特征,具体可以根据实际需求进行设置,在此不进行限制。
步骤S20:将所述业务报错特征输入基于决策树算法构建的报错识别模型,并通过所述报错识别模型输出错误类别;
本实施例中,将业务开发过程中的报错分为多个类别(以下为方便描述称为报错类别),不同的报错可以对应不同的错误类别,具体地,错误类别可以是编号形式,例如类别一;也可以是概括形式,例如网页浏览类错误,具体地可以根据实际需求进行设置,在此不进行限制。基于决策树算法预先构建分类树,将构建的分类树确定为用于识别开发报错对应的类别的报错识别模型。
具体地,本实施例中,解析业务报错信息得到业务报错特征后,将业务报错特征输入基于决策树算法构建报错识别模型,并通过报错识别模型输出错误类别。
步骤S30:将所述报错识别模型输出的错误类别作为所述业务报错信息对应的目标错误类别。
本实施例中,将业务报错特征输入基于决策树算法构建报错识别模型,并通过报错识别模型输出错误类别后,将报错识别模型输出的错误类别作为业务报错信息对应的错误类别(以下称为目标错误类别以示区分)。
进一步地,在一些可行的实施例中,在上述步骤S30:将所述报错识别模型输出的错误类别作为所述业务报错信息对应的目标错误类别之后,报错识别方法还包括:
步骤S40:将所述目标错误类别对应的描述和解决方案确定为目标描述和目标方案,并输出显示所述目标描述和所述目标方案。
本实施例中,预先设置各个已知的错误类别对应的描述和解决方案,在具体实施方式中,错误类别、描述和解决方案之间可以是一一对应的关系。在具体实施方式中,描述可以是对业务报错的中文形式的描述,例如,报错信息404对应的错误类别为类别一,则类别一对应的描述为用户在浏览网页时,服务器无法提供正确的信息或是服务器因不明原因无法将信息发送给访问者。
本实施例中,将目标错误类别对应的描述和解决方案确定为业务报错信息对应的描述(以下称为目标描述以示区分)和解决方案(以下称为目标解决方案以示区分),输出显示目标描述和目标解决方案,以供业务人员参考目标描述和目标解决方案对业务开发过程中的报错进行处理。
需要说明的是,通过提供业务报错信息对应的目标描述和目标解决方案,本实施例可以根据业务报错信息推送通俗易懂的描述并解决方案,使得在解决业务报错时有可参考的依据,相比于业务人员根据自身经验对业务报错进行处理,本实施例减少了业务人员的工作量,提高了业务人员的工作效率。
且本实施例使得对业务报错进行处理时不依赖业务人员的技术,提高了处理业务报错的可操作性。
进一步地,在一些可行的实施例中,上述步骤S10:解析所述业务报错信息得到业务报错特征,包括:
步骤S101:对所述业务报错信息进行关键词提取,并将提取得到的关键词作为业务报错特征。
本实施例中,通过对业务报错信息进行关键词提取得到业务报错特征。具体地,本实施例中,在获取到业务报错信息后,对业务报错信息进行关键词提取,在具体实施方式中,进行关键词提取可以是通过文本分析,也可以是通过基于深度学习的关键词提取,具体可以根据实际需求进行设置,在此不进行限制。
本实施例中,对业务报错信息进行关键词提取,并将提取得到的关键词作为业务报错特征。需要说明的是,在具体实施方式中,业务报错特征可能包含多个关键词。
本实施例中通过关键词提取得到业务报错信息的业务报错特征,相比于将业务报错信息中与预设词库相同的词作为业务报错特征,本实施例能够适应多种形式的业务报错信息,提高了本实施例报错识别方法的实用性。
进一步地,在一些可行的实施例中,在上述步骤S20中:通过所述报错识别模型输出错误类别之后,报错识别方法还包括:
步骤S50:若所述业务报错信息对应的错误类别为未知类别,则接收业务人员上传的上传类别和上传解决方案;
本实施例中,将未出现在报错识别模型中的错误类别称为未知类别,若业务报错信息对应的业务报错特征不符合报错识别模型中的任一种分类情况,则确定业务报错信息对应的错误类别为未知类别。
在具体实施方式中,在通过报错识别模型输出错误类别之后,若业务报错信息对应的错误类别为未知类别,则通知业务人员对业务报错信息进行处理,具体地,业务人员可以是根据业务报错信息和业务日志对报错进行分析和处理,具体在此不做限制。业务人员对业务报错信息进行处理后,可以对业务报错信息进行错误类别的划分,并上传该错误类别和解决方案。
本实施例中,若业务报错信息对应的错误类别为未知类别,接收业务人员上传的错误类别(以下称为上传类别以示区分)和解决方案(以下称为上传解决方案以示区分)。
步骤S60:基于所述业务报错信息、所述上传类别和所述上传解决方案对所述报错识别模型进行模型参数更新得到更新模型,并将所述更新模型作为所述报错识别模型。
本实施例中,在接收业务人员上传的上传类别和上传解决方案后,基于业务报错信息、上传类别和上传解决方案对报错识别模型进行模型参数更新得到更新后的报错识别模型(以下称为更新模型以示区分),并将更新模型作为报错识别模型以进行报错识别。
需要说明的是,通过若业务报错信息对应的错误类别为未知类别,则接收业务人员上传的上传类别和上传解决方案,基于业务报错信息、上传类别和上传解决方案对报错识别模型进行模型参数更新得到更新模型,并将更新模型作为报错识别模型。本实施例使得报错识别模型的可识别错误类别增多,提高了报错识别模型的准确性和实用性。
本实施例中,通过获取业务开发过程中的业务报错信息,并解析业务报错信息得到业务报错特征,将业务报错特征输入基于决策树算法构建的报错识别模型,并通过报错识别模型输出错误类别,将报错识别模型输出的错误类别作为业务报错信息对应的目标错误类别。相比于通过业务人员根据业务报错信息依靠日志记录和历史经验去定位问题,本实施例通过基于决策树算法构建的报错识别模型根据业务报错信息输出业务错误信息对应的目标错误类别,使得业务人员可以直接根据目标错误类别对业务报错进行处理,减少了业务人员查找业务错误的时间,从而快速对错误进行定位,实现了提高查找业务错误的效率。
进一步地,基于上述第一实施例,提出本发明第二实施例,本实施例中,上述步骤S10:获取业务开发过程中的业务报错信息的步骤之前,报错识别方法还包括:
步骤S70:获取已知错误类别的多个历史报错信息;
本实施例中,将开发过程中已经出现过并已知错误类别的报错信息称为历史报错信息,获取已知错误类别的多个历史报错信息,并基于各个已知错误类别的多个历史报错信息得到报错识别模型。
步骤S80:解析各个所述历史报错信息得到各个所述历史报错信息各自的历史报错特征,并基于各个所述历史报错特征建立节点数据集;
本实施例中,获取已知错误类别的多个历史报错信息后,解析各个历史报错信息得到各个历史报错信息各自的特征(以下称为历史报错特征以示区分)。在具体实施方式中,提取得到历史报错特征的方式可以参照步骤S10,在此不做赘述。
本实施例中,解析各个历史报错信息得到各个历史报错信息各自的历史报错特征后,基于各个历史报错信息各自的历史报错特征建立用于构建报错识别模型的节点数据集。
步骤S90:基于所述节点数据集和决策树算法构建决策树,并将所述决策树作为报错识别模型。
本实施例中,基于节点数据集和CART(classification and regression tree,分类与回归树)算法,也即决策树算法构建决策树,并将决策树作为报错识别模型。
进一步地,在一些可行的实施例中,上述步骤S90:基于所述节点数据集和决策树算法构建决策树,包括:
步骤S901:将所述节点数据集确定为根节点的数据集,并计算所述节点数据集中各个历史报错特征各自的各个关键词对应的根节点基尼系数;
本实施例中,基于节点数据集和决策树算法构建决策树,具体地,将节点数据集确定为决策树的根节点,并计算节点数据集中各个历史报错特征各自的各个关键词对应的基尼系数(以下称为根节点基尼系数以示区分)。
具体地,计算根节点基尼系数可以参照以下计算公式:
Figure BDA0004047261820000121
其中,一个节点分割之后的两个子节点可以称为左节点和右节点,N_L为划到左节点的样本个数,NR为划分到右节点的样本个数,N为划分的总样本个数,即NL+NR
Figure BDA0004047261820000122
为左节点上属于CK类的个数,
Figure BDA0004047261820000123
为右节点上属于Ck类的个数。
步骤S902:将各个所述根节点基尼系数中最小根节点基尼系数对应的历史报错特征作为最优特征,并将所述最小根节点基尼系数对应的关键词作为最优切分点;
根据基尼系数的计算公式可知,基尼系数可以表征在左节点或者右节点随机抽取两个样本,这两个样本不属于同一类的概率,由此可知,基尼系数越小,同一个子节点(即左节点或者右节点)中任意两个样本不属同一类的概率越小,说明该子节点上的杂质越小,节点的分割效果越好。因此,基尼系数越小,对根节点的分割效果越好。
具体地,本实施例中,将各个根节点基尼系数中最小根节点基尼系数对应的历史报错特征作为最优特征,并将最小根节点基尼系数对应的关键词作为最优切分点,以基于最优特征和最优切分点对根节点进行分割。
步骤S903:基于所述最优特征和所述最优切分点将所述根节点分割为两个子节点,并基于所述最优特征和所述最优切分点将所述节点数据集分割为两个子节点各自的数据集;
本实施例中,在确定最优特征和最优切分点后,基于最优特征和最优切分点将根节点分割为两个子节点,并基于最优特征和最优切分点将节点数据集分割为两个子节点各自的数据集。
步骤S904:检测两个子节点是否存在待分割节点;
本实施例中,将可以继续分割的子节点称为待分割节点,在将根节点分割称为两个子节点后,检测两个子节点是否存在待分割节点。
在具体实施方式中,检测两个子节点中是否存在待分割节点可以是检测子节点是否满足继续分割的条件,在一实施方式中,可以是检测子节点上的样本是否属于同一类别,若子节点上的样本都属于同一个类别则认为子节点不满足继续分割的条件;在另一实施方式中,还可以是检测子节点上的样本数量是否少于预设的数量,若子节点上的样本数量少于预设的数量则认为子节点不满足继续分割的条件;在另一实施方式中,还可以是检测节点的层数是否大于预设的层数,若节点的层数大于预设的层数则认为子节点不满足继续分割的条件;在另一实施方式中还可以是检测子节点上样本的基尼系数是否小于预设的系数,若子节点上样本的基尼系数小于预设的系数则认为子节点不满足继续分割的条件,具体检测条件可以根据实际需求进行设置,在此不进行限制。
步骤S905:若存在所述待分割节点,则基于所述待分割节点的数据集将所述待分割节点分割为两个子节点,并执行所述检测两个子节点是否存在待分割节点的步骤;
本实施例中,若存在待分割节点,则对待分割节点继续进行分割,具体地,基于待分割节点的数据集将待分割节点分割为两个子节点,并执行检测两个子节点是否存在待分割节点的步骤,以确定待分割节点的子节点中是否存在可以继续分割的待分割节点。
步骤S906:若不存在所述待分割节点,则确定完成构建决策树。
本实施例中,若不存在待分割节点,则确定完成构建决策树。
进一步地,在一些可行的实施例中,上述步骤S904:检测两个子节点是否存在待分割节点,包括:
步骤S9041:对于两个子节点中任一待检测子节点,计算所述待检测子节点的数据集中各个历史报错特征各自的各个关键词对应的子节点基尼系数;
本实施例中,基于子节点的基尼系数(以下称为子节点基尼系数以示区分)确定子节点是否可以继续分割。具体地,本实施例中,对于两个子节点中任一子节点(以下称为待检测子节点以示区分),计算待检测子节点的数据集中各个历史报错特征各自的各个关键词对应的子节点基尼系数。
步骤S9042:检测各个所述子节点基尼系数是否小于预设的系数阈值;
本实施例中,预先设置基尼系数阈值(以下称为系数阈值以示区分),系数阈值可以根据实际需求进行设置,在此不进行限制。检测各个子节点基尼系数是否小于预设的系数阈值。
步骤S9043:若各个所述子节点基尼系数小于所述系数阈值,则确定所述待检测子节点不为所述待分割节点;
若各个子节点基尼系数小于系数阈值,则确定子节点上样本纯度较高,确定待检测子节点不为待分割节点。
步骤S9044:若各个所述子节点基尼系数大于或者等于所述系数阈值,则确定所述待检测子节点为所述待分割节点。
若各个子节点基尼系数大于或者等于系数阈值,则确定子节点上样本纯度较低,子节点还可以继续分割,也即确定待检测子节点为待分割节点。
本实施例中,基于子节点基尼系数和系数阈值的大小关系判断子节点是否可以继续分割,本实施例使得到决策树中各个节点纯度较高,使得报错识别模型的识别结果更准确。
进一步地,在一实施方式中,参照图3,图3为本发明报错识别方法一实施方式涉及的流程示意图,本实施例中,业务开发平台可以是Hadoop(分布式系统基础架构)平台,业务报错信息可以是代码,报错识别过程可以是:
获取业务开发过程中的业务报错信息(也即图3中所示出的输入业务报错代码);
解析业务报错信息得到业务报错特征(也即图3中所示出的解析错误信息,获取特征值);
将业务报错特征输入基于决策树算法构建报错识别模型,并通过报错识别模型输出错误类别,将目标错误类别对应的描述和解决方案确定为目标描述和目标方案(也即图3中所示出的系统识别,归类同种类型错误,输出错误描述信息并提供解决方案);
报错识别结束(也即图3中所示出的任务结束)。
本实施例中,获取已知错误类别的多个历史报错信息,解析各个历史报错信息得到各个历史报错信息各自的历史报错特征,并基于各个历史报错特征建立节点数据集,基于节点数据集和决策树算法构建决策树,并将决策树作为报错识别模型,以通过报错识别模型对业务报错信息进行分类,相比于通过业务人员根据业务报错信息依靠日志记录和历史经验去定位问题,本实施例通过基于决策树算法构建的报错识别模型根据业务报错信息输出业务错误信息对应的目标错误类别,使得业务人员可以直接根据目标错误类别对业务报错进行处理,减少了业务人员查找业务错误的时间,从而快速对错误进行定位,实现了提高查找业务错误的效率。
此外,本发明还提供一种报错识别装置,参照图4,图4为本发明实施例方案涉及的报错识别装置的功能模块示意图。本发明报错识别装置包括:
解析模块10,用于获取业务开发过程中的业务报错信息,并解析所述业务报错信息得到业务报错特征;
输入模块20,用于将所述业务报错特征输入基于决策树算法构建的报错识别模型,并通过所述报错识别模型输出错误类别;
确定模块30,用于将所述报错识别模型输出的错误类别作为所述业务报错信息对应的目标错误类别。
进一步地,所述报错识别装置还包括构建模块,所述构建模块用于:
获取已知错误类别的多个历史报错信息;
解析各个所述历史报错信息得到各个所述历史报错信息各自的历史报错特征,并基于各个所述历史报错特征建立节点数据集;
基于所述节点数据集和决策树算法构建决策树,并将所述决策树作为报错识别模型。
进一步地,上述构建模块还用于:
将所述节点数据集确定为根节点的数据集,并计算所述节点数据集中各个历史报错特征各自的各个关键词对应的根节点基尼系数;
将各个所述根节点基尼系数中最小根节点基尼系数对应的历史报错特征作为最优特征,并将所述最小根节点基尼系数对应的关键词作为最优切分点;
基于所述最优特征和所述最优切分点将所述根节点分割为两个子节点,并基于所述最优特征和所述最优切分点将所述节点数据集分割为两个子节点各自的数据集;
检测两个子节点是否存在待分割节点;
若存在所述待分割节点,则基于所述待分割节点的数据集将所述待分割节点分割为两个子节点,并执行所述检测两个子节点是否存在待分割节点的步骤;
若不存在所述待分割节点,则确定完成构建决策树。
进一步地,上述构建模块还用于:
对于两个子节点中任一待检测子节点,计算所述待检测子节点的数据集中各个历史报错特征各自的各个关键词对应的子节点基尼系数;
检测各个所述子节点基尼系数是否小于预设的系数阈值;
若各个所述子节点基尼系数小于所述系数阈值,则确定所述待检测子节点不为所述待分割节点;
若各个所述子节点基尼系数大于或者等于所述系数阈值,则确定所述待检测子节点为所述待分割节点。
进一步地,上述确定模块30还用于:
将所述目标错误类别对应的描述和解决方案确定为目标描述和目标方案,并输出显示所述目标描述和所述目标方案。
进一步地,上述解析模块10还用于:
对所述业务报错信息进行关键词提取,并将提取得到的关键词作为业务报错特征。
进一步地,上述报错识别装置还包括更新模块,该更新模块用于:
若所述业务报错信息对应的错误类别为未知类别,则接收业务人员上传的上传类别和上传解决方案;
基于所述业务报错信息、所述上传类别和所述上传解决方案对所述报错识别模型进行模型参数更新得到更新模型,并将所述更新模型作为所述报错识别模型。
其中,报错识别装置的各个功能模块各自在运行时,实现如上述的报错识别方法的步骤。
此外,本发明还提供一种计算机可读存储介质。参照图5,图5为本发明实施例方案涉及的计算机可读存储介质的结构示意图。计算机可读存储介质上存储有报错识别程序,报错识别程序被处理器执行时实现如上述的报错识别方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台报错识别设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种报错识别方法,其特征在于,所述报错识别方法包括以下步骤:
获取业务开发过程中的业务报错信息,并解析所述业务报错信息得到业务报错特征;
将所述业务报错特征输入基于决策树算法构建的报错识别模型,并通过所述报错识别模型输出错误类别;
将所述报错识别模型输出的错误类别作为所述业务报错信息对应的目标错误类别。
2.如权利要求1所述的报错识别方法,其特征在于,在所述获取业务开发过程中的业务报错信息的步骤之前,所述方法还包括:
获取已知错误类别的多个历史报错信息;
解析各个所述历史报错信息得到各个所述历史报错信息各自的历史报错特征,并基于各个所述历史报错特征建立节点数据集;
基于所述节点数据集和决策树算法构建决策树,并将所述决策树作为报错识别模型。
3.如权利要求2所述的报错识别方法,其特征在于,所述基于所述节点数据集和决策树算法构建决策树的步骤,包括:
将所述节点数据集确定为根节点的数据集,并计算所述节点数据集中各个历史报错特征各自的各个关键词对应的根节点基尼系数;
将各个所述根节点基尼系数中最小根节点基尼系数对应的历史报错特征作为最优特征,并将所述最小根节点基尼系数对应的关键词作为最优切分点;
基于所述最优特征和所述最优切分点将所述根节点分割为两个子节点,并基于所述最优特征和所述最优切分点将所述节点数据集分割为两个子节点各自的数据集;
检测两个子节点是否存在待分割节点;
若存在所述待分割节点,则基于所述待分割节点的数据集将所述待分割节点分割为两个子节点,并执行所述检测两个子节点是否存在待分割节点的步骤;
若不存在所述待分割节点,则确定完成构建决策树。
4.如权利要求3所述的报错识别方法,其特征在于,所述检测两个子节点是否存在待分割节点的步骤,包括:
对于两个子节点中任一待检测子节点,计算所述待检测子节点的数据集中各个历史报错特征各自的各个关键词对应的子节点基尼系数;
检测各个所述子节点基尼系数是否小于预设的系数阈值;
若各个所述子节点基尼系数小于所述系数阈值,则确定所述待检测子节点不为所述待分割节点;
若各个所述子节点基尼系数大于或者等于所述系数阈值,则确定所述待检测子节点为所述待分割节点。
5.如权利要求1所述的报错识别方法,其特征在于,在所述将所述报错识别模型输出的错误类别作为所述业务报错信息对应的目标错误类别的步骤之后,所述方法还包括:
将所述目标错误类别对应的描述和解决方案确定为目标描述和目标方案,并输出显示所述目标描述和所述目标方案。
6.如权利要求1所述的报错识别方法,其特征在于,所解析所述业务报错信息得到业务报错特征的步骤,包括:
对所述业务报错信息进行关键词提取,并将提取得到的关键词作为业务报错特征。
7.如权利要求1至6中任一项所述的报错识别方法,其特征在于,在所述通过所述报错识别模型输出错误类别的步骤之后,所述方法还包括:
若所述业务报错信息对应的错误类别为未知类别,则接收业务人员上传的上传类别和上传解决方案;
基于所述业务报错信息、所述上传类别和所述上传解决方案对所述报错识别模型进行模型参数更新得到更新模型,并将所述更新模型作为所述报错识别模型。
8.一种报错识别装置,其特征在于,所述报错识别装置包括:
解析模块,用于获取业务开发过程中的业务报错信息,并解析所述业务报错信息得到业务报错特征;
输入模块,用于将所述业务报错特征输入基于决策树算法构建的报错识别模型,并通过所述报错识别模型输出错误类别;
确定模块,用于将所述报错识别模型输出的错误类别作为所述业务报错信息对应的目标错误类别。
9.一种报错识别设备,其特征在于,所述报错识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的报错识别程序,所述报错识别程序配置为实现如权利要求1至7中任一项所述的报错识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有报错识别程序,所述报错识别程序被处理器执行时实现如权利要求1至7中任一项所述的报错识别方法的步骤。
CN202310031950.XA 2023-01-10 2023-01-10 报错识别方法、装置、设备及存储介质 Pending CN115952459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310031950.XA CN115952459A (zh) 2023-01-10 2023-01-10 报错识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310031950.XA CN115952459A (zh) 2023-01-10 2023-01-10 报错识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115952459A true CN115952459A (zh) 2023-04-11

Family

ID=87286036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310031950.XA Pending CN115952459A (zh) 2023-01-10 2023-01-10 报错识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115952459A (zh)

Similar Documents

Publication Publication Date Title
WO2018086470A1 (zh) 关键词提取方法、装置和服务器
CN110008343B (zh) 文本分类方法、装置、设备及计算机可读存储介质
US11132385B2 (en) Information processing device and information processing method
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN113760891B (zh) 一种数据表的生成方法、装置、设备和存储介质
CN111160021A (zh) 日志模板提取方法及装置
CN110780965B (zh) 基于视觉的流程自动化方法、设备及可读存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN115098679A (zh) 文本分类标注样本的异常检测方法、装置、设备及介质
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及系统
CN110019193B (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN113326363B (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
CN112686521B (zh) 一种风控规则调优方法和系统
CN112035668A (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN115146653B (zh) 对话剧本构建方法、装置、设备及存储介质
CN115952459A (zh) 报错识别方法、装置、设备及存储介质
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN105677827B (zh) 一种表单的获取方法及装置
JP2023152270A (ja) 人工知能によるデータラベリング方法、装置、電子デバイス、記憶媒体、及びプログラム
CN115470034A (zh) 一种日志分析方法、设备及存储介质
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN115269998A (zh) 信息推荐方法、装置、电子设备及存储介质
CN115292506A (zh) 应用于办公领域的知识图谱本体构建方法和装置
CN111261165A (zh) 车站名称识别方法、装置、设备及存储介质
CN111611981A (zh) 信息识别方法和装置及信息识别神经网络训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination