Nothing Special   »   [go: up one dir, main page]

CN116302899B - 一种芯粒故障诊断方法和装置 - Google Patents

一种芯粒故障诊断方法和装置 Download PDF

Info

Publication number
CN116302899B
CN116302899B CN202310557887.3A CN202310557887A CN116302899B CN 116302899 B CN116302899 B CN 116302899B CN 202310557887 A CN202310557887 A CN 202310557887A CN 116302899 B CN116302899 B CN 116302899B
Authority
CN
China
Prior art keywords
core particle
fault
determining
working mode
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310557887.3A
Other languages
English (en)
Other versions
CN116302899A (zh
Inventor
王嘉诚
张少仲
张栩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongcheng Hualong Computer Technology Co Ltd
Original Assignee
Zhongcheng Hualong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongcheng Hualong Computer Technology Co Ltd filed Critical Zhongcheng Hualong Computer Technology Co Ltd
Priority to CN202310557887.3A priority Critical patent/CN116302899B/zh
Publication of CN116302899A publication Critical patent/CN116302899A/zh
Application granted granted Critical
Publication of CN116302899B publication Critical patent/CN116302899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Testing Of Individual Semiconductor Devices (AREA)
  • Testing Or Measuring Of Semiconductors Or The Like (AREA)

Abstract

本发明提供了一种芯粒故障诊断方法和装置,涉及计算机技术芯片领域。该方法包括:获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;根据运行数据集,确定至少一个工作模式;在当前运行总时长内,确定各芯粒在每个工作模式下的运行时长和特征参数;根据各芯粒在每个工作模式下的运行时长和特征参数,确定目标芯片中的各芯粒的故障概率;对故障概率大于预设阈值的目标芯粒进行故障诊断。本方案能有效预测并精准诊断故障芯粒。

Description

一种芯粒故障诊断方法和装置
技术领域
本发明涉及计算机芯片技术领域,特别涉及一种芯粒故障诊断方法和装置。
背景技术
目前的高性能计算芯片架构,由于考虑成本和扩展性而广泛使用了芯粒架构方式。根据不同芯片的性能需求,将多个裸芯片(即芯粒)封装到一起,再通过高速总线链接和扩展,组成性能不同的芯片。然而在基于芯粒架构得到的芯片封装后,其内会因芯粒间连接故障或运输中发生碰撞甚至长期运行损耗而导致一个或多个芯粒故障。同时现有故障检测方法在发现多芯粒芯片故障后,常将封装后的该芯片进行整体废弃,难以事先预测可能发生故障的具体芯粒以及精准诊断故障芯粒。
发明内容
本发明提供了一种芯粒故障诊断方法和装置,该方法能有效预测并精准诊断故障芯粒。
第一方面,本发明实施例提供了一种芯粒故障诊断方法,包括:
获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;
根据所述运行数据集,确定至少一个工作模式;
在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数;
根据所述各芯粒在每个所述工作模式下的运行时长和特征参数,确定所述目标芯片中的各芯粒的故障概率;
对所述故障概率大于预设阈值的目标芯粒进行故障诊断。
可选地,所述根据所述运行数据集,确定至少一个工作模式,包括:
对所述运行数据集进行第一特征提取,得到运行特征信息;其中,所述运行特征信息包括所述目标芯片的所触发的硬件事件集合;
对所述运行特征信息进行分类,得到对应不同运行特征信息的不同工作模式。
可选地,所述在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数,包括:
根据所述运行数据集,确定每个所述工作模式的运行时长;
对所述运行数据集进行第二特征提取,得到每个所述工作模式下的特征参数;其中,所述特征参数包括所述目标芯片的温度、各芯粒的供电电压、工作频率;
针对每个芯粒,统计该芯粒在每个所述工作模式下的运行时长。
可选地,所述确定所述目标芯片中的各芯粒的故障概率,包括:
针对每个所述芯粒,根据该芯粒在每个所述工作模式下的特征参数和运行时长,确定该芯粒的故障评分,并基于预设规则和所述故障评分,确定该芯粒的故障概率;
所述故障评分通过如下公式确定:
其中,M i用于表征第i个芯粒的故障评分;j用于表征第j个工作模式;n用于表征所述工作模式的总个数;t i,j用于表征第i个芯粒在第j个工作模式下的运行时长;f i,j用于表征第i个芯粒在第j个工作模式下的工作频率;V i,j用于表征第i个芯粒在第j个工作模式下的供电电压;I i用于表征第i个芯粒的漏电流;P ei用于表征第i个芯粒的标定功率;T j用于表征所述目标芯片在第j个工作模式下的温度;T p用于表征所述目标芯片的安全运行温度;α、β分别用于表征分值系数。
可选地,所述预设规则为所述故障评分与所述故障概率呈正相关。
可选地,所述对所述故障概率大于预设阈值的目标芯粒进行故障诊断,包括:
针对所述故障概率大于预设阈值的目标芯粒,确定所述目标芯粒所单独触发的硬件事件;
对所述目标芯粒进行隔离,并利用所述目标芯粒运行所述硬件事件;
判断所述目标芯粒是否能运行所述硬件事件;
若所述判断结果为否,则确定所述目标芯粒故障;
若所述判断结果为是,获取运行所述硬件事件得到的待诊断运行数据,并判断所述待诊断运行数据是否存在异常;在该判断结果为是时,确定所述目标芯粒故障。
可选地,在所述确定所述目标芯片中的各芯粒的故障概率之前,还包括:
在所述当前运行总时长内,判断所述目标芯片中各芯粒是否经历过更换;
若是,则更新该芯粒的首次使用日期,并重新对当前日期与该首次使用日期进行差值运算,计算得到该芯粒在更换后的二次运行总时长,以在所述二次运行总时长内确定该芯粒的故障概率。
第二方面,本发明实施例还提供了一种芯粒故障诊断装置,包括:
获取模块,用于获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;
预处理模块,用于根据所述运行数据集,确定至少一个工作模式,并在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数;
故障概率确定模块,用于根据所述各芯粒在每个所述工作模式下的运行时长和特征参数,确定所述目标芯片中的各芯粒的故障概率;
故障诊断模块,用于对所述故障概率大于预设阈值的目标芯粒进行故障诊断。
第三方面,本发明实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现上述任一项所述的芯粒故障诊断方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项所述的芯粒故障诊断方法。
本发明实施例提供了一种芯粒故障诊断方法和装置,该方法通过获取多芯粒目标芯片在当前运行总时长内的运行数据集,确定其包括的工作模式,以及各芯粒在每个工作模式下的运行时长和特征参数,进而确定该目标芯片中的各芯粒的故障概率,以在故障概率大于预设阈值时,对该故障概率对应的目标芯粒进行故障诊断,实现精准定位。如此,通过对各芯粒进行故障概率的预测,并对故障概率大于预设阈值的目标芯粒及时进行故障诊断,不仅无需实时对各芯粒进行故障诊断,还实现了对故障芯粒的精准定位及诊断。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种芯粒故障诊断方法的流程图;
图2是本发明一实施例提供的一种计算设备的硬件架构图;
图3是本发明一实施例提供的一种芯粒故障诊断装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种芯粒故障诊断方法,该方法包括:
步骤100,获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;
步骤102,根据所述运行数据集,确定至少一个工作模式;
步骤104,在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数;
步骤106,根据所述各芯粒在每个所述工作模式下的运行时长和特征参数,确定所述目标芯片中的各芯粒的故障概率;
步骤108,对所述故障概率大于预设阈值的目标芯粒进行故障诊断。
本发明实施例中,通过获取多芯粒目标芯片在当前运行总时长内的运行数据集,确定其包括的工作模式,以及各芯粒在每个工作模式下的运行时长和特征参数,进而确定该目标芯片中的各芯粒的故障概率,以在故障概率大于预设阈值时,对该故障概率对应的目标芯粒进行故障诊断,实现精准定位。如此,通过对各芯粒进行故障概率的预测,并对故障概率大于预设阈值的目标芯粒及时进行故障诊断,不仅无需实时对各芯粒进行故障诊断,还实现了对故障芯粒的精准定位,从而对该故障芯粒进行修复或替换,提高芯粒利用率的同时,也提高了该目标芯片的利用率,减少了不必要的整体芯片废弃。
下面描述图1所示的各个步骤的执行方式。
首先,针对步骤100,包括但不限于通过获取目标芯片首次使用的日期,对当前日期与目标芯片首次使用的日期进行差值运算,确定当前运行总时长。
在步骤102中,根据所述运行数据集,确定至少一个工作模式,包括:
对所述运行数据集进行第一特征提取,得到运行特征信息;其中,所述运行特征信息包括所述目标芯片的所触发的硬件事件集合;
对所述运行特征信息进行分类,得到对应不同运行特征信息的不同工作模式。
在本发明中,通过对运行数据集进行第一特征提取,确定目标芯片所触发的硬件事件,对硬件事件进行分类,进而确定目标芯片的不同工作模式,实现按照工作模式对运行数据集的划分。
在步骤104中,在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数,包括:
根据所述运行数据集,确定每个所述工作模式的运行时长;
对所述运行数据集进行第二特征提取,得到每个所述工作模式下的特征参数;其中,所述特征参数包括所述目标芯片的温度、各芯粒的供电电压、工作频率;
针对每个芯粒,统计该芯粒在每个所述工作模式下的运行时长。
在本发明中,基于当前运行总时长内目标芯片的工作模式,针对每个工作模式,先确定目标芯片在该工作模式下的运行时长,再进一步确定该工作模式下目标芯片中各个芯粒的运行时长、供电电压、工作频率以及目标芯片的温度,以便基于这些特征参数对各芯粒进行后续故障概率的评分。需要说明的是,不同工作模式下,参与运行的芯粒可能不同,因此需要进一步统计确定每个芯粒在每个工作模式下的运行时长,即未参与当前工作模式运行的芯粒的运行时长为0。
针对步骤106,确定所述目标芯片中的各芯粒的故障概率,包括:
针对每个所述芯粒,根据该芯粒在每个所述工作模式下的特征参数和运行时长,确定该芯粒的故障评分,并基于预设规则和所述故障评分,确定该芯粒的故障概率;
所述故障评分通过如下公式确定:
其中,M i用于表征第i个芯粒的故障评分;j用于表征第j个工作模式;n用于表征所述工作模式的总个数;t i,j用于表征第i个芯粒在第j个工作模式下的运行时长;f i,j用于表征第i个芯粒在第j个工作模式下的工作频率;V i,j用于表征第i个芯粒在第j个工作模式下的供电电压;I i用于表征第i个芯粒的漏电流;P ei用于表征第i个芯粒的标定功率;T j用于表征所述目标芯片在第j个工作模式下的温度;T p用于表征所述目标芯片的安全运行温度;α、β分别用于表征分值系数。
需要说明的是,标定功率为从芯片手册或芯片规格书中获取到的工作电源电压、时钟频率所确定的。具体地,标定功率可以为P ei=60%×工作电源电压的最大值×持续输出电流,也可以为P ei=60%×测试得到的芯片或芯粒满载运行时的功率。
在一个优选的实施方式中,所述预设规则为所述故障评分与所述故障概率呈正相关。
在本发明中,针对每个芯粒,基于所获取到的该芯粒在各工作模式下的特征参数和运行时长,计算该芯粒在当前运行总时长内的故障评分,如此通过考虑该芯粒在各个工作模式下的运行时长、供电电压、工作频率、漏电流以及当前工作模式下目标芯片的温度,综合考虑了各个因素对芯粒性能的影响,使得计算得到的该故障评分能反映该芯粒的当前性能状态,故障评分越高则芯粒发生故障的概率越高,其当前性能状态则越差,需要用户及时关注并诊断该芯粒,以便在该芯粒故障时进行及时修复或替换,确保当前目标芯片的有效运行。
针对步骤108,对所述故障概率大于预设阈值的目标芯粒进行故障诊断,包括:
针对所述故障概率大于预设阈值的目标芯粒,确定所述目标芯粒所单独触发的硬件事件;
对所述目标芯粒进行隔离,并利用所述目标芯粒运行所述硬件事件;
判断所述目标芯粒是否能运行所述硬件事件;
若所述判断结果为否,则确定所述目标芯粒故障;
若所述判断结果为是,获取运行所述硬件事件得到的待诊断运行数据,并判断所述待诊断运行数据是否存在异常;在该判断结果为是时,确定所述目标芯粒故障。
需要说明的是,不同的芯粒的功能不同,通过运行该目标芯粒所单独触发的硬件事件,能在确定该目标芯粒故障的同时进一步判断该硬件事件对应的主功能是否故障。
在本发明中,通过对故障概率大于预设阈值的目标芯粒进行故障诊断,无需对目标芯片中的全部芯粒进行实时监测、诊断,却仍能在确保精确定位故障芯粒的同时及时发现故障芯粒,提高了故障芯粒的诊断效率。
在一个优选的实施方式中,在步骤106确定所述目标芯片中的各芯粒的故障概率之前,还包括:
在所述当前运行总时长内,判断所述目标芯片中各芯粒是否经历过更换;
若是,则更新该芯粒的首次使用日期,并重新对当前日期与该首次使用日期进行差值运算,计算得到该芯粒在更换后的二次运行总时长,以在所述二次运行总时长内确定该芯粒的故障概率。
需要说明的是,在当前运行总时长内,可能存在芯粒更换的情况,对于更换过的芯粒,其运行时长应从更换后的首次使用日期使计算,即该芯粒的最大实际运行时长为当前日期与首次使用日期的差值,即二次运行总时长,在该二次运行总时长内计算该芯粒的故障评分才能精准地反映该芯粒的故障概率。
在一个优选的实施方式中,在对所述故障概率大于预设阈值的目标芯粒进行故障诊断,确定故障芯粒之后,还包括:屏蔽该故障芯粒或在该故障芯粒的位置更换功能相同的芯粒。
在本发明中,不仅实现了对多芯粒芯片的故障芯粒的定位,还能对该故障芯粒进行修复、屏蔽或更换,从而能避免芯片的整体废弃,提高了芯片的利用率。
如图2、图3所示,本发明实施例提供了一种芯粒故障诊断装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图2所示,为本发明实施例提供的一种芯粒故障诊断装置所在计算设备的一种硬件架构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的计算设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图3所示,作为一个逻辑意义上的装置,是通过其所在计算设备的CPU将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种芯粒故障诊断装置,包括:获取模块300、预处理模块302、故障概率确定模块304和故障诊断模块306;
获取模块300,用于获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;
预处理模块302,用于根据所述运行数据集,确定至少一个工作模式,并在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数;
故障概率确定模块304,用于根据所述各芯粒在每个所述工作模式下的运行时长和特征参数,确定所述目标芯片中的各芯粒的故障概率;
故障诊断模块306,用于对所述故障概率大于预设阈值的目标芯粒进行故障诊断。
在一些具体的实施方式中,获取模块300可用于执行上述步骤100,预处理模块302可用于执行上述步骤102和步骤104,故障概率确定模块304可用于执行上述步骤106,故障诊断模块306可用于执行上述步骤108。
在一些具体的实施方式中,预处理模块302还用于执行如下操作:
对所述运行数据集进行第一特征提取,得到运行特征信息;其中,所述运行特征信息包括所述目标芯片的所触发的硬件事件集合;
对所述运行特征信息进行分类,得到对应不同运行特征信息的不同工作模式。
在一些具体的实施方式中,预处理模块302还用于执行如下操作:
根据所述运行数据集,确定每个所述工作模式的运行时长;
对所述运行数据集进行第二特征提取,得到每个所述工作模式下的特征参数;其中,所述特征参数包括所述目标芯片的温度、各芯粒的供电电压、工作频率;
针对每个芯粒,统计该芯粒在每个所述工作模式下的运行时长。
在一些具体的实施方式中,预处理模块302还用于执行如下操作:
在所述当前运行总时长内,判断所述目标芯片中各芯粒是否经历过更换;
若是,则更新该芯粒的首次使用日期,并重新对当前日期与该首次使用日期进行差值运算,计算得到该芯粒在更换后的二次运行总时长,以在所述二次运行总时长内确定该芯粒的故障概率。
在一些具体的实施方式中,故障概率确定模块304还用于执行如下操作:
针对每个所述芯粒,根据该芯粒在每个所述工作模式下的特征参数和运行时长,确定该芯粒的故障评分,并基于预设规则和所述故障评分,确定该芯粒的故障概率;所述预设规则为所述故障评分与所述故障概率呈正相关;
所述故障评分通过如下公式确定:
其中,M i用于表征第i个芯粒的故障评分;j用于表征第j个工作模式;n用于表征所述工作模式的总个数;t i,j用于表征第i个芯粒在第j个工作模式下的运行时长;f i,j用于表征第i个芯粒在第j个工作模式下的工作频率;V i,j用于表征第i个芯粒在第j个工作模式下的供电电压;I i用于表征第i个芯粒的漏电流;P ei用于表征第i个芯粒的标定功率;T j用于表征所述目标芯片在第j个工作模式下的温度;T p用于表征所述目标芯片的安全运行温度;α、β分别用于表征分值系数。
在一个具体的实施方式中,故障诊断模块306还用于执行如下操作:
针对所述故障概率大于预设阈值的目标芯粒,确定所述目标芯粒所单独触发的硬件事件;
对所述目标芯粒进行隔离,并利用所述目标芯粒运行所述硬件事件;
判断所述目标芯粒是否能运行所述硬件事件;
若所述判断结果为否,则确定所述目标芯粒故障;
若所述判断结果为是,获取运行所述硬件事件得到的待诊断运行数据,并判断所述待诊断运行数据是否存在异常;在该判断结果为是时,确定所述目标芯粒故障。
在一些具体的实施方式中,该装置还包括修复模块,该修复模块用于执行如下操作:屏蔽该故障芯粒或在该故障芯粒的位置更换功能相同的芯粒。
可以理解的是,本发明实施例示意的结构并不构成对一种芯粒故障诊断装置的具体限定。在本发明的另一些实施例中,一种芯粒故障诊断装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本发明任一实施例中的一种芯粒故障诊断方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器执行时,使所述处理器执行本发明任一实施例中的一种芯粒故障诊断方法。
具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种芯粒故障诊断方法,其特征在于,包括:
获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;
根据所述运行数据集,确定至少一个工作模式;
在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数;
根据所述各芯粒在每个所述工作模式下的运行时长和特征参数,确定所述目标芯片中的各芯粒的故障概率;
对所述故障概率大于预设阈值的目标芯粒进行故障诊断;
所述在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数,包括:
根据所述运行数据集,确定每个所述工作模式的运行时长;
对所述运行数据集进行第二特征提取,得到每个所述工作模式下的特征参数;其中,所述特征参数包括所述目标芯片的温度、各芯粒的供电电压、工作频率;
针对每个芯粒,统计该芯粒在每个所述工作模式下的运行时长;
所述确定所述目标芯片中的各芯粒的故障概率,包括:
针对每个所述芯粒,根据该芯粒在每个所述工作模式下的特征参数和运行时长,确定该芯粒的故障评分,并基于预设规则和所述故障评分,确定该芯粒的故障概率;
所述故障评分通过如下公式确定:
其中,M i用于表征第i个芯粒的故障评分;j用于表征第j个工作模式;n用于表征所述工作模式的总个数;t i,j用于表征第i个芯粒在第j个工作模式下的运行时长;f i,j用于表征第i个芯粒在第j个工作模式下的工作频率;V i,j用于表征第i个芯粒在第j个工作模式下的供电电压;I i用于表征第i个芯粒的漏电流;P ei用于表征第i个芯粒的标定功率;T j用于表征所述目标芯片在第j个工作模式下的温度;T p用于表征所述目标芯片的安全运行温度;α、β分别用于表征分值系数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述运行数据集,确定至少一个工作模式,包括:
对所述运行数据集进行第一特征提取,得到运行特征信息;其中,所述运行特征信息包括所述目标芯片的所触发的硬件事件集合;
对所述运行特征信息进行分类,得到对应不同运行特征信息的不同工作模式。
3.根据权利要求1所述的方法,其特征在于,所述预设规则为所述故障评分与所述故障概率呈正相关。
4.根据权利要求1至3中任一所述的方法,其特征在于,所述对所述故障概率大于预设阈值的目标芯粒进行故障诊断,包括:
针对所述故障概率大于预设阈值的目标芯粒,确定所述目标芯粒所单独触发的硬件事件;
对所述目标芯粒进行隔离,并利用所述目标芯粒运行所述硬件事件;
判断所述目标芯粒是否能运行所述硬件事件;
若所述判断结果为否,则确定所述目标芯粒故障;
若所述判断结果为是,获取运行所述硬件事件得到的待诊断运行数据,并判断所述待诊断运行数据是否存在异常;在该判断结果为是时,确定所述目标芯粒故障。
5.根据权利要求1至3中任一所述的方法,其特征在于,在所述确定所述目标芯片中的各芯粒的故障概率之前,还包括:
在所述当前运行总时长内,判断所述目标芯片中各芯粒是否经历过更换;
若是,则更新该芯粒的首次使用日期,并重新对当前日期与该首次使用日期进行差值运算,计算得到该芯粒在更换后的二次运行总时长,以在所述二次运行总时长内确定该芯粒的故障概率。
6.一种芯粒故障诊断装置,其特征在于,包括:
获取模块,用于获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;
预处理模块,用于根据所述运行数据集,确定至少一个工作模式,并在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数;
故障概率确定模块,用于根据所述各芯粒在每个所述工作模式下的运行时长和特征参数,确定所述目标芯片中的各芯粒的故障概率;
故障诊断模块,用于对所述故障概率大于预设阈值的目标芯粒进行故障诊断;
所述预处理模块还用于执行如下操作:
根据所述运行数据集,确定每个所述工作模式的运行时长;
对所述运行数据集进行第二特征提取,得到每个所述工作模式下的特征参数;其中,所述特征参数包括所述目标芯片的温度、各芯粒的供电电压、工作频率;
针对每个芯粒,统计该芯粒在每个所述工作模式下的运行时长;
所述故障概率确定模块还用于执行如下操作:
针对每个所述芯粒,根据该芯粒在每个所述工作模式下的特征参数和运行时长,确定该芯粒的故障评分,并基于预设规则和所述故障评分,确定该芯粒的故障概率;
所述故障评分通过如下公式确定:
其中,M i用于表征第i个芯粒的故障评分;j用于表征第j个工作模式;n用于表征所述工作模式的总个数;t i,j用于表征第i个芯粒在第j个工作模式下的运行时长;f i,j用于表征第i个芯粒在第j个工作模式下的工作频率;V i,j用于表征第i个芯粒在第j个工作模式下的供电电压;I i用于表征第i个芯粒的漏电流;P ei用于表征第i个芯粒的标定功率;T j用于表征所述目标芯片在第j个工作模式下的温度;T p用于表征所述目标芯片的安全运行温度;α、β分别用于表征分值系数。
7.一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-5中任一项所述的方法。
CN202310557887.3A 2023-05-18 2023-05-18 一种芯粒故障诊断方法和装置 Active CN116302899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310557887.3A CN116302899B (zh) 2023-05-18 2023-05-18 一种芯粒故障诊断方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310557887.3A CN116302899B (zh) 2023-05-18 2023-05-18 一种芯粒故障诊断方法和装置

Publications (2)

Publication Number Publication Date
CN116302899A CN116302899A (zh) 2023-06-23
CN116302899B true CN116302899B (zh) 2023-07-28

Family

ID=86790978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310557887.3A Active CN116302899B (zh) 2023-05-18 2023-05-18 一种芯粒故障诊断方法和装置

Country Status (1)

Country Link
CN (1) CN116302899B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117148117B (zh) * 2023-10-27 2023-12-29 中诚华隆计算机技术有限公司 一种Chiplet故障自动检测修复方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022068645A1 (zh) * 2020-09-30 2022-04-07 深圳前海微众银行股份有限公司 数据库故障发现方法、装置、电子设备及存储介质
CN115658400A (zh) * 2022-09-30 2023-01-31 贵州电网有限责任公司 一种计算芯片测试方法、系统、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4926352B2 (ja) * 2001-09-25 2012-05-09 ルネサスエレクトロニクス株式会社 欠陥解析方法、チップ分類データ検証方法及びプログラム
CN108241114B (zh) * 2016-12-26 2020-05-26 北京邮电大学 混合电路芯片的在线故障检测方法、装置及故障检测电路
US11422826B2 (en) * 2020-05-19 2022-08-23 Micron Technology, Inc. Operational code storage for an on-die microprocessor
US20220108761A1 (en) * 2020-10-07 2022-04-07 Micron Technology, Inc. On-die testing for a memory device
CN115617739B (zh) * 2022-09-27 2024-02-23 南京信息工程大学 一种基于Chiplet架构的芯片及控制方法
CN115576738B (zh) * 2022-12-08 2023-03-03 中诚华隆计算机技术有限公司 一种基于芯片分析实现设备故障确定的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022068645A1 (zh) * 2020-09-30 2022-04-07 深圳前海微众银行股份有限公司 数据库故障发现方法、装置、电子设备及存储介质
CN115658400A (zh) * 2022-09-30 2023-01-31 贵州电网有限责任公司 一种计算芯片测试方法、系统、计算机设备和存储介质

Also Published As

Publication number Publication date
CN116302899A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
JP2011163345A (ja) ガスタービンを監視するためのシステム及び方法
US9275331B2 (en) Document classification system with user-defined rules
CN116302899B (zh) 一种芯粒故障诊断方法和装置
CN113837596A (zh) 一种故障确定方法、装置、电子设备及存储介质
CN111915192A (zh) 电力设备故障管理系统的建立方法和系统、计算机设备
CN116502166B (zh) 一种对目标设备故障预测的方法、装置、设备和介质
CN112579327A (zh) 一种故障检测方法、装置及设备
Ahsan et al. Prognosis of gas turbine remaining useful life using particle filter approach
Zhai et al. Analysis of time-to-failure data with Weibull model in product life cycle management
CN106899436A (zh) 一种云平台故障预测诊断系统
CN113946983A (zh) 产品可靠性薄弱环节评估方法、装置和计算机设备
CN117170949A (zh) 测试方法、装置、电子设备及可读存储介质
CN113656354A (zh) 日志分类方法、系统、计算机设备和可读存储介质
CN110795308A (zh) 一种服务器检验方法、装置、设备及存储介质
CN112612882B (zh) 检阅报告生成方法、装置、设备和存储介质
CN116820821A (zh) 磁盘故障检测方法、装置、电子设备及计算机可读存储介质
CN115936266A (zh) 轨道交通设备的可靠度预测方法、系统、设备和介质
CN114692082A (zh) 换电用户的识别方法、系统、设备和介质
US10216561B2 (en) Monitor performance analysis
CN109003643A (zh) 一种数据处理方法及装置
CN115904698A (zh) 使用yaml格式文件对opc ua架构的管理方法
CN116340046B (zh) 一种芯粒故障检测方法和装置
CN115480944A (zh) 车载娱乐终端的黑屏故障分析方法、装置、车辆及介质
CN112905438A (zh) 一种自动化测试方法及装置
CN112380127A (zh) 测试用例回归方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant