灰盒测试在电控板可靠性设计中的探索

(整期优先)网络出版时间:2023-08-31
/ 3

灰盒测试在电控板可靠性设计中的探索

林振国

 佛山市顺德区美的饮水机制造有限公司  广东省佛山市   528000

摘要:本文基于家电产品电控板可靠性设计的特点,提出了一种硬件灰盒测试的方法。该方法是一种介于硬件白盒测试方法和硬件黑盒之间的方法,利用白盒测试中的关键信号并结合黑盒测试中的外界应力,可以更加精确地设计电控板上器件的参数范围。该方法用于研究电控板器件内部的设计参数的精确化,并结合家电实际使用中的应力条件准确地定义测试条件以及合格判据,从而与产品的可靠性设计需求相匹配,实现恰好可靠性设计的概念。如果参数过设计,可以将设计参数拉回到最优值,节省成本;如果参数欠设计,即使产品的缺陷还没有转化成故障,也可以利用该方法将参数拉回到最优值。本文对硬件灰盒测试的概念进行了定义,详细介绍了硬件灰盒测试用例的构建过程以及构建原则等,并用一个电控板上典型的压敏器件作为实际的例子,说明了硬件灰盒测试用例实例化的过程,最后阐述了硬件灰盒测试未来的研究发展方向。

关键词:硬件灰盒测试  可靠性设计  电控板  元器件

1 引言

随着家电产品的智能化和升级换代,智能家电使用的场景越来越复杂,随之家电电控板的复杂度也越来越高。电控板是整个家电产品的“大脑”,一旦出现出现故障,家电将无法正常工作。对于家电生产企业而言,如何保证电控板的可靠性始终是一个重要的工作。研发部门希望在研发阶段能够尽早将所有的设计缺陷都识别出来,进行设计更改,因为越早更改付出的成本也越低,即就是做到“优生优育”。

目前对于电控板,在研发阶段主要进行设计故障失效模式分析(DFMEA)、设计审核(Design review)、硬件白盒测试、可靠性验证等,但还是有一些设计问题遗漏到市场上,造成一定比例的器件失效。因此,需要思考如何在设计阶段将产品缺陷能够充分地识别出来,从而能够消除市场上的因为设计裕度不足造成的返修[1-5]

2 灰盒验证测试的提出

2.1 早期设计阶段

在早期设计阶段,器件参数选型主要依赖于参数的理论计算,将器件的参数值先固定在标称值,实现电路可以工作起来。这就是所谓的“粗调”设计。

2.2 硬件白盒测试与可靠性测试

一般而言,器件厂家在器件规格书上承诺的规格参数都是有一定的裕度,而且有一些跟可靠性相关的某些参数也不体现在器件规格书上。因此家电生产企业会进行硬件白盒测试,从而可以确认器件的表现是否满足预期。硬件白盒测试主要是按照设计中明确的输入输出关系,对器件的输出进行测量,例如电源在上下电过程中的输出波形,信号质量以及时序,单元电路的输出等。一般是要求波形的信号量值满足规格,且无过冲、回沟、振荡等等。

在硬件白盒测试以后,会接着进行可靠性研制测试(Reliability Development Test),常用的是高加速应力极限寿命(HALT)测试。HALT测试是一种典型的硬件黑盒测试,通过逐步提高温度、振动以及电应力,将产品内部的缺陷转化为显性的故障,从而寻找产品的工作极限和破坏极限。HALT也是一种可靠性强化测试(Reliability Enhancement Test),用于暴露产品的设计短板,对于发现的问题要进行根因分析,并根据改进方案的成本来权衡是否需要更改设计。从而最终将产品健壮性进行提升的测试。但HALT测试的缺点就是无法解决产品的可靠性评价问题[6-8]

还有一类可靠性验证测试(Reliability Demonstration Test)一般处于品质控制阶段,即研发进行HALT测试并改进后,这时的可靠性测试条件是按照产品设计寿命而设计的,是一种通过性的测试。该测试一般只验证最低的可靠性目标,并不是精确评价产品的可靠性水平。

2.3 硬件灰盒测试的提出

通常,硬件白盒测试是在正常的工作条件下进行,例如实验室条件下的正常输入电压,正常的温湿度环境,这是一种验证类的测试,如果没有波形异常,即认为产品是合格的。

而对于可靠性测试,不论是研发人员进行的HALT测试,还是品质控制人员进行的可靠性验证测试(RDT),一般是在加速条件下进行,即高于产品的正常使用条件,但一般都只关心产品是否合格,一般不允许出现故障。总体上来说都属于黑盒测试。

为了能够比较精确地对产品进行设计和评价,往往需要在加速应力下了解电路板上器件的输入及输出,需要将高应力与白盒测试相结合,即一种硬件灰盒测试的方法(见图1)。该方法是一种介于硬件白盒测试方法和硬件黑盒之间的方法,利用白盒测试中的关键信号并结合黑盒测试中的外界应力,可以实现器件的参数可靠性设计。该测试可以将缺陷激发为显性的故障,也可以在产品未表现出故障时通过某个器件的退化型参数进行判定。由于器件参数超差对整个板级造成的影响是不同的,可能造成全局故障,也可能造成局部故障。我们将主要关注全局故障,即造成整个电控板功能异常的故障。经过硬件灰盒测试与设计改进后,即比较精确的“细调”设计后,产品既能够一次性通过后续的可靠性鉴定测试,而且可以保证在市场上具有很低的返修率。这个测试处于研发阶段,对产品的改进成本也较低。

图1 硬件灰盒测试在整个硬件测试中所处的位置图

3如何设计灰盒验证用例

3.1硬件灰盒测试用例集的构建路径

硬件灰盒测试用例集的构建是硬件灰盒测试的核心技术工作。首先,比较容易的构建路径是利用市场数据,即建立逆向测试用例集。其次,还需要从正向设计的角度,选择敏感的输入应力和关键的器件测试参数。基于正向设计加以逆向测试用力集作为补充,就可以构建出比较完备的硬件灰盒测试用例集(见图2)。

图2 硬件灰盒测试用例集的构建路径

3.2逆向测试用例的构建

上面介绍了整个用例集的构建思路,下面将详细介绍如何通过市场故障逐步逆向地构建一个具体的测试用例。具体包括故障模式的分析确定,故障根因的分析,测试应力种类以及量级的选择、器件测试参数的选择和判据等。

3.2.1 故障模式的分析确定

对于市场失效件的分析归类是建立逆向测试用例的基础工作(通常也是品质端进行市场问题改善的基础工作),从失效件种类、生产批次、设计版本到市场失效表象、器件损坏初筛,对市场上的故障件的失效模式进行排序并初步定位到器件,将TOP失效模式可以作为逆向测试用例的输入,一般可以选择TOP5或TOP10。

3.2.2 失效根因的分析

对选定的市场故障件的失效模式进行失效物理分析(DPA),推断其失效机理,并将失效机理与产品服役的环境因素(包括温度、湿度等自然环境因素,也包括电应力等服役环境因素),最终确认失效的根因。

3.2.3 测试应力以及量级的选择(外在输入)

依据失效根因,选择敏感应力作为板级硬件测试的外在输入应力,被选定的测试应力可能是环境应力例如温度、湿度等,也可能是工作电应力,负载应力等,或者上述因素的组合。

对于有设计寿命的产品,选择敏感测试应力的设计要根据产品在设计寿命内的应力累积情况来确定。避免盲目增大应力而使产品出现不相关的失效,即与市场失效模式不一致。

3.2.4 器件测试参数的选择及判据(内在响应)

根据失效根因,确定可以表征该根因的设计参数,而且这些参数是可测量的。例如器件的输入规格、输出规格参数等。

器件测试参数的判据可以参考白盒测试,如果出现波形的信号量值超过设计的阈值,或者信号的质量不满足要求,都可以作为失效的判据。但需要注意的是,参考白盒测试的要求并不完善,我们推荐使用可靠性评价的方法,即参数随时间变化的规律来提出判据,例如器件测试参数的变化量为10%或20%,需要结合产品使用期间参数的变化规律以及参数变化对整个电控板的影响而确定。

3.3正向测试用例的构建

正向测试用例的构建与逆向测试用例的建立的过程相似。区别在于建立逆向测试用例时,产品已表现为故障,但在建立正向测试用例时,产品还未表现为故障,只是一种缺陷,是一种潜在的、隐性的故障,是一种风险。

3.3.1 风险的确定

对于正向设计,TOP风险可以从DFMEA中进行选择,根据风险优先指数(RPN)排序的结果选择后果比较严重的风险作为正向设计用例的输入。

3.2.2 风险根因的确定

对选定的风险,确定其可能的失效机理,并确认潜在的根因。

3.2.3 测试应力以及量级的选择(外在输入)

根据失效根因,选择敏感应力作为板级测试的外在输入应力。例如环境应力,工作电应力,负载应力,或者上述三个因素的组合等。

对于有设计寿命的产品,这些应力的设计要根据产品在设计寿命内的应力累积情况来确定。避免盲目增大应力而使产品出现不相关的失效,即与市场失效模式不一致。

3.2.4 器件波形的选择及判据(内在响应)

根据失效根因,确定可以表征该根因的设计参数。例如器件的输入规格、输出规格参数等。

器件测试参数的判据可以参考白盒测试,如果出现波形的信号量值超过设计的阈值,或者信号的质量不满足要求,都可以作为失效的判据。但需要注意的是,参考白盒测试的要求并不完善,我们推荐使用可靠性评价的方法,即参数随时间变化的规律来提出判据,例如器件测试参数的变化量为10%或20%,需要结合产品使用期间参数的变化规律以及参数变化对整个电控板的影响而确定。

4简单例子

上一章介绍了构建硬件灰盒测试用例的理论方法,这节我们将用一个正向设计的例子要具体说明这个过程,便于理解和应用。

第一步,确定风险:假设对于某开关电源中的压敏电阻选型设计,在电控板DFMEA分析中,压敏电阻烧毁的RPN很高。因此选择压敏电阻的烧毁作为设计风险。

第二步,风险根因确定:压敏电阻用于电控板的过压保护,压敏电阻烧毁一般发生在电网环境比较差的用户身上。通过对市场上返回样品的分析,其失效的根因是器件通流时产生过热烧毁。在瞬时会有上千安培的电流通过。

第三步,测试应力与量值选择:根据失效根因,浪涌测试可以是基本的测试应力。一般的雷击都大概率发生在夏天,应该叠加高温作为测试用例的第二种应力。在行业内一般选择LN(火线与中线之间) 2kV、高温43℃作为单独的测试条件。按照电控板的10年设计寿命,按照雷击频次以及雷击大小,假设对云南南部地区的用户,每年内大幅度雷击频次为50次,10年内的大幅度雷击将达到500次。因此将高温43℃下500次浪涌作为硬件灰盒测试测试的输入条件。

第四步,器件波形及判据确定:压敏电阻两端的电压以及通过压敏电阻的电流这两个波形十分重要,第一个参数将表征电路的残压,若残压升高将表示后端器件失效的风险会增大;第二个参数表征通流能力。除此之外,压敏电阻的温升也是重要的一个参数。在高温浪涌测试过程中,监测残压的变化趋势,若变化超过10%将定义为缺陷;监测通流能力的波形,看看是否变宽,若持续时间变大超过10%定义为缺陷;监测器件温升的变化,若温升单调增大,在测试结束时温升变化超过第一次10%也将定义为缺陷。

5结束语

本文提出了一种硬件灰盒测试方法,说明了硬件灰盒测试的概念定义,开展硬件灰盒测试可以取得的收益等。对如何构建硬件灰盒测试用例,详细说明了思路和步骤。并用一个例子进行了说明。

硬件灰盒测试是在电控上一次有益的实践,由于开展时间较短,考虑的方面还不够全面,后续还准备从以下方面进行继续研究:

(1)硬件灰盒测试用例集的整合:目前的硬件灰盒测试用例是针对单个失效模式或单个风险制定的,当形成一个整板的测试用例集以后,要对用例进行整合和优化以提高测试效率;

(2)硬件灰盒测试系统的规范化:目前的测试实现也是单点式的,没有形式规范化的、标准化的测试系统。后续将在经验积累的基础上进行测试系统的开发。

参考文献

[1] 张文忠.医用电器设备电路板的可靠性研制试验及应用[J].中国医疗器械信息,2019,25(21):46-49.

[2] 王磊,王慧晶,邴建.越野汽车可靠性工程研究[J].车辆与动力技术,2021(02):23-27+63.

[3] 曲宗峰.家用电器产品中的电控版测试[J].家电科技,2013(09):44-45.

[4] 刘永春,宋卫萍,王秋花,郭庆波.车载电控模块的硬件可靠性验证方法[J].汽车电器,2019(08):51-54.

[5] 陆俭国,王景芹,陆宾.电器可靠性工作概况与发展前景[J].低压电器,2014(02):1-7.

[6] 肖诗满,陈军,张志刚.家用电器可靠性设计分析[J].电子产品可靠性与环境试验,2012,30(S1):93-95.

[7] 李良巧. 可靠性工程师手册(第二版)[M]. 中国人民大学出版社, 2012.

[8] 陆俭国,骆燕燕.控制用电器耐久性与可靠性数据确定步骤中若干问题的探讨[J].电器与能效管理技术,2017(15):1-4.