赞
踩
随机失效分析(Probabilistic Model for Hardware Failures,简称PMHF)是一种用于评估硬件系统在给定时间内可能发生的随机硬件失效的概率模型。这种分析考虑了硬件组件可能因为各种随机因素(如老化、环境应力、制造缺陷等)而导致的失效,这些失效是不可预测的,但遵循一定的概率分布。
PMHF分析的目的是提供一个量化的方法来估计硬件失效的风险,并帮助设计更可靠的系统。通过这种分析,工程师可以识别系统中的关键组件,评估不同组件对系统整体可靠性的影响,并采取相应的设计措施来降低失效风险。
PMHF通常与ISO 26262标准相关联,这是一个专注于汽车行业中电气和电子系统的功能性安全的国际标准。在ISO 26262中,PMHF用于量化硬件随机失效的风险,并确保安全目标得到满足。PMHF分析的结果通常用于确定系统的安全完整性等级(ASIL),这是衡量系统安全性的一个重要指标。
PMHF的定义可以概括为,在硬件要素的生命周期中,非预期发生并服从概率分布的失效。这些失效可以由物理原因导致,比如腐蚀、热应力、老化等。因为这些原因的随机特性,硬件在发生随机性失效是无法预测的,但是遵循概率分布,概率可以通过测试、历史数据获得。
此外,PMHF的计算和分析过程需要考虑多种因素,包括硬件的失效率、安全机制的诊断覆盖率、故障的暴露时间等。在ISO 26262标准的ASIL分解过程中,PMHF不允许被分解,因为这样做可能会违反初始或分解之前的PMHF指标
PMHF基于概率论和统计学原理,考虑了硬件系统中可能发生的各种随机失效情况,通常包括以下几个关键步骤:
失效模式识别:首先,需要识别系统中可能发生的各种失效模式。这些失效模式可以是硬件故障、软件错误、操作失误等。
失效概率估计:对于每种失效模式,需要估计其发生的概率。这通常涉及到对历史数据的分析、专家评估或通过实验获得的数据。
失效影响分析:分析每种失效模式对系统性能的影响。这包括确定失效可能导致的后果,如系统性能下降、数据丢失或系统完全失效。
系统可靠性模型构建:使用概率论和统计学方法构建系统的可靠性模型。这通常涉及到构建故障树(Fault Tree Analysis, FTA)或可靠性框图(Reliability Block Diagram, RBD)。
失效传播分析:分析失效如何在系统中传播,以及一个组件的失效如何可能导致其他组件或整个系统的失效。
风险评估:基于失效概率和影响,评估每种失效模式的风险,并确定哪些失效模式对系统的影响最大。
缓解措施制定:根据风险评估的结果,制定缓解措施以降低关键失效模式的风险。这可能包括设计冗余、改进维护程序或采用更可靠的组件。
模型验证和更新:通过实际运行数据来验证模型的准确性,并根据新的信息和经验对模型进行更新。
随机失效分析中的失效模式识别是一个关键步骤,它涉及识别可能影响系统可靠性的所有潜在问题。以下是通过案例方式说明失效模式识别的过程:
团队组建与培训
组建一个跨学科团队,包括设计工程师、质量保证专家、可靠性工程师和客户服务代表。对团队进行失效模式和影响分析(FMEA)以及失效模式、影响和关键性分析(FMECA)的培训。
识别系统组件
列出手机的所有关键组件,如电池、显示屏、处理器、内存、摄像头、操作系统等。
功能与性能要求
确定每个组件的功能和性能要求。例如,电池需要在正常使用下持续一整天,显示屏需要在户外阳光下清晰可见。
失效模式的识别
对每个组件进行失效模式的识别。以下是一些可能的失效模式示例:
电池:
过热
续航时间低于预期
充电循环后容量下降
显示屏:
触控不灵敏
亮度不均匀
色彩显示不准确
处理器:
过载导致重启
性能下降
高负载下发热过多
内存:
数据丢失或损坏
读写速度低于规格
摄像头:
图像模糊
自动对焦功能失效
低光环境下性能下降
操作系统:
软件崩溃
安全漏洞
更新失败
在功能安全领域,估计失效模式的失效率通常需要依赖于定量的数据分析和统计方法。以下是一些常用的方法和步骤,以及针对您提供的示例失效模式的简要说明:
收集每种组件在实际应用中的失效数据,这可能包括:
现场数据:来自已部署系统的监测和维修记录。
测试数据:通过加速寿命测试(ALT)或高加速寿命测试(HALT)获得的数据。
类似产品数据:来自性能和使用条件相似的其他产品的数据。
为有效估算失效概率,在估算前,需使用以下工具充分就发现的失效模式进行分析
评估每个失效模式对系统的影响,以及其严重性。
包括FMEA的步骤,并进一步考虑诊断覆盖率,即系统能够检测到失效的概率。
类似于FMEDA,但更侧重于确定每个失效模式的关键性。
构建故障树以识别所有可能导致特定失效的路径。
使用统计学方法来估计失效概率,如:
以下是针对您提供的失效模式的失效率估计的示例:
电池过热:假设通过加速测试获得的数据显示,电池在1000个运行周期后有5%的过热概率,则失效率λ = 0.05 / 1000 = 0.00005 失效/小时。
显示屏触控不灵敏:如果现场数据显示,在10,000小时的运行中,有100次触控不灵敏的报告,则λ = 100 / 10000 = 0.01 失效/小时。
处理器过载导致重启:如果测试表明,在连续高负载运行下,处理器在500小时内有一次过载重启,则λ = 1 / 500 = 0.002 失效/小时。
内存数据丢失或损坏:假设在详尽的测试中,内存模块在1百万次读写周期中有1次数据丢失,则λ = 1 / 1,000,000 = 0.000001 失效/读写周期。
摄像头低光环境下性能下降:如果性能下降的概率与环境亮度有关,可能需要通过实验来估计不同亮度下的失效率。
操作系统软件崩溃:通过监测1000个系统在一年内的运行情况,记录软件崩溃的次数,可以计算出年失效率,并转换为小时失效率。
随机失效分析(PMHF)中的失效影响分析是评估失效模式对系统性能和安全性影响的过程。本节以高级驾驶辅助系统(ADAS)为例说明失效影响分析的过程,ADAS系统包括一个前置摄像头,用于检测前方道路障碍物并自动紧急制动以避免碰撞。
按照第三节的方法,分析前置摄像头可能的失效模式包括:
图像传感器失效:摄像头无法检测到障碍物。
通信接口故障:摄像头与车辆控制单元之间的数据传输中断。
软件错误:摄像头的图像处理算法无法正确识别障碍物。
成立一个跨学科团队,包括系统工程师、软件工程师、硬件工程师、测试工程师和安全专家。
明确摄像头系统的功能,如障碍物检测的准确度、响应时间等。
对每个失效模式进行详细分析,确定其对ADAS系统的影响:
图像传感器失效:可能导致系统完全无法检测到障碍物,增加碰撞风险。
通信接口故障:可能导致控制单元无法接收到障碍物信息,同样增加碰撞风险。
软件错误:可能导致误报(错误地将无障碍物情况识别为有障碍物)或漏报(未能识别真实障碍物),影响驾驶体验和安全性。
使用定性和定量方法评估每种失效的后果:
图像传感器失效:可能导致严重伤害或死亡,严重性最高。
通信接口故障:同样可能导致严重后果,但可以通过系统设计减轻影响(如备用通信协议)。
软件错误:后果取决于错误类型,误报可能引起驾驶者不适,而漏报可能导致事故。
根据影响的严重性和发生概率对失效模式进行排序:
图像传感器失效(高严重性,较低概率)
通信接口故障(高严重性,较低概率)
软件错误(中等严重性,中等概率)
为每个高风险失效模式设计缓解措施:
图像传感器失效:增加冗余传感器,确保单一传感器失效不会使系统失效。
通信接口故障:设计备用通信链路,以及快速故障检测和切换机制。
软件错误:实施严格的软件测试和验证流程,以及实时监控和更新机制。
在功能安全领域,系统可靠性模型的构建是一个关键步骤,用于评估和确保系统在规定的性能水平下安全运行的能力。
本文以一家工业自动化公司正在开发一个用于监控和控制化学过程的自动化控制系统为例,该系统对于预防化学反应失控至关重要,因此需要满足严格的功能安全要求。
6.1 构建可靠性系统模型的前期工作
定义安全目标
与安全专家合作,定义系统的安全目标,例如防止特定化学反应的速度超过安全阈值。
识别危险和风险
通过危险和可操作性分析(HAZOP)等方法,识别可能导致不安全状态的危险事件,并评估与每种危险相关的风险。
分配安全完整性等级(SIL)
根据风险评估的结果,为每个安全目标分配一个安全完整性等级(SIL1至SIL4),这将指导后续的系统设计。
设计一个系统架构,包括传感器、控制器、执行器和通信接口,以实现所需的安全功能。
使用可靠性框图(RBD)图形化表示系统的组件和子系统,以及它们如何相互作用以提供所需的安全功能。
RBD示例
```
化学过程自动化控制系统 RBD
-----------------------------------
| | |
Sensor1 ... SensorN Controller
| | |
| | |
Actuator1 Actuator2 ...
```
在这个RBD中:
-Sensor1 至 SensorN负责监测化学过程的关键参数,如温度、压力和化学反应速率。
-Controller*接收来自传感器的输入,处理数据,并作出决策。
-Actuator1 至 Actuator2*根据控制器的指令调整过程参数,以维持安全的操作条件。
通过构建功能安全的系统可靠性模型,工业自动化公司能够确保其自动化控制系统在各种故障情况下都能安全运行,满足或超过既定的安全目标。这种方法有助于预防危险事件,保护人员、设备和环境免受潜在的化学过程风险。
随机失效分析中的失效传播分析是指评估一个组件的失效如何影响系统中的其他组件,最终可能导致整个系统失效的过程。本节以数据中心的冷却系统为例,该系统负责维持数据中心内部的温度和湿度在适宜的范围内,以保证服务器和网络设备的正常运行。
列出冷却系统的所有关键组件,包括空调单元、冷却泵、温度传感器、湿度传感器、控制器和报警系统。
绘制一个图表,显示这些组件是如何相互作用的。例如,温度传感器检测到的温度数据会传递给控制器,控制器根据数据启动或调整冷却泵的运行。
对每个组件进行失效模式的识别,如空调单元的压缩机故障、冷却泵的电机损坏、传感器读数错误等。
确定每个失效模式对其他组件和整个系统的影响。例如,冷却泵的失效可能导致空调单元无法正常工作,进而影响整个数据中心的温度控制。
识别和评估失效从一个组件传播到另一个组件的路径。例如,温度传感器失效可能导致控制器接收到错误的温度读数,从而引起空调单元不必要的启动或关闭。
失效传播路径示例
温度传感器失效 → 控制器接收错误数据 → 空调单元频繁启动或关闭 → 能源浪费和设备疲劳。
冷却泵失效 → 空调单元冷却效果下降 → 数据中心温度升高 → 服务器过热 → 性能下降或宕机。
控制器软件错误 → 发出错误指令 → 冷却系统组件运行不正常 → 系统冷却效果不足 → 潜在的设备损坏。
通过失效传播分析,数据中心运营商能够识别和评估冷却系统中潜在的失效如何影响整个数据中心的运行。通过制定和实施缓解措施,可以减少失效的影响,提高系统的可靠性和安全性。这种方法有助于确保数据中心的关键设备在适宜的环境条件下运行,从而保障数据的可用性和业务的连续性。
本节以ADAS系统为例,说明失效风险评估,ADAS包括以下关键硬件组件:雷达传感器、激光雷达(LiDAR)、摄像头、执行器(如制动器和转向系统)、以及中央处理单元。
经过前面的工作,我们确定失效模式由雷达传感器失效、执行器失效、和中央处理单元失效,那么在之前分析的基础上,我们做如下的失效风险评估:
雷达传感器失效:
严重性:高,可能导致碰撞避免系统失效。
概率:中等,受环境和硬件可靠性影响。
风险等级:高
缓解措施:增加备份传感器,提高信号处理的鲁棒性。
执行器(如制动器)失效:
严重性:极高,直接影响车辆控制。
概率:低,因为执行器通常有较高的可靠性设计。
风险等级:中等
缓解措施:设计冗余制动系统,确保单点故障不会失去全部制动力。
中央处理单元失效:
严重性:高,可能导致多个ADAS功能同时失效。
概率:较低,因为处理器通常有严格的设计和测试标准。
风险等级:中等
缓解措施:使用冗余处理架构,提高软件容错能力。
通过硬件失效风险评估,汽车制造商能够识别ADAS系统中的潜在硬件风险,并采取相应的设计和测试措施来减轻这些风险。这有助于确保ADAS系统在各种工况下都能提供预期的辅助功能,同时满足功能安全的要求。通过持续的监控和改进,可以进一步提升系统的可靠性和安全性。
PMHF分析的目的是为了提高系统的整体可靠性和安全性,通过识别和缓解最关键的失效模式,从而减少系统失效的可能性和后果。这种分析在设计阶段和系统运行期间都非常重要,可以帮助工程师和决策者做出更明智的关于系统设计、维护和风险管理的决策。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。