失效模式与影响分析（FMEA）为什么总做不好？我踩过的五个坑

上周又翻车了。一个项目做了三轮失效模式与影响分析（FMEA），结果到了量产阶段，还是冒出来一个从来没考虑过的失效——一颗螺丝在振动台上松脱，导致整个冷却回路压力骤降。💡 说实话，当时脑子里第一个念头是：FMEA白做了？

后来复盘，发现根本不是工具的问题。而是我们用FMEA的方式，从头到尾都透着一股“为做而做”的味道。说白了，填表格的时候大家心里想的都是“赶紧搞完”，而不是“这东西到底会怎么坏掉”。

失效模式与影响分析这玩意儿，其实特别反人性。它逼着你在一开始就想象最糟糕的场景，而且得想得全、想得细。可人类天生乐观啊，对吧——我们总觉得自己设计的东西没问题。于是，FMEA就变成了一个过场。⚠️

但话说回来，这几年在汽车、医疗器械、航空这些行业，FMEA又不得不做。主机厂审核，开口就问你的RPN值怎么算的，探测度评几分。不搞不行啊。于是我们就在一种“被迫重视”的状态下，年复一年地重复着那些低质量的失效模式与影响分析。

坑一：把FMEA搞成“事后诸葛亮”

很多企业的FMEA，是在设计冻结之后才开始做的。这几乎等于判死刑。为什么呢？因为那个时候，结构、选材、工艺路线全定了，就算分析出高风险项，改起来也伤筋动骨。工程师一看：“要改啊？开模费谁出？项目进度谁扛？” 最后只能在措施栏里写上一句“加强检验”，或者“增加警示标识”——这不叫FMEA，这叫自我安慰。

我做咨询的时候碰到过一个很典型的例子：某家做变速器的公司，DFMEA做到200多项，看起来挺唬人。结果我问了一句：“你们这个行星齿轮的齿根疲劳，失效影响评分怎么是7？感觉不算高嘛。” 他们工程师一愣，说：“是啊，反正寿命台架能过，而且售后数据里很少坏。” 我就乐了——那你们还分析它干嘛？FMEA的RPN值评估，重点不是你现在能不能测出来，而是“万一真发生了，后果有多严重”。那个齿要是真断了，车辆直接失去动力，严重点车毁人亡，这评分至少得9。至于发生度，你不能只盯着台架数据，得考虑材料批次波动、热处理波动，这玩意儿一波动，疲劳强度能掉20%。🤯

坑二：功能分析和失效模式分析脱节

这几乎是个通病。我们在做失效模式与影响分析的时候，常常跳过功能分析，直接从零件名字开始脑补失效。比如“这个螺栓的失效模式是断裂”——就这么简单粗暴。但你问一句：这个螺栓在这里的功能到底是什么？承受剪切？还是压紧？还是定位？不同的功能，断裂的影响完全不一样。如果是定位螺栓，只要不跑出定位孔，裂了都不一定出大事。可如果是承受剪切力的关键螺栓，一断就是结构解体。

新版AIAG & VDA FMEA手册为什么要用结构树、功能网这些步骤？就是为了逼你先想清楚“这个玩意儿到底要干什么”，然后才去想“它干不成了会咋样”。可现实里呢？大家还是照着手册画图，心里想的还是老一套。说实话，很多FMEA facilitator自己都没搞明白功能网怎么用。🤷‍♂️

问：我们公司刚开始推FMEA，团队抵触情绪很大，怎么破？

答：别一上来就上软件、上培训。说实话，抵触的根源是觉得“这玩意儿没用，耽误我画图”。你得让他们亲眼看见FMEA是怎么帮他们少走弯路的。我一般会建议找个已经出过问题的项目，用FMEA倒推一遍，很可能发现——当初要是做了，那个坑能避开。这时候把团队拉过来复盘，不用我说，他们自己就沉默了。另外，初期别追求完美，选一个子系统做试点，让工程师感受到这是帮他理清思路的工具，而不是额外负担。关键得有个懂技术的FMEA moderator带着走，那个人不能是只会填表格的文员。❗

举个例子。去年我们给一家泵厂做咨询，他们的一款新泵在样机阶段就出现轴承异常磨损。一群人加班加点改设计，苦不堪言。后来我用功能法带他们做了一遍DFMEA，发现他们在功能分析时漏了“允许轴向微小位移”这个功能，所以根本没人考虑轴向力过载导致滚动体偏磨的失效模式。当这个失效链摆上桌面时，几个老工程师拍大腿：“早想到这个，我们改个轴承配置就行了，不用绕那么大弯子！”后来他们自己主动要在下一个项目里早启动失效模式与影响分析法，根本不用我推。💡

坑三：探测度评分自欺欺人

探测度是FMEA里最容易被“注水”的栏目。我见过太多把“目视检查”评成3、4分的——言下之意，肉眼一看就能拦下。可你做的那个零件，直径300mm，内腔复杂，目视能把所有裂纹看出来？除非你长了透视眼。更可笑的是，有人把探测措施写成“后续耐久试验”，还评低分。耐久试验是什么？那是在失效模式已经发生之后，在耐久考核中暴露它，然后返回来改进设计，这属于“验证”而非“探测”。真到了量产阶段，耐久试验能拦下每一个批次吗？不能。所以这种评分纯属自嗨。⚠️

正确的做法是：区别“原因探测”和“失效探测”。你想探测的是“造成失效的原因是否正在发生”，还是“失效本身是否已经存在”？比如焊接冷裂纹，你是通过控制预热温度和层间温度（探测原因），还是通过焊后探伤（探测失效）？评分逻辑完全不同。这些在新版FMEA手册里其实讲得很清楚，只是很多人不愿意看那几百页的英文原文。📚

坑四：措施不落地，全成了“建议”

FMEA表格里最后一栏“建议措施”，经常看到“建议增加传感器”、“建议提高材料等级”、“建议增加检验频次”……然后，没有然后了。因为“建议”不是强制的。哪怕开了评审会，也没人跟踪到底改了没改。更糟糕的是，有些措施根本不可行——比如“建议消除该失效原因”，那你还不如直接说重新设计。我见过一个极端案例，有一条措施是“建议操作者加强责任心”，评了个人为因素的发生度是2，这跟算命有什么区别？

现在一些领先的企业，已经把FMEA措施直接转化进APQP流程，或跟BOM、工艺文件挂钩。一旦FMEA改动了控制方式，相应的控制计划自动刷新，产线检验频次、防错装置参数都得跟着动。这才是失效模式与影响分析应该发挥的作用——驱动行动，而不是填写档案。

问：我们有做FMEA，但评审时总是被客户挑战“发生度评分没依据”，怎么解决？

答：发生度评分不是拍脑袋。你需要建立失效数据库，哪怕是个Excel表，把过去类似产品、类似工艺的失效数据积累起来。比如焊缝气孔的发生度，你可以按每米焊缝的气孔个数、或者每千台焊件的气孔返修率来定义评分标准。没有历史数据？那就得依赖经验判断，但要记录判断依据，比如“基于三款老产品过去三年的售后数据，同类密封圈在高温工况下硬化泄露的发生率约为千分之二，据此评3分”。同时，对于新工艺、新材料，必须打高发生度分，因为不确定性大。客户质疑评分时，你要能拿出这个逻辑链，而不是说“我们觉得概率低”。再有，新版FMEA推荐用AP行动优先级替代RPN，能减轻很多对评分的无效争论。毕竟，重点不是数字本身，是你到底做了什么来降低风险。🌟

坑五：不做系统级FMEA，只在零件级纠缠

很多公司的FMEA就停在零件层，弹簧、齿轮、密封圈，一个一个分析。可致命的问题往往出在接口上。比如两个子系统之间的电磁兼容，或者热膨胀不匹配，或者装配顺序错误。这些在零件级FMEA里根本不会出现。你必须做系统FMEA，从整车、整机、整个产线去看功能流、交互流。说得形象点，零件级失效模式与影响分析是“看树木”，系统级才是“看森林”。一棵树死了可能只是少个叶子，但水土流失、病虫害一蔓延，整片森林就完了。🏭

我们曾遇到过一个很经典的案例：一台大型注塑机，合模机构的FMEA做得无可挑剔，但就是没人分析液压系统与电气控制的交互信号。结果有一次，一个接近开关信号延迟了0.3秒，导致合模动作与顶出动作重叠，直接撞坏模具，损失几十万。如果做了系统级FMEA，这个因信号延迟导致顺序错乱的失效链，是很容易被识别出来的。所以说，视野高度决定了失效模式发现的数量和质量。

失效模式与影响分析（FMEA）这个工具，存在几十年了，到现在依然是预防问题的最强武器——但前提是你别把它用成摆设。说到底，它是一面镜子，照出我们对产品理解的深浅。当你不愿意正视那些潜在的失效时，它们迟早会在最糟糕的时候找上你。

最后说句心里话：FMEA做得好不好，不看表格写得多漂亮，看你敢不敢半夜接到产线电话时，心里不慌。因为你知道，该想的，都想过一遍了。