上个月,我们给注塑车间搞的那套视觉分拣系统又崩了——塑料件表面有道浅得几乎看不见的熔接痕,人眼都得斜着光才能发现,机器直接给放过去了。我当时对着屏幕骂了句脏话,然后把咖啡杯重重砸在桌上。
这就是工业现场的真相:实验室里99.9%的准确率,到了车间可能连80%都稳不住。为什么?灰尘、油污、振动、忽明忽暗的顶灯……还有操作工偶尔随手搁在相机旁的半瓶矿泉水。但五年下来,我还是觉得计算机视觉(CV)是近十年对制造业最实在的技术渗透——比数字孪生那套虚头巴脑的玩意儿强多了。今天不写八股文,就聊点一线攻城狮才懂的磕绊和惊喜。
选型时,你最容易在哪个细节上翻车?
很多人一上来就纠结算法:用YOLOv8还是EfficientNet?说实话,这根本不是重点。至少在我碰过的三十多个项目里,工业相机和光源选错导致返工的比例高得离谱。有一次做金属冲压件毛刺检测,工程师死活调不好参数,我过去一看——用了个环形无影光源,而毛刺方向恰好从阴影里溜走了。换成低角度条形光,啥模型都不用改,特征立刻跳出来。啧啧,真就是一层窗户纸。

所以现在带新人,我总吼他们:图像处理里打光是亲爹!别一上来就深度学习,先老老实实把对比度拉开。相机也是,全局快门还是卷帘快门?帧率够不够?靶面尺寸是1英寸还是2/3英寸?这些参数写出来好像很简单,但高速产线上运动模糊一出现,你连边缘都抓不稳,谈什么缺陷检测?
问:是不是像素越高越好?我看市面上都吹5000万像素了。
答:千万别!5000万像素拿来拍静物都嫌大,产线上零件嗖嗖过去,你硬盘先炸。而且高像素意味着像元小、感光弱,快门必须拉长,模糊更严重。实际项目里,很多场景200-500万像素足够,关键是光学倍率和视野匹配。我就见过某厂花十几万买了台2900万像素相机,最后当200万用——因为数据传输和算法处理完全跟不上节拍。
传统算子 vs 深度学习:不是选择题,是搭配题
有个很烦的现象——现在搞CV的年轻人张嘴闭嘴就是Transformer、ViT。你要是跟他说先用个Canny边缘检测把ROI圈出来,他像看古董一样看你。但工业里很多测量任务,用Halcon的卡尺工具比训练一个CNN快十倍,稳定性还好。比如连接器PIN针间距检测,光照控好了,亚像素边缘拟合能做到±0.01mm,何必费力去标几千张图?
不过话说回来,有些场景你真没办法绕开深度学习。比如我们做过一个巧克力饼干碎角检测,缺陷形态随机的——缺一小块、裂缝、带尾巴的渣——写规则能写到吐血。用MobileNet分类加一个CAM热力图,两周搞定,上线半年没误报过。所以我的粗暴总结:只要缺陷形态能用三四条if-else描述清,就别上AI;一旦涉及纹理、背景干扰、非刚性形变,果断考虑卷积网络。

问:深度学习模型部署在工控机上跑得动吗?老板总嫌GPU贵。
答:完全能!现在OpenVINO、TensorRT这些推理框架把模型压缩得很猛,Intel的集成显卡都能跑动MobileNet-SSD。我们有个字符识别项目,用Tiny-YOLOv3做定位+CRNN识别,在i5-8500的CPU上跑出150ms一帧,够用了。关键是别动不动就弄个ResNet-152,从轻量化结构开始选。另外,边缘计算盒子现在也很成熟,三四千块就能买到带NPU的,何必上服务器?
数据标注:那个永远挖不尽的坑
我至今记得最崩溃的一次——做螺丝外观缺陷,总共只有47张不良品图片。47张!深度学习要吃数据,可工厂里缺陷率本来就低,哪来那么多样本?后来用镜像、旋转、加噪声做了数据增强,又让产线师傅帮着收集了三个月,总算凑到600张。上线第一天,碰上一种从未见过的螺纹缺损,模型又瞎了。那一刻我深刻理解到:CV在工业落地的最大瓶颈不是算法,是持续获取高质量负样本的能力。
于是我们搞了个半自动标注流水线:先用传统方法粗筛可疑区域,人工点一下确认,后台自动入库。这样每天能攒几十张新缺陷图,模型每周微调一次。虽然麻烦,但误报率从5%慢慢降到了0.3%。所以啊,谁要是跟你说他的视觉系统一次部署终生受用,你可以直接怼:你当这是ATM机呢?
问:训练模型时,正负样本比例多少合适?
答:别迷信教科书上的1:1。实际产线上,正样本(OK品)成千上万,负样本(NG品)寥寥无几。我的习惯是先把正样本大幅降采样到比如2000张,负样本有多少用多少,然后给损失函数里的负样本加权。用Focal Loss更好,会自动压制易分样本。另外,小心类别不平衡带来的偏见——模型如果总判OK,你查准率虚高,但产线一跑全是漏检,那才可怕。
3D视觉、机器人引导这些新鲜玩意儿靠谱吗?
当然靠谱,但别神化。我们去年上了一条3D视觉引导的拆垛线,用结构光相机拍下堆叠的铝铸件,计算抓取点和避障路径,然后六轴机械臂去吸。听起来高大上,调试期却整整拖了四个月——问题出在点云配准上,每次来料堆码有偏差,ICP算法就漂移。最后是靠贴了个不起眼的二维码做粗定位,才勉强稳定。所以你看,再炫的技术也离不开土办法。
问:小厂没钱上3D,2D视觉能做机器人定位吗?
答:能。我们做过一个平面工件分拣,用单目相机加一个激光传感器测高,标定后误差在0.5毫米内,成本才几千块。关键是手眼标定要精确,用九点法多采几次。还有种取巧:直接让机械臂末端带着相机去拍,省去坐标系转换的累计误差。工业里从来不缺巧妙妥协。
另外一条教训:别把模型部署扔给IT部门就不管了。现场干扰——比如对讲机信号干扰相机网线——都能让你抓狂。所以我总是要求视觉机柜单独接地,用屏蔽线缆,甚至给相机穿个防护罩。这些破事书上从来不写,但搞电气自动化的人都知道。

写到这儿,突然想起上周又接到一个电话:“张工,我们冲压车间的视觉系统老是把油渍误报成裂纹,怎么办?”我叹口气:“先清洁光源保护镜,再不行加个偏振片。”放下电话,我望着办公室窗外灰蒙蒙的天空,觉得这行当啊,就是无数个这样琐碎的瞬间堆起来的。没有银弹,只有不断试错、妥协、和突如其来的“啊哈!”时刻。也许这就是计算机视觉(CV)在工业里最迷人的地方——它逼着你理解物理世界最脏最真实的那一面。
免责声明:文章内容来自互联网,本站仅作为分享,不对其真实性负责,如有侵权等情况,请与本站联系删除。
转载请注明出处:计算机视觉(CV)落地工厂:从焦头烂额到真香的五年 https://www.dachanpin.com/a/tg/60350.html