硝烟里的大模型,求变的机器视觉:「数据」决定天花板,「平台架构」是底牌?
如果问最近哪个行业最热,无疑是大模型。
ChatGPT的落地证明了,大模型已经能够针对任务进行场景化应用,离用户更近了。
当一批类ChatGPT的通用大模型层出不穷时,另一批参与者着眼于“更容易落地”的行业垂直大模型,也走到了舞台中央。
机器视觉作为大模型重点应用的垂直领域,必将从这场技术革命中受益,但工业场景与生俱来的碎片化、样本量少等特点,也对大模型的应用提出了挑战。
大模型这一颠覆性的技术,究竟应当如何应用于工业中,大家还处在相应的探索中。
机器视觉的长期痛点:样本少、时间短、爬坡要求高
在人工智能和机器人领域,存在一个莫拉维克悖论,即对于计算机而言,只需很少的计算能力,就能掌握人类的逻辑推理等高级智慧,但对于人类无意识的感知、运动等低级智慧,却需要极大的计算资源。
这一悖论,在工业领域更加凸显。
在工业领域,用自动化的机器人替代人类,完成一个简单的动作,存在极大的瓶颈。
以摁压、扣接这类精密组装的动作为例,人类可以在手指不做出明显向前位移的情况下,仅通过肌肉的弹力或指尖的触感出色完成工作;但对于机器人来说,仅为了完成这一简单的动作,就需要进行大量的计算。
不仅如此,由于工业各细分领域千差万别,每一项固定工序背后都需要进行大量的计算,这些训练工作叠加起来的时间和成本,是企业难以负荷的。
当下,小样本学习技术、预训练、预适应,是目前阶段最适合工业场景的,这源于工业实际应用场景的严苛要求:样本少、时间短、爬坡要求高。
样本量少是工业领域的典型难题。
很多情况下,工厂里的边缘AI应用,缺少丰富、多样化的产品样本,并不利于进行模型的训练。
“缺陷检测场景中,工厂里会有很多正常的好样本,但异常样本的积累,通常要花几个月甚至半年的时间。”凌云光知识理性研究院副院长全煜鸣告诉雷峰网 (公众号:雷峰网) 。
假设一款新手机即将发布,前期模组生产已经耗费大量时间,最终组装仅剩两三个月,很难在这段时间中积累到足够的异常样本。
要在获取的样本极少,而产能爬坡要求极高的情况下,让整个产线适应新产品,就会对小样本、预训练、预适应提出极高的要求。
对于小样本来说,模型上面需要有极其严苛的适应性,数据上面要有很好的增广能力,要具备在样本少的情况下,增广样本给自己的模型做训练的能力。
寻找共性,是增广样本数量一个较为常用的办法。有一些缺陷,在某几个行业是相通的,比如中框、结构件的外观检测和手机整机的外观检测,再比如锂电和光伏的外观缺陷检测等,都存在一定的相通性。
“凌云光建立了拥有500万样本的专用工业数据集,可以对缺陷的机理进行研究,再加上深度学习和人工智能算法平台F.Brain,能够使得预训练模型和积累的工业数据集,有比较好的样本扩增的功能。”全煜鸣接着补充道:“生成缺陷只是第一步,还要兼顾与场景融合过程中的科学性,才能够保证小样本缺陷图增广的有效性。”
预适应和小样本一样,其目的在于使相关模型具有更好的精度和更广的适应范围,以满足不同工业场景,从而在一定程度上缓解产品在实验室中表现稳定,一到真实产线上就“歇菜”的普遍问题。
一边,工业场景对小样本学习技术提出了高要求;另一边,工业场景对产品的要求也日益提高。
首先,生产的精度要求越来越高。
宁德时代的倪军教授曾提出“极限制造”的概念,表示工业领域做到6σ(每百万个产品里头有一两个不良品)远远不够,而是需要做到9σ-12σ,即对不良品的要求上升到十亿级,每十亿个产品当中,只允许出现1-3个不良品,这对机器视觉厂商是个极大的挑战。
其次,3C制造领域、汽车、印刷品等行业的升级,对产品良率和产品形态提出了更高的要求。
在此过程中,怎样将物理世界的缺陷,通过摄像头感知到光电领域、数字领域,并对不同类型和程度的瑕疵进行科学分级,最终定义良品与不良品,实际上是一个难题。
这是因为,无瑕疵的产品几乎不存在,所谓的良品来自于人们对其的定义。
比如,苹果和富士康通过三级质量分级完成了对于良品的定义,为其提供视觉感知系统的凌云光,则对标人眼感知,将缺陷细化分级为十级,以此针对不同客户的质量要求,通过微调来满足需求。
这一切,都建立在一个前提基础上,即有一套能够精确感知缺陷的视觉系统。
其中有两大挑战,一个来自于数据,一个来自于平台架构。
To B 丛林探险,向场景要什么样的数据?
人工智能由两个部分驱动,一是数据,二是模型。
数据的重要性,正如ML(Machine Learning)大牛吴恩达提出的著名“二八定律”:80%数据+20%模型=更好的AI。
随着预训练大模型技术的发展,对于数据质量、数量和多样性的要求越来越高。
从样本中积累行业知识、场景知识是一条重要的路径。以显示屏裂纹检测为例,只有掌握了相关缺陷和产品物理位置的关系、物理形态上是否垂直于边缘、不同位置产生缺陷的概率等数据,才能够打造出好的预训练模型。
但要获取到精准的数据,却并不容易。
一是数据的完整性问题;
二是数据的维度单一性问题,检测点获取到的数据以及制程点的人机料法环测数据,能否从逻辑上实现闭环建模;
三是做知识抽取和知识沉淀时,实际上获取到的结论在验证阶段仍会出现偏差,需要更大数据量的验证;
全煜鸣坦言,即使是有着20多年行业积累,已经拥有数十亿级相关样本的凌云光,在数据获取过程中也依然面对上述的挑战。
在全煜鸣看来,减少上述问题带来的影响,需要做到精准感知和数据获取的标准化。
精准感知是对器件提出的要求。
照明系统、感知元件、光学传递相应的镜头以及待测目标,都要能够做到相关的标准度。只有在模块级做到精准,才能够在系统级的度量达到成像性能的一致性。
对于照明系统来说,辐射通量、光谱信息、时间的稳定性、温度的稳定性等度量指标,要能够在模块级进行测量和度量;对于感知元件来说,灵敏度、量子的效率、暗噪声、动态范围,也要能够进行精准的度量、调节;对于被测目标,要能够完整的对光电成像的过程进行物理建模和理论分析。
数据的标准化是从维度上说的。
比如对一个产品进行质检,其维度包括整体产品数据、瑕疵数据、产品履历、不同制程段的检测结果等各个方面,既有图像数据又有文本数据,有结构化数据和非结构化数据。
但需要注意的是,并非所有数据都有价值,数据的标准化过程,需要舍弃那些永远无人关心的沉默数据,留下有用的数据。
“数据的标准化是一个系统性的问题,对数据的单位、背景条件、存储都应该有相应的标准。比如,数据需要以什么样的形式存储下来,是不是要有产品的大图,有缺陷的小图用什么格式定义,在什么地方可以获取到等。”全煜鸣对雷峰网介绍道。
实现数据标准化只是第一步,在此基础上,还需要进一步实现数据的精准化,以及数据知识化。
数据的精准化,指的是能够重复获取的、稳定的、客观的数据。实现精准的数据,是挖掘到带有工艺知识和场景的知识化数据的基础。
以手机维修产线为例,维修不同产品过程中产生的数据,其实就包含了对手机或者手机主板怎样进行下一步检测的知识。最终将维修记录整合成标准操作流程的过程,就是将一般数据变成带有知识沉淀的数据的过程。
将带有知识沉淀的数据,用到知识图谱和大模型上,可以帮助终端客户缩短整体业务流程。
比如,富士康主板维修严重依赖于有经验的工人,但制造业人力供应链存在不稳定的弊端,对于富士康产线的工人来说,离职率会达到100%以上,尤其是一些有经验的工人很难被留住。相应的,老师傅的知识和经验也会跟着人一起走。
“通过知识图谱将大模型拓展至主板维修环节,过去 1500 步工序才能搞定一块主板,现在 15 步就能完成,产线 UPPH 足足提升了37%,让一线维修工真正可以‘入职三个月,五年老司机’。”
从标准化数据,到精准化数据,再到带有工艺知识的数据,三者之间层层递进,而数据自始至终都是穿插在中间的一条重要主线。
向平台化架构要体验
机器视觉设计多个学科,其复杂性导致通用性差,且高度依赖数据驱动。
在全煜鸣看来,机器视觉到今天,依旧像一门民间艺术,光、机、电、算、软各自为战,从成像的硬件,到成像的方案,再到算法软件平台,并没有形成一个整体的解决方案。
与此同时,随着大模型时代的到来,要把数据处理好,对技术架构带来全新挑战。如果没有全新的技术架构和全新的解决方案做支撑,就会出现技术投入越大,复杂度越高,但可持续性越弱的问题。
基于此,行业在思考如何高效地利用数据迭代模型的同时,也越来越重视技术架构的创新。
不过,企业在技术架构的搭建过程中,需要注意两个问题。
首先,要警惕脱离具体场景诉求谈技术架构,要基于业务搭建技术架构、平台,否则就是做无用功。
做架构的第一件事,是把需求捋清楚,把业务目标捋清楚,然后才有可能找到合适的方案。
据全煜鸣介绍,为更好做到从场景中来回到场景中去,凌云光将技术规划和产品规划分成了三个部分。
第一部分是目前已经落地应用的解决方案,比如2D视觉、3D视觉的量测、检测方案,思考怎样提高效率、提高精度,降低整体对端侧算力的要求。
第二部分是在一些新兴,短期有落地应用机会的创新方案上,领先行业半步,进行人才补齐等资源投入。
不过,全煜鸣也提到,“因为不能脱离客户的实际需求做研究,因此判断怎么样才是技术上提前半步,是比较难的。”
第三部分是针对超前的研究,进行提前布局。比如,凌云光三年前开始进行大模型和知识图谱的能力构建,提前将整体的技术框架进行落地。
也就是说,对于不同时期或者不同成熟度的解决方案,应当能够分梯次落地应用,并且做到一个闭环。
其次,当前构建的架构要有足够的灵活性,能应对未来的变化,保持旺盛的生命力。
也就是说,要具备能够诞生多个可模块化快速复制的集成用例,并且在平台化的技术架构基础上设计横向快速复制的方法。
一个既支持现在,又能支持未来的架构,不仅可以避免重复建设,节约成本投入,还可以更好地得到综合成本的下降。
技术架构走向平台化是重要趋势之一,凌云光2018年左右开始向平台化方向转变,时隔5年,到今年又发布了全新的KingKong技术架构,包含视觉、数字基准、大脑、自动化和驾驶舱五个部分。
在全煜鸣看来,KingKong技术架构的特征可以概括为三点:
对于视觉领域,是一个科学的标定和图像的科学评价,整体系统的一致性非常好;
在数据层面,有精准的数据,并且是带有知识的数据;
AI 模型上,是数据加知识的双轮驱动。
对于凌云光而言,这些技术为平台构建了丰富的、有差异化的平台功能与服务,提高了基础技术能力,为业务的安全、稳定、高效运行提供了保障。
对于客户来说,一个更具有一致性的技术架构,更能帮助提升缺陷产品的检出精度,加快交付,从而带来生产效率的提升,拉动产能。
一般而言,新设备进入工厂要经过NPI新品导入,之后便是产量和质量爬坡阶段。这个阶段越短,客户就越能省下更多物料和人员成本,更快进入大批量生产阶段。
“KingKong技术架构调整后,能够让手机的中框、顶框、底框的外观检测,到手机的整机外观检测,交付时间缩短。并且这样的解决方案,能够拓展到锂电外观、圆柱外观检测上。”全煜鸣介绍道。
垂直大模型叩响工业大门,颠覆性技术随时可能发生
人工智能领域的发展突飞猛进,大模型将对全行业都将产生颠覆性地重构,已经是业界共识。
在工业领域,从生产优化到供应链管理,从质量控制到创新设计,大模型正逐渐改变着工业领域的运作方式和业务模式。
然而,工业领域的复杂性和专业性,决定了通用大模型无法直接应用,尤其在一些要求高精度和领域专业知识的领域。
面对种种挑战,能针对行业细分领域提供更精确、可解释、安全和定制化的解决方案,比通用模型更具优势和适用性的垂直模型,受到越来越广泛的关注。
通用大模型虽然在多个领域都表现出色,但并不具备深入的领域专业知识。
以工业质检领域为例,产品质检涉及到大量数据和复杂的图像、声音、视频等信息,要求模型能够准确地识别和分析各种缺陷和问题,甚至是微小的变化。
但是,通用模型很难在短时间内学会这些领域知识,也很难捕捉到产线上工艺流程和设备运行等细节。
垂直模型具备专业知识,能够更好的理解和处理行业数据和任务,并且能达到更高的精度和性能,提供更准确的结果。
工业领域数据的稀缺性和特殊性,也使得通用模型难以应对。
要达到高精度,模型通常需要大量高质量的训练数据,然而在某些工业领域,特别是新兴或者小规模领域,短期内难以积累足够的异常样本,经常出现模型缺乏足够数据进行训练的情况。
此外,工业领域的数据还具有许多特殊性,对大量实时数据、多种类型数据、异常数据的处理和分析,是一项异常复杂的工作,难以被通用模型所理解。
垂直模型则降低了对数据的需求,只需较少的场景训练数据,就能实现高效开发,且定制成本更低。
工业领域讲求实际,对稳定性、可控性的要求极高,垂直模型更能获得客户的信任。
对于工厂来说,需要模型能够提供清晰的解释和推理过程,以便能够理解和信任模型的判断,从而做出下一步决策。
通用大模型通常是“黑盒模型”,内部运行机制较为复杂,难以提供透明的解释,较高的风险使其难以获得客户的信任;垂直大模型则能将其决策过程和推理逻辑展现出来。
安全和隐私问题,是敲开工业客户的最后一道大门。
工业领域的数据庞大且复杂,通用大模型尚难以提供足够的数据安全保障,并且工业领域的生产流程、产品工艺、设备参数等都属于工业企业的敏感数据,通用大模型的在训练过程中必然会接触广泛的公共数据,存在将工厂敏感数据泄露出去的风险。因此,很多企业在权衡风险与收益后,并不愿意将自己的数据提供出来。
垂直模型由于可以在特定领域内进行本地化处理,从而能够减少数据共享和隐私泄露的风险。
大模型的产生让人们意识到,整个机器视觉的解决方案,很有可能被一些极具革命性和创造力的新模型所重构。
全煜鸣坦言,“最近看到很多颠覆性技术,一些原先的技术路径或者解决方案,很有可能会被新技术颠覆。目前, 凌云光F.Brain深度学习平台已实现工业场景数据、算法(模型训练)、推理为一体的云边端协同一体化平台。 首先,通过算法平台进行特定场景的数据增广,模型训练精调,再由推理平台完成对多端多平台的部署优化。”
不过,工业场景对精确度、可靠性的要求极高,现阶段,这些新模型的直接导入应用还存在一定的瓶颈。
在全煜鸣看来,这是时代抛给企业的两个命题,一边企业要沿着已有的路线不停迭代,保证满足客户4个9,12个σ的确定性需求和规格;一边要保持技术的敏感性和兴奋度,警惕会带来颠覆性的新技术。
然而,要打磨出对行业有颠覆性价值的模型,绝不是一项闭门造车的工程。
企业需要在通用大模型基础上,微调行业大模型,最后再精调成相关制造场景的模型。
过程中,企业需要对不同产品和行业特点有深刻的认识;需要有行业高质量数据的积累;有在数据上进行研发、运算及推理的能力;有懂行业know-how的研究员和科学家等等。
这意味着,那些深耕于产业,能触达更多客户的行业场景,更容易从生产线上获取大量行业数据,且已经积累了较多科学精准样本的企业,将更好地满足工业领域的需求和挑战,同时具备更快的技术迭代速度和竞争优势。
结语
ChatGPT 带来的热度,就像是将一根针丢进了一片铁屑中,其与各行各业之间的连接,是确定无疑的。
但现阶段,关于大模型应当怎样在工业领域落地,怎样在边端、云端做相应的优化、轻量化,最终怎样做到投资回报的闭环,给工业带来效益,还处在相应的探索中。
这一过程中,充满着无数的变数,很难评判哪一家公司更有可能胜出。
但可以确定的是,市场竞争的核心将始终围绕一个词:真实需求。
接下来,在机器视觉领域,能在包括光学相机成像系统、软件和算法等AI技术上,做出对客户的提质增效、降本减存有数量级和革命性帮助的解决方案,将获得更大的加速度。 如果您有更多关于机器视觉的故事和看法,欢迎添加作者微信MOON_ERS进行交流。
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。