机器人是如何看见世界的
机器人会代替人类吗?
百年之前,机器人帮助人类完成大量机械作业,在卡雷尔·查培克的《罗萨姆的万能机器人》中还只是虚构情节。而如今,已成现实。
刚闭幕不久的2021世界制造业大会上,以实用性“出圈”的联想晨星机器人再次收割一大波“关注”。
晨星机器人有一双“慧眼”
联想晨星机器人是一个能够帮助用户立体感知远程环境,并与之实时交互的“复合型机器人”,非常适合代替人工在流水线、工作空间受限、空气质量恶劣等环境中作业,在装配流水线,喷涂车间,电力巡检作业等应用场景中堪称“得力干将”。
在智能车间里,联想晨星机器人的智能化和柔性化能力得以全面展现。它可以给数百种零部件进行精细喷漆;可以避开障碍,灵活游走车间;可以根据颜色、形状对零件进行分类;还可以进行缺陷检测,保证工作质量……
以某高端智能制造流程中的喷漆环节为例,联想晨星机器人会对整个车间进行空间扫描感知、图像识别,所获取的数据会在边缘侧的虚拟机上进行实时的三维建图和渲染,通过SLAM 、导航定位、物体识别与跟踪技术,便可轻松避障,顺利到达喷漆间;喷漆操作开始前,机器人的双目立体相机会将操作台的各类工件和周边环境采集到边缘服务器,服务器会将3D视频流实时推送给晨星AR眼镜,技术人员通过AR眼镜和手柄即可远程操控机器人进行人机协同喷漆操作。
而这一系列操作步骤的完成,正是对计算机视觉技术的立体展示。计算机视觉技术赋予了联想晨星机器人一双“看懂”制造场景各方细节的“慧眼”。
计算机视觉让机器“有目”共睹
作为人工智能领域的一个关键分支,计算机视觉好比人眼,是人工智能在感知层面最为重要的核心技术之一,它可以模拟人眼对目标进行识别、跟踪和测量等,所获取的数据将被处理成更适合人眼观察或仪器检测的图像,亦或者直接针对所获取的信息进行相对精准地判断、预测和行动规划等。
用眼睛看世界是人类与生俱来的能力,而如何让机器学会像人类那样通过视觉观察“看懂”这个世界,便是计算机视觉技术要完成的任务。
历经几十年的迭代,目前的计算机视觉技术主要基于深度学习来精进自己“看”的能力。深度学习算法的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,最终提升分类和推断的准确性。
为了让机器看得细、看得广、看得更清楚,需要为深度学习预设更多模型参数和更丰富的数据,模型参数的设定和数据处理能力的多维度需求对GPU算力的提升提出更高要求。计算机视觉的应用场景端,往往承担着数据采集和分析任务,很多需要本地处理,快速反应,计算力下沉,对边缘的存储和计算能力同样带来挑战。相应的海量数据传输,又需要强大的网络速率作为支撑,以保证应用端延时性的降低。而随着算法的更新、算力的升级、数据的大爆发,5G带来的高速网络以及边缘能力的不断提高,计算机对图像的分析、理解和预测输出能力已经在不断加强,并逐步深植各行各业,得到更加深入的应用和发展。
与此同时,日益丰富的应用场景推动着计算机视觉技术的不断细化,计算机视觉技术衍生和拆分出了图像分类、物体检测、物体识别、物体跟踪、视觉SLAM等关键技术。作为人工智能细分领域发展最快、应用最广泛的核心技术之一,计算机视觉的各项分支技术已广泛应用于制造、安防、医疗、教育、 汽车 等领域。
联想让机器 人 “见多识广”
联想的计算机视觉可以“看懂”当时生产线上出现的零件缺陷、缺失、安装不到位等问题,目前这项计算机视觉缺陷检测方案已应用于联想武汉工厂与深圳工厂的智能 手机 和笔记本装配检测流程中。
随着自身智能化转型的渐趋深入,联想对计算机视觉的应用范围和应用方式不断突破着边界。“看懂”也不再局限于某一场景下的某一种生产零件的情况,而是更为丰富而复杂的动态场景中的不同事物及其状态,简而言之,就是更加的“见多识广”了。
联想提出的“端-边-云-网-智”创新架构为计算机视觉技术的应用和发展提供了天然的生态条件。端侧,联想既有AR/ VR 相关的各种新型 智能硬件 终端,如联想手机、电脑、晨星AR眼镜、联想晨星视觉模组、联想晨星MR摄像机等,也有硬件、软件、服务一体的智能解决方案,如智能生产、智能运维、智能检测等,为计算机视觉的提供了丰富的应用场景。
而在边缘侧,联想的边缘计算平台(LECP)和联想大脑-Edge AI平台可以为端侧提供更强大的算力支持和存储补充,像计算机视觉应用中经常涉及到的识别、检测、建模、渲染、数据聚合与分发等计算和存储需求都将转移到边缘侧进行,端-边协同推理,充分发挥边缘侧的就近处理、快速响应、满足个性化需求、隐私保护等优势。
云端的“大脑”主要负责通用化沉淀,以联想全球领先的超算技术为算力基础,通过多层次的学习模型,进行海量数据的训练,形成更通用的应用模型给边缘侧和端侧调用,为端侧实现更高层次的数据复用、知识共享和能力调配,持续推进端侧的机器对识别、推测和行动规划能力的提升。而联想基于自己研发的5G网络通信虚拟化产品,又为计算机技术在整个“端-边-云-网-智”中的应用和发展加足马力,提供了速率保障。
基于“端边云网智”这样的创新架构,联想将计算机视觉与混合现实技术融合,打造了完整的端到端的核心技术布局,包括光学以及显示系统、计算机视觉系统、计算机视觉标定、显示引擎、定位跟踪、空间3D重建、物体识别与追踪、检测以及云渲染等。
在定位跟踪方面,联想基于自己的技术优势,开发了一种基于多传感器的SLAM(Simultaneous Localization And Mapping)算法框架,并对相关底层运算进行优化加速,实现了在空旷、少纹理场景下的稳定定位,也就是在特定环境里,这个技术能够帮助机器进行导航、定位和地图的规划,帮助机器不迷路,不绕远。
除了标定位置和路线,我们还需要对机器周围的动态场景进行检测和追踪,以避免“飞来横祸”。联想的另一项核心优势就是三维物体识别和追踪,指的是针对指定的一个或者多个三维物体,在一个连续的图像序列中进行物体的目标检测与姿态求解。基于三维物体的检测与追踪获得的结果,可以为增强现实中虚实物体的交互提供信息,为机器人抓取的任务规划提供依据,为车辆之间的定位提供参考,因此三维物体识别与追踪在增强现实、机器人、自动驾驶领域有非常重要的应用价值。
2020年12月,凭借业内领先的计算机视觉技术能力,联想研究院在国际多目标跟踪挑战(MOT16)榜单上,超越阿里达摩院、百度、马克思普朗克研究所、卡内基梅陇大学等强队高居榜首,成为计算机视觉技术领域的佼佼者。
“看懂”千行百业
从内生需求驱动到外化行业赋能,联想对计算机视觉技术的应用已经在智能制造、智慧医疗、智慧城市等领域实现了多点开花,为各行各业的智能化转型提供解决方案。
在智能制造方面,联想晨星机器人就是一个非常典型的案例,除此之外,在飞机生产制造的研发设计、供应链、生产制造、试飞测试以及运维五个流程中,计算机视觉作为“导航仪”,贯穿在飞机制造的每一个环节中。
此外,我们还打造了基于计算机视觉的生产线质量检测解决方案。在个人电脑、手机等智能设备产品整机系统生产中,由于来料运输和组装过程中产生的负向干扰,整机生产过程中有多个检测站点用于发现不良或缺陷,以往需要人工100%肉眼检测,持续注视,极易疲劳,主观判断不易稳定。一旦发生不良品出货到终端客户的情况,会导致客户体验感不佳;其次由此带来的后续处理问题,成本巨大。因此,我们综合目前视觉检测以及机器人开发成果,结合自身的情况研发了智能制造的机器视觉方案,即生产线装配质量检测解决方案,有效提升了质检的效率和精度。
在智慧园区领域,联想将LeFace人脸识别技术应用在门禁闸机上,打造了 “端侧屏下”智慧易行闸机识别方案,毫秒级响应,高效安全,并且针对园区场景定制化优化,针对不同光线等条件专项优化,实现复杂场景下精准识别。用户经过闸机,不用刻意停下来找摄像头,只要是“自己人”,就可畅通无阻。这项技术,也被应用于零售领域,在联想总部的无人商店,人们可以通过人脸识别自由进出商店,购买商品。
在联想对计算机视觉技术的应用案例中,这些都是浮光掠影的一部分。相对于计算机视觉技术自身的发展潜力而言,目前人们对这一技术的应用不过是冰山一角。随着人工智能在各个领域的不断深入发展,这双“慧眼”的应用空间将不断拓展,而它,也将牵引着人工智能“看见”更广阔的未来世界。