商品识别如何带动新零售二次变革世界人工智能大会

砍柴网 • 5年前扫码分享

世界顶级人工智能交流合作平台2019世界人工智能大会于8月29日在上海世博中心开幕。计算机视觉作为在很多领域都有广泛应用场景的前沿技术，受到了广泛关注。

接触人工智能技术，大多人都是从计算机视觉领域中的人脸识别开始，从安防到手机开屏都有了广泛的应用。而与人脸识别相对应的是物体的识别，其中的商品识别由于在零售行业有广泛的应用空间，最近两年逐步受到行业内头部人工智能企业的重视，包括腾讯、旷视、商汤等都在商品识别领域有广泛的研究。本次大会上，我们也看到了从核心技术到产品落地，商品识别开始有了更大的突破。

商品识别在零售行业的应用

线下数字化是我们生活实现智能的一个前提，也就是人类的出行生活等都可以被计算机所理解和描述，从而可以被进一步的优化。我们在网络上的所有行为都是数字化的，比如在淘宝上看过哪些商品，看了多久，在百度上搜索过什么内容，在微信上的聊天，在头条的新闻浏览，这些行为都能被计算机捕捉，并被应用方作为产品优化的主要依据。而线下的数字化就难了很多，计算机视觉是实现线下数字化的一个重要技术。

类似于淘宝购物，如果商超能够实现对顾客从进店那一刻起的所有行为进行识别和分析，那么会大大提升店内的商品优化和运营效率。这个领域的核心技术为人的识别（人脸识别、用户重识别Re-ID以及用户行为分析）和商品识别。而商品识别同时还有货架排面分析，自动结算等方面的应用，是解决线下数字化的一个核心技术点。

商品识别如何带动新零售二次变革世界人工智能大会

商品识别的难点

“人脸识别和商品识别哪个更难？”这是很多人经常问的一个问题。首先这个问题不是很科学，任何问题在不同的场景都可以很难或者比较容易。从算法模型来看，人脸识别模型可以做到手机上，而商品识别基本上不可能做到，也就是商品识别的模型一般会比人脸识别的模型大很多。商品识别最大的难度在于商品种类的多样性和多角度识别。很多应用场景会要求对商品的各个角度能够识别，我们简单理解一下，如果人的识别也要做到看后脑勺就能识别，是不是难度高了好几个级别。另外一个方面是很多人脸识别是配合型的，但是商品识别基本都是不配合型的。

从技术上来看，商品识别分为两个步骤，第一步是目标检测，也就是在一个图片上先找到一个或者多个感兴趣的目标，一般用一个叫bounding-box的画框把目标抠出来。第二步是对这个画框的内容进行识别，区分具体是哪个商品。在大部分场景，第一步目标检测的难度是远远超过识别的难度。我们来看一个例子。

商品识别如何带动新零售二次变革世界人工智能大会

这是一个用手机拍摄的货架排面检查图片，图片里大概有几百个商品，这种高密集的目标检测，要做到一个不多一个不少是很困难的。现在流行的目标检测模型faster-rcnn或者yolo都不是针对这种高密集目标检测设计的，比较容易造成漏框和多框的错误。如果这个拍摄的摄像头是安装在店内的顶部，造成的拍摄角度会大大增加检测的难度。

商品的识别大部分是在特定的场景下进行，具体的物理摆放会大大增加识别的难度。下图是一个智能零售柜内用鱼眼摄像头拍到的图片，我们可以看到大部分商品只漏顶部的一些信息，有些只漏出瓶盖的部分，这样对类似商品的区分大大增加了难度。

商品识别如何带动新零售二次变革世界人工智能大会

在实际商品识别应用中，单纯一个识别模型很难解决实际的问题，往往需要通过物理条件的改变，以及多模型的融合才能达到可以应用的水平。模型复杂度的增加也会影响最后的计算资源成本。

商品识别目前处于什么水平

商品识别最早的应用场所是拍照购物，通过图像识别找到同款商品。早在10年前硅谷有个创业公司SnapTell’s就是做类似的产品，在2009年被亚马逊旗下公司A9收购。后来的图片社区pinterest和谷歌图片搜索都有类似的功能。

商品识别如何带动新零售二次变革世界人工智能大会

国内的淘宝拍立淘是阿里自研的图片购物产品，其优势在于淘宝巨大的图片库。而电商的另一巨头京东拍照购的核心算法是由海深科技在2017年上线提供的。海深科技在小物体的目标检测方面有行业内前沿性的技术，能够准确的检测和识别穿在脚上的鞋子等小物体。同时海深科技为小红书、搜狗等应用提供图像识别服务，提供图像变现的新途径。目前对电商网站用户评论区的图片进行同款搜索，海深科技的top20的准确率在75%左右，处于行业领先地位。本次AI界盛会上，海深科技也受邀参展，并现场展现了基于商品识别技术的智能产品。

商品识别如何带动新零售二次变革世界人工智能大会

Amazon Go的自动结算方案是商品识别的另外一个重要应用场景，但是由于开放式的环境，一般都还需要利用重量感应器等其它辅助手段才能达到一定的准确率。而场景可控的智能零售柜成为一个新的零售终端方式，在办公楼、学校、医院等场景得到了大力的推广。虽然有物体密集摆放、鱼眼摄像头造成的图像畸形以及遮挡等问题，海深科技推出的G-BOX AI 零售柜在实际应用场景中能够达到99.8%的准确率，无论是在识别速度还是准确率方面，都处于领先水准。

不同于人脸识别已经有多个权威的测试数据集，商品识别并没有统一的标准和测试数据，造成这个领域的学习成本很高。我们了解到海深科技正在建设商品识别数据共享平台，把商品数据和算法以服务的方式开放给应用方，推动这个领域的技术发展。

商品识别的发展趋势

边缘化计算是商品识别的一个趋势。由于模型的复杂程度，大部分商品识别算法只能部署在云端GPU完成计算。这个也是商超线下数字化目前遇到的困境，巨大的带宽需求和计算资源造成单店成本过高。随着嵌入式计算的发展，更多的计算能够在前端完成，增加部署的灵活性。

图像识别这几年的快速发展，很大程度受益于李飞飞教授主持的ImageNet大量标注图片数据集。同样的道理，由于商品种类的繁多性，靠一个公司或者团体的能力，很难提升算法的泛化能力，也就是单一算法只能适用于非常有限的场景，很难形成规模化效应。数据共享和算法开放将会成为人工智能发展的一个重要趋势。