百度瞄准图像搜索，难点在哪？

创见网 • 10年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

*本文作者罗超

百度世界大会上李彦宏预测，「未来五年消费者使用语音、图像来表达需求的比例将超过 50%，未来搜索方式一定会发生变革」。就在昨天百度 Q3 财报发布时，李彦宏对外透露，百度移动端流量超过 PC，移动已成百度主阵地。百度最近一年陆陆续续推出了魔图、拍照翻译、作业帮、百度 EYE 等基于图像搜索技术的产品，这一切都在指向一个百度并未公布的事实：2014 年百度在产品层面正在瞄准「图像搜索」。

百度瞄准图像搜索开始规模应用

图像搜索，可以简单地认为是「以图搜图」，但并非图像识别这么简单。它不只是改变了搜索的输入方式，而是全新的搜索理念：让搜索引擎成为与「大脑」直接连接的眼睛，帮助人们智能识别环境中的一切，理解人类意图直接给出答案，整个过程中用户不需要说什么或者输入什么，只需要让搜索引擎「看」就可以了。

在去年愚人节期间百度 EYE 的消息爆出之时笔者便曾撰文《视觉搜索是移动搜索的未来》，百度认同此理，与 Apple、Google 和微软三大海外巨头凭借着 Siri、Now、Cortana 大力做语音搜索不同，百度似乎更倾向于用「看」来满足人类移动时代的搜索需求。

人类既然可以通过声音驱动设备各种语音助手，又怎会忽略另一个人类与外部环境的核心交互能力——视觉呢？相关统计显示，人类有近 90% 的信息获取来自于双眼。李彦宏早在三年前便宣称「读图时代」的到来，而瀑布流、Pinterest、Snapchat 等图片应用更是掀起了图片应用之风，图片已经成为移动设备最重要的内容形态，与基于文本的网页势均力敌，图像搜索更加重要——搜索引擎做的事情本质是帮助人们从内容中找到想要的。

移动设备摄像头的分辨率不断提升，Intel 等公司已经推出具有「深度识别」的摄像头可以识别立体化的图像意味着摄像头技术本身在升级。这些则为图像搜索创造了物理条件。

图像搜索时代已经来临。与 Google 将这一搜索形态寄望于 Google Glass 这一尚未普及的设备不同，百度在软件层面基于成熟产品去应用图像搜索技术，比如手机百度、百度魔图、百度翻译、百度作业帮等产品，从应用范围来看，百度在图像搜索上已开始领先。

深度学习破解图像搜索待解技术难题

Google 在 2009 年分别推出网页版 Google 相似图片搜索和 Google Goggles，10 年百度则推出识图搜索（shitu.baidu.com) 涉水图像搜索，12 年底推出全网首个人脸搜索引擎。这些产品更多是「图像匹配引擎」，它们在做的是识别并找到相似图片，而不是去理解特定场景某张图片的意图，并且面向全网寻求答案：可能是图片，更可能是翻译结果、百科知识、购买链接甚至附近的商铺。

如果把图像搜索等同于图片识别，它并不算什么高超的技术。不同领域的图像识别技术已趋于成熟，典型应用有照片管理软件、照片美化软件、公共监控设施、人脸解锁应用……到处都是图像识别技术，智能摄像头 Dropcam 还可以做到区分闯入监控区域的是陌生人还是宠物。

识别只是图像搜索的第一步。第二步是理解，第三步是检索。就像 Siri 和文本搜索一样，获得用户输入的内容比如语音转文字，然后才是理解用户意图，结合用户画像、用户历史记录、用户位置属性等个性化信息，最后根据所理解的用户意图去索引中寻找「答案」。每一步都存在着技术难点。这是为什么李彦宏在 2012 年 KDD（知识发现世界年会）上提出 9 大待解技术问题，「基于内容的的视觉搜索」排在第 3 位。

对于平面和刚体内容的识别已经可以做到较高的识别率比如人脸、书本、CD、菜单等平面内容，召回率近 90%；对于穿着的服装、行动的动物、周遭的街景、市场的蔬菜这些「非刚体」「非平面」内容，识别率是瓶颈。不过，更大的难点在于「理解用户意图」，就是要能看懂。比如用户在超市搜索蔬菜是要了解菜价；在家里可能就是要问菜谱了。搜索引擎必须要理解用户意图。如果没有这一步就只能做「相似图片搜索」这样的初级功能。

百度首席科学家吴恩达，原 Google Brain 负责人的「识别猫」实验闻名遐迩，它让机器通过深度学习从一堆视频中理解了猫是什么并找出了含有猫的视频。这实际上已经告诉了我们「理解图片」这个难题的答案：深度学习。

深度学习可以模拟人脑分层思考过程，去识别图片中的部位和意图，同时通过无监督的样本训练等方式升级算法，提升识别准确率和提高理解能力，做到「能认出」和「能看懂」。对应到我们自身的「看图过程」不难理解为何深度学习可以让机器识别和理解图像：摄像头是图像搜索的眼睛，基于云的深度学习神经网络就是图像搜索的大脑。

未来的图像搜索会怎样？第三只眼

基于手机 App 的图像搜索过程还算不上最自然，因为它的搜索流程并没有做到与人眼一模一样，人们需要在搜索时再去选择或者拍摄照片，而不是所见即所得——Siri 就做到了对话式的自然搜索。Google Glass 和百度 Eye 的思路是人们佩戴便携设备，看哪里就搜索哪里，比如去买菜时看着蔬菜，去逛街时看着招牌，在地铁盯着美女的脸，均可启动搜索，没有「拍摄」环节。

这隐含了两个改变：一是图像搜索从被动到主动；二是图像搜索可以做到自动理解它看到的一切并适时启动搜索，让搜索过程更加自然。

还有第三个重点是动态图像搜索。当前图像搜索都是静态图像，而不是动态视频。人眼在观看和理解环境时，面对的却是动态内容，本质上是海量静态图片「帧」的集合，图像搜索发展到最后必然是可以理解动态视频，就像吴恩达的猫识别实验一样，这时候，移动摄像头基本就与人眼一样「智能」了。这与百度旗下的小度 i 耳目智能摄像头有着一定的结合点。

手机百度在做切实可行的图像搜索：基于静态图片的、用户主动发起的。目前还需要培养用户习惯，用户使用越多贡献越多图片和行为数据，帮助图像搜索进化。随着动态图像搜索、视频图像搜索的技术成熟，未来手机百度，或者基于百度的新设备，就会真正成为用户的第三只眼，实现移动场景下对「线下实体」的搜索，比如商铺、商品、餐厅、菜品、图书、环境、招牌、景点甚至地铁对面的美女。

*作者微博 @互联网阿超，微信 SuperSofter

标签: 百度图像识别