Google 搜索新技术，让图片自己说话

爱范儿 • 10年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

language-german-german-as-a-foreign-language-netzwerk-deutsch_a_meitu_1

未来五年消费者使用语音、图像来表达需求的比例将超过 50%。

百度董事长兼 CEO 李彦宏如是说。单纯的文字搜索时代已经渐行渐远了，如今的搜索引擎，可以直接搜索语音和图片，这也催生了他们在电子商务中的应用，比如依图搜索商品。

图片搜索引擎中，我们较为熟悉的有 Google，上传图片或输入 URL 地址，Google 就会按图索骥，给你图片来源、相似图片等搜索结果。这一切，都基于 Google 复杂的图像识别算法，对图像“指纹扫描”，包括像素、颜色，亮度，从而进行图片的特征提取，继而找出相似结果。

而 Google 又要在这个领域更进一步了。据《纽约时报》报道，Google 和斯坦福大学的科学家团队研发了新一代的图片识别技术：给图片做文字描述。识别的范围也不仅仅是图片，也包括视频画面。

目前的图片识别技术只识别出图像中的单个物体，而这项新技术识别的是整幅画面，并进行标记，用自然语言（英语）进行描述。比如，“草原上的大象”、“玩飞盘的年轻人”这样的字句。图片被如此“翻译”过后，就能够更容易、更准确的分类，在被搜索时能提供更精确的结果。

用“文字搜索”协助“图片搜索”的好处显而易见：这项技术也可以帮助视障人士，或者应用在公共监控的安全系统上——监控摄像头所捕捉到的不仅是“面部”和单个个体，它可以识别整个画面，包括其中的运动、行为，自动报警。

也就是说，它为机器的认知和自我学习提供了新的技术基础。研究人员的灵感来自人类大脑的神经元网络，这个网络让大脑可以自我“训练”，看到新事物时可以发现记忆中相似的事物。Google 要做的就是这样的一个大脑，可以认知、可以理解图片的内容。

认知是人类所具备的一种重要的能力，我们的大脑能够通过认知，也就是综合大量信息，来确定一个人的身份，一个物品的种类，这是人类智力的基础。计算机如果能做到这一点并不容易，Google X 曾动用了 1000 台电脑，一共 16000 颗处理器，创造一个多达 10 亿个连接的神经网络，在 1000 万张略缩图中，找到包含“可爱小猫”的图片。

当然，这项技术最主要的障碍在于识别的准确性，一些图像识别专家并不看好它，认为它只是复制了人类的视觉能力，反而在理解图像时更模棱两可。

尽管如此，让计算机识别“真相”需要计算机科学开创新的图形搜索技术。“我认为图片和视频中的像素数据是互联网的暗物质（Dark matter），我们希望照亮它。”项目的领队、斯坦福大学人工智能实验室的李飞飞（Fei-Fei Li）说。

题图来自 deutschland