Google 搜索新技术,让图片自己说话

爱范儿  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

language-german-german-as-a-foreign-language-netzwerk-deutsch_a_meitu_1

未来五年消费者使用语音、图像来表达需求的比例将超过 50%。

百度董事长兼 CEO 李彦宏 如是说 。单纯的文字搜索时代已经渐行渐远了,如今的搜索引擎,可以直接搜索语音和图片,这也催生了他们在 电子商务中的应用 ,比如 依图搜索商品 。

图片搜索引擎中,我们较为熟悉的有 Google,上传图片或输入 URL 地址,Google 就会按图索骥,给你图片来源、相似图片等搜索结果。这一切,都基于 Google 复杂的图像识别算法,对图像“指纹扫描”,包括像素、颜色,亮度,从而进行图片的 特征提取 ,继而找出相似结果。

而 Google 又要在这个领域更进一步了。据 《纽约时报》报道 ,Google 和斯坦福大学的科学家团队研发了新一代的图片识别技术:给图片做文字描述。识别的范围也不仅仅是图片,也包括视频画面。

目前的图片识别技术只识别出图像中的 单个物体 ,而这项新技术识别的是整幅画面,并进行标记,用自然语言(英语)进行描述。比如,“草原上的大象”、“玩飞盘的年轻人”这样的字句。图片被如此“翻译”过后,就能够更容易、更准确的分类,在被搜索时能提供更精确的结果。

用“文字搜索”协助“图片搜索”的好处显而易见:这项技术也可以帮助视障人士,或者应用在公共监控的安全系统上——监控摄像头所捕捉到的不仅是“面部”和单个个体,它可以识别整个画面,包括其中的运动、行为,自动报警。

也就是说,它为机器的认知和自我学习提供了新的技术基础。研究人员的灵感来自人类大脑的神经元网络,这个网络让大脑可以自我“训练”,看到新事物时可以发现记忆中相似的事物。Google 要做的就是这样的一个大脑,可以认知、可以理解图片的内容。

认知是人类所具备的一种重要的能力,我们的大脑能够通过认知,也就是综合大量信息,来确定一个人的身份,一个物品的种类,这是人类智力的基础。计算机如果能做到这一点并不容易,Google X 曾动用了 1000 台电脑 ,一共 16000 颗处理器,创造一个多达 10 亿个连接的神经网络,在 1000 万张略缩图中,找到包含“可爱小猫”的图片。

当然,这项技术最主要的障碍在于识别的准确性,一些图像识别专家并不看好它,认为它只是复制了人类的视觉能力,反而在理解图像时更模棱两可。

尽管如此,让计算机识别“真相”需要计算机科学开创新的图形搜索技术。“我认为图片和视频中的像素数据是互联网的暗物质(Dark matter),我们希望照亮它。”项目的领队、斯坦福大学人工智能实验室的李飞飞(Fei-Fei Li)说。

 

题图来自  deutschland

随意打赏

提交建议
微信扫一扫,分享给好友吧。