时尚圈怎么玩图像识别和人工智能?
5月31日下午,由百度新闻、36氪、新浪创业联合举办的“奇点大学中国区学员选拔大赛”10强选手,在北京恒通国际创新园内进行了中国区总决赛。从数百个参赛者中脱颖而出的10位创业者,展示了各自团队所处领域的前沿科技。
以下为图片搜索引擎衣+创始人张默在“奇点大学中国区学员选拔大赛”决赛现场的展示:
张默:大家好,我是衣+图象识别的搜索人创始人张默,衣+是人工智能是基于图形识别的搜索引擎,我们全球有60多亿人口,每个人从出生开始就穿衣服,那可见买衣服的需求有多大。人类用眼睛看世界,这是不分语言和国界的。我从小喜欢画画,我对于视觉和美特别有感觉。我希望我能够帮助全球所有像我一样的普通人,能够随时随地找到喜欢的衣服,可以让自己变得更美一点,更漂亮一点。我深深的觉得每一种美都是独一无二的,值得欣赏的。
互联网的本质就是自由、去中心化,这也是互联网的精神。人类80%的信息是通过视觉获得的,可见这是有多么的重要,那么全球产生每天十亿张图片,同时电商花费巨资购买流量,他们之间缺少桥梁,我们做的就是这件事。我希望可以帮助像亚非拉这样的,哪怕是小孩子,在不懂外语,没有知识的情况下可以用眼睛发现美好的世界。我们解决的是人所见即所得的碎片化的人对购物需求和对时尚的欲望。我们提供全球化的图搜衣引擎,可以是APP、也可以是API。我们是世界领先的,我们是做的强大的有感知能力的可以学习的人工智能,我们的免费的API可以全网连接图片和商品,在你所有能看到图的地方和所有能看的地方都可以直接买衣服,甚至是所有的商品。我们为伙伴提供六亿用户来服务,我们是唯一一家整合全球数千万时装商品的服务商,我们有一百多个国家的用户,其也有来自朝鲜和阿富汗这样的地方。我想人类对于美的追求是不分语言和国界的,所以我们深深的自豪。我们连接了一百多家全球的时尚电商,包括中国主流的十家时尚电商,以及海外的更多。
当你看社交网络的时候,当你看图片的时候,你看杂志,看电视,和在大街上,你很有可能一见钟情看到你喜欢的衣服,可是,却买不到。我们帮你随时随地找到它,并且买到它。
我们的免费API一键连接全网所有的图片和电商,让你随时随地边看边买。我们左边的图,每一个商品右上角都有一个小手,只要点击一下就可以找到同款和相似款直接产生购买,我们会放这个API,让你在所有可以看到图的地方,比如说相册、美图、微博、视频类的优酷和爱奇艺,以及小米、乐视这样的希望电视可以边看边买。我们竞争力有四点,我们技术领先,数据库十分庞大,我们产品有灵魂,并且有精英的团队,有全球化视角的极客。
我们基于最新一代的图象识别和深度学习的神经网络和搜索的技术,可以将时装的识别精度由60%提高到90%到98%。众所周知,服饰的识别是一个很难的领域,可是深度学习被誉为人工智能的“圣杯”,我们真的感觉它的神奇。可以看到它学习到了比如说服饰的款式、材质、纹理和明星同款,还可以自发的识别猫,可以找到所有和猫有关的图案,有的时候也可以开玩笑,我们给它一个头像,他可以给我反馈一只猫,我有的时候给它我图像,他可以告诉我是一只愤怒的小鸟。
深度学习真的是非常的激动人心,一开始像一个出生的婴儿,我们用了十个小时它就已经学会了两岁的孩子所掌握的知识。我们积累一百万的商品用了三个月,可是我们用了两个月就到了两千万,我们积累三百万的用户用了半年,可是未来的半年我们会为十亿用户提供服务。这就像所说的指数级的增长。我们基于模拟人脑的深度神经网络设计了针对服饰的独一无二的深度学习的训练框架,通过海量的数据进行训练。我们有一个多层的深度神经网络体系,可以对商品的属性来进行自学习。
我们有从底向上的无间度学习还有从上到下的有间度学习,从上到下采用了梯度递减这样的算法。在四项关键技术处于领先,这是我们自主研发的核心技术。除了神经网络,我们有高校的搜索引擎系统,支持亿级的请求检索,相应时间不会超过1.5秒,而且有自动化图片处理系统,可以更新百万量级的商品入库,并且在分割技术上我们也处于业界的领先。我们甚至是超越了这个领域的先驱,谷歌。我的团队来自于EAT以及像微软,IBM,斯坦福、剑桥,北大,南洋理工,新加坡国际大学等等这样的名校,我爱这些团队的优秀成员,我是计算机和商学院的双硕士,我在北京大学有我的软件工程的第一个学位,并且我在微软和IBM参与过操作系统和人工智能的研发,并且我在南洋理工和斯坦福大学进行深造。
我们的目标市场受众是十亿级用户,市场现有的产品基于推荐的低龄低价山寨品,可是还有很多需求没有被满足。我们认为颠覆的时代正在到来,由被推荐到主动寻找个性化和自我表达。我们和其他的产品的区别就是搜索和门户的区别,这个世界已经到来。所以我们帮助用户寻找一个人格独立到心灵自由,我们有搜索发现和社交的功能。这是搜索的展示,这是一些更多的展示,可以看到我们对于语意的理解和衣服的款式,以及明星同款,都是在业界极有竞争力的,拥有很高的搜索精度。
由这个例子可以看到我们在服饰识别这个领域超越了谷歌的,我们以超越的方式向谷歌致敬。这是其他的功能PK明星,通过穿衣品位找到最像的明星。我们还有条件标签对图像搜索进行补充,我们根据人物兴趣和品牌进行兴趣社区的运营。盈利模式主要是CPI,CPC和推荐类广告,这是一个非常成熟的盈利模式。
未来之路可以想象,我们现在是全球化的时装导购平台,我们可以做商品的导购平台,也是未来的移动搜索,可以想象在任何的地方,任何的时间,看见一个你喜欢的东西,我们帮你随时随地找到它,买到它。
我们也是机器视觉可以帮助未来的人工智能,让它有更聪明的眼睛,可以用在无人机,自动驾驶领域,在人工智能的帮助下,人类的眼睛会更聪明,可以去看世界,理解和探索这个更美妙的世界。
接下来放一个短片。人的视觉可以增强到什么样的程度。人的视觉可以在人工智能的帮助下变得越来越强大,更聪明,去探索。
比如说这样一个场景,看到冰箱里的食品就知道它的保质期和营养价值,切黄瓜的时候,其实这是一个游戏,可以随时随地看到你喜欢的衣服并且有一个穿衣服的手帮你搭配。这是一个恋爱助手,约会助手,可以看到这个人的背景和相关的信息,你看到一瓶酒你可以直接下单来买。大家可以体验一下我们的APP。谢谢大家。
接下来会有三位嘉宾来支持我,他们分别是曾经在30岁投出过上市公司。
主持人:非常精彩的介绍,你接着介绍完三位嘉宾。
张默:还有拥有六亿用户的合作伙伴,还有一位天使投资人。
主持人:好,非常感谢张默今晚的演讲,我之所以迫不及待的冲上来,因为你已经超时了40多秒,我们后续的选手也注意了,每个选手的演讲时间只有12分钟,一旦超时你的话筒会被切断,下面一个环节是由选手的助阵嘉宾讲述对这个项目的看法和帮助更好的理解,张默的助阵嘉宾有三位,我们注意大屏幕。
主持人:三位嘉宾给予的张默很高的评价,下面这个环节,我们要由现场的评委和评审对张默进行发问,为时五分钟,下面开始正式提问。有请。
沈强:我先问张默一个问题,我很欣赏你对于图片搜索未来的各种各样的愿景的认识,无论是改变人的传译还是变得更美,那么一个是说从实践层面上来看,今天即便是计算机的衣服图像搜索这个领域还是比较有难度的。我们也看到过很多类似的项目,在解决挑战的时候,不仅有复杂的背景,还有主体在不同环境下的精准识别,你们做的效果会怎么样,我们看到很多可以做到完全自动的理解,不需要指定衣服的主体等等。这是今天的事。
另外是未来来看,我想奇点大学想要找的是改变人类未来的创新。我们看到了计算机视觉的各种各样的应用,您从搜衣这样的起点到短片后面来看的远大的未来,中间有一些什么样的,每一个领域都是,这是目标吗,怎么样跨越?
张默:我之所以选择比较有挑战的垂直领域服饰来进行切入,我觉得它非常有需求,它特别适合于用图象识别的方式去搜索,文字搜索在服装行业是不起作用的。所以图片是一种表达,有它的设计、图文、风格等一切,在这个领域需要这样的解决方案去帮助用户。而且服饰的需求非常巨大。基于我为这个行业的深深的热爱,所以我选择这个领域切入,在其他的方向,相信对于数字和文字这样的识别我们都是有相当的技术积累的。我们长期的去跟随国际最新的像谷歌和微软和各大公司的,相信我们团队有足够的经验和学习能力去向前创新和研发,持续领先的去做各种各样的,包括扩展我们的产品线。
现在最难这个领域计算机视觉我们可以做到很高的程度,我们相信其他的领域也可以做得很好。我相信基于深度学习带来一个质的突破,像所说的像睡一觉醒来之后之上从四岁提高到三十岁,我相信这是有可能的。而且在我们的研发实践中也深深领会到了深度学习带来的巨大飞跃,所以我是很有信心的。我们会持续的去寻找和建设这样的世界领先的团队,去实现。
主持人:沈强老师对张默的回答是否满意,我们最后只剩下一分钟的时间了,点评一下就好了。
沈强:我觉得想听到您的回答是说,这GAP,这个在衣服上,你在面上,走深是一个很长的时间的积累,视频里面又是一个很广的过程,从深到广这个路径怎么样跨越。
主持人:这个中间节点怎么办?
张默:因为今天的主题是既然在一年之内影响10亿人,我相信在几年之内,那些设想都是可以实现的。在技术方面,我们已经有了相当多的积累和尝试。我们会和国际一流的团队去合作。
主持人:时间到,张默的技术和发展要基于基础研究的突破和发展,可能随着人工智能和深度学习技术的不断的提升,对我们项目的会有很大的助力,你是第一位选手,后面还有九位。我想问一下你对这九位选手有没有什么想说的。
张默:我想说不管最后是谁赢,都是代表中国去影响世界10亿人,我向他们加油。