See技术总负责人夏健钊:用See驱动图片电商化
4月6日下午14:00,由36大数据携手腾讯云分析,在深圳腾讯大厦二楼多功能厅举办了“大数据应用与实践”主题沙龙。
活动现场,See技术总负责人夏健钊夏总为大家带来了《深度学习与大数据驱动图片电商化》的演讲。夏总的演讲立足于其公司主打的应用产品See,从See的产品特性、聚焦的算法、遇见的大数据难题到探索建构的大数据算法,都和大家做了详尽的分析和说明。
以下是夏总演讲的具体内容。
夏健钊:大家好!前面两位嘉宾讲得非常精彩,囊括了大数据非常多方面的内容。今天我要讲的是“深度学习与大数据驱动图片电商化”的主题。这个主题包括了几方面的内容,第一个是深度学习,第二是大数据驱动,第三是图片电商化。我们怎么做到深度学习、怎么做到大数据驱动、怎么做到图片电商化?等一下会给大家一一解析。
大家看一下我们的Logo,这是我们深圳碳元子旗下的一个应用。现场有没有人玩过?还是有人用,没有人用这说明我们市场有很大空白,这个应用面向时尚女性。大家做技术的比较多,可能跟时尚接触的比较少,接下来我会跟大家介绍一下这个应用是怎么玩法,介绍我们是怎么用图片驱动电商化的。
See是我们的一个应用,一句话来说,See是一款发现时尚,制造潮流的应用,是全球时尚女性的消费入口。 这句话有两个关键词,第一个是发现时尚,第二个是消费入口。 发现时尚是我们应用的形态,消费入口是我们电商的模块,所以这是一个结合。
我们See的整个玩法是通过用户的手机拍照进行的,比如说用户要找一件衣服,就拍这张图片上传到我们后台,我们后台会通过一个图片搜索引擎检索图片里面到底要找什么商品。我们检索出这个商品的时候,就把这个商品的特征码提取出来,跟整个商品库进行比对,把最相似或者相同的产品推荐给用户,用户可以直接点进去购买进行购买。
什么是发现时尚呢? 很多用户到我们这边,告诉我们他有什么样的产品,他们每天不停上网找需求,而我们知道用户有什么时尚咨询和需求,我们可以通过这些需求建构一个社区,反向推送一些相关的商品。
什么是消费入口呢 ?刚才也说了,See是社区+电商的完美结合,用户可以在平台上消费,可以买到想要的商品,这样才能完美解决用户的一些需求。每天有一万个或者一百万个人向我们不停的发送需求的时候,我们怎么处理呢?这就是我们今天要讲的第二个话题,也就是我们遇到的一些难题。我们聚焦什么算法来解决大数据难题呢?框图、识图、搜图、推荐图,这是流程里面比较专业的术语,等一下一一跟大家解释一下。为了解决这个难题,我们See也研发了一套比较完整的工具,来解决这个图像识别、精准推送内容给用户的流程。
我们研发了一个See眼、See脑和See画像,这三个方面完美地解决了框图、识图、搜图和推荐图的维度。 接下来看一下我们怎么解决这个大数据难题的。
See是什么?
刚才跟大家说了我们的应用场景,具体的描述不细说了。大家看一下这个图片,这里有一个时尚女性的图片,上面有一些鞋子、裤子、包包,这几个都是商品,这就是我们的应用场景。为什么会有这么多东西在我们的应用里面?用户通过这个按钮,点进去发送她需要的一些东西,包括裤子、鞋子和包包,她把这个图片发给我们以后,我们后台通过搜索引擎的一套算法,自动把这张图片里面的所有商品框出来,然后再拿框出来的图片匹配后台的商品库。因为我们有一个全球的商品库,每个星期大概一两百万的数据来更新所有的商品,总商品数已经达到几千万了。当我们后台搜索到这种匹配的商品的时候,就会把这个商品推送给时尚专家和专业买手,再把这个答案推给用户,用户可以在这里买到需要的东西。这个就是整个应用场景,我们给用户发了想要的商品。整个过程是全自动化的,因为所有都依赖于后端大数据的支撑,人工可能会参与回答,但是每天有过百万的需求的时候,不可能人工把每一个需求一个一个的看,所以是后台自动化识别用户需要什么商品,然后再反向给他推送。
See还是一个全球时尚服务平台。
为什么这么说? 第一是我们有创型新的服务模式, 用户只要拿起手机就可以在我们这里买到想要的商品,我们目前已经拥有超过百万的商品求购,让超过百万的用户享受到了拍下就拿到想要买的商品的服务模式。 第二是自媒体商业化创新, 我们把一些自媒体集合起来,包括一些公众号和时尚博主,打造内容的商业生态。第三是发现时尚的全球视野,我们这里的内容大部分是客户贡献的,还有第三方贡献的,我们会筛选比较优质的内容,依据用户行为点击和用户喜好进行相应的推送,达到千人千尚的效果。第四是我们还跟海外品牌经纪人合作,把很多时尚产品推送过来。所以我们是全球领先的时尚服务平台。
这是我们刚才展示的应用场景,用户直接在我们这里通过拍照,然后上传一张图片求购,我们后台再通过一个系统和搜索引擎来进行数据分析和挖掘,把这个商品匹配到我们的商品库,这个是全球的商品库,数量级别比较大,基本上所有商品都找得到,这上面还有时尚专家的回答,整个页面就是我们的整个流程。
See的发展历程
再看一下See的发展里程,从一开始的图片找同款到目前的图片求购,到所见所得拍下就能买的模式,我们是这样为用户服务的,我们最终打造的是用户拿起手机拍一下就可以在我们这里找到需要的商品,是这样的一个过程。
为什么说发现时尚呢?这张图也清晰展示了,用户有大量的需求,无论服饰、包包还是鞋子,只要发上来就OK了。另外,自媒体也提供给我们大量的时尚内容。我们还有全球的爬虫,这些爬虫会把关于国内和海外比较热门的大品牌的咨询爬上来,整合到整个社区里面,从这里很容易发现时尚。
发现时尚之后,我们要制造一些比较潮流的东西,然后再反向推给用户。当我们拥有大量的需求和资讯,就可以对产品进行大量创新。“从上帝视角看群体性时尚需求”,这句话可能说的比较高,为什么这么说?一个人求购的时候可能说明不了什么,但是我们有十万甚至百万的需求,这些用户想要的包包和鞋子我们都非常清楚,所以就有反向的供应链的问题。我们先提供需求,然后跟厂商合作,不是像过去那样摆在这里有库存,卖得完就卖,卖不完就放在那里,我们不是这样,我们解决了生产力,释放了红利,给从业者创造了新的机会。
另外我们看一下我们要做什么,我们要打造年轻人时尚消费入口,引领下一代品质生活方式。大家看到See上面有很多用户发布同求、求购,我们不可能人工处理,所以就有大数据的引入,这就是今天要说的第二个内容。
See聚焦什么样的算法与大数据难题?
第一是框图,用户发了一张图片,图片里面可能因为一些背景或者各方面的问题,我们能从这张图片里面把信息提取出来,这就是把图片框选出来,主要是图片背景模糊或者背景影响了服饰或者包包,或者拍摄是从不同的角度进行的,拍出来的服装效果可能也不一样,这对框图造成了一定挑战。
下一步就是做识图和搜图, 识图就是做特征码的提取,依据服装的颜色或者一些纹理,还有就是商品的一些分类,这是上衣还是裤子或者其他东西,这一步全部把它完成。另外还有一个搜图,我们识别出来的图片都有一个特征码,每一个特征码基本上都是1000以上的维度,这个如果是上衣,里面所有特征都有。识图和搜图同样遇到比较大的挑战,举个例子,有一些长袖,把衣袖卷起来之后我们可能就识别成短袖了,我们就通过人工不断的抽查,不断的调整参数,优化这个算法,做好这个系统。另外,搜图在效率和匹配方面可能存在一些效率问题,我们怎么做呢?我们用分布式的识别系统和搜索系统来处理这个性能的瓶颈。
之后是推荐图, 用户在这里发布了一些内部,我们根据用户的浏览记录和发布的内容,了解她到底想要什么样的商品或者品牌。我们会根据这套系统的算法来反推一些精准的内容。
以上是我们See做大数据算法时遇到的一些难题,我们对前面的难题都有比较完整的解决方案,也就是第三点要讲的东西。See眼是深度检测系统,能自动检测并框定出用户待搜索的图片内容。举个例子,我们在海外预售网站不断地搜到一些商品,每一个商品可能有十张商品图,我们可以通过See眼检测系统,识别这些图片内容,我们会把里面所有商品信息全部框选出来。这个是基于网络算法进行的,不是通过人工人工看,都是程序通过某些商品的特征来检测的,所以我们通过一个网络不停地扫描,扫描图片大部分的区域,达到我们支持的品类的商品,然后把它标出来,这个流程全部是自动化的处理,每天处理的商品量差不多30万张以上。
刚才解决的是框图的问题,框出来的图怎么用呢?我们还有一个See脑。我们框选出的图片都会跟商品库进行匹配和搜索,拿出最准确和相似的商品图,然后把商品找出来,整个流程就是这样。
这个表格大概列出来了See的图片驱动、电商化和其他一些系统的区别。这个就不细说了,简单说一下我们的大数据做法怎么实现的。首先是爬虫,我们会把大量的商品抓取过来,快速从商品库里面抓取到商品,对图片的识别率提升的更加准确。第二是通过模型的算法,这个算法并不是支持某一个品类的商品就马上能实现的,这里有一套模型。这个算法是什么意思呢?举个例子,一条裤子的特征大概是一致的,如果支持一个连衣裙,又多了一个算法,怎么做呢?我们把大量的连衣裙人工框选出来,再把这套算法的数据丢进去,让它自动匹配其他商品,然后检索出来,再进行人工抽查,把不准确的部分进行调整,不停地训练,最终提取到最准确的级别。我们很多商品都是从平台里面抓取到的,所以数据量越大对商品各方面的匹配程度和准确率越高。
这是整套系统的流程图,这个流程图其实也不太复杂,就是提取一些特征,然后再到筛选、结果,再处理一些分类。其中最关键的一步是特征和提取,就是刚才讲的框图和识图的过程。特征提取就是对特定的图片进行特征码的检索,然后描述这个图片特征码的特征向量,这个不低于1000维度。特征的内容非常多,包括衣服的颜色、纹理和衣服的品类等等,各方面都会有。特征码提取的准确率决定着整个商品的提取准确度,所以我们不停地优化这一套系统,达到我们想要的效果。
特征码提取系统是See这个系统里面最重要也是最复杂的系统,目前我们通过大量的训练已经集齐了很多品类,包括上衣、连衣裙、裤子、毛衣、外套等,还支持里面的子分类,包括上衣的衬衣、短袖,还包括毛衣等等,我们不停的训练,提高整个识别的准确率。
刚才说的推荐图,就是通过See画像系统来解决推荐图的问题。See的画像系统,可能游戏里面用的比较多。用户接触量太大,信息量也是爆发的阶段,如果不进行精准推送也会导致用户流失。我们有自己的一套数据分析,积累用户的行为,通过See系统的算法分析这个用户的喜好,获取她喜欢什么风格的服装或者喜欢什么类型的影视剧,然后推送精准的内容。整个数据算法是实时的,只有几分钟的延迟,这样用户能够快速在应用里面获取想要的产品和需求。举个例子,这是我们See的一个推送,用户要求一个绿色的毛衣,我们经过See画像系统的推送,大部分都给她推送同一套毛衣。
总结一下今天分享的内容,主要是我们See在深度学习与大数据驱动图片电商化方面取得的成果。第一是在框图、识图、搜图、推荐图中的深度学习模型调优,包括我们See眼、See脑和See用户画像系统,这三套系统把我们刚才遇到的难题基本上全部解决了。第二是图片大数据存储、信息提取方面的成果,主要是图片引擎的系统。第三是用户行为、优质内容方面对人千面千尚的推送。
今天的分享就到这里,谢谢大家!
End.