数据和算法驱动的本地生活推荐 | 极客公园
数据和算法驱动的本地生活推荐
推荐,什么是推荐?推荐不是你在微博上简单的说一下“这个餐馆不错”。真正的推荐是吃客拍了照,花了至少50字的点评介绍这个环境服务美味,对每一个推荐菜点评并分享,这个才叫推荐。其实点评起源本身就是推荐,我们大众点评也是靠着用户上传的这些描述性和结构化评价有机聚合后才生成我们应用上的星级、商户简介、推荐菜和代表性点评,之后再根据用户的消费水平、消费类型、地方口味和用户数据才能做出个性化推荐,能够把客户喜欢的东西推荐给他。而今些年比较热门的就是这种个性化推荐,下面是我们对推荐的了解。
推荐在今天已经很热了,但是不同的行业推荐是不尽相同的,尤其点评的推荐和其他领域的推荐有着很多不同点。譬如跟电子商务相比,本地生活推荐的地域性很强,用户更在乎你商户的品牌,而未必是你商品的品牌。推荐也不是完全由算法组成的推荐引擎,大众点评的推荐更多的是由基于 web 2.0 ,还要概括总结群众智慧。再比如跟广告比,像 google 的adsense 是跟上下文做一个关联,根据用户的兴趣做关联。但是真实情景下用户是不可推测的,用户随时有即时冲动的可能,这种意愿预测是很难猜的。团购的话,也是差别很大,做点评要有更多元的数据来源、更多元的推荐形式和更多元的推荐内容,这些缺一不可。
我们的推荐系统是由原料(数据)、内核(挖掘)、引擎(算法)、地基(架构)这四点有机聚合起来的。
1,推荐的原料:数据
多元的数据来自于用户在消费过程、用户页面行为、和消费对象中捕捉到的信息(见下),然后要将这些数据准确的采集、安全存储、迅速处理、去重清洗、抽取结构化信息并将其夸时间跨平台的串联起来,因为只有这样才能够能够把网页上的信息跟手机线下消费类的信息连接起来,同时这也是一个将数据聚沙成金的过程。
消费过程: 查找、决策、签到、消费、支付、评价、分享 & & & & & & &
用户页面行为:浏览、搜索、收藏、标签、照片、签到、点评、社交图
消费对象:商户、服务、商品信息
2,推荐的内核:挖掘
有了多元化的数据后我们就需要挖掘它了,这一步是推荐的核心点。首先我们会通过用户的信息将用户分群,再类似的将商户画像分群,然后是商户/产品的分聚类和点评的情感分析。为什么要进行情感分析呢?因为情感分析关系着情感推荐,因此情感的信息很重要。我们大众点评的推荐算法团队里面有两位情感分析的专家(博士)在专门处理这一块。另外就是上传图片的分类、聚类、识别,我们也有图片识别专家在做这方面的工作。
3,推荐的引擎:算法
算法一般要通过这样几个过程:从数据找出表达特征,然后建模,然后做评估。特征里面的数据是各式各样的,要把它们变成技术的或者是分类别的,有一些数据是非常稀缺,及时点的数据可能是很稀缺的,而且更反馈不足。那么建模基于内容通过率,基于定向这些都有,我们现在准备尝试最近比较流行的基于热力学传导的一个模型。评估一般是按照上线前做线下评估,上线做测试,选一些小流量进行测试,进行比较。
4,推荐的地基:架构
不管是数据采集挖掘还是做算法,都需要一个很好的框架很好的架构来支撑,这个架构要处理好海量的数据,很重要的还是要能够做到端对端的框架,像亚马逊、ebay、google 都有良好的框架,我们点评网现在也在搭建这个框架,这个框架将支持多种维度况目标,即每一个城市的优化目的是不一样的,上海和北京等大城市会更多的考虑利润,小城市考虑更多的是用户体验。
上面都是一些术,最后讲一下道。我们认为推荐是由诚信和搜索作为基础的,而推荐、诚信和搜索这三方共同支撑着广告。
怎么讲呢?因为对点评来说数据诚信非常非常重要,不然会造成以恶传恶。而搜索是很精准的,是一种对目的性很强的需求,而推荐并不是。推荐是一种英文叫 serendipity,就是说好似相关不相关,你可能有兴趣,又可能有惊喜,如果老是相关的东西别人就会厌烦,要不断的给他惊喜,这样才是一种推荐,因此你要了解他的心理需求。如果你只有搜索做的好,就把广告做成搜索,如果你推荐做的好,你就把广告也做成推荐,用户是不会烦的,所以推荐做的好,可以把广告拓展维度,有了这个诚信推荐搜索一起,我们广告呈现出来就不再是广告,而是一种很温馨的一种服务。
所以我们这个推荐的道就是要公正、平衡、多赢,是一种可以说是坚持用户利益至上的多方面博弈。
整理自大众点评高级研发总监李新在23期极客活动上的分享,点击观看视频
原文地址:http://www.geekpark.net/read/view/155724
- 极客活动
- 大众点评
- 推荐算法