#蓝贵访#对话卢亿雷 揭秘AdMaster背后的大数据技术
文|诺蓝(36大数据合伙人)
都说“大数据”是“未来的新石油”,很多国家或国际组织都将大数据视作战略资源,那么大数据到底该如何使用?究竟如何才能创造价值?如何作用于营销?背后支撑大数据营销的技术是什么?带着这些问题,36大数据近期专访了AdMaster(精硕科技)技术副总裁卢亿雷先生。
卢亿雷是现任AdMaster技术副总裁,资深大数据技术专家。关注高可靠、高可用、高扩展、高性能系统服务,关注Hadoop/HBase/Storm/Spark/ElasticSearch等离线、流式及实时分布式计算技术。曾在联想研究院、百度基础架构部、Carbonite China工作;拥有超过10年云存储、云计算开发及架构工作经验,多年Hadoop实战经验,专注于分布式存储、分布式计算、大数据分析等方向,有多个发明专利,《一种分布式文件系统及其数据访问方法》和《一种数据备份的版本管理方法及装置》等。曾多次被CSDN、51CTO、IT168、InfoQ、阿里技术邀请为嘉宾分享Hadoop大数据在互联网的应用。
在本次访谈中,卢亿雷先生不仅为我们分享了多个大数据营销案例,更从专业角度为我们揭秘了AdMaster背后的大数据技术。卢亿雷表示:大数据是一个“厚积薄发”的产业,“实时查询”是大数据未来发展的重要方向,值得所有互联网细细耕耘。
图1:AdMaster技术副总裁卢亿雷先生
下面是访谈记录:
36大数据:在大数据领域,AdMaster是绝对的领跑者,所以我非常的期待能了解AdMaster的大数据怎么用的,原理是什么?您能为36大数据的网友们介绍一下AdMaster这家公司吗?
卢亿雷先生 :AdMaster是一个基于数据提供服务的技术公司,作为全球领先的营销数据技术公司,我们最核心的是数据和技术。AdMaster为超过80%的全球100强品牌,及国内知名品牌提供服务,包括:宝洁、强生、微软、宝马、联合利华、东风日产、伊利、海尔、奔驰、奥迪、嘀嘀打车等。
AdMaster旗下的产品线非常丰富,也比较有针对性,我们有海量广告数据监测管理平台TrackMaster,针对网站流量分析的SiteMaster,专注社会化营销和品牌舆情的SocialMaster,以及国内最专业的数据管理解决方案DMP平台等等。不同的大数据产品,数据采集、存储的方式也不一样。我们采集的数据有广告曝光点击数据、社会化平台传播和舆情数据、移动端及跨多屏幕营销广告数据及消费者洞察研究的调研数据等等。
我们为我们的数据结构命名叫“混合异构数据”,因为存储的数据很多,数据的种类也很多,且客户需求都非常个性和定制化,有的需要实时数据的监控,有的需要离线数据和历史数据,有的又需要流式数据等等,客户需求点非常多,所以我们做的数据模型也是非常复杂的。
36大数据: AdMaster的大数据产品,更多立足于互联网B2B的企业,而且还是传统的企业?
卢亿雷先生: 如刚刚提到,AdMaster80%以上的客户都是全球百强企业,基本您能说得上名字的公司,都是我们的客户。这些国际领先的品牌客户对于创新和技术渴求度很高,也非常敢于尝试创新并能够引领趋势。比如宝洁、联合利华、宝马、可口可乐等等。我们客户也不会局限在这些企业中,一些快速发展的互联网企业,O2O企业也是我们的客户。可以这么理解,无论这是一家什么性质的公司,只要他们有市场营销、及和消费者沟通的需求,我们的数据技术都能为其提供服务。
36大数据:AdMaster大数据营销技术和传统的营销有什么区别,改变了什么?最大的核心竞争力是什么?
卢亿雷先生 : 我觉得两者最大的区别在于传统营销往往是凭直觉拍脑袋来花广告费,可以叫做盲推。而大数据营销做的是让营销“有理有据”。前者是凭直觉和经验,后者是凭客观数据支持。大数据营销主要特点是以数据说话,通过数据来说明问题,阐述现象。
AdMaster大数据营销最核心的地方在于数据源,以及我们对客户及行业需求的深度理解。AdMaster公司在大数据营销方面已经有了近10年的经验积累,这些都是奠定我们今天行业地位的核心和关键基础。
36大数据:AdMaster在大数据采集、抓取,清洗,分析、储存等阶段分别采用了什么核心技术,并在这些领域是否有自己独特的创新?
卢亿雷先生 : 你可以先看一下我们的大数据构架图。
图2:AdMaster大数据构架图
AdMaster自己数据采集,每天大概有100亿请求。我们的数据源采集非常丰富,数据源不止来源于数字广告、新闻、论坛和社会化平台、、电商平台等,还包括来自移动端数据。
比如说现在很热的微信公众号,微信文章点赞数据,评论数据我们也都是有监测的。通过整合微信的数据,我们可以还原社会化营销事件的传播路线图。你的文章在朋友圈里面经过了多少次转化,哪些人看到的了,有又做了哪些转发动作?关注你文章的这些人来自哪里?具有什么特质,消费水平如何等等。也就是说,除了传播路线图,我们还可以对用户进行“画像”。针对最近火热的朋友圈信息流广告,目前行业内还无法实现直接的效果监测。AdMaster突破技术局限,通过调研数据,多维度的评估了朋友圈信息流广告效果和消费者认知,在业内收到了非常好的反馈,这就是我们在数据应用方面的创新应用和突破。目前AdMaster已有1000多台物理服务器,遍布全国,预计未来还要增加更多。
36大数据:AdMaster怎样的数据安全管理措施通过了ISAE 3402国际审计标准?
卢亿雷先生: 关于数据安全管理,一般通过技术手段和规章制度管理来确保数据安全。通过技术手段实现的数据安全管理一般分为数据本身的安全和数据防护的安全(可靠性)。数据本身的安全是通过对数据本身进行各种方式的加密来保证其安全性;数据防护的安全(可靠性)主是解决数据丢失的问题,主要通过数据备份、异地容灾等方式来保证数据可靠性。
AdMaster主要通过采取了访问分布式密钥,数据异地容灾备份,程序沙箱隔离的方式来实现数据安全。
针对数据本身的安全 ,AdMaster所有数据都是经过强加密的方式存储,特别是与用户相关的数据是两层加密,同时也能更好地解决数据库被脱库的问题。另外,AdMaster所有的数据都是通过分布式密钥来管理,核心数据的访问权限必须通过多方密码的输入才可以访问。
针对数据防护的安全(可靠性), AdMaster采取数据备份、网络防火墙、病毒防护、安全监控等技术手段提高数据安全性。数据存储采取异地容灾方式,首先数据存储在本地机房、实时同步到中心机房、最后实时上传至分布式集群存储,保证至少5份存储,确保数据可靠性。
另外,利用发布程序和数据本身采用的沙箱技术,并通过严格的权限进行隔离,确保程序发布是通过puppet来统一分发的,保证发布程序的一致性。AdMaster在数据采集管理方面也做了安全管理措施,AdMaster的数据采集机器是全国布点和云服务的混合分布式架构,实现随时扩容,可以在一定程度上防护DDOS等类型的攻击。同时,通过制定应急预案及定期执行应急演练,控制数据安全风险,保证数据备份、异地容灾等方式是正常运行的。
36大数据:我们知道,AdMaster数据处理过程多次用到Hadoop技术,那么AdMaster的大数据框架是怎么样的呢?这样的框架有什么好处?
卢亿雷先生: 架构图可以参照前面的那个架构图。前面我们曾提到“混合异构数据”。大数据的数据源多种多样,不单单是文本数据,还有图片、视频等非结构化数据。而我们的客户的需求也是多种多样的,这两个因素导致我们这个整个架构也很复杂。就像是构建一个城市的用水管道一样,你必须考虑到每栋楼、每个家庭和每个组织的需求量。
AdMaster 根据累积了超过7年的实际广告主和品牌的网络营销数千个实际案例的经验,自身研发的ADH(Advertising Distribution Hadoop)的发展及特点,其中包括内置的广告算法,应用调度器的优化,还有关于在线数据(HBase),离线数据(MapReduce),实时数据(Spark),流式数据(Storm)等方式的整合介绍。下面是ADH的特点:
36大数据:那么,AdMaster的技术团队优势?对于大数据团队的组建,卢总有什么经验可以分享给大家?
卢亿雷先生: 我们团队成员基本都是来自百度、阿里、腾讯等互联网公司的同学,大部分都有很深的技术积累,特别是分方向都有资深的专家。比如说我们有管理过几千台机器的Hadoop方面的专家;有在4核,2G内存的条件下实现2万QPS的数据采集专家;有对超过100种队列复杂逻辑的调度的专家;有对实时处理1000万级消息的流式专家;有对几十台MySQL优化过的数据库专家;有对每天增长上TB的优化ES集群的搜索专家等等。
这要看你想把大数据做到什么程度和深度。这个还是和客户需求挂钩的。数据的精准度和深度非常考验大数据团队。如果你想把大数据做到极致,15个人是远远不够的。我们不可能给客户赤裸裸的数据代码。数据抓回来之后,需要清洗,存储,提炼和分析。最后形成数据可视化展现给客户。每一个流程中,都需要专业的人才。
因为我们不是广告公司也不是咨询公司, AdMaster是一个不折不扣的技术驱动型的公司。我们的竞争优势来源于我们的卓越技术,我们的研发人数站到公司总人数的一半,我们的工程师中国为数不多的有能力提升中国广告界、Hadoop、分布式计算平台的人才。组建大数据团队没有捷径可走,我们倾向于找专业的人做专业的事。
36大数据:我们知道卢总之前曾在联想和百度工作过,对这些企业的氛围也非常了解,尤其是大数据技术也非常熟悉。我们想知道,你这种过往的经验,在今天AdMaster大数据应用,有哪些影响?
卢亿雷先生: 影响非常大。我刚毕业去了联想做云存储。云存储的基本要求是可靠性,扩展性还有安全性,还有监控的容易程度,这些同样适用于大数据。百度对我来说,是一个非常重要的经历。百度的数据量太大太多。那时,百度有大概1000台到4000台的服务器,这么多遍布全国的服务器管理起来都是个难题,而且随时还会有各种突发状况出现。当你真正经历过这么大服务器群的管理和问题处理之后,现在要处理服务器问题就容易很多了。
对于大数据来说,经验非常重要。学和实践是两回事。现在大数据人才培训很火热,短期会教会你Hadoop怎么用,怎么优化数据库等等。但事实上,当你真正做项目的时候,你不止需要懂技术,你还需要懂业务,还需要用过往学会的、亲身经历的经验来解决问题。也就是说,动手解决问题的能力非常重要。在我看来,大数据是一个厚积薄发的产业,沉下心来细细耕耘,总会挖到那块“金矿”的。
附:AdMaster公司视频介绍
End.