硅谷大数据:什么是 “改变世界” 的大数据公司
硅谷的这一个月,我在 startups demo days 和各种大公司一日游中度日,以为会逃脱国内各种会上各种 “大数据” 和挖掘机的梗,但万万没想到这里更甚。Hi~ 本文发自仅次于五道口的宇宙中心硅谷,与你分享大数据在这片土地上的真实生长状况。
什么是 “改变世界” 的大数据公司
近两周硅谷两场规模比较大的 demo 大会上,就有十多家自称做大数据的 startups,有做消费者行为的,有做体育分析的,有做 NGO 融资的,有做环保的,有做 UX 的,有做信贷评级的,当然还少不了做移动端广告的。乍看都是高大上的产品,但仔细琢磨一下会发现一些没那么高大上的细节。
比如,有一家介绍时候说”Brings big data to teams, media and fans”,用的是Moneyball作引子。展示结束后询问他们是如何分析视频以得到各种数据的,demo 的哥们表示他们请了一些人看视频的。没错,是人工。自然地,下一个问题就是:未来如何扩张以应对来自不同体育项目大量的全长录像?他的回答也很简单,雇佣更多人。听完我懵了一下,问,那打算如何利用收集的数据呢?答曰:开放 API,自己不做分析。
那么,说好的大数据呢?难道有数据就叫大数据公司了?如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了?
是,但也不是。
先归纳了一下硅谷 “大数据公司” 的类型,有补充或修正的请拍砖:
数据的拥有者、数据源:特点是业务优势能收集到大量数据,就像煤老板垄断一个地区的矿一样。其实大多数有能力产生或收集数据的公司都属于这类型,比如 Vantage Sports 和收集了 PB 级数据的包子铺。
大数据咨询:特点是非常技术,提供从基础设施规划建设维护到软件开发和数据分析等的服务,但不拥有数据,比如Cloudera这家不到 500 人的 startup 是最著名的 Hadoop 架构咨询公司。
做大数据工具的:比如 AMPLab 出来的Databricks和 Yahoo 人主导的Hortonworks。
整合应用型:特点是收集拥有或购买一些数据,然后结合 AI 来解决更多实际的痛点。
所以回答之前的问题:是,因为包子铺只要收集的消费者数据量够大就能成为数据拥有者,有那么大的数据就有得到洞见的可能;不是,因为可能从真正意义上来说,大数据公司应该只属于第四种类型:AI。
对,我相信未来是 AI 的,而 AI 的食物是数据。就像很多产业链一样,最困难且最有价值的创新往往发生在接近最终用户的那端,比如 iPhone。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见,影响组织和个人的行为,从而改变世界。收集和整理数据在未来会变得标准化和自动化,而利用 AI 进行分析的能力会变得更为关键。
再看硅谷主打 AI 的公司,现在大致可以分成以下三类了:1. 分析用户行为,改进产品和营销的,比如 LinkedIn 的推荐系统和用 iBeacon 实现店内营销;2. 统筹大量分散个体,利用大数据实现精确有效的预测和规划的,比如 Uber 和前段时间出现的 Amazon Fresh 及 Grub Market;3. 分析识别各种类型的数据,开发更智能的设备和程序,比如 Google 大脑及无人车和以 Nest 为代表的智能设备等。
这些产品都有一个很明显的共性,就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合,因此认为之前所说的第四种类型的公司是最有希望改变世界的。
这样的大数据公司需要什么样的人
那么大数据公司,或者说到真正可以改变世界的大数据公司需要什么样的人才呢?这里要介绍一个在硅谷被炒得很热的高频词汇:数据科学家。
这个职位出现的原因并不是因为数据量变大了需要更好的方式去存取,那是数据工程师的活。那产生的原因是什么呢?正是为了匹配上面第四种公司的需要。数据是 AI 当中不可分割的一部分,而且量越大越好,从数学上来说,数据越多则我们越能够有信心把从样本分析出来的结果推论到未知的数据当中,也就是说机器学习的效果越来越好,AI 越来越智能。
由此诞生的数据科学家是一个非常综合型的职业。它所要求的知识范围包括分析数据的统计学,到算法的选择优化,再到对行业知识的深刻理解。这群人是开发数据产品的核心。硅谷大部分 startup 已经把它当成是必需品了,以至于刚入行的新人也能领到差不多 $100K 的薪水。而模糊的定义和误解也让有的人戏称,data scientist is a data analyst living in the bay area。
值得一提的是,数据本身的飞速发展从另一个侧面其实也给数据工程师们的大数据处理带来了许多挑战。主要来源于以下的两个方面:
数据量的急速增长。如今,数据的产生变得异常容易。社交网络,移动应用,几乎所有的互联网相关产品每时每刻都在产生众多数据。传统的集中储存计算方式显然无法处理如此庞大的数据量。这时,我们就需要新的储存方式,如云储存,以及新的处理方案,如 Hadoop 这样的分布计算平台。
数据本身的非结构化。在传统的数据处理领域,我们处理的主要是结构化数据,例如,Excel 表格可以显示量化数据等。而如今我们面对着越来越多的非结构化数据,如社交网络的评论,用户上传的音频视频等。这些数据存在于包括文本、图片、视频、音频等众多的数据格式中,这些数据中隐含着众多有价值的信息,但这些信息却需要深度的计算才可以分析出来。这就需要我们利用智能化分析、图像识别等等一系列新的算法来进行数据挖掘,这也就是 “大数据” 的挑战所在。
目前硅谷的创业公司正在探索新的应用领域和方法,比如说物联网这块。现在智能设备们才刚刚起步,Nest、被 Nest 收购的Dropcam、Iotera、emberlight等等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发等等的时候,大数据的威力才会伴随着巨大的使用规模而发挥出来。
另外一个角度就是人。如果把之前谈的设备全部置换成个人的时候,他们的相互关系在各种维度上的交错会产生一张巨大的网络,其中的每个组成部分都由大量的数据组成。分析理解预测这些社会关系将会是大数据另一个有趣的应用方向,即Social Physics。不过按照从硅谷到全国的速度,感觉不管哪一方面的普及起码得等上五年以上的时间。
展望一下未来的话,如果参照以前的技术革命和行业发展来看大数据,那么大数据的底层设施将会逐渐被隔离,被模块化和标准化,甚至是自动化,而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。
硅谷公司的大数据运行现状
目前硅谷各个公司的数据处理水平和模式差别还是蛮大的。除 Facebook 等几个很领先的公司外,大部分公司要么还没有能力自行处理数据,要么就是正在建立单独的数据处理部门,主要负责从数据基本处理到后期分析的各个环节,然后再送到公司内部的其他部门。
对于这些公司来说,建立一个单独的数据处理部门可能还有还路漫漫其修远兮。举个例子来说,Facebook 有一个超过 30 人的团队花了近 4年 的时间才建立了 Facebook 的数据处理平台。如今,Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。LinkedIn 大数据部门的建设也已花了整整六年。
普遍来说,各公司自主建立数据处理平台存在着几个难点:
没有足够优秀的数据工程师来组建团队
没有足够能力整合数据
没有易于操作的基础软硬件来支持数据分析
这几个主要难点使得大数据分析越来越专业化、服务化,以至于我们渐渐看到一条 “硅谷数据处理产业链” 的出现。从数据的储存,数据分析平台建立,到数据分析,数据可视化等等各个环节的成本越来越高,这使得本身技术能力很强的公司都还是使用专业数据处理公司提供的服务,而将更多的人才和资源放到核心业务的开发上。
另外,就是各个公司对于数据处理的要求也越来越高。不仅仅需要有效的处理结果,也需要数据处理可以 self-service、self-managing、保证数据安全性、完善实时分析。这些诸多需求也使得专业化团队的优势更加突出。而这样一条整合服务链的行程,也给众多的大数据公司提供了机会。
硅谷是非常神奇的地方。科技概念在这里也不能免俗会被追捧,被炒得很热。但这种激情和关注某个程度上讲正是硅谷创新的动力。即使存在很多投机贴标签的人,即使一片片的大数据 startups 被拍死在沙滩上,即使 Gartner 预测大数据概念将被回归现实,但相信会有更多的人投入到大数据这个行业,开发出更智能,更有影响力的产品。毕竟,大数据本身,不像一个单纯的 pitch 那样,它能够保证的是一定可以中看并且中用。
Evernote:今年新建 AI 部门剑指深度学习
Evernote 的全球大会上,CEO Phil Libin 提到,Evernote 的一个重要方向就是 “让 Evernote 变成一个强大的大脑”。要实现这个目标,就不得不提他们刚刚整合改组的 Augmented Intelligence 团队(以下简称 AI team)。我在斯坦福约到 AI team 的 manager Zeesha Currimbhoy,在此分析一下从她那里得到的一手资料。
是什么
今年早些时候,这个 2 岁的数据处理团队改组为由 Zeesha 带领的 Augmented Intelligence team,总共十人不到,很低调,平日几乎听不到声响。他们究竟在做什么?
与我们常说的 AI(artificial Intelligence)不同,Evernote 的团队名叫做 Augmented Intelligence,通常情况下简称为 IA。
Zeesha 显然是这个团队里元老级的人物:“我是在 2012年 加入 Evernote 的,直接加入到了当时刚刚建立的数据处理团队,这也就是现在 AI team 的雏形。我们最开始的项目都是简单易行的小项目,比如按照你的个人打字方式来优化用户的输入体验。”
传统意义上的 AI 指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到 IA 则是让电脑进行一定量的运算,而终极目的是以之武装人脑,让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处,但是其出发点却是完全不同的。
这个区别也是 Evernote AI team 的亮点所在。作为一个笔记记录工具,Evernote 与 Google 之类的搜索引擎相比,最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。
从哪来
Zeesha 小组的初衷便是,通过分析用户储存的笔记来学习其思维方式,然后以相同的模式从第三方数据库(也就是互联网上的各种开源信息)抽取信息推送给用户,从而达到帮助用户思考的过程。从这个意义上讲,Zeesha 版的未来 Evernote 更像是一个大脑的超级外挂,为人脑提供各种强大的可理解的数据支持。
目前整个团队的切入点是很小而专注的。
“我们不仅仅是帮助用户做搜索,更重要的是在正确的时间给用户推送正确的信息。”
实现这个目标的第一步就是给用户自己的笔记分类,找到关联点。今年早些时候,Evernote 已经在 Mac 的英文版上实行了一项叫做 “Descriptive Search” 的功能。用户可以直接描述想要搜索的条目,Evernote 就会自动返回所有相关信息。
例如,用户可以直接搜索 “2012 后在布拉格的所有图片”,或者 “所有素食菜单”。不管用户的笔记是怎样分类的,Decriptive Search 都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是 AI team 长期目标的开始,这个团队将在此基础上开发一系列智能化的产品。
到哪去
不用说,这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是 Evernote 用户的数据量。虽然 Evernote 的用户量已经达到了一亿,但是由于整个团队的关注点在个人化分析,外加隐私保护等诸多原因,AI team 并没有做跨用户的数据分析。
这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如,假设我只在 Evernote 上面存了 10 个笔记,那 Evernote 也应该能够通过这些少量的数据来分析出有效结果。当然,这些技术的直接结果是用户用 Evernote 越多,得到的个性化用户体验就越好。长期来讲,也是一个可以增加用户黏性的特点。
不过 Zeesha 也坦言:“的确,我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。” 她并没有深入去讲目前团队所用的是什么思路,但是考虑到这个领域一时还没有很成功的先例,我们有理由期待在 Zeesha 带领下的 Evernote AI team 在近期做出一些有意思的成果。
Facebook:大数据主要用于外部广告精准投放和内部交流
Facebook 有一个超过 30 人的团队花了近 4年 的时间才建立了 Facebook 的数据处理平台。如今,Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。
Facebook 的一大价值就在于其超过 13.5 亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索,才在 2013年 把部门的 key foundation 定位成广告的精准投放,开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动,比如买下世界第二大广告平台 Atlas。
据前 Facebook Data Infrastructure Manager Ashish Thusoo 介绍,Facebook 的数据处理平台是一个 self-service, self-managing 的平台,管理着超过 1 Exabyte 的数据。公司内部的各个部门可以直接看到处理过的实时数据,并根据需求进一步分析。
目前公司超过 30%的团队,包括工程师、Product Managers、Business Analysts 等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流,明显改变了公司的运行方式。
追溯历史,Facebook 最早有大数据的雏形是在 2005年,当时是小扎克亲自做的。方法很简单:用 Memcache 和 MySQL 进行数据存储和管理。
很快 bug 就显现了,用户量带来数据的急速增大,使用 Memcache 和 MySQL 对 Facebook 的快速开发生命周期(改变-修复-发布)带来了阻碍,系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒 100 万读操作和几百万写操作的 TAO (“The Associations and Objects”) 分布式数据库,主要解决特定资源过量访问时服务器挂掉的 bug。
小扎克在 2013年 第一季度战略时提到的最重点就是公司的大数据方向,还特别提出不对盈利做过多需求,而是要求基于大数据来做好以下三个功能:
发布新的广告产品。比如类似好友,管理特定好友和可以提升广告商精确投放的功能。
除与 Datalogix, Epsilon,Acxiom 和 BlueKai 合作外,以加强广告商定向投放广告的能力。
通过收购 Atlas Advertising Suite,加强广告商判断数字媒体广告投资回报率(ROI)。
LinkedIn:大数据如何直接支持销售和变现赚钱
LinkedIn 大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息,并直接用来支持销售并变现。其最核心团队商业分析团队的总监 Simon Zhang 说,现在国内大家都在讨论云,讨论云计算,讨论大数据,讨论大数据平台,但很少有人讲:我如何用数据产生更多价值,通俗点讲,直接赚到钱。
但这个问题很重要,因为关系到直接收入。四年半前 LinkedIn 内所有用户的简历里抽取出来大概有 300 万公司信息,作为销售人员不可能给每个公司都打电话,所以问题来了:哪家公司应该打?打了后会是个有用的 call?
销售们去问 Simon,他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。
Simon 和当时部门仅有的另外三个同事写出了一个模型后发现:真正买 LinkedIn 服务的人,在决定的那个环节上,其实是一线的产品经理,和用 LinkedIn 在上面猎聘的那些人。但他们做决策后是上面的老板签字,这是一个迷惑项。数据分析结果出来后,他们销售人员改变投放策略,把目标群体放在这些中层的管理人身上,销售转化率瞬间增加了三倍。
那时 LinkedIn 才 500 个人,Simon 一个人支持 200 名销售人员。他当时预测谷歌要花 10 个 Million 美金在猎聘这一块上,销售人员说,Simon,这是不可能的事。
“但是数据就是这么显示的,只有可能多不会少。我意识到,一定要流程化这个步骤。”
今天 LinkedIn 的 “猎头” 这块业务占据了总收入的 60%。是怎么在四年里发展起来的,他透露当时建造这个模型有以下这么几个步骤:
分析每个公司它有多少员工。
分析这个公司它招了多少人。
分析人的位置功能职位级别一切参数,这些都是我们模型里面的各种功能。然后去分析,他们内部有多少 HR 员工,有多少负责猎头的人,他们猎头的流失率,他们每天在 Linkedin 的活动时间是多少。
这是 LinkedIn 大数据部门最早做的事情。
Simon 告诉 36 氪,公司内部从大数据分析这一个基本项上,可以不断迭代出新产品线 LinkedIn 的三大商业模型是人才解决方案、市场营销解决方案和付费订阅,也是我们传统的三大收入支柱。事实上我们还有一个,也就是第四个商业模型,叫 “销售解决方案”,已经在今年7 月底上线。
这是卖给企业级用户的。回到刚才销售例子,LinkedIn 大数据系统是一个牛逼的模型,只需要改动里面一下关键字,或者一个参数,就可以变成另一个产品。“我们希望能帮到企业级用户,让他们在最快的速度里知道谁会想买你的东西。”
虽然这第四个商业模式目前看来对收入的贡献还不多,只占 1%,但 anyway 有着无限的想象空间,公司内部对这个产品期待很高。“我还不能告诉你它的增长率,但这方向代表的是趋势,Linkedin 的 B2B 是一个不用怀疑的大的趋势。” Simon 说。
Google:一个闭环的大数据生态圈
作为世界上最大的搜索引擎,Google 和大数据的关系又是怎样的呢?感谢微博上留言的朋友,这可确实是一个很有意思的议题。
Google 在大数据方面的基础产品最早是 2003年 发布的第一个大规模商用分布式文件系统 GFS(Google File System),主要由 MapReduce 和 Big Table 这两部分组成。前者是用于大数据并行计算的软件架构,后者则被认为是现代 NOSQL 数据库的鼻祖。
GFS 为大数据的计算实现提供了可能,现在涌现出的各种文件系统和 NOSQL 数据库不可否认的都受到 Google 这些早期项目的影响。
随后 2004 和 2006年 分别发布的 Map Reduce 和 BigTable,奠定了 Google 三大大数据产品基石。这三个产品的发布都是创始人谢尔盖-布林和拉里-佩奇主导的,这两人都是斯坦福大学的博士,科研的力量渗透到工业界,总是一件很美妙的事。
2011年,Google 推出了基于 Google 基础架构为客户提供大数据的查询服务和存储服务的 BigQuery,有点类似于 Amazon 的 AWS,虽然目前从市场占有率上看与 AWS 还不在一个数量级,但价格体系更有优势。Google 通过这个迎上了互联网公司拼服务的风潮,让多家第三方服务中集成了 BigQuery 可视化查询工具。抢占了大数据存储和分析的市场。
BigQuery 和 GAE(Google App Engine)等 Google 自有业务服务器构建了一个大数据生态圈,程序创建,数据收集,数据处理和数据分析等形成了闭环。
再来看 Google 的产品线,搜索,广告,地图,图像,音乐,视频这些,都是要靠大数据来支撑,根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。
单独说一下 Google maps,这个全球在移动地图市场拥有超过 40%的市场占有率的产品,也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落,对建筑物的 3D 视觉处理也早在去年就完成,这个数据处理的工作量可能是目前最大的了,但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在:输入一个地点时,最近被最多用户采用的路径会被最先推荐给用户。
Google 还把 Google+,Panoramio 和其他 Google 云平台的图片进行了标记和处理,将图片内容和地理位置信息地结合在一起,图像识别和社交系统评分处理后,Google 能够把质量比较高的的图片推送给用户,优化了用户看地图时的视觉感受。
大数据为 Google 带来了丰厚的利润,比如在美国你一旦上网就能感觉到时无处不在的 Google 广告(AdSense)。当然,它是一把双刃剑,给站长们带来收入的同时,但如何平衡用户隐私的问题,是大数据处理需要克服的又一个技术难关,或许还需要互联网秩序的进一步完善去支持。
像在【上】中所说,除 Facebook 等几个很领先的公司外,大部分公司要么还没有自行处理数据的能力。最后附上两个例子,想说这边的大公司没有独立大数据部门也是正常的,采取外包合作是普遍现象:
Pinterest 曾尝试自行通过 Amazon EMR 建立数据处理平台,但是因为其稳定性无法控制和数据量增长过快的原因,最终决定改为使用 Qubole 提供的服务。在 Qubole 这个第三方平台上,Pinterest 有能力处理其 0.7 亿用户每天所产生的海量数据,并且能够完成包括 ETL、搜索、ad hoc query 等不同种类的数据处理方式。尽管 Pinterest 也是一个技术性公司,也有足够优秀的工程师来建立数据处理团队,他们依然选择了 Qubole 这样的专业团队来完成数据处理服务。
Nike:
不仅仅硅谷的互联网公司,众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是 Nike。Nike 从 2012年 起与 API 服务公司 Apigee 合作,一方面,他们通过 Apigee 的 API 完善公司内部的数据管理系统,让各个部门的数据进行整合,使得公司内部运行更加顺畅、有效率。另一方面,他们也通过 API 开发 Nike Fuel Band 相关的移动产品。更是在 2014年 开启了 Nike+ FuelLab 项目,开放了相关 API,使得众多的开放者可以利用 Nike 所收集的大量数据开发数据分析产品,成功地连接了 Nike 传统的零售业务,新的科技开发,和大数据价值。
来源:http://www.199it.com/archives/465441.html