大数据底层软件和大数据分析逐渐工具化/产业化
大数据底层工具到数据分析作为大数据变现的必经通道已经领先整个产业而发展起来,但是目前的大数据变现通道依然还处于刚通车状态, 因此大数据产业发展对底层软件到分析的需求较长时间里仍将处于快速上升阶段。
大数据底层工具市场依然广阔,技术创新活力依旧
早期,一批骨干互联网公司 Facebook、 LinkedIn、 Amazon、 Google 要面对前所未有的海量数据,这一需求推动他们一切从零开始创建整个大数据平台。随着数据量的继续增加,新兴应用的迅速铺开,越来越多的公司也开始面临着互联网大公司类似需求,由于它们自身也没有传统的基础设施,所以自然就成为了那些大数据技术的早期采用者。早期的成功又导致了更多的创业活动发生,并获得了更多的 VC 资助,从而带动了大数据的起势。 Hadoop 正式诞生于2006 年 1 月 28 日,是多个开源项目 的生态系统,它从根本上改变了企业存储、处理和分析数据的方式。在 Hadoop 问世的这十年时间里大数据基础设施层逐渐成熟,很多关键性的问题得以有效解决。但是,我们看到大数据基础设施层今年的创新依旧保持着较高的活力。
大数据基础设施提供商拥抱 Spark, Spark 与 Hadoop 齐头并进
2015 年是 Apache Spark 之年, Databricks 最近对 1 ,400 多家 Spark 用户进行了一次调查,结果显示这些用户对 Spark Streaming 的使用率与 2014 年相比增长了56%,另外, 48%的受访者将 Spark Streaming 标记为最常用的 Spark 组件。在 SparkStreaming 不断增长的用户群中, Uber、 Netflix 和 Pinterest 等家喻户晓的公司赫然在列。 Spark 的运行速度正如其名; 更重要的是, API 用起来容易得多,所需的代码比之前的分布式计算模式来得少。 I BM 承诺会培训 100 万名新的 Spark 开发人员,为这个项目备好了庞大资金, Cloudera 宣布 Spark 是我们知道与其一个平台 (One Platform)计划配套的所有项目的核心,加上 Hortonworks 全力支持Spark,以上都是 Spark 在过去的一年里面得到飞速发展的基础。
另外, 成本因素也在推动 Spark 迅猛崛起,过去在内存中分析数据成本高昂,但由于云计算和更高的计算弹性,无法装入到内存(至少在分布式计算集群上) 中的工作负载的数量在日益减少。 Spark 不仅避免了需要 MapReduce 和 Tez,还可能避免了 Pig 之类的工具。一些观点认为, Spark 由于比旧的框架更容易理解而且强大,因此在新兴的大数据和分析项目中更适合。 Spark 的出现解决了一些导致 Hadoop 发展放缓的关键问题: Spark 速度变快了很多(基准测试表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍) ,更容易编程,并且跟机器学习能够很好地搭配。除了 Spark 以外,还出现了其他的一些令人兴奋的框架,比如 Flink、 Ignite、 Samza、 Kudu 等,这些框架的发展势头也很好。
大数据推动传统企业云化, ICT厂商迎来巨大机遇
目前为止,互联网、电商等新兴行业,尤其是初创企业,由于起步较晚,对新兴技术的接受度较高,大部分已经接触了云计算、大数据等技术,接下来大数据的市场在于更广阔的传统行业及中等企业到跨国大企业的大数据需求挖掘。这一市场非常巨大,但是所遇阻力也不可忽视。虽然大家已经逐渐意识到了大数据能给传统行业带来巨大价值,但是目前为止这些大企业的现有IT 架构都还是较新且可基本承载现有业务,因此进行大数据改造的成本相对较大,也将是一个较长期的过程。 前面提到, 大数据软件的发展离不开云计算所提供的硬件支持,因此大数据的发展会加速传统企业的云化步伐。不论企业云化的未来是公有云、私有云或者混合云, 我们认为云化趋势对传统 ICT厂商来说都意味着巨大的机遇。
大数据已成为华为未来的战略方向之一:从 2009 年起,华为就开始有节奏地投入大数据,如今已经取得开源社区、客户和生态伙伴的共同认可。其具体举措包括:在 Apache Hadoop 和 Spark 社区投入高级专家持续贡献内核代码,已取得社区排名全球第 4 的成绩; 2011 年发布第一个平台版本,成功帮助电信运营商改善了基站投资结构,大幅降低了高端客户的离网率; 2013 年发布全新架构的 FusionInsight 大数据平台,并快速在金融、公安、政府和教育等行业取得突破,已累计成功部署了 500+项目,同时,已有 200+合作伙伴的行业方案采用了 FusionInsight 平台。
华为从云计算入手,针对广告营销、电商、车联网等大数据应用场景打造了易使用、高可靠、低成本的大数据方案,帮助企业客户快速构建大数据平台,满足企业的海量数据存储和分析需求。华为弹性大数据服务( BigData)提供Hadoop、 Spark、 Spark SQL、 HBase、实时流计算、在线分析和机器学习等能力,能灵活应对数据导入、数据分析和报表展示等各种诉求。其高性能、低成本、安全、易用、稳定、开放的特点能轻松满足如日志分析、 Web 索引、数据仓库、气象分析、互联网广告、商业智能、机器学习、科学模拟和生物信息等业务场景。
数据强化产业化,化解大数据应用发展瓶颈
大数据底层软硬件的发展有效的化解了企业存储、处理海量数据的难题,但是由于非结构化数据的增加以及总的数据量的急剧上升,数据来源日益多样化,大数据底层设施所存储处理的大数据不可避免的会出现数据不完整、数据损坏、数据结构前后异构,甚至引入错误数据或者相矛盾数据。一直以来,杂乱的、非结构化的数据都是企业数据治理的心腹之患。尽管许多企业竭尽所能保留下来了各种客户、内部流程及运营方面的数据,但是将这些裸数据变成可供商业智能及分析平台处理的东西却十分的耗时耗力。据估计, 数据科学家80%的时间耗在了数据清理方面。而且,与数据科学家的供应量相比,数据的规模只会越来越大,复杂度只会越来越高,而现在要求数据转换要以近乎实时速度去处理,靠人工去完成那种规模的劳动密集型工作几乎是不可能的。面对如此大的市场规模,未来的数据强化肯定会逐步形成流水线生产。
大数据清理软件公司 Trifacta 已融资 7,600 万美元:成立于 2012 年的 Trifacta 由3 位计算机科学教授组成,公司总部位于旧金山。在整个大数据生态链中,它解决的正是大数据中间桥梁问题。 Trifacta 的产品是可以自动进行数据清理的数据转换平台,其关注点是创建可供多个不同平台(传统的关系式数据库、 Hadoop集群)使用的接口。 Trifacta 可以创建可在多个实体数据存储及处理系统上运行的 SQL 查询或 MapReduce 代码。该平台提供的服务能让数据科学家从数据净化的脏累活中解脱出来。它是第一家是将后端数据技术与直观的前端用户界面成功结合起来的大数据公司。公司 2015 年的营收额增长了 700%,增长势头非常强劲。 Trifacta 的收费标准是按机构的数据体量计算的,费用从 10 万美元到 15 万美元不等。目前 Trifacta 有超过 50 个企业用户,其中包括思科、 GoPro、Juniper、 KaiserPermanente、麦克森( McKesson)、百事、辉瑞制药和宝洁等知名大公司。
阿里巴巴也正在做类似的事情,即通过前端服务器的处理,将数据进行分开,由其他各商家提供强大的服务器来处理这些数据,并进行数据挖掘,然后再形成一个个数据产品。最后由阿里巴巴提供给它的消费者,这样就形成了一个实现互通、数据交换的平台,这也是马云提出 IT 到 DT 时代理论的基础支撑。一端是大数据技术底层人员在致力于数据的编译、存储和传输技术,一端是顶层的软件和服务试图在从已实现较好结构化的大量数据中提取有效信息。中间地带的数据清理大多却靠人工完成,一度掣肘大数据生态的发展。随着大数据清洗产业化进程的加速,数据清洗将完成流水线作业,从而可从根本上解放数据科学家,让他们将精力投入到数据分析以及数据应用等更具价值环节。
大数据分析工具加速普及,结合行业需求已成趋势
数据在经过数据加工、 清洗之后, 我们将面对结构化的可分析的信息,这些信息只有经过有效的分析、提炼、再加工,才能出提炼有效的内容和规律,也就是可用的知识。由于目前搜集到的海量数据本身过于繁复,高速有效的从这些数据中提炼出有价值的规律、信息形成可用的知识体系也并非易事。但是,这一步作为大数据应用的必经之路,其提炼质量高低直接影响大数据应用的效果。
大数据分析工具 Palantir 估值一路上升已达 200 亿美元
Palantir 的数据挖掘软件来源于在线支付平台 Paypal 的技术,其开发的软件可对各类结构化和非结构化数据进行分析。 Palantir 核心优势在于具有功能强大的数据库并允许用户对此类信息进行细致分析。 2015 年 12 月 10 日, Palantir宣布在最新一轮融资中成功募集资金达 1.29 亿美元。 2015 年 7 月, Palantir 计划融资 5 亿美元, 10 月 Palantir 发售的股份从原先的 5 亿美元增加到 5.548 亿美元。如今, Palantir 融资总额已经比 7 月份高出 1/3,总金额 6.798 亿美元,预计 Palantir本次估值已经由原来的 150 亿美元上升为 200 亿美元。
大数据分析存在普适化分析和结合行业分析两条发展路径
大数据分析不同于以往的数据分析,由于其数据来源以及数据应用方向的不同,大数据分析可发展的方向主要有:
1) 向普适化软件发展,其发展方向将是提供一个门槛较低的通用软件。 其中的代表企业有美股大数据龙头 Tableau。 Tableau Desktop 是 Tableau 公司开发的桌面系统中最简单的商业智能工具软件, Tableau 没有强迫用户编写自定义代码,新的控制台也可完全自定义配臵。在控制台上,不仅能够监测信息,而且还提供完整的分析能力。 Tableau 控制台灵活,具有高度的动态性。 Tableau 的发展方向一如他们的宣传口号: “让任何人都能做大数据时代的数据英雄! ” ,因此他们开发的大数据软件使用门槛较低从而可面向较广的人群。同时,由于面向较多行业客户,因此 Tableau 也为各行业提供了较简单的行业数据模板以及提供自制模板的网络共享平台。
从大数据分析工具类版图中,我们不难发现做大数据可视化软件的企业已经非常聚集,不仅包括老牌微软、 IBM、 Oracle 还包括众多新创公司。众多参与者将会导致较强的同业竞争, 这一链条上的利润也会因此变得更为分散。
2) 结合具体行业分析做大数据分析,其大方向将会向咨询、 管理工具的方向发展 。 这些公司 主要利用自身多年在各行业里面积累的深刻经验配合自身大数据实力,从而在已有的数据中帮助企业挖掘更多的价值。 其中在分析工具领域, Splunk 是最成功的新兴企业之一。该公司机器数据的搜索引擎,可收集所有应用程序、服务器和移动设备设备(包括物理、虚拟和云端),生成索引,从一个位臵快速搜索并分析所有实时和历史数据。该公司已经取得巨大成功,是全球十家最有竞争力的大数据公司之一。目前,该公司估值超过 70亿美金,表明大数据细分领域分析存在巨大市场。
我们认为, 未来的大数据应用的集中爆发将导致数据分析需求的多样化和定制化,因此结合具体应用场景深入行业分析的大数据分析工具相较于通用分析工具未来将更具有优势。 例如,对应于精准营销对数据分析的需求与对应与金融风控的需求存在着巨大的差异。另外,普适性的大数据分析工具类公司 虽然将随着大数据应用和需求的增加而进一步普及并在短期内获得较快发展,但同时通用性软件也将会不可避免地面对更大的同质化竞争。
大数据底层软件和分析逐渐工具化/产业化,需求上升带来产业发展空间: 大数据底层工具以及分析处理市场随着分析需求数量和种类的增多而迎来更广阔的市场并催发新一轮技术创新。大数据分析作为大数据应用的必经之路,由于数据源以及数据应用的不同存在两个主要发展方向: 1 、向普适化软件发展; 2、结合具体行业向咨询、管理工具发展。我们认为, 大数据应用集中爆发将导致数据分析需求多样化和定制化,结合具体场景深入行业分析将更具优势。
节选自中银国际证券有限责任公司《 大数据产业发展深度报告——产业底层设施逐渐完善,大数据变现走上快车道》
End.