费良宏:云计算大数据可为企业提供全数据概念
蓝鲸TMT 贾琼
在4月28日的2017 GMIC全球移动互联网大会上,亚马逊AWS首席云计算技术顾问费良宏发表了《云计算大数据实践与设计范式》的主题演讲。费良宏称,云计算或大数据的市场是一个让人眼花缭乱的市场,各种架构、工具、技术、实践案例,充斥着各种媒体,各种分享。
回顾过去几年大数据的发展,费良宏有两个明显态势需要格外重视。
第一是规模的膨胀,如果几年前我们认为大数据还只是GB、PB级别的话,接下来则会看到,从TB到ZB的增长速度越来越快,接下来5年、10年会有一个新的认知。
第二则是非结构化数据已经占据了主导地位,比如说基因工程、社交媒体等话题产生的数据更多是以非结构化形式存在的。我们熟悉的结构化模式已经不太适用了。
对于如何利用今天的技术和手段帮助我们解决第二个问题。费良宏表示,从大数据应用场景来看无非是几种应用模式。
1.批处理模式,从事大数据的人已经很熟悉了,在今天和过去都用这样的方法来操控大数据。
2.流处理,流处理是过去几年出现的,且如今已经越来越普遍了。流处理模式有其特定的历史渊源,主要来自于数据产生的特殊性以及处理的特殊要求。
3.机器学习,数据本身并不具有价值,如果把它变成一种知识,其数据才会变得更有价值,费良宏称这个关键就是机器学习。
今天的人工智能是很热的话题,机器学习是一种很真实、可以帮助我们去解决从数据到知识化的有效手段,所以我们需要关心的是在大数据的环境里,如何利用批处理、流处理、机器学习达成我们的目标。
对于大数据的设计架构原则,费良宏总结归纳为五点,即解耦数据总线、选择恰当工具、有效利用云计算、以日志为中心、并且具有成本意识。
第一点是解耦的数据线,将数据的存储、处理、分析和得到的答案,这几个环节在数据层面做到真正的解耦,配合好的软件架构,应该能满足今天的需要,并且有很大的伸缩灵活性。
第二点是选择适当的工具,每个工具都有自己擅长的领域,要考虑数据是什么结构,是结构化还是非结构化,是毫秒级别还是分钟级别的,以及吞吐量和访问模式的问题,这些说法明确的时候,依据标准选择工具的话就不是很困难的事情了。
第三点是有效利用云计算,因为当下的数据概念已经不再是GB、TB的概念,而是ZB的概念了,管理大数据不是简单的事情。所以现在越来越多的大数据可以跟云计算结合在一起,利用云计算提升的可用性、弹性、大数据托管工具等,来实现大数据的解决方案。
第四点是以日志为中心的设计模式,大数据的核心就是对日志的管理。如果日志数据的有效管理是大数据的关键因素,在设计之初就要考虑到这些数据的特殊性。比如说在日志管理方面,存储处理方面,选择一些不可变日志和物化视图方法会更有效。
第五点是成本的意识,成本是大数据非常关键的因素,如果不能有效权衡成本,也许在项目之初,尝试阶段就不能有效解决这个问题。当有一定规模和积累的时候,这个办法可能就没有办法解决了,因为会被成本拖累。
过去两年里,渐渐兴起数据湖概念越来越广为人知,数据湖在某种意义上强调企业建立一个全数据的集中管理能力。“利用目前云计算和大数据的处理能力,真的可以为企业提供全数据的概念,利用全数据我们在大数据的操作、分析,不同主题的应用里,就具备了真正意义上的大数据的处理。”费良宏说。