【GMIC】AWS首席云计算技术顾问:云环境下大数据架构设计原则
今天上午,亚马逊AWS首席云计算技术顾问费良宏在GMIC云与大数据峰会上,为听众详细讲述了云计算环境下的大数据实践与设计范式。
费良宏认为,
费良宏:大家好,我想跟大家分享一下管理大数据的话题。我主要是围绕着在云计算环境里的数据模式的架构与实现,也说说我们十年实践的心得。
大数据大家都不陌生,对相关领域大家也有很多了解。但是
如果几年前我们认为大数据还只是GB、PB级别的话,接下来我们会看到,从TB到ZB的增长速度已经越来越快了。接下来5年、10年会有一个新的认知。
比如说基因工程、社交媒体。这样产生的更多数据是以非结构化形式存在的。我们熟悉的结构化模式,已经不太适用了。我们有必要谈一谈大数据,如何利用今天的技术和手段帮助我们解决这个问题。
从事大数据的人已经很熟悉了,在今天和过去都用这样的方法来操控大数据。
过去几年出现的,而且已经比较普遍了。流处理模式有其特定的历史渊源,主要来自于数据产生的特殊性以及处理的特殊要求。
数据本身并不具有价值,如果把它变成一种知识,它的数据才会变得更有价值,这个关键就是机器学习。
今天的人工智能是很热的话题。机器学习是一种很真实,可以帮助我们去解决从数据到知识化的有效手段,所以我们要关心的是,在大数据的环境里,如何利用批处理、流处理、机器学习达成我们目的的一个目标。
实际上我们来观察云计算或者大数据的市场,我们看到了一个让我们眼花缭乱的市场。各种架构、工具、技术、实践案例,充斥着各种媒体,各种分享。其实对于我们从业者来说,从这些信息当中找到你所需要的内容和知识并不是一件非常容易的事情。
回到大数据的本质,我们可以抽象起来。可能会通过若干迭代的方式不断的进行循环,以及达成数据可用化的程度。在这个环节中,我们需要考虑的除了刚才的流程,以及完成流程的功能之外,要考虑吞吐量,以及非常重要的成本因素。如果把简化的大数据流程作为观察对象的时候,其实我们面临的问题就比较简单了,就可以从这几个角度谈一谈大数据的问题。
第一个需要跟大家分享的就是关于“”的话题。数据温度是比较有意思的话题。它是用另外一个角度衡量这个数据的。
天气预报里很熟悉,通过温度的方法感知外部世界的变化,数据有没有温度?我的观察是,我们操控的大数据里有一些特点,
有了这样的定义之后,我们才知道究竟应该选择哪种工具,哪种方法来管理数据。
其次谈到流处理概念,流就存在着存储的概念。这种使用是一种很独特的应用场景,用传统大数据处理方式对这些数据进行处理恐怕不是非常有效果。所以我们提出了流式数据处理的概念。可以
在采集方面,尤其像物联网、移动互联这样的场景里,有多种数据采集的应用特点。这个特点里,与之相对应的最好技术手段就是流的技术和手段了。
选择大数据处理工具的时候我们面临着一些困境。
从数据来讲,我们放到内存里处理的速度最快,延迟最少,但是代价最高。关系数据库大家都很熟悉了,它仅对关系型数据才能有效实施。非关系型数据,可以用非检索工具来做。
我们也有几个考虑角度,
简单化的模型,在我们的选择上是很好的选择。参考工具对不同的技术来说有深远的影响,
对于这样的应用场景,市面上充斥着各种各样的工具,我们也会针对这个场景提供托管服务,对于云计算用户来讲,就是在选择工具上有优势。
对于大数据架构谈了很多话题,引入了很多概念,如何将概念应用到真正的架构里?基于云计算平台上也有一个大数据参考架构。这个架构里就像刚才谈到的四个不同的环节流程,涵盖数据采集、存储这些环节。包括数据温度由低到高,数据存储方式的复杂到简单都有针对性的选择。
一个好消息,去年8月份AWS在中国区的服务已经落地商用了,大家可以通过中国区云计算的服务提供的内容,可以体验一下AWS提供的大数据所展现的魅力。
对于这样一个架构,大家已经有一些了解了,最后想跟大家分享一下大数据在实践中的设计范式。这也是过去十年里云计算、大数据应用得到的心得。
在软件架构里,最近一段时间大家谈到的架构设计原则就是解耦。利用松耦合方式增加系统的弹性。传统深擦作大数据的时候更习惯把大数据的存储、计算放到同一个环境下,在存储和处理上没有明显的解耦,但是这种方式存在着弊端。比如说对于数据的管理和处理流火性方面,或者不同的处理要求对数据的拷贝、管理上,存在天生的弊端很难解决。有时候企业里面为了解决这个问题,不得以会将数据有多份存储,无形增加了开销和不确定因素。
我们提出的建议方法,就是将数据解耦。
另外建议大家,
还有数据温度的问题,这是我反复强调,
大数据里有几种应用场景:第一种是实时处理,就是引入流的概念,利用一些流的服务和产品,提升我们数据的处理能力,以及将我们处理的延迟降到最低。第二是交互和批处理,在这种查询环境里最重要的就是集中化数据管理能力。
过去两年里,渐渐兴起广为大家熟悉的概念是数据湖,某种意义上强调企业建立一个全数据的集中管理能力。利用目前云计算和大数据的处理能力,真的可以为企业提供全数据的概念,利用全数据我们在大数据的操作、分析,不同主题的应用里,就具备了真正意义上的大数据的处理。
归纳起来,
这些有明确说法的时候,你依据标准选择工具的话,恐怕就不是很困难的事情。
这一点是在很多案例中被证明的。
比如说在日志管理方面,存储处理方面,选择一些不可变日志和物化视图方法,会更有效。
当有一定规模和积累的时候,这个办法可能就没有办法解决了,因为你会被成本拖累。
所以,
305171