大数据和区块链之异同(上篇)

数据观  •  扫码分享

 两者之间有个共同的关键词:分布式,代表了一种从技术权威垄断到去中心化的转变。

大数据和区块链之异同(上篇)
 

  分布式存储:HDFS vs. 区块

 大数据,需要应对海量化和快增长的存储,这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,能够弹性扩张存储容量。谷歌的GFS和Hadoop的HDFS奠定了大数据存储技术的基础。另外,大数据对存储技术提出的另一个挑战是多种数据格式的适应能力,因此现在大数据底层的存储层不只是HDFS,还有HBase和Kudu等存储架构。

 区块链,是比特币的底层技术架构,它在本质上是一种去中心化的分布式账本。区块链技术作为一种持续增长的、按序整理成区块的链式数据结构,通过网络中多个节点共同参与数据的计算和记录,并且互相验证其信息的有效性。从这一点来说,区块链技术也是一种特定的数据库技术。由于去中心化数据库在安全、便捷方面的特性,很多业内人士看好其发展,认为它是对现有互联网技术的升级与补充。

  分布式计算:MapReduce vs. 共识机制

 大数据的分析挖掘是数据密集型计算,需要巨大的分布式计算能力。节点管理、任务调度、容错和高可靠性是关键技术。Google和Hadoop的MapReduce是这种分布式计算技术的代表,通过添加服务器节点可线性扩展系统的总处理能力(Scale Out),在成本和可扩展性上都有巨大的优势。现在,除了批计算,大数据还包括了流计算、图计算、实时计算、交互查询等计算框架。

 区块链的共识机制,就是所有分布式节之间怎么达成共识,通过算法来生成和更新数据,去认定一个记录的有效性,这既是认定的手段,也是防止篡改的手段。区块链主要包括四种不同的共识机制,适用于不同的应用场景,在效率和安全性之间取得平衡。以比特币为例,采用的是“工作量证明”(Proof Of Work,简称POW),只有在控制了全网超过51%的记账节点的情况下,才有可能伪造出一条不存在的记录。

  IT技术发展的分分合合

 和人类社会一样,IT技术发展的也呈现出“合久必分,分久必合”,即集中与分布的螺旋式上升。

 计算机诞生初期,仅能实现一对一的使用,是集中化的。为了使得一台大型机能够同时为多个客户提供服务,IBM公司引入了虚拟化的设计思想,使得多个客户在同时使用同一台大型机时,就好像将其分割成了多个小型化的虚拟主机,是时分复用的集中式计算。

 进入小型机和PC时代,回归了一对一的使用,不过设备已经分散到了千家万户。进入互联网时代,C/S模型的客户端和服务器是分布式计算,只不过服务器之间还是分散的。

 进入云计算时代,计算能力又被统一管控起来,在客户端和服务器的分布式计算基础之上,服务器之间也开始了分布式协同工作。因为协同,所以也可以认为它们在整体上是一种集中式的计算服务。

 进入大数据时代,云计算成为大数据基础设施,也使得大数据的核心思想和云计算一脉相承。MapReduce将任务分解进行分布式计算,然后将结果合并从而实现了信息的整合分析。

 区块链则是纯粹意义上的分布式系统。

  是什么力量造成了集中与分布的此消彼长?

 让我们从历史中试着寻找答案。

 商业需要集中,希望通过产品实现更好的控制和更高的利润。但随着产品集中度的不断上升,系统会越来越复杂,实现的难度越来越大,沟通、交流和管理的成本也越来越高,最终变得不经济。

 社会需要分工,让专业的人做专业的事,涂尔干的《社会分工论》谈到,“分工使社会像有机体一样,每个成员都为社会整体服务,同时又不能脱离整体,分工就像社会的纽带,故谓之‘有机团结’。”

 分布式技术的诞生,正是基于这种思想。产品功能被分解并分布到不同的节点上去完成,节点之间通过网络实现沟通。分布式系统中的一些节点或因为商业上的成功,重新成为“集中化”的节点,但随着时代的改变,它们终将会进入新一轮的分布式周期。如此往复。

 集中和分布不是光谱的两端,任何伟大的产品,都是商业和技术的“有机团结”。

 【 推荐阅读

  视频 ▏18分钟看懂什么是区块链?

 有可能在未来几十年带来巨大影响的科技,已经到来了,它并不是社交媒体,不是大数据,也不是机器人科学,甚至也不是人工智能,你会惊讶的了解到,它是比特币等数字货币的技术基础,它叫做区块链。作家Don Tapscott近期在阿尔伯塔省班夫镇参加了TED大会,并进行了区块链技术的讲座。

 

☞点击进入 亚信数据 在数据观的企业栏目>>>  

 

责任编辑:陈近梅

随意打赏

区块链与大数据区块链 大数据区块链是什么区块链技术布比区块链区块链应用区块链金融数据区块链大区块链
提交建议
微信扫一扫,分享给好友吧。