睿帆科技:千亿级数据毫秒响应的分布式列存数据库雪球DB
近两年,大数据作为重要资源被提上国家战略。今年两会,马化腾、雷军、丁磊、张近东等互联网企业的全国两会代表委员就关于大数据战略、数字经济发展积极献策。
此外,国家发改委还在近期刊发了关于2020年发展数字经济的八大举措。
例如“实体经济数字化融合;促进数据要素流通;发展新型基础设施”等,以鼓励传统产业加快数字化转型,推进前沿信息技术在各场景的融合应用。
海量的数据是政务管理、企业数字化转型的核心生产因素,但现阶段,真正被有效储存、使用的数据还不到10%。如何唤醒大量“沉睡的”数据并从中寻找、分析有价值的信息,促进业务发展,无疑是一个巨大挑战。
“4G时代,大数据更多是服务IT基础建设成熟行业的头部客户,离个人还有一定距离。5G的到来和国家进一步提出深化大数据的发展,更多中小型企业对于数据采集、存储、治理、分析和挖掘的需求也在快速增加。”在睿帆科技大数据科学家、雪球数据库总架构师李求实博士看来,行业头部企业数据每年以PB级甚至上百PB爆炸式增长,催生了对于PB级数据量在线或实时数据分析的处理能力的需求。
关于PB级数据,美国未来学家雷·库兹韦尔有过一个形象的比喻:如果人类功能记忆的容量预计在1.25个TB,那么800个人类记忆才相当于1个PB。
面对庞大的数据量,很多企业早期主要通过抽样数据来获取结论。李博士告诉笔者,这种方法的弊端在于“抽样之后的数据变成了百万级或千万级,是原始数据的一个子集,和实际情况会有很大偏差,导致根据样本得出的结论可靠性大大降低。”
为了追求数据的准确性,有的企业不得不降低数据处理的实时性,采用离线处理的方式。但数据的价值就在于其时效性,越早分析越能得到快速准确的反馈或响应,并及时利用结论指导后续的业务工作。
此时,一款针对海量数据进行毫秒级在线即席查询分析的数据库就显得尤其关键——它甚至决定了企业是否能以比竞争对手更低的成本、更快的速度解决问题,构建起核心竞争力。
满足大数据量查询的稳、准、快
过去十年,业内一直推崇的分布式计算平台是Apache基金会旗下的Hadoop。2009年,Hadoop将1TB数据的排序时间缩短到了62秒,从此名声大噪。
它也凭借其高可靠性、高可扩展性、高容错性和低成本成为当今大数据领域运用最多、范围最广的技术平台,被雅虎、FaceBook、last.fm等众多公司应用。
李博士介绍,由于Hadoop的设计初衷是针对存储和分析离线大数据,因此无法提供便捷高效的数据交互、多维分析、快速查询服务,“虽然产生了诸多如Spark、Impala、Drill等SQL on Hadoop项目来优化Hadoop在服务效率上的短板,但由于这些项目仍然基于Hadoop底层机制,所以无法从根本上解决这些问题。”
为了帮助企业做到稳、准、快的实现海量数据的调用需求,掌握PB级数据核心处理技术的大数据产品及解决方案供应商睿帆科技,在原有的零距大数据中台的基础上,自研了一款具有千亿级数据毫秒查询速度的分布式分析型数据库雪球DB。
“雪球”的特点主要在于列式存储,向量化执行引擎,高可靠的集群架构以及数据自动均衡、实现副本异步拷贝的能力。
首先,与行式存储将每一行的数据连续存储不同,列存是连续存储每一列的数据。它的优势是在数据读取时,只需要读取参与计算的列,这极大降低了IO 的消耗,加快了查询速度。与此同时,同一列中的数据属于同一类型,这使得列式存储可对数据进行高达十倍甚至数十倍的压缩,这节省了存储空间和成本消耗,非常适合大数据查询分析和高并发查询。
其次,雪球DB还实现了向量化执行引擎,对内存中的列式数据,一个批次调用一次指令(而非每一行调用一次),不仅减少了函数调用次数,而且可以充分发挥指令的并行能力,大幅缩短了计算耗时。相当于让数据处理的效率有了几何倍的提升。
此外,雪球DB通过Share-nothing节点方式,消除了主节点性能瓶颈,大幅提升集群性能。
“Share-nothing说白了就是什么任何东西都不共享,好处就在于通过硬件设备的叠加,就可以完成性能的线性叠加。而传统的关系型数据库会共享一定的设备,因此会拥有叠加瓶颈,使其叠加效率非常低。”李博士表示。
而针对传统分布式系统宕机过程中造成各节点内数据分布不均衡的问题,睿帆科技开发了“应对节点宕机时的负载均衡优化”专利技术。
理想状态下,每个节点的计算量是同等的,否则工作量较大的节点将决定整体任务的完成时间,比负载平衡所用的时间大大延长。而一旦所有工作都集中在某一个或某几个机器上,并行优势也将无从体现。
通过先进的Hash随机算法,雪球DB能够在一个节点宕机时自动均衡各节点内数据分布,保证各节点磁盘占用相对均衡,避免雪崩效应。同时,雪球DB支持多副本备份,可以在不同的节点上维护相同的数据。当前节点如果发生故障,则自动切换由备份副本提供服务。
这些核心特点使得“雪球”在根本上解决了Hadoop体系交互复杂、效率低下的问题,满足了海量数据在线交互、多维分析和高效查询,确保数据分析结果更真实。
李博士表示,雪球DB是基于高并发环境下、千亿级数据毫秒级查询所研发的数据库。产品刚研发出来时,我们对于实际测试结果还是很兴奋的。但合作伙伴试用后反馈效果一般,和其他数据库产品差不多,都是在几十毫秒左右。后来发现,他们只是拿雪球在做少量并发的常规数据查询。但当对方内部系统升级,上线了很多新功能,数据量和并发数呈几何性增长时,雪球DB和其他数据库对比,性能优势就显现出来了,在海量数据高并发、多条件等苛刻场景下的测试,结果比原有数据库快了几个数量级。
这家公司后来与睿帆建立了长期合作,其用户覆盖近亿,单日增量数据超过1PB,在雪球DB的PB级联机分析能力下,根本上解决了数据不及时、查询延迟高、分析维度受限等问题,大幅提高了服务效率。
疫情期间,某通信运营商就通过雪球DB解决了海量多种类型数据如何及时、高效地处理和分析的问题。
“为了输出潜在2B人员名单、分析疫情趋势、建立驻留人员热点区域图,需要对海量数据进行调取分析。放在过去,需要大量的人工排查,耗时耗力。但通过我们毫秒级在线分析模型,几分钟就能调出结果。”李博士提到。
或者在公共安全领域,面对多警种的数据内容,以千亿级数据毫秒查询速度,结合睿帆科技其他产品能够将视频、音频、文档、图标等结构化非结构化数据进行实时分析可视化决策,实现警情态势的全局把控。
在原版雪球DB的基础上,睿帆科技还针对小B客户开发了“轻量版”。后者可以只在一台机器上运行,不支持分布式和磁盘复制,削减了部分功能从而进一步降本增效。
李博士告诉笔者,由于大部分中小企业的数据调用需求受时间、季节的影响,比如销售淡旺季、疫情关键节点等,因此针对这类客户主要采用aPaaS模式,以公司的另一款产品零距大数据中台作为最下层依托,与雪球相结合推出一整套解决方案——由于零距大数据中台“低代码+图形化”的界面,因此可以极大地降低客户使用门槛。
大数据经济真正的价值,在于普惠中小企业
随着信息技术和人类生活的深度融合,以及互联网、移动互联网和物联网的快速发展,各行各业的数据呈爆发增长态势。来自IDC的数据显示,全球的数据量2020年将达到40ZB(1ZB=1024EB,1EB=1024PB),如果换算成128G iPad的高度,可以达到地球到月球距离的6.6倍。
庞大的数据量也催生了数据存储更多、更快、更稳定的需求。由于数据量的增长速度远远超存储设备本身能力的增长,原有的存储设备,甚至整个存储架构都需要不断扩容和升级。
也使得大数据存储技术在数据存储的成本、数据读写能力以及数据自动备份安全性等方面,都面临很大的挑战。而这些痛点并不能仅通过硬件和存储阵列本身存储能力的提升来解决。
在传统的关系型数据库无法满足海量数据的存储处理需求的情况下,以阿里巴巴为首的互联网企业最早开启了“去IOE化”的历程。
在此之前,阿里主要使用的是IBM、惠普的小型机,存储设备主要是EMC的产品,和部分戴尔存储设备;数据库都是Oracle的。但在电子商务业务的爆发式增长下,原有的技术架构和成本阻碍了业务发展。
所谓去IOE化,其实就是集中式部署(IOE架构)很难适应互联网大规模应用对扩展性的要求,因此用分布式架构系统替代了集中式架构商用系统,进而有了分布式数据库的产生。
“IOE时代,数据通常存储在IOE的硬件设备中,”李博士提到,“当数据量增加时,就会通过堆砌IOE的硬件设备来实现存储任务。由于IOE的软硬件相互配合,成本也会水涨船高。”
但这套解决方案并非适用于所有公司。阿里的“去IOE”从2010年开始共耗时三年,前后投入近1.7万名技术员工。迁移之后,系统的维护和运营成本的耗费也十分高昂,比如为了重新架构全新的运维体系,仅X86服务器就花了1.5万台,以替代原来的几百台小型机的系统。
对于大多数具有成本压力的中小企业,睿帆科技推出了一站式解决方案,它由零距大数据中台为底层依托,再附加雪球DB和少量语料即可完成文本识别的大禹中文智慧文本平台,三大产品组合形成了覆盖结构化、非结构化、半结构化数据的整套系统。这套系统所有的产品都支持PB级以上的数据处理能力,同时还能支撑起产品对于性能和承压性需求。
“这种PB级+低代码+数据中台的组合可以让中小型企业以相对较低的成本用上大数据产品。”在李博士看来,这才是大数据经济真正的价值,即帮助更多传统中小型公司通过对大数据的精细化管理,提升企业工作效率,实现转型升级。
睿帆科技成立于2015年,这期间,李博士和团队见证了大数据应用不断向产业互联网延伸的趋势,与此同时,华为、阿里等大厂也推出了自家的私有云解决方案和大数据解决方案,和创新型公司共同抢食大数据服务市场。
“巨头的加入验证了行业的潜力,同时起到了一定的‘鲶鱼效应’。”李博士认为,未来大公司的入局需要用更辩证的眼光来看待,一方面,未来的市场格局,普惠性的项目更多是交给巨头来做,他们有充足的资源和资本;此外,如金融、安防等垂直细分市场可以交给睿帆科技这样的技术型创新企业,“我们会深耕在我们已经布局的、擅长的,已经形成行业竞争壁垒的PB级大数据领域。”
稿件来源于:睿帆科技
雷锋网 (公众号:雷锋网) 雷锋网
雷锋网版权文章,未经授权禁止转载。详情见。