星环科技多模型数据数据处理平台Transwarp Data Hub 7.0正式发布
星环 科技 一站式大数据平台Transwarp Data Hub(TDH)每年都会有大版本更新迭代,5月15日在星环科技2020春季新品发布会上推出的7.0版本,主打一站式多模异构数据处理,打破了行业内普遍存在的不同数据库产品切换的不便利,通过一个平台处理多种数据模型,用户无需维护多种数据库即将成为现实。
数年来,星环科技一直坚持自主研发,逐年推动技术进步,2013年星环科技创立时就从大数据的四个角度来定义产品,来解决大数据的4个V的需求,数据量大、数据的种类多、数据的实时性要求高、要从数据中发掘价值。TDH是可以用于解决大数据四个V的一站式平台解决方案,①大量化(volume),采用分布式计算和分布式存储框架,充分利用计算机集群的整体计算和存储能力,解决了数据大量化问题。② 速度化(velocity):采用实时流处理引擎,解决了用户对数据处理时效性的需求 ③ 多样化(variety):处理的数据类型不再局限于结构化数据,能同时处理文本数据、图数据等非结构化数据。 ④价值提升(value):充分利用数据,用于多种数据模型的分析,提升数据价值。
满足客户需求应运而生的TDH7.0
经过七年的不懈努力,产生了发布会上看到的Transwarp Data Hub 7.0的整体构思。TDH从最初的一个多工具组合平台,逐步经演变成为一个多模型数据处理平台。目前,各种大数据技术应用越来越广泛。对于一些单一的典型场景,业界有了知名的解决方案,例如:结构化数据使用Hive;动态列模型使用Bigtable、Hbase;文档处理使用MogoDB;图数据使用Neo4j;搜索引擎ElasticSearch,等等。但在实际应用中,用户的使用场景日趋复杂,处理多模型的需求日趋广泛。在处理多模型的需求时,用户不得不采用多工具组合的混合方法,但这种混合方法的运维过于复杂,必须要维护多种数据库来满足不同模型的需求。因此,用户迫切需要一个统一的平台解决日益多样灵活的各类需求。
TDH7.0作为一个多模型的数据处理平台可以提供统一的数据操作/查询语言 SQL、统一的数据计算引擎、统一的分布式存储管理系统、统一的资源管理框架,满足利用一个多模异构平台,处理多种数据的需求。产品从上而下划分为五个层次:①SQL层:开发了统一的SQL引擎,兼容各种不同的SQL方言;②计算层:开发了统一的计算引擎,进行统一的计算任务优化和分发;③存储模型层,TDH一个平台支持七种不同的存储模型,适用于不同的应用场景,包括:图存储 Graph Storage、文档存储 Document Storage、全文检索 Full-text Search、键值存储 Key-Value Storage、行列混合存储 Row-Columnar Storage 、时空地理存储 Sequential Geospatial Storage、非结构化对象存储 Unstructured Object Storage。④存储管理层:开发了统一的存储管理引擎,提供数据块分布管理、数据多副本一致性管理、文件服务管理等功能;⑤资源调度层,开发了统一的资源调度框架,通过容器化编排,统一调度计算、存储、网络资源。
TDH7.0多模型数据处理平台三大核心优势
优势一:极大提升了各个产品的效率 。如果同一份数据需要进行多种不同模型分析:分析查询、模糊匹配查询、关系推理查询。TDH可以针对不同需求采用多种最优存储模型:分析查询采用行列混合存储;模糊匹配查询采用全文检索;关系推理查询采用图数据存储。多种模式的存储,可以使各场景下的查询分析性能都得到极大优化。
优势二:便捷的应用开发。 在传统混合模型中,不同模型数据间做关联分析,需要进行跨数据库的数据导入导出,十分复杂。而我们的产品采用了统一的数据管理,一个简单的SQL语句就可以直接进行关联查询,如同操作同一个数据库一般,使应用开发变得十分便捷。
优势三:降低运维成本。 在传统混合模型中,不同模型需要运维不同数据库。特别当同一份数据存储于多数据库时,数据一致性成为极大挑战。此外,数据总体情况的运维,需要各个运维子系统汇总并二次开发,运维成本巨大。而我们的产品采用了统一的数据管理,在产品底层服务中直接保障数据一致性,同时对多模型的数据进行整体运维,是天然的一体化系统。
星环科技新一代搜索产品Transwarp New Search重磅推出
随着新一代信息技术的发展,围绕着数据的采集、传输、存储、管理、分析、应用各环节的大数据技术异常活跃。同时,数据库的技术也日新月异。除了传统的关系型数据库,也诞生了许多非关系数据库相关的新兴技术。说到分析型非关系数据库,就不得不提到一类典型的业务:全文搜索。
作为广泛应用于TDH7.0中的全文检索产品,星环科技经过几年的自主研发,在这次发布会上推出了新一代搜索产品Transwarp New Search。相比常见的开源产品,Transwarp New Search在性能方面有更加亮眼的优势,在数据服务上限、数据安全性、数据恢复速度、数据读写速度、SQL计算性能,扩展功能等方面都有大幅的迭代和提升。
将数据服务上限提升10倍 :星环科技对内存使用进行了优化,采用了独创的堆外技术(Off-Heap)、冷却技术(Cooling)和自适应段合并算法(Self-Adaption Segment Merge),节省了内存使用。因此,单节点单实例的数据量上限提升至50TB左右,是开源ES方案的五倍,大大提升了磁盘的利用率,降低了用户的硬件成本。此外,星环科技抛弃了开源产品 P2P 架构,采用分布式一致性协议(raft)来管理集群,将集群规模上限从100节点左右提升到200节点以上。
数据安全性显著提高 :星环科技抛弃了主从最终一致性模型,采用了分布式一致性协议(raft)来保证数据的强一致性。即使极端的断电场景,也能保证数据一致性,数据安全大大提升。此外,还提供了回收站功能。用户误删除数据后,可以便捷的恢复数据。产品使用更安全、更放心。
数据恢复速度快10倍 :星环科技对写入数据做了细粒度的标记控制,单点故障数据恢复时,采用增量数据拷贝方式,启动时间加快,数分钟内完成。而开源产品集群规模上百节点时,单点故障恢复时间超过一小时。
数据读写速度更快 :星环科技产品对读写线程资源的管理更严格、更精细,既保证集群稳定性,又尽力充分使用资源,使读写性能更优,并提供了Bulkload功能,批量写入速度和稳定性大幅提高。与开源产品相比,节省存储资源20%,提升查询速率2倍。
良好的SQL计算性能 :星环科技引入了自主研发的分布式计算引擎,兼容开源ES的接口,同时很好的对接了SQL的生态。除了单点查询之外,大幅提升了复杂聚合分析性能。语法上,星环科技的产品支持标准SQL,也支持SQL扩展搜索语义,以及Oracle、DB2等SQL方言,对数据库用户更友好,学习、迁移成本更低。
扩展功能 :支持pdf/word/excel等常用格式文档的存储和搜索;提供中、维、藏、英、法、日、韩、德、西、葡等语言分词器,方便用户处理不同语言的文本;支持文章相似度匹配、关键字提取、摘要提取等自然语言处理功能;支持时空地理数据的存储和分析;可配套使用星环科技安全软件(Transwarp Guardian),获取优质的安全服务,包括:用户认证、用户授权、安全审计、数据传输存储加密等诸多功能;可配套使用星环科技管理软件(Transwarp Manager),获取集群安装、运维、监控、管理方面的优质服务。