Kyligence获红点数百万美元天使轮投资,构建基于Hadoop的数据仓库及OLAP产品
大数据公司Kyligence 跬智科技日前宣布获得了数百万美元的天使轮投资,投资方为红点资本。
Kyligence于 2016年 初成立,总部位于上海。致力于为用户提供基于 Apache Kylin 的智能分析平台及产品,以及企业级商业分析解决方案。
创始团队成员来自 eBay,IBM,微软,摩根斯坦利,SMG 等著名互联网及数据公司,包括多位Apache Kylin™的核心贡献者,并活跃于各个开源社区,Apache Kylin 是第一个由中国团队完整贡献到 ASF (Apache 软件基金会) 的顶级项目。
对此,36 氪采访了Kyligence联合创始人兼 CEO 韩卿 (Luke Han) :
Kyligence 的诞生解决了哪些痛点?
随着 Hadoop 为代表的大数据技术的普及,越来越多的数据被收集、存储起来,并进一步进行各种处理以满足不同的业务分析需求。业界的实践证明,分布式大数据平台可以有效的进行各种批量处理、数据加工甚至挖掘等,为 “机器” 使用和处理大量数据带来了前所未有的便利和能力。
但大数据的飞速发展并没有为传统的数据分析师带来更多的好处。其原因在于 Hadoop 等大数据平台能很好的满足批量数据处理需求但缺很难让 “人” 以 “交互式” 的方式在超大规模数据集上就行各种不同维度的快速分析,特别是 Hive 等最终将 SQL 查询翻译成 MapReduce 的方式无法让用户在秒级时间内获得他们所需要的结果,而且很多分析师不得不使用 Shell 终端等方式访问和运行相关脚本,远远超越了对一个分析师、BI 人员的要求。
同时,由于处理时间和方式的差异,很难在短时间内获得分析结果,从而加大了企业内大数据分析平台及应用在推行上的难度。
此外,以 Teradata 为代表的高端并行处理 (MPP) 数据仓库往往都以软硬一体机的形式提供,除了价格昂贵,没有开源以外,将大量数据从 Hadoop 等平台再次拷贝到这类平台上也带来了极大的工作量和额外存储成本,而业界越来越流行将数据保存在一个平台上,而将 “计算” 送往 “数据”,以降低总体拥有成本。
基于此,Apache Kylin 被开发出来以解决超大规模数据集上秒级甚至亚秒级的挑战,提供分析人员以交互式的方式访问和分析的能力,解决了大数据分析应用落地的实际难题。
Apache Kylin 内数据流的形式变化
大部分情况下,作为为业务人员或分析人员所用的数据往往以结构化形式呈现,在存储上,特别是在 Hadoop 平台上以 Hive 形式暴露,从而提供传统 RDBMs 的接口以使分析人员通过 SQL,分析人员通用语言,就行访问和分析。
在 Apache Kylin 内,数据将首先从 Hive 进行读取,此时,数据以行列式的方式被读入,之后数据会在不同的 Map Reduce 任务间进行各种计算,从而将最终结果转换为 Key-Value 组合,即 Key 为维度组合,Value 为各种指标值,最后存放于 HBase 中。
在用户提交标准 SQL 查询到 Kylin 服务器后,该查询会被解析并转换为 HBase 的标准 API 访问,或得相关数据后,进一步组织成标准的 SQL 数据结果集返回给调用者,在这个过程中,没有任何的 Hive 读取,没有任何的 MapReduce 读取,这也是 Kylin 查询性能非常快速的原因之一。
Kyligence 与下层 Hadoop、上层 BI 展现的区别,各自在性能与并发上有什么瓶颈?
Kyligence的目标是构建基于 Hadoop 的数据仓库及 OLAP 产品,因此,Hadoop 是 Kyligence 的底层存储和运算框架,细节上,Hive、SparkSQL、Kafka 等是 Kyligence 的数据源,Map Reduce,Spark 等是 Kyligence 的运算引擎,而 HBase 等则是 Kyligence 的存储层。
通过 Kylin 的预先计算及流式计算,将相应的数据依据业务需求构建数据集市并予以存储,从而在大量分析请求到来的时候无需访问原始数据源,无需每次调用 Map Reduce 等处理任务,直接将匹配的数据结果提供给前端工具使用,从而为超大规模数据集提供极速的访问能力。可以从 eBay,网易等公开的资料和文章上看到,相关的性能大大快于传统的数据仓库产品。相关生产环境上的实例证明,Kylin 在千亿规模数据(单一数据表)上可以做到 95%的查询在 1 秒内返回,目前应该没有其它技术可以在此规模上达到类似的性能。
对于前端展现层,通过标准的 ODBC 及 JDBC 驱动,REST API 等,Kyligence 可以与各种 BI 工具,可视化工具等无缝整合,以标准的 SQL 为用户提供分析能力。
往往,OLAP 应用在并发上表现并不理想,由于需要大量的读取底层数据,或者扫描大量的数据表,或者在网络间需要巨量数据交换,在几十的并发压力下已经做到极限。而得益于 Kylin 的预先计算及无状态服务器等特性,Kyligence 所提供的产品可以轻松做到三四百以上的并发度,在京东等用户案例中可以甚至可以看到已经通过 Kylin 提供对公网的服务,这是其他 OLAP 产品所无法提供的。
Kyligence 做这个中间层有什么必要?
Kyligence 所提供的 OLAP 及数据集市层,填补了大数据平台与分析人员之前的空白,如 Apache 软件基金会在 Kylin 毕业成为顶级项目的官方新闻中评价的:“作为一个领先的基于 Hadoop 的 OLAP 解决方案,Apache Kylin 填补了大数据与人使用之间的空白,使分析人员,最终用户,开发者和数据爱好者能够在大规模数据集上进行亚秒级延迟的交互式分析。
基于这些能力,Apache Kylin 将商业智能(BI)带回 Apache Hadoop 以释放出大数据的价值”。由下图可见,Kylin 很好的在大数据平台上为业务人员,分析人员提供一层重要的分析层,将各种业务分析模型通过 Cube 的形式进行组织和整理,使得他们能够通过熟悉的各种分析工具直接获得分析结果。
此外,Apache Kylin 也将传统的读写分离架构带入到了大数据分析领域中,在今天,上千台的集群规模已经很容易实现,而其上的任务可以跑到千万个上亿个。而超大集群往往同时承担着各种不同的业务应用和分析需求,从而使得集群极其繁忙更有甚者资源调度不均从而导致处理性能及稳定性下降等。通过 Kylin 的预计算能力,可以将分析需求所需要的数据经聚合运算后存储于独立的节点或集群,上层展现层及分析需求都迁移至该集群,从而将分析需求与运算集群解藕,从而达到大数据分析平台的读写分离,使得故障隔离和高可用性成为可能。
关于开源 Apache Kylin 及商业版本的区别
Kyligence成立后将使得核心开发者更加专注在 Apache Kylin 的开发和迭代上,基于即有的路线图和来自社区的需求进一步演进以提供更好的架构和性能。同时,Kyligence 公司将为有需求的客户通过其企业级产品 Kyligence Analytics Platform (KAP) 提供商业支持以及企业级功能,KAP 将基于最新的 Apache Kylin 发布版本并完全兼容,为各种不同的 Hadoop 发行版提供更加全面的测试和质量保证,并增加例如安全加密,高可用性,自动化及管理等企业级特性。
据悉,Apache Kylin 已经在国内国际多个公司被采用作为大数据分析平台的关键组成部分,包括 eBay、Expedia、Exponential、百度、京东、美团、明略数据、网易、中国移动、唯品会等。