EnginePlus受邀参加亚马逊云科技中国峰会分享Spark on Amazon EKS实践经验

砍柴网 • 3年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

近日，亚马逊云科技中国峰会在上海召开。亚马逊云科技的众多技术合作伙伴受邀出席峰会，围绕“构建新格局，重塑云时代”的主题，进行了系列主题演讲和产品展示，分享云计算领域的先进技术经验与企业成功实践。

Mobvista汇量科技资深架构师、EnginePlus产品负责人陈绪也来到现场，与嘉宾们分享了在Amazon Elastic Kubernetes Service (Amazon EKS) 上部署Spark的干货经验，并以Mobvista汇量科技自身为例，介绍了Spark on Amazon EKS的业务实践成果。

Spark on EKS: 业务增长带来挑战

记者了解到，Spark 作为广泛应用的大数据处理框架，提供了丰富的Data Frame接口以及SQL查询的功能，同时也可以通过PySpark对接深度学习框架。据悉，汇量科技使用的Spark集群承担了大规模ETL、数据处理分析、Ad-hoc查询，以及算法模型训练的重要任务，现在离线计算集群有上万CPU核心，每日处理PB级的数据。

陈绪介绍道，其团队最初采用HDP，在EC2上搭建了弹性的Hadoop服务，但随着业务规模的发展，更多的挑战开始显现：一方面，团队希望各业务线之间可实现资源隔离，同时具备高效的弹性能力，以保障业务产出时效性；另一方面，系统遇到大规模的临时查询作业时，查询数据量可达数十TB，这给集群的弹性伸缩带来了很大压力。对此，陈绪表示：“弹性伸缩的效率影响着作业执行时间和总体成本。因此，我们通过调研，开始尝试通过容器化的架构来解决上述问题。

汇量科技 业务实践 成果： EnginePlus

陈绪介绍称，团队选择了Amazon EKS服务来搭建容器化Spark计算平台：“将不同的组件划分到若干不同的NodeGroup，包括Spark Driver、Spark Executor，以及Zeppelin、Jupyter的Notebook”，从而为不同类型的节点组配置不同的资源类型，并分别实现弹性伸缩，获得更好的性价比。

提到EC2 机型选择时，陈绪表示，对于大规模shuffle的作业，磁盘的IOPS和读写吞吐要求都很高，因此在大规模ETL集群中，团队会优先选择M5d、C5d、R5d等带有本地nvme磁盘的机型。在陈绪团队的生产集群上，IOPS可达到万级别，读写吞吐可以达到GB级别，而使用本地nvme磁盘机型，可以很好地解决磁盘性能瓶颈问题。此外，陈绪还从资源管理、作业状态和日志、版本和部分 bug修复等角度进一步探讨了Spark on Amazon EKS的业务实践，并为来宾们介绍了一系列技术实践的成果——汇量科技自研的一站式云原生大数据和人工智能平台EnginePlus。

据了解，EnginePlus 将数据湖、计算分析、人工智能集成在统一平台上，提供面向多种业务场景的实时数据湖框架 StarLake、机器学习框架 MindAlpha 等自研开源工具，并能够与 Spark 计算框架深度集成，其适用场景包括互联网金融、出海电商、移动广告等。

陈绪介绍称，在亚马逊S3存储和EKS之上，EnginePlus部署了StarLake数据湖框架和Spark云原生计算框架，从而形成了湖仓一体的统一计算引擎。在天级大作业的迁移中，与Yarn相比，在Amazon EKS上部署Spark后，作业耗时大幅缩短。同时EnginePlus也针对容器化环境做了很多bug修复和易用性提升的开发工作，帮助用户更好更方便地在云上使用EnginePlus。

EnginePlus受邀参加亚马逊云科技中国峰会分享Spark on Amazon EKS实践经验