阿里展示新一代计算平台,要把支撑双11的计算能力“让”给企业-天下网商-赋能网商,成就网商
文/ 天下网商记者 蒋菲
9月21日云栖大会计算智能专场,阿里展示了新一代计算引擎及一站式智能云研发平台DataWorks,普通用户在云端上码几百行代码,就能构建独属于自己的数据智能产品。
阿里巴巴集团副总裁周靖人在云栖大会展示新一代计算平台
新一代计算平台
每年双11,老百姓最关心的是有多少人在同一时刻剁手,阿里巴巴的数据大屏需要在实时展示成交额等统计信息,而不是大促结束后第二天再公布数据。
以2017年双11为例,支付金额达1682 亿元人民币,支付峰值25.6万笔/秒,是前一年的2.1倍,同时诞生的还有数据库处理峰值,4200万次/秒。第7分23秒,支付宝的支付笔数突破1亿笔,这相当于5年前(2012年)双11全天的支付总笔数。
媒体直播大屏处理的总数据量高达百亿,且所有数据都需要做到实时、准确地对外披露……这些给数据采集、存储和计算都带来了极大的挑战。
历届双11海量数据的大规模并行计算背后,离不开MaxCompute、Blink(实时计算)和PAI(机器学习)。
MaxCompute是阿里巴巴自主研发的离线计算引擎、拥有多项国家专利技术。Blink(实时计算)则是阿里巴巴最重要的实时计算引擎,它提供流式数据计算能力,能够支持百万级吞吐量的作业,计算可达秒级延迟,关键指标超越开源引擎Storm性能6到8倍,计算成本远低于开源软件。
PAI是阿里巴巴机器学习平台,提供了超大规模分布式机器学习训练,在线、离线预测能力。
不仅是在阿里巴巴,各行各业对大数据时效性的计算需求在日益增加,因此,阿里巴巴需要研发世界级计算引擎,一体化的处理海量实时及离线数据,提供在线统计、数据处理、机器学习、深度学习和在线/离线预测能力,支持自身的核心电商场景,并通过阿里云向外部中小企业提供服务,输出涵盖实时、离线一体化的计算能力。
通过一站式智能云研发平台DataWorks,将离线计算、实时计算、机器学习能力无缝串联,形成了新一代计算平台。
阿里巴巴资深技术专家、数加DataWorks负责人徐晟在云栖大会
基于新一代计算引擎的DataWorks具备了5项要素:海量数据规模下高性价比的离线及实时计算力;实时+离线任务一体化研发能力;实时+离线异构数据湖交互式查询能力;超大规模机器学习、深度学习异构计算力;一站式端到端的云上大数据智能研发能力。
在阿里日均调度任务量达百万级别
如果把阿里巴巴大数据计算引擎比作一台PC的CPU、GPU、SSD等硬件设备,那么DataWorks就是这台大数据PC的Window操作系统。
除了以可视化的方式对用户提供云化的开发平台,任务调度平台,运维管理平台,数据服务平台等产品化的服务。还对租户、账户、计量、计费、调度、运维、监控、安全等功能作了封装,让用户几乎通过零研发成本,完成所有大数据研发流程的闭环体验。
特别是在大规模任务调度方面,DataWorks拥有多项国家专利技术,为大规模复杂分支依赖高并发任务的调度,提供了强有力的稳定性保障(在阿里经济体中日均调度任务量已达数百万)。
2009年,DataWorks项目开始启动,DataWorks已经成为阿里集团数据开发的标准平台,联合大数据计算引擎MaxCompute支撑了整个阿里经济体90%以上的数据规模,已超EB级别。支持着阿里集团、蚂蚁金服、菜鸟、优酷、高德等所有事业部的数据开发任务。
2013年随阿里云进入公共云市场,DataWorks系列产品在全世界16个国家和地区均已部署可用,包括新加坡、悉尼、香港、德国、马来西亚、日本、美国等,成为国际知名的一体化数据研发平台品牌。
随着DataWorks在公共云和专有云的输出,在国内和国际上获得了众多奖项,2017年,以DataWorks为主体的阿里云数加,获得了国际软博会金奖;2018年,DataWorks名列国家大数据博览会十佳产品,荣获最佳案例实践奖;同样在2018国际权威评测机构Forrester公布的Cloud Data Warehouse第二季度的榜单上,代表阿里云,携手MaxCompute,获得了世界排名第二的成绩,与AWS,Microsoft Azure,Google Cloud一起杀入第一阵营,是唯一上榜的国内厂商,奠定了世界级大数据研发平台的地位。
结合阿里云机器学习PAI平台
DataWorks基于MaxCompute、Blink作为核心计算存储引擎,不仅为用户提供结构化、非结构化数据的存储、交换、管控能力,而且结合了阿里云机器学习PAI平台,为用户提供从数据处理、特征工程、算法训练、算法评估到离线、在线预测的一整套机器学习解决方案。
阿里巴巴研究员、机器学习平台负责人林伟在云栖大会
平台提供上百种经典机器学习算法及典型数据处理能力、兼容所有主流深度学习框架,支持在线学习、深度学习、增强学习及迁移学习等多种学习方式。
经过深度优化的机器学习引擎将阿里巴巴集团针对超大规模稀疏模型的CPU系统级优化方案,针对大规模图像、语音及文本领域的GPU系统级优化方案,针对在线推理加速需求的模型压缩等核心能力,通过简单易用应用平台提供给广大算法开发者,大幅提升分布式模型训练的规模,降低建模及模型服务的成本。
未来,DataWorks将携手阿里计算引擎双子星,致力于解决业界关注的 Data Lakes 查询,大数据 Interactive 查询,流批一体化查询等难题,同时携手阿里机器学习平台PAI,加入智能元素,提供云上进行深度学习和模型算法迭代训练的能力,覆盖从数据计算,模型训练,线上数据服务,一直到应用搭建的一站式云上大数据解决方案,并在全新架构的云上编程环境Cloud IDW上,提供从Sql、python,甚至于Java开发的能力,提供全套的云上开发解决方案。
众多智能数据应用得以普惠大众企业,普通用户在云端上码几百行代码,就能构建独属于自己的数据智能产品。