解开神秘的面纱之阿里云——飞天系统
作者:西门老衲
大数据和云计算可以说是硬币的两面。阿里云自2009年成立之初就将云计算作为唯一的业务,目前阿里云每天有数十亿次访问,是中国最大的云服务提供商。提供弹性计算、海量存储和数据库,以及大规模计算服务。安全是阿里云从一开始构建就考虑到的问题,实现了粒度最小的权限控制,整个系统的部署和监控都采取了分布式架构,并且达到了10个9的数据可靠性。接下来就让大家了解神秘的阿里云的飞天架构。 一、飞天体系架构
飞天操作系统是阿里云公司自主研发的分布式计算平台。在飞天体系结构中,最底层是数据中心,通用服务器搭的集群,周围的大规模的通用平台。两个小层,最底层构建分布式服务需要底层基础公共模块,远程过程调用、安全、匿名服务、协同服务和资源管理。边上两块一部分是部署,一部分是监控。在公共的大规模底层计算平台安全在最底层,飞天一开始设计的时候就把安全作为最重要的模块。整个系统架构里面部署和监控也是核心系统的一部分。
二、飞天系统-分布式基础架构
飞天系统的分布式基础架构由三部分组成:
命名服务——女娲,为飞天平台提供高可用的协调服务
远程过程条用——夸父,夸父是飞天平台中负责网络通信的组件
安全管理——钟馗,飞天操作系统的安全管理机制中提供了以用户为单位的身份认证和授权,以及对集群资源数据和服务进行的访问控制。
三、飞天系统——分布式文件系统-盘古
飞天操作系统中数据存储是由分布式文件(盘古)完成的。在盘古分布式文件系统里面最大一个特点我们把分布式I/O的流水线和后台存储管理分开来了。
特性:大规模、高可靠、高吞吐量、高可用和可扩展性。
四、飞天系统——任务调度-伏羲
伏羲是飞天平台的调度系统,同时也为应用开发提供一套变成基础框架。
伏羲资源调度跟Yarn比较类似,有一个伏羲Service master,向伏羲Service master 汇报每个节点的可用情况,并且向伏羲Service master进行调度。
五、飞天系统——集群监控-神农
神农是飞天平台上是负责信息收集、监控和诊断的系统。神农系统包括三部分:
Master:负责管理所有神农 Agent,病对外提供统一接口来处理神农用户的订阅请求。
Inspector:是部署在每一台机器上的进程,负责采集当前机器和集成的通用信息,并实时发送给Agent
Agent:是部署在每台物理机器的后台程序。
六、飞天用用——阿里云系列韵公园
飞天应用:阿里云搜索、阿里云邮箱、金融数据仓库、渲染云计算。
End.