【钛坦白】SmartX CTO张凯:基于超融合与OpenStack的大型私有云的最佳实践
图片来源:视觉中国
在钛媒体在线课“钛坦白”第42期,我们请来了三位钛客,分享超融合究竟是如何颠覆传统架构,并成为云计算领域“网红”的。本期钛客之一、SmartX联合创始人、CTO张凯,毕业于清华大学计算机系,研究方向为分布式系统和体系结构。曾任职于百度基础架构部。2013 年与徐文豪、王弘毅联合创立 SmartX,主导自主研发了 SmartX 分布式文件系统 SmartX ZBS。2016 年,SmartX 部署了联通沃云超融合云计算系统,是国内最大规模的超融合用户案例,规模已超 2000 节点。
本文节选自张凯在钛坦白的分享。如果您还不是钛媒体Pro用户,希望查看钛坦白所有干货,进入钛坦白九个专业群交流,并查看更丰富的专业数据和信息,可点击:http://www.tmtpost.com/pro 注册。
以下根据张凯在钛坦白的分享实录整理:
大家好,我叫张凯,是SmartX公司的CTO。我们是一个创业公司,我是创始人之一。我们公司的另外两位创始人,一位是CEO徐文豪,另外一位是COO王弘毅,我们三个人都是技术出身,所以我们是一个以技术为主导,以技术为驱动的公司。
SmartX的背景情况
先介绍下SmartX公司。我们成立于2013年,是国内最早专注于超融合基础架构的创业公司,核心理念是“Make IT Simple”。我们通过两个手段达到这个目标:
- 提供一个软件定义的基础架构,来帮助用户区解决目前数据中心或者传统数据中心中所遇到的问题,帮助客户区把现有的数据中心升级成一个具有更先进技术的,更容易架构的新数据中心。
- 提供企业级的产品和服务,不仅帮助客户享受架构的好处,还能够享受最好的服务,以及最佳的用户体验,这是SmartX的追求。我们的目标就是帮助客户降低在IT以及数据中心方面总体的运营成本,并且提高整体IT的运转效率。
在2013年成立以后,我们实际上花了一两年的时间做产品的研发。直到2014年的时候,我们和联想签订了一个战略合作的协议。2016年,我们目前最大的一个客户联通沃云,上线了第一个超融合的资源池,从2016年1月上线到现在有一年多的时间。目前为止联通已经上线了两千多个节点,是国内被承认的最大单用户的超融合案例。在去年的10月份,我们也进了Gartner的报告,作为中国最主流的超融合厂商,并且是这些厂商中唯一一家创业公司,也是拥有自主核心技术的一家公司。
作为一个超融合的厂商,我们主要提供三种产品:一个是分布式存储产品,主要是服务于在数据中心中虚拟化的场景,包括像VMware、Xensever、KVM等;我们也提供基于KVM虚拟化管理的产品 Elf Compute;我们还提供大规模集群的管理平台 Fisheye。
而我们产品交付的形式主要有两种:第一种以软件的形式licence的形式去交付,用户可以自己去采购合适的硬件,第二种形式就是我们直接提供软硬一体机的形式,统一给客户一个开箱即用的体验,客户只要从我们这里采用软件硬件一体机就可以了。
我们现在提供的超融合产品适用的场景,包含了服务器虚拟化、桌面虚拟化、开发测试平台,适合的行业包含了像通信、金融、制造、能源交通等行业。
超融合市场现状
- 当前的超融合首先是革存储的命
大家现在看到的主流超融合产品,我们都称为“超融合1.0”的产品,这些产品的特点就是我们把核心分布式存储到这个技术里。原因很简单,因为现在的数据中心在发展过程中越来越多地遇到了存储的问题。目前大家都是采用的传统存储架构,传统存储产品,这些产品在随着用户的发展,互联网技术的革新,包括互联网级别的应用中,都遇到了很多无法解决的问题。
由于存储在企业数据中心中有重要的地位和性质, SmartX就选择了自己来坚持自主研发分布式存储这个产品。大家也了解,Ceph是目前很流行的一个开源的分布式存储,但他在很多应用场景里,尤其是企业级比较苛刻的应用场景中,运行的时候会遇到一些问题,也会存在一些门槛。比如说遇到一些数据库的应用,像ERP、SAP,包括邮件服务器等,由于Ceph本身原因和问题,导致Ceph在面对这些场景时,并不能够达到企业级产品的质量。
刚才说SmartX一直以来就坚持自主开发分布式存储这个产品,这样的好处就是,一方面我们拥有核心的技术,另外一方面我们可以快速地响应客户在实际应用场景中的需求,同时我们也可以基于强大的服务团队,技术团队给客户带来一个最好的体验。
并且Ceph也是一个比较流行的开源产品,它在企业级应用场景里面运行的时候还是多多少少会存在一些问题,包括在一些苛刻的环境,比如像数据库的环境,ERP,SAP等等这些场景,包括在处理数据中心中各种运维的场景,比如说扩容、服务器故障的时候,还是会存在各种各样的问题。而我们场景的最初定位就是一个企业级应用环境,所以我们在这些方面都有更深入的考虑,也有更细致的优化。
为什么我们一直在强调分布式的架构?为什么传统的架构不能适应今天这些用户的需求?这个原因就是,其实我们用户在他的业务层面上不断在向互联网的方式去演进。
- 用户逐步认可互联网式IT架构
大家可以看到互联网的模式是什么?其实就是一个非常敏捷的方式,和传统方面来比变化是非常快,非常灵活,需求也多变,而且用户增长和业务增长量也是非常快速的,这就要求底层基础设施和IT的架构也要跟随这个趋势,业务的需求以一种非常敏捷的方式在向前增长发展。
我们认为超融合产品是从三个方面给企业IT基础设施带来了敏捷性,从采购、使用以及后期维护上,和传统的架构相比都有大幅的优化。为了达到这三点,背后有三方面的技术驱动,其中包括了一些分布式的技术,包括SSD的技术,包括我们从架构上,计算与存储的融合,来帮助用户提升敏捷性。
1 、采购。这里面用到了分布式的技术,我们都是采用的标准X86的服务器,和传统存储厂商所提供的非标准服务器相比,从成本上是一个非常巨大的节省。用户在使用采购的过程中,是可以按需来采购的。比如说我们产品的起步,三台服务器就可以组成一个最小的超融合集群,这个集群里面实际上已经包括了分布式存储,虚拟化以及虚拟网络等一些用户最常用到的最核心功能。
2 、使用。用户随着业务扩展,他的IT基础设施也是可以按需来扩展,像我们SmartX产品能以单台一体机为阶梯,一台一台去扩展业务。包括现在SSD的使用,包括我们从架构上的演进,计算与存储完全的融合,在物理空间上以及用电成本上都帮助用户降低了很多。
3 、后期。目前客户对超融合产品是什么样的反馈呢?其实在去年的时候,很多客户还只是听说这个概念。但到今年我们已经遇到了很多有实际需求的客户,近年来咨询的,我们去POC的,以及我们上线的案例和去年相比都有一个巨大的提升,说明这个市场已经到了一个新的阶段,大家已经开始真正去接触超融合的产品。
那么超融合到底是不是已经该爆发了呢?我们认为这个需求距离爆发还有一定的差距和距离。客户,尤其是一些传统企业、大型机构里面的客户,他们其实目前还处在观望的态度。因为IT基础设施的革新实际上是周期性的,客户在做数据中心往前迭代的过程中,他们可能会从很多方面验证方案的可行性和稳定性,以及和原有架构的结合等等,所以我们认为超融合产品的爆发还可能会有两三年的时间。
- 传统IT成为“敏捷商业”的瓶颈
其实我们从技术上已经做到了非常的敏捷,毕竟客户也对敏捷有非常强的需求。但实际上除了IT本身技术以外,企业内部的管理模式,IT包括采购、运维、运行模式等,目前运维还是相对来说比较慢的。尤其越大的机构运转的速度可能也就越慢,整个IT的敏捷或者一个公司运行的敏捷还需要更多的层面去改进。所以我们目前认为,真正有市场需求,真正有强需求的客户,其实是一些中小型客户,包含了金融业、制造业等等,尤其是和互联网结合非常强的这些领域,包括电商,他们都是非常适合超融合这个产品。
SmartX的典型案例
接下来就给大家介绍一下SmartX成立到现在积累下来的三个比较典型的用户案例。
- 案例1:运营商——联通沃云
其实联通在这方面的需求是非常明显的,他们面临的场景就是大型的公有云以及私有云这样的部署场景,对产品的稳定性、性能、易管理性以及成本都是有着非常高的要求。
这张其实就是我们在联通部署时整个的架构图,大家可以看到,我们实际上是和OpenStack去集成部署在了一起,在这个架构中,OpenStack会有三个独立的服务器作为它的管理节点,其他的计算资源节点上面除了部署它的Nova controller以外,也部署了我们的分布式存储产品SmartX ZBS。作为软件的解决方案,联通其实在采购服务器上是有很大灵活性的,包括他目前已经采购的服务器品牌,像华为、惠普、联想、戴尔包括浪潮,这其实给联通在采购成本上带来了非常巨大的节省。
SmartX的产品在和OpenStack集成的过程中,也利用到了很多特性,包括我们提供SSD作为缓存,能够加速整个存储的性能,包括我们和OpenStack cinder去集成,可以提供快速克隆和快速部署的能力。
从性能的角度说,我们单个虚拟机可以达到4万读IOPS,以及18000写IOPS。从2016年1月份开始运行到今天,始终是没有任何故障的,并且整个在联通的两千多个节点实际上只有一个人在运维,这也证明了SmartX存储的稳定性以及运维的便利性。
从运维的角度说,我们也是帮助联通去解决了很多问题。在公有云包括大型的私有云,运维的过程中都会出现各种各样很复杂的问题,我们这里也跟联通做了很多高度合作。他遇到磁盘故障服务器故障的时候,并不需要立刻就去数据中心去处理,而是每个月集中处理一次损坏硬件就可以了,这背后其实都是依赖了很强的分布式以及高可用的技术作为保障。因为这点,我们也得到了联通客户,也有很多公有云或私有云的客户,都给予了我们非常高的评价。
我们认为联通这个项目是一个非常典型的超融合在企业云环境下部署的案例,尤其是在与OpenStack结合的这么一个场景下,是值得很多我们潜在客户或者是对超融合这个产品有兴趣的客户去重点关注的。
- 案例2:金融——新心金融
新心金融实际上是一个新兴互联网金融公司,其实对IT的敏捷性有着非常高的要求。我们帮新心金融完成了一年之内的三次扩容,并快速部署了他的业务,能够满足客户快速扩展的趋势和新产品的上线。
这个是我们在新心金融部署的个架构,实际上底下采用的是我们KVM管理的虚拟化管理系统Elf Compute。这个很典型的就是:客户在一开始上线的时候,用户量以及业务量都没有很多,但随着互联网金融行业的发展以及客户的发展,同时在对数据量、计算的需求上,以及新业务线的扩展,他就必须去扩容这个已有的虚拟化平台。
这是一个金融领域的客户,所以对业务的稳定性、业务连续性以及数据可靠性的要求非常高,我们其实也给这个客户提供了基于VM HA的技术,包括SmartX ZBS本身提供的副本技术,我们也和备份软件去集成,能够为客户提供一个非常流畅,非常延续,非常高的业务连续性。
由于这个客户在产品使用的过程中感觉体验非常好,也体验到了便利性,所以他们后期又采购了额外的系统去做他们的开发测试场景。其实我们都知道,在金融领域所有的产品上线之前都要经过自己的开发测试这么一个过程,我们了解到,目前对于这种开发测试系统的需求量实际上是线上系统的两到三倍,这是一个非常巨大的市场潜在机会。
开发测试场景对虚拟机的快速部署、克隆、快照、回滚等这些能够加速开发效率的功能,是非常需求的,这方面SmartX提供了秒级快照,无依赖快照,可以快速回滚这种存储的技术,能够帮助加速他开发的效率。
客户对我们的评价非常高,尤其是在敏捷性上,我们给客户带来了非常巨大的收益。从部署到实施的周期,一般传统IT以周为单位,而我们缩短到了以天为单位就可以帮助客户去部署实施上线,争取到了非常宝贵的时间。
- 案例3:虚拟桌面——京东方
京东方作为一个制造业在这方面也是非常典型的客户。我们在早期跟客户交流的过程中就发现客户在虚拟桌面这个场景下有非常强的痛点,尤其是在存储上,他们的环境经常会遇到启动风暴的问题,桌面的创建和启动经常是以小时为单位来计算的,这就导致用户体验非常不好,敏捷性也非常糟糕。
最后给客户上线的时候我们提供了一个以VMware虚拟桌面为基础的解决方案,SmartX在这里面因为有非常出色的存储性能,能够帮助客户区解决他之前在使用过程中遇到的启动风暴等问题,同时也由于超融合这个产品架构和运维的简单性,能够使客户降低运维的成本。
我们给客户最终提供了六个节点,能够提供20万的IOPS,这样就保证了在大批量桌面同时创建和启动的过程,能把原来的数小时缩短到30分钟,这明显帮助客户解决了他最痛点的问题。
以上就是我们SmartX带来的三个案例,我们从三个行业,三个应用场景来帮助大家去了解目前超融合产品在用户落地时的真实情况。
超融合产品能够真正的给客户带来哪些价值?这个市场目前的机会在什么地方?用户可以在什么样的场景下比较适合用超融合的产品?以上就是我今天分享的主要内容,谢谢大家。
钛坦白群友互动
Q:请问超融合产品竟然真的不需要运维么?
张凯:还是需要运维的,只是复杂程度比传统 IT 产品要简单很多,能自动化的我们都自动化了。而且2000节点存储就需要一个人维护,节点坏了,系统利用已有空间会自动重新复制副本数据。
(本文独家首发钛媒体,根据SmartX联合创始人、CTO张凯在钛坦白上的分享整理)
……………………………………………………
钛坦白第43期预告:“人机大战”后,人工智能何去何从?
详情:http://www.tmtpost.com/2635019.html
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App