从开源贡献和人工智能两层面聚焦Cloudera中国区市场发展-36大数据
互联网时代,催生了电子商务、数字化营销、O2O、P2P这些热词。
移动互联网时代,互联网+、共享经济、云计算、移动互联网、虚拟化成了这个时期的标签
物联网时代,大数据、Hadoop、非结构化数据、Spark、容器、Openstack、万物互联、数字化转型、人工智能这些词汇几乎成了媒体、厂商、大会等科技圈里无人不提的。
对于今年来说,毫无疑问,人工智能是最火。那么,在人工智能时代,Hadoop是否还有其一席之地?对此,Cloudera作为Hadoop系统的首创者组织,Cloudera大中华区总经理及公司副总裁凌琦迎合站在全球市场的高度,揭示了Cloudera中国区市场发展战略布局以及对技术趋势的解读。
▲Cloudera大中华区总经理及公司副总裁凌琦
2014年12月10日,Cloudera正式进入中国市场。短短两年多时间,Cloudera已有一个完善的全国布局和客户基础。截止目前,其客户人群主要集中在大型企业,Cloudera内部称为“ Global 8000”。客户主要分布在几个领域:金融(银行、证券、保险业)、电信以及制造。
在凌琦看来,Cloudera是一个软件平台厂商,主要是针对大数据、非结构化数据的管理,对于机器学习和人工智能的支持。Cloudera会和生态合作伙伴一起共同为客户打造更具有价值的解决方案。目前,Cloudera在北京、上海、广深等地区结交合作伙伴200余个,专门建立服务于客户的支持体系,作为7×24小时客户支持体系的一部分。
谈到人工智能和机器学习对Cloudera的影响,凌琦结合Cloudera的产品布局,做了相应解答。
Cloudera在人工智能进化中扮演什么角色?
凌琦认为,人工智能并不是一个新的话题。对比人工智能的进化,主要体现在以下两方面:第一,计算能力提升了;第二,更重要的是大数据的支持。通过机器学习的模型,投入大量的数据进行培训和训练,最后形成一个在实际的应用环境当中可以使用的模型。
同时,机器学习也产生了变化。第一是计算成本的降低;第二是整个数据量的增加。
毫无疑问,人工智能需要大量的数据。数据获取、实时分析处理、数据生命周期等方面都需要进行管理。有了这些数据之后,数据科学家运用各种各样的分析和人工智能的模型进行机器学习的训练和模型的验证,这是一个循环的过程、不断在改进的过程。最后,把它应用到生产环境当中去。
在凌琦看来,应用到生产环境包括对生产环境的实时管理和运维,以及通过对生产环境当中所取得的数据的离线分析,再一次丰富数据、改变它的模型。看整个过程能够发现,如果仅仅谈到人工智能,其实很大程度上是在于机器学习和分析。
对于整个流程,企业需要很大程度上在数据准备以及最后的运营管理部分投入。一个能够支持机器学习和人工智能的好的平台,必须要满足这些功能:各种环境下的支持,包括公有云和私有云的支持;以及良好的扩展性,即有很好的弹性;成本、以及安全性和运维的支持。从这个角度看,Cloudera的数据管理平台,从提供数据、到管理数据再到清理数据,实际上Cloudera为人工智能、机器学习提供了一个很好的运营环境。
除此之外,人工智能对于Cloudera来说,不仅仅是机遇,根据凌琦的介绍,Cloudera在该方面已经全方位布局并取得了进展。
目前,Cloudera的业务包括三块:一是以开源为基础的软件平台,称为CDH;第二,我们的专业服务;第三,我们的培训业务。
Cloudera的核心业务为软件业务,占整体业务收入的80%有余。Hadoop上的机器学习的平台,需要管理更大的数据,能够在一个完整的平台上使机器学习充分利用所有的数据,而不是一个分散的竖井式的数据对象。可以看到,现在整个平台所能够管理的规模越来越大,安全性越来越好。
第二,在机器学习上,大量使用新的分布式计算引擎Spark。Spark是现在在机器学习过程当中一个非常重要的计算引擎,当然也还有其他的一些计算引擎。Spark在Hadoop领域里面是最重要的机器学习引擎,在这个部分,Cloudera现在是最大的贡献者,同时也是最早把Spark引入到整个Hadoop平台当中,进行全面支持的厂商.
第三,开发了“数据科学工作台”(Data Science Workench)。它可以在一个电脑上能够充分使数据科学家大量地直接使用Hadoop里面的数据,而不是像过去只取一个子集。这一平台既满足了数据科学家对使用完善的环境进行编程,结合Spark、Hadoop和深度学习框架(比如TensorFlow、BigDL)的需求,也满足了数据的管理者对数据存储集群的安全、稳定和可靠性的工作要求,这是Cloudera目前的贡献和主要的进展。
专注行业用户需求,做开源领域领导者
基于开源技术的公司,其在开源社区的地位直接决定其技术实力以及未来发展前景,而Cloudera作为Hadoop开源社区的领导者,在这方面无疑占据优势。
凌琦表示,通过Spark,Cloudera将技术直接贡献给开源社区,同时也从开源社区获得我们希望的技术思想。
“开源社区发展的非常快,Cloudera要做两个事情:第一,贡献;第二,也把开源社区的东西真正用到商业领域里面,这之前需要整理、认证、打包,使它在商业环境里面能得到很好的应用和支持。开源社区相对比较松散,要让里面的东西得到7×24小时的支持,让商业环境里面的厂商能够直接使用,这里有很多工作要做,这是Cloudera要做的工作。”凌琦说。
在笔者看来,未来在品路线图上,Cloudera会继续专注于打造和演进平台,这是一个跨越行业的横向非常宽广的平台,能够尽可能多地去满足各行各业的需求,这是Cloudera的专注点。与此同时,要能够为每个客户更好地去服务,Cloudera也非常注重解决方案的垂直行业化。
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » 从开源贡献和人工智能两层面聚焦Cloudera中国区市场发展