大数据的布局和思考 为发力人工智能
某著名综合性网上购物商城,拥有几十个大类,数百万种商品。其IT系统采用自建IDC的物理机部署,每天数TB的增量数据需要及时处理。尤其是在电商大促期间,对于IT资源需求爆增,如果购买设备势必造成大量资源浪费。这样的场景是不是很常见?
首先,该网站通过直连专线打通了数据中心和金山云数据中心。通过金山KMR服务快速创建Storm和Kafka集群,搭建实时数据处理系统。数据处理结果写入MongoDB服务,线上业务通过专线访问,有效缓解促销期间IT系统的压力,大幅减少系统维护工作和资源拥有成本,并且可以根据业务需求灵活调整资源配置。
这里提到的KMR正是金山基于英特尔架构的金山云托管Hadoop解决方案,也是双方在数据分析与人工智能领域的创新合作成果。KMR的推出也标志着金山云在人工智能领域迈出的重要的一步。
大数据的布局和思考
近年来,“互联网+”战略的提出推动了企业的转型升级,加速了云计算快速由“建设期”向“普及期”进行过渡,也催生了企业更多以精准定制、数据预测为代表的数据分析需求。而作为互联网+发展的基石,云计算不仅能够有效降低成本、提升效益,还可以支持大数据存储和处理的需求,为企业产生的大数据提供精准分析和弹性计算能力。依托云计算平台,可以有效破解大数据处理中最主要的挑战,即数据分析平台的管理(包括安装和操作管理、对于多种工作负载的动态分配数据处理能力,以及从多个来源收集数据进行整体分析),更加灵活方便地收集和管理数据。
为此,英特尔与金山云将其战略合作由云计算解决方案的构建进一步延伸到数据分析领域,金山云KMR应运而生。该解决方案采用基于英特尔至强E5 v4处理器产品家族的硬件平台,是一个可伸缩的通用数据计算和分析平台。它以Apache Hadoop和Apache Spark两大数据计算系统为基础,通过自动调度弹性计算服务(KEC),能够帮助企业用户快速构建分布式数据分析系统。此外,结合金山云所提供的多种云服务产品,还可形成端到端的数据分析处理解决方案,进而帮助用户更加灵活方便地收集和管理数据,花费更低的成本,获得更高的数据可靠性。
抢占人工智能,数据分析是基础
对于金山云来说,人工智能将成为新的“风口”,这里蕴含着巨大的机会和众多的可能性。金山云已经将云服务和数据分析能力大规模应用于人工智能领域作为战略目标,更希望能在人工智能领域扮演重要角色。
事实上,金山云在人工智能领域的应用,有着很好的用户和技术基础。金山云积累了游戏、互联网医疗等众多行业用户和数据,也是国内最大的游戏云的平台。在技术方面,金山不仅有为用户深度构建云计算解决方案的丰富经验,而且基于国内最大的商用存储平台在数据分析领域也颇有建树。
而英特尔的观点是通过硬件革命使大数据架构革新成为可能,它也让计算集群和存储集群分离成为可能。
“数据上云,要考虑的是计算+网络+数据三方面的结合。三者同步这涉及到机器学习和大数据处理两方面的诸多复杂技术问题。比如,机器学习方面的模型、训练、精度问题,还要考虑大数据处理方面的分布式存储、并行化计算、网络通讯、局部性计算、任务调度、容错等诸多因素。数据本土化是数据分析的关键,而通过英特尔革新的硬件架构,可以让网络速度变得更快,存储性能有1000倍的提升等等。”金山云大数据和AI技术总监张东进,在记者的采访中如此谈数据上云。
金山云大数据和AI技术总监张东进
离线数据处理是最常见的Hadoop应用场景,通过金山云与英特尔在机器学习、深度学习领域里的合作打造出来的KMR,用户则可将原始数据上传到KS3或者集群HDFS文件系统中,通过控制台或者API来执行批量的离线处理作业。”
金山云技术产品部高级产品经理杨亮也具体谈到“:流式数据处理逐渐成为大数据的热点,例如网站流量统计或游戏在线玩家数据,需要在不同粒度上对不同数据进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较为复杂的统计需求。而KMR提供了分布式消息队列Kafka,流式数据处理框架Storm以及Spark Streaming,可以轻松应对实时的数据处理需求。“
金山云技术产品部高级产品经理杨亮
大数据处理过程,涉及的技术和产品比较复杂,对大数据的运维和后续的保障的问题,对企业来说都是需要的考虑的因素。
用英特尔相关专家的话来说,上面提供大脑,下面要提供轮子。大脑和轮子要流畅运转,英特尔需要与金山云的合作去做各模块的优化,比如计算资源池、网络、块存储、对象存储、其他特性的应用模块等。
因此,建立与人工智能这一大趋势相匹配的核心资产(算法、大数据、计算资源),帮助客户解决基于数据应用的需求,并从中获取发展人工智能技术所需的宝贵经验,就成了打造金山KMR的初衷。
能够为行业客户提供高性能、易部署的大数据云处理平台,是KMR这一解决方案十分重要的价值,也是它的竞争力所在。概括来说,KMR具备四大优势:一是完全托管,集群分钟级快速部署;二是性能优化,大数据分析即时响应;三是生态生富,云服务产品深度整合;四是弹性伸缩,企业TCO有效减负。
目前,KMR已为分布在电商、游戏等行业的10多家客户采用。