Strata硅谷峰会的这家中国公司,展示了令人意想不到的黑科技
当地时间3月7日,全球瞩目的大数据盛会——Strat DataConference 2018在美国硅谷如期上演。Strata大会由O'Reilly Media和Cloudera联合举办,被《福布斯》杂志誉为“大数据运动的里程碑”。会议聚焦于数据、机器学习及分析数据如何改变 商业 和社会本身,吸引了大数据、人工智能领域最具影响力的产业决策者、数据科学家与架构师等参会。
随着中国对外开放进程的愈加深入与 经济 实力的不断增强,中国的企业越来越多地参与到国际市场的竞争当中。在本次Strata硅谷峰会上,总部位于北京的柏睿数据,凭借他们拥有核心自主产权的大数据分析产品,吸引了来自世界各地参展厂商与大数据专家的广泛讨论。
据了解,柏睿数据是国际领先的大数据分析产品提供商,其自主研发的分布式全内存并行数据库、流数据库、以及数据库内人工智能并行算法库在性能上是甲骨文等欧美厂商的数百倍。其中,新版库内人工智能并行算法库(Rapids Parallel R)的发布,融合了基础层的数据库技术与人工智能技术,支持包括统计分析、集成算法、深度神经网络算法、降维在内的四大类数十种具体算法,成为了展会上令人意想不到的黑 科技 。
亮点一:易用性
传统机器学习与深度学习的实施是一个复杂的过程,需要耗费大量人力与物力。而人工智能并行算法库可以在SQL查询中以极其简洁的方式,直接解决参会业界人员提出的各类从 金融 合规到零售分析等问题。
这样的突破性设计收获了与会专家的一致好评,部分参会代表当场表示柏睿数据的功能超越其正在使用的内存数据库产品,他们有意向用柏睿数据的产品取代该产品。
亮点二:支持海量数据的机器学习与深度学习
在海量数据的条件下,库内人工智能并行算法库(Rapids Parallel R)能够直接在内存数据库内进行R建模运算,为用户省去了繁琐数据加载和清洗的过程,降低时间与管理成本,并赋予企业智能分析决策的能力。
“对标测试中,针对查找相似用户的应用场景,通过对397万行数据的计算当中,传统的机器学习与深度学习用时为82.2分钟,库内人工智能并行算法库的完成时间是4.49分钟,效率提高近20倍。另外,库内人工智能并行算法库在CPU的使用效率也占据更高的优势。”柏睿数据SQL/Hadoop研发总监James Ma(马珺)表示。
亮点三:并行架构的性能优势
全内存并行架构使人工智能并行算法库(Rapids Parallel R)摆脱了单台计算的限制,理论上可进行无限制扩展,从而使其的数据运算与处理速度有了跨越式的提升。
传统的R是这样使用的:
用户只能使用物理机上的有限的CPU和Memory,无法对计算资源进行扩展,处理的数据量也有所限制。
Rapids Parallel R的使用方式:
用户使用是一个可线性扩展的Rapids Parallel R分布式集群,打破了计算资源的限制。
优点:
线性扩展的计算资源
大数据的运算
运算性能的提升
成本的降低
RapidsDB的集成
人工智能并行算法库的创新性与突破性设计,让柏睿数据在Strata硅谷峰会上收获了众多客户的合作意向。 三星实验室(Samsung Lab NA)有意用人工智能并行算法库替换当前使用的产品;Visa与Wells Fargo将在金融欺诈与合规客户与柏睿数据展开洽谈;而沃尔玛实验室WalmartLabs则期待其在零售分析方面发挥成效。
“人工智能与数据库的融合,将是未来大数据发展的重要方向。”柏睿数据董事长兼CTO刘睿民先生在谈到库内人工智能算法库时说,“人工智能与大数据密不可分,因为现在主流人工智能算法用的都是深度学习,而深度学习是结构化大数据驱动的AI方法论,结构化的大数据中蕴含了知识,深度学习的作用就是从中把知识提取出来,正是这种紧密相关的联系,让库内人工智能并行算法库有了实现的基础。据悉,在提案通过了流数据库国际标准后,柏睿数据还讲就库内人工智(AI-in-Database)能向国际信标委提出议案。
这是柏睿数据第二次参加strata硅谷峰会,硅谷也是柏睿数据研发中心的所在地之一。从创建之初,柏睿数据就开始了全球化的布局。相继在国内的广州、武汉,国外的硅谷、悉尼、新德里等地创建研发实验室,利用世界各地的先进科技与顶尖人才,为政企提供强有力的大数据分析产品。