百度大数据开发套件
2018年10月18-19日,第二届中国国际大数据大会在京盛大召开,百度大数据部应邀在会议上进行发言。大数部高级产品经理赵乔在会议上介绍了百度的大数据开发基础套件-鲁班,并与参会者深入讨论了鲁班在智能工业大数据方面的应用。
鲁班,是百度大数据部门研发的大数据开发基础套件,包含组件有数据采集传输Minos、数据工厂Pingo、数据仓库Palo、搜索分析Elasticsearch、数据科学平台Jarvis、数据可视化Sugar以及数据治理平台Dayu,覆盖了从数据采集传输、数据处理、分析、挖掘等大数据应用开发的全流程。
鲁班各子系统服务于百度内部各业务线多年,单日处理数据量可达PB级,其功能、性能、稳定性经过了充分考验和验证,在业界具备领先性。例如:
l 数据传输Minos
ü 传输介质多样性
可以方便的进行多种介质间数据传输,降低数据中转的开发、维护成本,提高传输效率
ü 传输模式丰富性
除了支持批量和流式的传输,用户还可以直接订阅源端数据,满足实时计算的需求
ü 传输可管理性
提供统一管理平台,进行日志创建与管理,可以同时监控多个数据传输的状态
l 数据工厂Pingo
ü 自动化的集群管理能力
秒级创建新计算集群,支持动态扩容和缩容,有效降低成本,提供快速、简单、可扩展的实时数据仓库
ü 统一的数据处理系统
支持流式、批量作业,降低了开发和维护成本;同时支持交互式和例行查询,交互式数据调试之后可一键将作业例行化
ü 良好的易用性和兼容性
Spark处理引擎,支持Java、Python、Scala编写的第三方或者本地代码,ETL编写简单易用,支持多种数据源的外部数据访问
l 数据科学平台Jarvis
ü 交互可视化
提供引导式的数据挖掘过程操作,提供Notebook交互和表单交互方式,协助开发者提高建模效率
ü 特征和模型仓库
以类似表的方式管理特征和模型;提供简洁的多语言API;支持多级命名空间、分组和版本管理;
ü 模型算法和增强服务
集成了PaddlePaddle、Tensorflow等优秀的深度学习算法框架,内置时序处理预测、时序异常检测、知识图谱等丰富的算法库,方便开发者处理各种类型数据
l 数据仓库Palo
ü 性能卓越
PB级数据查询,毫秒级快速响应,且具备高稳定性,在业内属于领先水平;
ü 兼容性强
兼容MySQL协议(ODBC/JDBC),可与Qlik、Tableau、Saiku等BI工具无缝对接;
ü 配置灵活
可以按需配置实例数,在线进行高自动化扩容缩容,灵活调整,有效降低成本;
ü 安全性高
客户具有高控制性、高私密性;拥有独立环境,并且对于环境高度自主
l 搜索分析Elasticsearch
ü 简单易用
提供HTTP RESTful接口,可以通过任意的HTTP客户端访问集群,兼容性优良,易用性高;
ü 高可用
数据、元数据多副本存储,宕机期间不影响查询服务,机器故障副本自动迁移;
ü 超高性能
百度大数据专家团队,基于内部应用经验,深度优化集群性能, 在业内保持性能领先地位
l 可视化报表Sugar
ü 数据探索
支持公式、字符模板等对展示数据做计算和转换,图表数据支持导出,方便离线分析
ü 丰富的图表展现
拖拽编辑可视化图表,多种图表组件,多种样式主题可选,支持文本编辑、插入图片资源
ü 多类型数据配置
直连MySQL、SQL Server、GreenPlum、Palo等多种类型数据源
ü 数据隔离
支持基于角色、用户的权限管理,以及空间的数据隔离,数据安全性可保障
l 数据治理Dayu
ü 联邦式数仓管理
数据资产全面统一视角,各业务数仓数据无需集中导入到中心数仓,只需在元数据层面统一,实现了数据集中管理,集中访问,降低了数据管理,解决数据一致性问题。
ü 元数据支持查询
支持查询引擎(比如spark、hive等)访问,提供了高可用、高吞吐的性能支持。
ü 数据安全
通过权限、审计、加密、脱敏、隔离等方案,严格执行数据安全流通标准,对内达到数据安全4A认证标准,对外达到了“三级等保”的技术要求。
会上,百度高级产品经理赵乔围绕着工业智能场景,详细阐述了基于鲁班套件从数据收集、到监测模型训练、到预测模型部署、到可视化实施监控车间工作健康状态整个实施过程,数据智能对工业效率的影响引起全场共鸣。