搭了数据中台怎么用?AI+BI 让数据产生价值
编辑导语:数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018年因为“腾讯数据中台论”再度成为了人们谈论的焦点。如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。本文就数据中台展开了讲解,说明了数据中台的应用方向和具体用法。推荐对数据中台存在疑惑的同学阅读。
数据中台主要应用方向有传统BI、敏捷BI、可视化大屏、AI等四个方向。
一、传统BI
商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。
商业智能的概念在1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。
传统的BI主要用户是管理层,应用场景倾向于辅助商业决策,因此更多的采用固定格式的报表或者仪表盘,然后定义一些固化的粒度,实现下钻和聚合。由于有固定的格式、固定的钻取方向,因此一般采用星型模型或者雪花模型实现。而不管是星型模型还是雪花模型,构建模型的关联关系都是一个复杂的工作,一般都需要通过报表自带的客户端软件进行模型的设计,包括表的定义、表的关联关系、指标和维度的区分、指标的汇总方式等。
1. 传统BI应用案例
提供传统BI的商业化产品主要有Oracle BIEE、IBM Cognos、SAP BO、Microstrategy等。
传统BI主要有以下缺点:
(1)成本较高
传统BI解决方案基本是两种思路一种是大数据一体机、另外一种是分布式数据仓库。但是,大数据一体机的总体拥有成本高,大多数企业都无福消受,而分布式数据仓库按流量收费,使用成本不菲,1TB的数据可能就需要几十万。这样的大数据产品,大幅提升了BI应用的整体拥有成本。
(2)工作负担重
传统BI的报表制作需求会由业务部门提交到IT部门去实现,且每个新的需求都需要重新建模开发,无论是业务部门还是IT部门都增加了工作负担。
(3)实施失败率高
据不完全统计,在企业实际的应用中,BI的实施失败率高达70%。
(4)部署周期长
传统BI产品的部署和实施往往需要几个月时间,需要进行整体的架构设计。这样的部署周期在日新月异的商业环境下更显尴尬。
二、敏捷BI
随着Tableau工具的面世,打破了传统BI的建模思路,整个BI领域走向敏捷化。敏捷BI最大的特点是不再拘泥于数据模型,而是更加侧重和倾向于基于SQL实现复杂的报表逻辑。传统的BI建模虽然也提供SQL的实现方式,但是并不是平台的推荐和首选。以Tableau、FineBI、永洪BI为代表得BI新兴势力,都把SQL放在一个核心位置,报表的模型关联仅仅通过页面的简单操作即可实现,数据模型变成报表或者自助分析的一部分,而不再是两个分开的主体。采用敏捷BI的模式,不同的报表或者自助之间进行了隔离,不会再出现多个报表或者自助共用一个数据模型,导致变更互相影响的情况。
敏捷BI的另外一个显著特点是提供了自助分析和业务自行定义报表的功能。传统的BI认为,业务人员只需要了解业务的逻辑即可,在一个复杂底层逻辑的基础上,业务人员无法很好地完成报表自定义,因此在这方面比较欠缺。
利用敏捷BI工具,即时没有任何SQL基础,也能很容易上手,轻轻松松画出漂亮的报表,大大降低了BI的使用门槛。敏捷BI是对传统BI的一次革新。
和传统BI相比,敏捷BI主要有以下显著优点:
(1)成本更低
传统的BI工具授权费用高,后期运维费用更是大部分企业无法负担的水平;同时其支持的数据库连接又非常有限,导致必须使用Oracle、DB2、SQL SERVER等商业授权数据库,进一步提高了项目成本。
(2)兼容性强,支持多种数据源
一般的敏捷BI工具都支持连接多种通用数据源,如关系型数据库(MySql、Oracle、SQL Server等)、文本数据源(Excel、CSV等)、大数据分析引擎 Kylin、Impala、Hive、Presto、基于OData协议的扩展接口以及Restful API数据源等。敏捷BI提供直观的可视化界面,简单填写配置参数即可快速连接数据源。
(3)自助式探索式数据分析
自助探索式数据可视化分析,通过主动式的企业数据分析模式,它能够让业务人员直接参与数据分析,无需专业分析团队,业务人员可以直接通过简单拖拽进行数据可视化分析。自助式探索数据分析以及成为了敏捷BI的核心。
(4)高级数据可视化
敏捷BI工具一般都提供丰富的可视化图表。以DataViz为例,DataViz提供60多种数据可视化效果,支持弦图、热力图、南丁格尔图等高级数据可视化,更支持基于地图的轨迹、热力等可视化效果。
(5)多终端自适应展现
通过敏捷BI制作的数据分析报告,只需制作一次就可以在桌面、手机、大屏等多终端上自适应展现,而不需针对多个终端进行单独设置。
总之,敏捷BI投入成本更低、更加平民化、更加易于操作,可以让更多的企业客户能以较低的投入享受到最专业的数据分析服务。帮助企业用户快速准确地洞悉数据背后隐藏的商业价值,让企业决策更“有据可依”。
三、可视化大屏
很多人最开始认识大屏,是从新闻联播里面开始的。早期的大屏主要出现在一些大型政府单位、航天企业等。例如航天部门发射火箭的时候。伴随着阿里的“双十一”盛典和云栖大会的推广,这种蓝色背景、页面简洁、富有科技感的数据展现形式开始逐渐走入各个普通企业。
传统的BI项目实施也会附带一些管理驾驶舱之类的图形化页面,但是可视化大屏重新定义了管理驾驶舱,通过技术手段的升级和展现形式的变化,带来强烈的视觉刺激。可视化大屏不再满足于电脑浏览器页面的图标展现,而是采用一整块超大尺寸的LED屏幕来展示关键数据内容,给人一种大气磅礴的感觉。
1. 2015年双十一大屏
可视化大屏就是一套自主分析系统解决方案,为企业提供的是直接的呈现结果,让业务人员和企业决策者直观面对数据背后的信息。
可视化大屏主要有以下优点:
- 「大面积、炫酷动效、丰富色彩」,大屏易在观感上给人留下震撼印象,便于营造某些独特氛围、打造仪式感。
- 可视化大屏展现的数据简单明了,就是管理层和大家公认的最核心最重要的业务指标。
- 可视化大屏一般需要配合实时数据,来实现动态刷新的效果。
可视化大屏作为企业的门面,越来越受到科技部门的重视。可视化大屏可以很容易的将结果展现给高层领导,让高层领导重视IT的产出,提升对IT部门的重视程度。由于利用其面积大、可展示信息多的特点,通过关键信息大屏共享的方式可方便团队讨论和决策,所以大屏也常用来做数据分析监测使用。
四、AI中台
数据中台除了提供数据平台本身的两大能力(数据存储和数据计算)以外,还提供了更高级的能力,就是把数据变成一种基础服务提供给业务方,业务方可以以自助的方式在数据中台上获取数据,进行数据处理、数据探索、数据挖掘、分析钻取、多维分析、自助化报表、数据分享等,以快速的实现自己的商业价值。
引用董超华《数据中台实战》一书中的一个重要论点——搭建数据中台的最终目标就是帮助企业实现数据智能。那么,什么是数据智能能?数据智能是指基于大数据引擎,通过大规模机器学习和深度学习等技术,对海量数据进行处理、分析和挖掘,提取数据中所包含的有价值的信息和知识,使数据具有“智能”,并通过建立模型寻求现有问题的解决方案以及实现预测等。
我们以生活中最常见的百度地图导航为例。在没有地图导航功能之前,我们到一个模式的地方,只能通过路标和想路人问路来找到目的地。有了地理信息数据和道路交通信息以后,我们开始有了初步的导航功能,通过百度地图来规划线路,这样我们就可以通过手机来寻找目的地。
再更多的人都是用手机导航以后,百度地图可以记录用户的线路、道路的交通情况,综合这些提供更加完善的导航服务。用户借助百度地图导航是在产生数据,同时百度地图综合用户的数据分析出道路状况以后给用户规划新的、更快的线路,则是通过数据智能来实现出行预测,让数据产生了智能,反哺用户。
数据智能的标志就是由机器代替人工决策。在上文的导航案例中,道路的规划没有人工参与,用户数据的汇总也是有机器自动完成,整个导航形成一个数据智能应用的闭环,这就是真正的数据智能。
当然,能完成数据智能闭环的业务场景还很少,大多数场景下我们还在摸索数据智能的方向,因此需要做很多的尝试。随着业务场景的构建,越来越多的智能化数据需求被提出,这些智能化需求涉及到模型训练、数据标注、特征工程、模型部署、性能监控等,需要使用机器学习、深度学习等算法支持。数据中台的主要目标还是服务数据,对于智能化和模型并不能很好地支持,因此 AI 中台应运而生。
“我们把智能服务的需求抽象出来,形成一个独立的 AI 中台层。AI 中台是一个用来构建智能服务的基础设施平台,对公司所需的模型提供了分布分层的构建能力和全生命周期管理的服务,鼓励各个业务领域基础性、场景性、通用性的 AI 能力沉淀到平台中,加强模型复用、组合创新、规模化,最终实现降本增效和快速响应业务方。”
数据中台和 AI 中台两者是相互依存,承前启后的关系。
数据中台和 AI 中台两者都对外提供服务,只是侧重点不同:数据中台提供各种数据服务(BI 报表应用、数据探索等),AI 中台提供各种智能服务(模型预测、智能推荐等);
AI 中台依托数据中台提供的数据能力和工具集,加速 AI 相关服务的开发和复用,来应对前台智能业务需求。
有了数据中台清洗好的数据,搭建智能项目事半功倍;数据中台也需要使用 AI 中台的智能化能力使得数据使用更加平民化和智能化。例如增强型BI 分析:通用自然语言交互方式,降低 BI 使用门槛;通过 AI 分析给出参与建议,帮助普通用户在没有数据专家的情况下有效访问数据;增强型数据管理:利用机器学习来管理数据,包括数据质量、元数据管理;主数据管理等。
在“以用户为中心”的思想指导下,企业需要快速响应、挖掘、引领⽤户的需求,借助平台化的力量可以事半功倍。中台将前台业务中相对稳定的能力固化和沉淀下来,并共享给有需要的其他业务方使用,从而实现快速响应业务需求、降低成本和支持业务方进行规模化创新。
以数据中台为例:
业务领域组数据团队需要紧急制作一批报表,不希望排期,部分报表需要T+0 时效性。数据来源是异构数据库,对数据时效性要求很高,需要对数据处理后并展示报表。使用数据中台,业务方不需要关心数据的异构性,无论是实时数据还是批量数据,只需要懂 SQL,业务方都可以在数据中台上申请数据,自助地写 SQL 进行处理数据清洗、数据处理,最后,通过配置和写 SQL 生成自己需要报表,不用等排期,完全自助快速完成。
AI 中台为例:
AI 中台的智能聊天机器人平台,对接第一个业务方是从零开始,从研发平台、模型研发、数据对接、到使用上线第一期,花了 6 个月的时间,第二个业务方享受到平台的优势,直接导入数据,进行验证和对接后,4 个月实现上线第一期,之后的业务方更快,2 个月上线,最近的一个业务方达到 3 周就上线的速度,体现了平台的复用性带来的便捷和快速响应业务方需求的能力。
纵观这次人工智能的浪潮,可以说是算法、大数据等技术和硬件多方面的因素促成的。一方面算法层面有了进一步突破,更重要的是大数据相关技术的成熟,使得数据的获取变得容易,大数据计算变得可能,以前许多不可能完成的事情,现在可以通过大数据的算力来进行学习和训练。
再结合现在 GPU、AI 芯片以及传感器等硬件技术,使得需要大规模计算的深度学习训练可以完成,这些都直接导致了AI应用的快速落地和到处开花。
以互联网 AI 应用为例,互联网巨头是使用大数据标注并落地 AI 应用的最早受益者。AI 最早应用在搜索引擎(Google、百度)、广告系统(Ebay)、电子商务网站(阿里)等,它们都是大数据的产生方和使用方,然后是在拥有大数据流的社交平台(Facebook、腾讯),到现在使用大数据技术在垂直细分领域做个性化推荐平台(头条、快手)。一方面大家在使用这些互联网平台,另外一方面大家也在进行免费的大数据标注。
以商业 AI 应用为例,商业机构通过激活已有的大数据,并结合 AI 算法创造商业价值。医疗机构通过已有病历实现疾病诊断/鉴别、个性化治疗/行为矫正、临床决策支持系统、流行病爆发预测等, 金融机构通过已有交易数据,进行大数据风控、个性化营销、智能投顾、智能投研等。这些都是大数据与AI紧密结合的产物。
以实体世界 AI 应用为例,通过获取实体世界的数据,实现智能化,带来新的应用、新的商机。
通过大数据、AI与汽车行业结合,诞生了自动驾驶、路径规划、实时路况、危险预警等应用;大数据与商业零售结合,收集海量顾客信息,结合 AI 技术,用于精准营销、店铺选址、库存规划、个性化服务等。大数据、AI 技术与智慧城市、智能安监、环境治理、教育等诸多领域结合后,都带来了大量新的应用和商业机会。
因此,无论是传统的数据挖掘、还是机器学习、深度学习,所有的模型都离不开大量的数据,可以说数据是 AI 应用的养料和土壤,而数据采集、规范、使用都离不开数据中台的建设。一个很形象的比喻,数据中台是数据的家,而AI中台则是数据的学校,通过数据中台和AI中台的合作,最终产出一个成熟的成功就是数据智能应用。
本文由 @国云数据 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。