一张图搞懂美国大数据产业(下)
第二部分:数据处理
最近,福特汽车的数据专家迈克尔·卡瓦雷塔在纽约时报上提到了数据专家在日常工作中面临的挑战。卡瓦雷特说:“我们真的需要更好的工具来减少处理数据的时间,来到达‘诱人的部分’。”数据处理包括清洗数据、连接数据并把数据转化成可用的格式;“诱人的部分”则是数据预测分析和建模。前者有时被称作是“看门的工作”,可见前后两者哪个处理起来更有乐趣了。
在我们最近的调查中,我们发现数据专家需要实打实地花费80%的时间来处理数据。数据专家的工资如此之高,可进行数据处理的公司还那么少,实在令人惊讶。
在上一部分中,我提到结构化数据库起源于财务或经营要求,而非结构化数据库则是被数据专家推动发展的。数据领域的发展过程也是如此。结构化数据库是一个很成熟的行业了,有足够的工具形成金字塔供财务和经营人员使用。然而对于需求更加灵活的非结构化数据库,则需要一套新的工具供数据专家使用。
先从我熟悉的领域说起吧。
数据强化
我把数据强化分为“人工的”和“自动的”两类,但实际上两者都需要人和机器的参与。人工数据强化是把所有的原始数据都用人工转化,不过这需要大量的电脑自动化来保证其可靠。同理,自动数据强化通过许多规则和脚本来转化数据,但是需要人工来设立和检查这些规则。
人工数据强化的基础在于,有些任务确实人做起来比机器更简单。比如图片识别吧,人类可以轻易看出一个卫星图片是否含有云状物,可机器识别起来却十分困难。
语言则是另外一个人工数据强化派上用场的地方。自然语言处理的算法可以做很牛的事情了,不过仍然没有办法像人那样区别挖苦讽刺或粗话。所以你会看到PR公司和营销人员都会人工来分析这些情感。
人工数据强化还可以用来训练搜索算法,而且人能比机器更好地阅读和收集完全不能比较的信息。再次强调,这需要任务被设立好,软件能做很好的质量控制。但是如果能有数以千计的人,协力一起来做人比机器能完成得更好的简单任务,你就能以极快的速度来完成数据强化。 CrowdFlower和WorkFusion,以及部分Amazon Mechanical Turk都在做这部分的工作。
自动数据强化和人工数据强化的目标相同,但是是由机器(而不是人工)通过脚本来把原始数据转换成可用数据。正如上文提到的,你还是需要一个厉害的数据专家来输入那些信息,并在转化完成后检查。如果数据格式统一,自动数据强化还是很强大的。只要有好的脚本,含有少量错误和不完全连贯的数据几乎能立即转换成可用数据。
自动数据强化甚至能够有效地清洗数据,只要这个过程不需要人参与。从规定姓名和日期格式等简单任务,到从网络上有效抓取元数据等复杂任务,都是自动数据强化的典型例子。Trifacta、Tamr、Paxata和Pantaho 等都提供了很好的自动化解决方案。公司们都希望能够把一些宝贵的时间还给他们的数据科学家,因此自动数据强化也是正在快速发展。
ETL/混合
举个例子,比如说你有一个财务数据库,包含了你的消费者、支付金额和购物种类明细,并被储存在一个地方。而你同时还有另一个数据库包含了消费者地址。ETL/混合领域的工具帮助顾客把它们合并成一个单一且可用的数据库,由此数据专家便可以探索一些新的方面,比如某个特定商品在哪个地区消费最多,或者哪个地方会是你的目标市场,等等。
以上只是一些简单的例子;实际情况可能复杂得多。不过基本上每个数据专家的日常工作中都包含了数据混合。通常数据来源不同,格式也会不同。如果需要一览全面信息,混合整理这些数据源是必不可少的。
Alteryx、Aster a 、CloverETL 和etleap 都开发了可以混合这类数据的软件。而ETL虽然早在结构化数据库出现之时便有了,但由于越多数据源也意味着更多的格式不一,ETL的重要性现在越发显现出来。无论何种数据分析,大数据的前景都依赖于全局与细节分析的全面结合。
数据整合
回想一下我在上一部分提到的第三方数据云应用,是如何全面覆盖销售和营销数据,以及社会研究和邮件管理的。怎么才能把这些应用都合并到一个可用的数据集,让数据专家可以据此做预测分析呢?ClearStory、Databricks 和SnapLogic 等软件便可助你实现。
Informatica 已经从事数据整合多年,并获得了超过十亿美元的收入。我虽把它放在了数据整合的部分,但它其实对数据处理的各个领域都有所涉及。微软也提供了两项数据整合服务:Azure数据工厂和SQL服务器整合服务。
类似于ETL/混合工具,数据整合项目主要是混合数据生态系统图左边的数据,使其可以通过图中右边的软件建模。也就是说,数据整合工具(如Apatar 或 Zoomdata),可匹配来自云应用(如Hootsuite 或Gainsight)的数据,让你通过Domo 或Chartio 获得商业智能(BI)。
应用程序界面(API)接口
这些工具一旦用对了地方,是很好很强大的。从一个没什么技术含量的例子说起吧,IFTTT 应该能帮大家理解API接口是怎么一回事。IFTTT 表示“如果这样,则那样”(“if this, then that”),人们通过它,可以把发到Instagram的图片马上保存到Dropbox或发上Twitter。IFTTT就是一个非数据的专家在协调在线工作时使用的API接口。我把这个例子包含进来,是因为许多数据专家也会在私底下或工作中稍微使用到它。
Zapier 和IFTTT类似,不过着重于商业应用,所以也更受数据专家欢迎。
MuleSoft 则是一个能把所有商业应用都连接起来的接口。比如说一个用户登录你的网页,谁需要知道这个信息?你的销售团队需要这个信号吧?你的运营团队需要知道那个用户什么时候再次登录吧?营销部门需要知道他们的邮件营销活动的成果吧?一个简单的API接口就可以同时触发这些通知了。
最后,Segment.io 能把你的产品连接到许多这个生态系统图左边的SaaS商业应用及其他应用。
API接口的存在,正是因为数据专家要使用数据生态系统中的那么多工具来混合和整合数据,可是这些工具又不是全部为数据专家设计的。
开源工具
用于数据处理的开源工具,远比用于数据存储和数据分析的少。Google开源了他们非常有意思的open-refine项目。多数时候,公司会在Python上建立他们自己的专属工具;而 Kettle 作为一个开源的ETL工具,用户也越来越多。
第三部分:数据应用
还记得我在第二部分开头的引用吗? 关于数据专家想要更好的数据处理工具,让它们可以直接处理“诱人的部分”那句话。好的,在介绍了数据存储方式,数据清洗和整合,我们终于来到这一步了。数据应用正是这个“诱人的部分”,包括预测分析、数据挖掘和机器学习等等。到了这个步骤,我们将会用上这些所有的数据,做出惊人的东西来。
大体上,我把这一列拆分成两个分支:数据洞悉和建模。数据洞悉是你从数据里得到些东西;而建模则是你通过数据建立些东西。数据专家用它们来解释过去和预测未来。
我们先从数据洞悉谈起。
数据洞悉
统计工具用于专门的分析,数据专家可用它们来做回归分析,并把数据视觉化成一个人们更容易消化的模式。提到统计工具就不能不提微软的Excel了,数据专家、分析师以及使用电脑的每一个人都在用它。虽然有明显缺陷,但是Excel还是数据专家最好、最原始和最强有力的工具之一,他们用Excel做了很多厉害的事情。事实上,CrowdFlower的最新数据科学工具调查中我们发现,Excel仍是数据专家们使用最多的工具。
除了顶梁柱Excel,还有很多其他统计工具。R语言 就是一个很受欢迎的数据分析工具,里面还包含了一个巨大的开源统计包。Tableau 则是一个很好的数据视觉化程序,被商务、学术和媒体人士广泛使用。Mathworks公司的Matlab是一个自有的工程平台,用户不仅能用它创建图表,还能建立和优化算法。SPSS 和Stata 都已存在了几十年,被用于大批量数据的复杂分析。
商业智能本质上是用于创建干净的互动界面系统报表(Dashboard)和提取指标的统计工具。它们把复杂的数据翻译成易读易懂的形式,那你公司里的非技术人士也能看明白了。互动界面系统报表(Dashboard)能把重要的数据浮上来,非数据的专家也能基于自己的经验使用这些数据。Gartner把这个定位为一个140亿美元的市场,老牌大牛 SAP,Oracle和IBM是商业智能领域最大的公司。Domo 和Chartio把各种形式的数据源连接起来,创建出了各种好用、有人气的互动界面系统报表(Dashboard)。数据专家可以用这些工具来向他们机构的利益相关者展示机构的经营情况。
商业智能着重于把数据提取成易读易懂的互动界面系统报表(Dashboard);数据挖掘和探索则用于洞悉大型的数据,也更是上文数据专家所指的“诱人的部分”。这些公司不仅要展示数据,更要在数据的基础上建立一些可行的东西。
和我在第一部分中写到的第三方应用不同,这些商业智能工具通常末端是很开放的,可以被用于很多不同的机构,从政府到金融到商业皆可。比如说,用Palantir 来建立解决方案,从企业网络安全,到施法数据库同步,到疾病反应,无一不可。这些工具可以用来整合和分析数据,而且通常一旦由数据专家设置好后,机构里地任何一个人都可以像一个微数据专家一样使用这些工具,输入剖析数据并寻找趋势,促使其部门获得成功。Platfora 是商业智能的一个很好地例子,还有很多其他将会雨后春笋般涌现。
数据洞悉的最后一部分是数据合作。当公司的数据科学团队越来越大,数据合作也将可能变得愈发重要。如果开放数据在今后成为新的开源(我认为这是必然的),Mode Anaytics 等工具将会变得更加重要。数据专家可以通过Mode把它们基于SQL的分析分享和报告给他们机构内外的任何一人。Silk 是一个强大的视觉化工具,用户可以用它来上传数据和创建一系列可过滤的图表、地图和表格。R studio 给数据专家提供了很多制作专业小应用的工具,这些小应用能在团队内部分享,帮助非数据型的专家调查数据。有那么多辅助数据合作的公司涌现,可见数据科学不是正在发展,而是几乎已经无处不在了。
再强调一下,这里是没有什么硬性的划分的。很多这些工具也被非数据型的专家使用,用来创建dashboards或辅助实现可视化。但这些工具都是基于获取数据,并从数据那里得到些东西。而我们的下一个章节“建模”,就有点不同了,是讲关于“建立”的。
建模
建模是关于预测和学习的。换言之,就是获取数据集,并预测接下来会发生什么;或者通过已标注的数据训练一套算法,用来标注更多的数据。
预测分析型的建模更着重于回归分析。这些工具不仅简单地回归数据、合并或清洗数据,更重要的是根据历史数据和趋势,对未来做出高精度的预测。比如说,可能有一个巨大的数据集,能把人的信用评分和众多的人口统计学细节匹配起来。你就可以通过预测分析,根据某个申请人和你模型中的人口统计学信息异同,来评断他的信用值。从政治选举主管决定何时何地进行拉票,到能源公司根据当地能源使用的峰值与低值作出计划,各个方面无不需要预测分析。
现在已经有很多公司提供预测分析的工具了,还有一大波正在袭来。Rapid Insights 帮助它的顾客通过回归分析洞悉数据集。Skytree主要用来分析非常大的数据集。Numenta 等公司在创造能持续学习、且能在运行数据时捕捉到重要可行的模式的机器。不过基本上,它们都是用来获取数据、分析并通过这些信息来精彩地预测事件的。
深度学习则更像一项技术,而不是解决方案。深度学习现在大热,因其能提供精确得多的模型,尤其是在有大量数据用来训练的时候。深度学习似乎对图像最为有用,因此许多做深度学习的公司都是从图像起家的。事实上Facebook很早就在训练面部识别算法上取得了一定的成就(是就面部本身识别,而不是通过朋友圈的重叠和关系来猜测谁是谁)。Metamind 提供了一个深度学习的小平台,每个人都可以用起来。Dato 包含了数据生态系统中的许多其他功能,比如ETL和可视化。
自然语言处理工具(NLPs, Natural Language Process tools) 尝试建立算法来理解真实的话语。机器学习此处包括训练算法来识别文本的细微差别(而不仅是定位关键词),这意味着,可以识别俚语、讽刺、拼写错误、感情和所有真实演讲的一些奇怪的地方。要建立起这些工具,需要极其庞大的数据量,但是NLP有潜力减少许多用于文件处理、文字记录和情感分析的成本和时间。这些工具各自都有巨大的市场。
可能流行文化里最出名的NLP实例就是Watson的Jeopardy!了。这其实是一个很非结构化的例子。想想Jeopardy!线索的叙述方式吧,双关语、俏皮话和各种精妙的表达无所不包。Jeopardy!能理解这些线索,水平还远超其竞争对手,真是令人惊叹。而那还是2011年的事了;NLP自那以后便开始飞速发展。Attensity 等公司的NLP解决方案主要用于不同的产业领域;而Maluuba 等公司 则主要面对客户,实际上相当于语言理解方面的个人助理。Ibibon 主要针对非英语语种,虽然有时被忽视,但是这个市场其实很重要。我认为在接下来的十年左右,NLP会有很大的发展,这些工具将有机会给数以百计的产业带来变革。
最后,简单介绍一下机器学习平台。上面提到的工具多用于管理服务,而机器学习平台却很不一样。Kaggle一类的工具,与其说是一个具体的产品,不如说是一个公司,把数据筛出来,让数据专家们竞相创造出最优算法(有点像我在第一部分提到的Netflix prize。微软的Azure ML和Google的Prediction API都属于这类工具,因为它们都和Kaggle一样,能处理一系列的数据问题,而不仅限于某些特定领域。Google的Prediction API提供一个黑盒子尝试给输入的数据建模;而微软的Azure ML则给数据专家们提供一个工具箱来整合数据块,并建立机器学习的工作流程。
开源工具
也许是因为这个开源工具目前有最多前沿研究,开源建模和洞悉工具都非常多。 R 既是编程语言,又是一个数据探索的交互环境,是很多数据专家的一个基本工具。Octave 是一个Matlab的一个免费开源端口,非常好用。Julia 在技术计算中的应用日益广泛。斯坦福有一个NLP 开源库 , 包含了大多数标准语言处理工具。Scikit 是一个用于Python的机器学习包,拥有大多数标准建模和机器学习的算法,已经越来越有影响力。
总的来说,数据应用工具使得数据专家对各种机构来说愈发重要。正是通过这些工具,数据专家可以提出强有力的建议、揭露隐藏的趋势并提供切实的价值。当然了,这些工具能派上用场的前提是要有好的数据,以及之前的数据强化、混合和清晰过程。
因此,我选择把这些工具称作是一个生态系统,而不仅仅是一个图景。数据来源和数据处理是数据洞悉和建模的前提。我们宁愿用很好的数据做平庸的分析,而不是用平庸的数据做很好的分析。当然啦,运用得当的话,数据专家是可以用很好的数据做很好的分析的,这时数据专家的价值就无与伦比了。
本文由集智数据的CEO黄适文向36大数据投稿,转载必须获得译者的授权。
End.