专注分析 40 年,SAS 如何看待数据
公众号/大数据文摘
大数据文摘作品
记者:魏子敏
“如果把神经网络的层数从10增加到50,输出结果可以更好一点吗?……再高一点呢?”
美国丹佛市当地时间4月8日晚,在SAS 2018全球论坛(SAS Global Forum 2018)的开幕演讲中,年近八旬的SAS创始人兼CEO Jim Goodnight,与SAS年轻的数据科学家Jonathan一起,合力上演了一幕程序员的办公室日常噩梦:
焦急等待结果的挑剔老板,和尝试各种模型来输出更好结果的绝望程序员。
SAS创始人兼CEO Jim Goodnight在SAS 2018全球论坛开幕演讲中演示SAS®Viya TM 最新版本
面对6300位来自世界各地的SAS用户,SAS®Viya TM 最新版本在Jonathan的操作下显示出了强大的机器学习能力:数据可通过拖拽直接载入;不同模型、甚至神经网络层数的调整都可以通过点击实现;输出只需要几秒钟;结果的优化从面板显示的数字上一目了然。
而出现在开幕演讲中,这一场景的设计远比展示最新产品效果更加意味深长:它代表着SAS正在扩展自己的用户群体—— 不再只是传统的程序员、科学家,它瞄准的是不太懂编程,但看好并急于进行数据和人工智能转型的公司高层。
斯坦福大学教授李飞飞曾公开表示:人工智能、机器学习仍然是一个进入门槛高的领域,需要大量专业知识和资源,而很少有公司自己能负担得起这些资源。今天,虽然AI能为企业提供无数的益处,但由于资源稀缺,多数企业还无法开发个性化的模型。
SAS®Viya TM 最新版本在算法自动化上的设置显然是奔着解决这一痛点而来。
本次大会上,SAS表现了对AI和机器学习自动化程序这一新聚焦点的全面拥抱。SAS分析产品部负责人Saurabh Gupta在次日发布了Viya TM 最新版本,并解释了其一系列新特点:AI分析植入和自动化;更加透明的结果输出;更好地数据治理功能;用户体验地提升;更加开放,支持更多分析工具。
来自加拿大的SAS资深用户、Mcdoougall Scientific公司的副总裁John Amrhein对这最新版本Viya TM 操作的“便利性(ease)印象深刻:“支持各类数据格式,而且通过拖拽点击就可以实现各种模型的调整,非常高效。”这一友好的用户界面可谓SAS本次全球论坛中的最大亮点。
2018年4月8日至11日,SAS 2018全球论坛在美国丹佛召开
对于自动化,除了便利性,参会用户对于最新的分析工具也有一些反思。“太过简单的工具也可能会让人忽略数据的重要性”,加拿大的独立咨询顾问、SAS资深用户Peter Eberhardt非常认可Viya TM 产品的优质性能,但也向大数据文摘表达了自己的担忧: 很多用户因为工具太简单,反而会不认真思考数据的质量。
“我曾经见过一个广告领域的客户,输入的数据真的非常差,但是因为工具好所以跑出来的模型很棒,客户会因此觉得数据其实也不错。”
“好的数据非常重要。”正因此,Jim Goodnight在采访中一直强调数据清洗和管理的重要性,而他自己也一直以一位“统计学家”自称。
专注数据四十年,SAS分析经验的全球化输出
尽管扮演了一位“技术盲”的挑剔老板,Jim Goodnight的数据分析能力绝不弱于他身边的数据科学家:四十多年前,他在美国北卡罗来纳州立大学进行一项农业数据研究时,开发了一款数据分析软件,并基于此,创立了SAS公司。
SAS创始人兼CEO Jim Goodnight
40多年来,SAS的整体营收保持了持续的增长。即使在开源软件大行其道的今天,略显昂贵的SAS依然是全球多数金融、医疗机构、甚至政府的首选数据分析软件。根据IDC的数据,SAS占全球高级和预测分析市场30.5%的份额。
经历了数据写在纸上的时代,到大数据、云存储,再到今天的机器学习、人工智能,SAS尽管经历了多次技术探索方向的变更,作为一家专注“分析”40余年的老牌公司,其在行业内积累的丰富数据和业务经验鲜有匹敌者。而在算法和模型愈加“自动化”的今天,这些宝贵的行业知识积累显然比技术更难复制。
这些经验也是SAS开拓国际市场的秘密武器。
博雅融创软件技术有限公司是SAS在中国的重要合作伙伴,其总经理陈建文告诉大数据文摘,中国客户非常看重SAS在数据分析领域的先验经验。
“我们正在和中国一些省市的疾控中心合作,开展疫情相关的数据分析项目,而SAS之前协助美国相关部门进行了很多案例积累。尽管数据不同,但是业务经验、模型都可以直接借鉴,这是客户非常看中的。”
开放包容,和更年轻的数据科学家一起成长
但是,SAS也面临着所有老牌巨头同样的挑战:新生的数据分析工具。
从丹佛向北飞两小时,你将从下着雪的西部到达阳光普照的硅谷。这里是新生互联网巨头Facebook、Apple、谷歌等的大本营,也是一批数据科学、人工智能创业公司的诞生地。在这些公司中,新生代的80、90后数据科学家正在占据技术世界的主力。尽管SAS的名字依然响亮,这些动手和学习能力都极强的程序员更乐于自己探索开源的程序包。
“开源软件更便宜、更酷,自己开发的应用也更顺手。”来自Facebook的一位90后数据科学家告诉大数据文摘,“SAS是挺好用的,但是对个人使用来说太贵了”。
价格太过昂贵显然也是SAS现任CTO Oliver Schabenberger本次SAS全球论坛中,受到最多质疑的地方。
SAS CTO Oliver Schabenberger在SAS 2018全球论坛演讲
采访中,Oliver没有否认新出现的开源软件有自己的优势,尤其是在价格方面。
“(开源软件)确实更便宜,我们也希望我们客户有更多选择。”面对质疑,Oliver的回应相当坦诚,“但你不能抛弃价值只谈价格,我们相信SAS的品质,我们也在不断改善产品应对挑战。”
近年来,SAS也确实有一些转而使用开源软件的客户。
亚洲最大的银行星展银行DBS是SAS的老客户,其首位首席分析官(Chief Analytics Officer)Sameer Gupta告诉大数据文摘,除了SAS,DBS之前也曾尝试使用开源软件R、Spark等以确保产品的多样性。
为应对用户对多样性产品的需求,2016年,SAS整合了自身的分析能力,推出了通用部署的计算平台Viya TM :这是一个开放的、支持云计算方式部署的内存计算平台,面向企业内部提供一个单一、开放和统一的分析环境。
作为一个开放的架构,Viya TM 期待可以满足所有分析专业人士的需求,其支持包括REST API、SAS语言、Python、Java、R和Lua等方式的数据操控和分析开发。
中科聚信是SAS目前在中国较为重视的合作伙伴,其创始人兼CEO马占军告诉大数据文摘,相比无人维护的开源软件,SAS的产品会更加稳定专业,这是银行、保险公司、医疗机构这种公司非常看重的,这样的机构根本无法承担开源软件的不稳定性带来的风险。
而为了抓住数据分析领域的新生力量,SAS对高校和年轻人的投入也一直不遗余力。
Jim Goodnight告诉大数据文摘,SAS与全球非常多的高校、教授建立了持续的合作关系,并向学生提供优惠价格下载软件,每年都有成千上万的高校学生从中受益。
当然,抓住新一代数据分析者的关键不只是导师需要或者免费的软件,能切实用最前沿的技术做炫酷的项目,才能真正征服这群“最聪明的脑袋”。
“数据为善”
在主论坛的keynote演讲上,两个有趣的例子把SAS“数据为善(Data for good)”的主题体现到了极致。
SAS 2018全球论坛中提到了一个人工智能有趣的应用场景:使用动物的数字足迹来识别濒危野生动物物种。
野生动物的脚印是观察濒危种群并实施保护的起点,通过脚印,工作人员可以确定物种的性别,有时也会鉴别年龄。
之前,这样的脚印信息只能靠当地志愿者人工发现、拍照,并手动录入数据,效率极低,数据的缺失也让研究人员很难确切地了解哪些物种需要监测。
SAS将AI图像识别技术应用于此,并为此建立了一个野生动物的脚印数据库项目。
在这一数据库中,SAS工作人员已经为15种不同的物种开发了相关软件及其算法,包括黑犀牛,白犀牛,孟加拉虎,阿穆尔虎,和北极熊等动物的脚印数据都被收录其中。
通过收集这些数据,工作人员可以更好地确定濒危物种栖息地物种的数量和分布情况,以便实施保护方案。目前,识别准确度已经达到了90%以上。
SAS Graphics Accelerator的移动端应用是本次SAS 2018全球论坛又一惊艳发布:通过和苹果合作,SAS Graphics Accelerator可让盲人通过音乐的形式使用和理解图表。
在大会上,来自SAS的盲人体验师现场展示了如何在手机上“观看”一副折线图。在app中,我们可以通过三种方式阅读图表:由屏幕阅读器读取图形描述;将图形转换为易于阅读的表格;或者获得图形的声波表示。
现场观众和体验师一起感受了声波随着折线沿y轴改变而产生的变化:图声波表示沿着X轴传播;在Y轴上较高的数据点的声音比在Y轴上较低的数据点的音调声音更高。
自诞生到现在的40多年,SAS和用户也都没有停止对数据分析的思考。除了业内用户,历届SAS 全球论坛都会邀请到一些全球各行业领袖代表,比如萨利机长、全球首个半机械人Neil Habisson,还有《赫芬顿邮报》创始人Arianna Huffington等。
今年,SAS邀请到了美国第一位女性F-14飞行员Carey Lohrenz、总统历史学家Jon Meacham、纽约时报畅销书作家Dan Heath。他们的演讲是论坛的“惊喜”,也引导听众们思考,数据分析在人文、历史和领导力建设中如何应用。