安东尼·斯格非亚诺:使用数据科学解读现代商业行为
数据观现场报道2016年11月17日下午,第三届世界互联网大会“大数据论坛”举行,本次论坛由中国国家互联网信息办公室和浙江省人民政府指导支持,中国科学院主办,中科学院信息工程研究所承办,数据中心联盟协办。
邓白氏公司全球高级副总裁、首席数据科学官安东尼·斯格非亚诺先生,在该论坛上发表了主题为“使用现代数据科学解读现代商业行为”的演讲。安东尼·斯格非亚诺表示,我们不仅仅要考虑到数据,还需要考虑数据之间的相关性。未来企业以相互使用数据,最后形成共识和合作。
以下为演讲全文:
简单跟大家讲一下我们经常说数据、数据、数据,每个人都在说数据、大数据。我想跟大家从商业的角度来看看我们用所有的比如说量子通讯、量子算法。我作为一个数据分析科学官,那我肯定会用这些所有的分析方法来分析的。我觉得我们应该退一步来想,数据到底用来干什么,或者数据代表着什么样的意义?在互联网高速发展的时候,我们到底应该看到的是什么样的信息?
其实现在的常态我们可以把它叫做“新常态”,我们变化的常态,也就是说变化的速度非常快。什么是一直在变化着呢?只有变化是永远不变的,所有的东西都在变。什么是新发生的呢?新发生的也是变化,我们可以看到,比如说网上我们可以分析数据,但是这个数据只有一个部分的数据,所有的手机、电脑、会议、人类活动都在产生数据,比如今天我们现在在这个会议场里面说的所有的话,我们今天的发言,都会产生数据。在网上,大家可以问各种各样的问题,你可以找到客服提问问题,未来或者现在回答你问题的可能是机器而不是一个人,所以我们为自己提出这些问题,我们都不知道怎么去回答这些问题。那这样一种常态我们把它叫做“新常态”。
我们现在到底有什么样新的问题?不管是零售业、销售、政务、物流、后勤等等,所有这些方面都会有各种各样的问题,他们给我们提一个共同的问题,我们都有数据,但是我们拿这些数据在自己的单位里面,并不能使用它。
我们的挑战是什么?在这样的一个“新常态”当中,我们怎么样来利用我们手头的数据呢?我们来看一下现在的世界,比如说数据可以像集装箱一样打包,然后进行运输,企业的地理位置、结构、消费者的现实互动真的变得越来越不重要。你要的是什么呢?我们要的是你的网络行为,我们听到很多网络的东西,网络行为、网络的黑客、网络的风险等等。我们怎么样来回应它?我一般这么回答,你先看一下镜子,你看看镜子里面自己这个人,看看自己的单位,你的公司,你看到了是什么呢?你需要把自己也变成一个新的人来适应这样一种新的常态,那么我们把它叫做新技能,包括数据科学对新技术的掌握与人的消极感知力、语言融合、数据使用的许可、身份的辨识监测等等。
我们不仅仅要考虑到数据,还需要考虑数据之间的相关性。你在自己的公司里面的时候,你肯定不是说我把数据收集回来放在这里,然后我就可以理解它了。不是这样的,我们首先不能把数据放在一个地方,传统上我们用现实的贸易和关联判断实体间的主要方法,现在不行了,现在所有的事情都在变化。不像原来你把一个产品,一种服务放在一个地方,你慢慢地研究它、发现它。现在不是这个样子,现在当你研究这个数据的时候,其他的数据又在发生,新的数据又在产生。所以,我们需要有这样新的思维,建立一种实时的理解。我们的数据方法,计算方法都会不一样,这是我们的现实,现实社会就在这样子发生。
我们经常在想这么一个问题,我们如何来应对这样一个真实的世界呢?把数据科学引入到我们的讨论当中。给大家一个例子,在所有的单位、所有的公司,我们所有的每一个公司都需要互联互通,我们需要整合大数据和对结构的理解来探索连通空间,就是一个真正的连通空间,因为数据产生的太快、太多、太大,所以你没有时间来想。比如说现在我们大家之间从来没有互相打过电话没有相互了解过,未来企业也会这样子运营,你有非常非常多的公司,从来都没有相互的交易过,没有相互做过生意。但是他们可以相互使用数据,可以慢慢地,最后形成这样一种共识和合作。
也就是说我们进行与构造类似的图形相混合,类似的图形进行一种融合,各种各样的信息,这个事件、数据、新闻、信号等等,然后我们用抽象维度进行一种假象的场景。我们现在有一个说法,就是要应对黑猫问题,在黑色的房间里面有一只黑猫你看不见它,因为猫也是黑色的,房间也是黑的,一样的,如果机器学习,我们经常在说机器学习,那它到底在不在呢?你不知道它在不在,确实是真的不在那。现在用一种思维方式,我们用信号,我们用系统性的检测方法,我们用异常检测,我把它叫做均质性,也就是说你的某一个方面跟其他的所有方面都是不一样的,这个叫均质性。然后是特性和质量监测,当所有的数据都在那里的时候,你可以去截取跟你一样的部分,或者跟你不一样的部分来用在你的系统当中。这样才可以处理黑猫问题。关于黑猫问题,所有的计算机的课堂上都没有教学,但这正是我们需要思考的问题,我们有这么多的科学家,我们都没有应对这样的问题。
这里就涉及到了创新的问题,什么叫创新?新的产品、新的服务、新的能力。但是我们要记住,创新就是找到大问题,把它大事化小,一个一个的阻击它,解决这个问题,这也是创新的形式,这种创新的形式是我们需要的,我们需要非常得开放,我们需要有一种新形势的创新,我们要有非常开放的思维。今天做了这么多事情,明天就可以产生盈利了,但是我们必须要这样子来做。我们需要有一个新的思维的模式才可以适应这样一种新型的世界。
我们要颠覆现在所有的真理,因为我们知道原来存在的一些可能如此珍惜的东西,嫌它太慢太差,在数字化时代,我们嫌它太有颠覆性了。我们现在要想,所有的可计算的数据是什么呢?我们要去想这些数据我们怎么用?我们怎么样解决新的问题?怎么样把数据用到极致?用到真正有用的地方。比如说有没有人使用大数据去发现石油,有人去买石油吗?没有吧?但是我们大家都把数据比作石油,但是我们需要的是怎么样来用,用才是最重要的。
未来的方向,我们都在说机器会进行学习,怎么学习呢?你需要去教它。我们才是使用的人,我们需要向机器学习,也让机器学到更好的方式,非常有意思的未来。我们当然并不需要去学计算的方法,因为你是这些技术的应用者,是真正的受益者,所以你要知道怎么用,这些数据是哪里来的。
这是一些大型跨国机构中数据的演变,演变是永恒的,我们用所有的技术、科技这是肯定的,然后我们需要有正确的科技来处理数据,来改变我们的思维模式,真正的核心是服务于人,并且思维也是从人发出的。
最后是以数据为导向的组织中,领导力思维的演变,领导力非常得重要,所有的领导需要非常的有启发性,你对技术要有认知,让你的员工有足够的创造力,去启发他们。最后我来引用威廉·爱德华兹·戴明的话,只是尽力做到最好是不够的,你必须先知道要做什么,然后才能做到最好。所以我们首先要寻找先理解,我们到底需要做到的是什么,然后写下来共享、讨论我们这一代是我们驱动自己的数据,应用我们的数据的第一代人。非常感谢大家的聆听。
责任编辑:陈近梅