王曦:大数据人工智能中的运筹与决策科学
【编者按】 大数据 时代,拥有庞大的数据量不再是制胜的关键,更需要关注用大数据分析所支持的决策。运筹与 决策科学 正是大数据 人工智能 的一个核心概念,大数据与决策相辅相成,人工智能离不开 运筹学 的支持。
本文转自“光合客”,作者光合课;经亿欧编辑,供业内人士阅读。
王曦:杉数科技联合创始人;前Google商业运营高级经理;斯坦福大学决策分析与风险分析博士。
本文是 王曦在“光合课”上的演讲。以下为演讲内容:
授之以鱼
今天想和大家讨论三个话题:
1、为什么运筹与决策科学运用是大数据、人工智能的一个核心概念?
2、运筹与决策科学究竟是一个什么样的学科?
3、分享几个经典的应用场景。
为什么运筹与决策科学运用是大数据、人工智能的一个核心概念?
第二次世界大战是运筹与决策科学开始成熟和发展的时期,第二次世界大战时,美军在太平洋战场投放了很多空军力量,但是美国渐渐发现战斗机和轰炸机的损失比例快速地提升,导致参战的飞行员打仗时心理压力非常大。所以美国开始对美军投放的战斗机进行加固,考虑到每增加一些装甲就会相应地减少载弹量,所以并不是全机身地加固,而是选取最容易被攻击到部位进行选择性地加固。
美国空军采取了一个大数据的方法,把所有受伤机身上的弹孔画在同一张飞机平面图上,可以看到这张分布图上弹孔分布不均,稠密的地方就是飞机容易受到攻击的地方,当时美国空军建议应该着重加固机身和机翼,这是一个很经典的大数据宣传案例。但是一位统计学家认为,应该加固弹孔分布最稀疏的地方,这些不是最明显、最容易受到攻击的地方恰恰却是最薄弱的地方,因为凡是这些部位受到攻击的飞机很有可能都没有回来,而这些部位正都是机舱、发动机等很关键的部位。
这个例子可以引出今天我想和大家讨论话题——运筹与决策科学,即使我们有再大的数据量,如果只关注数据表层的信息,而不去关注我们真正要用大数据分析所支持的决策,数量再大也并没有多大价值。
数据化决策的三个关键点或者说从数据端开始到决策端,我们究竟能做什么?
第一个层面是数据的采集与管理
我们对数据要进行收集和清理,这是一个硬件技术,做大数据分析常使用计算机或者信息科学的方法来完成。
完成了数据的收集管理之后进入第二个层面,一些规律性的分析。我们可以对数据进行描述、可视化和预测,了解其背后规律的方法和模型,通常会使用统计方法以及学习模型来完成。
做完这两件事情并不代表我们能够有一个清晰的决策建议,因为决策通常比较复杂,如何打通从数据端到决策端这件事,其实更重要的是我们要知道数据最终要支持哪些决策,而解决这个问题需要的就是运筹与决策科学。
这门学科就是把现实生活中的问题抽象成一个可以用数学来描述的模型,运用优化算法来进行求解,帮助我们找到一个最佳决策最优战略,所以谈大数据一定不能离开决策。
另一个角度来讲,在过去几年中人工智能有非常大的发展,不管是从理论层面上的图像识别、自然语言处理、神经网络,还是到应用层面上的自动驾驶、智能诊断、人工智能游戏,我们看到人工智能已经开始渗透到日常生活的方方面面。
机器学习的目的是让机器更高效、更准确地完成一些本来需要由人来完成的工作,那么它需要做两件事情,第一件事情是需要用一个模型来告诉它要解决什么问题,第二件事情是需要给它一套算法来解决这个问题,而模型和算法恰恰是运筹学讨论的核心。通过这两个话题可以发现决策科学和运筹学其实是大数据、人工智能的核心概念,我们谈大数据就离不开决策,谈人工智能就已经离不开运筹学。
运筹与决策科学究竟是一个什么样的学科?
决策可以定义为是一个不可逆的资源配置
这样一个定义决定了两件事情,第一件事情,决策是无处不在的,我们每天都在配置资源,不管是人力、金钱、能源还是时间,这样的资源一旦配置了就是不可逆的。
而第二件事情,这样一种不肯定的资源配置通常会让我们觉得决策是很困难的。
举一个简单的例子,前两天一个朋友在北京摇到了车牌号,咨询我是否应该买辆车,朋友有几点困惑,第一,他是否需要一辆车?因为地铁就在家门口。这是一个决策范围的问题。第二,他是需要的是一辆常规的汽车还是电动车?是高端的车还是低端的车?这是一个可行方案的问题。第三,因为这辆车会和家里人一起用,他不确定家里人会不会喜欢这辆车?这辆车他开多长时间?未来转卖给别人的时候还能剩余多少价格?这是一个不确定性的问题。最后,他不清楚究竟是更看重性能还是更看重速度,但是安全性很重要,价钱也会影响这个决定。这样一个我们日常每个人都会遇到的简单问题却变成了一个决策范围很大,可行方案不确定性很大,同时价值评判也不太清楚的复杂问题。
所以就需要有决策科学这样的学科来帮助我们去界定每一个决策的范围。当我们有了一个明确的决策界定后,可以通过运筹学的理论将决策问题抽象成数学模型并求解,得到一个优化的决策。
分享几个比较经典的应用场景
应用场景可以分为4个方面,收益管理、风险管理、供应链管理和算法引擎
收益管理 ,其要解决的问题是商家在如何不增加流量投入的前提下,显著提升企业的销售收入,解决这个问题需要收集很多个维度的数据,找到不同场景下的最优定价和最好的销售策略。
风险管理, 针对金融及相关行业客户提供完整的风险管理服务,提供从精准营销、征信、高危交易识别到不良资产处置的全链条服务。
供应链管理 ,针对供应链中包括订单、库存、货运、配送等各个环节提供优化方案,在提升供应链响应速度与柔性的同时,帮助企业控制成本。
算法引擎 ,很多的理论有很广泛的应用场景,其实这个理论本身也可以带来很大的价值,因为它可以为复杂的数据分析提供一个平台,通过集成高效的优化算法为复杂数据分析提供基础的算法和软件支持,特别是优化算法求解器的开发,对于机器学习和深度学习效率可带来极大提升。
我们正是因为看到了这样一个很广泛的需求和应用空间,所以决定回国创立杉数科技,以上四个方面是我们非常核心的服务领域。
举一个例子来讨论一下运筹与决策科学在金融风险管理中应用
运用刚才提到的四个方面, 第一个是精准定位的营销 ,识别真正符合金融产品特征的优质用户,从系统层面上进行第一层面的风险控制。
第二个是征信 ,通过观测和描述已有用户的支付行为去评估潜在用户的信用风险,最后给出一个征信决定。
第三个是教育管理或者说反欺诈, 通过数据来识别高危交易和欺诈行为,尽可能的降低损失。
最后,在已经发生了违约的情况下最大程度地把损失降到最低,这是一个不良资产处理的问题。要解决这四个问题,打通整个风险管理的链条,其实要采用的方法都是非常相似。
第一个层面是数据的采集和管理 , 需要描述和观测非常多维度的数据。第二,使用机器学习或者相对复杂的预测方法对于数据进行描述和预测。第三,选择一个多层次的角色模型。 最后,当我们有了一个决策模型后,就可以使用优化算法帮助我们寻找最优结果。所以这套方法论适用于整个风险管理链条中的四个话题。
小结
1、运筹与决策科学是大数据人工智能中的核心概念,提到大数据就不能忽略大数据分析所支持的决策,提到人工智能就不能忽视它所需要的模型和算法。
2、当我们有了运筹与决策科学这套工具,就能够将实际问题抽象成可以量化的决策问题,给出最优决策。
3、当我们讨论机器学习、深度学习这些人工智能方法的时候,运筹与决策科学也为机器学习提供模型的思考和算法的保障。
授之以渔
在运筹和决策科学这个学科里面的学习建议:
1、用一个做决策的方式去思考问题
当你面临一个信息量庞大、时间很紧迫的问题时,可能会觉得很无助,根本不知道该怎么做。但是你可以站在一个决策的高度去思考,现在能做什么不能做什么,最主要的确定性都有哪些,哪些是可以相对量化的,哪些是没有任何用处的,关注的核心价值是哪些。尝试着去做这样的战略决策和思考,它会像一个在你头脑中的操作系统,当你遇到比较复杂的决策问题时,能够有一个全新的思考方式。
2、掌握一些方法
这个方法其实有很多种,如果是有数理背景的同学可以关注一些量化的数学方法,不管是基本运筹学,概率论去描述确定性,还是金融背景的同学去了解所有金融的应用场景,其实都可以从方法上去尝试训练。
3、关注具体的应用场景
掌握太多的理论,如果没有一个合适的应用场景,或者在应用的时候完全用理论去套实际问题,其实是不能解决问题。第一个方法能够很大程度上给予我们帮助,就是思考决策你的方式。我也建议大家多和你感兴趣的行业的人士去沟通,因为他们面对着那个行业里面特有的场景和特有的维度,多和他们沟通,那么有了一个解决问题的思维方式和一些非常量化非常清晰的方法时,在这个清晰的应用场景里,一定可以去帮助他解决非常核心的决策问题。
粉丝提问
1、人工智能产业从前是否有泡沫成分?纯粹人工智能是否有商业模式?
王曦:这其实是一个很大的话题。泡沫是指只有概念,没有落地,只有想法,没有具体的实践方案,所以从这个角度来说泡沫是一定会有的。
回溯历史,我觉得任何一个有新兴技术诞生的阶段,人们都会进行这样的讨论,因为当新的概念出来的时候,从时间角度讲,概念的存在通常是为了领先于技术的落地。
我参加过一个讨论,话题就是现在人工智能已经渗透到我们生活的方方面面,未来很多人类的工作是否会被人工智能取代?其实这就是一个很典型的针对泡沫的讨论。这个事情其实我并不担心,一方面,我看到过很多次新科技的出现时都会有这样讨论和担忧。比如二十世纪初,福特汽车公司刚开始投入标准化、流水化生产T型轿车的时候,整条流水线上约2/3工人都被替代掉了,但是如果我们关注由于这样一个新技术所催生的另一个更大的产业,从替代下来的劳动力所产生的就业机会来看,其实是一个更庞大的数字。
从另一个角度来说,关于纯粹的人工智能是否商业模式这个问题,我的观点是我会更关注它产生的价值。任何一个产生价值的新科技都能够找到了其所适合的商业模式,变现永远是第二类问题,第一类的问题首先是这样一个功能,不管是娱乐性质,服务性质还是实际产品形式,重点是它能产生什么样的价值。只要它有价值,相信一定会有它的商业模式。
2、在中国和美国,运筹与决策科学这个学科及应用的主要差异在哪里?
王曦:根据我的观察,差别还是挺大的。
因为运筹与决策科学最开始发展成熟是在美国,所以现在这个学科的应用和成熟度是比国内高很多的。一些成熟的大企业,比如说像亚马逊这样规模的大公司,专职用来做研发和供应链的团队可能有150人到200人,而且80%到90%的人是博士学位。在国内,无论小公司还是大公司可能都没有这样的团队配置。
但是从另一个角度说,我们回国创业后,和国内的各种类型的企业去沟通和讨论我们的技术,我们发现,因为这个技术或者说它的理论很成熟,所适用的范围非常广,当我们去和企业沟通的时候能够发现,企业会非常快地意识到我们能够带来的价值,所以这个是让我觉得非常乐观的一点。
另一方面,过去几年大数据概念被炒得火热,所以各种类型、各种行业的企业都会有或多或少的数据积累,当这个数据积累到了一个临界点的时候,大家都会去关心怎么样去做一些数据驱动的决策,怎么样去做更好的精细化运营。这也是另一个我们看到运筹优化与决策科学能够被广泛地在国内应用的一个契机。
总结来说,如果看现状,美国对运筹与决策科学的认知度、接受度和应用的广泛性是成熟很多的,但是国内有一个非常大的成长空间。
3、AI+金融目前最大的难点在哪里?
王曦:我记得李开复老师曾经说一句话,“可能人工智能最容易应用的领域就是金融,因为金融是一个纯数字的语言”。
单纯从数据这个维度来讲,我觉得难点或者说痛点有两个。
第一,虽然金融行业里面的数据量非常大,但是很多时候会面对一个大量但是低维的问题。 举例来说,刚才讨论了大数据征信的问题,一个金融机构可能已经观测到了大规模的数据,有关成功放贷的用户的付费习惯,虽然这个数据量非常大,但是从维度的角度上来讲,我们观测的所有数据都是已经被金融机构评审为优级且成功拿到贷款,我们认为他们的不还款概率非常低的一群客户的行为,而对于那些我们已经拒绝发放贷款的人群,这些维度我们并没有观测。所以数据面对大量少维的问题时,用什么样的方法和更新的数据维度来解决这个问题,我觉得是一个难点。
第二,很多所谓的数据分析可能会停留在数据的描述和数据的预测。数据的描述和预测是有很高价值的,但是如果我们真的想用这样一种很复杂或者很高端的数据分析方式去最终支持 金融科技 方面的决策,那么我们不应该仅仅停留在对数据端的描述和预测。 有时候大家会认为预测一定要做得非常准确,才能把这个问题解决好,但是如果我们关注预测所支持的决策会发现,决策对预测精度并没有想象得那么敏感,而这个决策有些时候所需要的维度也不是仅仅对数据的描述和数据的预测就能够解决的。所以我会建议大家把关注点更多的放在决策端,而不是仅仅是数据的描述和数据的预测。