吴恩达新演讲:AI正改变行业格局,公司的壁垒非算法而是数据-36大数据
1人工智能的应用和价值
吴恩达依然以AI是新电力开场,并举了一个例子。
AI技术的经济贡献多数来自监督学习,也就是学习从A到B,从输入到输出的映射。比如说,输入一张照片,让机器学会判断这张照片是不是你,输出0或1。
最赚钱的AI应用是在线广告。在这个例子中,输入是广告和用户信息,输出是用户会不会点击这个广告(还是0或1)。
监督学习还可以应用在消费金融领域,输入贷款申请信息,输出用户是否会还款。
过去几年里,机器学习经历了迅速的发展,越来越擅长学习这类A到B的映射,创造了大规模的经济价值。同时,AI的进步也体现在监督学习的输出不再限于0或1的数字。
再次举例:语音识别的任务,也是一种端到端的学习。拥有足够的数据,语音识别就能达到很好的效果。亚马逊Alexa、苹果Siri、百度DuerOS等等依靠AI算法和数据来达到良好的效果。
监督学习的缺点是它需要大量的标注数据,这影响了它的普及。
为什么神经网络已经存在了这么多年,AI却近年来才开始快速发展?
上图中,横轴是数据量,纵轴是算法的性能。
随着数据量的增加,传统机器学习算法的性能并没有明显提升,而神经网络的性能,会有比较明显的提升,神经网络越大,性能的提升就越明显。
为了达到最佳的性能,你需要:大量数据以及大型的神经网络。
2机器学习的趋势以及算法如何创造价值
目前,创造最多价值的还是监督学习。除此之外,迁移学习技术正在创造更多的经济价值。比如在医学影像诊断上,迁移学习技术利用数据创造了不错的识别效果。
非监督学习,在自然语言处理上更具商业价值。
强化学习也很有意思,我认为,强化学习的火爆和商业化有点不成比例。
强化学习对数据的需求程度,甚至比监督学习更严重,特别是强化学习算法很难获取到足够的数据。又举例子:AI+游戏中,强化学习表现很好,这是因为在电子游戏中,算法可以重复玩无限次,获取无限的数据。
在机器人领域,使用强化学习来建立模拟器,相当于能让强化学习agent在其中模拟无人车、人形机器人,重复无限次游戏。在游戏和机器人领域之外,强化学习应用到商业中还有很长的路要走。
现在,监督学习、迁移学习、非监督学习、强化学习这四类算法所创造的经济价值是递减的。
另一个值得关注的是,机器学习依靠结构化数据,比非结构化数据创造了更多的经济机制。
举个结构化数据的例子,比如说你的数据库记录了用户的交易情况,谁什么时候买了什么东西,谁什么时间给谁发了信息,这就是结构化数据。而像图像、音频、自然语言等等,就是非结构化数据。
在前面谈到的几类学习算法中,单是监督学习就已经为公司、创业者创造了大量的经济价值和机会。
3如何做人工智能产品
AI的崛起正改变着公司的竞争格局。公司的壁垒不再是算法,而是数据。
想要打造一个AI产品,如图:
让算法利用足够的数据,使得产品运行起来,然后通过产品来获取用户,用户在提供更多的数据……周而复始。
又举例:搜索公司。搜索公司有着大量的数据,显示如果用户搜了这个词,就会倾向于点哪个链接。
我很清楚该如何构建搜索算法,但是如果没有大型搜索公司那样的数据集,简直难以想象小团队,如何构建一个同样优秀的搜索引擎。这些数据资产构建了兼顾的壁垒。
工程师们还需要明白:AI的影响,比监督学习广泛得太多。日常的AI包括好几类工具:比如机器学习、图模型、规划算法、知识图谱。
人们的关注点集中在机器学习和深度学习,很大程度上是因为其他工具的发展速度很缓慢。
计算机,或者说算法是怎样知道该做什么的呢?它依靠两个来源,一是数据,二是人工。
比如说在线广告,我们有那么多的数据,不需要太多的人工,深度学习算法就能学得很好。但是在医疗领域,数据量就很少,可能只有几百个样例,这时就需要大量的人工,比如说用图模型来引入人类知识。
很多工程师想要进入AI领域,很多人会去上在线课程,但是有一个学习途径被严重忽视了:读论文,重现其中的研究。
当你读了足够多的论文,实践了足够多的算法,它们都会转化为你的知识和想法。
转型机器学习工程师,我推荐的是:学习诸如deeplearning.ai的机器学习课程来打好基础,然后读论文并复现其中的结果,另外,还要通过参加各种的人工智能活动,来巩固自己的基础。
4如何打造人工智能公司
从大约25年前开始,我们见证了互联网时代的崛起。
我从那个时代学到了:商场 + 网站 ≠ 互联网公司
我认识一家大型零售公司的CIO,有一次CEO对他说:我们在网上卖东西,亚马逊也在网上卖东西,我们是一样的。
这是不对的。
互联网公司是如何定义的呢?不是看你有没有网站,而是看做不做A/B测试、能不能快速迭代、是否由工程师和产品经理来做决策。这才是互联网公司的精髓。
在AI时代,我们同样要明确:
传统科技公司 + 机器学习/神经网络 ≠ AI公司
公司里有几个人在用神经网络,并不能让你们成为一家AI公司,要有更深层的基础。
AI公司倾向于策略性地获取数据。
我曾经这么做过:在一个地区发布产品,为了在另一个地区发布产品而获取数据,这个产品又是为了在下一个地区发布产品来获取数据用的,如此循环。而所有产品加起来,都是为了获取数据驱动一个更大的目标。
像Google和百度这样的大型AI公司,都有着非常复杂的策略,为几年后做了充分的准备。
第二点是比较战术性的,你现在就可以这么做:AI公司通常有统一的数据库。
很多公司有很多数据库,但很分散,如果工程师想把这些数据放在一起来做点什么,可能需要和50个不同的人来沟通。
所以我认为建立一个统一的数据库,所有的数据都存储在一起是一种很好的策略。
另外,自动化和定制招聘需求也是AI公司的重要特征。
比如在移动互联网时代,产品经理会写PRD:
然后工程师去实现它,整个流程很容易理清楚。
但是假设在AI时代,我们要做一个聊天机器人,这时候如果产品经理画个线框图说:这是头像,这是聊天气泡,这样并不能解决问题。
聊天气泡长什么样不重要,我需要知道的是,这个聊天机器人要说什么话。线框图对聊天机器人项目来说没什么用。
如果一个产品经理画了个无人车的线框图,说“我们要做个这个”,更是没什么用。
在AI公司里,产品经理在和工程师沟通的时候,需要学会基于数据,来做产品的迭代升级。
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » 吴恩达新演讲:AI正改变行业格局,公司的壁垒非算法而是数据