斯坦福大学人工智能工作报告告诉你 AI 发展有多块
公众号/小象
源 | singularityhub 译 | 林浦曦
何时能达到真正的 人工智能 时代?这可能是未来学家、AI 专家和对科技有着强烈兴趣的人们都很关注的一个问题。人工智能的新进展何时会发生是很难预测的,达特矛斯夏季人工智能研究计划的科学家在 1956 年便认为 AI 在一系列复杂的问题处理上,或许两个月就足以产生“重大进展”,例如计算机理解方言,自我发展甚至理解抽象概念。
六十年过去了,而这些问题依旧没有解决。现在,斯坦福大学的 AI 指数试图去测量人工智能发生了多大的变化。
这个指数采用了独特的方法并试图在多个系统中汇总数据。它包括活动量的规模,这些规模用于衡量风险投资,出席学术会议,发表的论文等等的活动。AI 指数测量的结果可能你也能想象到:自 1996 年以来,学术活动增加了十倍,以人工智能为重点的创业公司以及相应的风险资本投资爆炸式增长。这个度量标准的问题在于它和AI的进度一样测量 AI 炒作案例。这两者可能是相互关联的,但是他们又可能会不相关。
该指标还从热门的编码网站 Github 上获取数据,该网站拥有比世界上任何地方都多的源代码。他们可以跟踪人们创建关于 AI 的软件数量,以及对热门的机器学习软件包(如 Tensorflow 和 Keras)的兴趣。该指数还记录了不同人提及AI新闻文章时的情绪:令人惊讶的是,关于 AI 威胁和就业危机,那些被认为 “对未来积极” 的人比 “对未来消极” 的人多三倍。
这一切都可以成为人工智能热度的一种衡量标准。
没有人会否认,我们正处在一个人工智能炒作的时代,但人工智能迅猛增长的发展却充斥着各种 AI 炒作案例以及 AI 寒冬的交替出现。因此 AI 指标试图依赖一系列任务去追踪算法的进度。计算机视觉在大规模视觉识别挑战中表现如何?(超人从 2015 年开始对图像进行注释,但是仍然不能很好地回答关于将自然语言处理和图像识别相结合的图像问题)而在电话上的语音识别几乎是没问题的。
在其他狭窄的领域,人工智能仍在追赶人类。翻译算是比较好的了,通常你可以通过翻译得到正在说的内容的要点,但是在翻译准确性方面,还远低于 BLEU 指标。
在狭窄的任务上测量最先进的人工智能系统的性能是非常简易适用的。您可以定义一个简单的度量,或者设计一个与评分系统的竞争,并以标准化的方式与旧的软件进行比较。学者们总是可以讨论评估翻译或自然语言理解的最佳方法。一个简化的问答图灵测试获取了最新的 Loebner 奖,它采用了依赖于上下文理解的 Winograd 模式类型的问题。人工智能在这些方面有更多的困难。
然而,在试图将这些狭隘的任务表现映射到一般情报上时,评估开始变得困难。这是一个很难的任务,因为我们对自己的智能水平缺乏了解。电脑在国际象棋上的表现算是超人级别的了,现在甚至表现在其他更复杂的游戏也。提出时间线的预测者认为 AlphaGo 的成功比预期的要快,但这是否意味着我们更接近于一般的智力呢?
这里是很难追踪进展的地方。
我们可以注意到算法在先前为人类服务的任务上的特殊性能- 例如,指标引用了一篇Nature论文,显示AI现在可以比皮肤科医生更准确地预测皮肤癌。我们甚至可以尝试跟踪一般AI的具体方法; 例如计算机已成功模拟了大脑多少区域?或者,我们可以简单地跟踪现在达到人工智能所接受的标准的专业和专业任务的数量。
“我们正在进行一场比赛,但是我们不知道如何到达终点,或者我们必须走多远。”
未来几年,人工智能的进展更有可能类似于逐渐上升的潮汐,因为越来越多的任务可以转化为算法,由软件完成,而不是突然的智能爆炸或一般智力突破的海啸。也许可以通过测量人工智能系统的能力来学习和适应基于办公室任务的人类的工作程序。
AI 指数并没有试图给出一般智能的进展表,因为这仍然是一个模糊的概念。
牛津大学计算机科学系主任迈克尔·伍德里奇(Michael Woodridge)指出:“报告中没有记录一般人工智能的主要原因是,我和其他人都不知道如何衡量进展。”他担心另一个人工智能的寒冬,并对外宣布“江湖骗子和油嘴滑舌的推销员”夸大了已经取得的进展。
当然,你不需要一般的智能来影响社会,算法已经在改变我们的生活和我们周围的世界。毕竟,亚马逊,谷歌和 Facebook 为什么值钱?专家们一致认为这需要衡量人工智能益处的指数、人类与AI之间的互动,以及我们将价值,道德和监督编入这些系统的能力。
哈佛大学的 Barbra Grosz 认为,“通过对人们生活的影响来确定人工智能系统是否成功是很重要的。”
对于那些关心人工智能就业启示的人来说,跟踪在被认为最脆弱的领域(比如,自动驾驶汽车取代的士司机)使用人工智能将是一个好主意。应该衡量社会适应人工智能趋势的灵活性; 我们是否为人们提供足够的教育机会来再培训?教他们如何与算法一起工作,把它们当作工具而不是替代品来对待?专家们还指出,这些数据是以美国为中心的。
我们正在进行一场比赛,但是我们不知道如何到达终点,或者我们要走多远。我们从周围风景判断我们已经跑了多远。出于这个原因,从定义 AI 进展开始,衡量 AI 进展便是一个艰巨的任务,但 AI 指数作为相关信息的年度收集是一个不错的开始。