「AlphaGo 之父」Hassabis 亲临中国开讲,击败人类之后他还想干些什么?
在昨天柯洁和 AlphaGo 的第一盘棋结束之后,大家关注的焦点除了人类不可避免的失败之外,基本上都集中在了「AlphaGo 到底有多强」这个问题上。所以,虽然今天没有比赛,但乌镇吸引的关注度仍然不低,因为在今天的 AI 论坛上,Alphabet 董事长 Eric Schmidt、DeepMind CEO Demis Hassabis、AlphaGo 团队负责人 David Silver、Google Brain 资深研究员 Jeff Dean 等一众大咖纷纷到场,在国内来说,绝对含金量满满。
当然,一天听下来,除了大神 Jeff Dean 也许是为了照顾有的围棋爱好者,只是做了又一次的人工智能普及之外,DeepMind CEO Demis Hassabis 及其同事、也是 AlphaGo 团队负责人 David Silver 的演讲最为吸引人,因为他们二位一边为我们介绍了 AlphaGo 的最新进展,同时也向外界透露了他们的长远目标。
首先介绍 AlphaGo 一年来的进展
在今天的演讲及之后的专访中,Hassabis、AlphaGo 团队负责人 David Silver 以及 Jeff Dean 分别为我们阐释了 AlphaGo 在这一年时间中做的事。
(Jeff Dean)
- 计算能力的变化
首先,让我们来看看计算量的变化。我们要注意到,在计算量上,这一版本的 AlphaGo 在计算量上仅为李世石版本的十分之一,虽然在训练中用到了更多的数据和运算,但因为在算法上获得了效率的提升,所以 计算量仅需原来的十分之一,训练时间也从几个月缩减到了几个星期。
这里的「计算量(computing resources)」经 Silver 解释,是其整体的计算资源消耗,包括了电力消耗及计算资源的消耗量,整体是原来的十分之一。
同时,在硬件需求上, 李世石版本的 AlphaGo 需要使用 Google Cloud 上的 50 块 TPU 工作,但到了 Master 和柯洁的版本,只需要一个单机版 TPU 服务器中的 4 块 TPU 就够了。 不过这里面使用的 TPU 均为第一代 TPU,而非刚刚在 I/O 上发布的第二代。
其次, 在算法上,这一版本的 AlphaGo 已经不需要外在的「导师」,能实现自我学习了。 虽然还无法完全摆脱人类棋谱的帮助,彻底自我成长,但已经能逐渐从自己的搜索里学习了。并且,更重要的是,这种算法是通用的,可以被用到其他领域。
他们在现场也反复举出了我们在去年就为大家报道过的项目: 为 Google 的数据中心节能减排 。通过使用机器学习技术,它已经能减少 Google 数据中心冷却装置 40% 的能耗,在总量上也会减少 15%。
-
AlphaGo 本身棋力的进化
再谈到 AlphaGo 本身能力的进化。据介绍,相较于之前使用 12 层卷积神经网络训练的 AlphaGo,此次出战的「柯洁版」AlphaGo 已经使用了 40 层神经网络来训练,性能较今年年初在网上和人类高手大战 60 场的 Master 也有了增强。
Hassabis 也用了一幅图清晰地展示了 AlphaGo 自身棋力的变化过程:
在这幅图中,我们可以看到, 目前版本的 AlphaGo 能让李世石版本三个子,李世石版本的能让樊麾版本三个子,樊麾版 AlphaGo 则能让 Zen 围棋四个子。
这样的一个进步速度无疑让人感到非常震惊,要知道,李世石在一年前也只赢了 AlphaGo 一盘棋,而今天的 AlphaGo 已经能让李世石版的 AlphaGo 三个字了。不过处于严谨考虑,David Silver 在下午又发布了一段声明:
「新版本的 AlphaGo, 已经过几百万次的自我训练,并在检测旧版本弱点方面表现出色。也因此,新版本的 AlphaGo 可以让旧的版本三个子。但当 AlphaGo 与从未对弈过的人类棋手对局时,这样的优势就不复存在了,尤其是柯洁这样的围棋大师,他可能帮助我们发现 Alphago 未曾展露的新弱点。 这样的衡量标准是无法比较的。 」
这也许能让得知这一消息的柯洁心理稍微好受一点吧。
而在具体的技术方面,相信大家也有所耳闻,AlphaGo 使用的是两种深度神经网络—— 「策略网络」(policy network) 和「价值网络」(value network) 。第一种策略网络的作用是选择在哪里落子,第二种价值网络的作用是衡量走这一步对全局的影响。其中,他们用到了监督学习及强化学习两种机器学习的方法,而又进一步将其整合起来,对 AlphaGo 进行训练。
而这次 Hassabis 和 Jeff Dean 又再次为大家展示了这套网络系统运行的状况,下面为大家附上相关的 PPT:
而如果你只是想要简单地知道这场论坛的总结性重点,那看看黄博士的朋友圈也许就了解了:
然后,DeepMind 还想干什么?
「游戏是用来培训算法最有效的方式,但最终的目的不是玩游戏。」
在 Hassabis 看来,未来将会是人机结合的时代,机器的角色有点像望远镜或是显微镜,都是工具,它们能帮助我们人类探索宇宙,发现新的奥秘,也能在材料设计、新药研制等方面让人类有更多的发挥空间。
在演讲的后半部分,他讲了下面这部分表达自己未来志向的话。一如他之前接受的各种采访一样,充满着对这个行业未来的向往,并一如既往地提醒人们要「正确地」使用 AI,这表示: 1. 不用 AI 做坏事;2. 不止让少数人使用 AI。
AlphaGo 是人类的新工具。就像天文学家利用哈勃望远镜观察宇宙一样,通过 AlphaGo,棋手们可以去探索围棋的未知世界和奥秘。我们发明 AlphaGo,也希望能够推动人类文明进步,更好地了解这个世界。
我们的愿景是尽可能优化他,让它变得更加完美。就像围棋 3000 年以来都没有答案,科学、技术、工程等领域也正面临着同样的瓶颈,但是,现在有了 AI,我们迎来了新的探索机会。
围棋比赛是我们测试人工智能的有效平台,但我们的最终目的是把这些算法应用到更多的领域中。 人工智能(特别是强人工智能)将是人们探索世界的终极工具。
当今世界面临着很多挑战,不少领域本身有着过量的信息和复杂的系统,例如医疗、气候变化和经济,即使是领域内的专家也无法应对这些问题。
我们需要解决不同领域的问题,人工智能是解决这些问题的一个潜在方式,从发现新的材料到新药物研制治愈疾病,人工智能可以和各种领域进行排列组合。
当然,人工智能必须在人类道德基准范围内被开发和利用。
我的理想就是让 AI 科学成为可能。另外,我对人类的大脑运作非常感兴趣,开发 AI 的同时,我也了解自己的大脑运作,例如大脑如何产生创意等,这个过程中我也更深入地了解了我自己。