腾讯绝艺AI已经解决了胜负问题,但基于“打赢人类”的目的还远不够完美
棋手 童梦成、连笑
“感觉自己问题特别多,觉得哪里不太对,跟绝艺相比差距特别大。”棋手童梦成在12月16日下午,2017TWT腾讯围棋锦标赛特别挑战赛结束后接受采访时连声说。
正如外界预测中的那般,棋手童梦成、连笑在腾讯围棋绝艺挑战赛中双双落败。要知道早在2015年11月15日世界计算机围棋锦标赛中,中国棋手连笑赢下比赛,当时职业棋手普遍认为电脑围棋跟人类棋手差距还很大。不过仅在四个月之后李世石输给AlphaGo,职业围棋界开始偏向AI,即便AlphaGo刚出来时有很多明显的漏洞,但实力仍比人类强很多。
而当Master出来后,职业棋手纷纷表示绝望,古力沮丧地感叹道人类棋手要被代替,失业的时候到了。连笑表达了同样的观点,他坦言感觉跟它下两次就找不到方向,觉得很累,感受到AI质的飞跃,人类再也战胜不了AI。
身为棋迷的腾讯集团高级执行副总裁卢山在李世石输给AlphaGo后便开始组建团队开发绝艺AI。2016年3月4日,第一个DEMO完成,棋力在业余5级左右,到3月下旬,围棋AI正式立项,项目名称weigo,团队也随之搭建起来。
2016年8月,绝艺以“虎虎有生气”的ID首次在野狐平台(腾讯旗下围棋对弈平台)下棋,8月23日首次战胜职业棋手。在不断的学习中,绝艺的能力不断增强。11月1日,绝艺正式以“绝艺”ID亮相野狐,11月2日第一次战胜世界冠军江维杰(野狐ID若水云寒)。11月19日晚,“绝艺”首次和柯洁交手,一胜一负;11月28日,“绝艺”对韩国第一人朴廷桓5胜1负。2017年2月14日以后,绝艺对野狐帽子(世界冠军和全国冠军)的胜率,已经能够稳定在90%以上。并在第10届UEC杯计算机围棋大赛中全胜夺冠。(注:AlphaGo没有参与UEC计算机围棋大赛)
今年11月下旬,绝艺最新版本以“符合预期”ID亮相,达成了60连胜的成就,其中,对顶尖棋手获59连胜,第60盘,绝艺用一盘精彩的自我对局收尾。
从绝艺AI的胜率,以及对阵棋手包括古力、柯洁等来看,这跟AlphaGo升级版master的对弈战绩是一样的。12月10日绝艺再赴日本,更是问鼎首届AI龙星战,二夺人工智能世界冠军。(注:AlphaGo升级版Master没有参与AI龙星战)
腾讯集团高级执行副总裁卢山告诉钛媒体,
“腾讯绝艺AI已经基本接近年初Master水平。但现阶段,绝艺AI乃至整个围棋AI体系都是基于「赢」作为技术升级目的,换句话说,没有办法在中后盘赢定的情况下给出当前最完美的解决方案。”
诚然大家所知,2016年3月9日李世石和Alphago的第一盘棋,下到最后AlphaGo已经领先5步,但第一盘对弈结束时AlphaGo只领先了两步, 这是因为当时AlphaGo在赢定的情况下,选择了最稳妥的方式,而不是完美的方式。在走向完美的的道路上腾讯绝艺AI还有很长的道路要走,腾讯集团高级执行副总裁卢山认为现阶段已知的机器算法不管用,当围棋AI能够实现完美方式时,其意义不亚于Alpha Go击败人类,又将是一个新的革命。
眼下腾讯绝艺AI亟待突破仅靠学习人类棋手的下法,转而采用自对弈进行训练。虽然此前腾讯官方称“绝艺”的学习主要包括人类棋谱数据库和机器自对弈,但腾讯副总裁、腾讯AI Lab负责人姚星表示,“绝艺”不同于其他实验室AI,它得益于世界超一流棋手的指导,通过不断与高手交流及学习成长起来,显然在机器自对弈上还处于早前阶段。
早在10月19日,DeepMind发布了其最新成果AlphaGo zero,该算法可以直接采用自对弈训练,相较于之前版本,AlphaGo Zero的表现和训练效率都有了大幅度提升,仅通过72小时内490万对局的训练就胜过之前训练用时几个月的原版AlphaGo,更直观的表现在AlphaGo Zero 以 100:0 击败了此前版本的AlphaGo。
数据显示学习人类选手的下法虽然能在训练之初获得较好的棋力,但在训练后期所能达到的棋力却与只能与原版的AlphaGo相近,而不学习人类下法的AlphaGo Zero最终却能表现得更好。知乎网友@知谣其实是德鲁伊猜测这或许说明人类的下棋数据将算法导向了局部最优(local minimum),而实际更优或者最优的下法与人类的下法存在一些本质的不同,人类的下法也许实际’误导’了AlphaGo。
有趣的是即使AlphaGo Zero放弃学习人类而使用了随机的初始下法,训练过程也一直朝着收敛的方向进行,而没有产生难以收敛的现象。或许这种自对弈的训练可以让围棋AI接近最完美的方式。
值得注意的是,在12月13号凌晨,AlphaGo代言人谷歌DeepMind科学家黄士杰在Facebook上发帖宣布,他正式从AlphaGo团队离开,转到DeepMind其他项目。加之在2017年5月战胜世界围棋第一人柯洁后,宣布不会再继续开发,参加竞技比赛,后续接连公布了对弈的50局棋谱、两篇论文,并开发围棋教学软件。
可以明确地说,谷歌在围棋AI上的研究已经告一段落,而产业化落地将是下一步的重点。此前DeepMind也披露过AlphaGo团队的下一步计划——研发出应用领域更广泛的算法,包括找、到新的疾病治疗方法、显著降低能源消耗、发明革命性的新材料等。
这也将是腾讯绝艺AI后续的重点,一方面深化腾讯在深度学习及强化学习方面的前沿AI研究,另外一方面,将AI能力赋能到腾讯系的具体产品中,诸如医疗影像领域的觅影、微信中语音转文字、声纹识别、天天P图等产品。(本文首发钛媒体,作者/朱涛伟)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App