乒乓球AI达中级水平,应对复杂物理世界不再是人类专长

虎嗅网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

本文来自微信公众号: 返朴 (ID:fanpu2019) ,作者:Ren,编译:Ren,头图来自:


乒乓球,被称为中国的“国球”,是一种世界流行的球类体育项目,打好乒乓球需要快速的反应、精准控制和优秀战略决策。随着计算机科学技术的发展,围绕乒乓球机器人的研究成为热门领域,但其速度和精度双重高要求、目标的控制成为机器人技术中一个具有挑战性的问题。与象棋、围棋等策略游戏不同,它要求机器人具备复杂的人机交互能力,需要在毫秒级的时间内完成设觉检测、轨迹预测、运动决策等动作。


近日,DeepMind公司宣布,其研发团队开发出一款乒乓球机器人,可在比赛中达到人类业余乒乓球选手的水平,能够与中级选手进行旗鼓相当的对抗,甚至在面对高级选手时也能赢得相当比例的分数。最令人惊叹的是,它具有学习和适应能力,在与人类比赛的刚开始阶段,它可能会落后,但随着比赛次数的增加,它能模拟和学习人类的打法,调整策略,使比分变得更加接近。


围棋已经被AI算法征服,在乒乓球竞赛上,人类还能将优势坚守多久?


继AlphaGo在围棋上征服人类之后,谷歌DeepMind近日又放大招,这次是一个能够在乒乓球比赛中与人类业余选手一较高下的机器人。它不仅会正反手接球,还能学习和适应不同对手的打法,展现出令人惊叹的灵活性和学习能力。


目前,这个乒乓球机器人尚未命名,但科技媒体Arstechnica给了个建议,叫它AlphaPong。


乒乓球作为一项需要快速反应、精准控制和战略思维的运动,长期以来被认为是AI和机器人技术的一个巨大挑战。与象棋、围棋等纯粹的策略游戏不同,乒乓球机器人要求具备复杂的人机交互能力,需要在毫秒级的时间内做出决策和动作。


谷歌DeepMind的最新成果,标志着AI在体育竞技的应用方面迈出了重要一步。研究团队在论文中自豪地宣称:“这是首个能与人类在同等水平上进行体育竞技的机器人代理,它标志着机器人学习和控制技术的一个重要里程碑。”


乒乓球机器人是怎样练成的?


这款乒乓球机器人,机械部分来自ABB公司的IRB 1100型号机械手臂,是ABB公司推出的最紧凑和轻量化的六轴机器人之一,具有6个活动关节,安装在两个直线轨道上,使其能够在2D平面内自由移动,并覆盖球台的大部分区域。机械臂的末端装配了一个3D打印的球拍手柄和一个标准正胶乒乓球拍。这种设置模仿了人类选手的横板握法,使机器人能够执行各种常见的乒乓球技术动作。


乒乓球机器人的“大脑”是一个复杂的AI系统,该系统还配备了高速摄像机来实时捕捉球员动作和乒乓球的轨迹。采用了分层和模块化的策略架构。这个架构主要由两个部分组成:低级控制器 (LLC) 和高级控制器 (HLC)


LLC是一组经过训练的神经网络,负责执行特定的乒乓球技能,例如:正反手击球、回球、接发球等。LLC 可能包括用正手打出斜线球、保守地打反手球,以及用正手回击下旋球等。


LLC同时收集和存储了详细的技能描述,用于说明其在不同情况下的优劣表现,为高层控制提供重要参考。LLC采用卷积神经网络 (CNN) 架构,能够直接从视觉输入生成50Hz的关节速度指令,实现精准的动作控制。


HLC则是指挥官,协调LLC,在每次来球时,基于当前比赛统计数据、技能描述以及对手的能力,做出最优战略决策。HLC包含多个关键组件,其中,风格策略决定是使用正手还是反手;旋转分类器识别来球的旋转;比赛统计模块追踪对手和机器人的表现;策略模块使用前几个组件作为输入,给出候选LLC的列表;而LLC偏好模块则估算每个LLC对当前对手的表现,并在每次击球后更新,实现实时学习和适应对手特点。


这种分层架构使得机器人能够在毫秒级的时间内做出复杂的决策,既保证了反应速度,又保障了动作的精度。


从虚拟到现实


这个乒乓球机器人系统的训练过程融合了强化学习和模仿学习的优点,采用了一种创新的迭代方法来克服从虚拟到现实的挑战。


首先,研究团队在现实世界中部署了机器人,收集与人类互动的数据,通过数据集上训练,在现实世界中评估,并使用带注释的评估数据扩展数据集进行迭代循环,研究团队最终得到大量的球状态数据和发球数据。


然后,他们使用强化学习算法在精心设计的模拟环境中训练AI系统。这个模拟环境使用了MuJoCo物理引擎,可以在仿真中切换不同的球拍参数,来模拟真实世界中的上旋和下旋效果。训练完成后,AI系统被直接部署到真实的机器人上,与人类选手进行对抗。这个过程中产生的新数据又被用来更新训练,形成一个不断迭代的循环:训练-部署-数据收集-再训练。


通过这种方法,机器人的技能在模拟与现实相结合的过程中不断提升,比赛也逐渐变得更加复杂。


这种迭代方法的一个关键优势是,机器人能够在实战中发现自身能力的不足,然后通过在模拟环境中的持续训练来弥补这些缺陷。正是这种自我完善的能力,使其能够不断适应新的对手和打法。


实战表现


为了评估机器人的实际表现,研究团队进行了一项全面的用户研究。他们首先进行了一项预研究,由一名专业乒乓球教练对59名志愿者的水平进行评估,将他们分为初学者、中级、高级和高级+四个等级。


在正式的用户研究中,29名参与者与机器人进行了3场比赛,并有一个可选的自由练习环节。研究的主要指标是机器人在与人类选手比赛中的得分情况,同时研究人员还对比赛视频进行了分析。


研究结果令人印象深刻:


  • 机器人在所有比赛中赢得了45%的胜利,在所有局数中赢下了46%,在所有分数中拿到了49%的得分。

  • 对阵初学者时,机器人的胜率高达100%。

  • 对阵中级选手时,机器人赢得了55%的比赛和50%的局数。

  • 对阵高级和高级+选手时,机器人没有赢得任何比赛或局数,但仍然得到了34%的分数。


这些数据表明,机器人的整体表现达到了业余选手的水平,能够与中级选手进行旗鼓相当的对抗,甚至在面对高级选手时也能赢得相当比例的分数。


机器人最令人惊叹的特点之一是它的实时适应能力。研究人员观察到,在一场比赛的开始阶段,机器人可能会落后,但随着比赛的进行,它能迅速适应对手的打法,调整策略,使比分变得更加接近。


参与者的反馈也非常积极。各个技能水平的玩家都认为与机器人的比赛很有趣,并表示有兴趣再次与机器人对战。在赛后访谈中,玩家们用“有趣”和“刺激”等词来描述机器人。


值得注意的是,不同技能水平的玩家对机器人的看法略有不同。初学者和中级玩家认为机器人更具挑战性,而高级和高级+玩家则认为它更具吸引力和乐趣。这表明机器人能够适应不同水平的对手,为各类玩家提供适度的挑战和乐趣。


这点也是研究人员特别关注的。这种愉快的互动体验突显了AI在体育训练和娱乐领域的潜力。想象一下,一个能够适应你的水平,不知疲倦的训练伙伴,既能挑战你的极限,又能让你乐在其中。这样的AI陪练可能会彻底改变我们学习和练习运动的方式。


局限与挑战


尽管整体上表现不俗,这个机器人仍然存在不小的局限性。首先就是它还不会发球,只能靠人类发球开局。


其次,研究团队发现,它在处理极快球、极低球和高球时表现欠佳,对带有强烈旋转的球也难以准确判断。此外,其反手技术相比正手还有很大的提升空间。


一个尤其突出的弱点是处理下旋球的能力,面对下旋球时,机器人击球的上台率显著下降。


研究人员解释称,这主要是因为机器人在处理弧线低且接近球桌的球时,为了避免撞击到球桌,很难做出精准控制。同时,在实时确定球的旋转类型上也存在技术局限。


这些挑战为未来的研究指明了方向。例如,通过更先进的控制算法和硬件优化来降低延迟,开发更复杂的碰撞检测和规避算法来应对低球,探索更强的战略制定能力,甚至是让机器人之间对打。


可以说,DeepMind的最新成果展示了AI和机器人技术在复杂物理世界任务中的巨大潜力。这项技术的应用将远不止于乒乓球,它可以推广到需要快速反应和适应不可预测人类行为的各种机器人任务中,实现更高水平的人机协作。


一位人工智能、大模型领域的研究人士告诉《返朴》,AlphaPong目前可以实现大部分乒乓球爱好者陪练需求,从长远的发展来看,它需要采集更多的数据,包括各种旋球、假动作等人类各种技能数据,再通过AI强大的算法战胜人类,但是能“见”到多少是个未知数。后期,Alphapong可能会面临在不同的条件下优化现有的模型。


不妨想象一下,每个运动员都能拥有一个能够模仿世界顶级选手风格,同时又能根据个人特点调整难度的AI训练伙伴。这不仅能提高训练效率,还能帮助运动员更好地理解和改进自己的技术。


随着技术的不断进步,我们可以期待看到更多类似的AI系统在各个领域崭露头角。它们不是来取代人类,而是来协助、激励和挑战我们的,推动我们去探索人类潜能的极限。


参考资料

[1] https://arxiv.org/abs/2408.03906

[2] https://arstechnica.com/information-technology/2024/08/man-vs-machine-deepminds-new-robot-serves-up-a-table-tennis-triumph/[3] https://www.youtube.com/watch?v=EqQl-JQxToE

随意打赏

提交建议
微信扫一扫,分享给好友吧。