醒醒吧，自主学习才是智能机器人的关键

雷锋网 • 9年前扫码分享

设计和制造机器人并使之具有类人的智能，是人类文明进步与科技发展的目标之一。自上世纪中叶，第一台可编程机械手及工业机器人问世以来，机器人的研究取得了丰硕的成果，并在工业、医学、农业、建筑业、军事等领域得以广泛应用。由于机器人技术综合了多个学科的研究成果，代表了高科技发展的前沿，因此机器人成为体现各国科技实力的一项重要指标，引发了全球研究的热潮。

探索的步伐从未停歇

从我国西周出现的“歌舞伶人”、古希腊人发明的“自动机（Automata）”，一直到当下各国研发的各类先进机器人，综观这一研发历程可知，人类对机器人的研究经历了探索概念原型、面向程控机械、注重自主功能、强调高智能水平等发展阶段。

1954年，第一台可编程机器人（机械手）和1959年第一台工业机器人相继问世，标志着真正意义上的机器人诞生；1968年美国斯坦福研究所研制出名为Shakey的第一台自主移动机器人，机器人以独立可移动个体的身份出现在世人面前；1969年日本早稻田大学加藤一郎实验室研制了第一台以双脚走路的人形机器人，与人们长期期待的真正像人一样的机器人的梦想实现了接轨。

机器人学来自人们生产生活的大量实际需求，并且由于涉及众多学科的技术革新，促使机器人技术飞速发展。机器人行业的巨大潜在价值得到了各国政府的强力支持、各大公司及科研院所的产学研整合。正是这些力量的汇聚，架构了一个前景广阔的机器人产业。与机器人学紧密相关的各个学科的突破和发展为机器人的研发打下了坚实的基础。20世纪末，一系列各具特色的机器人井喷式涌现。

2015年6月，在美国国防先进项目研究局（DARPA）举办的挑战赛上，登台亮相了一批来自世界各国的先进机器人。几乎每一款先进机器人的研制都有其相对应的强大力量作为支撑 —— 如DARPA支持下的波士顿动力研究所（Boston Dynamics）大狗（BigDog）机器人、Petman机器人、美国麻省理工学院（MIT）Atlas机器人与猎豹（Cheetah）机器人、欧盟框架计划（EUFP6，EUFP7，Horizon 2020）支持下的iCub、日本产业技术综合研究所（AIST）HRP系列机器人、日本本田公司的ASIMO机器人以及韩国高等科技研究院的HUBO机器人等。

美国波士顿动力研究所的大狗（BigDog）机器人

尽管机器人的研发已经取得了长足的进展，然而“如何使机器人具备智能”仍然是一项具有极大挑战的课题。首先要回答的问题便是： 机器人能否具备智能？ 这是一个哲学性质的命题，而对这一命题的解答是以另一个问题的回答为基础的，那就是： 智能的本质是什么？ 该问题与物质、宇宙、生命被学者并列为自然界的四大奥秘。

目前看来，在包括脑科学与认知科学在内的众多相关学科取得更大的、根本性的突破进展之前，该问题仍然无法获得完美解答。

与人工智能领域的研究及发展类似，如何使机器人具备智能这一课题的研究，并未因其根本问题未予完美解答而停滞。相反，使机器人具备高智能性正成为现阶段机器人领域研究的主题。研究者以人的智能行为能力为蓝本，从强调机器人环境知觉组织、复杂场景适应、交互与协作、概念形成与整合、知识获取与推理、自主认知与高级决策、类人智能行为等角度，展开机器人的智能性研究。

双足才是最优选

与轮式、履带式和多足式机器人不同，双足的仿人机器人（Humanoid Robot）作为结构复杂、高度集成的机器人家族成员，由于外形与人相似，不仅更适合在生活和工作环境中与人类协同工作，而且更适宜借鉴来自于人的智能行为能力的启示，从而成为研究机器人智能性的最佳选择。最典型的代表是在欧盟第6及第7框架计划（EUFP6，EUFP7）以及Horizon 2020计划支持下的iCub机器人。

iCub由欧洲10所大学组成的欧洲创新大学协会联合研制，他们认为“仿人的操作是人类认知能力至关重要的因素”。基于这一“具身认知（Embodied Cognition）”思想，研究人员尽最大可能地模仿人的各类传感及结构，历时6年（2004年至2010年）开发了一个外形与2岁儿童相似的机器人iCub。iCub强调“认知能力的学习”，并将其作为开源平台，通过与环境交互和与人交互来获得各类行为能力和认知能力。

iCub机器人的外形与2岁儿童相似

日本本田公司研发的ASIMO机器人以其移动能力和能实现复杂动作的特点而声名大噪。随后在其版本更新的过程中，ASIMO对环境的认知能力也不断加强，如增加了在复杂办公室环境里的灵活避障、与人交互的基本智能行为等。

日本本田公司研发的ASIMO机器人

由于双足机器人是一个固有的非线性不稳定系统。故而在现阶段，其在复杂多变路面环境下的稳定、快速双足行走，仍然是一个挑战。韩国高等科技研究院HUBO仿人机器人，在2015年6月举行的美国DARPA机器人挑战赛上一举夺魁，主要技术策略正是对双足行走的研究成果。HUBO机器人利用在其膝盖和脚踝处装置的滚轮，通过一个跪下行为实现了由双足行走到轮式行走的切换，极大地提升了移动速度。这为研究机器人智能行为借鉴其他优势模式的有益性提供了例证。

韩国高等科技研究院HUBO仿人机器人

自主学习不可或缺

学习能力是系统智能性的必要条件，一个不具备学习能力的系统，当然谈不上“智能”二字。学习的本质是指系统能根据过往经验提升自身性能。机器学习作为人工智能领域的核心内容，本就是一个持续受到高度关注的热点，在“深度学习（Deep Learning）”取得巨大成功之后则更是如此。

在探索机器人智能性的过程中，强调学习的特性是自然而然的事情。然而，我们想要强调的是，这种学习更应是 机器人的自主学习 。以机器人获得识别人脸能力为例，自主学习指的是这样的情形：机器人通过自己的眼睛（即安装在机器人上的摄像头），不断观察呈现在它面前的人脸图像，最终形成能正确识别人脸的策略，这一过程应是增量式且终生性的，即识别性能可随观察的增多而不断地提升（Incremental Learning），且像人类一样，在机器人生命期内一直持续（Life-long Learning），并非仅仅将一个事先训练好的人脸识别模型装载在“机器人的大脑”（机器人的主机）中便万事大吉。尽管后一种处理方式可能省时省力，也可以使机器人暂时性地具备更好的识别性能，但这种方式却忽略了机器人在“习得”这一能力过程中所拥有的丰富“副产品”—— 其他各种可能会在以后转化为知识的有用图像信息。

机器人智能性的体现不应是在代替人从事单一工作时的表现，更应是像人类那样，智能地从事各类工作，并应对多种情况。工业机器人引发了社会的重大变革，极大地提高了生产力，但那仅仅是“重大的”，并不是“彻底的”、“颠覆性的”。真正能够使人类的生产生活发生深刻变革的，只可能是具备“通用智能（General Intelligence）”的机器人。这当然极具挑战，甚至可能无法实现，但有关机器人智能性的研究正朝着这个目标迈进，而强调机器人的自主学习方式，无疑是一个很好的出发点。

自主学习的三大特点

智能机器人自主学习的基本场景体现在其各项技能的具体获取过程中。前面提到的机器人自主学习识别人脸是机器人获得人脸识别这项技能的一个例子，另一个更直接的例子是机器人获得各项运动行为能力的过程。根据机器人系统的构造方式，理论上，其在工作空间内的任意稳定运动行为（不仅包括静态稳定，也包括动态稳定）都可以通过设计一组多关节运动轨迹来实现，如双足仿人机器人的起立、行走甚至跳舞、打太极拳等。但是，如果这些行为是根据专家经验事先设计调整而成的，那么便毫无智能性可言； 只有当这些行为是在自主学习的框架下获得的，并且具备前述增量学习和终生学习的特点，才算是机器人具有智能性的一种体现。

智能机器人自主学习的另一个特点，是 对过往经验或已有知识的再利用 。这一思路与发展学习（或发育学习，即Developmental Learning）的思想是相吻合的。它是对人的学习成长过程的借鉴，因为利用已有经验或知识来学习新的事物是人类提升认知能力和行为能力的基本特征之一。

“机器人能否像小孩一样学习？”

事实上，机器人基于自主学习思想获得智能行为能力的过程，正是借鉴了儿童认知发展的过程。早在1950年，以阿兰·图灵（Alan Turing）为代表的许多先驱学者便已提出“机器人能否像小孩一样学习？”等类似问题。然而针对这些问题的系统性研究直到20世纪末才得以展开，这类课题的研究进程以Weng等人于2001年在美国《科学》杂志上发表的“机器人或动物的自主心智发展”为代表。在机器人的已有研究中，有不少工作因其借鉴了人的行为方式从而取得成功，如基于人体运动捕获数据（Human Motion Capture Data, HMCD）的一系列研究、机器人稳定行走研究中的膝盖拉伸（Knee Stretched）及支撑脚横滚策略（Rolling Foot）、抗推搡研究中的踝关节策略（Ankle Strategy）、臀部策略（Hip Strategy）以及迈步策略（Stepping Strategy）等等。

在探索“机器人能否像小孩一样学习？”这个问题之前，首先要弄清楚的问题是“小孩是如何学习的？”。在这个问题上，著名心理学家皮亚杰（J. Piaget）将儿童的认知发展分为感知运动阶段Sensorimotor Stage（0岁至2岁左右）、前运算阶段Preoperational Stage（2岁至6或7岁）、具体运算阶段Concrete Operations Stage（6或7岁至11或12岁）、形式运算阶段Formal Operations Stage（11或12岁及以后）四个阶段，这一思想被公认为20世纪发展心理学上最权威的理论，该思想也为机器人自主学习各项行为能力（特别是运动行为能力）提供了理论依据和实施借鉴。

电影《人工智能》从儿童认知发展角度为机器人的自主学习带来深刻的思考

从儿童认知发展的过程，我们能够得到一系列智能机器人构建其自主学习框架的重要启示：

第一，完全自主性。 我们完全做不到像对待机器人那样，对婴儿各关节赋以角度序列，使其完成某些动作；

第二，家长示教。 尽管不能直接干预婴儿的运动行为，家长仍可通过间接辅教，协助婴儿完成特定的运动行为；

第三，主观模仿。 无论是家长刻意重复特定运动行为过程，还是婴儿自己的主观观察，都更有助于婴儿获得该运动的行为能力；

第四，环境交互学习。 婴儿获得的每一项特定运动行为能力，都是在与实际环境不断交互后才逐渐真正掌握的；

第五，试错模式。 在与环境的不断交互过程中，婴儿总能根据环境的反馈对自身行为能力不断加以调节。

如何管理已获得的行为能力

智能机器人的自主学习还要面对一个问题是： 如何合理高效地利用已获得的各项行为能力 。归根结底，智能机器人研究的根本目标之一是在人类生产生活的实际环境中更好地服务于人类自身。这就需要机器人不仅拥有多项行为能力，而且在任务改变或环境变化时能实时做出恰当的响应，即在线改变其运动行为。

一个直观的方法便是“ 记忆-回调 ”法：仿人机器人将其已获得的各项特定行为能力以某种方式记忆存储，当遇到特定任务或环境时，它会迅速地切换或回调出相应的应对行为与能力。然而，由于任务的多样性以及环境的复杂多变性，对于机器人而言，意味着它要面临过多项不同的运动行为能力的选择。比如，沿不同坡度的坡面行走可能对应着不同的运动技能（要么是不同的控制模型，要么是同一模型的不同参数），那么，简单的记忆回调便不能满足要求了。因此，智能机器人如何通过自主学习获得对已有经验知识的抽取和表示，也成为一个重要的研究课题。知识抽取表示的过程是对已有经验的分析提炼，不仅是智能机器人更好地管理和应用包含这些经验的行为能力的重要途径，同时，也为其进一步基于前文所提及的发展学习思想，获得复杂行为能力提供了有力支撑。

智能机器人通过自主学习获得具有切实的类人的智能行为能力，是一个长久目标，绝非一日之功。然而，前进道路上的每个阶段性进展，在当今机器人技术研发和应用的大热潮下，都可能引发巨大的市场效益，对推动我国乃至世界机器人科技的进步，都将发挥重要作用。