谷歌、帝国理工、剑桥新神级合作: 让AI向动物学习!深度强化学习新方向
公众号/将门创投
From: Venture Beat; 编译: Shelly
对 人工智能 的智力探索从没有间断。这一回,帝国理工学院和剑桥大学首次把目光转向了动物,并开创性地提出:AI可以从动物身上学习常识!
动物认知更易于理解,是非语言的智能行为。探索动物的认知能力,不仅能训练智能体,也很有可能激发出AI研究人员看待问题的新方式,尤其是在深度强化学习领域。
在如何让AI拥有常识的漫长求索之路上,研究人员往往会从婴幼儿身上入手,从神经科学和行为科学中寻找灵感和答案。
最近,谷歌DeepMind、帝国理工学院和剑桥大学的研究人员开创性地提出:强化学习领域的AI可以从动物身上学到很多!
走近动物认知,
为什么机器人要向它们学习?
研究人员在论文中写道:“动物认知更易于理解,由于动物认知是非语言的智能行为,因而,基于动物认知的实验方法便于研究人员评估结果、进行基准测试、设计训练环境和训练任务。”
此前,认知行为科学家就已经发现,动物的智力水平比人们先前设想的要高,诸如经典的海鸦复仇心理和海豚自我意识。
在10月初的Stanford HAI会议上,DeepMind神经科学研究主任Matthew Botvinick敦促机器学习研究者与神经科学家、心理学家进行更多的跨学科研究。
Stanford HAI会议完整视频
视频链接:https://youtu.be/Q15fcOjHu-s
作为先行者,DeepMind引入了一些将深度学习和强化学习相结合的人工智能,例如deep Q-network(DQN)算法,它以超人的水平玩过许多Atari(雅达利)游戏。我们较为耳熟能详的,是AlphaGo和AlphaZero使用深度学习和强化学习训练AI击败了人类围棋冠军。最近,DeepMind还推出了可自动生成强化学习算法的AI。
训练动物的过程,通常包含着目标和奖励,比如说训练小狗,当小狗做对了指定的动作,就奖励他食物。运用深度强化学习训练智能体的方式和训练动物有相似之处。
探索动物认知,不仅能训练智能体,也可能激发AI研究人员产生看待问题的新视角,尤其是在深度强化学习领域。当研究人员在测试场景中将动物与强化学习的机器人进行比较时,测试AI认知能力的观念就已经突破了传统的思路。比如,动物会在迷宫中搜索包含奖励或食物的盒子,而在此之前,我们从没想到过让AI助手Alexa或Siri也这么做。但是现在,我们认识到,这同样值得一试。
AI如何掌握判断力?
仿真环境是先决条件
研究小组在《Cell Press Reviews》杂志上发表的论文《人工智能与动物判断力》(Artificial Intelligence and the Common Sense of Animals)引用了鸟类和灵长类动物的认知实验。
论文提到:“理想情况下,我们希望构建出一个能够将相互关联的原理和概念作为整体来把握的AI技术,并将其体现在人类的概括和创新能力上。可是如何构建这样的人工智能技术呢?这仍然是个悬而未决的问题。但我们提倡一种方法,其中,强化学习机器人RL可以与丰富的虚拟环境进行扩展交互,从而获取信息。”
在构建上文所述的系统时,研究人员会遇到很多挑战,包括如何让机器人感知到它们存在于一个独立世界中,如何培训机器人掌握判断力的概念。同时研究人员要确定最适合训练的环境和任务型挑战。
训练机器人掌握判断力的先决条件是逼真的3D模拟世界。3D模拟世界可以仿真地模拟日常物品,如可压碎的贝壳、拧开的盖子以及可以撕开的包装。论文写道,这些所需条件在当今物理引擎的技术能力范围内,但想要训练机器人的判断力,仍需要大规模布置这种变化多样的仿真环境。
认知如何启蒙?
机器人也可以拥有判断力
研究人员提出的一个观点耐人寻味:判断力不是人类特有的特征,它取决于一些基本概念,例如因果关系、物体是什么以及物体如何占据空间等。在这些概念下,机器人能否将感知对象视为在相当长一段时间内不会改变的半永久性对象,是衡量机器人是否具备判断力的一个重要能力。
动物表现出的认知形式包括:对物体的持久不变性理解,以及在容器内找到食物可能性的理解,比如,动物会意识到壳里可能有种子。若赋予机器人此类判断力,那么它们有望在之后完成一些转移任务。
尽管当代深度强化学习机器人RL agents可以学会非常有效地解决多项任务,并且某些架构已经显示出基础的转移能力,但目前尚不清楚当前的RL机器人是否都能够理解‘转移’这种抽象概念。假设我们有一个候选机器人,我们将如何测试它是否已经了解了“容器”的概念?
研究人员认为对机器人的训练不应该依赖于大量的例子,而是要基于理解的方法,也就是少样本学习或零样本学习。
该研究集中在物理判断的一个方面,并未考虑判断力的其他表达方式,例如,确定物体形态的能力,如液体或气体;或判断物体用途的能力,如纸或海绵是可使用和改变的。
加州大学伯克利分校的教授Ion Stoica谈到,要通过强化学习提高AI模型的准确性和可预测性。
视频地址:https://youtu.be/qjW5phHoP8U
最近,在其他强化学习发展过程中,加州大学伯克利分校的教授Ion Stoica谈到了为何监督学习比强化学习更常用。斯坦福大学的研究人员还介绍了LILAC来改善动态环境中的强化学习,佐治亚理工学院的研究人员将NLP和强化学习相结合,创建了在冒险游戏中表现出色的AI。
人工智能自发展之初,就一直为了更好地服务人类而努力。那么,让机器人理解如何更好地服务人类的方法,莫过于让它拥有和人类一样的功能或者需求。时至今日,AI已经取得了长足的进步,为了获得突破性的进展,我们必须打破思维的壁垒。
探究人工智能的智力启蒙,从婴儿到动物,鼓励跨学科融合,推动人工智能与心理学、神经学合作,谷歌、帝国理工与剑桥大学的新合作给出了不一样的答卷。
re:
https://venturebeat.com/2020/10/25/researchers-suggest-ai-can-learn-common-sense-from-animals/
https://venturebeat.com/2020/01/02/top-minds-in-machine-learning-predict-where-ai-is-going-in-2020/
deep Q-network (DQN) 算法链接:
https://www.nature.com/articles/nature14236
Artificial Intelligence and the Common Sense of Animals论文链接:
https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(20)30216-3