怎样训练出一个所向披靡的AI赛车手?
GT Sophy,当今最强的AI赛车手,它在人气最高的纽博格林北环,以17秒的优势破解了F1七冠王汉密尔顿的赛道记录。它的开发者在登上了nature封面的官方论文里提到,让一个起初连油门踏板都不会踩的AI最终变成所向披靡的赛道之王,背后的秘密是一套特别设计的强化学习算法。
什么是“强化学习”?其实和驯猫是一个道理,猫咪听话时奖励一根猫条,尿炕、抓沙发时给予一些惩罚。强化学习就是通过不断的奖励与惩罚,让一个智能体在与环境交互的过程中,逐渐学会一套能够最大化自身收益的行为。那么,要如何把“奖励”真正送到AI手里呢?