怎样训练出一个所向披靡的AI赛车手？

虎嗅网 • 2年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

GT Sophy，当今最强的AI赛车手，它在人气最高的纽博格林北环，以17秒的优势破解了F1七冠王汉密尔顿的赛道记录。它的开发者在登上了nature封面的官方论文里提到，让一个起初连油门踏板都不会踩的AI最终变成所向披靡的赛道之王，背后的秘密是一套特别设计的强化学习算法。

什么是“强化学习”？其实和驯猫是一个道理，猫咪听话时奖励一根猫条，尿炕、抓沙发时给予一些惩罚。强化学习就是通过不断的奖励与惩罚，让一个智能体在与环境交互的过程中，逐渐学会一套能够最大化自身收益的行为。那么，要如何把“奖励”真正送到AI手里呢？