本章我们重点讨论在真实游戏业务场景中训练强化学习模型的过程中,为什么需要模仿学习,并介绍我们在Avatar训练框架下在模仿学习上做的探索。
我们已经尝试在竞速类游戏上对对抗式模仿学习进⾏了初期探索,将不同赛道地图中使⽤业务中已上线的不同能⼒段模型的录像数据视为模仿学习的⾏为数据。
但是基于示例的强化学习⽅法让我们看到⼀线希望,就是仅通过少许的⼈类示例数据,也能够让游戏AI获得相当⾼程度的智能 ... 阅读全文