大家好,感谢邀请,今天来为大家分享一下Dota2冠军OG是如何被AI碾压的? OpenAI积累三年的完整论文终于发布的问题,以及和的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!
在人工智能OpenAI 5面前,OG不堪一击。五个人组成的队伍毫无悬念地被0:2击败。两局加起来,OG只推掉了两座外塔。
然而,这还不是人工智能的顶峰。
现在OpenAI 训练了一个全新的AI,名为Rerun。面对碾压OG的OpenAI Five,Rerun的胜率达到了……呃……98%。
得知这一消息后,一位推特用户贴出了一张明志的照片。
主要靠自学,就能在Dota 2这样复杂的游戏中称霸,人工智能是怎么做到的?今天,这个问题的答案揭晓了。
没错,OpenAI不仅发布了Rerun,还通过论文正式公布了其对Dota2项目三年多的研究。
在本文中,OpenAI对整个系统的原理、架构、计算量、参数等诸多方面进行了阐述。 OpenAI指出,通过增加批量大小和总训练时间,扩大了计算规模,从而表明当今的强化学习技术可以在复杂的电子竞技游戏中达到超越人类的水平。
这些研究可以进一步应用于两个对手之间的各种连续零和博弈。
(可能是读完之后)OG 团队发推文:“哇!这篇论文看起来棒极了!”
这时,有网友深情地感叹:哇! OG团队夸一篇论文好看?再见.
这篇论文到底说了什么?
我们总结了几个要点。
与棋类游戏相比,电子竞技游戏更为复杂。
解决这个问题的关键是将现有的强化学习系统扩展到前所未有的水平,这需要数千个GPU 和数月的时间。 OpenAI 为此构建了一个分布式训练系统。
培训的一大挑战是环境和代码不断变化。为了避免每次更改后都从头开始,OpenAI 开发了一套可以在不损失性能的情况下恢复训练的工具。这套工具叫做:手术。
每场Dota 2 游戏持续约45 分钟,每秒生成30 帧游戏画面。 OpenAI Five 每4 帧执行一次动作。国际象棋大约有80 步,围棋大约有150 步。相比之下,玩一场Dota2 游戏,AI 需要“下”大约20,000 步棋。
而且由于战争迷雾的原因,Dota 2中的战斗双方只能看到比赛整体的一部分,其他部分的信息都被隐藏了。
与下围棋的AlphaGo相比,下Dota2的AI系统的batch size大50-150倍,模型大20倍,训练时间长25倍。
人类玩Dota2,通过键盘和鼠标做出实时决策。刚才提到,OpenAI Five每4帧做一次动作,称为时间步。在每个时间步长中,OpenAI 将接收血量和位置等数据。
人类和OpenAI Five 以完全不同的方式接收相同的信息。
当人工智能系统发出动作指令时,大概可以这样想。
AI的背后是一组神经网络。策略()定义为从观察数据到动作概率分布的函数,是一个拥有1.59 亿个参数的RNN 神经网络。该网络主要由单层、4096 个单元的LSTM 组成。
结构如下图所示:
LSTM贡献了这个模型中84%的参数。
玩家使用扩展版本的近端策略优化(PPO)方法进行训练,这也是OpenAI 当前默认的强化学习训练方法。这些代理的目标是最大化未来奖励的指数衰减总和。
在训练策略的过程中,OpenAI Five没有使用人类对弈数据,而是采用了自我对弈。类似的训练方法也适用于围棋和国际象棋等问题。
其中,战斗中80%的对手是使用最新参数的分身,而20%的对手是使用旧参数的分身。每10 次迭代后,新训练的化身将被标记为旧计时器。如果当前正在训练的AI击败了新秀或老将,系统会根据学习率更新参数。
根据OpenAI CTO此前的说法,OpenAI五人在击败OG之前已经练习了相当于Dota 45,000年的时间。 AI每天的训练量相当于人类180年的游戏时间。
训练如此复杂的AI系统肯定会消耗大量资源。
OpenAI 估算用于优化的GPU 消耗。最终的结论是,OpenAI Five的GPU计算消耗约为77050~82050 PFlops/s·days,而今天新提到的更强的Rerun在随后两个月的训练中,GPU计算消耗约为15050 PFlops/s·days。 5 PFlops/s·天。
再次强调,OpenAI公布的只是用于优化的计算量,这只是训练中所有开销的一小部分,约占30%。
此前,OpenAI还透露,OpenAI Five的日常训练需要256个P100 GPU和128,000个CPU核心。
至于整个神经网络的超参数,OpenAI在论文中表示,在训练Rerun时,根据经验进一步简化了超参数。最终,他们只改变了四个关键的超参数:
• 学习率• 熵罚系数• 团队精神• GAE 时间范围
当然,OpenAI也表示这些超参数还有进一步优化的空间。
最后,还有一点需要强调。
OpenAI在论文中明确指出,在学习Dota2的过程中,AI系统并不完全依靠强化学习进行自我学习,还会使用一些人类知识。这与后来的AlphaGo Zero不同。
有些游戏机制是脚本程序。比如英雄购买装备和学习技能的顺序、信使的控制等。OpenAI在论文中表示,使用这些脚本有一些历史原因,以及成本和时间方面的考虑。不过论文也指出,这些最终都可以通过自学来完成。
在这篇名为Dota 2 with Large Scale Deep Reinforcement Learning 的论文中,OpenAI 发布了更多细节。如果您有兴趣,请访问以下门户:
https://cdn.openai.com/dota-2.pdf
最后我们来回顾一下OpenAI五连胜OG的整场比赛。
AI(半径):火枪、飞机、冰女、死亡先知、斯文
人类(夜魇):特立独行者、巫医、毒龙、隐刺、暗影恶魔
选择阵容后,OpenAI Five认为其胜率达到67.6%。
比赛一开始,OpenAI五人就取得了第一滴血,人类大军迅速击杀了AI冰女。此后,双方前期在人数上旗鼓相当。 AI一直保持着整体经济领先,但最富有的英雄却一直是人类大哥影魔。
这也能看出双方策略上的明显区别:OG是3核心+2辅助的传统人类打法,而AI的五英雄经济分配则比较均匀,更多的是“大锅饭” 。
经过几次激烈的推进和团战,比赛进行到了19分钟左右,AI对自身胜率的预测超过了90%。自信的AI一举征服了人类的制高点。
随后OG选择分道推进。一些评论人士猜测,这是为了尽可能分散AI,阻止它们一起前进。然而,这并没有持续多久。
然而坚持到了38分钟,人类这边的小牛才刚刚买了命,AI的最后一波总攻已经推开了人类的基地。
OpenAI Five 赢得了第一场比赛。现场也响起了掌声。
在这款游戏中,AI表现出了一个奇怪的想法:外出时选择两种大药,后续的装备更倾向于购买物资而不是提升自身属性。
另外,我们前面提到的“大锅”政策以及游戏前期频繁购买作品,与人类职业玩家的习惯有很大不同。
AI(半径):冰女、飞机、斯文、巫医、毒龙
人类(夜魇):火枪手、特立独行者、死亡先知、小鱼人、瑞安
选择英雄后,AI对自身胜率的预测为60.8%,略低于上一场比赛的阵容。
比赛前两分钟,双方在平和的气氛中领先。然而出乎意料的是,人类中单托普森很快就送出了一血。
随后,人类代表以惊人的速度被击败。
5分钟时,AI信心大幅提升,预测胜率80%; 7分钟,AI已经推掉了上路一塔; 10分钟,AI已经领先人类4000金币,又推掉了两座塔,而且……他给自己预估了95%的胜率。
11分钟,AI已经到达OG的高地。
仅仅21分钟,OG的基地就被推开,OpenAI五人轻松拿下第二局。直到比赛结束,OG的击杀数依然是个位数,被AI打到了46:6。
虽然这一局获胜极其轻松,但在比赛过程中还是可以明显看出AI在细节上存在一些不足。例如,面对在复杂树林中徘徊的人类,人工智能就无能为力。在今天的比赛中,Ceb绕过树林救了自己的命。
最后祝大家周末愉快。
- 超过-
量子比特QbitAI·今日头条签约
用户评论
开心的笨小孩声明:本文内容仅代表作者个人观点,与本站立场无关。如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理。