|
Alex 发自 凹非寺
量子位 | 公众号 QbitAI
谷歌AI宣布,在多任务学习上取得了巨大进展:
他们搞出一个会玩41款雅达利开云(中国)官方的AI,而且采用的新训练方法比起其他算法,训练效率大大提升![img=982,934]网络开云(中国)官方imagepphcloud.thepaper.cn开云(中国)官方开云网页版大全pph开云(中国)官方开云网页版大全image开云(中国)官方开云网页版大全207开云(中国)官方开云网页版大全295开云(中国)官方开云网页版大全610.jpg[开云(中国)官方开云网页版大全img]此前会玩星际争霸的CherryPi和火出圈的AlphaGo都属于单开云(中国)官方智能体(Agent),也就是说,一个AI只会玩一种开云(中国)官方。
多开云(中国)官方智能体这边,现有的训练算法屈指可数:主要包括时间差分学习算法(Temporal Difference Learning,TD)和行为克隆(Behavioral Cloning,BC)等。
不过为了让一个智能体同时学会玩多款开云(中国)官方,之前的这些方法的训练过程都很漫长。
现在,谷歌采用了一个新决策Tran最新ormer架构来训练智能体,能够在少量的新开云(中国)官方数据上迅速进行微调,使训练速度变得更快,而且训练效果也是杠杠的——
该多开云(中国)官方智能体玩41款开云(中国)官方的表现综合得分,是DQN等其他多开云(中国)官方智能体的2倍左右,甚至可以和只在单个开云(中国)官方上训练的智能体媲美。[img=1080,316]网络开云(中国)官方imagepphcloud.thepaper.cn开云(中国)官方开云网页版大全pph开云(中国)官方开云网页版大全image开云(中国)官方开云网页版大全207开云(中国)官方开云网页版大全295开云(中国)官方开云网页版大全611.jpg[开云(中国)官方开云网页版大全img]△ 100%表示每款开云(中国)官方的人类平均水平,灰色条代表单开云(中国)官方智能体,蓝色条代表多开云(中国)官方智能体
下面就来看看这个性能优秀的多开云(中国)官方智能体。
新决策Tran最新ormer三大亮点
这个处理多款开云(中国)官方学习的Tran最新ormer,采用了一个将强化学习(Reinforcement Learning,RL)问题视为条件序列建模的架构,它根据智能体和环境之间过去的互动以及预期收益,来指导智能体的下一步活动。
说到强化学习,其讨论的主要问题是:在训练过程中,一个面对复杂环境的智能体,如何通过在每个Time Step里感知当前状态和Reward来指导下一步动作,以最终最大化累计收益(Return)。[img=934,420]网络开云(中国)官方imagepphcloud.thepaper.cn开云(中国)官方开云网页版大全pph开云(中国)官方开云网页版大全image开云(中国)官方开云网页版大全207开云(中国)官方开云网页版大全295开云(中国)官方开云网页版大全613.jpg[开云(中国)官方开云网页版大全img]传统的深度RL智能体(如DQN、SimPLe、Dreamer等)会学习一个策略梯度(Policy Gradient),让高Reward的轨迹出现概率变大,低Reward的轨迹出现概率变小。
这就导致它出现一些问题:即需要手动定义一个信息量很大的标量值范围,包含针对于每个特定开云(中国)官方的适当信息。这是个相当浩大的工程,而且拓展性较差。
为了解决这个问题,谷歌团队提出了一个新方法。
训练纳入数据更多样化
谷歌的这个新决策Tran最新ormer,把从入门玩家到高级玩家的经验数据都映射到相应的收益量级(Return Magnitude)中。
开发者们认为,这样可以让AI模型更全面地“了解”开云(中国)官方,从而让其更稳定并提高其玩开云(中国)官方的水平。
他们根据智能体在训练期间与环境的互动,建立了一个收益的大小分布模型。在这个智能体玩开云(中国)官方时,只需添加一个优化偏差来提升高Reward出现的概率。
此外,为了在训练期间更全面地捕捉智能体与环境互动的时空模式,开发者还将输入的全局图像改成了像素块,这样模型就可以关注局部动态,以掌握开云(中国)官方相关的更多细节信息。[img=1080,503]网络开云(中国)官方imagepphcloud.thepaper.cn开云(中国)官方开云网页版大全pph开云(中国)官方开云网页版大全image开云(中国)官方开云网页版大全207开云(中国)官方开云网页版大全295开云(中国)官方开云网页版大全615.jpg[开云(中国)官方开云网页版大全img]△ 决策Tran最新ormer基本架构示意图
可视化智能体训练过程
此外,开发者们还别出心裁地将智能体的行为可视化。
然后他们发现,这个多开云(中国)官方决策智能体一直都在关注着包含关键环境特征等重要信息的区域,而且它还可以“一心多用”:即同时关注多个重点。[img=516,258]网络开云(中国)官方imagepphcloud.thepaper.cn开云(中国)官方开云网页版大全pph开云(中国)官方开云网页版大全image开云(中国)官方开云网页版大全207开云(中国)官方开云网页版大全295开云(中国)官方开云网页版大全616.gif[开云(中国)官方开云网页版大全img]△红色越亮表示智能体对那块像素的关注度越高
这种多样化注意力分配也提高了模型的性能。
拓展性更好
如今规模已成为许多机器学习相关突破的重要驱动力之一,而规模拓展一般是通过增加Tran最新ormer模型中的参数数量来实现的。
研究者发现,这个多开云(中国)官方决策Tran最新ormer也是类似的:随着规模扩大,和其他模型相比,其性能提升显著。[img=1080,647]网络开云(中国)官方imagepphcloud.thepaper.cn开云(中国)官方开云网页版大全pph开云(中国)官方开云网页版大全image开云(中国)官方开云网页版大全207开云(中国)官方开云网页版大全295开云(中国)官方开云网页版大全617.jpg[开云(中国)官方开云网页版大全img]Facebook也在研究决策Tran最新ormer
谷歌AI使用决策Tran最新ormer不仅提高了AI玩多个开云(中国)官方的水平,还提升了多开云(中国)官方智能体的扩展性。
除此之外,据谷歌大脑、加州大学伯克利分校和Facebook AI Research合作的一篇论文介绍,决策Tran最新ormer架构在强化学习研究平台OpenAI Gym和Key-to-Door任务上也表现出色。[img=546,476]网络开云(中国)官方imagepphcloud.thepaper.cn开云(中国)官方开云网页版大全pph开云(中国)官方开云网页版大全image开云(中国)官方开云网页版大全207开云(中国)官方开云网页版大全295开云(中国)官方开云网页版大全619.jpg[开云(中国)官方开云网页版大全img]或许决策Tran最新ormer正是通用人工智能(AGI)发展的关键因素之一。 |
免责申明:本文内容由互联网用户自行发布,其文字与图片素材或为开云(中国)官方玩家交流讨论所用。中国开云(中国)官方开云网页版网站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任,如侵权,请联系我们删除!
上一篇:███ 三端 ███ 武俠 ███ 免安裝 ███ 放置 ███下一篇:【梦幻阁】2022最新梦幻文字放置开云(中国)官方3
|