您的位置:首页 >科技 >

清华DSAC系列算法深度剖析:以50%显著优势超越OpenAI与DeepMind

导读 强化学习技术进展:强化学习技术近年来快速发展,尤其在AlphaGo击败围棋世界冠军后展现出巨大潜力。然而,将其应用于真实世界的机器人仍面...

强化学习技术进展:

强化学习技术近年来快速发展,尤其在AlphaGo击败围棋世界冠军后展现出巨大潜力。然而,将其应用于真实世界的机器人仍面临挑战。清华大学深度强化学习实验室通过模拟人类对自然世界的感知模式,开发出DSAC及DSAC-T系列算法,在复杂环境中动态调整动作概率分布,性能大幅提升,领先OpenAI的PPO和DeepMind的DDPG算法50%以上。

算法与软件创新:

团队在NIPS2024中发布了DACER算法,结合扩散模型与在线强化学习,刷新了性能记录。此外,提出的RAD优化器确保训练稳定性,性能优于主流优化器。这些算法将集成入团队开源的GOPS软件中,该软件以强化学习为核心,兼容多种机器人和工业仿真环境,已应用于自动驾驶、物流机器人等领域。未来,随着GOPS的升级,有望推动具身智能时代的发展。

免责声明:本文由用户上传,如有侵权请联系删除!