公众看到的,随手给大家分享一下
声明: 信息来源自公众号:青牛帮(gh_a894caecd597)
应用强化学习(ARL)研讨会是一个介绍强化学习应用和理论的最新进展的线上讨论会。该讨论会由Rui Song, Hongtu Zhu, Tony Qin, Jieping Ye和Michael R. Kosorok组织。
近年来,强化学习在机器人技术、游戏、精准健康、电子商务和网约车等诸多行业中有许多成功的应用。我们的目标是构建一个网络研讨平台,囊括强化学习方法应用在众多领域的最新成果。
这次,ARL研讨会很高兴欢迎阿尔伯塔大学数学与统计科学系的Linglong Kong教授。Linglong Kong教授将在本次研讨会中分享“用于深度强化学习的阻尼安德森混合方法及其应用”。研讨会将于2021年10月28日(星期四)美国西部时间早上7:00 / 美国中部时间早上9:00 / 美国东部时间早上10:00 / 北京时间晚上10:00 开始。更多相关信息敬请关注https://arlseminar.com。
如果在美国,你可以通过Zoom或者YouTube直播加入研讨会;如果在中国,你可以通过哔哩哔哩直播间加入研讨会。链接如下:
题目:用于深度强化学习的阻尼安德森混合方法及其应用
摘要:深度强化学习 (RL) 已广泛用于各种具有挑战性的任务,从游戏到机器人导航。然而,样本效率低下和收敛速度缓慢(比如所需的与环境的交互次数多和训练时间非常长)仍然是 RL 中的具有挑战性的问题。为了解决这些问题,我们提出了一种基于 Anderson 混合的深度强化学习算法的通用加速方法,这是一种加速不动点问题迭代的有效方法。具体来说,我们建立了安德森混合和拟牛顿方法之间的联系,并证明安德森混合通过额外的收缩因子增加了策略迭代的收敛半径,从而更深入地了解了策略迭代中的加速方案。我们通过在 Anderson 混合中引入一个稳定的正则化项和一个可微的、非扩张的 MellowMax 算子提出了一种稳定策略,它可以让模型更快的收敛并拥有更稳定的表现。我们提出的方法的有效性在各种 Atari 游戏上进行了评估。实验结果表明,我们提出的方法提高了已有的深度强化学习算法的收敛性、稳定性和性能。