问题求助 - 深度强化学习实验室

问题求助

对疑难问题的求助

求助【追捕问题】
【求助】SMAC环境还能不能使用？
大家怎么看LLM+Agent的发展前景？
强化学习做5自由度的连续动作控制可行吗
上万的动作空间，还能用DQN算法吗？
学习人类反馈强化学习RLHF的入门教材和值得研究的开源代码有哪些？
强化学习除了PPO算法，哪些算法效果更佳，训练更方便？
DDPG网络训练前后测试效果均不佳
我现在在使用ddpg算法实现基于连续动作空间的局部路径规划。但是算法跑出来的结果，不收敛。有没有大佬能帮我解答一下。代码已上传
PPO中，对过大/过小的优势值，有没有哪些比较好的数据处理方法？
RLHF、RLAF、RLIF和RLTF的区别与联系？
目前Reward Model（RM）的研究现状如何？是否是突破RL的方法
请问强化学习中Mujoco连续帧的图是如何绘制的？
基于强化学习微调的RLHF技术应用前景如何？奖励函数模型该如何训练？
强化学习（reinforcement learning)有什么好的开源项目、网站、文章推荐一下？
如何解决超长序列的控制问题？有没有大佬能够提供一些思路？
请问各位大佬，Mujoco的图如何做出来的，PS？
任务目标提前结束，导致奖励下降，怎么解决？
MADDPG平均奖励不收敛
如何评价openai最新提出的Q*算法？

« 上一页下一页 »

Document