全部标签

强化学习

SWEET-RL – Meta 推出的多轮强化学习框架

SWEET-RL项目简介 SWEET-RL是Meta推出的多轮强化学习框架，专门用在训练大型语言模型（LLM）代理进行协作推理任务。SWEET-R基于训练时的额外信息（如参考解决方案）优化“批评者”模型，模型为每个步骤提供奖励，帮助“行动者”模型更好地分配信用、优化策略。SWEET-RL在ColBench基准测试中表现出色，相比其他先进算法，在后端编程和前端设计任务上的成功率和胜率提升6%，使Ll…
工具测评
- 1
- 0
AI逻界7月5日