开启左侧

初探 OpenManus-RL

[复制链接]
在线会员 mwQIzsAK2 发表于 2025-4-20 18:53:21 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
image甚么是OpenManus-RL?

区分于 Manus,OpenManus-RL 是一个尝试性智能体 RL框架,旨正在对于拉理模子截至加强进修微调去适配 一定范围的 Agent 任务 (拉理模子正在Agent体系中一般动作plan节面)。
为何需要OpenManus-RL?

    起首, 拉理模子的 RL 微调皆是激起才气。 如DeepSeek皆是激起的通用才气关于笔直范围的 Agent 任务需要固然一定的RL 微调
手艺构成

数据准备

    通用拉理模子 -> reasoning格局数据 -> 嘉奖模子(可选,如 PPO)
锻炼战略

    挑选锻炼框架 (今朝散成为了 Verl, TinyZero, OpenR1)挑选 reasoning 格局数据 (cot, tot,got 等)RL 微调


image已完待绝
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )