4.4k Stars,用日常对话持续优化你的AI代理

训练一个AI模型,通常需要准备数据集、写训练脚本、调参数……一套流程下来,门槛不低。
现在有个项目把这事简化了——OpenClaw-RL。它做的事情很直接:你正常和AI对话,它在后台默默学习,越用越聪明。
项目发布一个月,GitHub已收获4.4k Stars,技术报告登上了HuggingFace每日论文榜首。
它解决了什么问题?
目前大多数强化学习系统,都采用集中式、批处理的训练模式——先收集一批数据,再统一训练。这种方式的问题是:训练过程和实际使用是割裂的。
OpenClaw-RL换了个思路:把你的模型包装成一个OpenAI兼容的API,在日常对话中实时收集交互数据,后台持续优化模型策略。整个过程完全异步,模型继续提供服务,训练在后台跑,互不干扰。
最关键的是:你不需要手动标注任何数据。系统会自动组织多轮对话、识别可训练的对话轮次、根据用户的后续反馈(比如环境反馈、工具返回结果)生成奖励信号。
三种优化方法
项目提供了三种训练方式,适用不同场景:
Binary RL(二元强化学习):适合点赞/点踩、任务成功/失败这类隐式反馈。系统根据下一轮的状态给出评分,然后用GRPO计算优势估计,更新策略。
On-Policy Distillation(OPD,策略蒸馏):适合有明确文字反馈的场景。比如你对AI说“你应该先检查文件再操作”,系统会把这个“提示”提取出来,在token级别优化模型。
组合方法:把上面两种结合起来,同时利用标量奖励和token级别的方向信号,效果最好。官方也推荐用这个。
快速上手
整个流程分三步:
1. 选择部署方式
项目支持三种部署:
- 本地GPU:需要8张GPU(可通过环境变量调整),CUDA 12.9 + Python 3.12
- LoRA(参数高效微调):需要的GPU更少
- Tinker云服务:没有GPU也能跑,直接调API就行
2. 启动RL服务器
选择一种优化方法,运行对应的启动脚本:
组合方法(推荐):
cd slimebash ../openclaw-combine/run_qwen3_4b_openclaw_combine.shLoRA版本(更省GPU):
bash ../openclaw-combine/run_qwen3_4b_openclaw_combine_lora.shTinker版本(没有GPU):
cd openclaw-tinkerpython run.py --method combine --model-name Qwen/Qwen3-8B --batch-size 16启动后,模型会以OpenAI兼容的API形式提供服务:
http://<服务器IP>:30000/v1记下这个地址,下一步要用。
3. 配置OpenClaw
在你的OpenClaw配置文件中,添加一个模型提供商:
{ "models": { "providers": { "qwen": { "baseUrl": "http://<服务器IP>:30000/v1", "apiKey": "apiKey", "api": "openai-completions", "models": [ { "id": "qwen3-4b", "name": "Qwen3 4B", "contextWindow": 32768, "maxTokens": 8192 } ] } } }}配置好后,正常和OpenClaw对话就行。RL服务器会自动收集对话轨迹、计算奖励、训练模型。你用得越多,模型就越适应你的使用习惯。
通用代理训练
除了个人代理优化,OpenClaw-RL还支持训练更通用的代理:
- 终端代理:在shell执行环境中运行,根据stdout/stderr和退出码优化
- GUI代理:基于屏幕状态和可访问性树,用于图形界面操作
- SWE代理:软件工程场景,根据测试结果和代码差异优化
- 工具调用代理:API/函数调用场景,根据返回值优化
每种场景都有对应的启动脚本,放在terminal-rl/、gui-rl/、swe-rl/、toolcall-rl/目录下。
实际效果
项目提供了一个有趣的测试场景:学生用AI做作业(不想被发现用了AI),老师用AI批改作业(要求评语具体友好)。在组合优化方法下,学生场景只需要36次问题交互,老师场景只需要24次批改交互,就能看到明显的行为改善。
注意事项
- 训练和推理都在本地完成,对话数据不离开你的设备
- 不要在对话中泄露敏感个人信息
- API密钥不要写在提示词、日志或共享文件中
- 项目代码基于Apache 2.0协议开源
最后
OpenClaw-RL的价值在于,它把强化学习从“需要专门准备数据集和训练流程”变成了“使用即训练”的自然模式。你不需要理解PPO、GRPO这些算法细节,正常用就行,模型自己会变好。
项目地址: github上搜索:OpenClaw-RL
你平时会用AI代理处理哪些任务?如果它能随着使用不断进步,你希望它在哪些方面变得更聪明?