ART 是一款工具,旨在使用强化学习帮助您为现实世界的任务训练智能代理,特别是采用 GRPO 方法。其突出特点是 RULER,能够免去您设计奖励函数的繁琐工作,借助大型语言模型自动评估代理的表现——只需描述您的任务,RULER 会处理其余的工作。这使得构建和改进代理变得更加迅速和简便,适用于任何任务,且其效果往往与手工设计的奖励相当,甚至更佳。您只需简单地输入命令即可安装 ART,并立即开始在自己的计算机或云资源上训练代理。
#python #agent #agentic_ai #grpo #kimi_ai #llms #lora #qwen #qwen3 #reinforcement_learning #rl #Git202507141230
https://github.com/OpenPipe/ART