谷歌 GKE Labs 近日推出了一个名为 OpenRL 的开源项目,旨在为大型语言模型(LLM)的后训练和微调提供一个自托管的 API。该项目运行在标准的 Kubernetes 集群上,核心思路是将强化学习(RL)基础设施从 AI 研究中抽象出来,让机器学习团队能够直接在自己的集群上扩展后训练工作流。

据谷歌工程师介绍,在 LLM 上实施基于代理的强化学习时,团队“极易因系统复杂性高而陷入困境”。即便是一个简单的强化学习循环,也需要同时处理数据准备与清洗、环境选择、训练循环调试、奖励设计、推理不一致问题、硬件配置以及底层基础设施管理等诸多环节。而真正让情况变得更加复杂的是,在当今的工具和框架中,AI 研究与基础设施问题紧密地交织在一起。





