谷歌开源 OpenRL：把 LLM 后训练与基础设施解耦，GPU 利用率有望大幅提升

谷歌 GKE Labs 近日推出了一个名为 OpenRL 的开源项目，旨在为大型语言模型（LLM）的后训练和微调提供一个自托管的 API。该项目运行在标准的 Kubernetes 集群上，核心思路是将强化学习（RL）基础设施从 AI 研究中抽象出来，让机器学习团队能够直接在自己的集群上扩展后训练工作流。

据谷歌工程师介绍，在 LLM 上实施基于代理的强化学习时，团队“极易因系统复杂性高而陷入困境”。即便是一个简单的强化学习循环，也需要同时处理数据准备与清洗、环境选择、训练循环调试、奖励设计、推理不一致问题、硬件配置以及底层基础设施管理等诸多环节。而真正让情况变得更加复杂的是，在当今的工具和框架中，AI 研究与基础设施问题紧密地交织在一起。

分离关注点：像 Kubernetes 一样简化 AI 工作流

谷歌工程师认为，通过将基础设施与 AI 研究分离，这些挑战将变得更易于应对，使专业团队能够专注于各自的领域。这与 Kubernetes 通过实现基础设施抽象化，从而为应用程序开发人员和可靠性工程师简化工作流的方式如出一辙。OpenRL 正是这一理念的产物——它明确划分职责：研究人员可以专注于开发强化学习循环，而工程师则负责执行和扩展训练后微调工作流。

提升 GPU 利用率：并行执行多个强化学习任务

OpenRL 提高训练后微调效率的方式之一，是在用户的基础设施上同时运行多个强化学习任务，借此提升整体的 GPU 利用率。据谷歌研究人员称，传统的强化学习循环是严格按顺序执行的，这往往导致 GPU 在等待 CPU 或网络受限任务（尤其是奖励计算）完成时处于空闲状态。OpenRL 通过并行化打破了这一瓶颈，让 GPU 资源得到更充分的利用。

此外，OpenRL 在研发体验上也做了优化。研究人员无需直接在配备 GPU 的机器上运行强化学习循环，而只需在 Mac 上运行强化学习循环，并将其指向在 Kubernetes 集群或虚拟机上运行的训练 API 即可。这种设计降低了实验门槛，加快了迭代速度。

代码库与集成：包含 text-to-sql 示例，支持多平台

OpenRL 代码库中附带了一个名为 autoresearch 的方案，演示了如何在 Gemma 模型的 text-to-sql 工作流中，针对参数扫描运行并行实验并优化奖励信号。除了实际的应用价值外，谷歌还将其作为自动化如何简化并扩展 AI 研究的范例做了重点介绍。

在平台支持方面，OpenRL 可以在 macOS、Nvidia GPU 和 GKE 上轻松使用。此外，得益于其与 Tinker 端点的兼容性，它还能与 Tinker-Cookbook 集成，进一步拓展了可用的工具生态。

行业背景：并非孤立的尝试

OpenRL 并非唯一致力于通过更好的分离关注点来简化训练后微调的尝试。例如，FeynRL 确保了微调方案与系统逻辑的分离，这不仅使研究人员能够更轻松地开发和测试新方法，还能借助 DeepSpeed、Ray 和 vLLM 等工具实现这些方法的规模化应用。谷歌的 OpenRL 项目为这一方向提供了来自 Kubernetes 生态的原生方案，有望推动 LLM 后训练基础设施的标准化。

文章来源：https://aidadog.com/news/ai/bfuu4ep56u15teghos5k9sbe

谷歌开源 OpenRL：把 LLM 后训练与基础设施解耦，GPU 利用率有望大幅提升

分离关注点：像 Kubernetes 一样简化 AI 工作流

提升 GPU 利用率：并行执行多个强化学习任务

代码库与集成：包含 text-to-sql 示例，支持多平台

行业背景：并非孤立的尝试

千元级机器人训练数据系统开源，前华为天才少年团队将精度提升至毫米级

继续阅读