Meta 发布强化学习框架 LlamaRL

2025-06-13 發表於开源资讯

Meta 发布了 LlamaRL 强化学习框架，基于 PyTorch 构建全异步分布式架构，通过独立执行器并行处理生成、训练和评分任务，并整合 DDMA 和 NVLink 技术实现高效数据传输。

实测显示，该框架在 4050 亿参数模型中，将强化学习步骤耗时从 635.8 秒缩减至 59.5 秒，效率提升 10.7 倍，80 亿、700 亿参数模型训练时间分别缩短至 8.90 秒、20.67 秒。其突破内存瓶颈与 GPU 利用率难题，同时在 MATH 和 GSM8K 等标准测试中模型表现稳定甚至增强，为未来更大规模模型训练提供可扩展解决方案。

论文地址：https://arxiv.org/abs/2505.24034

相關推薦

“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习

2025-08-29

行优化。我认为以上两个阶段都不会消失，但在当前的强化学习时代，关键要素变成了“环境”（environments）。与前两者不同，环境能让大语言模型真正地进行交互——采取行动、观察结果等。这意味着我们有望超越简单的“

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 320 亿参数模型

2025-05-13

INTELLECT-2 已正式发布，该项目展示了一种新的大模型训练方式：利用全球分布的、无需许可的计算贡献者组成的动态、异构网络，以完全异步的方式进行强化学习训练。 INTELLECT-2 具备前沿的推理性能，支持异构计算节点，并允

Meta 发布开源世界模型 V-JEPA 2

2025-06-13

Meta发布了最新的开源世界模型V-JEPA 2，称其在物理世界中实现了最先进的视觉理解和预测，从而提高了AI agents的物理推理能力。开源地址：https://github.com/facebookresearch/vjepa2 官网地址：https://ai.meta.com/vjepa/ 论文地址：https://ai.me

Meta 推出不限定 GPU 的 AI 框架

2022-10-09

C++ 异构平行编程框架，可以用来加速高性能计算、机器学习、内嵌计算，以及在相当宽泛的处理器构架之上的计算量超大的桌面应用。但 Meta 在实现的内容上有所不同。SYCL 更接近于 GPU 编程层，而 AITemplate 则专注于高性能的 Te

🎉 Socket.D 网络应用协议，v2.5.9 发布（已有 java, py, js SDK）

2024-07-10

Socket.D 协议？ Socket.D 是一个基于事件和语义消息流的网络应用协议。在微服务、移动应用、物联网等场景，可替代 http、websocket 等。协议详情参考《官网介绍》。支持： tcp, udp, ws, kcp 传输。目前：java，kotlin，javascript

清华大学与蚂蚁集团发布异步强化学习训练平台 AReaL-boba²

2025-06-07

清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习（RL）训练平台。该平台专为大型语言模型设计，与传统的同步强化学习训练方法相比，它能在保持相似训练结果的同时，大幅缩短训练时间。这得

阿里云机器学习 PAI 开源中文 NLP 算法框架 EasyNLP，助力 NLP 大模型落地

2022-09-06

EasyNLP 的中文 CLUE/FewCLUE 等的 Benchmark 知识预训练技术: 发布一系列知识预训练模型，致力于提升预训练模型的常识性和知识性中文预训练模型：发布针对中文的 SOTA 的预训练模型，降低中文预训练技术门槛多模态预训练：

原生 Java 人工智能算法框架 easyAI v1.1.9 版本发布

2024-07-02

前言 EasyAi的出现对于Java的意义，等同于在JavaWeb领域spring出现的意义一样——做一个开箱即用，让每一个开发者都可以使用EasyAi，来开发符合自己人工智能业务需求的小微模型，这就是它的使命！ EasyAi介绍 EasyAi无任何依

报告：Go/Rust 挑战 Java/Python 地位，AI 备受关注

2023-03-06

在线学习平台 O'Reilly 最新发布了 2023 年度技术趋势报告，基于该平台 280 万的用户数据，以了解开发人员的兴趣所在。调查结果表明，开发人员对生成式 AI 关键组件的兴趣正在加速增长：有关自然语言处理 (NLP) 的内容同比增长

PyTorch 基金会正式成立

2022-09-14

。 PyTorch 是一个由 Meta (原 Facebook)开源的 Python机器学习库，基于 Torch，用于自然语言处理等应用程序。随着时间的推移，PyTorch 生态逐渐发展壮大，现在拥有约 2400 名贡献者，在该框架上构建了超过 150000 个项目，已成为

讯飞星火 X1 全新升级，基于全国产算力训练的深度推理大模型

2025-04-22

有化部署简便；全新升级模型定制优化工具链，支持SFT、强化学习两种模型定制优化方案，定制门槛低。 ✨三大核心技术创新——大规模多阶段强化学习训练方法、基于快慢思考的统一训练方法、工程技术系统创新保障基于国

Vision-R1：强化学习助力视觉定位，图文模型性能提升 50%

2025-04-09

太初团队联手推出了一种新方法 ——Vision-R1，利用类 R1强化学习技术，显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升，甚至超过了参数规模超过10倍的现有最优模型（SOTA）

360 智脑推出 Light-IF 系列模型

2025-08-13

五个关键环节来提升模型性能:难度感知指令生成、Zero-RL强化学习、推理模式提取与过滤、熵保持监督冷启动、熵自适应正则强化学习。这一框架的提出，旨在破解当前推理模型中存在的“懒惰推理”现象，即模型在思考阶段仅

字节跳动 Seed 最新强化学习配方 POLARIS 开源

2025-07-17

动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供了新路