Meta 发布强化学习框架 LlamaRL


Meta 发布了 LlamaRL 强化学习框架,基于 PyTorch 构建全异步分布式架构,通过独立执行器并行处理生成、训练和评分任务,并整合 DDMA 和 NVLink 技术实现高效数据传输。

实测显示,该框架在 4050 亿参数模型中,将强化学习步骤耗时从 635.8 秒缩减至 59.5 秒,效率提升 10.7 倍,80 亿、700 亿参数模型训练时间分别缩短至 8.90 秒、20.67 秒。其突破内存瓶颈与 GPU 利用率难题,同时在 MATH 和 GSM8K 等标准测试中模型表现稳定甚至增强,为未来更大规模模型训练提供可扩展解决方案。

论文地址:https://arxiv.org/abs/2505.24034


相關推薦

2025-05-13

INTELLECT-2 已正式发布,该项目展示了一种新的大模型训练方式:利用全球分布的、无需许可的计算贡献者组成的动态、异构网络,以完全异步的方式进行强化学习训练。 INTELLECT-2 具备前沿的推理性能,支持异构计算节点,并允

2025-06-13

Meta发布了最新的开源世界模型V-JEPA 2,称其在物理世界中实现了最先进的视觉理解和预测,从而提高了AI agents的物理推理能力。 开源地址:https://github.com/facebookresearch/vjepa2 官网地址:https://ai.meta.com/vjepa/ 论文地址:https://ai.me

2024-07-10

Socket.D 协议? Socket.D 是一个基于事件和语义消息流的网络应用协议。在微服务、移动应用、物联网等场景,可替代 http、websocket 等。协议详情参考《官网介绍》。 支持: tcp, udp, ws, kcp 传输。 目前:java,kotlin,javascript

2022-10-09

C++ 异构平行编程框架,可以用来加速高性能计算、机器学习、内嵌计算,以及在相当宽泛的处理器构架之上的计算量超大的桌面应用。但 Meta 在实现的内容上有所不同。SYCL 更接近于 GPU 编程层,而 AITemplate 则专注于高性能的 Te

2025-06-07

清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习(RL)训练平台。该平台专为大型语言模型设计,与传统的同步强化学习训练方法相比,它能在保持相似训练结果的同时,大幅缩短训练时间。 这得

2024-07-02

前言 EasyAi的出现对于Java的意义,等同于在JavaWeb领域spring出现的意义一样——做一个开箱即用,让每一个开发者都可以使用EasyAi,来开发符合自己人工智能业务需求的小微模型,这就是它的使命! EasyAi介绍 EasyAi无任何依

2022-09-06

EasyNLP 的中文 CLUE/FewCLUE 等的 Benchmark 知识预训练技术: 发布一系列知识预训练模型,致力于提升预训练模型的常识性和知识性 中文预训练模型:发布针对中文的 SOTA 的预训练模型,降低中文预训练技术门槛 多模态预训练:

2023-03-06

在线学习平台 O'Reilly 最新发布了 2023 年度技术趋势报告,基于该平台 280 万的用户数据,以了解开发人员的兴趣所在。调查结果表明,开发人员对生成式 AI 关键组件的兴趣正在加速增长:有关自然语言处理 (NLP) 的内容同比增长

2025-04-22

有化部署简便;全新升级模型定制优化工具链,支持SFT、强化学习两种模型定制优化方案,定制门槛低。 ✨三大核心技术创新——大规模多阶段强化学习训练方法、基于快慢思考的统一训练方法、工程技术系统创新保障基于国

2025-04-09

太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)

2022-09-14

。 PyTorch 是一个由  Meta (原 Facebook)开源的 Python机器学习库,基于 Torch,用于自然语言处理等应用程序。随着时间的推移,PyTorch 生态逐渐发展壮大,现在拥有约 2400 名贡献者,在该框架上构建了超过 150000 个项目,已成为

2023-08-16

本次 v3.6.0 版本,主要强化全文索引能力,以及优化部分场景下的 MATCH 性能。 强化 强化增强全文索引功能,具体 pr 参见:#5567、#5575、#5577、#5580、#5584、#5587 优化 支持使用 MATCH 子句检索 VID 或属性索引时使用

2023-10-26

Language Model Evaluation Harness 当一个新的大语言模型(LLM)发布时,通常都会被进行评估,将该模型与 ChatGPT 在某个基准上进行比较,很多公司可能会使用 lm-eval-harness 来生成评估分数。lm-eval-harness 由分布式人工智能研究所 Eleuther

2025-05-23

年初,腾讯混元 TurboS “快思考模型”正式发布,作为业界首款大规模混合 Mamba-MoE 模型,其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训,以及后训练阶段引入长短思维链融合技术。 近日,腾