​Qwen 发布全新偏好建模模型系列 WorldPM 模型


阿里巴巴旗下Qwen团队宣布推出全新偏好建模模型系列——WorldPM(World Preference Modeling),包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和WorldPM-72B-UltraFeedback。

根据官方介绍,该模型通过对1500万条偏好数据的超大规模训练,验证了偏好建模遵循与语言建模相似的规模化定律(scaling laws)。这一发现意味着,随着数据和模型规模的扩展,偏好模型能够学习到统一的偏好表示,从而显著提升模型在监督学习中的表现。

WorldPM-72B系列基于72亿参数规模打造,专为评估和优化其他模型的输出而设计。官方表示,与从零开始训练相比,基于WorldPM进行微调能够显著提升性能,尤其在需要捕捉人类偏好的场景中表现优异。

值得注意的是,WorldPM并非通用的对话模型,而是专注于为其他模型提供偏好评分和优化指导。例如,开发者可以利用WorldPM-72B对生成式AI的回答进行打分,从而提升模型在特定任务上的表现。


相關推薦

2025-07-05

获得最佳表现。 相比上一代Skywork-Reward,昆仑万维全新发布的Skywork-Reward-V2系列提供了基于Qwen3和LLaMA3系列模型训练的8个奖励模型,参数规模覆盖从6亿至80亿。 即便基于最小模型Skywork-Reward-V2-Qwen3-0.6B,其整体性能已几乎达

2024-08-14

微调) 强化模型处理下游任务的能力,再通过 DPO(直接偏好优化)方法加强模型与人类偏好的对齐。 目前通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本 Qwen2-Audio-7B-Instruct。 https://huggingface.co/Qwen/Qwen2-Audio-7B

2025-07-30

中国移动发布了其自主研发的 “九天”基础大模型3.0。根据介绍,“九天众擎语言大模型”实现了架构上的突破性创新,采用可扩展至万亿级的 MoE 架构。通过15T token 的多阶段配比预训练数据与全流程治理体系,其推理能力

2023-09-26

,Qwen-14B-Chat生成内容的准确度大幅提升,也更符合人类偏好,内容创作上的想象力和丰富度也有显著扩展。 用户可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用Qwen-14B和Qwen-14B-Chat。 效果展示: 国际惯例

2025-07-31

Qwen3-30B-A3B 模型迎来了新版本:Qwen3-30B-A3B-Instruct-2507。 这是一个非思考模式(non-thinking mode)的新模型,仅激活3B参数,就能取得可媲美 Gemini 2.5-Flash(non-thinking)、GPT-4o等顶尖闭源模型的超强性能。 Qwen3-30B-A3B-Instruct-2507&nb

2025-08-07

腾讯近期正式开源了全新的文档理解与语义检索框架 WeKnora(维娜拉),一套专为结构复杂、内容异构的文档场景打造的智能问答解决方案。 根据介绍,WeKnora采用现代化模块化设计,构建了一条完整的文档理解与检索流水线。

2025-07-25

展上表现出色,能很好地理解上下文并延续逻辑 对于全新功能(无现成示例参考)的任务,需要更多上下文引导 始终保持与原项目一致的代码风格与架构模式,具备良好的工程一致性 Qwen-3 Coder 表现: 0 个任务能自

2025-08-06

满足问答、推理、代码生成等多场景需求。 🧪 实验性发布 CUDA 12.8 镜像,镜像标签为 v1.8.1-cu128,欢迎体验并反馈使用效果。 📏 max_tokens 不设置时自动使用最大支持长度 提升推理结果完整性,避免因未设置 max_tokens 而被截

2025-06-25

近日,空间理解模型SpatialLM正式发布首份技术报告。这一模型此前曾与DeepSeek-V3、通义千问Qwen2.5-Omni一起登上全球最大的开源社区HuggingFace全球趋势榜前三。 作为一款将大语言模型扩展到3D空间理解任务中的模型,SpatialLM能从3D

2025-06-12

Hugging Face 近日发布开放权重模型贡献榜,中国团队Qwen和DeepSeek成功入围前15名。该榜单表彰为开源社区提供高质量模型权重的团队,其模型广泛应用于学术与产业创新。 由阿里巴巴云智能集团支持的Qwen团队,以Qwen3系列模型

2025-08-12

宣布,Qwen3-30B-A3B-2507 和 Qwen3-235B-A22B-2507 系列模型现已支持高达100万token的超长上下文处理。 此次升级集成了两项关键技术:Dual Chunk Attention (DCA) 和 MInference。 DCA 是一种长度外推方法,能将长序列分割

2025-07-01

通义千问宣布正式推出 Qwen VLo——一个多模态统一理解与生成模型,目前 Qwen VLo 还属于预览阶段,可在 Qwen Chat(chat.qwen.ai)上直接体验。 “这一全新升级的模型不仅能够看懂世界,更能基于理解进行高质量的再创造,真正实

2025-05-15

阿里巴巴正式发布了Qwen3系列大型语言模型的技术报告。报告详细阐述了Qwen3的模型架构、训练方法、数据处理、可扩展性以及全面的评估结果。 https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf Qwen3系列包括Qwen3-0.5B、

2025-04-03

Hugging Face 发布了最新的大模型榜单,阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频