来自中国团队的两大 LLM 架构“开撕”


RWKV 创始人彭博刚刚在社交平台发布了一篇文章,主要讨论 DeltaNet 和 RWKV-7 在基线测试中的问题。

 

来源:

  • https://zhuanlan.zhihu.com/p/1915054612559426430
  • https://github.com/BlinkDL/zoology

事件主角 DeltaNet RWKV 均为中国团队创建的 LLM 架构:

DeltaNet 是结合线性 Transformer 和非线性 Transformer 架构的模型,通过特定方法将非线性 Transformer 转换为线性 DeltaNet 形式,从而在保持性能的同时提高计算效率,经实验验证,在特定数据集上能取得与原始非线性模型相当的性能。

https://sustcsonglin.github.io/blog/2024/deltanet-1/

RWKV(是一种具有 GPT 级大型语言模型(LLM)性能的 RNN,也可以像 GPT Transformer 一样直接训练(可并行化)。  RWKV 结合了 RNN 和 Transformer 的最佳特性:出色的性能、恒定的显存占用、恒定的推理生成速度、"无限" ctxlen 和免费的句嵌入,而且 100% 不含自注意力机制。

https://rwkv.cn/docs/RWKV-Wiki/Introduction

RWKV 创始人发布的文章篇幅较长,核心内容如下:

一、从社交平台开始的争议

  1. 事件起源

    • DeltaNet 作者 Songlin 在 X 平台发文,其中提到 RWKV-7 数据与论文中的结果有显著差异。

    • RWKV 创始人指出错误后(对方在测试 RWKV-7 时使用了非官方实现的代码库,导致结果严重偏差),DeltaNet 团队在微信群以激烈言辞回应(如群内置顶“恶言”),引发争议。


       

RWKV 创始人在查看对方用于测试模型架构的项目代码后(HazyResearch/zoology),发现了两大问题

  • State Size 计算错误
    RWKV-7 的 state size 被错误公式 num_heads * k_dim * v_dim 计算(正确应为 num_heads * head_k_dim * head_v_dim),导致参数膨胀数倍(如 d_model=256 时膨胀 16 倍)。

  • ShortConv 应用不一致
    zoology 为所有架构添加了 shortconv length=4 以提升 MQAR 任务性能,但唯独未给 RWKV-7 添加,使其处于不公平劣势。


二、技术验证:RWKV-7 的数学优越性

  1. 算子表达力对比

    • DeltaNet/GatedDeltaNet:使用标量参数(βt 或 αt, βt),表达力有限。

    • RWKV-7:使用矢量参数(w, a, b, v, k),数学上严格包含 DeltaNet 等架构(例如可通过参数设定退化为 BetterDeltaNet)。

  2. 实验证明

    • 将 DeltaNet 内核替换为 RWKV-7 内核(BetterDeltaNet),在相同 MQAR 任务(8192 state size, 256 kv pairs)中准确率提升:
      14.31% → 13.09%(RWKV-7 胜出)。

    • 证明 RWKV-7 的优越性源于其数学形式,而非 "trick"。

总的来说,RWKV-7 的核心算子在数学上更通用,表达力更强,因此在性能上具有优势。同时,作者批评了 Zoology 库在测试中对 RWKV-7 的不公平对待。


三、对学术圈的批判与反思

  1. 刻意压低 Baseline 的现象

    • 指出许多论文存在 "deliberate carelessness"(有意的无意,通过不公平测试贬低他人工作(如 RWKV 系列长期被恶意对比)。

    • 强调合理基线需满足:
      (1) 使用原作者提供的实现细节;
      (2) 公平应用关键改进(如 shortconv)。

  2. RWKV-7 的实践验证

    • 模型规模:RWKV7-G1(2.9B/1.5B)是训练 token 最多的纯 RNN 架构模型(10+ T tokens)。

    • 数据压缩能力:在未知数据(2025年4月)的字节压缩测试中表现优异(见 UncheatableEval)。


更多细节和数据查看:

  • https://zhuanlan.zhihu.com/p/1915054612559426430
  • https://github.com/BlinkDL/zoology

相關推薦

2024-08-13

。 大会论坛 8 月 15-16 日,上海・张江科学会堂,100+ 来自不同公司、不同社区、不同领域的重磅嘉宾将为您呈现一系列精彩内容: 主论坛:极客与技术,产业与生态,源见未来。 高峰论坛(上):开源生态与商业

2025-06-07

2025年5月,小米自研智能知识库问答框架—Mi-BRAG顺利通过中国信息通信研究院(以下简称“中国信通院”)组织的“可信AI检索增强生成(RAG)”评估,并获当前最高评级4+级。 Mi-BRAG是小米大模型团队自主研发的智能知识库问

2024-07-27

0225 大会论坛 8 月 15-16 日,上海・张江科学会堂,100+ 来自不同公司、不同社区、不同领域的重磅嘉宾将为您呈现一系列精彩内容: 主论坛。主题:极客与技术,产业与生态,源见未来。来自上海市政府的领导、中国电子

2024-10-10

办的全球性大会,是Linux最具影响力的盛会之一,吸引了来自多个国家的商业领袖、开源开发者、设计师和用户。作为LAS的常客,openKylin已连续5年参与这一全球盛会,不断展示在Linux生态创新中的前沿成果。今年,LAS采用线上线

2025-04-09

Intelligence Index Report 2025)。 报告于2025年4月7日发布,由来自学术界和产业界的跨学科专家组成的AI指数指导委员会主导编制。 该报告持续追踪人工智能领域多项关键进展,主要包括:年度重大技术突破、基准测试新纪录、生

2025-04-23

https://huggingface.co/microsoft/bitnet-b1.58-2B-4T 微软研究院与中国科学院研究人员2023年发布名为《BitNet: Scaling 1-bit Transformers for Large Language Models》的论文,首度发布为大语言模型设计的1-bit Transformer架构,称为BitNet。 https://arxiv.o

2025-05-28

联动,统一算子库与编译器 安全合规:由于本代码库有来自多个团队的贡献,我们使用专业工具保障项目代码的安全合规 下一个 FlagTree 版本将在以下方面进行重要更新: 在现有多种芯片后端的支持基础上,继续扩展更

2025-05-20

,我们相信还有进一步提升的空间。 问:你是否感受到来自华尔街和董事会的压力?他们给予你多大的自由度,让你能够做你认为必要的事? 皮查伊:我觉得现在是一个“加速时刻”,以至于连思考压力的时间都变得稀缺。

2023-08-06

意识形态、非法涉黄等多项维度,二是常识问答,涵盖有中国文化、历史、地理和生活等常识知识。新华网物联网技术总监葛振斌表示,“大模型生成的内容必须符合当地法律和社会道德要求。可以说,各个国家都需要‘更适合

2023-07-08

单位,共同倡议成立大模型高质量数据联盟。联盟将汇聚来自各成员单位的开放数据,打造覆盖千行百业的高质量数据集,促进行业大模型的蓬勃发展。 开发者是推动数字创新的核心力量。本次大会上,主题为“创想无限”的2

2023-12-01

令微调模型(chat)。无需申请,免费商用。同时,项目团队还将训练中途的9个模型 checkpoints 开放下载。 相比开源的同级别模型 LLaMA2 70B,DeepSeek LLM 67B 在近 20 个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、

2025-06-10

riplet odd-one-out),要求大模型与人类从物体概念三元组(来自1854种日常概念的任意组合)中选出最不相似的选项。通过分析470万次行为判断数据,团队首次构建了AI大模型的“概念地图”。 实验范式示意图。a,物体概念集及

2022-04-25

的调查,联发科和高通是目前市场占有率排名第一和第二的两家移动芯片制造商,两者的市场份额相加已超过 60%。正因如此,Check Point 预计 2021 销售的 Android 手机中,三分之二都受到该漏洞的影响(还不包括更老旧的 Android 型

2025-05-23

破。通过 EWMBench 提供的精细化、多维度量化分析,研发团队可以精准定位 EVAC 在处理如 “多物体交互”“动态环境避障” 等复杂场景的潜在不足,从而进行更具针对性的优化。 EVAC 与 EWMBench 组合方案,已正式入选 AgiBot World Ch