苹果发布论文揭示推理大模型存在显著局限性


苹果研究团队近日发布论文,指出当前主流的推理模型(LRMs)在处理复杂问题时存在显著局限性。

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

研究团队通过可控的谜题环境(如汉诺塔、跳棋等)系统分析了模型的推理能力,发现其性能随问题复杂度呈现三阶段变化:

  • 在低复杂度任务中,非推理模型(LLMs)表现更优;
  • 中等复杂度时,推理模型通过 “思维链”(CoT)展现优势;
  • 而当复杂度超过临界值(如汉诺塔圆盘数≥8),两类模型准确率均骤降至零。

研究还发现,推理模型存在 “反直觉缩放限制”:推理成本(token 使用量)随复杂度先增后减,即使在 token 预算充足的情况下,模型也会在接近崩溃点时主动减少推理投入。

对推理轨迹的分析表明,模型在简单问题中存在 “过度思考” 现象,而复杂问题中则无法有效自我修正。

此外,模型在执行明确算法时表现不佳,显示出符号操作和逻辑一致性的缺陷。


相關推薦

2025-03-30

潜力提供确保AI透明性的独特工具。 尽管当前方法仍有局限性——即使对简短提示,也只能捕获Claude执行的总计算的一小部分——但这一新方向为未来研究铺平了道路。在AI系统变得越来越强大并部署在日益重要的环境中的今天

2025-05-14

匹配凸显了当前视频大语言模型(Video - LLMs)的一个关键局限性,因为它们本质上不具备在及时理解和响应至关重要的流式场景中运行的能力。 我们提出了流桥(StreamBridge),这是一个简单而有效的框架,可将离线视频大语言

2025-06-12

归纳该类问题的共性特征,避免因个别 Oncall 工单描述的局限性而导致对问题的理解偏差。   基于类别引导的微调     类别引导的微调是 TickIt 不断优化准确率的关键机制。当一个 Oncall 按照上述的流程被

2025-05-16

DeepSeek 团队近日发表了新论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,把 DeepSeek-V3 在训练和推理过程中,如何解决“硬件瓶颈”的方法公布了出来。 论文主要介绍了 DeepSeek-V3 在硬件架构

2023-03-16

甚至直接让 GPT-4 回答图片中对应题号的问题: GPT-4 局限性 尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性,即生成的结果不符合事实。因此它仍然不完全可靠(它会产生“幻觉”事实并出现推理错误)。 虽

2025-03-29

的分子设计,通过双向分子环约束解决现有单向编码器的局限性。 通过整合 RWKV 机制,ChemRB 将 RNN 的线性计算效率与 Transformer 的上下文感知相结合,有效捕获 SMILES 序列中的长程依赖性。该模型引入两个预训练任务 ------ 环级

2024-10-15

苹果近日发布多模态大模型 MM1.5,旨在增强对文本丰富的图像的理解、视觉指代和接地,以及多图像推理的能力。 据悉, MM1.5在在 MM1 架构的基础上训练而成,MM1.5 采用了以数据为中心的模型训练方法,在整个模型训练生命周

2025-06-10

o_Vision、Qwen2_VL)在一致性方面表现更优。 此外,研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依赖语义标签和抽象概念。本研究表明大语言模型并非“随机鹦鹉”,其内部存在着

2023-10-10

能力。这个局面如今被打破。 近日,贾佳亚团队联合MIT发布的新技术和新模型悄然登上各大开源网站的热榜:hugging face热榜第一、paperwithcode热度第一,Github全部python项目热度第五、github stars一周内破千,Twitter上的相关技术帖

2025-06-18

一个行业公认的评估标准。 背景:现有 LLM-SQL 评测的局限性 近年来,大语言模型处理结构化查询语言(SQL)的能力取得了长足进步。一系列公开的评测基准(Benchmark)也应运而生,它们在很大程度上推动了模型在 Text-to-SQL

2024-07-06

生成四个 token 的输出有可能减轻 Teacher-forcing 方法的局限性。“我们认为,'Teacher-forcing'鼓励模型专注于在短期内进行良好的预测,而忽略了生成序列整体结构中的长期依赖性。” 科技媒体 VentureBeat 认为,这一突破的影

2025-06-11

实现欧洲语言的逻辑推理,突破了美国和中国模型的语言局限性。 今年3月,Mistral已发布240亿参数的Mistral Small 3.1模型,该模型以低成本实现本地运行,部分性能甚至超越OpenAI的GPT-4o mini。5月,Mistral进一步推出了Medium 3模型,这

2025-05-08

进具身智能的物理世界,就好比机器人界的 Sora!” 论文地址:https://arxiv.org/pdf/2412.14803 根据介绍,VPP 利用了大量互联网视频数据进行训练,直接学习人类动作,极大减轻了对于高质量机器人真机数据的依赖,且可在不

2025-04-19

snake-likeorder)自回归图像生成方式(DAR)。目前,相关的论文、训练代码、模型权重已经开源。 根据介绍,它不是一行一行地画,而是沿着图像的对角线、像蛇一样灵活地生成每个像素。这样的方式比传统方法更自然,也更接