苹果研究团队近日发布论文,指出当前主流的推理模型(LRMs)在处理复杂问题时存在显著局限性。
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
研究团队通过可控的谜题环境(如汉诺塔、跳棋等)系统分析了模型的推理能力,发现其性能随问题复杂度呈现三阶段变化:
- 在低复杂度任务中,非推理模型(LLMs)表现更优;
- 中等复杂度时,推理模型通过 “思维链”(CoT)展现优势;
- 而当复杂度超过临界值(如汉诺塔圆盘数≥8),两类模型准确率均骤降至零。
研究还发现,推理模型存在 “反直觉缩放限制”:推理成本(token 使用量)随复杂度先增后减,即使在 token 预算充足的情况下,模型也会在接近崩溃点时主动减少推理投入。
对推理轨迹的分析表明,模型在简单问题中存在 “过度思考” 现象,而复杂问题中则无法有效自我修正。
此外,模型在执行明确算法时表现不佳,显示出符号操作和逻辑一致性的缺陷。