开源模型逆袭：Databricks TAO 技术微调 Llama 超越 GPT-4o

2025-03-28 發表於开源资讯

数据智能公司 Databricks 近日推出了一种全新的大语言模型微调方法 ——TAO（Test-time Adaptive Optimization）。通过运用无标注数据和强化学习，TAO 不仅在降低企业成本方面表现出色，更是在一系列基准测试中取得了令人瞩目的成绩。

根据科技媒体 NeoWin 的报道，TAO 微调后的 Llama3.370B 模型在金融文档问答和 SQL 生成等任务中，展现出了优于传统标注微调方法的性能，甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品竞争中的又一次重大突破。

TAO 方法的核心在于其独特的 “测试时计算” 理念，能够自动探索任务的多样性，同时结合强化学习来优化模型，从而避免了传统微调所需的人工标注成本。在多项企业基准测试中，TAO 微调的 Llama 模型成绩斐然:

在 FinanceBench 基准测试中，该模型在7200道 SEC 文档问答中取得了85.1的高分，超过了传统标注微调（81.1）和 OpenAI 的 o3-mini(82.2)的成绩。
在 BIRD-SQL 测试中，TAO 微调的 Llama 模型得分为56.1，接近 GPT-4o 的58.1，远超传统标注微调（54.9）。
在 DB Enterprise Arena 中，TAO 模型得分为47.2，虽然略低于 GPT-4o 的53.8，但仍然显示了强劲的竞争力。

相關推薦