红杉中国发布测评大模型工具 xbench


红杉中国宣布推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。

“在评估和推动AI系统提升能力上限与技术边界的同时,xbench会重点量化AI系统在真实场景的效用价值,并采用长青评估的机制,去捕捉Agent产品的关键突破。”

根据介绍,xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线:

  • 评估AI系统的能力上限与技术边界;
  • 量化AI系统在真实场景的效用价值(Utility Value)。

其中,后者需要动态对齐现实世界的应用需求,基于实际工作流程和具体社会角色,为各垂直领域构建具有明确业务价值的测评标准。

首期发布包含两个核心评估集:科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对该领域主要产品进行了综合排名。

同期提出了垂直领域智能体的评测方法论,并构建了面向招聘(Recruitment)和营销(Marketing)领域的垂类Agent评测框架。评测结果和方法论可通过 xbench.org 网站实时查看。

论文地址:https://xbench.org/files/xbench_profession_v2.4.pdf


相關推薦

2024-07-11

列第二,得分均为77。 通义千问(Qwen2-72B)既是排名最高的中国大模型,也是全球最强的开源大模型,性能超越文心一言4.0、讯飞星火V4.0、Llama-3-70B等开闭源大模型。 SuperCLUE报告认为通义千问“超过众多国内外闭源模型”,“引

2025-03-20

据「中国信通院」公众号消息,中国信息通信研究院人工智能所基于前期的AI Safety Benchmark测评工作,发起大模型幻觉测试。 本轮幻觉测试工作将以大语言模型为测试对象,涵盖了“事实性幻觉”和“忠实性幻觉”两种幻觉类型

2023-07-19

继6月发布了7B预训练底座模型后,百川智能团队于近日最新开源了13B模型,包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,同时支持商用。 目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之

2023-09-22

据技术都能四世同堂,凭什么开发 30 岁就要被干掉? 红杉资本发布一份报告,总结了这一年生成式AI突飞猛进的发展,探讨了生成式AI的发展趋势和市场表现。 一年前他们发布了一份预测,一年后红杉总结之前的预测,发现

2023-09-19

段,计算产业展现出强大的活力和不可估量的潜力。 据中国信通院发布的《中国算力发展指数白皮书(2023年)》显示,算力多元化发展持续推进。以AIGC为代表的人工智能应用、大模型训练等新应用、新需求快速崛起都对算力

2023-10-27

SuperCLUE 发布了中文大模型10月榜单。其中,vivo自研大模型以70.74的总分位列总排行榜第四,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。 SuperCLUE是中文通用大模型多层次的综合性测评基准,包

2023-11-04

司创始团队曾深度参与智源·悟道大模型的研发,目前已发布产品包括世界首个中文及跨语言反向词典WantWords、名句语义检索系统WantQuotes、智能写作工具深言达意等。 根据介绍,LingoWhale-8B模型是拥有约80亿参数的中英双语大语

2023-11-06

信AI”评估,并被评选为人工智能实验室副组长单位。经中国信通院评估,昆仑万维天工大模型符合AIIA/PG 0071-2023、AIIA/PG 0072-2023评估标准,模型开发、以及模型能力均达到了“4+级”。 10月30日,昆仑万维开源百亿级大语言模型

2025-03-21

推理模型 T1 将于本周五(北京时间 3 月 21 日 23 时)正式发布。 与此同时,腾讯宣布,混元大模型首次登上 Chatbot Arena 榜单,跻身全球 Top 15。用户在该平台上以匿名方式与多个模型互动,投票决定何种模型更佳,从而根据分

2024-08-17

SuperCLUE在2024上半年报告中指出,Qwen2-72B成为排名第一的中国大模型,也是全球最强的开源模型,“超过众多国内外闭源模型”,“引领全球的开源生态”。目前,通义千问开源模型下载量已突破2000万。 同时,阿里云对通义千

2024-08-10

ath 和 MMLU-STEM 上评估了 Qwen2-Math 基模型。以及评估了三个中国数学基准 CMATH,GaoKao Math Cloze 和 GaoKao Math QA。所有评估均使用 Few-shot CoT 方式。 按照Qwen团队的说法,他们在预训练和微调数据集上都进行了去污染处理。具体来说

2023-09-07

、认知两个总榜单以及14个子榜单。MME数据集是一个最近发布的多模态语言模型测评基准。MME通过评估大型多模态语言模型在涵盖感知和认知任务的 14 个子任务上的表现来全面评估它们。昆仑万维天工大模型多模态团队的Skywork-M

2025-03-21

的成绩。” 根据介绍,Chatbot Arena 是针对 C 端用户的测评,用户在平台上以匿名方式与多个模型互动,然后投票决定哪个模型更好,从而根据分数生成排行榜。这种测评也被看成是大模型直接PK的竞技场,简单直接。

2025-05-15

在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。