微软推出 AI 代码审查工具,可将准确率提升至 >80%


微软宣布推出一种可以提高大型语言模型性能的新工具 Jigsaw。“大型的预训练语言模型(如 GPT-3、Codex 等),可以被调整为从程序员意图的自然语言规范中生成代码。这种自动化模型有可能提高世界上每个程序员的生产力;但是,由于这些模型可能难以理解程序语义,因此所生成的代码的质量不能得到保证。” 根据介绍,Jigsaw 部署了理解程序语法和语义的后处理技术,然后利用用户反馈来提高未来的性能;该工具旨在使用多模式输入为 Python Pandas API 合成代码。Pandas 是数据科学中广泛使用的 API,具有数百个用于 manipulating dataframes 或具有行和列的表的函数。 微软方面称,其经验表明,随着这些大型语言模型演变为根据意图合成代码,Jigsaw 可以在提高系统准确性方面发挥重要作用。 像 OpenAI 的 Codex 这样的大型语言模型正在重新定义编程领域。软件开发人员在解决编程任务时,可以为预期的代码片段提供英文描述,Codex 可以用 Python 或 JavaScript 等语言合成预期的代码。但合成的代码可能不正确,甚至可能无法编译或运行。Codex 用户有责任在使用代码之前对其进行审查。Jigsaw 团队解释称,通过 Project Jigsaw,其目标是使部分审查自动化,以提高使用 Codex 等大型语言模型进行代码合成的开发人员的生产力。 微软认为 Jigsaw 可以“完全自动化”检查代码是否编译、处理错误信息以及测试代码是否产生开发人员希望输出的内容的整个过程。“Jigsaw 将预期代码的英文描述以及 I/O 实例作为输入。通过这种方式,它将输入与相关的输出配对;并提供质量保证,即输出的 Python 代码将在提供的输入上编译并产生预期的输出。” 在其 ICSE 2022 论文 Jigsaw:Large Language Models meet Program Synthesis 中,微软方面在 Python Pandas 上评估了这种方法。使用 Jigsaw,用户可以提供对预期转换的英文描述、input dataframe 和相应的 output dataframe,然后让 Jigsaw 合成预期代码。 Jigsaw 获取英语查询并使用适当的上下文对其进行预处理,以构建可以馈送到大型语言模型的输入。微软在实验中发现,Jigsaw 可以在 30% 的时间内创建正确的输出。如果代码失败,那么修复过程在后处理阶段开始。 在后处理过程中,Jigsaw 应用了三种变换来修复代码。这些转变中的每一个都是由他们在 GPT-3 和 Codex 中观察到的故障模式所激发的。而 GPT-3 和 Codex 失败的方式都类似,因此 Jigsaw 解决这些失败模式的后处理对两者都很有用。 微软在各种数据集上评估了 Codex 和 Jigsaw (with Codex),并测量了准确率。Codex 给出了约 30% 的开箱即用的准确性,Jigsaw 则将准确率提高到 60% 以上;通过用户反馈,准确率可提高到 80% 以上。接下来,他们将继续致力于完善 Jigsaw,努力将在 Python Pandas API 上的经验推广到其他 API 和其他语言上;在通过自动化提高程序员生产力方面发挥重要作用。 更多详情可查看官方博客。

相關推薦

2025-05-27

2025 年 5 月 22 日,微软在北京微软大厦举办媒体沟通会,围绕 “探索未来工作趋势,以智能体重塑企业竞争力” 主题展开圆桌讨论与专访,分享了 AI 智能体技术突破、行业应用实践及安全治理方案。同时,结合微软 Build 2025 大

2023-10-26

种人工智能生成内容,但不包括总结书籍等用途的应用。微软、OpenAI等投入1000万美元用于增强生成式AI产品的安全微软、OpenAI等公司合资1000万美元,任命Chris Meserole为“前沿模型论坛”的执行董事,旨在提高生成式AI产品的安全

2025-06-18

察到,现有评测体系大多聚焦于 Text-to-SQL 的转换准确率,而这远不能全面反映模型在真实、复杂场景下的 SQL 处理能力。 为了弥补这一关键空白,我们经过深入研究,提出了 SCALE ------ 一个面向专业级任务的大语言

2025-06-19

hina/mcp-gitee 什么是 Remote mcp-gitee? Remote mcp-gitee是 Gitee 推出的远程版 MCP Server,无需本地部署,默认运行在云端,同时也拥有全面的接口能力,支持仓库、文件、Issue、PR、用户信息获取、评论等众多操作,满足常见开发协作需

2023-11-10

档、电子表格和演示文稿的查看和编辑功能。它高度兼容微软 Office 格式,包括 .docx、.xlsx 和 .pptx 等文件格式,并支持实时协作编辑,使团队成员能够同时在同一文档上进行实时协作。 ONLYOFFICE 文档可与多种云服务进行集成,

2025-06-17

围的行为变化,使得持续运行、需保持状态的复杂智能体代码极难维护。 智能体具备状态,且错误会累积。 智能体往往需要长时间运行,期间跨越多次工具调用并持续维护自身状态。这要求我们的系统必须具备持久化执行

2025-05-13

Cursor于2025年5月9日推出0.50版本重大更新,带来了简化的定价模式、全面升级的Max模式以及一系列功能增强。 此次更新聚焦于提升AI编程效率,新增跨文件代码建议、后台代理和多代码库支持等功能,进一步巩固了Cursor作为AI驱

2025-03-26

推理速度提升 128K超长上下文:可解析50页PDF文档或完整代码库,多轮对话记忆保持能力提升 FP8混合精度训练:显存占用压缩,单卡推理成本较初代降低 2. 代码生成质的飞跃 单次生成400+行生产级代码,支持Vue/React等20+

2025-05-15

借其领先的技术研发实力、完善的服务体系,在 OCR 识别准确率、AI 验真效率、智能语音创单体验、费用合规性智能审核等关键指标上均表现卓越,成为企业数字化转型进程中 AI费控系统的首选合作伙伴。 2025 年企业财务 AI费控

2025-06-19

管理和强制执行,从而提升复杂网络配置的可靠性。 在工具方面,Docker Desktop 4.42 集成 Docker MCP Toolkit,开发者无需额外安装,可以直接使用 GitHub、MongoDB 和 HashiCorp 等热门 MCP 服务器,并可将其连接至 Claude Desktop、Cursor 等客户

2023-06-08

。其次,iOS 的听写功能基于新的语音识别模型,识别的准确率更高。   还有一个好玩的新功能:“贴纸”,可以把表情包贴到对话框里 其次还有新的 StandBy 模式,充电(或者其他用不着)的时候可以把手机侧放,当成

2025-06-17

价格区间从免费到每月39美元不等。GitHub Copilot在2025年4月推出了Pro+计划,定价39美元/月,提供1500次高级请求[20]。 使用量计费模式兴起 部分产品开始采用基于使用量的计费模式,如GitHub Copilot对高级模型请求收费0.04美元/次[21]

2025-05-28

全网最有诚意的数据中台”,现已面向全球开发者开放源代码,欢迎广大数据开发者、企业用户和技术爱好者共同参与,共筑数据治理新范式! 🌈 全面赋能,千数平台(qData)助力数据价值释放 千数平台(qData)是一款一

2024-07-30

的 Windows 全球大面积蓝屏死机问题,两个直接当事方——微软和 CrowdStrike 均已发布了相关技术报告。 7 月 24 日,CrowdStrike 发布 Windows 大范围蓝屏事件初步审查报告,并表示即将在公开发布的根本原因分析中详细说明全面调查结