亚马逊发布可控制 Web 浏览器的 AI 智能体 Nova Act


亚马逊发布了 Nova Act,这是一款通用 AI 代理,可以控制网络浏览器并独立执行一些简单的操作。除了新的代理 AI 模型外,亚马逊还发布了 Nova Act SDK,这是一个工具包,允许开发人员使用 Nova Act 构建代理原型。

Nova Act 由亚马逊新近在旧金山开设的 AGI 实验室开发,还将为该公司即将推出的 Alexa+ 升级版提供关键功能,Alexa+ 是亚马逊广受欢迎的语音助手的生成式 AI 增强版。不过,从今天开始提供的 Nova Act 版本略显逊色。亚马逊称其为研究预览版。

开发人员可以通过新网站 nova.amazon.com 访问 Nova Act 工具包,该网站也是亚马逊各种 Nova 基础模型的展示。

Nova Act 是亚马逊试图利用自己的通用人工智能代理技术与OpenAI 的 Operator 和 Anthropic 的 Computer Use 竞争的尝试。几家领先的科技公司认为,能够为用户导航网络的人工智能代理将使当今的人工智能聊天机器人更加有用。

亚马逊可能不是第一个开发这种代理技术的公司,但通过 Alexa+,它的覆盖范围可能是最广泛的。

亚马逊表示,使用 Nova Act SDK 进行开发的开发人员应该能够代表用户自动执行基本操作,例如从 Sweetgreen 订购沙拉或预订晚餐。借助 Nova Act 工具包,开发人员可以整合工具,让 AI 代理浏览网页、填写表格或在日历上选择日期。

亚马逊声称,Nova Act 在公司内部的几项测试中表现优于 OpenAI 和 Anthropic 的代理。例如,在衡量 AI 代理如何与屏幕上的文本交互的 ScreenSpot Web Text 中,Nova Act 得分为 94%,优于 OpenAI 的 CUA(得分为 88%)和 Anthropic 的 Claude 3.7 Sonnet(90%)。

不过,亚马逊并没有使用更常见的代理评估(例如 WebVoyager)来对 Nova Act 进行基准测试。

Nova Act 是亚马逊上述 AGI 实验室推出的首款公开产品,该项目由前 OpenAI 研究员 David Luan 和 Pieter Abbeel 共同领导。两人之前都创立过自己的初创公司——Luan 创办了Adept,而 Abbeel 共同创办了Covariant——去年亚马逊聘请他们来领导其 AI 代理工作。

虽然 AGI 实验室开发能够订购 SweetGreen 的 AI 代理似乎有些奇怪,但 Luan 认为代理是创建超级智能 AI 系统的关键一步。Luan 将 AGI 定义为“一种能够帮助您完成人类在计算机上所做的一切的 AI 系统”。

Luan 表示,他的团队设计了 Nova Act SDK,以可靠地自动执行简短的任务,并为开发人员提供工具,让他们能够精确定义何时需要人工干预代理工作流程。他希望,这将使开发人员能够创建更可靠的代理应用程序,尽管不一定是完全自主的应用程序。

亚马逊在竞争激烈的市场中推出了首款通用人工智能代理,但这是该公司寄予厚望的一项关键技术。Nova Act 的早期测试可以让人们一窥拖延已久的 Alexa+ 的一些功能,这对亚马逊的人工智能努力来说是一个成败攸关的时刻。

OpenAI、Google和 Anthropic 的早期人工智能代理的主要问题是它们在不同领域的可靠性。在 TechCrunch 的测试中,这些系统速度很慢,难以长时间独立运行,而且容易犯人类不会犯的错误。我们很快就会看到亚马逊是否破解了密码——或者它的代理是否也存在困扰竞争对手的同样缺陷。

相关链接

  • https://www.aboutamazon.com/news/innovation-at-amazon/amazon-nova-website-sdk
  • https://github.com/aws/nova-act

相關推薦

2025-06-17

效果如下所示: 您可以本地部署 Playground 示例并通过浏览器访问体验,或者拷贝源码并按照自己的业务需求调整,以这种方式快速搭建一套自己的 AI 应用。 如果想通过更多示例来学习 Spring AI Alibaba 框架用法,请参考我们的

2025-05-23

是一款以人为中心的 AI 智能体研究原型,旨在通过网页浏览器实时协助用户完成复杂的网络任务。 Magentic-UI 基于微软此前发布的 Magentic-One 多智能体系统和 AutoGen 框架打造,强调透明性、可控性和人机协作,为用户和研究人

2025-06-13

智能体在Web上的安全、高效、可信连接与协作。 小组现发布《智能体网络协议技术报告》:https://w3c-cg.github.io/ai-agent-protocol/ 另见该报告的中文翻译参考:https://w3c-cg.github.io/ai-agent-protocol/index_cn.html 这份报告探讨了从语义

2025-04-24

平台Suna,定位为热门AI工具Manus的开源替代品。Suna集成了浏览器自动化、文件管理、网络爬虫、扩展搜索、命令行执行、网站部署及API集成等功能,通过自然语言对话实现复杂任务的自动化处理。 主要功能: 浏览器自动化

2022-09-02

试用例,他们的 Lima 驱动程序支持将改善他们的 Morph Web 浏览器体验。 Genode OS 展示了移植 Ubuntu Touch UI 以在 Genode 上运行。 Release Note

2023-10-26

💰 成立AI安全基金以支持独立研究,构建安全的AI生态。亚马逊推出生成式AI助力广告商提升广告创意亚马逊发布了名为「图像生成」的生成式AI解决方案,帮助广告商轻松创造吸引人的广告创意,提高广告效果。【AiBase提要:】

2025-04-15

源了首个Agent开发套件—ADK,这也是OpenAI之后第二家大厂发布的标准化智能体SDK。 ADK能帮助开发人员极大简化开发超复杂流程的智能体,从大模型选择、自动化流程编排、测试到应用部署可一站式完成,并且支持双向音频、视

2025-05-21

微软发布了名为“NLWeb”的开源项目,旨在简化创建网站的自然语言对话界面,使任何网站都能轻松转变为 AI 驱动的应用程序。 NLWeb 定位为 “智能体 Web 时代的 HTML”,支持自定义模型与数据交互,旨在帮助开发者轻松将网站

2025-06-08

onik 和 Anthony 是资深 AI 工程师,曾在 Scale AI、Uber、Lyft 和亚马逊等科技巨头积累了超过十年的产品与 AI 研发经验。 Toma 的解法:不仅仅是语音 AI,更是「AI 员工」 Toma 的愿景不止于一个简单的语音应答系统。他们致力于构建下

2025-04-23

字节跳动旗下的 AI 原生集成开发环境(AI IDE)Trae 已发布 v1.3.0 版本,具体变更细节如下: 合并 Chat 与 Builder 面板。你可以通过 @Builder 方式将 Builder 作为智能体使用。详情参考《智能体》。 支持将文档内容和网页内容作为

2025-05-27

Microsoft Purview 数据安全工具,实现数据分类分级与访问控制,并通过 Content Safety 机制限制敏感输出;治理层面,推出 Microsoft Entra Agent ID 为智能体分配唯一身份,纳入目录管理,同时通过跨部门数据治理流程与员工培训强化合

2023-11-14

用程序设置,但不是全部。 在不同语言配置(即调试/发布)之间切换可能需要更多时间来让代码洞察引擎跟上。也没有选项可以切换每个文件的解析上下文。 ReSharper C++ 仅适用于 Windows,而 Rider 则支持跨平台。ReSharper C++/Ride

2025-05-31

自主搜索 AI Agent 项目,包含两部分: WebDancer:端到端智能体训练框架,旨在增强基于网络的 AI 智能体的多步骤信息搜索能力 WebWalker :用于“Web 遍历中的 LLM 基准测试” WebAgent具备端到端的自主信息检索与多步推理

2025-06-12

通用智能体 Genspark 发布了 AI 浏览器产品,官方称其具有极速、广告拦截、全能智能体、自动驾驶模式的特性,并提供了 MCP 商店。   下载地址:https://www.genspark.ai/browser Genspark 由百度前高管景鲲创立,今年 4 月宣布推