谷歌公布 AI 模型 DolphinGemma,可理解海豚声音


谷歌旗下 AI 研究实验室 DeepMind 公布了一款名为「DolphinGemma」的 AI 模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。

DolphinGemma 基于谷歌开放的 Gemma 系列模型构建,其训练数据来源于专注于研究大西洋斑点海豚及其行为的非营利组织 Wild Dolphin Project(WDP)。该模型能够生成类似海豚的声音序列,并且非常高效,谷歌表示其可以在手机上运行。

今年夏天,WDP 计划借助谷歌的 Pixel 9 智能手机搭建一个平台,该平台能够合成海豚的声音,并且可以聆听海豚的发声以获得匹配的“回应”。

谷歌透露,WDP 此前一直使用 Pixel 6 来进行相关研究工作,而升级到 Pixel 9 后,将使该组织的研究人员能够同时运行 AI 模型和模板匹配算法,从而进一步提升研究效率。


相關推薦

2025-05-10

通的准确性和效率。   阅读更多:谷歌公布 AI 模型 DolphinGemma,可理解海豚声音

2025-06-08

过 AI 呈现作家的知识、个性、沟通风格、外貌和声音 谷歌推出了一款全新的 AI 实验工具——Portraits,允许用户与基于真实专家的虚拟形象进行互动。首个版本以《Radical Candor》一书的作者 Kim Scott 为特色,使用她的原声和内

2025-04-08

,因此推理将成为AI新阶段的核心动力。 3月25日,美国谷歌公司发布了号称最强推理模型的双子座 2.5 Pro。据介绍,它是谷歌旗下最先进的复杂任务模型,展示了强大的推理和代码能力,并拥有双子座系列此前各模型所具有的全

2025-04-01

谷歌正式推出新一代 AI 模型 Gemini 2.5,主打 “思考 - 验证 - 回答” 的智能推理能力,官方称其为 “目前最智能的 AI 模型”,首个发布的实验性版本为 Gemini 2.5 Pro,已面向 Google AI Studio 和 Gemini 应用的高级版用户(月费 20 美元

2025-04-12

谷歌 DeepMind 首席执行官 Demis Hassabis 最近在 LinkedIn 联合创始人 Reid Hoffman 联合主持的播客 Possible 上表示,谷歌计划最终将其 Gemini AI 模型与其Veo 视频生成模型相结合,以提高前者对物理世界的理解。 Hassabis 表示:“我们从一开

2023-10-26

人搜索功能让展示和查找作品更便捷。📰🤖📢AI新鲜事谷歌发布新规:AI应用禁止生成受限内容谷歌宣布要求 Android 应用改进对人工智能生成内容的审查,以确保用户可以方便举报冒犯性内容,并限制照片和视频权限。【AiBase提

2023-02-08

谷歌首席执行官桑德尔·皮查伊 (Sundar Pichai) 今天宣布,他们将在未来几周内面向公众推出由 LaMDA 提供支持的实验性对话式 AI 服务,称为 Bard —— 与当前流行的 ChatGPT 展开直接竞争。在公开发布之前,目前 Bard 仅开放给受信

2025-03-26

“一种语言模型推理方法以及推理装置”专利于 3月25日公布。 摘要信息显示,该方法包括:根据第四问题生成第五问题,所述第五问题用于提问所述第四问题、以及提示语言模型回答所述第四问题的回复中不要包括预设内容

2025-04-25

谷歌一年一度的开发者大会 Google I/O 2025 将于 5 月 20 日至 21 日举行,目前谷歌已经提前公布了部分会议议程。 https://io.google/2025/explore 在本次大会中,Android 系统依旧是重头戏之一。谷歌表示将举办一场关于安卓“进阶版”用

2025-04-24

日前,由清华博士曹越创立的 Sand.AI,公布了一款名为「Magi-1」的自回归视频生成模型,其主打两个能力: 无限长度扩展:通过前一段生成的内容进行后一段视频的制作,从而实现跨时间的无缝连贯叙事; 生成时长控制精

2025-05-22

2025 年 5 月 20 日,谷歌在 I/O 大会上正式宣布 Google 搜索「AI Mode」(AI 模式)面向美国市场全面上线。 AI Mode 是 Google 搜索中的一个新选项卡,允许用户使用 Gemini AI 聊天机器人进行网络搜索,支持自然语言多轮对话式搜索。 A

2025-05-20

谷歌及其母公司Alphabet首席执行官桑达尔·皮查伊日前做客《All-In》播客节目,接受了企业家、投资人大卫·弗里德伯格的专访。探讨了人工智能浪潮下,谷歌如何主动颠覆自身,以保持技术领先地位。 随着AI对信息获取方式的

2025-06-04

360° 视频生成 FOA 空间音频 5 月 29 日,阿里通义大模型公布了「空间音频生成」模型——OmniAudio。据通义团队介绍,OmniAudio 能够直接从 360° 视频生成空间音频。 为了解决「如何利用全景视频生成与之匹配的空间音频」这一问

2025-06-07

ElevenLabs发布了其最新、最先进的文本转语音模型Eleven v3的Alpha版本。该模型在生成具有高情感范围和跨多种语言的上下文理解能力的自然、逼真语音方面达到了业界领先水平。 Eleven v3 亮点如下: 地表最强文本转语音模型之