Gemini 2.5 Flash 语音功能上线 AI Studio

2025-05-28 發表於开源资讯

Gemini 2.5 Flash 的语音功能已上线 AI Studio，支持中文，效果自然。用户可以使用包含多种风格和语气标记（如慢速、诗意感、正常、快速、热情等）的复杂文本进行测试。

该语音功能能够较好地遵循这些风格指令，并生成听起来相对自然的语音。

测试表明，系统对以下风格标记响应良好：

语速控制（慢速/快速）
情感表达（热情/诗意）
语气调整（正式/随意）

体验地址：https://aistudio.google.com/live

相關推薦

谷歌 Gemini 2.5 Pro 新增“深度思考”模式，Gemini 2.5 Flash 模型全面上线

2025-05-22

谷歌在 Google I/O 2025 大会上宣布为其旗舰AI模型Gemini 2.5 Pro引入名为“深度思考”（Deep Think）的增强推理模式。该模式允许模型在回应前考虑多个假设和答案，从而提升其在复杂查询，特别是数学和编码相关任务上的表现。根据

Gemini 原生文本转语音 (TTS) 功能达到生产就绪状态

2025-07-23

谷歌Gemini模型的原生文本转语音（TTS）功能已适用于规模化的生产环境，该功能目前支持Gemini 2.5 Flash和Gemini 2.5 Pro两个模型。 https://x.com/OfficialLoganK/status/1947328086577492309 据官方人员透露，这项强大的功能适用于多种用例

Roo Code 3.21 发布，官方 Roo Code Marketplace 上线

2025-06-20

，带来了官方Roo Code Marketplace和20多项改进，其中包括对Gemini 2.5新模型的支持。新功能上线 Roo Marketplace正式推出：用户无需实验特性即可在Roo Code内浏览、安装社区创建的模型上下文协议（MCP）服务器和自定义模式，几下

2025 年 7 月《大模型 SQL 能力排行榜》发布

2025-08-07

备受瞩目的 Claude 3.5 Sonnet 、Claude Sonnet 4 首次参评，同时 Gemini 2.5 系列也正式迈入稳定版。更重要的是，我们针对数据库现代化迁移的真实痛点，对评测基准进行了重要升级，旨在更深度地考验模型在复杂、真实场景下的 SQL 处

谷歌搜索面向美国市场全面上线「AI 模式」

2025-05-22

AI Mode 是 Google 搜索中的一个新选项卡，允许用户使用 Gemini AI 聊天机器人进行网络搜索，支持自然语言多轮对话式搜索。 AI Mode 基于 Gemini 2.5 打造，利用"query fan-out"技术将用户问题分解为更小的部分，同时在多样化来源中启

Mistral AI 开源 AI 音频模型系列 Voxtral

2025-07-17

er large-v3。它在所有任务上都超越了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash，并在英语短格式和 Mozilla Common Voice 上取得了最佳成绩，超越了 ElevenLabs Scribe，展现了其强大的多语言能力。更多详情可查看官方公告。

谷歌发布 Gemini 2.5 Pro 新预览版，性能指标大幅提升

2025-06-07

谷歌于6月5日推出其迄今为止最智能的模型——Gemini 2.5 Pro的升级预览版。该版本是基于5月份的版本进行了重要升级，并计划在未来几周内作为正式稳定版（GA）向所有用户提供，为企业级规模的应用做好准备。谷歌CEO Sundar Pich

谷歌发布“目前最智能的 AI 模型” Gemini 2.5

2025-04-01

谷歌正式推出新一代 AI 模型 Gemini 2.5，主打 “思考 - 验证 - 回答” 的智能推理能力，官方称其为 “目前最智能的 AI 模型”，首个发布的实验性版本为 Gemini 2.5 Pro，已面向 Google AI Studio 和 Gemini 应用的高级版用户（月费 20 美元

谷歌 Gemini 2.5 Pro 免费开放

2025-04-01

谷歌宣布免费向所有 Gemini 应用用户提供最新、最先进的 Gemini AI 模型 ——Gemini 2.5 Pro。此前，只有 Gemini Advanced 用户才能使用这一实验模型，而现在，该模型从上周六开始向公众开放。 Gemini 2.5 Pro 由谷歌于上周早些时候推出

Google Kaggle 举办 AI 国际象棋锦标赛，评估领先模型的推理能力

2025-08-06

OpenAI 的 o3 和 04-mini、Google LLC 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash、Anthropic 的 Claude Opus 4 以及 xAI Corp. 的 Grok 4 等全球性能最强的人工智能模型将在棋盘上展开正面交锋。这场为期三天的人工智能象棋对决是Google数据科学社区 Kaggle&n

Gemini API 支持抓取 URL

2025-08-20

谷歌宣布其Gemini API中的URL Context工具已正式支持直接抓取 URL 内容，无需额外脚本或中间步骤。 Gemini API 提供了 URL Context 功能，允许你在请求中直接嵌入网页链接，模型会自动访问并解析网页内容。支持的内容类型包括：

谷歌 Android Studio 免费 Agent 模式上线

2025-08-05

苹果开发生态的有力挑战。 Android Studio的Agent模式是基于Gemini2.5Pro的AI辅助功能，旨在通过自然语言交互帮助开发者完成复杂、多步骤的开发任务。相较于传统的代码补全或建议功能，Agent模式能够深入理解整个项目上下文，自

Cursor 发布 0.49：改进 Agent 终端、支持将项目结构加入聊天上下文

2025-04-22

示之外，而无需每个项目进行配置。新的模型，支持 Gemini 2.5 Pro、Gemini 2.5 Flash、Grok 3、Grok 3 Mini、GPT-4.1、o3 和 o4-mini。支持将项目结构加入聊天上下文。详情查看更新日志：https://www.cursor.com/cn/changelog/0-49

谷歌 Gemini Live 即将升级：实时画面提示与三大应用深度整合

2025-08-22

Gemini Live 是谷歌推出的实时 AI 语音助手，支持语音与视觉互动，用户可通过摄像头或屏幕共享与 AI 对话。它能实时识别画面内容并回应，例如看到物品可询问信息，看到日程可添加提醒。近日，谷歌宣布 Gemini Live 迎来重