MiniMax Audio 发布 Speech-02 模型:单次输入支持 20 万字符


MiniMax Audio 正式发布了全新的 Speech-02 系列语音模型,支持将任何文件或 URL 转换为逼真的音频。用户只需一次输入,即可轻松创建有声读物和播客,最多可输入 20 万个字符,支持 30 多种语言的音频生成,效果自然流畅。

Speech-02 模型支持 30 多种语音,一次性可以输入 20 万字符。为用户带来更真实、更流畅、更便捷的音频体验。

据官方介绍,该系列在多语言覆盖能力上实现了显著提升,能够更准确、更地道地呈现多种语言的发音。Speech-02的人声相似度高达99%,这意味着合成的语音听起来更加自然、贴近真人。

此外,该模型还实现了零节奏故障,彻底解决了音频播放过程中可能出现的卡顿和节奏不稳问题,保证了听感的连贯性和流畅性。  

使用地址:https://www.minimax.io/audio


相關推薦

2025-06-20

有消息称,AI独角兽稀宇科技 (MiniMax) 正考虑在香港进行首次公开募股(IPO)。 对此,有接近MiniMax的知情人士向澎湃新闻记者表示,MiniMax内部确实有类似想法,但目前仍处于初步筹备阶段。 官网介绍显示,MiniMax 是全球领先

2025-06-18

MiniMax 宣布开源 MiniMax-M1 模型,据称是全球首款开放权重的大规模混合注意力推理模型。 开源地址: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094 https://github.com/MiniMax-AI/MiniMax-M1 模型亮点: 模型采用 M

2023-09-08

模型) 三家上海企业机构:商汤(日日新大模型)、MiniMax(ABAB大模型)、上海人工智能实验室(书生通用大模型) 下面是 8 款 AI 大模型(及产品)的简介和链接: 百度(文心一言) 文心一言(英文名:ERNIE Bot)是

2024-08-27

,再送进LLM进行对应的下游任务,如语音识别(Automatic Speech Recognition,ASR)、语音翻译(Automatic Speech Translation,AST)等。 在模型训练阶段,融合了语音模态和文本模态的数据会按以下形式输入到LLM: 项目团队将MooER与多个

2024-08-14

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。具有以下特点: 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)

2025-06-19

MiniMax 宣布推出视频生成大模型 Hailuo 02,这个模型支持文生视频,图生视频,甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。 MiniMax 放出的视频案例中,展现了喷火、钻火圈、连续后空翻、高空走钢丝等超高

2025-05-20

Minimax近日上线了AI Agent功能。该功能目前可通过特定网址访问,并且当前内测阶段免费向用户提供使用。 https://agent.minimax.io/ 内测页面显示,用户可自行选择“标准”或“深度”两种模式,输入任务并交由MiniMax Agent执行。其

2025-04-19

异步工作负载。 OpenAI 表示, Flex 处理是 OpenAI 最近发布的 o3 和 o4-mini 推理模型的测试版,旨在处理模型评估、数据丰富和异步工作负载等低优先级和 “非生产” 任务。 它将 API 成本降低了整整一半。对于 o3,Flex 处理价

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L

2022-09-09

TensorFlow 2.10 已经发布,此版本的亮点包括 Keras 中的用户友好功能,可帮助开发转换器、确定性和无状态初始化程序、优化器 API 的更新以及帮助加载音频数据的新工具。 此版本还通过 oneDNN 增强了性能,在 Windows 上扩展了 GPU

2024-05-31

- hemeda3 Multi-modality support for OpenAI AWS Bedrock claude3 MiniMax - mxsl-gr ZhiPu - mxsl-gr Azure Open AI image generation - bmoussaud 更新模型 OpenAI - 支持 GPT4o 和多模态 Google Gemini Pro 1.5 pro、flash 等 Anthropic function calling Oll

2023-08-25

站,聊聊 AI 大模型与底层技术 >>> StaxRip v2.27.0 现已发布。StaxRip 是一个开源的视频转换工具,可以将蓝光光盘或 DVD 中的视频转换成 PC 常用的视频格式,具有一系列解复用器,复用器,编码器和解码器。需要在 .NET Framew

2024-08-20

昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels。集剧本生成、角色定制、分镜、剧情、对白/BGM及影片合成于一体,旨在让创作者“一键成剧”,轻松制作高质量AI视频。 SkyReels平台集成了昆仑万维自研剧

2025-06-17

MiniMax官方宣布其AI生产力工具MiniMax Agent迎来重大升级,新增智能图像搜索、稳定的图像生成、多语言支持及多样化文档导出功能,全面提升用户体验。 具体来看,MiniMax Agent 此次更新包含三大核心升级: 智能图像生成:新