阶跃星辰开源 Step-Video-TI2V 图生视频模型


阶跃星辰宣布开源图生视频模型 Step-Video-TI2V,一款基于30B参数Step-Video-T2V训练的图生视频模型,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。

公告称,和目前已有开源图生视频模型相比,Step-Video-TI2V 不仅在参数规模上对该领域的研究提供了更高的上限,其运动幅度可控能力,更是能够平衡图生视频生成结果的动态性和稳定性,为创作者提供更为灵活的选择。

相比文生视频模型 Step-Video-T2V,此次开源的 Step-Video-TI2V 主要针对图生视频任务做了两大关键优化:

第一,引入图像条件,提高一致性

为了让模型更好地理解输入的图片,我们没有采用传统的 cross-attention 方法,而是使用了更直接、更高效的方式,将该图像对应的向量表示和 DiT 第一帧对应的向量表示直接进行 channel 维度的拼接,这样生成的视频和原图才能更一致。

第二,引入运动幅度控制,赋予用户更高自由度

在训练过程中,Step-Video-TI2V 通过 AdaLN 模块引入视频动态性打分信息,特别训练模型学习了视频的动感程度。用户在生成时可以简单地指定不同的运动级别(motion = 2, 5, 10),精准控制视频的动态幅度,平衡视频的动态性、稳定性和一致性。

在数据优化方面,项目团队对于主体动作和镜头运动进行了专项精准标注,使得 Step-Video-TI2V 在主体动态性和运镜效果上更具优势。

阶跃星辰方面称,在 VBench-I2V 基准测试中,Step-Video-TI2V 取得了 state-of-the-art 级别的表现,并验证了动态性打分对生成视频稳定性和一致性的控制能力。

目前,Step-Video-TI2V 已完成与华为昇腾计算平台的适配,并在魔乐社区(Modelers)上线。


相關推薦

2025-03-27

间开源三款多模态大模型,其最新开源的是图生视频模型Step-Video-TI2V,支持生成的视频具备运动幅度可控和镜头运动可控两大核心特点,同时自带一定的特效生成能力。 为何开源大模型成为中国当前的发展潮流?FutureLabs未来实

2025-04-30

阶跃星辰昨天发布并开源了全新的通用图像编辑模型 Step1X-Edit,上线次日就在海外开源社区平台 Hugging Face 登上 Spaces 趋势热榜,该榜单反映了模型实际应用价值的受欢迎程度。 Step1X-Edit 提供强大的改图能力,可以帮用户完成

2025-04-11

复旦大学和阶跃星辰将要出一款端到端多模态 SVG 生成模型:OmniSVG,核心是支持从简单图标到复杂动漫角色的生成。 OmniSVG 主页:https://omnisvg.github.io/ 论文地址:https://arxiv.org/abs/2504.06263v1 OmniSVG 支持三种生成模式:

2024-08-08

虎”(智谱AI、零一万物、百川智能、MiniMax、月之暗面、阶跃星辰),正以惊人的速度,跨过200亿元的估值大关。 2024年8月5日,据彭博社报道,月之暗面刚交割一轮超过3亿美元的融资,投后估值高达33亿美元。 前不久,王小

2024-07-27

一轮融资,即智谱AI与月之暗面。此外,新晋大模型公司阶跃星辰也跻身AI独角兽序列。今年6月,该公司被传正在进行一轮估值约20亿美元的新融资,阿里在投资者之列。 相关数据显示,今年上半年,招投标市场已经产生了498次

2024-01-13

中国电信宣布将自研星辰 AI 大型模型全面开源,公开其底层代码、算法逻辑及其预制的各种基础大模型、开发模块、训练工具等核心产品能力。 用户既可以直接调用大模型,也可以根据自身业务需求对大模型进行微调或个性化

2025-03-25

接入阿里通义系列大模型。 此次接入后,基于万相最新开源模型,LiblibAI推出了文生视频和图生视频功能。用户只需输入文本提示词,或者上传图片,就能快速生成10秒短视频。这一功能的实现,让创意转化为视频内容变得更加

2024-04-18

近日中国电信开源了12B参数规模星辰语义大模型TeleChat-12B。相较于1月开源的7B版本,内容、性能和应用等方面整体效果提升了30%。其中,多轮推理、安全问题等领域提升超40%。另外,据了解,中国电信将于年内开源千亿级参数大

2024-05-27

了业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,可同时识别理解粤语、上海话、四川话、温州话等30多种方言,是目前国内支持最多方言的语音识别大模型。 据悉,中国电信人工智能

2025-04-24

网(可以免费体验!),并且模型权重、代码也进行 100% 开源,技术报告也进行全面公布。 而背后的 Sand.AI 创始人为曹越,其博士毕业于清华大学软件学院,并于 2018 年获清华大学特等奖学金。曹越于 2022 年创办 AGI 公司「光

2025-04-23

AIEditor.dev AI 驱动的开源富文本编辑器 开箱即用、支持所有前端框架、支持 Markdown 书写模式 什么是 AIEditor AiEditor 是一个面向 AI 的下一代富文本编辑器,她基于 Web Component,因此支持 Layui、Vue、React、Angular 等几乎任何前端

2023-11-14

eholder: "点击输入内容...", content: 'AiEditor 是一个面向 AI 的开源富文本编辑器。输入 空格 + "/" 可以快速弹出 AI 菜单哦 ', ai: { model: { xinghuo: { appId: "***", apiKey: "***", apiSecret: "***", } } } }) 或者直接移除 AI 的配置,如下所示(移除后

2024-08-29

AIEditor.dev AI 驱动的开源富文本编辑器 开箱即用、支持所有前端框架、支持 Markdown 书写模式 什么是 AIEditor AiEditor 是一个面向 AI 的下一代富文本编辑器,她基于 Web Component,因此支持 Layui、Vue、React、Angular 等几乎任何前端

2024-10-19

AIEditor.dev AI 驱动的开源富文本编辑器 开箱即用、支持所有前端框架、支持 Markdown 书写模式 什么是 AIEditor AiEditor 是一个面向 AI 的下一代富文本编辑器,她基于 Web Component,因此支持 Layui、Vue、React、Angular 等几乎任何前端