vita-epfl

vita-epfl/Stable-Video-Infinity

Python
74
2026-02-01
1.7k
+45
#11
134

项目简介

[ICLR 26] Stable Video Infinity:基于错误回收的无限长度视频生成

[ICLR 26] Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

智能解读

智能解读 自动生成

Stable Video Infinity (SVI) 是一个基于扩散Transformer模型的先进视频生成框架,能够生成长达数分钟甚至更久的连续视频。其核心技术“错误回收”机制,通过智能地检测和修正生成过程中累积的误差,有效解决了长视频生成中常见的画面退化、闪烁或内容断裂问题。该项目支持多种创意应用,包括根据音频驱动生成人物口型同步的说话视频、生成舞蹈动作序列,以及实现端到端的影片制作。基于强大的Wan视频基础模型,SVI提供了不同性能的版本(如SVI 2.0 Pro),并拥有活跃的社区生态,提供了ComfyUI工作流和在线平台(如Poe)的部署方式。它极大地降低了高质量长视频创作的技术门槛,适用于动画制作、内容创作、虚拟人驱动等广泛场景。

智能标签

使用场景

使用场景 自动生成

这个项目最适合需要生成或扩展长时间、高一致性、内容连贯视频的场景,尤其擅长叙事、口型同步和动态内容制作。

1

生成超长叙事视频

开发者想用AI生成几分钟甚至十几分钟的连贯叙事视频,但现有模型只能生成几秒或几十秒的片段,拼接后会出现内容跳跃、风格不一致的问题。

使用SVI的“错误回收”技术,可以生成无限长度的视频,保持内容连贯性和视觉一致性,如README中提到的8分钟《猫和老鼠》视频。

为儿童教育内容制作一个5分钟的动画故事,讲述小动物探险,角色和场景在整个视频中保持稳定。

2

制作口型同步视频

开发者需要根据音频(如播客、旁白)生成人物或卡通角色说话的视频,要求口型与音频精准同步。

使用SVI-Talk模块,这是一个音频驱动的说话人脸生成功能,可以基于输入的音频生成对应口型变化的长时间视频。

将一段10分钟的播客音频,转换为虚拟主播讲解的视频,用于知识科普频道。

3

扩展现有视频时长

开发者有一段短视频(如产品演示、风景片段),希望将其无缝延长,补充更多内容,而不是简单循环播放。

利用SVI的视频扩展能力,以原视频为起点,生成风格和内容连贯的后续画面,实现视频时长的自然增长。

将一段15秒的产品特写视频,扩展成1分钟的完整使用场景展示视频。

4

创建多镜头动态内容

开发者想生成包含多个场景切换、动作丰富的动态视频(如舞蹈、运动),但普通视频生成模型难以处理复杂的镜头运动和长时间动态。

采用SVI 2.0 Pro,结合社区工作流(如ComfyUI),可以生成长达40秒的高动态视频且避免色彩退化,适合舞蹈生成等场景。

生成一段30秒的卡通角色舞蹈视频,包含全身动作和镜头推拉摇移。

项目健康度

46
C 一般

综合活跃度、人气、增长、社区、文档评估

活跃度
2/25
人气
19/25
增长
9/20
社区
1/15
文档
15/15
在 GitHub 上查看

项目信息

作者 vita-epfl
来源 GitHub
周期 每日
仓库 ID vita-epfl/Stable-Video-Infinity
首次采集 2026-02-02 08:00:29
最后更新 2026-02-02 15:24:21

赞赏支持

如果本站对你有帮助,欢迎打赏支持

微信打赏码

微信

支付宝打赏码

支付宝

评论 0

登录 后发表评论

加载评论中...

助手