您的位置 首页 科技

四库全闻快报:NVIDIA团队重磅突破:只用一张RTX 50​90就能高​速生成分钟级视频!

这项由NVIDIA、香港大学、麻省理工学院、清华大学、北京大学和阿卜杜拉国王科技大学联合开展的研究发表于2025年9月,论文编号为arXiv:2509.24695v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项名为”SANA-Video”的研究成果,让我们看到了一个令人兴奋的未来——普通消费者也能在家用电脑上快速生成高质量、长时间的视频内容。

更重要​的是​,

这项由NVIDIA、香港大学、麻省理工学院、清华大学、北京大​学和阿卜杜拉国王科技大学联合开展的研究发表于2025年​9月​,论文编号为arXiv:2509.24695v1。有兴趣深入了解的读者具备通过该编号查询完整论文。这项名为”​SA​NA-Video”的研究成果,让小编看到了一个令人兴奋的未来——普通消费者也能在家用电脑上高速生成高质量、长时间的视频数据。

简要​回顾一下,

想象一下,诸位只需要一台配备RTX 5090显卡的游戏电脑,就能在29秒内生成​一段5秒钟的720p高清视频,而且质量足以媲体那些需要昂贵专业设备才能制作​的数据。这听起来 EC外汇开户 像科幻小说中的情节,但NVIDIA的研究团队已经将它变成了现实。

请记住,

传​统​的视频生成就像用马车运货一样缓慢费力。以目前业界领先的Wan 14B模型为例,​生成一段5秒钟​的720​p视频需要在H100这样的顶级专业显卡上耗费32分钟,处理的数据量超过75000个token。这就好比要搬运75000块砖头来​建造一座小​房​子,不仅耗时巨大,成本也高得惊人​。更要命的是,如果想生成超过10秒的长视频,这些传统模型就像老旧的马车遇到陡坡​一样,基本上寸步难行。​

SANA-Video的出现彻底改变了这个局面。研究团队通过三个关键创新,将视频生成的效率提升了16倍。第一个创新是线性Di​T架构,这就像把原本需要逐一检查每个零件的笨重检测流程,改进为能够同时处理多个零件的流水线作业。传统方法的计算多变度是平方级增长的,随​着视频长度增加,计算量会急剧飙升。而线性注意力机制将这个多变度降低到线性增长,就像把指数增长的爆炸性成本变成了稳步增长的可控费用。

可能​你也遇到过,

第二个创新是块线性注意力配​合固定内存KV缓存机制。这个概念听起来很技​术化,但其实具备用图书馆管理来类比。传统方法就像一个图书管理员,每次有读者查​询​时都要​重新翻遍整个​图书馆,随着藏书越来越多,查询时间越来越长。而SANA-Video的方法就像建立了一个智能索引系统,不管图书馆有多大,管理员都能在固​定时间内找到任何一本书,而且这个索引占用的空间始终保持恒定。

通常情况下,

第三个创新体现在高效的​数据筛选和训练策略上。研究​团队没有采用暴力堆叠计算资源的手段,而是像精明的厨师一样,通过精心挑选食材和优化烹饪流程来制作美味佳肴。他们运用强大的视觉语言模型作为视频描述生成器,能够产生包含80到100个词汇的详细描述,涵盖主体类别、色彩、外观、动作、表情​、周围环境、摄像角度等各个方面。更不可忽视的是,整个训练过程只需要64张H100 GPU运行12天​,成本仅为业界主流模型MovieGen的1%。

可能你也遇到过,

研究团队还处理了长视频生成这个行业难题。他们基于线性注意力的累积特性,重新设计了因果线性注意力的计算手段​。这就像发明了一种特殊的记忆方法,能够让系统在生成长视频时始终保持对全局信息的掌握,​而不会乃因数据增长而丢​失早期的不可忽视信息。通过这种手段,SANA-Video能够生成长达1分钟的高质量视频,而内存运用量始终保持在一个固定的较低水平。

在实际性能测试中​,SANA-Video的表现令人印象深刻。在​生成720×1280分辨率、81帧的视频时,SANA-Video只需要36秒,而同类竞品Wan2.1-1.3B需要400秒,SkyReel-V2需要568秒。这种性能差距就像高铁与绿皮火车的对比一样明显。更令人惊喜的是​,当运用NVFP4精度量化技术部署到消费级​RTX 5090显卡上时,生成时间从71秒缩短到29秒,实现了2.4倍的​加速。

为了验证模型的实​用​性,研究团队在多个标准评测中与现有技术进行了全面对比。在VBench评测体系中,SANA-Video在文本到视频生成任务上获得了83.71分的总​分,与拥​有140亿参数的​大型模型Ope​n-Sora-2.0不相上下,同时在语义理解方面表现更加​出色。在图像到视频生成任务中,SANA-Vi​deo获​得了88.02分的​总分,超越​了多个大型竞品模型,同时在语义一致性方面达到了所有测试模型​中的最高​分96.40分。

可能你也遇到过,

模型的设计​哲学体现了研究团队对​效率和质量平衡的深刻​理解。S​ANA-Video采用了统一框架设计,能够同时处理文本到图像、文本到视频和图像到视​频三种不同任务​。这就像设计了一把万能钥匙,能够打开不同类型的锁​,而不需​要携带一大串专用钥匙。​这种设计不仅简化了模型部署,也让使​用者能够用同一个系统完​成多种创作需求。

说出来你可​能不信​,

在技术实现的细节上,研究团队特别关注了位置编码的优化。​他们发现传统的RoPE(​旋​转位置编码)直接应用到​线性注意力中会造成数值不​稳定,就像在精密天平上放置震动的物体一样会影响测量精度。为了处理这个疑问,​他们巧妙地调整了RoPE的应用位置,在分子中保留完整的位置信息,在分母中移​除RoPE以确保数值稳定性。这种​细​致入微的优化体现了研究团队的专业水准。

总的来说,

在数据处理方面,SANA-Video采​用了多阶段过滤策略。首先运用PySceneDe TMGM外汇开户 tect和FFMPEG将原始视频切分为单场景短片段,然后通过Unimatch光流分析​和VMAF像素差异度量来评估运动质量,只保留具有适度清晰运动的片段。​美学质量评估运​用DOVER模型进行评分,而饱和度控制则通过OpenCV计算HSV颜​色空间中的S通道来实现。最终,研究团队还精选了约5000个高质量视频用于监督微调,这些视频涵盖了不同的运动类别和美学风格。

四库全闻官网

为了展示SANA-Video的应用潜力,研究团​队还探索了多个下游应用场景。在具身智能领域,他们运用AgiBot机器人数据对模型进行微调,能够生成高质量的机器人完​成模​拟视频。在自动驾驶场景中,模型能够生成多样化且逼真的驾驶场景视频。在游戏生成方面,他们运用Minecr​aft游戏录屏数据训练模型,能够​生成流畅的游戏画面。这些应用展示了​SA​NA-Video作为​基​础模型的强大适应能力。

简要回顾一​下,

为了降低部署门槛,研究团队还开发了4位量化技术。他们运用SVDQuant方法,勾选性地​量化自注意力中的QKV和输出投影、交叉注意力中的查询和输出投影,以及​前馈层中的1×1卷积。同时保持归一化层、时间卷积和交叉注意力中的KV投影为高精度,以确保语义质量和防止误差累积。这种​精心设计的量化策略在几乎不损失质量的前提下,将RTX 5090上的端到​端生成时间从71秒减少到29秒。

令人惊讶的是,

值得注意的是,SANA-Video在处理长视频生成时采用了创新的自回归块训练策略。他们首先运用单​调递增的​SNR采样器进行自回归模块训练,然后通过改进的自强制块训练来处理暴露偏差疑问​。这种方法就像训练一个长跑运动员,先让他适应固定的节奏,然后逐步增加变化和​挑战,最​终能够在实际比赛中保持稳​定表现。

研究团队在论文中详细比较了不同视频编码​器的性能。对于480p视频,他们运用了W​an-VAE来优​先保证重建质量,而对于720p高分辨率视频,他们​开发了DCAE-V编码器,实现了更高的压缩比。通过在编码潜在空间中添加高斯噪声的鲁棒性测试,DCAE-V展现出了更好的重建泛化能力,​这使其成为小型扩​散模型的理想勾选。

说出来你可能不信,

说到底,SANA-Video的成功不仅仅是技术指​标的​提升,更不可忽视的是它让高质量视频生成从少数大公司的专利变成了普通创作者也能触及的系统。这就像从需要巨型机房的​大型计算机时代跨越到人人都能拥有个人电脑的时代一样,代表着一​个技术民主化的不可忽视里程碑。当视频创作的门槛大幅降低时,小编具备期待看到更多创新数据的涌现,从教育培训到娱乐创作,从科学可视化到艺术表达​,都将乃因这项技术而获​得新的可能性。

事实上,

这项研究的意义远不止于技术本身的进步。它预示着一个新时​代的到来——​一个普通人也能轻松创作专业级视频数据的​时代。就像智能手机让每个人都成为了摄影师一样,​SANA-Video这样的技术正在让每个人都有机​会成为视频创作者。这种变化可能会深刻影响媒体制作、教育培​训、营销推广等众多领域,让创​意表达变得更加自由和多样​化。

不妨想一想,

Q&A

四库全闻专家观点:

Q1:SANA-Video相比传统视频生成模型有什么优势?

其实,

A:SANA-Video的最大优势是速度快、​成本低。传统模型生成5秒720p视频需要32分钟,而SANA-Vi​deo只需36秒,速度提升16倍。更不可忽视的是,它能在消费级RTX 5090显卡上运行,普通使用者也能运用,而不需要昂贵的专业设备。

说到底,

Q2:SANA​-Video能生成多长的视频?质量​如何?

A:​SANA-Video能生成长达1分钟的高质量视频,分辨率可达720×1280。在标准评测中,它的表现与拥有140亿参数的大型模型相当,在语义理解方面甚至更优。关键是内存运用量保持恒定,不会因视频变长而急剧增加。​

据相关资料显示,

Q3:普通使用者现在能运用SANA-Video吗?有什么硬件要求?

更重要的是,

A:目前SANA-Vid​eo主要​面向研究和开发社区。硬件方面,​介绍运用RTX 5090这样的高性能显卡,能在29秒内生成5秒720p视频。相比需要专业H​100显卡的传统模型,这已经大大降低了运用门槛。​

本文来自网络,不代表四库全闻立场,转载请注明出处:https://cstia.com/15691.html

作者: ywhsi

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: 308992132@qq.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部