当前热点-视频版Stable Diffusion：英伟达做到最高1280×2048、最长4.7秒

来源：机器之心时间：2023-04-21 12:24:22

机器之心报道

编辑：杜伟

在生成式 AI 盛行的今天，英伟达在文本生成视频领域更进了一步，实现了更高分辨率、更长时间。

要说现阶段谁是 AI 领域的「当红辣子鸡」？生成式 AI 舍我其谁。包括 ChatGPT 等对话式 AI 聊天应用、Stable Diffusion 等 AI 绘画神器在内，生成式 AI 展示的效果深深地抓住了人们的眼球。

(资料图片仅供参考)

我们以图像生成模型为例，得益于底层建模技术最近的突破，它们收获了前所未有的关注。如今，最强大的模型构建在生成对抗网络、自回归 transformer 和扩散模型（diffusion model, DM）之上。其中扩散模型的优势在于能够提供稳健和可扩展的训练目标，并且参数密集度通常低于基于 transformer 的竞品模型。

虽然图像领域取得了长足进步，但视频建模却落后了，这主要归咎于视频数据训练的高昂计算成本以及缺乏大规模公开可用的通用数据集。目前视频合成虽有丰富的研究文献，但包括先前视频 DM 在内的大多数工作仅能生成分辨率较低且往往较短的视频。

因此，如何生成分辨率更高、更长的视频成为一个热门研究课题。近日慕尼黑大学、英伟达等机构的研究者利用潜在扩散模型（latent diffusion model, LDM）实现了高分辨率的长视频合成。相关论文已经发表在 arXiv 上。

项目主页：https://research.nvidia.com/labs/toronto-ai/VideoLDM/

论文地址：https://arxiv.org/pdf/2304.08818.pdf

在论文中，研究者将视频模型应用于真实世界问题并生成了高分辨率的长视频。他们关注两个相关的视频生成问题，一是高分辨率真实世界驾驶数据的视频合成，其在自动驾驶环境中作为模拟引擎具有巨大潜力；二是文本指导视频生成，用于创意内容生成。

为此，研究者提出了视频潜在扩散模型（Video LDM），并将 LDM 扩展到了计算密集型任务 —— 高分辨率视频生成。与以往视频生成 DM 工作相比，他们仅在图像上预训练 Video LDM（或者使用可用的预训练图像 LDM），从而允许利用大规模图像数据集。

接着将时间维度引入潜在空间 DM、并在编码图像序列（即视频）上仅训练这些时间层的同时固定预训练空间层，从而将 LDM 图像生成器转换为视频生成器（下图左）。最后以类似方式微调 LDM 的解码器以实现像素空间中的时间一致性（下图右）。

此外，为了进一步提高空间分辨率，研究者对像素空间和潜在 DM 上采样器进行时间对齐，将它们转换为时间一致的视频超分辨率模型。在 LDM 的基础上，本文方法以计算和内存高效的方式生成了全局连贯的长视频。对于非常高分辨率的合成，视频上采样器只需要在本地运行，保持了较低的训练和计算要求。

最后，研究者进行了消融实验，在分辨率为 512×1024 的真实驾驶场景视频上对其方法进行了测试，实现了 SOTA 视频质量，并合成了几分钟的视频。此外，他们还微调了 Stable Diffusion，将它变成一个高效、强大的文本到视频生成器，分辨率最高可达 1280 × 2048。

通过将经过训练的时间层迁移至不同的微调文本到图像 LDM，研究者首次展示了个性化的文本到视频生成，并希望自己的工作为高效的数字内容创建和自动驾驶模拟开辟新的途径。

我们来看几个文本到视频生成示例，比如「弹电吉他的泰迪熊、高分辨率、4K」。

比如「海浪拍打着一座孤独的灯塔、不详的灯光」。

再比如「夕阳下独自穿行在迷雾森林中的旅行者」。

方法解读：潜在视频扩散模型

这部分中，研究者描述了为实现高分辨率视频合成，对预训练图像 LDM 和 DM 上采样器进行视频微调。

将潜在图像转换为视频生成器

研究者高效训练视频生成模型的关键思路在于：重用预训练的固定图像生成模型，并利用了由参数 θ 参数化的 LDM。具体而言，他们实现了两个不同的时间混合层，即时间注意力和基于 3D 卷积的残差块。研究者使用正弦嵌入为模型提供了时间位置编码。具体流程如下图 4 所示。

用于长视频生成的预测模型

研究者还训练模型作为给定多个（首个）S 上下文帧的预测模型，通过引入时间二元掩膜 m_S 来实现。该掩膜 mask 了模型必须预测的 T − S 帧。此外研究者将该掩膜和 masked 编码视频帧馈入到模型中进行调节。

在推理过程中，为了生成长视频，研究者迭代地应用了采样过程，将最新的预测重新用作新的上下文。第一个初始序列通过从基础图像模型中合成单个上下文帧来生成，并基于此生成了一个新序列。然后以两个上下文帧为条件对动作进行编码。

用于高帧率的时间插值

高分辨率的特点不仅在于高空间分辨率，还在于高时间分辨率，即高帧率。为此研究者将高分辨率视频的合成过程分为了两部分，第一部分包括上文中的将潜在图像转换为视频生成器和用于长视频的预测模型，它们可以生成具有较大语义变化的关键帧，但受限于内存只能在较低帧率运行。第二部分则引入了一个额外模型，其任务是在给定关键帧之间进行插值。

研究者在实现过程中使用了掩膜调节机制。不过与预测任务不同，他们需要 mask 进行插值的帧，否则该机制保持不变，即图像模型被细化为视频插值模型。

超分辨率（SR）模型的时间微调

尽管 LDM 机制提供了很好的原始分辨率，但研究者的目标是将它推进到百万像素级别。他们从级联 DM 中获得灵感，并使用 DM 将 Video LDM 输出放大 4 倍。对于驾驶视频合成实验，研究者使用了像素空间 DM，并将分辨率扩大至 512×1024；对于文本到视频模型，他们使用了 LDM 上采样器，将分辨率扩大至 1280 × 2048。

实验结果

研究者专注于驾驶场景视频生成和文本到视频，因此使用了两个相关数据集，一个是真实驾驶场景（RDS）视频的内部数据集；另一个是 WebVid-10M 数据集，它将公开可用的 Stable Diffusion 图像 LDM 转换为了 Video LDM。

高分辨率驾驶视频合成

研究者在 RDS 数据集上训练 Video LDM pipeline，包括一个 4 倍像素空间视频上采样器。下表 1 显示了无上采样器时，128×256 分辨率下 Video LDM 的主要结果。研究者展示了有和无拥挤和白天 / 夜晚条件下其模型的性能。可以看到，Video LDM 通常优于 LVG，并且在一定条件下进一步降低了 FVD。

下表 2 显示了人类评估结果。就真实性而言，研究者的样本通常优于 LVG，并且来自条件模型的样本也优于无条件样本。

研究者将其视频微调像素空间上采样器与独立逐帧图像上采样做了比较，并使用了 128 × 256 30 fps 的真值视频进行调节，如下表 3 所示。

在下图左 1（底部）和图右 7（顶部）中，研究者展示了来自组合 Video LDM 和视频上采样器模型的条件样本。他们生成了高质量的视频。此外，研究者使用其预测方法生成了时间连贯的多分钟高分辨率驾驶长视频。

用 Stable Diffusion 做文本到视频生成

研究者没有先训练自己的 Image LDM 主干，其 Video LDM 方法可以利用并将现有的 Image LDM 转换为视频生成器。在本文中，他们将 Stable Diffusion 转换为了文本到视频生成器。

具体地，研究者使用 WebVid-10M 文本字幕视频数据集，训练了一个时间对齐版本的 Stable Diffusion 来做文本条件视频生成。他们在来自 WebVid 的帧上对 Stable Diffusion 的空间层进行简单微调，然后插入时间对齐层并训练它们（分辨率为 320 × 512）。研究者还在这些对齐层中添加了文本条件。

此外，研究者进一步对公开可用的潜在 Stable Diffusion 上采样器进行视频微调，使它支持 4 倍放大并生成分辨率为 1280 × 2048 的视频。研究者生成了由 113 帧组成的视频，并可以渲染成 4.7 秒的 24 fps 或 3.8 秒 30 fps 的片段。相关样本如上图 1 和下图 6 所示。

更多技术和实验细节请参阅原论文。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

上一篇：小伙胃癌晚期幽门门螺杆菌需警惕了解这些让胃癌离你远一点世界最新

下一篇：最后一页

当前热点-视频版Stable Diffusion：英伟达做到最高1280×2048、最长4.7秒

机器之心报道编辑：杜伟在生成式AI盛行的今天，英伟达在文本生成视频领域更进了一步，实现了更高分辨率...

2023-04-21

小伙胃癌晚期幽门门螺杆菌需警惕了解这些让胃癌离你远一点世界最新

一、小伙胃癌晚期幽门门螺杆菌需警惕参考文章：https: www toutiao com article 722428

2023-04-21

【国际漫评】美国政客在乎的很多其中偏偏没有民众的性命-天天新资讯

在大规模枪支暴力事件接连不断的背景下，美国全国步枪协会（NRA）年会如期举办。包括美国前总统特朗普、...

2023-04-21

卡萨诺：那不勒斯应该对莱奥犯规，迈尼昂的表现是世界前三

米兰在欧冠1 4决赛两回合总比分2-1战胜那不勒斯，成功晋级四强。卡萨诺在BoboTV上称赞了米兰的表现。卡...

2023-04-21

台积电：第一季度营收5086.3亿元台币净利润2069亿元台币

台积电称，2023年第一季度营收5086 3亿元台币，上年同期4910 76亿元台币；第一季度净利润2069亿元台币，上

2023-04-21

海星股份：预计一季度归母净利润同比下降78.34%到82.25%-简讯

海星股份4月20日公告，公司预计2023年第一季度实现归属于上市公司股东的净利润与去年同期相比，将减少50...

2023-04-21

淄博烧烤能否从“爆红”到“长红”？当地文明办倡议让利于客让路于客

近段时间，淄博烧烤刷爆各大社交平台，多个相关话题冲上了热搜榜。山东省淄博市也凭借特色烧烤火爆“出...

2023-04-21

出发！坐着火车游老挝

01:28中国网4月19日讯（记者唐佳蕾）2023年4月13日，从中国昆明发出的“复兴号”国际旅客列车与从老挝万象开

2023-04-21

《闪电侠》确认引进！电影结局遭到修改，扎导版正联被删除_当前消息

《闪电侠》确认引进！电影结局遭到修改，扎导版正联被删除,扎克,电影,蝙蝠侠,奇幻片,犯罪片,正义联盟,超...

2023-04-21

如何在针织中结束整流罩

与编织成一个长方形的围巾不同，围巾设计成一根可以滑过头顶的管子。您可以编织平头罩，但您需要采取一...

2023-04-21

环球关注：今天哪里地震了最新消息（哪里发生过地震了）

1、1、陕西岐山：地震发生于周幽王二年这是中国史书记载比较可靠的最早一次大地震。地震时， "西周三川...

2023-04-21

全球速看：北京廉租房申请条件_郑州廉租房申请条件2019

1、来郑务工人员申请廉租房须同时具备下列条件：(一)连续缴纳社会保险1年以上或累计缴纳社会保险3年以上...

2023-04-21

半导体板块持续拉升，芯片50ETF（516350）今日强势上涨已达1.67%

截至10:25分，半导体板块持续拉升，寒武纪-U大涨超11%，芯源微等涨幅超8%，晶晨股份、芯原股份等个股跟...

2023-04-21

难求一胜，卫冕冠军为何进攻乏力？三镇为准备期连续犯错付出代价

难求一胜，卫冕冠军为何进攻乏力？三镇为准备期连续犯错付出代价,中超,上港,准备期,韦世豪,佩德罗

2023-04-21

纽约股市三大股指20日下跌

纽约股市三大股指20日下跌---新华社快讯：纽约股市三大股指20日下跌，其中道指跌0 33%，标普指数跌0 6...

2023-04-21

丹桂飘香是什么季节的_丹桂飘香是什么季节-世界视讯

1、“丹桂飘香”是描写秋季的成语。2、丹桂飘香【意思】原指桂树开花，香飘到十里外。3、现在形容某件事...

2023-04-21

金牛座4月下半月发展，进行思想的碰撞，才能更加吸引彼此的注意

欢迎来到灵隐塔罗，那今天要和大家分享的是金牛座在2023年4月下半月的一个感情事业运势了。因为今天是一...

2023-04-21

热资讯！再过100天，大运会将正式开幕——“我们在熊猫故乡等大家”

东安湖体育公园主体育场，成都大运会开幕式将在这里举行。新华社记者沈伯韩摄【来自国新办新闻发布会的...

2023-04-21

山西永勋蓄电池销售有限公司世界报道

1、山西永勋蓄电池销售有限公司于2010年12月09日在太原市工商行政管理局登记成立。2、法定代表人周建国...

2023-04-21

协会副会长单位中国银地投资有限公司与绿城理想小镇集团签署战略合作

2022年6月6日协会副会长单位中国银地投资有限公司(以下简称“中国银地公司”)与绿城理想小镇建设集团有...

2023-04-21

秦民：“爱心爸爸”点亮心智障碍者家庭的“心中明灯”

为了让“特殊”孩子拥有和健全孩子一样的学习机会，江苏省连云港市赣榆区彩虹桥互助中心定期开展特教课...

2023-04-21

招商证券：房地产销售仍处改善趋势维持“弱β交易强α”策略

智通财经APP获悉，招商证券(行情600999,诊股)发布研究报告称，春节后到3月末房地产板块股价的下跌已经是...

2023-04-21

每日资讯：沙尘翻过秦岭入川，广元空气质量“爆表”

今天（20日）午后开始，北方的沙尘突破秦岭-大巴山进入四川。四川北部的广元在短短2个小时里PM10浓度从1...

2023-04-21

食品涨价再创纪录英国通胀居高难下

新华社北京4月20日电英国国家统计局19日公布的数据显示，3月英国食品价格同比涨幅再次刷新45年来最高纪...

2023-04-21

停车难停车贵得解！

一段时间以来，许多南昌车主可能都会有这样的疑问：某处路段的占道泊位或是“不见了”，或是增加了。问...

2023-04-21

华能国际等在海口成立光伏发电公司注册资本2.04亿

天眼查App显示，近日，华能（琼海）光伏发电有限公司成立，法定代表

2023-04-21

天天快资讯：“双减”之下，少年宫的重塑与重生

“双减”之下，少年宫的重塑与重生

2023-04-21

【世界播资讯】BTIG：上调传奇生物(LEGN.US)目标价至85美元维持“买入”评级

智通财经APP获悉，BTIG将传奇生物(LEGN US)的目标价从75美元上调至85美元，并维持“买入”评级。BTIG分...

2023-04-21

世界观焦点：“石油采收率翻番！” 山东黄河边这家企业让老油田迎“新生”

01:35海报新闻记者孙杰辛振东东营报道4月19日，“走黄河廊道看高质量发展”中央媒体、沿黄九省（区）媒...

2023-04-21

当前动态:《天回医简》清理出930只竹简实证汉代中医已独立发展

封面新闻记者刘可欣2012年，成都北郊天回镇老官山发现了西汉时期的墓葬。考古人员在3号墓中发现了大量医...

2023-04-21

拿地11天即开工！毛戈平美妆研发中心隆重奠基开工

4月18日上午，毛戈平美妆研发中心暨杭州科韵诗生物科技有限公司（以下简称“科韵诗生物”）项目开工奠基...

2023-04-21

武汉市蔡甸区小学入学公办学校名单（附对口范围）

武汉市蔡甸区小学入学公办学校名单（附对口范围）所属街乡学校小学新生入学划片服务范围蔡甸街蔡甸...

2023-04-21

全球播报:4月19日西北地区地炼汽柴油报价暂稳

周二国际原油市场收盘价格略涨，4月19日西北地区地炼成品油价格走势暂稳，92 汽油整体价格为9100-9200...

2023-04-21

世界快报:中非共和国通报中国公民遇袭事件调查进展中方回应

中新网北京4月20日电(记者张蔚然)中国外交部发言人汪文斌4月20日主持例行记者会。有记者提问：中非共和...

2023-04-21

全球滚动:2023年徐州教资认定公告汇总（持续更新）

2023年徐州教资认定公告：徐州市：2023年徐州市中小学教师资格认定公告丰县：2023年丰县面向社会认定中...

2023-04-21

墨西哥总统指责美国在墨开展间谍活动|焦点信息

墨西哥总统洛佩斯17日指责美国在墨实施干涉行为及开展间谍活动。洛佩斯在当天举行的总统府新闻发布会上...

2023-04-20

微资讯！新野纺织(002087.SZ)2020年度净利润降38.37%至1.72亿元拟10派0.23元

格隆汇4月21日丨新野纺织发布2020年年度报告，实现营业收入48 66亿元，同比下降15 11%，归属于上市公...

2023-04-20

5块钱淘来的秤杆，盘成包浆手把件，为何沉香不能盘？|时讯

关于文玩，很多人印象最深的一个词就是——“盘”，只要肯下功夫，一条几十块钱的手串也能盘到上千块的...

2023-04-20

【大家说】顾坚：“黄金月”-当前资讯

顾坚1991年，在城市摆摊设点的摊贩基本来自农村，人数并不很多，因此生意是有保证的。而我恰好赶在年尾...

2023-04-20

每日视讯：iOFFER | 实现梦校王牌专业4连斩，仍能保持松弛感的秘诀是？

iOFFER|实现梦校王牌专业4连斩，仍能保持松弛感的秘诀是？在2018年之前，我和大家一样在进行紧张的中学...

2023-04-20

Newegg的AI机器人试图帮助我组装一台PC但并不顺利

尽管我充满兴趣和好奇心，但我以前从未真正组装过PC。在那里，我说了。我实际上没有PC。原因是我完全不...

2023-04-20

协创数据（300857）4月20日主力资金净买入1617.52万元

截至2023年4月20日收盘，协创数据(300857)报收于26 05元，上涨3 99%，换手率3 17%，成交量4 5万手，成交额1 15亿元。

2023-04-20

世界报道:[浦东]竹园小学:张杨|走出去的小主"综"——大自然里的观鸟课

参观·学习体验上海九段沙湿地自然保护区位于上海浦东新区境内，处在长江和东海交汇处，东西长46 3千米...

2023-04-20

科大讯飞：5月6日将发布讯飞星火认知大模型

鞭牛士 4月20日消息，据科大讯飞消息，讯飞星火认知大模型成果发布会定于5月6日14:00在安徽创新馆召开，...

2023-04-20

铁矿石市场和价格走势分析未来铁矿石行业发展趋势分析

铁矿石市场和价格走势分析未来铁矿石行业发展趋势分析4月19日，国家发展改革委发言人孟玮表示，近一段时...

2023-04-20

smart_card是什么卡有什么用播资讯

1、smartcard是智能卡，它指的是卡片内嵌着微小芯片的智能卡。smartcard的外观是塑料卡片，大小与银行卡

2023-04-20

中国银行冻结一般几天

根据银行卡被冻结的理由，中国银行卡的解冻时间为：1、如果因为三次输入错误导致银行卡被冻结。一般情况...

2023-04-20

三家AI公司要求美国法院驳回版权诉讼：AI生成图像与艺术家作品不相似

新浪科技讯北京时间4月20日早间消息，据报道，此前，一群艺术家指责人工智能企业StabilityAI、商业人工...

2023-04-20

燃油车的末日将至？上海车展上新能源车展馆人气爆棚

【ITBEAR科技资讯】4月20日消息，正在进行的上海车展上，出现了很有标志性的一幕，新能源车展馆看车的人...

2023-04-20

【全球速看料】大学生手绘长沙古旧书店地图

大学生手绘长沙古旧书店地图（书香长沙）记者探访古旧书店的现状与前景△大学生手绘的长沙古旧书店地图...

2023-04-20

当前热点-视频版Stable Diffusion：英伟达做到最高1280×2048、最长4.7秒

推荐阅读

当前热点-视频版Stable Diffusion：英伟达做到最高1280×2048、最长4.7秒

小伙胃癌晚期幽门门螺杆菌需警惕 了解这些让胃癌离你远一点 世界最新

【国际漫评】美国政客在乎的很多 其中偏偏没有民众的性命-天天新资讯

卡萨诺：那不勒斯应该对莱奥犯规，迈尼昂的表现是世界前三

台积电：第一季度营收5086.3亿元台币 净利润2069亿元台币

海星股份：预计一季度归母净利润同比下降78.34%到82.25%-简讯

淄博烧烤能否从“爆红”到“长红”？当地文明办倡议让利于客让路于客

出发！坐着火车游老挝

《闪电侠》确认引进！电影结局遭到修改，扎导版正联被删除_当前消息

如何在针织中结束整流罩

环球关注：今天哪里地震了最新消息（哪里发生过地震了）

全球速看：北京廉租房申请条件_郑州廉租房申请条件2019

半导体板块持续拉升，芯片50ETF（516350）今日强势上涨已达1.67%

难求一胜，卫冕冠军为何进攻乏力？三镇为准备期连续犯错付出代价

纽约股市三大股指20日下跌

丹桂飘香是什么季节的_丹桂飘香是什么季节-世界视讯

金牛座4月下半月发展，进行思想的碰撞，才能更加吸引彼此的注意

热资讯！再过100天，大运会将正式开幕——“我们在熊猫故乡等大家”

山西永勋蓄电池销售有限公司 世界报道

协会副会长单位中国银地投资有限公司与绿城理想小镇集团签署战略合作

秦民：“爱心爸爸”点亮心智障碍者家庭的“心中明灯”

招商证券：房地产销售仍处改善趋势 维持“弱β交易强α”策略

每日资讯：沙尘翻过秦岭入川，广元空气质量“爆表”

食品涨价再创纪录 英国通胀居高难下

停车难停车贵 得解！

华能国际等在海口成立光伏发电公司 注册资本2.04亿

天天快资讯：“双减”之下，少年宫的重塑与重生

【世界播资讯】BTIG：上调传奇生物(LEGN.US)目标价至85美元 维持“买入”评级

世界观焦点：“石油采收率翻番！” 山东黄河边这家企业让老油田迎“新生”

当前动态:《天回医简》清理出930只竹简 实证汉代中医已独立发展

拿地11天即开工！毛戈平美妆研发中心隆重奠基开工

武汉市蔡甸区小学入学公办学校名单（附对口范围）

全球播报:4月19日西北地区地炼汽柴油报价暂稳

世界快报:中非共和国通报中国公民遇袭事件调查进展 中方回应

全球滚动:2023年徐州教资认定公告汇总（持续更新）

墨西哥总统指责美国在墨开展间谍活动|焦点信息

微资讯！新野纺织(002087.SZ)2020年度净利润降38.37%至1.72亿元 拟10派0.23元

5块钱淘来的秤杆，盘成包浆手把件，为何沉香不能盘？|时讯

【大家说】顾坚：“黄金月”-当前资讯

每日视讯：iOFFER | 实现梦校王牌专业4连斩，仍能保持松弛感的秘诀是？

Newegg的AI机器人试图帮助我组装一台PC但并不顺利

协创数据（300857）4月20日主力资金净买入1617.52万元

世界报道:[浦东]竹园小学:张杨|走出去的小主"综"——大自然里的观鸟课

​科大讯飞：5月6日将发布讯飞星火认知大模型

铁矿石市场和价格走势分析 未来铁矿石行业发展趋势分析

smart_card是什么卡有什么用 播资讯

中国银行冻结一般几天

三家AI公司要求美国法院驳回版权诉讼：AI生成图像与艺术家作品不相似

燃油车的末日将至？上海车展上新能源车展馆人气爆棚

【全球速看料】大学生手绘长沙古旧书店地图

小伙胃癌晚期幽门门螺杆菌需警惕了解这些让胃癌离你远一点世界最新

【国际漫评】美国政客在乎的很多其中偏偏没有民众的性命-天天新资讯

台积电：第一季度营收5086.3亿元台币净利润2069亿元台币

山西永勋蓄电池销售有限公司世界报道

招商证券：房地产销售仍处改善趋势维持“弱β交易强α”策略

食品涨价再创纪录英国通胀居高难下

停车难停车贵得解！

华能国际等在海口成立光伏发电公司注册资本2.04亿

【世界播资讯】BTIG：上调传奇生物(LEGN.US)目标价至85美元维持“买入”评级

当前动态:《天回医简》清理出930只竹简实证汉代中医已独立发展

世界快报:中非共和国通报中国公民遇袭事件调查进展中方回应

微资讯！新野纺织(002087.SZ)2020年度净利润降38.37%至1.72亿元拟10派0.23元

科大讯飞：5月6日将发布讯飞星火认知大模型

铁矿石市场和价格走势分析未来铁矿石行业发展趋势分析

smart_card是什么卡有什么用播资讯