16秒720p高清视频,现在人人可免费一键生成!潞晨 Open-Sora 是一个致力于高效生产高质量视频的开源项目。自 3 月发布以来,该模型在 GitHub 上已获得 17.5K 的星标。以下是潞晨 Open-Sora 技术路线的具体内容:
- 引入视频压缩网络:采用与 OpenAI 的 Sora 相同的方法,在时间维度上进行 4 倍压缩,无需抽帧,可使用原始 FPS 生成视频。
- 利用 2D VAE 知识:由于训练 3D VAE 的成本较高,团队尝试让模型重新利用在 2D VAE 中学习到的知识。他们提出了一个简单的视频压缩网络(即 VAE),首先在空间维度上实现 8x8 倍的压缩,再从时间维度上压缩 4 倍。
- 分三步训练 VAE:
- 前 380K 步:在 8 个 GPU 上训练,冻结 2D VAE 的权重,只训练 3D VAE 部分,即对时间维度的压缩重建。训练目标为对 2D VAE encoder 输出的特征进行时间维度的压缩重建,并添加一个 identity loss 使得新训练的 3D VAE 输出的特征尽可能和原始 2D VAE 的特征相似。
- 接下来的 260K 步:移除掉 identity loss,继续单独训练 3D VAE 部分。
- 最后 540K 步:解冻 2D VAE 权重,训练整个 VAE 模型来重建原始视频。该阶段在 24 个 GPU 上完成。其中前两个阶段的训练数据使用 20%图像和 80%视频,视频用 17 帧进行训练;最后一个阶段用 34 帧的随机帧数视频进行训练,使 VAE 模型可以压缩任意长度的视频。
通过以上技术路线,潞晨 Open-Sora 能够在保障模型输出质量的同时,降低计算资源的消耗,并实现多种功能,如支持输出多种视频宽高比等。如果你想了解更多关于潞晨 Open-Sora 的信息,可以访问其 GitHub 主页。潞晨Open-Sora可零门槛免费获得模型权重、全套训练代码,沉浸式游戏、创意广告、制作影视大片……都能来试试~ |