欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

还得是开源!潞晨Open-Sora技术道路公开,一键生成16秒720p视频

发布时间:2024-06-19 文章来源:本站  浏览次数:1638
16秒720p高清视频,现在人人可免费一键生成!潞晨 Open-Sora 是一个致力于高效生产高质量视频的开源项目。自 3 月发布以来,该模型在 GitHub 上已获得 17.5K 的星标。以下是潞晨 Open-Sora 技术路线的具体内容:


  • 引入视频压缩网络:采用与 OpenAI 的 Sora 相同的方法,在时间维度上进行 4 倍压缩,无需抽帧,可使用原始 FPS 生成视频。
  • 利用 2D VAE 知识:由于训练 3D VAE 的成本较高,团队尝试让模型重新利用在 2D VAE 中学习到的知识。他们提出了一个简单的视频压缩网络(即 VAE),首先在空间维度上实现 8x8 倍的压缩,再从时间维度上压缩 4 倍。
  • 分三步训练 VAE
    1. 前 380K 步:在 8 个 GPU 上训练,冻结 2D VAE 的权重,只训练 3D VAE 部分,即对时间维度的压缩重建。训练目标为对 2D VAE encoder 输出的特征进行时间维度的压缩重建,并添加一个 identity loss 使得新训练的 3D VAE 输出的特征尽可能和原始 2D VAE 的特征相似。
    2. 接下来的 260K 步:移除掉 identity loss,继续单独训练 3D VAE 部分。
    3. 最后 540K 步:解冻 2D VAE 权重,训练整个 VAE 模型来重建原始视频。该阶段在 24 个 GPU 上完成。其中前两个阶段的训练数据使用 20%图像和 80%视频,视频用 17 帧进行训练;最后一个阶段用 34 帧的随机帧数视频进行训练,使 VAE 模型可以压缩任意长度的视频。


通过以上技术路线,潞晨 Open-Sora 能够在保障模型输出质量的同时,降低计算资源的消耗,并实现多种功能,如支持输出多种视频宽高比等。如果你想了解更多关于潞晨 Open-Sora 的信息,可以访问其 GitHub 主页。潞晨Open-Sora可零门槛免费获得模型权重、全套训练代码,沉浸式游戏、创意广告、制作影视大片……都能来试试~

上一条:上海科技影都发布一批新平...

下一条:我国多所高校加大力度培育...