国产开源项目Sora迎来重大更新!由大兔展联合发起的Sora开源复现计划(Open-Sora-Plan)今天宣布,现在可以生成最长约21秒的视频。以下是一些生成视频的示例。首先是一个时长9.2秒的视频:

国产开源项目Sora再升级

接下来是一个2.7秒的人形机器人种花视频:

国产开源项目Sora再升级

如往常一样,所有数据、代码和模型均已开源。目前,Open-Sora-Plan在GitHub上已获得10.4k颗星星,感兴趣的读者可以前往体验。

上个月,Open-Sora-Plan刚刚在开源社区上新,支持单镜头16秒的视频生成,最高分辨率为720p。这次版本更新主要在两个方面取得了进展:

  1. 采用了更高质量的视觉数据与caption
  2. 优化了CausalVideoVAE的结构

项目团队还宣布,Open-Sora-Plan现已全面支持使用国产AI计算系统(如华为昇腾)进行完整的训练和推理。

新版本Open-Sora-Plan v1.1.0

此次更新的版本是Open-Sora-Plan v1.1.0。项目团队展示了该版本的三个主要功能,并注明演示背后使用了3000小时的视频数据。

首先是10秒版的文生视频(10s×512×512)。以下是一些示例:

(此处插入示例图片)

其次是2秒版的文生视频(2s×512×512)。以下是一些示例:

(此处插入示例图片)

最后,团队展示了用Open-Sora-Plan v1.1.0进行的视频编辑功能(2s×512×512),这部分内容采用了团队刚推出的ReVideo模型。以下是一些示例:

(此处插入示例图片)

虽然团队承认“我们仍然离Sora有一段距离”,但也展示了失败案例。例如,生成的视频在重建细粒度特征时会出现抖动,或者视频中的小狗头出现了语义扭曲的问题。团队认为,可能需要通过扩大模型和数据量来解决这些问题。

背后技术

整体框架上,Open-Sora-Plan由三部分组成:Video VAE、Denoising Diffusion Transformer(去噪扩散型Transformer)和Condition Encoder(条件编码器)。与Sora技术报告的内容基本相似。

此次更新的Open-Sora-Plan v1.1.0是一个基于Transformer的文本到视频模型,经过T5文本嵌入的训练。训练过程采用多阶段的级联方法,分三个阶段进行。第二阶段采用了华为昇腾算力进行训练,完全由国产芯片支持。

相比上个月发布的前作Open-Sora-Plan v1.0.0,最新版本主要有两方面的优化:

  1. 优化了CausalVideoVAE的结构
  2. 采用了更高质量的视觉数据与captions

优化CausalVideoVAE的结构

团队减少了CausalConv3D的数量,只保留encoder的最后两个stage的CausalConv3D,从而在几乎保持原有性能的情况下大幅度降低开销。为了改善高频信息丢失问题,团队在v1.1.0中改进了temporal module,引入了卷积并增加了可学习的权重。

采用更高质量的视觉数据与captions

Open-Sora-Plan v1.1.0采用了更高质量的视觉数据与captions,使模型对世界运行规律有了更好的理解。数据收集分为图片和视频两部分,并进行了独立处理。

研究人员从Pixart-Alpha获取了11M个图像文本对,并从Laion-5B中筛选高质量图片提高生成人类的质量。视频数据集大约有3000小时,大大超过了v1.0.0的300小时。

未来计划

接下来的工作将主要围绕两个方面进行:一是数据扩展,重点关注数据来源和数据量;二是模型设计,主要对CausalVideoVAE和扩散模型进行优化。不变的是,所有数据、代码和模型都会继续开源。

记者观点

Sora开源复现计划的快速迭代和持续创新令人印象深刻。项目团队不仅在技术上不断突破,还积极支持国产AI算力,展示了国产开源项目的强大潜力。尽管仍有一些技术难题需要解决,但随着数据量和模型规模的扩大,Sora的未来发展前景可期。这个项目不仅为开源社区带来了更多可能,也为国产AI算力的应用提供了重要参考。

Leave a Reply

Your email address will not be published. Required fields are marked *