国产开源Sora上新：全面支持国产AI算力可用ReVideo视频编辑北大-兔展团队出品

小编 2024年06月02日 17:59

博鱼·boyu体育该说不说，版本迭代速度还挺快——上个月，Open-Sora-Plan就在开源社区上新过一波。

当时能支持单镜头16秒的视频生成，分辨率最高720p，能满足的生成需求也比较多样。

团队还表示，Open-Sora-Plan已经支持使用国产AI计算系统（华为昇腾，期待更多国产算力芯片）进行完整的训练和推理。

项目团队对Open-Sora-Plan的现阶段能力进行了三个层面的展示，并注明演示背后是用3k小时视频数据。

这张图的Prompt是，“蓝色时刻圣托里尼岛的鸟瞰图，展示了令人惊叹的建筑”。

这张图的Prompt是，“摄像机对准一大堆老式电视机，所有电视机都显示不同的画面”。

给出的效果展示，有经典的小狗子，“一只戴着贝雷帽和黑色高领毛衣的柴犬”。

当然，团队承认“但我们仍然离Sora有一段距离”，同时给出了失败案例展示。

例如，团队对比了4倍时间和2倍时间下采样的重建视频，发现视频在重建细粒度特征时，画面都会发生抖动。

并且用v1。1。0生成的雪地里的小狗，视频中的小狗头出现了Semantic distortion的问题，似乎模型不能很好的判断哪个头是哪个狗的。

因此Open-Sora-Plan的团队成员认为，也许可以通过扩大模型和数据量来解决问题，达到更好的效果。

团队还提到，视频生成与图片生成最大的不同，在于其动态性，即物体在连续的镜头中发生一系列动态变化。

团队通过翻看大量的训练视频发现，这些素材网爬取的视频虽然画面质量很好，然而充斥着一些无意义的特写镜头；而这些特写镜头往往变化幅度很小，甚至处于静止状态。

同时，团队还发现negative prompt可以显著提高视频质量——这意味着也许需要在训练数据中加入更多先验知识。‍？

需要注意啦，由于视频生成可能需要150个左右的步骤才能产生良好的结果，试玩时生成每个视频大约需要4-5mins。

其中，第二阶段采用了华为昇腾算力进行训练，该阶段的训练、推理完全由国产芯片支持。

目前，仍然在训练和不断观察第三阶段的模型——增加帧数到513帧，大约是24FPS的21秒的视频。

相比上个月发布的前作Open-Sora-Plan v1。0。0，最新版本主要2个方面的优化。

一是优化了CausalVideoVAE的结构，二是采用了更高质量的视觉数据与captions。

为了解决这个问题，团队在v1。1。0中改进该模块，引入了卷积并增加了可学习的权重，以期望不同分支能够解耦不同特征。

当忽略CasualConv3D时，视频将会被重建得非常模糊；同样的，当忽略TemporalAvgPool，视频会变得非常锐利。

进一步，研究人员将9帧提高到25帧，发现增加视频帧数还能显著提高模型性能。

需要特别澄清的是，第一阶段和第二阶段团队开启mixed factor，在训练结束时a(sigmoid(mixed factor))的值为0。88，这意味着模型倾向于保留低频信息。

具体来说，除了第一个窗口以外的窗口都将抛弃第一帧，因为窗口内的第一帧被看作图片，然而其余帧都应该被当作视频帧。

接下来介绍第二个优化部分，即Open-Sora-Plan v1。1。0采用了更高质量的视觉数据与caption，这使得模型对世界运行规律有了更好的理解。

由于Open-Sora-Plan支持图片视频联合训练，因此数据收集分为图片和视频2个部分，且图片数据集和视频数据集是两个独立的数据集。

团队还注意到了高质量的OCR数据集Anytext-3M，这个数据集每一个图片都配对了相对应的OCR字符。但这些caption不足以描述整个图片。因此，团队采用InternVL-1。5进行补充描述。

由于T5只支持英文，所以研究人员筛选了英文数据参与训练，这约有完整数据的一半。

另外还从Laion-5B中筛选高质量图片以提高生成人类的质量，筛选规则主要包括：高分辨率、高美学分数、无水印的包含人的图片。

然而随着视频时长增加，一帧图片无法描述整个视频的内容，也无法描述时序上的镜头移动。

值得注意的是，v1。1。0的视频数据集大约有3k小时，而v1。0。0版本仅有0。3k小时。

最后，Open-Sora-Plan表示，接下来的工作主要围绕两个方面进行。

国产开源Sora上新：全面支持国产AI算力可用ReVideo视频编辑北大-兔展团队出品(图1)

本文地址： https://www.fangxinxuanke.com/douyinpeixunanli/1144.html