Open-Sora-Plan是由北京大学-兔展AIGC联合实验室发起的开源项目,旨在复现OpenAI的Sora文本到视频生成模型。该项目希望通过开源社区的力量,构建一个简单可扩展的代码库,实现Sora的核心功能。
项目的主要特点包括:
完全开源,欢迎社区贡献支持使用华为昇腾AI计算系统进行训练和推理基于昇腾训练的模型可以输出业界水平的视频质量采用3D全注意力架构,可以更好地捕捉时空特征高性能的CausalVideoVAE,具有256倍的视频压缩率支持文本到视频、图像到视频等多种任务GitHub: https://github.com/PKU-YuanGroup/Open-Sora-Plan
最新的v1.2.0版本模型可以在Hugging Face上下载:
93x720p模型29x720p模型93x480p模型CausalVideoVAE模型推荐配置:
--guidance_scale 7.5 --num_sampling_steps 100 --sample_method EulerAncestralDiscrete单GPU推理:
bash scripts/text_condition/gpu/sample_t2v.sh多GPU并行推理:
bash scripts/text_condition/gpu/sample_t2v_sp.sh文本到视频训练:
bash scripts/text_condition/gpu/train_t2v.sh图像到视频训练:
bash scripts/text_condition/gpu/train_inpaint.shOpen-Sora-Plan是一个非常有前景的开源项目,欢迎感兴趣的开发者参与贡献,共同推进文本到视频生成技术的发展。如果您觉得该项目有帮助,可以在GitHub上给项目点个star支持一下!
Copyright © 2025 AI图片论坛 版权所有. 站点地图