https://mp.weixin.qq.com/s/XPVUY90mXZUHlfmjzyO9Wg
北大开源文生视频登上GitHub趋势榜单第一名!
https://github.com/PKU-YuanGroup/Open-Sora-Plan
huggingFace的体验
https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0
图片
虽然字节否认了400亿美金的利润传言,但是还是可以看出,短视频的赚钱魅力。
如果能够文生短视频,将是内容供给的一大改革。谁先做出来,谁赚钱。所以,需求特别旺盛,开源文生视频一出来,登顶github榜单,也在意料之中。
国际著名导演昆丁看后直接感叹:
图片
该项目旨在创建一个简单且可扩展的存储库,以重现Sora(OpenAI,但我们更愿意称其为“ClosedAI”)。我们希望开源社区能为这个项目做出贡献。欢迎拉请求!
本项目希望通过开源社区力量的复现Sora,由北大-兔展AIGC联合实验室共同发起,当前版本离目标差距仍在加大,仍需持续完善和快速迭代,欢迎拉取!
项目阶段:
基本的
设置代码库并在景观数据集上训练无条件模型。
训练可提高分辨率和持续时间的模型。
扩展
在景观数据集上进行text2video实验。
在 video2text 数据集上训练 1080p 模型。
具有更多条件的控制模型。
网页用户界面 图片
强烈建议通过以下命令尝试我们的网络演示。我们还提供在线演示 图片和图片Huggingface Spaces。
🤝 享受由@camenduru图片创建的和,他慷慨支持我们的研究!图片
python -m opensora.serve.gradio_web_server
CLI 推理
sh scripts/text_condition/sample_video.sh
数据集
参考数据.md
评估
请参阅文档EVAL.md。
因果视频 VAE
重建
python examples/rec_video_vae.py –rec-path test_video.mp4 –video-path video.mp4 –resolution 512 –num-frames 1440 –sample-rate 1 –sample-fps 24 -
-device cuda –ckpt
训练和推理
请参阅文档CausalVideoVAE。
视频GPT VQVAE
请参考文档VQVAE。
视频扩散变压器
训练
sh scripts/text_condition/train_videoae_17x256x256.sh
sh scripts/text_condition/train_videoae_65x256x256.sh
sh scripts/text_condition/train_videoae_65x512x512.sh
🚀 提高训练表现
文生图的表现
图片
文本生成图像(Text-to-Image)和文本生成视频(Text-to-Video)是人工智能领域中的两个热门研究方向,它们涉及到自然语言处理(NLP)、计算机视觉(CV)和机器学习(ML)等多个技术领域。以下是一些可能的技术路线和技术细节:
文本生成图像(Text-to-Image)
预训练的语言模型:使用大型预训练语言模型(如GPT系列)来理解文本输入的语义内容。
特征提取:通过卷积神经网络(CNN)或Transformer模型从文本中提取高级特征。
生成对抗网络(GANs):结合生成器和判别器,生成器负责生成图像,判别器负责区分生成图像和真实图像。
条件GANs(cGANs):在GANs的基础上,通过条件变量(即文本特征)来引导生成器生成特定内容的图像。
变分自编码器(VAEs):使用VAEs生成潜在空间的表示,然后从潜在空间解码出图像。
优化和微调:通过优化算法(如梯度下降)和微调技术来提高生成图像的质量和与文本的相关性。
文本生成视频(Text-to-Video)
序列模型:使用循环神经网络(RNNs)或Transformer模型来处理视频的时间序列特性。
多模态学习:结合文本、图像和视频数据,训练模型以理解不同模态之间的关系。
时间一致性:确保生成的视频在时间上的连贯性和一致性,这可能涉及到复杂的时间建模技术。
动态特征提取:使用3D CNN或其他空间-时间模型来提取视频中的动态特征。
视频生成对抗网络(VGANs):类似于cGANs,但用于视频内容的生成,确保生成的视频既符合文本描述又具有逼真的视觉效果。
端到端训练:设计端到端的网络结构,直接从文本到视频的生成,这可能包括编码器-解码器架构。
技术挑战
语义理解:准确理解文本的语义内容,并将其转化为视觉概念。
内容的多样性和创造性:生成多样化和创造性的内容,而不仅仅是模仿现有样本。
时间连贯性:对于视频生成,保持时间上的连贯性和逻辑性是一个挑战。
计算资源:这些模型通常需要大量的计算资源,特别是在处理高分辨率视频时。
伦理和隐私:生成内容可能涉及版权、隐私和伦理问题,需要在技术开发的同时考虑这些问题。
在 “open-sora-plan” 项目中,研究者可能会探索上述技术路线和技术细节,以实现从文本到视频的生成。这样的项目需要跨学科的合作,包括计算机科学家、语言学家、艺术家和伦理学家等,以确保技术的发展既先进又负责任。
图片
北大开源文生视频登上GitHub趋势榜单第一名!
https://github.com/PKU-YuanGroup/Open-Sora-Plan
huggingFace的体验
https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0
英语不好的小伙伴看这里
http://www.gitpp.com/digital/open-sora-plan