https://mp.weixin.qq.com/s/XPVUY90mXZUHlfmjzyO9Wg

北大开源文生视频登上GitHub趋势榜单第一名!

https://github.com/PKU-YuanGroup/Open-Sora-Plan

huggingFace的体验

https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0

图片

虽然字节否认了400亿美金的利润传言,但是还是可以看出,短视频的赚钱魅力。

如果能够文生短视频,将是内容供给的一大改革。谁先做出来,谁赚钱。所以,需求特别旺盛,开源文生视频一出来,登顶github榜单,也在意料之中。

国际著名导演昆丁看后直接感叹:

图片

该项目旨在创建一个简单且可扩展的存储库,以重现Sora(OpenAI,但我们更愿意称其为“ClosedAI”)。我们希望开源社区能为这个项目做出贡献。欢迎拉请求!

本项目希望通过开源社区力量的复现Sora,由北大-兔展AIGC联合实验室共同发起,当前版本离目标差距仍在加大,仍需持续完善和快速迭代,欢迎拉取!

项目阶段:

基本的

设置代码库并在景观数据集上训练无条件模型。

训练可提高分辨率和持续时间的模型。

扩展

在景观数据集上进行text2video实验。

在 video2text 数据集上训练 1080p 模型。

具有更多条件的控制模型。

网页用户界面 图片

强烈建议通过以下命令尝试我们的网络演示。我们还提供在线演示 图片和图片Huggingface Spaces。

🤝 享受由@camenduru图片创建的和,他慷慨支持我们的研究!图片

python -m opensora.serve.gradio_web_server

CLI 推理

sh scripts/text_condition/sample_video.sh

数据集

参考数据.md

评估

请参阅文档EVAL.md。

因果视频 VAE

重建

python examples/rec_video_vae.py –rec-path test_video.mp4 –video-path video.mp4 –resolution 512 –num-frames 1440 –sample-rate 1 –sample-fps 24 -
-device cuda –ckpt

训练和推理

请参阅文档CausalVideoVAE。

视频GPT VQVAE

请参考文档VQVAE。

视频扩散变压器

训练

sh scripts/text_condition/train_videoae_17x256x256.sh

sh scripts/text_condition/train_videoae_65x256x256.sh

sh scripts/text_condition/train_videoae_65x512x512.sh

🚀 提高训练表现
文生图的表现

图片

文本生成图像(Text-to-Image)和文本生成视频(Text-to-Video)是人工智能领域中的两个热门研究方向,它们涉及到自然语言处理(NLP)、计算机视觉(CV)和机器学习(ML)等多个技术领域。以下是一些可能的技术路线和技术细节:

文本生成图像(Text-to-Image)

预训练的语言模型:使用大型预训练语言模型(如GPT系列)来理解文本输入的语义内容。

特征提取:通过卷积神经网络(CNN)或Transformer模型从文本中提取高级特征。

生成对抗网络(GANs):结合生成器和判别器,生成器负责生成图像,判别器负责区分生成图像和真实图像。

条件GANs(cGANs):在GANs的基础上,通过条件变量(即文本特征)来引导生成器生成特定内容的图像。

变分自编码器(VAEs):使用VAEs生成潜在空间的表示,然后从潜在空间解码出图像。

优化和微调:通过优化算法(如梯度下降)和微调技术来提高生成图像的质量和与文本的相关性。

文本生成视频(Text-to-Video)

序列模型:使用循环神经网络(RNNs)或Transformer模型来处理视频的时间序列特性。

多模态学习:结合文本、图像和视频数据,训练模型以理解不同模态之间的关系。

时间一致性:确保生成的视频在时间上的连贯性和一致性,这可能涉及到复杂的时间建模技术。

动态特征提取:使用3D CNN或其他空间-时间模型来提取视频中的动态特征。

视频生成对抗网络(VGANs):类似于cGANs,但用于视频内容的生成,确保生成的视频既符合文本描述又具有逼真的视觉效果。

端到端训练:设计端到端的网络结构,直接从文本到视频的生成,这可能包括编码器-解码器架构。

技术挑战

语义理解:准确理解文本的语义内容,并将其转化为视觉概念。

内容的多样性和创造性:生成多样化和创造性的内容,而不仅仅是模仿现有样本。

时间连贯性:对于视频生成,保持时间上的连贯性和逻辑性是一个挑战。

计算资源:这些模型通常需要大量的计算资源,特别是在处理高分辨率视频时。

伦理和隐私:生成内容可能涉及版权、隐私和伦理问题,需要在技术开发的同时考虑这些问题。

在 “open-sora-plan” 项目中,研究者可能会探索上述技术路线和技术细节,以实现从文本到视频的生成。这样的项目需要跨学科的合作,包括计算机科学家、语言学家、艺术家和伦理学家等,以确保技术的发展既先进又负责任。

图片

北大开源文生视频登上GitHub趋势榜单第一名!

https://github.com/PKU-YuanGroup/Open-Sora-Plan

huggingFace的体验

https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0

英语不好的小伙伴看这里

http://www.gitpp.com/digital/open-sora-plan

文档更新时间: 2024-04-12 07:14   作者:admin