北大开源文生视频

https://mp.weixin.qq.com/s/XPVUY90mXZUHlfmjzyO9Wg
北大开源文生视频登上GitHub趋势榜单第一名！
https://github.com/PKU-YuanGroup/Open-Sora-Plan
huggingFace的体验
https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0
图片
虽然字节否认了400亿美金的利润传言，但是还是可以看出，短视频的赚钱魅力。
如果能够文生短视频，将是内容供给的一大改革。谁先做出来，谁赚钱。所以，需求特别旺盛，开源文生视频一出来，登顶github榜单，也在意料之中。
国际著名导演昆丁看后直接感叹：
图片
该项目旨在创建一个简单且可扩展的存储库，以重现Sora（OpenAI，但我们更愿意称其为“ClosedAI”）。我们希望开源社区能为这个项目做出贡献。欢迎拉请求！
本项目希望通过开源社区力量的复现Sora，由北大-兔展AIGC联合实验室共同发起，当前版本离目标差距仍在加大，仍需持续完善和快速迭代，欢迎拉取！
项目阶段：
基本的
设置代码库并在景观数据集上训练无条件模型。
训练可提高分辨率和持续时间的模型。
扩展
在景观数据集上进行text2video实验。
在 video2text 数据集上训练 1080p 模型。
具有更多条件的控制模型。
网页用户界面 图片
强烈建议通过以下命令尝试我们的网络演示。我们还提供在线演示 图片和图片Huggingface Spaces。
🤝 享受由@camenduru图片创建的和，他慷慨支持我们的研究！图片
python -m opensora.serve.gradio_web_server
CLI 推理
sh scripts/text_condition/sample_video.sh
数据集
参考数据.md
评估
请参阅文档EVAL.md。
因果视频 VAE
重建
python examples/rec_video_vae.py –rec-path test_video.mp4 –video-path video.mp4 –resolution 512 –num-frames 1440 –sample-rate 1 –sample-fps 24 -
-device cuda –ckpt 
训练和推理
请参阅文档CausalVideoVAE。
视频GPT VQVAE
请参考文档VQVAE。
视频扩散变压器
训练
sh scripts/text_condition/train_videoae_17x256x256.sh
sh scripts/text_condition/train_videoae_65x256x256.sh
sh scripts/text_condition/train_videoae_65x512x512.sh
🚀 提高训练表现
文生图的表现
图片
文本生成图像（Text-to-Image）和文本生成视频（Text-to-Video）是人工智能领域中的两个热门研究方向，它们涉及到自然语言处理（NLP）、计算机视觉（CV）和机器学习（ML）等多个技术领域。以下是一些可能的技术路线和技术细节：
文本生成图像（Text-to-Image）
预训练的语言模型：使用大型预训练语言模型（如GPT系列）来理解文本输入的语义内容。
特征提取：通过卷积神经网络（CNN）或Transformer模型从文本中提取高级特征。
生成对抗网络（GANs）：结合生成器和判别器，生成器负责生成图像，判别器负责区分生成图像和真实图像。
条件GANs（cGANs）：在GANs的基础上，通过条件变量（即文本特征）来引导生成器生成特定内容的图像。
变分自编码器（VAEs）：使用VAEs生成潜在空间的表示，然后从潜在空间解码出图像。
优化和微调：通过优化算法（如梯度下降）和微调技术来提高生成图像的质量和与文本的相关性。
文本生成视频（Text-to-Video）
序列模型：使用循环神经网络（RNNs）或Transformer模型来处理视频的时间序列特性。
多模态学习：结合文本、图像和视频数据，训练模型以理解不同模态之间的关系。
时间一致性：确保生成的视频在时间上的连贯性和一致性，这可能涉及到复杂的时间建模技术。
动态特征提取：使用3D CNN或其他空间-时间模型来提取视频中的动态特征。
视频生成对抗网络（VGANs）：类似于cGANs，但用于视频内容的生成，确保生成的视频既符合文本描述又具有逼真的视觉效果。
端到端训练：设计端到端的网络结构，直接从文本到视频的生成，这可能包括编码器-解码器架构。
技术挑战
语义理解：准确理解文本的语义内容，并将其转化为视觉概念。
内容的多样性和创造性：生成多样化和创造性的内容，而不仅仅是模仿现有样本。
时间连贯性：对于视频生成，保持时间上的连贯性和逻辑性是一个挑战。
计算资源：这些模型通常需要大量的计算资源，特别是在处理高分辨率视频时。
伦理和隐私：生成内容可能涉及版权、隐私和伦理问题，需要在技术开发的同时考虑这些问题。
在 “open-sora-plan” 项目中，研究者可能会探索上述技术路线和技术细节，以实现从文本到视频的生成。这样的项目需要跨学科的合作，包括计算机科学家、语言学家、艺术家和伦理学家等，以确保技术的发展既先进又负责任。
图片
北大开源文生视频登上GitHub趋势榜单第一名！
https://github.com/PKU-YuanGroup/Open-Sora-Plan
huggingFace的体验
https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0
英语不好的小伙伴看这里
http://www.gitpp.com/digital/open-sora-plan
文档更新时间: 2024-04-12 07:14   作者：admin