Stable Diffusion
https://www.ironist.info/1329.html
像AI生成器Stable Diffusion的新版本带来了全方位改进,其中最重要的是使用了新的文本到图像模型OpenCLIP,该模型可以生成更好的图像。
Stability Diffusion由人工智能初创公司Stability AI与RunwayML、LMU Munich、EleutherAI和LAION于2022年8月推出,可以免费在线使用,并带有内容过滤器,也可以免费下载并在本地使用,不受内容限制。因为开源和能够生成具有艺术效果的图像,它得到了广泛的应用和好评。2.0版延续了这样开源方法。
Stable Diffusion 2.0使用的OpenCLIP(对比语言图像预训练)是一个多模态AI系统的改进版本,可以从自然语言自我监督中学习视觉概念。OpenCLIP于9月中旬由LAION发布了三个版本。CLIP模型可以计算图像和文本作为嵌入的表示,并比较它们的相似性。通过这种方式,AI系统可以生成与文本匹配的图像。
据StabilityAI介绍,得益于这种新的文本编码器,Stable Diffusion 2.0版相比于1.0版可以生成更好的图像。该模型可以生成分辨率为512×512和769×768像素的图像,然后通过新的放大扩散模型将其放大到2048×2048像素。
OpenCLIP模型使用Stability AI基于LAION-5B数据集编制的“美学数据集”进行训练,涉及性和色情的内容事已被过滤掉。
Depth To Image
Stable Diffusion 2.0还使用了另一个新模型——深度图像(Depth To Image)模型——该模型分析输入图像的深度,然后使用文本输入将其转换为具有原始图像轮廓的新图像。另外,2.0版还获得了修复模型,可用于替换现有图像中的单个图像元素,例如在头部绘制帽子或VR头显。
尽管有许多改进,Stable Diffusion 2.0仍能在具有足够内存的单个图形卡上本地运行。
“我们已经看到,当数百万人接触到这些模型时,他们共同创造了一些真正令人惊叹的东西。这就是开源的力量:挖掘数以百万计的人才的巨大潜力,他们可能没有资源来培养最先进的模型,但有能力用一个模型做一些不可思议的事情。”Stability AI说。
在Github上可以获得Stable Diffusion 2.0的更多信息和对新模型的访问。在未来几天,它们将用于Stable Diffusion网络界面Dreamstudio。开发者可以在Stability AI 的API文档中找到详细的信息。