Disco Diffusion: 免费开源AI绘画图像生成工具

Disco Diffusion 是一款基于CLIP-Guided Diffusion技术的开源AI绘画图像生成工具,可以通过输入文本描述来生成各种主题和风格的高质量图像。它是由一群AI艺术爱好者和开发者合作开发的,目前已经开源在GitHub上,并提供了Google Colab Notebook的在线版本,方便用户使用。

Disco Diffusion 的核心技术是Diffusion Models,它们是受非平衡热力学启发的一类生成模型,可以通过逐步向数据添加随机噪声,然后学习逆转扩散过程,从噪声中构造出期望的数据样本。与VAE或flow models不同,Diffusion Models是通过固定的过程来学习的,而且潜在变量的维度很高(与原始数据相同)。

Disco Diffusion 利用了CLIP模型作为引导,根据用户输入的文本描述来调整扩散过程中的采样概率,从而生成与文本语义相符合的图像。CLIP模型是一个可以从任意文本和图像对中学习视觉概念的神经网络,它可以将不同模态的数据映射到同一个语义空间中,并计算它们之间的相似度。

特色功能

  • 支持多种分辨率和模型选择。用户可以根据自己的需求和硬件条件,选择不同的分辨率(从256×256到1024×1024)和模型(从RN50到ViTL14)来生成图像。不同的分辨率和模型会影响图像的质量和生成速度,一般来说,分辨率越高,模型越大,图像越清晰,但也越耗时。
  • 支持多种采样模式和参数调整。用户可以根据自己的喜好和创意,选择不同的采样模式(从Deterministic到Stochastic)和参数(如扩散步数、剪裁引导比例、初始图像、跳过步数等)来影响图像的生成过程。不同的采样模式和参数会影响图像的随机性和多样性,一般来说,采样模式越随机,参数越灵活,图像越有惊喜,但也越不可控。
  • 支持3D动画模式和VR模式。用户可以通过设置动画模式为3D,并指定视频帧数来生成3D效果的动画视频。这种动画视频可以让用户感受到图像中物体的立体感和深度感。此外,用户还可以通过设置VR模式来生成适合VR设备观看的双眼立体视频。这种视频可以让用户沉浸在虚拟现实中,体验更真实的视觉效果。
  • 支持水平对称模式和Midas模式。用户可以通过设置水平对称模式来生成具有对称性的图像。这种图像可以让用户感受到图像中物体的平衡和美感。此外,用户还可以通过设置Midas模式来生成具有金属光泽的图像。这种图像可以让用户感受到图像中物体的质感和光影。

收费价格

Disco Diffusion 是一款完全免费和开源的AI图像生成工具,用户可以在GitHub上下载源代码,或者在Google Colab上在线使用。用户不需要支付任何费用,也不需要注册任何账号,只需要有一个Google账号就可以使用Google Colab的免费云端计算资源。

不过,由于Disco Diffusion 的运算量很大,需要使用高性能的GPU来加速生成过程,而Google Colab提供的免费GPU资源是有限的,可能会出现分配不到或者被断开的情况。因此,如果用户想要更稳定和更快速地使用Disco Diffusion,可以考虑使用一些付费的云端计算平台,如Vast.ai。Vast.ai是一个提供按需租用GPU资源的平台,用户可以根据自己的需求和预算,选择合适的GPU类型和时长来运行Disco Diffusion。Vast.ai的价格根据不同的GPU类型和市场供需而变化,一般在0.1-1美元/小时之间。

常见问题

Q: Disco Diffusion 可以生成什么样的图像?

A: Disco Diffusion 可以生成各种主题和风格的图像,只要你能用文本描述出来。你可以输入一些具体的物体、场景、人物、动作等,也可以输入一些抽象的概念、情感、风格等。你还可以输入一些参考的艺术家、作品、风格等,来让图像更符合你的期望。你甚至可以输入一些不存在或者荒诞的东西,来创造出一些惊奇和奇幻的图像。

Q: Disco Diffusion 生成图像的速度如何?

A: Disco Diffusion 生成图像的速度取决于很多因素,如分辨率、模型、采样模式、扩散步数、GPU类型等。一般来说,分辨率越高,模型越大,采样模式越随机,扩散步数越多,GPU类型越低端,生成速度越慢。以Google Colab提供的Tesla T4 GPU为例,生成一个512×512分辨率、RN50模型、Deterministic采样模式、150扩散步数的图像大约需要5分钟左右。

Q: Disco Diffusion 生成图像的质量如何?

A: Disco Diffusion 生成图像的质量也取决于很多因素,如分辨率、模型、采样模式、扩散步数、文本描述等。一般来说,分辨率越高,模型越大,采样模式越确定性,扩散步数越多,文本描述越清晰和详细,生成质量越高。不过,并不是所有的参数都要设置得越大越好,有时候也需要根据自己的喜好和创意来调整参数,以达到最佳的效果。

给TA打赏
共{{data.count}}人
人已打赏
AI工具

InvokeAI: 基于Stable Diffusion模型的开源AI绘画web部署工具

2023-6-11 8:00:03

AI工具

Voice.ai: 免费强大的AI语音变声器工具软件

2023-6-11 10:00:38