深入浅出学习Stable diffusion之Tiled Diffusion&VAE

avatar
作者
筋斗云
阅读量:0

今日言论:

马斯克的管理风格非常独特,他不需要非技术性的中层管理人员,员工表现不佳就会被裁,也不喜欢大型会议。

                                                                         -- 前特斯拉 AI 总监安德烈·卡帕西 

深入解读:Tiled Diffusion,英文翻译为**平铺扩散,**也是一种深度学习模型。

它主要用于图像生成任务。这种模型基于扩散过程,通过逐渐向图像中引入噪声,然后通过一个生成网络逐步恢复出清晰的图像。Tiled Diffusion模型将图像分成多个小块(即“瓦片”),并在每个瓦片中独立地执行扩散和生成过程,从而允许模型更有效地处理大型图像。

具体来说,Tiled Diffusion模型的训练分为两个阶段:

  1. 正向扩散过程(Forward Diffusion):在这个过程中,模型逐步地将图像数据转换为一个高斯噪声状态。这个过程通常包括多个步骤,每个步骤都涉及到对图像的逐步扰动。

  2. 反向生成过程(Backward Generation):在正向扩散过程之后,模型需要通过一个生成网络将高斯噪声转换回原始的图像数据。在Tiled Diffusion中,这个过程在每个瓦片上是独立进行的,这使得模型能够并行处理不同瓦片,从而提高了训练和推理的效率。

浅出解读:

图片来源:Technical Part · pkuliyi2015/multidiffusion-upscaler-for-automatic1111 Wiki · GitHub

这个图表示的其实是重绘放大的意思。核心技术是通过Tiled VAE插件降低了现存的消耗能力,让显卡更好的发挥其威力。(double双押!)

**关于安装:**一般秋叶大神的安装包是自带的,没有可以在扩展程序里面找到。

实用解读

  • 从图中,您可以看到如何将图像拆分为图块。

  • 在每个步骤中,潜在空间中的每个瓦片都将被发送到 Stable Diffusion UNet。

  • 瓷砖一遍又一遍地被分割和融合,直到所有步骤都完成。

  • 什么是好的瓷砖尺寸?

  • 较大的图块尺寸将提高速度,因为它产生的图块更少。

  • 但是,最佳大小取决于您的检查点。基本的 SD1.4 只擅长绘制 512 * 512 图像(SD2.1 将是 768 * 768)。而且大多数检查点无法生成大于 1280 * 1280 的好图片。所以在潜在空间中,让我们将其除以 8,你会得到 64 - 160。

  • 因此,您应该选择一个介于 64 - 160 之间的值。

  • 就个人而言,我推荐 96 或 128 以获得快速速度。

  • 什么是好的重叠?

  • 重叠减少了熔合中的接缝。显然,更大的重叠意味着更少的接缝,但会显着降低速度,因为它会带来更多的瓷砖来重绘。

  • 与 MultiDiffusion 相比,Mixture of Diffusers 需要更少的重叠,因为它使用高斯平滑(因此可以更快)。

  • 就个人而言,我建议 32 或 48 用于 MultiDiffusion,16 或 32 用于混合扩散器

生成超大图像

示例 1:杰作、最佳质量、高分辨率、城市天际线、夜晚

需要开启区域提示控件并启用绘制全画布背景。

配合ControlNet把古代的画变为现代:

22020 x 1080 超广角图像转换

  • 杰作, 最好的质量, 高分辨率, 超详细的8k统一壁纸, 鸟瞰图, 树木, 古建筑, 石头, 农场, 人群, 行人

2560*1280大图绘制:

  • ControlNet(精明的边缘)

img2img:升级细节

示例:1024 * 800 -> 4096 * 3200 图像,默认参数
  • 参数:

  • denoise=0.4,steps=20,Sampler=Euler a,Upscaler=RealESRGAN++,Negative Prompts=EasyNegative,

  • Ckpt:Gf-style2(4GB 版本),CFG 比例 = 14,剪辑跳过 = 2

  • method = MultiDiffusion,瓦片批量大小 = 8,瓦片大小高度 = 96,瓦片大小宽度 = 96,重叠 = 32

  • 提示 = 杰作,最佳质量,高分辨率,极其详细的 8k 壁纸,非常清晰,负提示 = EasyNegative。

4 倍高档后,无需挑剔。在 NVIDIA Tesla V100 上行驶 1 分 12 秒。(如果为 2x,则在 10 秒内完成)

  • 推荐用于高效升级的参数。

  • 采样器 = Euler a,步长 = 20,降噪 = 0.35,方法 = 扩散器的混合物,潜在瓦片高度和宽度 = 128,重叠 = 16,瓦片批量大小 = 8(如果内存不足,则减小瓷砖批量大小)。

关于Automatic1111WebUI的安装:

  • 打开Automatic1111 WebUI -> 点击“扩展”选项卡 -> 点击“从网址安装”选项卡 -> 输入 https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111.git -> 点击“安装”。

本篇内容来源于github、Kahsolt大佬、维基百科、老鹿AI等文献综合报道。

                                                                                  ——BODI   

写在最后

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

在这里插入图片描述

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

在这里插入图片描述

若有侵权,请联系删除

    广告一刻

    为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!