自动驾驶-端到端分割任务_业界新闻

发布时间:2024-07-17 20:45

阅读量:0

上采样

bed of nails

interpolation

transposed convolutions

1. 上采样 (Upsampling)

上采样是一种技术，用于增加数据集中的样本数量或是提高信号的分辨率。在图像处理中，上采样通常指的是增加图像的像素数量，从而使图像变得更大。这可以通过各种插值方法实现，如最近邻插值、双线性插值、三次插值等。

2. Bed of Nails

“Bed of Nails”是一种特定的上采样方法，其在信号处理中较为少见。在这种方法中，原始信号的每个样本之间插入一定数量的零值，基本上是在原有样本点保持不变的情况下，通过增加零来扩展信号。这种方法通常用作其他处理步骤（如滤波）的预处理步骤。

3. 插值 (Interpolation)

插值是一种数学和工程技术，用于通过已知数据点生成新数据点。在图像处理中，插值算法用于图像缩放时计算新像素点的值。常见的插值方法包括：

最近邻插值：选择最近的像素值作为新像素的值。
双线性插值：基于四个最近的像素点，通过线性方程计算新像素的值。
三次插值：使用16个相邻像素来提高插值的平滑度和精确度。

4. Transposed Convolutions（转置卷积）

转置卷积，有时也被称为分数步长卷积或逆卷积，是一种特殊的卷积操作，通常用于深度学习中的生成模型，如自动编码器和生成对抗网络（GAN）中。其主要目的是进行特征图的上采样，即将低维度的特征图转换为高维度的输出。与普通卷积相反，转置卷积通过填充输入特征图中的间隙（通常填充0）和执行卷积操作来实现输出特征图尺寸的扩展。这使得模型能够从压缩表示中重建出更详细的数据或图像。

这些技术在计算机视觉、图像增强、超分辨率和许多其他深度学习应用中都非常重要，它们帮助模型在处理各种尺寸的数据时保持灵活性和效率。

全卷积网络架构

主干网络 VGG image classfication network

https://www.mygreatlearning.com/blog/fcn-fully-convolutional-network-semantic-segmentation/

全卷积网络（FCN）

全卷积网络（FCN）最初由Jonathan Long, Evan Shelhamer, 和Trevor Darrell在2014年提出，用于进行图像的像素级分类，也就是语义分割。FCN的关键创新是使用卷积层替代了传统卷积神经网络（CNN）中的全连接层，使得网络能够接受任意尺寸的输入图像。

FCN的主要特点和架构包括：

全卷积化：传统的CNN在卷积层后通常包含几个全连接层，这限制了输入图像的尺寸。FCN将这些全连接层转换为卷积层，从而可以处理任何尺寸的输入。
上采样和跳跃连接：FCN通过使用转置卷积（有时称为逆卷积）层进行上采样，恢复图像的原始尺寸。此外，FCN使用跳跃连接将低层特征和高层特征结合起来，以保持边缘等细节信息。
端到端训练：FCN可以从头到尾进行训练，而不需要任何预处理或后处理步骤，可以直接输出像素级的预测图。

VGG网络（Visual Geometry Group）

https://www.mygreatlearning.com/blog/introduction-to-vgg16/

VGG网络是由牛津大学的Visual Geometry Group开发，首次在2014年的ILSVRC（ImageNet Large Scale Visual Recognition Challenge）中介绍。VGG网络是通过简化卷积网络结构的复杂性，同时提升深度来提高性能的典型例子。

VGG网络的特点如下：

简单且统一的架构：VGG网络主要由3x3的卷积层和2x2的最大池化层交替构成，使用的是非常小的感受野，但通过堆叠多个卷积层来增加网络的深度。
多个版本：VGG有几种不同的版本，常见的有VGG-16和VGG-19，数字代表网络中权重层的数量。VGG-16包含13个卷积层和3个全连接层，VGG-19则有16个卷积层和3个全连接层。
特征提取效果好：尽管VGG网络的结构较为简单，但其在特征提取上表现优异，被广泛用作许多视觉任务的预训练模型。

VGG网络由于其出色的特征提取能力，常被用作其他复杂任务（如**图像分割）**的主干网络。例如，在FCN中，可以使用预训练的VGG网络作为特征提取的基础架构，后续通过上述的全卷积化和上采样技术进行语义分割的任务。这样的组合利用了VGG的深度和强大的特征提取能力，同时通过FCN实现了对任意大小图像的精确像素级处理。