当前位置：首页 > news >正文

学习记录（11）：训练图片分类的算法

news 来源：原创 2024/9/20 10:08:31

文章目录

一、卷积神经网络（CNN）架构
- 1. ResNet（Residual Networks）
- 2. DenseNet（Densely Connected Convolutional Networks）
- 3. EfficientNet
- 4. MobileNet
二、变换器（Transformer）架构
- 1. Vision Transformer（ViT）
- 2. Swin Transformer
三、混合架构
- 1. ConvNeXt
- 2. CoAtNet（Convolutional Attention Network）
四、自监督学习和对比学习
- 1. SimCLR（Simple Framework for Contrastive Learning of Visual Representations）
- 2. BYOL（Bootstrap Your Own Latent）
五、大规模预训练学习
- 1. CLIP（Contrastive Language–Image Pretraining）
- 2. DINO（Self-Distillation with No Labels）

一、卷积神经网络（CNN）架构

1. ResNet（Residual Networks）

特点：引入了残差连接（skip connections），解决了深层网络中的梯度消失问题。
代表模型：ResNet-50、ResNet-101、ResNet-152。
优势：在ImageNet等大型数据集上表现优异，训练稳定。

2. DenseNet（Densely Connected Convolutional Networks）

特点：每一层都与前面的所有层直接连接，增强了特征复用。
代表模型：DenseNet-121、DenseNet-169、DenseNet-201。
优势：参数更少，特征传递和梯度流动更好。

3. EfficientNet

特点：通过复合缩放方法（compound scaling）系统地缩放网络的深度、宽度和分辨率。
代表模型：EfficientNet-B0到EfficientNet-B7。
优势：在参数量和计算量较少的情况下，达到了更高的准确率。

4. MobileNet

特点：设计轻量级网络，适用于移动和嵌入式设备。
代表模型：MobileNetV1、MobileNetV2、MobileNetV3。
优势：计算效率高，适合资源受限的环境。

二、变换器（Transformer）架构

1. Vision Transformer（ViT）

特点：将图像分割成固定大小的patches，然后将这些patches作为输入序列，使用标准的Transformer架构进行处理。
优势：在大规模数据集上训练时，能够达到或超过传统CNN的性能。

2. Swin Transformer

特点：引入了层次化的窗口注意力机制，能够在不同尺度上捕捉图像特征。
优势：在多个视觉任务中表现出色，包括图像分类、目标检测和语义分割。

三、混合架构

1. ConvNeXt

特点：结合了CNN和Transformer的优点，采用了现代化的设计理念，如LayerNorm、GELU激活函数等。
优势：在保持CNN高效性的同时，提升了模型的性能。

2. CoAtNet（Convolutional Attention Network）

特点：结合了卷积和注意力机制，利用卷积捕捉局部特征，利用注意力机制捕捉全局特征。
优势：在多个视觉任务中表现优异，具有较好的泛化能力。

四、自监督学习和对比学习

1. SimCLR（Simple Framework for Contrastive Learning of Visual Representations）

特点：通过对比学习方法，在没有标签的数据上进行预训练，然后在有标签的数据上进行微调。
优势：能够在没有大量标注数据的情况下，学习到高质量的特征表示。

2. BYOL（Bootstrap Your Own Latent）

特点：通过自我监督学习方法，不需要负样本对，直接优化特征表示。
优势：在多个数据集上表现出色，训练稳定。

五、大规模预训练学习

1. CLIP（Contrastive Language–Image Pretraining）

特点：通过对比学习，将图像和文本嵌入到同一个向量空间中，能够处理多模态任务。
优势：在多个下游任务中表现优异，包括图像分类、图像生成、文本生成等。

2. DINO（Self-Distillation with No Labels）

特点：通过自监督学习方法，利用教师-学生模型进行特征提取。
优势：在没有标签的数据上进行预训练，然后在有标签的数据上进行微调，表现出色。

总结
目前，图像分类领域的最先进算法主要集中在深度学习模型，特别是卷积神经网络（CNN）和变换器（Transformer）架构上。选择合适的模型需要根据具体的应用场景、数据规模、计算资源等因素来决定。对于大规模数据集和高性能需求，可以考虑使用Vision Transformer（ViT）或Swin Transformer等变换器架构；对于资源受限的环境，可以考虑使用MobileNet或EfficientNet等轻量级模型。