当前位置: 首页 > news >正文

学习记录(11):训练图片分类的算法


文章目录

  • 一、卷积神经网络(CNN)架构
    • 1. ResNet(Residual Networks)
    • 2. DenseNet(Densely Connected Convolutional Networks)
    • 3. EfficientNet
    • 4. MobileNet
  • 二、变换器(Transformer)架构
    • 1. Vision Transformer(ViT)
    • 2. Swin Transformer
  • 三、混合架构
    • 1. ConvNeXt
    • 2. CoAtNet(Convolutional Attention Network)
  • 四、自监督学习和对比学习
    • 1. SimCLR(Simple Framework for Contrastive Learning of Visual Representations)
    • 2. BYOL(Bootstrap Your Own Latent)
  • 五 、大规模预训练学习
    • 1. CLIP(Contrastive Language–Image Pretraining)
    • 2. DINO(Self-Distillation with No Labels)


一、卷积神经网络(CNN)架构

1. ResNet(Residual Networks)

特点:引入了残差连接(skip connections),解决了深层网络中的梯度消失问题。
代表模型:ResNet-50、ResNet-101、ResNet-152。
优势:在ImageNet等大型数据集上表现优异,训练稳定。

2. DenseNet(Densely Connected Convolutional Networks)

特点:每一层都与前面的所有层直接连接,增强了特征复用。
代表模型:DenseNet-121、DenseNet-169、DenseNet-201。
优势:参数更少,特征传递和梯度流动更好。

3. EfficientNet

特点:通过复合缩放方法(compound scaling)系统地缩放网络的深度、宽度和分辨率。
代表模型:EfficientNet-B0到EfficientNet-B7。
优势:在参数量和计算量较少的情况下,达到了更高的准确率。

4. MobileNet

特点:设计轻量级网络,适用于移动和嵌入式设备。
代表模型:MobileNetV1、MobileNetV2、MobileNetV3。
优势:计算效率高,适合资源受限的环境。

二、变换器(Transformer)架构

1. Vision Transformer(ViT)

特点:将图像分割成固定大小的patches,然后将这些patches作为输入序列,使用标准的Transformer架构进行处理。
优势:在大规模数据集上训练时,能够达到或超过传统CNN的性能。

2. Swin Transformer

特点:引入了层次化的窗口注意力机制,能够在不同尺度上捕捉图像特征。
优势:在多个视觉任务中表现出色,包括图像分类、目标检测和语义分割。

三、混合架构

1. ConvNeXt

特点:结合了CNN和Transformer的优点,采用了现代化的设计理念,如LayerNorm、GELU激活函数等。
优势:在保持CNN高效性的同时,提升了模型的性能。

2. CoAtNet(Convolutional Attention Network)

特点:结合了卷积和注意力机制,利用卷积捕捉局部特征,利用注意力机制捕捉全局特征。
优势:在多个视觉任务中表现优异,具有较好的泛化能力。

四、自监督学习和对比学习

1. SimCLR(Simple Framework for Contrastive Learning of Visual Representations)

特点:通过对比学习方法,在没有标签的数据上进行预训练,然后在有标签的数据上进行微调。
优势:能够在没有大量标注数据的情况下,学习到高质量的特征表示。

2. BYOL(Bootstrap Your Own Latent)

特点:通过自我监督学习方法,不需要负样本对,直接优化特征表示。
优势:在多个数据集上表现出色,训练稳定。

五 、大规模预训练学习

1. CLIP(Contrastive Language–Image Pretraining)

特点:通过对比学习,将图像和文本嵌入到同一个向量空间中,能够处理多模态任务。
优势:在多个下游任务中表现优异,包括图像分类、图像生成、文本生成等。

2. DINO(Self-Distillation with No Labels)

特点:通过自监督学习方法,利用教师-学生模型进行特征提取。
优势:在没有标签的数据上进行预训练,然后在有标签的数据上进行微调,表现出色。

总结
目前,图像分类领域的最先进算法主要集中在深度学习模型,特别是卷积神经网络(CNN)和变换器(Transformer)架构上。选择合适的模型需要根据具体的应用场景、数据规模、计算资源等因素来决定。对于大规模数据集和高性能需求,可以考虑使用Vision Transformer(ViT)或Swin Transformer等变换器架构;对于资源受限的环境,可以考虑使用MobileNet或EfficientNet等轻量级模型。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【linux】企业级linux内核优化方案,助你构建出高效、稳定且安全的Linux系统环境
  • MySQL深分页和浅分页
  • JVM详解(个人学习笔记)
  • 基于FPGA的数字信号处理(18)--半加器和全加器
  • 嵌入式网络调试命令 ifconfig 介绍及使用方法
  • 【五大海内外高校支持】2024年数字经济与计算机科学国际学术会议(DECS2024)
  • 壁纸头像小程序uniapp版(附源码)
  • YOLOv8新版本支持实时检测Transformer(RT-DETR)、SAM分割一切
  • nginx 代理 mysql 连接
  • 关于Redis的面试题
  • 企业如何构建全面的指标管理体系?
  • rule_解析`````````````````
  • Pytorch代码:打印模型每层的参数数量和总参数量
  • 计算机基础(Windows 10+Office 2016)教程 —— 第5章 文档编辑软件Word 2016(下)
  • 机械学习—零基础学习日志(高数22——泰勒公式理解深化)
  • Date型的使用
  • es6要点
  • JavaScript函数式编程(一)
  • Laravel核心解读--Facades
  • Python_网络编程
  • spring security oauth2 password授权模式
  • unity如何实现一个固定宽度的orthagraphic相机
  • vue-cli在webpack的配置文件探究
  • vue从创建到完整的饿了么(18)购物车详细信息的展示与删除
  • 阿里中间件开源组件:Sentinel 0.2.0正式发布
  • 驱动程序原理
  • 我看到的前端
  • 我有几个粽子,和一个故事
  • elasticsearch-head插件安装
  • ​Linux Ubuntu环境下使用docker构建spark运行环境(超级详细)
  • !!java web学习笔记(一到五)
  • # Maven错误Error executing Maven
  • # 飞书APP集成平台-数字化落地
  • ###51单片机学习(2)-----如何通过C语言运用延时函数设计LED流水灯
  • #{}和${}的区别是什么 -- java面试
  • #QT(TCP网络编程-服务端)
  • #每日一题合集#牛客JZ23-JZ33
  • #数据结构 笔记一
  • $forceUpdate()函数
  • (3)llvm ir转换过程
  • (32位汇编 五)mov/add/sub/and/or/xor/not
  • (4)logging(日志模块)
  • (day6) 319. 灯泡开关
  • (七)glDrawArry绘制
  • (删)Java线程同步实现一:synchronzied和wait()/notify()
  • (详细文档!)javaswing图书管理系统+mysql数据库
  • (一)springboot2.7.6集成activit5.23.0之集成引擎
  • (转)3D模板阴影原理
  • (转)Sql Server 保留几位小数的两种做法
  • .NET 8.0 发布到 IIS
  • .NET WebClient 类下载部分文件会错误?可能是解压缩的锅
  • .NET/C# 编译期间能确定的相同字符串,在运行期间是相同的实例
  • .vimrc 配置项
  • @component注解的分类
  • @SuppressWarnings(unchecked)代码的作用