当前位置：首页 > news >正文

经典论文AlexNet

news 来源：原创 2024/5/9 3:36:22

#pic_center =400x
系列文章：

文章目录

研究背景
研究意义
AlexNet 架构
- 采用Relu激活
- - LRU
- Overlapping Pooling
- 总体体系结构
减少过拟合
- 数据增强
- Dropout
代码
- 路径拼接
- 图像处理问题
- 加载模型

研究背景

CV数据集：

Mnist 图片大小28x28；类别 10；训练数据 50000；测试数据 10000；图片格式 Gray

Cifar-10 图片大小32x32；类别 10；训练数据50000；测试数据10000；图片 RGB
ILSVRC-2012图片大小100x100 ；类别 1000；训练数据50000；测试数据10000；图片 RGB
ImageNet数据集包含21841类别， 14197122张图片,ILSVR-2012的数据集是从ImageNet中获取的

研究意义

实现端到端：特征工程提取和分类集成一体。之前都是特征工程提取和分类是分开进行。
计算机视觉应用落地，如人脸识别，车辆检测等

pytorch 有专门的颜色扰动

AlexNet 架构

采用Relu激活

Relu优点

使网络训练更快
防止梯度消失/弥散
使网络具有稀疏性

LRU

Local Response Normalization
局部响应标准化：可以提高AlexNet泛化能力，该ieda受真实神经元侧抑制(lateral inhibition) 启发
侧抑制：当细胞分化为不同是，他会对周围细胞产生抑制信号，阻止它们襄相同方向分化，最终表现为细胞命运的不同
在这里插入图片描述
$\alpha, \beta,k,n都是超参数$
在 i 的n/2 邻域半径内，半径不得超过边界 $(i - n /2 < 0, i + n /2 >= N) ，$
统计这些神经元平方和，对应位置出去平方和。如果某个神经元的值特别大，邻域内其他的神经元就会趋向0

Overlapping Pooling

相对于传统的no-overlapping pooling，采用Overlapping Pooling不仅可以提升预测精度，同时一定程度上可以减缓过拟合。

相比于正常池化（步长s=2，窗口z=2）重叠池化(步长s=2，窗口z=3) 可以减少top-1, top-5分别为0.4% 和0.3%；重叠池化可以避免过拟合。
在这里插入图片描述

总体体系结构

在这里插入图片描述

减少过拟合

数据增强

两种数据增强：
两种数据增强方式

第一种：图像转换与水平映射。
在训练数据集上：从图像256x256中随机抽取224x224像素大小进行训练，训练数据集增长了2048，这样得到的图像是高度相关的

在测试数据集上：从源图像的上下左右+中间采取5张224x224大小的图片，进行水平翻转(新的5张)，最终得到10张图像
在这里插入图片描述

第二种方式就是PCA
PCA
PCA(主成分分析方法)

Dropout

多个不同模型结合起来能减小测试误差但是训练时间太长了。有一种非常有效的模型结合方式并且训练时间是原来的2倍。新的技术dropout：一0.5概率使得隐藏层的输出重置为0。重置为0的神经元不会进行前向传播、反向传播。每次给定输入，神经网络会对不同的体系结构进行采样，但是这些体系结构是共享权重的

在测试阶段，所有神经元的输出需要乘0.5 训练阶段使用dropout使得一半的输出为0，测试阶段需要预测的值的几何平均值减小一半即乘0.5
使用dropout收敛所需的迭代次数是之前的两倍

AlexNet 论文深度讲解

代码

路径拼接

import os
#os.path.dirname(__file__)返回的是.py文件的目录
path1 = os.path.dirname(__file__)
print('path1',path1)
# path1 E:\code\deeplea\pytorchlearn\ForTest

#os.path.abspath(__file__)返回的是.py文件的绝对路径（完整路径）
path2 = os.path.abspath(__file__)
print('path2',path2)
# path2 E:\code\deeplea\pytorchlearn\ForTest\test.py

#组合使用
path3 = os.path.dirname(os.path.abspath(__file__))
print('path3',path3)
# path3 E:\code\deeplea\pytorchlearn\ForTest

#os.path.join()拼接路径
path4 = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'test.py')
print('path4',path4)
# path4 E:\code\deeplea\pytorchlearn\ForTest\test.py

path_state_dict = os.path.join(BASE_DIR, "..", "data", "alexnet-owt-4df8aa71.pth")
    print(BASE_DIR)
    # E:\code\deeplea\pytorchlearn\learn\typepaper\A_alexnet\src
    print(path_state_dict)
    # E:\code\deeplea\pytorchlearn\learn\typepaper\A_alexnet\src\..\data\alexnet - owt - 4df8aa71.pth

图像处理问题

Resize 把给定的图片resize到给定大小
CenterCrop在图片的中间区域进行裁剪
ToTensor：convert a PIL image to tensor (HWC) in range [0,255] to a torch.Tensor(CHW) in the range [0.0,1.0]
Normalize

norm_mean = [0.485, 0.456, 0.406]
    norm_std = [0.229, 0.224, 0.225]
    inference_transform = transforms.Compose([
        transforms.Resize(256),
        transforms.CenterCrop((224, 224)),

        # [0, 255]/255 => [0,1]
        transforms.ToTensor(),
        transforms.Normalize(norm_mean, norm_std),
    ])

transforms.Compose()函数

 # path --> img
    img_rgb = Image.open(path_img).convert('RGB')

    # img --> tensor
    img_tensor = img_transform(img_rgb, inference_transform)
    img_tensor.unsqueeze_(0)        # chw --> bchw
    img_tensor = img_tensor.to(device)

img_tensor.unsqueeze_(0) 在0这个位置增加一维

def img_transform(img_rgb, transform=None):
    """
    将数据转换为模型读取的形式
    :param img_rgb: PIL Image
    :param transform: torchvision.transform
    :return: tensor
    """

    if transform is None:
        raise ValueError("找不到transform！必须有transform对img进行处理")

    img_t = transform(img_rgb)
    return img_t

加载模型

Pytorch搭建简单神经网络（三)——快速搭建、保存与提取

pred_int.cpu().numpy() 在GPU上的tensor格式数据不能直接转换为numpy, 需要先转换为cpu float-tensor随后转换为numpy格式。 numpy不能读取CUDA tensor格式数据，需要将它转换为CPU tensor
.detach().cpu().numpy()的作用

torch.max( ) 按照维度返回最大值及对应的索引

a = np.array([[11,22],[33,44]])
a = torch.tensor(a)
out_value,out_index = torch.max(a, dim=1)
print(out_value) #tensor([22, 44], dtype=torch.int32)
print( out_index) #tensor([1, 1])