当前位置：首页 > news >正文

计算机视觉之 GSoP 注意力模块

news 来源：原创 2024/9/19 21:36:55

计算机视觉之 GSoP 注意力模块

一、简介

GSopBlock 是一个自定义的神经网络模块，主要用于实现 GSoP（Global Second-order Pooling）注意力机制。GSoP 注意力机制通过计算输入特征的协方差矩阵，捕捉全局二阶统计信息，从而增强模型的表达能力。

原论文：《Global Second-order Pooling Convolutional Networks (arxiv.org)》

二、语法和参数

语法

class GSopBlock(nn.Module):def __init__(self, in_channels, mid_channels):...def forward(self, x):...

参数

in_channels：输入特征的通道数。
mid_channels：中间层的通道数，用于调整特征维度。

三、实例

3.1 初始化和前向传播

代码

import torch
import torch.nn as nnclass GSopBlock(nn.Module):def __init__(self, in_channels, mid_channels):super(GSopBlock, self).__init__()self.conv2d1 = nn.Sequential(nn.Conv2d(in_channels, mid_channels, kernel_size=1, bias=False),nn.BatchNorm2d(mid_channels),nn.ReLU(inplace=True))self.row_wise_conv = nn.Sequential(nn.Conv2d(mid_channels, 4*mid_channels,kernel_size=(mid_channels, 1),groups=mid_channels, bias=False),nn.BatchNorm2d(4*mid_channels),)self.conv2d2 = nn.Sequential(nn.Conv2d(4*mid_channels, in_channels, kernel_size=1, bias=False),nn.BatchNorm2d(mid_channels),nn.ReLU(inplace=True))def forward(self, x):# Step 1: 调整通道数x = self.conv2d1(x)batch_size, channels, height, width = x.size()# Step 2: 展平输入x_flat = x.view(batch_size, channels, -1)# Step 3: 计算协方差矩阵x_mean = x_flat.mean(dim=-1, keepdim=True)x_centered = x_flat - x_meancov_matrix = torch.bmm(x_centered, x_centered.transpose(1, 2)) / (height * width)cov_matrix = cov_matrix.unsqueeze(-1)# Step 4: 行方向卷积cov_features = self.row_wise_conv(cov_matrix)# Step 5: 生成权重向量weight_vector = self.conv2d2(cov_features)# Step 6: 计算最终输出x_out = x * weight_vectorreturn x_out

输出

经过加权后的图像

3.2 应用在示例数据上

代码

import torch# 创建示例输入数据
input_tensor = torch.randn(1, 64, 32, 32)  # (batch_size, in_channels, height, width)# 初始化 GSopBlock 模块
gsop_block = GSopBlock(in_channels=64, mid_channels=16)# 前向传播
output_tensor = gsop_block(input_tensor)
print(output_tensor.shape)

输出

torch.Size([1, 64, 32, 32])

四、注意事项

GSopBlock 模块适用于捕捉输入特征之间的全局二阶统计信息，增强模型的表达能力。
在使用 GSopBlock 时，确保输入特征的通道数和中间层的通道数设置合理，以避免计算开销过大。
该模块主要用于图像数据处理，适用于各种计算机视觉任务，如图像分类、目标检测等。

相关文章：

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

FastGPT：利用大模型重新定义传统知识库

2024最新VMware17安装Windows10详细记录

golang make 函数的三个参数分别有什么作用

新华三H3C HCL配置IS-IS基本配置

【人工智能 | 机器学习】神经网络

Java算法之循环排序（Cyclic Sort)

【Xcode】Xcode基本使用指引

java项目运行时提示process finished with exit code 1；只显示错误代码，没有显示具体错误信息；解决方案

《工程机械》是什么级别的期刊？是正规期刊吗？能评职称吗？

在ubuntu系统上使用Hadoop搭建集群

向量数据库Faiss的搭建与使用

vivado 定义时间约束

七，Spring Boot 当中的 yaml 语法使用

虚幻地形高度图生成及测试

数据结构树（C语言版）

[js高手之路]搞清楚面向对象,必须要理解对象在创建过程中的内存表示

《剑指offer》分解让复杂问题更简单

css属性的继承、初识值、计算值、当前值、应用值

Eureka 2.0 开源流产，真的对你影响很大吗？

JavaSE小实践1：Java爬取斗图网站的所有表情包

Java小白进阶笔记(3)-初级面向对象

Java应用性能调优

leetcode386. Lexicographical Numbers

leetcode讲解--894. All Possible Full Binary Trees

Solarized Scheme

spring security oauth2 password授权模式

Spring声明式事务管理之一：五大属性分析

Sublime Text 2/3 绑定Eclipse快捷键

VuePress 静态网站生成

Vue实战(四)登录/注册页的实现

从0到1：PostCSS 插件开发最佳实践

开年巨制！千人千面回放技术让你“看到”Flutter用户侧问题

如何在 Tornado 中实现 Middleware

hi-nginx-1.3.4编译安装

Benvista PhotoZoom Pro 9.0.4新功能介绍

MPV，汽车产品里一个特殊品类的进化过程

###C语言程序设计-----C语言学习（3）#

#70结构体案例1（导师，学生，成绩）

$nextTick的使用场景介绍

（10）工业界推荐系统-小红书推荐场景及内部实践【排序模型的特征】

（2）关于RabbitMq 的 Topic Exchange 主题交换机

（6）【Python/机器学习/深度学习】Machine-Learning模型与算法应用—使用Adaboost建模及工作环境下的数据分析整理

（8）STL算法之替换

（C语言）共用体union的用法举例

（笔试题）分解质因式

（第三期）书生大模型实战营——InternVL(冷笑话大师)部署微调实践

（附源码）spring boot智能服药提醒app 毕业设计 102151

（附源码）ssm高校升本考试管理系统毕业设计 201631

（蓝桥杯每日一题）love

(十五)使用Nexus创建Maven私服

（一）WLAN定义和基本架构转

(原創) 如何優化ThinkPad X61開機速度? (NB) (ThinkPad) (X61) (OS) (Windows)

**《Linux/Unix系统编程手册》读书笔记24章**

. NET自动找可写目录

./include/caffe/util/cudnn.hpp: In function ‘const char* cudnnGetErrorString(cudnnStatus_t)’: ./incl