当前位置：首页 > news >正文

Mamba 永远不会忘记任何标记

news 来源：原创 2024/9/19 12:59:11

DeMansia: Mamba Never Forgets Any Tokens

https://arxiv.org/pdf/2408.01986

Introduction

1. 研究背景

Transformer架构的兴起：
作者首先强调了Transformer架构在深度学习领域的重大影响，尤其是在自然语言处理（NLP）和计算机视觉（CV）等领域的广泛应用。Transformer模型通过自注意力（self-attention）机制，能够动态地权衡输入数据中不同部分的重要性，从而实现对上下文的精准理解和处理。
Transformer的局限性：
尽管Transformer模型取得了显著的成功，但其自注意力机制的计算复杂度与输入序列长度的平方成正比，这在处理大规模输入数据或资源受限的环境下变得尤为不利。传统的Transformer在处理长序列时容易遇到计算瓶颈，从而限制了其应用范围。

2. 现有解决方案的不足

计算复杂度的挑战：
为解决上述问题，近年来研究者们提出了一系列优化方案，如使用低秩矩阵近似、线性化点积注意力计算或稀疏Transformer等，但这些方法往往需要在计算效率和模型精度之间做出权衡。
模型复杂度与准确性的平衡：
这些优化方法虽然能够在一定程度上降低计算复杂度，但往往会牺牲模型的准确性或复杂度。因此，在保持高性能的同时降低计算开销，仍然是Transformer架构面临的一大挑战。

3. DeMansia模型的提出

核心思想：
在此背景下，作者提出了DeMansia模型，该模型集成了Mamba和Vision Mamba（ViM）的优势，并借鉴了LV-ViT的训练流程，旨在解决图像分类任务中的计算挑战，特别是在资源受限的环境下实现高性能。
创新点：
DeMansia模型将状态空间模型（SSM）与标记技术相结合，通过位置感知的状态空间模型和创新的标记应用，在保持计算效率的同时，不牺牲模型的上下文理解能力。这一设计使得DeMansia能够在处理大规模图像数据时保持高效且准确的性能。

4. 研究目的与贡献

目的：
本文旨在通过详细介绍DeMansia模型的发展过程，并通过与现有模型的比较，展示其在图像分类任务中的有效性。
贡献：
作者期望DeMansia模型能够为计算机视觉领域的广泛应用提供一个新的、有前景的解决方案。通过优化计算效率和模型精度之间的平衡，DeMansia有望在资源受限的环境下实现更广泛的应用。

Method

文件首先概述了当前Transformer架构在处理长序列时存在的局限性，并介绍了Mamba和Vision Mamba（ViM）模型作为前提条件模型。随后，提出了DeMansia模型，该模型集成了Mamba和ViM的优势，并结合LV-ViT的训练管道，以增强图像分类任务的性能。

1. DeMansia模型架构

DeMansia模型的架构紧密遵循ViM架构，主要通过以下几个步骤处理输入图像：

图像预处理：通过四层卷积网络将输入图像转换为一系列patch嵌入。每个嵌入都添加了一个可学习的位置嵌入，以保留空间信息。
嵌入与位置编码：在嵌入序列中加入一个可学习的类别token和位置嵌入，以保留全局信息和空间位置。
Vision Mamba编码器：使用多个Vision Mamba（ViM）块进行编码。每个ViM块包含线性投影层、SSM块、1D卷积等，以双向方式处理输入序列。
预测与分类：最终，通过多层感知机（MLP）头部进行预测，将类别token和patch token的平均（加权）作为全局类别预测。

2. Vision Mamba（ViM）块

ViM块是DeMansia模型的核心组件，它通过以下方式工作：

双向SSM机制：输入序列首先经过线性投影，然后通过1D卷积和SSM分别在正向和反向方向上进行并行处理。这两个方向的输出随后被合并。
选择性SSM：SSM块在ViM中负责捕获长期依赖关系，并通过选择性机制保持未压缩的上下文信息。

3. 训练过程

在训练阶段，DeMansia模型采用了LV-ViT中的token标注技术，具体过程如下：

Token Labeling：计算token标注损失，通过标注每个patch token的类别来优化模型。这有助于模型更好地理解图像的局部和全局信息。
优化器与学习率调度：使用RAdam优化器，并采用Cosine Annealing with Warm Restarts学习率调度策略。
混合精度训练：利用自动混合精度（AMP）在Bfloat16格式下进行计算，以加速训练过程，同时保持模型权重在Float32中。

4. 实验设置

数据集：实验主要在ImageNet-1k数据集上进行，该数据集包含约1.28百万张训练图像和5万张验证图像，分布在1000个类别中。
数据增强：对每张图像进行随机裁剪和翻转增强，并归一化到224x224的大小。
模型变体：实验中主要使用了DeMansia Tiny变体，并计划在未来探索更大版本的模型。
训练参数：DeMansia Tiny在单个RTX A6000 GPU上训练了310个epochs，batch size为768。

相关文章：

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

【iOS】OC关键字总结及底层原理（下）

利用单张/多张图内参数标定 OpenCV Python

大数据算法岗位分析推荐：基于Python的招聘大数据爬虫可视化分析推荐系统（完整系统源码+数据库+详细开发文档+万字论文+详细部署教程等全资料）

数据结构-------队列

Dubbo框架实现RPC远程调用包括nacos的配置和初始化

如何解决 windows11系统使用中电脑突然自动休眠的问题

使用消息队列、rocketMq实现通信

OpenAI 发布 GPT-4o 模型安全评估报告：风险等级为“中等”｜TodayAI

C++——红黑树（图片+动图详解）

TCP Window Full TCP Zero Window

【源码】Sharding-JDBC源码分析之Yaml分片配置文件解析原理

【漏洞修复】Tomcat中间件漏洞

强化学习之REINFORECE策略梯度算法——已CartPole环境为例

高级web安全技术（第一篇）

【ARM】v8架构programmer guide(4)_ARMv8的寄存器

android图片蒙层

C++回声服务器_9-epoll边缘触发模式版本服务器

CSS中外联样式表代表的含义

Django 博客开发教程 16 - 统计文章阅读量

emacs初体验

java B2B2C 源码多租户电子商城系统-Kafka基本使用介绍

mongo索引构建

React16时代，该用什么姿势写 React ?

TCP拥塞控制

纯 javascript 半自动式下滑一定高度，导航栏固定

七牛云假注销小指南

前端学习笔记之原型——一张图说明`prototype`和`__proto__`的区别

如何进阶一名有竞争力的程序员?

如何实现 font-size 的响应式

微信公众号开发小记——5.python微信红包

【干货分享】dos命令大全

HanLP分词命名实体提取详解

Java总结 - String - 这篇请使劲喷我

阿里云IoT边缘计算助力企业零改造实现远程运维 ...

交换综合实验一

# 手柄编程_北通阿修罗3动手评：一款兼具功能、操控性的电竞手柄

### Cause: com.mysql.jdbc.exceptions.jdbc4.MySQLTr

#if 1...#endif

#ifdef 的技巧用法

$refs 、$nextTic、动态组件、name的使用

（Oracle）SQL优化技巧（一）：分页查询

（Redis使用系列） Springboot 整合Redisson 实现分布式锁七

（二）linux使用docker容器运行mysql

(三)模仿学习-Action数据的模仿

（四）c52学习之旅-流水LED灯

（已更新）关于Visual Studio 2019安装时VS installer无法下载文件，进度条为0，显示网络有问题的解决办法

（转）德国人的记事本

.net core 管理用户机密

.net core 微服务_.NET Core 3.0中用 Code-First 方式创建 gRPC 服务与客户端

.NET Framework 3.5中序列化成JSON数据及JSON数据的反序列化，以及jQuery的调用JSON

.net专家（张羿专栏）

/dev下添加设备节点的方法步骤（通过device_create）

[ C++ ] STL_vector -- 迭代器失效问题

[15] 使用Opencv_CUDA 模块实现基本计算机视觉程序

[bbk5179]第66集第7章 - 数据库的维护 03