当前位置: 首页 > news >正文

自注意力和位置编码

一、自注意力

1、给定一个由词元组成的输入序列x1,…,xn, 其中任意xi∈R^d(1≤i≤n)。 该序列的自注意力输出为一个长度相同的序列 y1,…,yn,其中:

2、自注意力池化层将xi当作key,value,query来对序列抽取特征得到y1,…,yn

二、跟CNN、RNN对比(目标都是将由n个词元组成的序列映射到另一个长度相等的序列,其中的每个输入词元或输出词元都由d维向量表示)(不是很明白,有空问问老师)

1、CNN:序列长度是n,输入和输出的通道数量都是d, 所以卷积层的计算复杂度为O(knd^2);卷积神经网络是分层的,因此为有O(1)个顺序操作, 最大路径长度为O(n/k)。

2、RNN:当更新循环神经网络的隐状态时, d×d权重矩阵和d维隐状态的乘法计算复杂度为O(d2)。 由于序列长度为n,因此循环神经网络层的计算复杂度为O(nd2);有O(n)个顺序操作无法并行化,最大路径长度也是O(n)。

3、在自注意力中,查询、键和值都是n×d矩阵。 考虑缩放的”点-积“注意力, 其中n×d矩阵乘以d×n矩阵。 之后输出的n×n矩阵乘以n×d矩阵。 因此,自注意力具有O(n2d)计算复杂性。 每个词元都通过自注意力直接连接到任何其他词元,有O(1)个顺序操作可以并行计算, 最大路径长度也是O(1)。

三、位置编码

1、自注意力则因为并行计算而放弃了顺序操作。 为了使用序列的顺序信息,通过在输入表示中添加 位置编码(positional encoding)来注入绝对的或相对的位置信息。

2、输入表示X∈R^(n×d)包含一个序列中n个词元的d维嵌入表示。 位置编码使用相同形状的位置嵌入矩阵 P∈R^(n×d)输出X+P

3、位置编码矩阵

4、绝对位置信息

        竖着看,有三维,第一维00001111变化很慢,第二位00110011变化中等,第三维01010101变化最快,大概是这样子叭。。。。

5、相对位置信息

        除了捕获绝对位置信息之外,位置编码还允许模型学习得到输入序列中相对位置信息。 这是因为对于任何确定的位置偏移δ,位置i+δ处 的位置编码可以线性投影位置i处的位置编码来表示。也就是:

        位于i+δ处的位置编码可以线性投影位置i处的位置编码来表示

        令ωj=1/100002^(j/d), 对于任何确定的位置偏移δ中,任何一对 (p^(i,2j),p^(i,2j+1))都可以线性投影到 (p^(i+δ,2j),p^(i+δ,2j+1))

6、代码

#@save
class PositionalEncoding(nn.Module):"""位置编码"""def __init__(self, num_hiddens, dropout, max_len=1000):super(PositionalEncoding, self).__init__()self.dropout = nn.Dropout(dropout)# 创建一个足够长的Pself.P = torch.zeros((1, max_len, num_hiddens))X = torch.arange(max_len, dtype=torch.float32).reshape(-1, 1) / torch.pow(10000, torch.arange(0, num_hiddens, 2, dtype=torch.float32) / num_hiddens)self.P[:, :, 0::2] = torch.sin(X)self.P[:, :, 1::2] = torch.cos(X)def forward(self, X):X = X + self.P[:, :X.shape[1], :].to(X.device)return self.dropout(X)

四、总结

1、在自注意力中,查询、键和值都来自同一组输入。

2、卷积神经网络和自注意力都拥有并行计算的优势,而且自注意力的最大路径长度最短。但是因为其计算复杂度是关于序列长度的二次方,所以在很长的序列中计算会非常慢。

3、为了使用序列的顺序信息,可以通过在输入表示中添加位置编码,来注入绝对的或相对的位置信息

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 西部菱斑响尾蛇教你基础IO
  • 拉削基础知识——拉床的类型及特点
  • 自己履行很多的话语,依旧按照这个方式进行生活
  • 近期关于云服务器window server 2012屏蔽游戏加速器/IP加速器模拟IP连接限制策略
  • 基于python旅游推荐系统(源码+论文+部署讲解等)
  • OpenAI not returning a result?
  • 【WEB】ctfshow-萌新-web9-15
  • GO之基本语法
  • JavaScript 箭头函数
  • Python爬虫技术 案例集锦
  • 在Ubuntu 24.04上安装ollama报curl: (28) Failed to connect to github.com port 443的解决方法
  • Lambda 表达式(也称为匿名函数)-在java,javascript,python
  • idea破解激活
  • 基于飞腾平台的Kafka移植与安装
  • Occlusion in Augmented Reality
  • 【跃迁之路】【444天】程序员高效学习方法论探索系列(实验阶段201-2018.04.25)...
  • 2018天猫双11|这就是阿里云!不止有新技术,更有温暖的社会力量
  • ECMAScript6(0):ES6简明参考手册
  • ES学习笔记(10)--ES6中的函数和数组补漏
  • Python - 闭包Closure
  • redis学习笔记(三):列表、集合、有序集合
  • Vue.js-Day01
  • Webpack 4x 之路 ( 四 )
  • 第13期 DApp 榜单 :来,吃我这波安利
  • 二维平面内的碰撞检测【一】
  • 给初学者:JavaScript 中数组操作注意点
  • 简单实现一个textarea自适应高度
  • 开放才能进步!Angular和Wijmo一起走过的日子
  • 深入体验bash on windows,在windows上搭建原生的linux开发环境,酷!
  • 什么软件可以提取视频中的音频制作成手机铃声
  • 看到一个关于网页设计的文章分享过来!大家看看!
  • 【运维趟坑回忆录 开篇】初入初创, 一脸懵
  • 微龛半导体获数千万Pre-A轮融资,投资方为国中创投 ...
  • ​​​​​​​开发面试“八股文”:助力还是阻力?
  • # Java NIO(一)FileChannel
  • # 再次尝试 连接失败_无线WiFi无法连接到网络怎么办【解决方法】
  • #stm32整理(一)flash读写
  • #前后端分离# 头条发布系统
  • (Arcgis)Python编程批量将HDF5文件转换为TIFF格式并应用地理转换和投影信息
  • (Bean工厂的后处理器入门)学习Spring的第七天
  • (八)光盘的挂载与解挂、挂载CentOS镜像、rpm安装软件详细学习笔记
  • (七)glDrawArry绘制
  • (三)docker:Dockerfile构建容器运行jar包
  • (转)Linux整合apache和tomcat构建Web服务器
  • (转)shell中括号的特殊用法 linux if多条件判断
  • ****** 二 ******、软设笔记【数据结构】-KMP算法、树、二叉树
  • .NET 5.0正式发布,有什么功能特性(翻译)
  • .net core IResultFilter 的 OnResultExecuted和OnResultExecuting的区别
  • .net dataexcel winform控件 更新 日志
  • .net FrameWork简介,数组,枚举
  • .NET 程序如何获取图片的宽高(框架自带多种方法的不同性能)
  • .Net 中Partitioner static与dynamic的性能对比
  • .net流程开发平台的一些难点(1)
  • .NET中使用Protobuffer 实现序列化和反序列化
  • .pub是什么文件_Rust 模块和文件 - 「译」