当前位置: 首页 > news >正文

词向量,位置嵌入;归一化;自注意力层;投影;残差连接:防止梯度消失;MLP;

目录

词向量,位置嵌入

归一化

自注意力层

我们该如何处理Q、K和V向量呢

投影

残差连接:防止梯度消失

MLP

层归一化处理

GELU激活函数

MLP Weights 和MLP Projection Weights区别和联系

一、MLP Weights

二、MLP Projection Weights:输入数据或隐藏层的输出投影到一个新的特征空间,以便进行进一步的处理或分析

投影的目的为了矩阵整合成合适的长宽,便于下一次的多头注意力计算,就是多Nx计算

三、区别与联系

五、举例说明

前面的层往往侧重于学习较低层次的特征和模式

后面的层则学习识别和理解较高层次的抽象概念和关系

底层可能学习语法、句法和简单的词汇关联

高层可能捕捉更复杂的语义关系、话语结构和上下文相关的含义。


词向量,位置嵌入

T代表C代表通道(channel),但也称为「特征」或「维度」或「嵌入大小」。

归一化

我们的目标是使该列的平均值等于0,标准偏差等于1。为此,我们要找出该列的这两个量(平均值 (μ) 和标准偏差 (σ)),然后减去平均值,再除以标准偏差。

最后,在得到归一化值后,我们将列中的每个元素乘以学习权重 (γ),然后加上偏置 (β),最终得到归一化值。我们在「输入嵌入」矩阵的每一列上执行这一归一化操作,得到的结果就是归一化后的「输入嵌入」,并将其传递给自注意力层。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Nodejs实现图片加水印 【使用jimp】
  • win7开机提示‘windows引导配置数据文件包含的os项目无效’解决方法
  • pnpm的使用
  • 课程设计/毕业设计Spring boot+vue仓库管理系统(文档、源码、数据库、远程部署、LW)
  • Python——爬虫
  • pve虚拟机使用
  • Vue的事件处理、事件修饰符、键盘事件
  • WordPress个性化站点
  • 学习日志8.10--防火墙ASPF
  • Java毕业设计 基于SSM和Vue的酒店管理系统小程序
  • [Java]面向对象-static继承
  • Java设计模式(命令模式)
  • 今日Java练习:选择题挑战
  • 用OpenCV与MFC写一个简单易用的图像处理程序
  • 9.C基础_指针与数组
  • 【vuex入门系列02】mutation接收单个参数和多个参数
  • 2018天猫双11|这就是阿里云!不止有新技术,更有温暖的社会力量
  • Hexo+码云+git快速搭建免费的静态Blog
  • JavaScript-Array类型
  • Lucene解析 - 基本概念
  • PhantomJS 安装
  • SpiderData 2019年2月23日 DApp数据排行榜
  • Webpack 4x 之路 ( 四 )
  • win10下安装mysql5.7
  • 百度贴吧爬虫node+vue baidu_tieba_crawler
  • 搞机器学习要哪些技能
  • 湖南卫视:中国白领因网络偷菜成当代最寂寞的人?
  • 回流、重绘及其优化
  • 看域名解析域名安全对SEO的影响
  • 前端面试总结(at, md)
  • 容器服务kubernetes弹性伸缩高级用法
  • 如何实现 font-size 的响应式
  • 使用 Node.js 的 nodemailer 模块发送邮件(支持 QQ、163 等、支持附件)
  • 适配iPhoneX、iPhoneXs、iPhoneXs Max、iPhoneXr 屏幕尺寸及安全区域
  • 为视图添加丝滑的水波纹
  • 系统认识JavaScript正则表达式
  • 一文看透浏览器架构
  • 这几个编码小技巧将令你 PHP 代码更加简洁
  • # 达梦数据库知识点
  • #Datawhale X 李宏毅苹果书 AI夏令营#3.13.2局部极小值与鞍点批量和动量
  • #pragma once与条件编译
  • (附源码)php新闻发布平台 毕业设计 141646
  • (附源码)计算机毕业设计SSM基于健身房管理系统
  • (没学懂,待填坑)【动态规划】数位动态规划
  • (学习日记)2024.04.10:UCOSIII第三十八节:事件实验
  • (转)大型网站架构演变和知识体系
  • (转)利用ant在Mac 下自动化打包签名Android程序
  • *上位机的定义
  • .bat批处理(三):变量声明、设置、拼接、截取
  • .NET “底层”异步编程模式——异步编程模型(Asynchronous Programming Model,APM)...
  • .NET Conf 2023 回顾 – 庆祝社区、创新和 .NET 8 的发布
  • .net core 的缓存方案
  • .net core 客户端缓存、服务器端响应缓存、服务器内存缓存
  • .net core 微服务_.NET Core 3.0中用 Code-First 方式创建 gRPC 服务与客户端
  • .NET 回调、接口回调、 委托