当前位置: 首页 > news >正文

神经网络 torch.nn---nn.LSTM()

torch.nn - PyTorch中文文档 (pytorch-cn.readthedocs.io)

LSTM — PyTorch 2.3 documentation

LSTM层的作用

LSTM层:长短时记忆网络层,它的主要作用是对输入序列进行处理,对序列中的每个元素进行编码并保存它们的状态,以便后续的处理。

LSTM 是一种特殊的 RNN,它通过引入门控机制来解决传统 RNN 的长期依赖问题。

我们假设:h为LSTM单元的隐藏层输出,c为LSTM内存单元的值,x为输入数据。

LSTM 的结构包含以下几个关键组件:

1、输入门(input gate):决定当前时间步的输入信息对细胞状态的影响程度。

2、遗忘门(forgetgate):决定上一个时间步的细胞状态对当前时间步的影响程度。

3、细胞状态(cell state):用于在不同时间步之间传递和存储信息。

4、输出门(output gate):决定细胞状态对当前时间步的输出影响程度。

5、隐藏状态(hiddenstate):当前时间步的输出,也是下一个时间步的输入。

nn.LSTM

计算公式

对输入序列的每个元素,LSTM的每层都会执行以下计算:

h_t是时刻t的隐状态,
c_t是时刻t的细胞状态,
x_t是上一层的在时刻t的隐状态或者是第一层在时刻t的输入。
i_t, f_t, g_t, o_t分别代表 输入门,遗忘门,细胞和输出门。

参数说明:

 torch.nn.LSTM(input_sizehidden_sizenum_layers=1bias=Truebatch_first=Falsedropout=0.0bidirectional=Falseproj_size=0device=Nonedtype=None)

  • input_size – 输入x的特征数量。
  • hidden_size – 隐层的特征数量。
  • num_layers – RNN的层数。
  • nonlinearity – 激活函数。指定非线性函数使用tanh还是relu。默认是tanh
  • bias – 是否使用偏置。
  • batch_first – 如果True的话,那么输入Tensor的shape应该是[batch_size, time_step, feature],输出也是这样。默认是 False,就是这样形式,(seq(num_step), batch, input_dim),也就是将序列长度放在第一位,batch 放在第二位
  • dropout – 默认不使用,如若使用将其设置成一个0-1的数字即可。如果值非零,那么除了最后一层外,其它层的输出都会套上一个dropout层。
  • bidirectional是否使用双向的 rnn,默认是 False

输入:input, (h_0, c_0)

  • input_shape = [时间步数, 批量大小, 特征维度] = [num_steps(seq_length), batch_size, input_dim]=input (seq_len, batch, input_size)保存输入序列特征的tensor。
  • h_0是shape=(num_layers*num_directions,batch_size,hidden_size)的张量,保存着batch中每个元素的初始化隐状态的Tensor。其中num_layers就是LSTM的层数。如果bidirectional=True,num_directions=2,否则就是1,表示只有一个方向。
  • c_0 是shape=(num_layers*num_directions,batch_size,hidden_size)的张量, 保存着batch中每个元素的初始化细胞状态的Tensor。h_0,c_0如果不提供,那么默认是0。

输出:output, (h_n, c_n)

  • output的shape=(seq_length,batch_size,num_directions*hidden_size),(时间步数, 批量大小, 隐藏单元个数)。保存最后一层的输出的Tensor
  • h_n (num_layers * num_directions, batch, hidden_size): Tensor,保存着LSTM最后一个时间步的隐状态。
  • c_n (num_layers * num_directions, batch, hidden_size): Tensor,保存着LSTM最后一个时间步的细胞状态。

LSTM模型参数:

LSTM — PyTorch 2.3 documentation

LSTM的结构解释:

MATLAB神经网络---lstmLayer(LSTM 长短期记忆神经网络)-CSDN博客

相关文章:

  • 知识库的创建(1) - KnowledgeFile文件加载和分割
  • 震坤行与洛轴集团展开深化合作 以满足客户不断变化的需求
  • AI写代码,CS还有前途吗?加州大学伯克利分校:CDSS申请人数激增48%!
  • CesiumJS【Basic】- #006 浏览器控制台查看位置角度
  • “Redis中的持久化:深入理解RDB与AOF机制“
  • 深度学习训练——batch_size参数设置过大反而训练更耗时的原因分析
  • HCIA6以太网基础基于MAC划分VLAN
  • 数据库-数据定义和操纵-DDL语言的使用
  • 线性表嘻嘻嘻
  • LLM中表格处理与多模态表格理解
  • 万字长文详述 - 带你了解Jvm虚拟机运行时数据区
  • git 如何强制下拉某个分支
  • 微调大模型 - 面向学术论文的AI大模型
  • redis 笔记2之哨兵
  • 太速科技-FMC213V3-基于FMC兼容1.8V IO的Full Camera Link 输入子卡
  • (ckeditor+ckfinder用法)Jquery,js获取ckeditor值
  • docker容器内的网络抓包
  • ES6--对象的扩展
  • hadoop入门学习教程--DKHadoop完整安装步骤
  • java8-模拟hadoop
  • JavaScript工作原理(五):深入了解WebSockets,HTTP/2和SSE,以及如何选择
  • LeetCode算法系列_0891_子序列宽度之和
  • Magento 1.x 中文订单打印乱码
  • python3 使用 asyncio 代替线程
  • React中的“虫洞”——Context
  • SSH 免密登录
  • webpack+react项目初体验——记录我的webpack环境配置
  • 创建一个Struts2项目maven 方式
  • 分享一个自己写的基于canvas的原生js图片爆炸插件
  • 批量截取pdf文件
  • 前端面试题总结
  • 微信端页面使用-webkit-box和绝对定位时,元素上移的问题
  • 详解NodeJs流之一
  • 一文看透浏览器架构
  • 2017年360最后一道编程题
  • Mac 上flink的安装与启动
  • scrapy中间件源码分析及常用中间件大全
  • ​香农与信息论三大定律
  • #HarmonyOS:Web组件的使用
  • #HarmonyOS:基础语法
  • #使用清华镜像源 安装/更新 指定版本tensorflow
  • #我与Java虚拟机的故事#连载11: JVM学习之路
  • #我与Java虚拟机的故事#连载15:完整阅读的第一本技术书籍
  • $().each和$.each的区别
  • (16)UiBot:智能化软件机器人(以头歌抓取课程数据为例)
  • (2)空速传感器
  • (pojstep1.1.2)2654(直叙式模拟)
  • (ZT)北大教授朱青生给学生的一封信:大学,更是一个科学的保证
  • (笔试题)合法字符串
  • (附源码)ssm航空客运订票系统 毕业设计 141612
  • (附源码)ssm学生管理系统 毕业设计 141543
  • (六)Hibernate的二级缓存
  • (没学懂,待填坑)【动态规划】数位动态规划
  • (十一)c52学习之旅-动态数码管
  • (算法设计与分析)第一章算法概述-习题