当前位置: 首页 > news >正文

Pytorch实现多层LSTM模型,并增加emdedding、Dropout、权重共享等优化

简述

本文是 Pytorch封装简单RNN模型,进行中文训练及文本预测 一文的延申,主要做以下改动:

1.将nn.RNN替换为nn.LSTM,并设置多层LSTM:

既然使用pytorch了,自然不需要手动实现多层,注意nn.RNNnn.LSTM 在实例化时均有参数num_layers来指定层数,本文设置num_layers=2

2.新增emdedding层,替换掉原来的nn.functional.one_hot向量化,这样得到的emdedding层可以用来做词向量分布式表示;

3.在emdedding后、LSTM内部、LSTM后均增加Dropout层,来抑制过拟合:

nn.LSTM内部的Dropout可以通过实例化时的参数dropout来设置,需要注意pytorch仅在两层lstm之间应用Dropout,不会在最后一层的LSTM输出上应用Dropout

emdedding后、LSTM后与线性层之间则需要手动添加Dropout层。

4.考虑emdedding与最后的Linear层共享权重:

这样做可以在保证精度的情况下,减少学习参数,但本文代码没有实现该部分。

不考虑第四条时,模型结构如下:

在这里插入图片描述

代码

模型代码:

class MyLSTM(nn.Module):  def __init__(self, vocab_size, wordvec_size, hidden_size, num_layers=2, dropout=0.5):  super(MyLSTM, self).__init__()  self.vocab_size = vocab_size  self.word_vec_size = wordvec_size  self.hidden_size = hidden_size  self.embedding = nn.Embedding(vocab_size, wordvec_size)  self.dropout = nn.Dropout(dropout)  self.rnn = nn.LSTM(wordvec_size, hidden_size, num_layers=num_layers, dropout=dropout)  # self.rnn = rnn_layer  self.linear = nn.Linear(self.hidden_size, vocab_size)  def forward(self, x, h0=None, c0=None):  # nn.Embedding 需要的类型 (IntTensor or LongTensor)        # 传过来的X是(batch_size, seq), embedding之后 是(batch_size, seq, vocab_size)  # nn.LSTM 支持的X默认为(seq, batch_size, vocab_size)  # 若想用(batch_size, seq, vocab_size)作参数, 则需要在创建self.embedding实例时指定batch_first=True  # 这里用(seq, batch_size, vocab_size) 作参数,所以先给x转置,再embedding,以便再将结果传给lstm  x = x.T  x.long()  x = self.embedding(x)  x = self.dropout(x)  outputs = self.dropout(outputs)  outputs = outputs.reshape(-1, self.hidden_size)  outputs = self.linear(outputs)  return outputs, (h0, c0)  def init_state(self, device, batch_size=1):  return (torch.zeros((self.rnn.num_layers, batch_size, self.hidden_size), device=device),  torch.zeros((self.rnn.num_layers, batch_size, self.hidden_size), device=device))

训练代码:

模型应用可以参考 Pytorch封装简单RNN模型,进行中文训练及文本预测 一文。

def start_train():  # device = torch.device("cpu")  device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")  print(f'\ndevice: {device}')  corpus, vocab = load_corpus("../data/COIG-CQIA/chengyu_qa.txt")  vocab_size = len(vocab)  wordvec_size = 100  hidden_size = 256  epochs = 1  batch_size = 50  learning_rate = 0.01  time_size = 4  max_grad_max_norm = 0.5  num_layers = 2  dropout = 0.5  dataset = make_dataset(corpus=corpus, time_size=time_size)  data_loader = data.DataLoader(dataset=dataset, batch_size=batch_size, shuffle=True)  net = MyLSTM(vocab_size=vocab_size, wordvec_size=wordvec_size, hidden_size=hidden_size, num_layers=num_layers, dropout=dropout)  net.to(device)  # print(net.state_dict())  criterion = nn.CrossEntropyLoss()  criterion.to(device)  optimizer = optim.Adam(net.parameters(), lr=learning_rate)  writer = SummaryWriter('./train_logs')  # 随便定义个输入, 好使用add_graph  tmp = torch.randint(0, 100, size=(batch_size, time_size)).to(device)  h0, c0 = net.init_state(batch_size=batch_size, device=device)  writer.add_graph(net, [tmp, h0, c0])  loss_counter = 0  total_loss = 0  ppl_list = list()  total_train_step = 0  for epoch in range(epochs):  print('------------Epoch {}/{}'.format(epoch + 1, epochs))  for X, y in data_loader:  X, y = X.to(device), y.to(device)  # 这里batch_size=X.shape[0]是因为在加载数据时, DataLoader没有设置丢弃不完整的批次, 所以存在实际批次不满足设定的batch_size  h0, c0 = net.init_state(batch_size=X.shape[0], device=device)  outputs, (hn, cn) = net(X, h0, c0)  optimizer.zero_grad()  # y也变成 时间序列*批次大小的行数, 才和 outputs 一致  y = y.T.reshape(-1)  # 交叉熵的第二个参数需要LongTorch  loss = criterion(outputs, y.long())  loss.backward()  # 求完梯度之后可以考虑梯度裁剪, 再更新梯度  grad_clipping(net, max_grad_max_norm)  optimizer.step()  total_loss += loss.item()  loss_counter += 1  total_train_step += 1  if total_train_step % 10 == 0:  print(f'Epoch: {epoch + 1}, 累计训练次数: {total_train_step}, 本次loss: {loss.item():.4f}')  writer.add_scalar('train_loss', loss.item(), total_train_step)  ppl = np.exp(total_loss / loss_counter)  ppl_list.append(ppl)  print(f'Epoch {epoch + 1} 结束, batch_loss_average: {total_loss / loss_counter}, perplexity: {ppl}')  writer.add_scalar('ppl', ppl, epoch + 1)  total_loss = 0  loss_counter = 0  torch.save(net.state_dict(), './save/epoch_{}_ppl_{}.pth'.format(epoch + 1, ppl))  writer.close()  return net, ppl_list

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Windows 下载安装RabbitMQ
  • 干货分享:推荐四大在线翻译神器!
  • 26. 在集合中删除元素时,为什么使用Iterator.remove()而不是Collection.remove()?
  • GeoScene Pro教程(004):GeoScene Pro制作与使用矢量切片包
  • STL之string
  • 技术指南:5分钟零成本实现本地AI知识库搭建
  • vue3+vant4父组件点击提交并校验子组件form表单
  • 【区块链 + 司法存证】优证云:基于 FISCO BCOS 的存证平台 | FISCO BCOS应用案例
  • 【Python自动化办公】复制Excel数据:将各行分别重复指定次数
  • c++多线程下崩溃一例分析 ACTIONABLE_HEAP_CORRUPTION heap failure block not busy DOUBLE
  • 如何优化Oracle数据库的性能?
  • 多目标应用:基于自组织分群的多目标粒子群优化算法(SS-MOPSO)的移动机器人路径规划研究(提供MATLAB代码)
  • 计算机基础知识总结(八股文--计算机网络、操作系统、数据库、c++、数据结构与算法)
  • python web 框架 Tornado
  • GitHub项目评论被用来传播Lumma Stealer恶意软件
  • Google 是如何开发 Web 框架的
  • angular2开源库收集
  • CentOS 7 修改主机名
  • conda常用的命令
  • ECS应用管理最佳实践
  • Gradle 5.0 正式版发布
  • mockjs让前端开发独立于后端
  • Nodejs和JavaWeb协助开发
  • react-native 安卓真机环境搭建
  • Redis 懒删除(lazy free)简史
  • Spark学习笔记之相关记录
  • TiDB 源码阅读系列文章(十)Chunk 和执行框架简介
  • -- 查询加强-- 使用如何where子句进行筛选,% _ like的使用
  • 第十八天-企业应用架构模式-基本模式
  • 给Prometheus造假数据的方法
  • 你真的知道 == 和 equals 的区别吗?
  • 前言-如何学习区块链
  • 强力优化Rancher k8s中国区的使用体验
  • 思考 CSS 架构
  • 微信开源mars源码分析1—上层samples分析
  • gunicorn工作原理
  • 关于Kubernetes Dashboard漏洞CVE-2018-18264的修复公告
  • 你学不懂C语言,是因为不懂编写C程序的7个步骤 ...
  • 说说我为什么看好Spring Cloud Alibaba
  • ​Java基础复习笔记 第16章:网络编程
  • ​Z时代时尚SUV新宠:起亚赛图斯值不值得年轻人买?
  • #laravel 通过手动安装依赖PHPExcel#
  • #知识分享#笔记#学习方法
  • (2009.11版)《网络管理员考试 考前冲刺预测卷及考点解析》复习重点
  • (3)nginx 配置(nginx.conf)
  • (Python第六天)文件处理
  • (Redis使用系列) SpirngBoot中关于Redis的值的各种方式的存储与取出 三
  • (非本人原创)我们工作到底是为了什么?​——HP大中华区总裁孙振耀退休感言(r4笔记第60天)...
  • (附源码)spring boot基于小程序酒店疫情系统 毕业设计 091931
  • (附源码)计算机毕业设计ssm本地美食推荐平台
  • (每日持续更新)jdk api之StringBufferInputStream基础、应用、实战
  • (切换多语言)vantUI+vue-i18n进行国际化配置及新增没有的语言包
  • (十一)JAVA springboot ssm b2b2c多用户商城系统源码:服务网关Zuul高级篇
  • (四)activit5.23.0修复跟踪高亮显示BUG
  • (五)c52学习之旅-静态数码管