当前位置: 首页 > news >正文

4.8.双向循环神经网络

双向循环神经网络

​ 在序列模型中,我们总是关注之前的信息,并以此来对下一个输出进行预测,但可能未来的信息也很重要,比如文本序列填空:

  • ___
  • ___饿了。
  • ___饿了,我可以吃半头猪。

​ 我们可以分别填,happy,not, very。但很明显,very更为合适,因为下文传达了非常重要的信息(如果有的话),所以无法利用这一点的序列模型将在相关任务上表现不佳。

​ 例如,命名实体识别('Green’是绿色还是格林先生),不同长度的上下文范围重要性是相同的。

1.双向模型

在这里插入图片描述

​ 想让模型拥有一定程度的前瞻能力,只需要增加一个从最后一个词元开始从后向前运行的循环神经网络,而不是只有一个在前向模式下运行的循环神经网络。

​ 双向循环神经网络(bidirectional RNNs)添加了反向传递信息的隐藏层,以便更灵活地处理此类信息。

1.1 定义

​ 对于任意时间步 t t t,给定一个小批量的输入数据 X t ∈ R n × d X_t\in R^{n\times d} XtRn×d(样本数 n n n,每个示例中的输入数 d d d),并且令隐藏层激活函数为 ϕ \phi ϕ。在双向架构中,我们设该时间步的前向和反向隐状态分别为 H → t , H ← t ∈ R n × h \overrightarrow{H}_t,\overleftarrow{H}_t \in R^{n\times h} H t,H tRn×h,其中 h h h是隐藏单元的数目。前向和反向隐状态的更新如下:
H → t = ϕ ( X t W x h ( f ) + H → t − 1 W h h f + b h ( f ) ) H ← t = ϕ ( X t W x h ( b ) + H ← t + 1 W h h ( b ) + b h ( b ) ) \overrightarrow{H}_t = \phi(X_t W_{xh}^{(f)}+\overrightarrow{H}_{t-1}W^{f}_{hh}+b_h^{(f)})\\ \overleftarrow{H}_t = \phi(X_t W_{xh}^{(b)}+\overleftarrow{H}_{t+1}W_{hh}^{(b)}+b_h^{(b)}) H t=ϕ(XtWxh(f)+H t1Whhf+bh(f))H t=ϕ(XtWxh(b)+H t+1Whh(b)+bh(b))
​ 其中权重 W x h ( f ) , W x h ( b ) ∈ R d × h , W h h ( f ) , W h h ( b ) ∈ R h × h W_{xh}^{(f)},W_{xh}^{(b)}\in R^{d\times h},W_{hh}^{(f)},W_{hh}^{(b)}\in R^{h\times h} Wxh(f),Wxh(b)Rd×hWhh(f),Whh(b)Rh×h,偏置 b h ( f ) , b h ( b ) ∈ R 1 × h b_h^{(f)},b_h^{(b)}\in R ^{1\times h} bh(f),bh(b)R1×h都是模型参数。

​ 随后,将前向隐状态 H → t \overrightarrow{H}_t H t和反向隐状态 H ← t \overleftarrow{H}_t H t连接起来,获得需要送入输出层的隐状态 H t ∈ R n × 2 h H_t\in R^{n\times 2h} HtRn×2h, 在具有多个隐藏层的深度双向循环神经网络中, 该信息作为输入传递到下一个双向层。 最后,输出层计算得到的输出为 O t ∈ R n × q O_t\in R^{n\times q} OtRn×q(q是输出单元的数目):
O t = H t W h q + b q O_t = H_t W_{hq}+b_q Ot=HtWhq+bq
​ 这里,权重矩阵 W h q ∈ R 2 h × q W_{hq}\in R^{2h\times q} WhqR2h×q和偏置 b q ∈ R 1 × q b_q\in R^{1\times q} bqR1×q是输出层的模型参数。这两个方向可以有不同数量的隐藏单元。

2.代码实现(错误应用)

​ 双向循环神经网络使用了过去和未来的数据,所以不能盲目地将这一语言模型应用于任何预测任务。尽管模型产出的困惑度是合理的,该模型预测未来词元的能力却可能存在严重缺陷。

​ 下面的代码用来展示如何使用双向LSTM模型,引以为戒。

import torch
from torch import nn
from d2l import torch as d2l# 加载数据
batch_size, num_steps, device = 32, 35, d2l.try_gpu()
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
# 通过设置“bidirective=True”来定义双向LSTM模型
vocab_size, num_hiddens, num_layers = len(vocab), 256, 2
num_inputs = vocab_size
lstm_layer = nn.LSTM(num_inputs, num_hiddens, num_layers, bidirectional=True)
model = d2l.RNNModel(lstm_layer, len(vocab))
model = model.to(device)
# 训练模型
num_epochs, lr = 500, 1
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)'''
perplexity 1.1, 131129.2 tokens/sec on cuda:0
time travellerererererererererererererererererererererererererer
travellerererererererererererererererererererererererererer
'''

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【C++综合项目】——基于Boost库的搜索引擎(手把手讲解,小白一看就会!!)
  • 前端web开发HTML+CSS3+移动web(0基础,超详细)——第4天
  • priority_queue模拟实现【C++】
  • FFmpeg源码:av_realloc、av_reallocp、size_mult、av_realloc_f函数分析
  • Springboot 开发之 Quartz 任务调度框架简介
  • 自定义View-- wifi强度
  • 从0开始搭建vue + flask 旅游景点数据分析系统( 六):搭建后端flask框架
  • Win32注册表操作
  • Rust 所有权
  • 大数据-Big Data(一):概述与基础
  • Tracecat:开源 SOAR
  • Transformer 模型中的 QKV 机制是如何运作的
  • 区块链平台的图灵完备性
  • 探秘C# LINQ元素运算:原理阐释与实践指南
  • day 22线程间通信
  • 《用数据讲故事》作者Cole N. Knaflic:消除一切无效的图表
  • 【个人向】《HTTP图解》阅后小结
  • Android 架构优化~MVP 架构改造
  • el-input获取焦点 input输入框为空时高亮 el-input值非法时
  • ES10 特性的完整指南
  • express.js的介绍及使用
  • Linux gpio口使用方法
  • nodejs调试方法
  • React系列之 Redux 架构模式
  • 创建一种深思熟虑的文化
  • 使用阿里云发布分布式网站,开发时候应该注意什么?
  • FaaS 的简单实践
  • 回归生活:清理微信公众号
  • 如何正确理解,内页权重高于首页?
  • #LLM入门|Prompt#1.7_文本拓展_Expanding
  • #我与Java虚拟机的故事#连载19:等我技术变强了,我会去看你的 ​
  • (分布式缓存)Redis持久化
  • (附源码)springboot 基于HTML5的个人网页的网站设计与实现 毕业设计 031623
  • (经验分享)作为一名普通本科计算机专业学生,我大学四年到底走了多少弯路
  • (精确度,召回率,真阳性,假阳性)ACC、敏感性、特异性等 ROC指标
  • (十)c52学习之旅-定时器实验
  • (四)Controller接口控制器详解(三)
  • (微服务实战)预付卡平台支付交易系统卡充值业务流程设计
  • (转)winform之ListView
  • .net 托管代码与非托管代码
  • .NETCORE 开发登录接口MFA谷歌多因子身份验证
  • .NET技术成长路线架构图
  • .net开发时的诡异问题,button的onclick事件无效
  • .net下的富文本编辑器FCKeditor的配置方法
  • //解决validator验证插件多个name相同只验证第一的问题
  • /tmp目录下出现system-private文件夹解决方法
  • ::什么意思
  • ??javascript里的变量问题
  • @Builder注释导致@RequestBody的前端json反序列化失败,HTTP400
  • @data注解_SpringBoot 使用WebSocket打造在线聊天室(基于注解)
  • @Transaction注解失效的几种场景(附有示例代码)
  • [1181]linux两台服务器之间传输文件和文件夹
  • [20170705]lsnrctl status LISTENER_SCAN1
  • [C#]将opencvsharp的Mat对象转成onnxruntime的inputtensor的3种方法
  • [C++] 容器适配器:深入理解Stack与Queue的底层原理