当前位置: 首页 > news >正文

54 循环神经网络RNN_by《李沐:动手学深度学习v2》pytorch版

系列文章目录


文章目录

  • 系列文章目录
  • 循环神经网络
  • 使用循环神经网络的语言模型
  • 困惑度(perplexity)
  • 梯度剪裁


循环神经网络

在这里插入图片描述
在这里插入图片描述

使用循环神经网络的语言模型

在这里插入图片描述
输入“你”,更新隐变量,输出“好”。

困惑度(perplexity)

语言模型说白了,是个分类模型,我的输出是对下一个词的预测,假设一共有m个词,也就是m个类的分类问题,对于分类问题,当然可以使用交叉熵来做。
在这里插入图片描述

梯度剪裁

对于长度为 T T T的序列,我们在迭代中计算这 T T T个时间步上的梯度,将会在反向传播过程中产生长度为 O ( T ) \mathcal{O}(T) O(T)的矩阵乘法链,当 T T T较大时,它可能导致数值不稳定。
一个流行的替代方案是通过将梯度 g \mathbf{g} g投影回给定半径(例如 θ \theta θ)的球来裁剪梯度 g \mathbf{g} g
如下式:

g ← min ⁡ ( 1 , θ ∥ g ∥ ) g . \mathbf{g} \leftarrow \min\left(1, \frac{\theta}{\|\mathbf{g}\|}\right) \mathbf{g}. gmin(1,gθ)g.

通过这样做,我们知道梯度范数永远不会超过 θ \theta θ,并且更新后的梯度完全与 g \mathbf{g} g的原始方向对齐。

相关文章:

  • 安卓Android压力测试与性能测试详解!
  • 什么是SQL注入?
  • Linux 学习笔记(十五)—— 基础IO
  • OpenCV_自定义线性滤波(filter2D)应用详解
  • C# CS1612 尝试修改集合中值类型的情况
  • Android常用C++特性之std::equal
  • TCP\IP标准与OSI标准
  • Springboot项目在win系统开发部署到linux服务器出现上传文件编码问题
  • Linux下的git开篇第一文:git的意义
  • 探索基于知识图谱和 ChatGPT 结合制造服务推荐前沿
  • MyBatis 动态 SQL 使用指南
  • react 常用hooks封装--useReactive
  • 【Y004】基于springboot+vue实现的图书管理系统
  • 利用 Page Visibility API 优化网页性能与用户体验
  • babylon.js-1:入门篇
  • 【刷算法】从上往下打印二叉树
  • 2019.2.20 c++ 知识梳理
  • Android开源项目规范总结
  • Angular 2 DI - IoC DI - 1
  • C++回声服务器_9-epoll边缘触发模式版本服务器
  • CentOS学习笔记 - 12. Nginx搭建Centos7.5远程repo
  • download使用浅析
  • JavaScript 基本功--面试宝典
  • Java的Interrupt与线程中断
  • java概述
  • js中的正则表达式入门
  • Linux快速配置 VIM 实现语法高亮 补全 缩进等功能
  • mysql innodb 索引使用指南
  • overflow: hidden IE7无效
  • 模型微调
  • 如何打造100亿SDK累计覆盖量的大数据系统
  • 如何合理的规划jvm性能调优
  • 扫描识别控件Dynamic Web TWAIN v12.2发布,改进SSL证书
  • 什么软件可以剪辑音乐?
  • 使用putty远程连接linux
  • 体验javascript之美-第五课 匿名函数自执行和闭包是一回事儿吗?
  • 我有几个粽子,和一个故事
  • 因为阿里,他们成了“杭漂”
  • Oracle Portal 11g Diagnostics using Remote Diagnostic Agent (RDA) [ID 1059805.
  • 第二十章:异步和文件I/O.(二十三)
  • ​低代码平台的核心价值与优势
  • #每日一题合集#牛客JZ23-JZ33
  • #我与Java虚拟机的故事#连载08:书读百遍其义自见
  • $nextTick的使用场景介绍
  • (C语言)共用体union的用法举例
  • (翻译)Quartz官方教程——第一课:Quartz入门
  • (附源码)ssm捐赠救助系统 毕业设计 060945
  • (论文阅读32/100)Flowing convnets for human pose estimation in videos
  • (十八)三元表达式和列表解析
  • (十六)视图变换 正交投影 透视投影
  • (四)c52学习之旅-流水LED灯
  • (转)可以带来幸福的一本书
  • **PHP分步表单提交思路(分页表单提交)
  • .NET C# 使用GDAL读取FileGDB要素类
  • .NET Core 和 .NET Framework 中的 MEF2