当前位置: 首页 > news >正文

Machine learning week 10(Andrew Ng)

文章目录

    • Reinforcement learning
      • 1. Reinforcement learning introduction
        • 1.1. What is Reinforcement Learning?
        • 1.2. Mars rover example
        • 1.3. The return in Reinforcement learning
        • 1.4. Making decisions: Policies in reinforcement learning
        • 1.5. Review of key concepts
      • 2. State-action value function
        • 2.1. State-action value function definition
        • 2.2. State-action value function example
        • 2.3. Bellman Equation
        • 2.4. Random (stochastic) environment
      • 3. Continuous state spaces
        • 3.1. Example of continuous state space applications
        • 3.2. Lunar lander
        • 3.3. Learning the state-value function
        • 3.4. Algorithm refinement: Improved neural network architecture
        • 3.5. Algorithm refinement: ε-greedy policy
        • 3.6. Algorithm refinement: Mini-batch and soft update
        • 3.7. The state of reinforcement learning
    • Summary

Reinforcement learning

1. Reinforcement learning introduction

1.1. What is Reinforcement Learning?

The key idea is rather than you need to tell the algorithm what the right output y for every single input is, all you have to do instead is specify a reward function that tells it when it’s doing well and when it’s doing poorly.

1.2. Mars rover example

1.3. The return in Reinforcement learning

在这里插入图片描述
The first step is r 0 r^0 r0.
在这里插入图片描述
Select the orientation according to the first two tables

1.4. Making decisions: Policies in reinforcement learning

For example, π ( 2 ) \pi(2) π(2) is left while π ( 5 ) \pi(5) π(5) is right. The number expresses state.
在这里插入图片描述

1.5. Review of key concepts

在这里插入图片描述
在这里插入图片描述

2. State-action value function

2.1. State-action value function definition

在这里插入图片描述
The iteration will be used.
在这里插入图片描述
在这里插入图片描述

2.2. State-action value function example

2.3. Bellman Equation

Q ( s , a ) = R ( s ) + r ∗ m a x Q ( s ′ , a ′ ) Q(s,a) = R(s) + r * max Q(s^{'},a^{'}) Q(s,a)=R(s)+rmaxQ(s,a)
在这里插入图片描述

2.4. Random (stochastic) environment

Sometimes it actually ends up accidentally slipping and going in the opposite direction.

3. Continuous state spaces

3.1. Example of continuous state space applications

Every variable is continuous.

3.2. Lunar lander

在这里插入图片描述

3.3. Learning the state-value function

在这里插入图片描述
在这里插入图片描述
Q is a random value at first. We will train the model to find a better Q.
在这里插入图片描述

3.4. Algorithm refinement: Improved neural network architecture

在这里插入图片描述

3.5. Algorithm refinement: ε-greedy policy

ε = 0.05
在这里插入图片描述
If we choose a bad ε, we may take 100 times as long.

3.6. Algorithm refinement: Mini-batch and soft update

The idea of mini-batch gradient descent is to not use all 100 million training examples on every single iteration through this loop. Instead, we may pick a smaller number, let me call it m prime equals say, 1,000. On every step, instead of using all 100 million examples, we would pick some subset of 1,000 or m prime examples.
在这里插入图片描述
在这里插入图片描述

  • Soft update
    When we set Q equals to Q n e w Q_{new} Qnew, it can make a very abrupt change to Q.So we will adjust the parameters in Q.
    W = 0.01 ∗ W n e w + 0.99 W W = 0.01*W_{new} + 0.99 W W=0.01Wnew+0.99W
    B = 0.01 ∗ B n e w + 0.99 B B = 0.01*B_{new} + 0.99 B B=0.01Bnew+0.99B

3.7. The state of reinforcement learning

在这里插入图片描述

Summary

在这里插入图片描述

相关文章:

  • spring-cloud-alibaba-Nacos2.0.3:注册中心和配置中心框架学习
  • android studio教程,Android Studio一个完整的APP实例
  • jumpserver堡垒机界面设置及界面功能
  • LeetCode---SQL刷题6
  • React知识总结✨
  • 一周时间深扒事务 总结代码演示篇 拿捏事务
  • 剑指offer79-87二进制枚举、回溯
  • 《Coding Monkey的自我修养》之MyBatis批量插入数据的三种方法
  • Windows应急响应信息采集工具
  • 舵机调试上位机
  • 瑞吉外卖 —— 3、员工管理
  • 走到上市前夕,叮当健康如何勾画“医药检险”蓝图?
  • 批量条件赋值、文本字段计算常用表达式
  • 计算机毕业论文Java项目源码下载学生宿舍管理系统|寝室管理
  • 分子动力学后处理自编程系列(2)------聚合物回转半径
  • Angular数据绑定机制
  • Material Design
  • Redis提升并发能力 | 从0开始构建SpringCloud微服务(2)
  • 测试如何在敏捷团队中工作?
  • 产品三维模型在线预览
  • 力扣(LeetCode)56
  • 聊聊springcloud的EurekaClientAutoConfiguration
  • 目录与文件属性:编写ls
  • 十年未变!安全,谁之责?(下)
  • 吴恩达Deep Learning课程练习题参考答案——R语言版
  • 一些关于Rust在2019年的思考
  • 原生Ajax
  • ​马来语翻译中文去哪比较好?
  • #Z0458. 树的中心2
  • #传输# #传输数据判断#
  • #我与Java虚拟机的故事#连载09:面试大厂逃不过的JVM
  • (11)MATLAB PCA+SVM 人脸识别
  • (12)Linux 常见的三种进程状态
  • (rabbitmq的高级特性)消息可靠性
  • (六)激光线扫描-三维重建
  • (免费领源码)python#django#mysql公交线路查询系统85021- 计算机毕业设计项目选题推荐
  • (求助)用傲游上csdn博客时标签栏和网址栏一直显示袁萌 的头像
  • (三)模仿学习-Action数据的模仿
  • (原創) 如何將struct塞進vector? (C/C++) (STL)
  • (转)nsfocus-绿盟科技笔试题目
  • .jks文件(JAVA KeyStore)
  • .libPaths()设置包加载目录
  • .NET 8 编写 LiteDB vs SQLite 数据库 CRUD 接口性能测试(准备篇)
  • .NET CORE 3.1 集成JWT鉴权和授权2
  • .NET Core IdentityServer4实战-开篇介绍与规划
  • .NET MVC之AOP
  • .net php 通信,flash与asp/php/asp.net通信的方法
  • .net6+aspose.words导出word并转pdf
  • .net实现客户区延伸至至非客户区
  • .NET中统一的存储过程调用方法(收藏)
  • .py文件应该怎样打开?
  • ??如何把JavaScript脚本中的参数传到java代码段中
  • @RequestMapping 的作用是什么?
  • [2017][note]基于空间交叉相位调制的两个连续波在few layer铋Bi中的全光switch——
  • [AUTOSAR][诊断管理][ECU][$37] 请求退出传输。终止数据传输的(上传/下载)