当前位置: 首页 > news >正文

动手学深度学习(1.3.3 - 1.3.4)与环境互动 强化学习

1.3.3. 与环境互动

有人一直心存疑虑:机器学习的输入数据)来自哪里?机器学习的输出又将去往何方? 到目前为止,不管是监督学习还是无监督学习,我们都会预先获取大量数据,然后启动模型不再与环境交互。 这里所有学习都是在算法与环境断开后进行的,被称为离线学习offline learning)。 对于监督学习,从环境中收集数据的过程类似于 图1.3.6。

这种简单的离线学习有它的魅力。 好的一面是,我们可以孤立地进行模式识别,而不必分心于其他问题。 但缺点是,解决的问题相当有限。 这时我们可能会期望人工智能不仅能够做出预测,而且能够与真实环境互动。 与预测不同,“与真实环境互动”实际上会影响环境。 这里的人工智能是“智能代理”,而不仅是“预测模型”。 因此,我们必须考虑到它的行为可能会影响未来的观察结果。

考虑“与真实环境互动”将打开一整套新的建模问题。以下只是几个例子。

  • 环境还记得我们以前做过什么吗?

  • 环境是否有助于我们建模?例如,用户将文本读入语音识别器。

  • 环境是否想要打败模型?例如,一个对抗性的设置,如垃圾邮件过滤或玩游戏?

  • 环境是否重要

  • 环境是否变化?例如,未来的数据是否总是与过去相似,还是随着时间的推移会发生变化?是自然变化还是响应我们的自动化工具而发生变化?

当训练和测试数据不同时,最后一个问题提出了分布偏移distribution shift)的问题。 接下来的内容将简要描述强化学习问题,这是一类明确考虑与环境交互的问题。

1.3.4. 强化学习

如果你对使用机器学习开发与环境交互并采取行动感兴趣,那么最终可能会专注于强化学习reinforcement learning)。 这可能包括应用到机器人、对话系统,甚至开发视频游戏的人工智能(AI)。 深度强化学习deep reinforcement learning)将深度学习应用于强化学习的问题,是非常热门的研究领域。 突破性的深度Q网络Q-network)在雅达利游戏中仅使用视觉输入就击败了人类, 以及 AlphaGo 程序在棋盘游戏围棋中击败了世界冠军,是两个突出强化学习的例子。

在强化学习问题中,智能体agent)在一系列的时间步骤上与环境交互。 在每个特定时间点,智能体从环境接收一些观察observation),并且必须选择一个动作(action),然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中获得奖励(reward)。 此后新一轮循环开始,智能体接收后续观察,并选择后续操作,依此类推。 强化学习的过程在 图1.3.7 中进行了说明。 请注意,强化学习的目标是产生一个好的策略(policy)。 强化学习智能体选择的“动作受策略控制,即一个从环境观察映射到行动的功能。

强化学习框架的通用性十分强大。 例如,我们可以将任何监督学习问题转化为强化学习问题。 假设我们有一个分类问题,可以创建一个强化学习智能体,每个分类对应一个“动作”。 然后,我们可以创建一个环境,该环境给予智能体的奖励。 这个奖励与原始监督学习问题的损失函数是一致的

!)当然,强化学习还可以解决许多监督学习无法解决的问题。 例如,在监督学习中,我们总是希望输入与正确的标签相关联。 但在强化学习中,我们并不假设环境告诉智能体每个观测的最优动作。 一般来说,智能体只是得到一些奖励。 此外,环境甚至可能不会告诉是哪些行为导致了奖励

!)以强化学习在国际象棋的应用为例。 唯一真正的奖励信号出现在游戏结束时当智能体获胜时,智能体可以得到奖励1当智能体失败时,智能体将得到奖励-1。 因此,强化学习者必须处理学分分配credit assignment)问题:决定哪些行为是值得奖励的,哪些行为是需要惩罚的。 就像一个员工升职一样,这次升职很可能反映了前一年的大量的行动。 要想在未来获得更多的晋升,就需要弄清楚这一过程中哪些行为导致了晋升

强化学习可能还必须处理部分可观测性问题。 也就是说,当前的观察结果可能无法阐述有关当前状态的所有信息。 比方说,一个清洁机器人发现自己被困在一个许多相同的壁橱的房子里。 推断机器人的精确位置(从而推断其状态),需要在进入壁橱之前考虑它之前的观察结果

最后,在任何时间点上,强化学习智能体可能知道一个好的策略,但可能有许多更好的策略从未尝试过的。 强化学习智能体必须不断地做出选择:是应该利用当前最好的策略,还是探索新的策略空间(放弃一些短期回报来换取知识)。

一般的强化学习问题是一个非常普遍的问题。 智能体的动作会影响后续的观察,而奖励只与所选的动作相对应。 环境可以是完整观察到的,也可以是部分观察到的,解释所有这些复杂性可能会对研究人员要求太高。 此外,并不是每个实际问题都表现出所有这些复杂性。 因此,学者们研究了一些特殊情况下的强化学习问题。

当环境可被完全观察到时,强化学习问题被称为马尔可夫决策过程markov decision process)。 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机contextual bandit problem)。 当没有状态,只有一组最初未知回报的可用动作时,这个问题就是经典的多臂赌博机multi-armed bandit problem)。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 2.5 计算机网络
  • 车载音视频MediaPlayer优化方案
  • SpringBoot系列:通过AOP+注解优雅实现操作日志记录
  • Kubernetes面试整理-Kubernetes如何实现水平扩展?
  • Spark核心技术架构
  • python 基础语法整理
  • 【VUE】9、VUE项目中使用VUEX完成状态管理
  • jmeter持续学习之---控制器
  • 在word中删除endnote参考文献之间的空行
  • Android系统上常见的性能优化工具
  • MongoDB自学笔记(一)
  • VUE前端HTML静默打印(不弹出打印对话框)PDF简单方案
  • 安全加固:Eureka服务实例安全组配置全攻略
  • Everything搜索无法搜索到桌面的文件(无法检索C盘 或 特定路径的文件)
  • Python 爬虫:使用打码平台来识别各种验证码:
  • 【译】JS基础算法脚本:字符串结尾
  • angular2开源库收集
  • CentOS7 安装JDK
  • CSS 专业技巧
  • express.js的介绍及使用
  • Git同步原始仓库到Fork仓库中
  • input的行数自动增减
  • MaxCompute访问TableStore(OTS) 数据
  • React系列之 Redux 架构模式
  • vue从入门到进阶:计算属性computed与侦听器watch(三)
  • 分享几个不错的工具
  • 关于for循环的简单归纳
  • 将 Measurements 和 Units 应用到物理学
  • linux 淘宝开源监控工具tsar
  • #NOIP 2014# day.1 T2 联合权值
  • (2)(2.4) TerraRanger Tower/Tower EVO(360度)
  • (9)目标检测_SSD的原理
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第2节(共同的基类)
  • (MonoGame从入门到放弃-1) MonoGame环境搭建
  • (二)Eureka服务搭建,服务注册,服务发现
  • (一)项目实践-利用Appdesigner制作目标跟踪仿真软件
  • (转)平衡树
  • ./configure,make,make install的作用
  • .NET 4.0中使用内存映射文件实现进程通讯
  • .NET 8.0 中有哪些新的变化?
  • .NET 解决重复提交问题
  • .NET/C# 利用 Walterlv.WeakEvents 高性能地定义和使用弱事件
  • .NET/C# 使用 ConditionalWeakTable 附加字段(CLR 版本的附加属性,也可用用来当作弱引用字典 WeakDictionary)
  • .NET/C#⾯试题汇总系列:⾯向对象
  • .NET单元测试
  • .NET开发者必备的11款免费工具
  • .net专家(高海东的专栏)
  • /etc/sudoers (root权限管理)
  • /usr/bin/python: can't decompress data; zlib not available 的异常处理
  • [BT]BUUCTF刷题第4天(3.22)
  • [C++] vector对比list deque的引出
  • [C++] 容器适配器:深入理解Stack与Queue的底层原理
  • [C++进阶篇]STL中vector的使用
  • [Google Guava] 2.1-不可变集合
  • [Hibernate] - Fetching strategies