当前位置: 首页 > news >正文

【论文笔记】Population Based Training of Neural Networks(PBT)

文章目录

    • 论文介绍
    • 自己体会

论文介绍

谷歌DeepMind团队在2017年文章《Population Based Training of Neural Networks》中提出的PBT算法,看似比较简单和朴素,但是在实际应用中结果表现良好。

论文链接:https://arxiv.org/pdf/1711.09846v2.pdf
论文源码:(没有官方的)https://paperswithcode.com/paper/population-based-training-of-neural-networks

在这里插入图片描述

自己体会

介绍这篇论文的文章蛮多了,我争取说一些别人没有提到的点。

其它同学的参考链接:
https://blog.csdn.net/jinzhuojun/article/details/100047416
https://zhuanlan.zhihu.com/p/313792467
https://www.cnblogs.com/initial-h/p/10519150.html

在博弈中,常常会因为“策略的旋度(non-transitive)”导致学到的策略循环往复,最后什么都没有学到的情况。比如石头剪刀布游戏中,如果只用简单的self-play 方式训练best response,就会在 一直出石头->一直出布->一直出剪刀->一直出石头的循环中浪费算力。

在《Real World Games Look Like Spinning Tops》一文中提到过,策略有Transitive和non-transitive两部分,从某个角度看,整个策略集合就像一个陀螺,而一个博弈中,绝大部分的策略都属于中间有着极大策略旋度的地方。对处于策略旋度较大的策略生成best-response时,主要梯度方向会是水平方向的(沿着non-transitive方向),这是我们训练策略时不愿意看到的。

这就导致最终选择出来的策略,在Transitive方向可能并没有提升,甚至可能会是负提升。而且,在引入了神经网络之后,self-play并不能保证策略向着纳什均衡解的方向前进。
在这里插入图片描述

如论文中这张图所示,很多训练方式如self-play,都必须在原本的智能体具有一定水平时,才能够保证生效。

Go 是self-play声名鹊起的重要原因之一。它能够有很好效果的原因,可能在于围棋本身是一个non-transitive分量很小的游戏,很少有长期打不过低级别选手却能打赢高级别选手的案例。面对更加复杂的游戏,可能就会有更多的“transitive”分量了。

在这里插入图片描述

而PBT这篇文章,提出的模型训练方式其实有一点“帕累托改进”的意味,或者有点像Double DQN里面“胜者诅咒”导致的过估计。如果种群足够大,从种群中选择出“最能打”的Agent,确实是可以做到,大概率会在transitive方向有分量的,这个概率远远大于传统基于self-play在transitive上有提升的概率。

另外,不难证明,如果游戏的策略旋度越大,则方差越大,用PBT求解时,种群基数就要越大。

相关文章:

  • React之一些函数或者方法的扩展
  • 普通人修谱必须读的三本书,最后一本市场买不到
  • 巧妙简单的坑人代码,“巩固”你和好哥们的友谊【坏笑】
  • 编译器的作用和构成 (基础知识版)
  • 【什么时候使用分类 Objective-C语言】
  • 快速入门C++第七天——输入与输出
  • 栈和队列及表达式求值问题
  • 快速入门C++第六天——函数模板与类模板
  • gitlab自定义头像设置
  • 新库上线 | CnOpenData采矿业工商注册企业基本信息数据
  • 【Redis】基于Redis6的数据类型以及相关命令、应用场景整理
  • Qt使用qBreakpad定位崩溃位置
  • IAR+vscode开发环境搭建,千万别用,当心爱上
  • 一些 Next Generation ABAP Platform 的新语法用例
  • java面向对象思维程序设计开发以及案例 -电梯运行问题对象分析与程序设计(1)
  • [分享]iOS开发 - 实现UITableView Plain SectionView和table不停留一起滑动
  • 2017年终总结、随想
  • electron原来这么简单----打包你的react、VUE桌面应用程序
  • Go 语言编译器的 //go: 详解
  • gops —— Go 程序诊断分析工具
  • nfs客户端进程变D,延伸linux的lock
  • PV统计优化设计
  • vue-cli在webpack的配置文件探究
  • 前端知识点整理(待续)
  • 通过几道题目学习二叉搜索树
  • 微信小程序上拉加载:onReachBottom详解+设置触发距离
  • 移动端唤起键盘时取消position:fixed定位
  • HanLP分词命名实体提取详解
  • 树莓派用上kodexplorer也能玩成私有网盘
  • 选择阿里云数据库HBase版十大理由
  • ​ubuntu下安装kvm虚拟机
  • #100天计划# 2013年9月29日
  • #多叉树深度遍历_结合深度学习的视频编码方法--帧内预测
  • #我与Java虚拟机的故事#连载15:完整阅读的第一本技术书籍
  • (20)目标检测算法之YOLOv5计算预选框、详解anchor计算
  • (html转换)StringEscapeUtils类的转义与反转义方法
  • (六)vue-router+UI组件库
  • (深度全面解析)ChatGPT的重大更新给创业者带来了哪些红利机会
  • (十一)c52学习之旅-动态数码管
  • (一)Spring Cloud 直击微服务作用、架构应用、hystrix降级
  • (转)fock函数详解
  • .aanva
  • .mysql secret在哪_MYSQL基本操作(上)
  • .NET CLR基本术语
  • .Net Framework 4.x 程序到底运行在哪个 CLR 版本之上
  • .NET Project Open Day(2011.11.13)
  • .net 托管代码与非托管代码
  • .NET 中让 Task 支持带超时的异步等待
  • .NET牛人应该知道些什么(2):中级.NET开发人员
  • .NET委托:一个关于C#的睡前故事
  • .net与java建立WebService再互相调用
  • .NET中的Event与Delegates,从Publisher到Subscriber的衔接!
  • /etc/apt/sources.list 和 /etc/apt/sources.list.d
  • [17]JAVAEE-HTTP协议
  • [Android Studio] 开发Java 程序