当前位置: 首页 > news >正文

[论文笔记]DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning

引言

今天带来21年一篇关于用强化学习玩斗地主的论文:DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning

斗地主是一个具有竞争、合作、信息不完全、状态空间庞大以及大量可能动作的极具挑战性的领域,尤其是合法动作在每一轮中变化显著。在这项工作中,作者提出了一个在概念上简单但有效的DouDizhu人工智能系统,即DouZero,它通过深度神经网络、动作编码和并行执行器增强了传统的蒙特卡洛方法。作者已经发布了代码和在线演示。

总体介绍

游戏通常作为人工智能的基准,因为它们是许多现实世界问题的抽象。在完全信息游戏方面已经取得了重要成就。例如,AlphaGo和AlphaZero等在围棋游戏上建立了最先进的性能。

最近的研究逐渐演变为更具挑战性的信息不完全游戏,在这些游戏中,智能体与其他玩家(人类或智能体)在部分可观察的环境中竞争或合作。

本篇工作的目标是为斗地主构建AI程序。斗地主具有两个有趣的特点,对AI系统提出了巨大的挑战。首先,斗地主的玩家需要在一个部分可观察、通信有限(不能说话透牌)的环境中既竞争又合作。其次,斗地主有大量的信息集,并且由于牌的组合,有一个非常复杂和庞大的动作空间,高达 1 0

相关文章:

  • 【Linux的网络编程】
  • Linux删除Mysql
  • MinGW-w64的下载与安装
  • 03:HAL---中断
  • 性能优化-卡牌项目渲染优化
  • QML | 在QML中导入JavaScript资源、导入JavaScript资源、包含一个JavaScript 资源
  • 机器学习之分类回归模型(决策数、随机森林)
  • 如何使用宝塔面板搭建Discuz并结合cpolar实现远程访问本地论坛
  • Qt: 事件过滤器的更多用法
  • Echarts 报提示 There is a chart instance already initialized on the dom.
  • docker的快速入门教程
  • excel 动态列导出
  • docker离线搭建仓库
  • 用A*算法求解八数码问题
  • 【C++】STL(二) string容器
  • 【Leetcode】101. 对称二叉树
  • 【跃迁之路】【735天】程序员高效学习方法论探索系列(实验阶段492-2019.2.25)...
  • avalon2.2的VM生成过程
  • C++11: atomic 头文件
  • Electron入门介绍
  • Java面向对象及其三大特征
  • LeetCode算法系列_0891_子序列宽度之和
  • mysql常用命令汇总
  • MySQL数据库运维之数据恢复
  • PHP 的 SAPI 是个什么东西
  • Python socket服务器端、客户端传送信息
  • scrapy学习之路4(itemloder的使用)
  • Transformer-XL: Unleashing the Potential of Attention Models
  • Zsh 开发指南(第十四篇 文件读写)
  • 从0到1:PostCSS 插件开发最佳实践
  • 后端_MYSQL
  • 欢迎参加第二届中国游戏开发者大会
  • 力扣(LeetCode)21
  • 猫头鹰的深夜翻译:JDK9 NotNullOrElse方法
  • 如何实现 font-size 的响应式
  • 我有几个粽子,和一个故事
  • 深度学习之轻量级神经网络在TWS蓝牙音频处理器上的部署
  • 《码出高效》学习笔记与书中错误记录
  • 东超科技获得千万级Pre-A轮融资,投资方为中科创星 ...
  • #Linux(帮助手册)
  • #pragma multi_compile #pragma shader_feature
  • (003)SlickEdit Unity的补全
  • (8)STL算法之替换
  • (C++17) optional的使用
  • (Git) gitignore基础使用
  • (Matlab)基于蝙蝠算法实现电力系统经济调度
  • (ZT)一个美国文科博士的YardLife
  • (附源码)spring boot建达集团公司平台 毕业设计 141538
  • (附源码)spring boot网络空间安全实验教学示范中心网站 毕业设计 111454
  • (附源码)springboot课程在线考试系统 毕业设计 655127
  • (附源码)ssm高校运动会管理系统 毕业设计 020419
  • (学习日记)2024.03.25:UCOSIII第二十二节:系统启动流程详解
  • **CI中自动类加载的用法总结
  • .a文件和.so文件
  • .net 4.0 A potentially dangerous Request.Form value was detected from the client 的解决方案