《深度强化学习:入门与实践指南》(俄)马克西姆?拉潘(Maxim Lapan) 著王静怡刘斌程

目录原书前言第1章什么是强化学习 // 1 1.1 学习—监督、无监督和强化 // 1 1.2 RL形式和关系 // 3 1.2.1 奖励 // 4 1.2.2 智能体 // 5 1.2.3 环境 // 5 1.2.4 动作 // 6 1.2.5 观察 // 6 1.3 马尔可夫决策过程简介 // 8 1.3.1 马尔可夫过程 // 8 1.3.2 马尔可夫奖励过程 // 11 1.3.3 马尔可夫决策过程 // 13 1.4 本章小结 // 16 第2章 OpenAI Gym开源平台 // 17 2.1 智能体剖析 // 17 2.2 硬件和软件要求 // 19 2.3 OpenAI Gym API // 20 2.3.1 动作空间 // 21 2.3.2 观察空间 // 21 2.3.3 环境 // 22 2.3.4 创建环境 // 23 2.3.5 CartPole会话 // 25 2.4 随机CartPole智能体 // 26 2.5 额外的Gym功能—Wrapper和Monitor // 27 2.5.1 Wrapper // 28 2.5.2 Monitor // 30 2.6 本章小结 // 32 第3章使用PyTorch进行深度学习 // 33 3.1 张量 // 33 3.1.1 创建张量 // 33 3.1.2 标量张量 // 35 3.1.3 张量操作 // 36 3.1.4 GPU张量 // 36 3.2 梯度 // 37 3.2.1 张量和梯度 // 38 3.3 NN构建块 // 40 3.4 定制层级 // 41 3.5 *终的黏合剂—损失函数和优化器 // 43 3.5.1 损失函数 // 44 3.5.2 优化器 // 44 3.6 使用TensorBoard监控 // 45 3.6.1 TensorBoard简介 // 46 3.6.2 绘图工具 // 47 3.7 示例:在Atari图像上使用GAN // 48 3.8 本章小结 // 52 第4章交叉熵方法 // 53 4.1 RL方法的分类 // 53 4.2 实践交叉熵 // 54 4.3 CartPole上的交叉熵方法 // 55 4.4 FrozenLake上的交叉熵方法 // 62 4.5 交叉熵方法的理论背景 // 67 4.6 本章小结 // 68 第5章表格学习与Bellman方程 // 69 5.1 值、状态、*优性 // 69 5.2 *优的Bellman方程 // 70 5.3 动作的值 // 72 5.4 值迭代法 // 74 5.5 实践中的值迭代 // 75 5.6 FrozenLake中的Q-learning // 80 5.7 本章小结 // 82 第6章深度Q网络 // 83 6.1 现实中的值迭代 // 83 6.2 表格式Q-learning // 84 6.3 深度Q-learning // 88 6.3.1 与环境的交互 // 89 6.3.2 SGD优化 // 90 6.3.3 步骤之间的相关性 // 90 6.3.4 马尔可夫性 // 90 6.3.5 DQN训练的*终形式 // 91 6.4 Pong上的DQN // 91 6.4.1 封装 // 92 6.4.2 DQN模型 // 96 6.4.3 训练 // 98 6.4.4 运行与性能 // 105 6.4.5 动作中的模型 // 107 6.5 本章小结 // 109 第7章 DQN扩展 // 110 7.1 PyTorch Agent Net函数库 // 110 7.1.1 智能体 // 111 7.1.2 智能体的经验 // 112 7.1.3 经验缓冲区 // 113 7.1.4 Gym env封装 // 113 7.2 基本DQN // 113 7.3 N步DQN // 119 7.3.1 实现 // 121 7.4 双DQN // 123 7.4.1 实现 // 123 7.4.2 结果 // 126 7.5 有噪网络 // 127 7.5.1 实现 // 127 7.5.2 结果 // 130 7.6 优先级重放缓冲区 // 132 7.6.1 实现 // 133 7.6.2 结果 // 137 7.7 竞争DQN // 137 7.7.1 实现 // 138 7.7.2 结果 // 139 7.8 分类 // 140 7.8.1 实现 // 142 7.8.2 结果 // 148 7.9 结合所有 // 149 7.9.1 实现 // 150 7.9.2 结果 // 154 7.10 本章小结 // 155 参考文献 // 155 第8章 RL用于股票交易 // 156 8.1 贸易 // 156 8.2 数据 // 156 8.3 问题陈述和关键决策 // 157 8.4 交易环境 // 159 8.5 模型 // 165 8.6 训练代码 // 166 8.7 结果 // 167 8.7.1 前馈模型 // 167 8.7.2 卷积模型 // 170 8.8 要尝试的事 // 173 8.9 本章小结 // 173 第9章策略梯度法:一种替代方案 // 174 9.1 值与策略 // 174 9.1.1 为什么是策略 // 174 9.1.2 策略表示 // 175 9.1.3 策略梯度 // 175 9.2 强化方法 // 176 9.2.1 CartPole的例子 // 177 9.2.2 结果 // 180 9.2.3 基于策略的方法与基于值的方法 // 181 9.3 强化问题 // 181 9.3.1 完整episode是必需的 // 182 9.3.2 高梯度方差 // 182 9.3.3 探索 // 182 9.3.4 样本之间的相关性 // 183 9.4 CartPole上的PG // 183 9.5 Pong上的PG // 187 9.6 本章小结 // 190 第10章 Actor-Critic方法 // 191 10.1 方差减少 // 191 10.2 CartPole方差 // 192 10.3 Actor-Critic // 194 10.4 Pong上的A2C // 196 10.5 Pong上的A2C的结果 // 201 10.6 调整超参数 // 202 10.6.1 学习率 // 203 10.6.2 熵beta // 203 10.6.3 环境数量 // 204 10.6.4 batch大小 // 204 10.7 本章小结 // 204 第11章异步优势Actor-Critic方法 // 205 11.1 相关性和样本效率 // 205 11.2 在A2C中添加另一个A // 206 11.3 Python中的多处理 // 208 11.4 A3C—数据并行 // 208 11.5 A3C—梯度并行 // 214 11.6 本章小结 // 219 第12章用 RL训练聊天机器人 // 220

经济管理

文学艺术

人文社科

科学技术

生活休闲

教育考试

深度强化学习:入门与实践指南

猜你也喜欢

新书比价

图书详情

内容提要

目录

与描述相符

消费者保障

新手上路

付款方式

个人账户