人工智能深度学习系统班6期 18 强化学习实战系列
- 01 强化学习简介及其应用
- 01 一张图通俗解释强化学习
- 02 强化学习的指导依据
- 03 强化学习AI游戏DEMO
- 04 应用领域简介
- 05 强化学习工作流程
- 06 计算机眼中的状态与行为
- 02 PPO算法与公式推导
- 01 基本情况介绍
- 02 与环境交互得到所需数据
- 03 要完成的目标分析
- 04 策略梯度推导
- 05 baseline方法
- 06 OnPolicy与OffPolicy策略
- 07 importance sampling的作用
- 08 PPO算法整体思路解析
- 03 PPO实战-月球登陆器训练实例
- 01 Critic的作用与效果
- 02 PPO2版本公式解读
- 03 参数与网络结构定义
- 04 得到动作结果
- 05 奖励获得与计算
- 06 参数迭代与更新
- 04 Q-learning与DQN算法
- 01 整体任务流程演示
- 02 探索与action获取
- 03 计算target值
- 04 训练与更新
- 05 算法原理通俗解读
- 06 目标函数与公式解析
- 07 Qlearning算法实例解读
- 08 Q值迭代求解
- 09 DQN简介
- 05 DQN算法实例演示
- 01 整体任务流程演示
- 02 探索与action获取
- 03 计算target值
- 04 训练与更新
- 06 DQN改进与应用技巧
- 01 DoubleDqn要解决的问题
- 02 DuelingDqn改进方法
- 03 Dueling整体网络架构分析
- 04 MultiSetp策略
- 05 连续动作处理方法
- 07 Actor-Critic算法分析(A3C)
- 01 AC算法回顾与知识点总结
- 02 优势函数解读与分析
- 03 计算流程实例
- 04 A3C整体架构分析
- 05 损失函数整理
- 08 用A3C玩转超级马里奥
- 01 整体流程与环境配置
- 02 启动游戏环境
- 03 要计算的指标回顾
- 04 初始化局部模型并加载参数
- 05 与环境交互得到训练数据
- 06 训练网络模型