qy002-强化学习 [一举解开AlphaGo Zero的百胜奥秘]-2019年七月Z线

[复制链接]
online_admin aixure 发表于 2021-4-25 14:19:02 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
200027j0l63ri93cyp97xd
售 价: ¥19¥899加入会员,免费下载
库 存:9998
销 量:10
源 址:
卖家服务:  
客 服:QQ(早10点-晚6点)
资源详情

【课程介绍】

课程简介

强化学习,被誉为可能通向强人工智能的第三类机器学习方法,在AI游戏领域的应用已司空见惯,如自动玩flappy bird,借助强化学习玩星际争霸,最近非常火的王者荣耀也不例外;在无人驾驶、自动交易等领域也有着举足轻重的作用。

《强化学习》课程,带你揭秘AlphaGo和星际争霸/王者荣耀,华尔街最热门的自动交易算法背后的技术及无人驾驶的关键点。

课程特色

1)从模型无关到模型相关,从Q-learning到Policy gradient,全面涵盖主流强化学习内容知识

2)与工业级ML算法紧密结合的应用案例讲解

3)配套实验环境与GPU服务器


【课程目录】

课程目录

第1课 强化学习RL简介

知识点1:强化学习定义:可能通向强人工智能的第三类机器学习方法

知识点2:强化学习数学模型:马尔科夫决策过程(MDP)

知识点3:RL机器人:探索环境,规划自己的人生

知识点4:强化学习基本算法分类

知识点5:Model-Based RL: 已知环境,如何优化自己的人生

第2课 Model—Free Learning

知识点1:环境未知,如何评估测略(状态价值)

知识点2:蒙特卡洛方法学习状态价值函数

知识点3:TD方法学习状态价值函数

实战项目:两种方法比较及代码实现

知识点5:OpenAI Gym介绍

第3课 Model-Free Control

知识点1: 贪婪策略:平衡 Exploration and Exploitation

知识点2:on/off-policy 蒙特卡洛方法

知识点3:on/off-policy TD 算法 (Sara)

实战项目:on/off-policy 算法比较及代码实现

第4课 Q-Learning

知识点1:Q-Learning

知识点2:Deep Q-Learning

实战项目:Q-learning解决山地车问题

第5课 策略梯度学习

知识点1:蒙特卡洛策略梯度

知识点2:Actor-Critic算法

实战项目:用policy gradient解决连续山地车的问题

第6课 TensorFlow强化学习应用案例

温馨提示:
1、如果下载地址失效,请尽快反馈给我们,我们尽快修复。点此反馈>>
2、全站资源高清无密,课程百分百高清,完整,原画,包含所有的视频+素材+课件+源码,官方同步体验!每天更新,成为vip后可免费下载本站IT课程。点此办理会员>>
3、有任何问题,请咨询QQ:87887023
4、支持7*24小时自助购买,购买后自动发货,链接永久有效,自动更新
回复

使用道具 举报

精彩评论1

plugin
online_1_1 ricker 发表于 2021-11-7 12:58:39 | 显示全部楼层
66666666666666666
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

专注资源整合与知识分享
客服QQ

87887023

周一至周日9:00-23:00

反馈建议

点此进行反馈 kfs 在线QQ咨询
ftqrcode

扫描二维码关注我们

label_sm_90020

Powered by 优百课栈 X3.4© 2019-2025