博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
强化学习随记
阅读量:6592 次
发布时间:2019-06-24

本文共 988 字,大约阅读时间需要 3 分钟。

基本概念

智能体:相当于AlphaGo

状态:当前智能体所处的一个状态。

行为:智能体看清了当前的状态之后 要进行的一个下一步的操作,AlphaGo的落子的操作我们称之为行为,往哪个方向走(上下左右)。

奖励:每一步行为之后都会有一个结果,对不同的结果都会有一个奖励的值,如果你学习了我给你一个奖励,如果你打球了(没学习)我就给你一个惩罚。每一步操作都会有一个衡量的指标,来指明这一步操作是对还是不对。

策略:首先在当前的一个环境下,已经看清楚了现在的状态,然后你会有一个目标,对AlphaGo来说最终你想赢。我们会先制定一系列的策略,比如对现在这个状态,我按照什么样的一系列的动作组合,能使得我最终能获胜,得到最大的奖励值。

当前有一个状态,还有一个最终的目标,我达到了最终目标我就可以得到这个奖励,没有达到我就得不到这个奖励。

先观察看下当前状态如何,在当前状态下我先选择一个行动,不合适就继续尝试,每次行动都尝试不同的方向,总会试出一个方向会使得最终的结果奖励值最大。即哪一步走法会使得最终的奖励值最大,那我就走这样一步。

状态我们可以写成一个集合,每走一步都有一个状态,这一系列的状态组成这么一个经验集合,每个状态相当于经验值。

Agent每走一步就会达到一个新的环境,在新的环境当中看下当前的奖励如何。

往左或者往右走完,我们会算一下当前的状态,可以通过杆的角度和速度来算得当前杆是倾斜还是不倾斜。

马尔科夫决策过程

折扣系数:我们做一个动作,不只是会对当前状态有影响,还会对之后的状态都会有影响。对之后状态有影响是说影响了这些状态得到的奖励。折扣系数就表示着我虽然现在做了一个动作,对当下有奖励的同时可能也会对之后的状态奖励有影响,当下的奖励会比未来的奖励更重要一些,比如说当下的奖励折扣系数为1,那么未来带来的奖励折扣系数就为0.8或0.6等等

未来回报的期望就表示着:在当前状态下,可以得到最终的结果或者说平均结果是什么样的,它是一个期望值。

累计奖励的期望是指:把当下和未来全部状态的奖励都算在一起得到的一个值。 价值函数:是某一策略(某一种状态-动作对)下得到的值,。 最优价值函数:因为状态-动作对会有很多,对所有这些进行累计的结果。

bellman方程

动作空间和状态空间都是有限的才能去计算。

Vπ:最终的价值函数。

Vπ(s):当前状态获得的期望。

转载地址:http://vruio.baihongyu.com/

你可能感兴趣的文章
【问题解决】BootStrap.css与layDate日期选择样式起冲突的解决办法
查看>>
ArcGis 在线地图相关资源
查看>>
构建安全的Xml Web Service系列之初探使用Soap头
查看>>
触摸识别技术将被智能机抛弃?它还能应用于这些安全系统识别
查看>>
基于AForge.Net框架的扑克牌识别
查看>>
可扩展Web架构与分布式系统
查看>>
爱润妍代理模式营销系统
查看>>
ZOJ Problem Set - 3758 素数
查看>>
Knockout应用开发指南 第九章:高级应用举例
查看>>
用无向带权图实现校园导航系统
查看>>
再谈pipeline-filter模式
查看>>
华山论剑之契约式编程与防御式编程
查看>>
iOS工程中删除默认的并使用自建的ViewController后黑屏
查看>>
当开源库碰到错误怎么办?
查看>>
计算机组成原理与机构期末复习的概念
查看>>
HTAP数据库——HybirdDB for MySQL产品和典型方案介绍
查看>>
YUV 像素格式
查看>>
您所在企业是否需要首席数据官?
查看>>
OpenStack 实现技术分解 (5) 应用开发 — 使用 OpenStackClients 进行二次开发
查看>>
安徽省大数据产业联盟成立
查看>>