基本概念
智能体:相当于AlphaGo状态:当前智能体所处的一个状态。
行为:智能体看清了当前的状态之后 要进行的一个下一步的操作,AlphaGo的落子的操作我们称之为行为,往哪个方向走(上下左右)。
奖励:每一步行为之后都会有一个结果,对不同的结果都会有一个奖励的值,如果你学习了我给你一个奖励,如果你打球了(没学习)我就给你一个惩罚。每一步操作都会有一个衡量的指标,来指明这一步操作是对还是不对。
策略:首先在当前的一个环境下,已经看清楚了现在的状态,然后你会有一个目标,对AlphaGo来说最终你想赢。我们会先制定一系列的策略,比如对现在这个状态,我按照什么样的一系列的动作组合,能使得我最终能获胜,得到最大的奖励值。
当前有一个状态,还有一个最终的目标,我达到了最终目标我就可以得到这个奖励,没有达到我就得不到这个奖励。先观察看下当前状态如何,在当前状态下我先选择一个行动,不合适就继续尝试,每次行动都尝试不同的方向,总会试出一个方向会使得最终的结果奖励值最大。即哪一步走法会使得最终的奖励值最大,那我就走这样一步。
状态我们可以写成一个集合,每走一步都有一个状态,这一系列的状态组成这么一个经验集合,每个状态相当于经验值。 Agent每走一步就会达到一个新的环境,在新的环境当中看下当前的奖励如何。 往左或者往右走完,我们会算一下当前的状态,可以通过杆的角度和速度来算得当前杆是倾斜还是不倾斜。马尔科夫决策过程
折扣系数:我们做一个动作,不只是会对当前状态有影响,还会对之后的状态都会有影响。对之后状态有影响是说影响了这些状态得到的奖励。折扣系数就表示着我虽然现在做了一个动作,对当下有奖励的同时可能也会对之后的状态奖励有影响,当下的奖励会比未来的奖励更重要一些,比如说当下的奖励折扣系数为1,那么未来带来的奖励折扣系数就为0.8或0.6等等未来回报的期望就表示着:在当前状态下,可以得到最终的结果或者说平均结果是什么样的,它是一个期望值。
累计奖励的期望是指:把当下和未来全部状态的奖励都算在一起得到的一个值。 价值函数:是某一策略(某一种状态-动作对)下得到的值,。 最优价值函数:因为状态-动作对会有很多,对所有这些进行累计的结果。bellman方程
动作空间和状态空间都是有限的才能去计算。
Vπ:最终的价值函数。Vπ(s):当前状态获得的期望。