在之前的讨论中,一场游戏只有一个智能体。而在博弈论中,智能体评估它们的决策如何与其他人的决策相互作用以产生不同的结果。
简单博弈
看一个具体的博弈游戏:
圆圈中的数字代表一个状态。L/R/M 代表智能体可采取的动作。叶子节点的数字代表智能体 A 的得分(B的得分是相反数)[……]
在之前的讨论中,一场游戏只有一个智能体。而在博弈论中,智能体评估它们的决策如何与其他人的决策相互作用以产生不同的结果。
看一个具体的博弈游戏:
圆圈中的数字代表一个状态。L/R/M 代表智能体可采取的动作。叶子节点的数字代表智能体 A 的得分(B的得分是相反数)[……]
Q-learning 是一个经典的强化学习算法。
为了便于描述,这里依然定义一个“世界”:
令空白格子的奖励为1.
Q-table 是 Q-learning 的核心。它是一个表格,记录了每个状态下采取不同动作,所获取的最大长期奖励期望。通过此,就可以知道每一步的最佳[……]
Markov 决策过程中文译为马尔可夫决策过程
。英文全称为 Markov Decison Processes
,简称 MDP
.
为了便于描述,首先定义一个“世界”,如下:
从起点开始,每次选择往四个方向走一格子。目标是到达绿色格子,游戏结束,碰到红色则失败,游戏结束。
黑色格子为障[……]