# 强化学习的交叉关系

* 重点阐述AI里面的强化学习是如何对应到心理学的任务上的

我们将冰湖游戏作为AI中的强化学习代表，老虎机概率反转学习范式作为心理学中的强化学习代表。

在冰湖游戏中，状态空间为64个格子，动作空间为四个方向（上，下，左，右），状态转移函数和奖励函数由环境所决定也比较明确。

<figure><img src="https://1379976374-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fu8x1pCBjIDBIizdIV9Wv%2Fuploads%2Fc7oOchINtHE45FRHO5RN%2Fimage.png?alt=media&#x26;token=64bc7bc5-2ea6-4861-91be-64f6e8cdce53" alt="" width="563"><figcaption><p>图1 冰湖游戏 </p></figcaption></figure>

那么在心理学的概率反转学习范式中，状态空间是什么？动作空间是什么？状态转移函数和奖励函数是什么？公式中的Value怎么联系？是有模型还是无模型？

要解决这些疑问，让我们重新思考一遍概率反转学习范式。以一个具体范式来说，实验一共t个trial，假定每个trail中有A（左）和B（右）两个选项，前一半的trial中A和B的奖赏概率分别是0.7和0.3, 后一半trial的两者的奖赏概率反转为0.3和0.7。即在前一半的一个trial中，受试者选择A获得奖赏的概率为0.7，后一半的一个trial中，受试者选择A获得奖赏的概率为0.3。

<figure><img src="https://1379976374-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fu8x1pCBjIDBIizdIV9Wv%2Fuploads%2FMxaoBoupUXT9WrKCHM5U%2Fimage.png?alt=media&#x26;token=2e3fffc0-81f9-4dad-a81e-a3658879e9dc" alt="" width="563"><figcaption></figcaption></figure>

在单个trial这样一个刺激-选择-奖赏的过程中，毋庸置疑，初始的状态为面对刺激。受试者通过做选择（A或B）来获得奖励，所以动作空间由选择的选项构成，那么做完选择的状态是什么呢？是获得奖励的反馈。整体如下图所示，所以状态空间由三个状态组成，刺激，获得奖励，不获得奖励。动作空间由选项构成，选A（左）和选B（右）。其中状态转移函数和奖励函数由主试决定，在这个例子中， $$P(+1状态｜刺激,A)$$在前一半的trial中为0.7，在后一半中为0.3， $$P(-1状态｜刺激,A)$$ 与之相反。除此之外，奖励函数也可以由主试决定。但是真的是这样吗？我们当然可以将获得奖励的状态也称作状态，但是对于强化学习中最关键的更新部分，在奖励状态Agent无法有实际的Action，不会影响到更新。换句话说，此时的奖励就是冰湖游戏的终点，终点可以作为一个状态，但是我们在终点就结束了游戏。

<figure><img src="https://1379976374-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fu8x1pCBjIDBIizdIV9Wv%2Fuploads%2F6IuPvvHHNrrjry7VH1L5%2Fimage.png?alt=media&#x26;token=1210da6c-c021-4ed1-9b82-996ceaaac7d7" alt="" width="363"><figcaption></figcaption></figure>

我们对照心理学中的公式和Q learning的公式，其实心理学中的Value即对应了AI中的Q 动作价值函数。所以在概率反转学习范式对于受试者而言，是一个无模型的学习。

<figure><img src="https://1379976374-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fu8x1pCBjIDBIizdIV9Wv%2Fuploads%2F42o6u2SHZfU7TJEDyd3e%2Fimage.png?alt=media&#x26;token=bb33ab96-5ca7-4937-b99b-2920e7acc1d2" alt="" width="563"><figcaption></figcaption></figure>
