当我们思索学习的本质的时候,一个自然的过程是通过与环境的互动从而获得某种行动所对应的结果的因果关系的信息,进而决定之后采取什么样的行动以实现目标。 强化学习Reinforcement Learning就是这样的一种机器学习方法,即将当前场景(situation)映射到适宜的行动(action)以实现奖励回报(reward)的最大化,当然,采取何种行动不是先验就知道的,而是需要进行不断的探索尝试才知道哪些行动会产出更大的奖励,而且这些行动不仅仅是造成即时的反馈,也可能对后续的奖励产生影响。通过试错来寻找合适的行动(trial-and-error search)以及延时奖励(delayed reward)是强化学习有别于其他问题的两大特征。 知乎专栏的川坨学者的学习笔记做的很精美。
领书计划详情