妈耶,有现成的部分翻译,转载自:https://blog.csdn.net/thousandsofwind/article/details/79710209
思考其发展中的一些例子和可能的应用是理解强化学习的一个好方法。
这些示例都以为基础容易被忽略。他们都涉及活动决策代理与其环境之间的互动,代理在不确定的环境中仍寻求实现目标。代理的行动能够影响环境(例如,下一个国际象棋位置、炼油厂的水库水位、机器人的下一个位置和电池的未来充电水平),从而影响到代理之后的选择和面对的环境。正确的选择要考虑到行动的间接的、延迟的后果,因此需要具有远见或计划。
同时,我们无法完全预测到这些例子中行动的影响,因此代理必须持续监视其环境并作出适当的反应。例如,Phil必须看着他倒进麦片碗里的牛奶,以防止牛奶溢出。所有这些例子中代理人在直接感知的基础上可以进行进度的判断,因而某种程度上可以说目标是清晰的( All these examples involve goals that are explicit in the sense that the agent can judge progress toward its goal based on what it can sense directly)。象棋玩家知道他是否赢了,炼油厂的管理人员知道有多少石油正在生产,移动机器人知道电池耗尽时,Phil知道他是否正在享用他的早餐。
在所有这些示例中,随着时间的推移代理可以使用它的经验来改进其性能。这位棋手提高了他用来评估位置的直觉,从而提高了他的下棋能力;瞪羚提高了奔跑的效率;Phil学会了流程的制作早餐。在任务开始时代理所具有的过去相关任务中的经验或其设计和演化带来的知识影响了学什么更有用或更轻松,但与环境的交互对于利用任务的特性更加至关重要。
Comments
😅 Commenting is disabled on this post.