强化学习时机器学习算法的一种,就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
强化学习时机器学习算法的一种,就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
参考答案和解析
正确
相关考题:
关于下面说法不正确的是()。 A.游戏化学习就是通过在课堂上让学生玩游戏来进行学习B.游戏化学习不是指传统游戏环境下的学习模式C.游戏化学习就是借用健康益智性的游戏软件进行学习的学习方式D.游戏化学习是指利用游戏软件为媒介进行学习活动的学习方式
以下关于学习与发展的说法正确的有()A、学习和发展并驾齐驱B、学习就是发展,发展就是学习C、儿童的生理和生态环境促进和规范儿童的学习,而学习又促进发展。D、通过各种各样的环境和社会支持,儿童的学习经验得以扩展
填空题所谓观察学习,亦称为替代学习,即学习者通过()及其强化性结果的观察而习得()的过程。这种学习不需要学习者直接地做出反应,也不需要亲自体验强化,只要通过观察他人在一定环境中的行为,观察他人所接受的强化就能完成学习。因此,通过这种方式完成的学习又称为“无尝试学习”。
多选题以下关于学习与发展的说法正确的有()A学习和发展并驾齐驱B学习就是发展,发展就是学习C儿童的生理和生态环境促进和规范儿童的学习,而学习又促进发展。D通过各种各样的环境和社会支持,儿童的学习经验得以扩展
多选题在强化学习中,主体和环境之间交互的要素有()。A状态B动作C回报D强化