17、不需要建模环境,等待真实反馈再进行接下来的动作,这是哪种强化学习算法A.Model-free方法B.Model-based 方法C.Policy-based 方法D.Value-based 方法
17、不需要建模环境,等待真实反馈再进行接下来的动作,这是哪种强化学习算法
A.Model-free方法
B.Model-based 方法
C.Policy-based 方法
D.Value-based 方法
参考答案和解析
D
相关考题:
教师在教学过程中应该注意通过反馈使儿童知道自己的学习结果,并使他们逐步具有自我矫正、检查和强化的能力,从而强化有效的学习,这是什么教学原则?()A、动机原则B、强化原则C、程序原则D、结构原则
填空题所谓观察学习,亦称为替代学习,即学习者通过()及其强化性结果的观察而习得()的过程。这种学习不需要学习者直接地做出反应,也不需要亲自体验强化,只要通过观察他人在一定环境中的行为,观察他人所接受的强化就能完成学习。因此,通过这种方式完成的学习又称为“无尝试学习”。
单选题教师在教学过程中应该注意通过反馈使儿童知道自己的学习结果,并使他们逐步具有自我矫正、检查和强化的能力,从而强化有效的学习,这是什么教学原则?()A动机原则B强化原则C程序原则D结构原则
单选题有些物品不需要学习就对客体的行为产生强大作用,这是( )A次级强化物B一级强化物C二级强化物D社会强化物E条件强化物