ZhY Blog

东搞搞西搞搞的程序员

gym env笔记

import gym from gym import wrappers ###-------------------------- 设置env ----------------------------### env = gym.make('Venture-v0') ###-------------------------- 列出该env名称 ----------------...

随手笔记

1.打乱数据顺序 shuffled_action_sequences = random.sample(legal_action_sequences, len(legal_action_sequences)) 2.根据 不同版本的tf设定不同的api import distutils.version use_tf12_api = distutils.version.LooseVers...

Policy gradient小总结

policy gradient 的问题: 高variance: 降低variance我们可以对梯度有个更好的评价 这样有利于收敛到一个更好的结果 或者用一个较大的学习率可以让我们收敛更快 Q值表示的是s_t时候做了动作a_t之后的reward之和 V值表示的是s_t时候做了不同动作的reward之和的平均值 A值表示的是s_t的时候做了动作a_t会比平均值高出多少,有多少优势 思路...

Cs294_note5

layout: post title: “Acvtor-critic introduction” date: 2018-09-25 12:00:00 author: “ZhY” header-img: “img/post-bg-basic.jpg” header-mask: 0.3 catalog: true tags: - 强化学习 ...

cs294 hw2

Policy gradient 在hw1的模仿学习中我们将策略看作一个网络,他的输入是状态,输出是动作或者的分布,即。但是由于模仿学习需要提供大量数据,并且可能无法提供某种动作信息,以及训练过程中会误差累计等问题,我们需要拓展新的思路。 我们已经知道强化学习的算法流程是:运行策略生成样本===>利用样本估计回报函数(对应具体任务)===>根据回报函数更新策略===>运行...

cs294 note4

Policy gradients introduction Evaluating the objective Fully observability We can use Monte Carlo to approximate the objective. And we already know how to evaluate the objective, then how do ...

cs294 note3

Reinforcement learning introduction Markov chain is a vector, and is the probability that you’re in state at timestep . Markov Decision Process Partially Observed Markov Decision Proces...

cs294 note2

Terminology & notation The top of this model can be a discrete(softmax) or continuous(output the mean and the variance of a Gaussian distribution) or hybrid. For instance, a cheetah chasi...

cs294 note1

Supervised Learning of Behaviors Examples for reinforcement learning These pictures shows that there are a lot of problems could solved by reinforcement learning, such as training a dog, runnin...

Deep Attention Recurrent Q-Network

DARQN

Deep Attention Recurrent Q-Network 阅读笔记 简介 15年attention机制大火,computer vision和nlp领域全都开始在模型中加入了attention机制,自然也就有人想要把attention放在强化学习中,通过注意力机制来找到agent所需要关注的图像中重点部分。 文章从DQL介绍起,然后提到了15年的模型Deep Recurren...