ZhY Blog

东搞搞西搞搞的程序员

随机性对agent的影响

The Impact of Determinism on Learning Atari 2600 Games 概览 本篇文章主要提出了Atari游戏在给了一定的policy时产生的是deterministic的action序列,这种状态下的agent可能会因为记住了action序列而造成过拟合,因此提出了一些加入stochastic的方法,并说明了为什么这样做重要。 本篇文章一共提出了...

ALE和OpenAI Gym

ALE和OpenAI Gym的不同之处 关于安装 ALE似乎只有python2版本,而OpenAI Gym里面有封装好的ALE的接口。可以参见atari_py里面关于wrapper的文件。 关于环境的初始化 action 即使用同样的breakout.bin的ROM文件,ALE中的最小action集合为4个(0,1,3,4),然而OpenAI Gym的则是6个action(0,1,...

强化学习笔记

强化学习笔记 environment state,S_t^e,环境当前的状态,它反应了环境发生什么改变。 agent state,S_t^a,是agent的现在所处状态的表示 information(Markov) state,它包含了history的所有有用信息。 如果说environment是Fully Observable的,在这种情况下agent state与environm...

一些trick

trick bash命令 tail -f 可以动态看日志 如果想要命令在前台运行 screen -S chatbot control+a+d screen -r chatbot tensorflow中的打印信息问题 import logging logging.basicConfig(level=logging.INFO) tf.app.run时候可能没有打印信息 测试gp...

structure learning


情感分类模型

面对评价对象的情感分类 一、Attention-based LSTM (AT-LSTM) 可以考虑到评价对象的类别信息 论文:Attention-based LSTM for Aspect-level Sentiment Classification ** 模型说明: ** 每一时刻输入word embedding,LSTM的状态更新,将隐层状态和aspect embedding...

greedy decoding和beam search

greedy decoding和beam search greedy decoding == beam search(size=1) beam search: beam search只在test时候需要。训练时候知道正确答案,因此不需要使用这个搜索方式。 test时候,假设词表大小为3,内容为a,b,c。beam size是2 decoder解码的时候: 1.生成第一个词的时候,...

nlp相关内容

生成对话Agent 论文:End-to-end_Adversarial_Learning_for_Generative_Conversational_Agents ** 模型说明: ** 该文章提出了一个新的对抗学习方法来生成对话Agent,该模型与seq2seq不一样的地方在于:假设Q和A具有同样的先验分布,将question和未生成结束的answer通过同样的embeddi...

深度学习 & NLP & 情感分析 入门材料

深度学习 & NLP & 情感分析 入门材料 深度学习 廖星宇的博客,讲了很多入门知识,比如cnn的基本模型结构等等 莫烦的python,里面有很多入门级教程,包括了数据处理、python基础、强化学习、git入门、linux入门教程等 Must Know Tips/Tricks in Deep Neural Networks,cnn的一些特别实用的小trick 当然...

nlp和情感分析相关资源

课件及视频 Dependency Parsing 依存关系(依存句法)的课件 NLP相关的博客 WILDML 各种NLP DL相关的文章,周报 码农场 主要是NLP相关资源及文章 西土城的搬砖日常专栏笔记一览表 文章 An overview of gradient descent optimization algorithms 梯度下降优化方法的概览 深度学习网络调参技巧 ...