Please enable JavaScript.
Coggle requires JavaScript to display documents.
Comparative Adversarial Learning (:moneybag:背景 (:four:在文本生成方面存在难题 (:one…
Comparative Adversarial Learning
:moneybag:背景
:two:人们已经使用CNN和深度递归语言模型等在文本生成方面取得突破,如BLEU,CIDE
:moneybag:机器生成的文本和人的文本还是有区别的
:explode:机器无法生成多样化的文本
:one:Image Caption的应用场景很广,比如聊天机器人和健康帮助
:three:对抗网络在机器学习中取得巨大成功
:four:在文本生成方面存在难题
:one:多样化文本
:two:生成的文本的评判标准
:star:比较1个图片的2个caption的质量好坏
:moneybag:这种做法优于直接给这个图片的1个文本进行绝对的评分
:moneybag:binary discriminator
:moneybag:问题
:one:会nondiscriminatory issues
:two:梯度消失问题
:three:难以同时评估相关度,自然程度和质量
#
:explode:
Comparative Adversarial Learning
:moneybag:文本生成
:!:encoder-decoder框架配合RNN,并使用MLE(最大似然)
:recycle:模型
:two:cr-discriminator(Dφ)
:explode:计算生成器生成的文本g和人写的文本h的Comparative Relevance Score(cr-score)
:moneybag:问题
:explode:cr-score是基于离散tokens的=>梯度不能通过反向传播传给生成器
:smile:解决binary discriminator的"难以同时评估相关度,自然程度和质量"问题
:!:判别器Dφ有CNN image encoder FDφ
:!:从人写的文本里对生成的文本进行微分
:moneybag:cr-score
:star:human-written captions的cr-score应该高,而generated caption should receive a lower cr-score
:!::fast_forward:
apply Policy Gradient & MC rollout process
:!: comparing a set of captions
within the image-caption joint space
#
:one:Caption Generator(GΘ)
:explode:给定1张图片,生成文本g(并加上noise)
:checkered_flag:最小化g的cr-score
:!:基于encoder-decoder结构
:explode:encoder使用CNN,1张图片=>特征值; decoder使用LSTM,特征值=>词序列g0:T=(g0,g1,...,gT)(T是最大的时间步长,gk是时间步长为k的时候的word)
:bread:encoded feture会concatenate随机向量z=>多样化
#