第七章 深度生成对抗网络 GAN网络的训练是判别网络和生成网络的对抗和博弈过程 生成网络:用于生成数据,根据输入给定噪声生成数据,生成让判别网络难以区分真伪的数据 判别网络:用于判断数据是生成的还是真实的,而判别网络则尽可能能区分其输入数据的真伪性, 训练过程:是将两个网络不断地做对抗,固定一个网络的同时训练另外一个网络,重复这个过程,直到生成网络最终可以产生与真实样本相似数据甚至超越真实数据的质量。 7.2 GAN网络设计 第七章 深度生成对抗网络 7.2 GAN网络设计 ? 第七章 深度生成对抗网络 7.2 GAN网络设计 ? 第六章 深度循环神经网络 6.7 Transformer (A)编码器的输入 词嵌入(Word Embedding)+位置嵌入(Position Embedding) 词嵌入: 嵌入算法实现Word Embedding,我们可以将每个单词编码为一个512维度的向量列表。 位置嵌入: 嵌入向量由下式计算: 其中,pos表示这个 word 在该句子中的位置 第六章 深度循环神经网络 6.7 Transformer (B)编码器框架 ? dmodel=512, h = 8,dk=dmodel /h =64 Attention操作 第六章 深度循环神经网络 6.7 Transformer query、key与value矩阵的计算图示 第六章 深度循环神经网络 6.7 Transformer 在某个位置编码单词时,需要对输入的句子每个单词进行评分,其分数将决定该单词对输入句子的其他单词的关注程度。 ? ? 第六章 深度循环神经网络 6.7 Transformer 评分图解 ? 第六章 深度循环神经网络 6.7 Transformer 多头注意力层(multi-head attention layer)的操作 ? 第六章 深度循环神经网络 6.7 Transformer AddNorm操作 将前一编码器的输出(对于解码器组的最底端,其为嵌入输入x),与当前Multi-head attentionlayer的输出相加,再进行softmax,得到结果送入前馈神经网络。 第六章 深度循环神经网络 6.7 Transformer Encoder最后一层是经过AddNorm操作得到输出,即将前一 self-attention layer的输出与全连接前馈神经网络输出相加,再进行softmax操作。 ? 第六章 深度循环神经网络 6.7 Transformer (2) 解码器 在词向量完全通过所有的编码层后,就启动解码器的工作。 (A)解码器的输入 一是编码阶段的最后输出结果,这个输出结果将会输入到解码器的所有解码层,输入为key与value向量, 二是前一个解码器的输出,如果是最底端的一个,则为上一个时间步的输出的嵌入编码并添加了位置编码的编码 第六章 深度循环神经网络 6.7 Transformer (B)解码器框架 与编码器对照,解码器除了有注意力机制层和前馈神经网络层以外,它多了一级编码器-解码器注意力层,以便解码器将在解码时将注意力集中在序列的适当单词上面。 Decoder第一级加入了Mask操作,这就避免了在模型训练的时候使用未来的输出单词。 因为翻译过程我们当前还并不知道下一个输出单词是什么,?即Decoder中的self attention只关注输出序列中的较早的位置。因此在softmax步骤前,必须屏蔽了特征位置(设置为 -inf)把后面的位置给隐去(Masked)。 第六章 深度循环神经网络 6.7 Transformer decoder第三级与encoder的第二级结构相同。 decoder第二级与encoder的第一级相似,此层也被称作编码器-解码器注意力层(encoder-decoder attention layer),即它的query来自于之前一级的decoder层的输出,但其key和value来自于encoder的输出。 (C)解码器输出 解码器的输出结构与编码器的相似。 第六章 深度循环神经网络 6.7 Transformer (3) Linear与Softmax层 decoder最后会输出一个实数向量。Linear与Softmax层的作用就是将这个实数向量变换成一个单词。 线性变换层是一个简单的全连接神经网络,它可以把解码组件产生的向量投射到一个比它大得多的、被称作对数几率(logits)的向量里。 如果模型要从训练集中学习一万个不同的英语单词,那么对数几率向量为一万个单元格长度的向量,每个单元格对应某一个单词的分数。 接下来的Softmax