百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

通过7个版本的attention的变形,搞懂transformer多头注意力机制

bigegpt 2024-09-02 16:28 3 浏览

——1——

Transformer模型架构

Transformer 由两个独立的模块组成,即Encoder和Decoder

Encoder

编码器是一个堆叠N个相同的层。每层由两个子层组成,第一个是多头自注意力机制,第二个是简单的全连接的前馈神经网络。论文的作者还使用了ADD&Norm的残差连接与归一化操作

当然,输入数据需要经过word-embedding与位置编码后,然后再传递给多头注意力机制,当然关于位置编码与详细的word-embedding操作可以参考如下动画视频教程,使用矩阵变化动画来讲解位置编码与word-embedding

Decoder

解码器层与编码器类似,都是堆叠N个相同的层,但是解码器每层有三个子层组成

除了编码器层中的两个子层之外,解码器还插入了第三个子层,该子层对编码器的输出执行多头注意力机制,当然解码器还有三个ADD与Norm的残差与归一化层,这里需要注意一下,其解码器的输入的第一个子层是带掩码的多头注意力机制,为何需要掩码,掩码如何操作?pad mask与sequence mask的作用是什么?如下视频教程都有详细的讲解

其输入部分与编码器一致,都是需要word-embedding与位置编码后传递给多头注意力机制

编码器和解码器是围绕一个称为多头注意力模块的中心部分构建的。它将 Transformers 置于深度学习食物链的顶端。一经发布,Transformers模型便横扫了很多大的模型,特别是NLP领域大杀四方。

其实,在Transformers发布前,也有类似的模型结构,我们来演变一下Transformer模型的注意力机制

——2——

Transformers模型版本1

为了直觉的理解注意力,我们从输入矩阵X与查询矩阵Q开始,我们来计算输入矩阵与查询矩阵的相似度,得到相似度分数后,我们将输入矩阵转换为输出向量,输出向量是输入矩阵的加权求和。直观地说,加权求和得到的矩阵应该比原始矩阵的信息更丰富,其示意图如下

输入:

相似函数 fatt是一个**前馈网络**。前馈网络接受Q与X矩阵,并将它们都投影到维度DE.

输出:

——3——

Transformers模型版本2

版本2的改进点是使用点积操作来替换前馈神经网络,事实证明,这是十分有效的,并且效果明显

输入:

相似函数:点积操作

输出

——4——

Transformers模型版本3

版本三的改进,也是transformer模型提出的一个概念,缩放点积,而不是正常的点积操作,这里的点积与标准的点积操作完全一致,只是作者提出了一个缩放系数的概念,缩放比例一般是1/根号下dim.

注意力机制的问题:

梯度消失问题:神经网络的权重与损失的梯度成比例地更新。问题是,在某些情况下,梯度会很小,有效地阻止了权重更新。这反过来又阻止了神经网络的训练。这通常被称为梯度消失问题。

Unnormalized softmax:考虑一个正态分布。分布的 softmax 值在很大程度上取决于它的标准差。由于标准偏差很大,softmax 只存在一个峰值,其他全部为0。我们可以随机生成一些数据来可视化这个问题

import torch

import numpy as np

import torch.nn as nn

import matplotlib.pyplot as plt

a = np.random.normal(0,100,size=(20000))

plt.hist(a)

plt.show()

创建均值为 0、标准差为 100 的正态分布

import torch

import numpy as np

import torch.nn as nn

import matplotlib.pyplot as plt

#import tensorflow as tf

a = np.random.normal(0,100,size=(20000))

#plt.hist(a)

#plt.show()

#attn = tf.nn.softmax(a)

attn = nn.Softmax(dim=-1)(torch.from_numpy(a))

plt.plot(attn)

plt.show()

导致梯度消失的非归一化 softmax

我们可以考虑使用logits的方法来进行softmax操作,这样我们就得到了数据的交叉熵,softmax的错误输出,将会被反向传播,那么就跟我们以上得到的数据,经过softmax后,只存在一个数据为1的值,其他地方全部是0 ,那么数据为1的值会被神经网络反向传播,而其他地方的数据并不会得到训练,这样就产生了梯度消失的问题

解决方案

为了解决由于未归一化的 softmax 导致的梯度消失问题,我们需要找到一种方法来获得更好的 softmax 输出。事实证明,分布的标准差很大程度上影响了 softmax 输出,我们依然初始化一个数据

import torch

import numpy as np

import torch.nn as nn

import matplotlib.pyplot as plt

#import tensorflow as tf

a = np.random.normal(0,100,size=(20000))

b = a/100

plt.hist(a)

plt.show()

plt.hist(b)

plt.show()

#plt.show()

#attn = tf.nn.softmax(a)

创建一个均值为 0,标准差为 100 的正态分布。并将标准差缩放到1。

2种分布的直方图计划完全一致,只是数据的标准差一个是100,另一个是1,那么我们来看一下2种数据的softmax值

attn = nn.Softmax(dim=-1)(torch.from_numpy(a))

plt.plot(attn)

plt.show()

attn_b = nn.Softmax(dim=-1)(torch.from_numpy(b))

plt.plot(attn_b)

plt.show()

将 softmax 应用于两个分布

可以看到,经过缩放的softmax的分布比较分散,符合神经网络训练的要求,此时便可以让梯度进行反向传播,避免模型出现崩溃问题,这就是为什么transformer使用缩放点积。

输入

相似函数:点积

——5——

Transformers模型版本4

前面的版本只有一个Q查询向量,我们把此向量扩展到多个查询向量,我们来计算输入矩阵与多个查询向量的相似性

输入

相似函数点积

输出:

——6——

Transformers模型版本5,交叉注意力

为了建立交叉注意力,我们做了一些改变。这些更改特定于输入矩阵。我们已经知道,注意力需要一个输入矩阵和一个查询矩阵。假设我们将输入矩阵投影成一对矩阵,即K矩阵和V矩阵。这样做是为了解耦复杂性。输入矩阵现在可以有一个更好的投影矩阵,负责建立注意力权重和更好的输出矩阵。Cross Attention的可视化如下

输入

相似函数点积

输出

——7——

Transformers模型版本6,self-attention,自注意力机制

通过交叉注意力机制,我们了解到注意力模块中有三个矩阵:Q K V。K和V矩阵是输入矩阵的投影版本。如果Q矩阵也是从输入中投影出来的呢?

这就是我们所说的自注意力机制。它构成了 Transformer 模型的架构基础。Self-Attention 的可视化,从这里就便是我们重点讲解的transformer模型的自注意力机制了,如何来做注意力机制

输入:

相似函数:点积

输出

——8——

Transformers模型版本7,多头注意力机制

这是transformer模型作者提出的终极版本,作者希望引入多个注意力来进一步提取输入矩阵的不同维度信息,这就意味着QKV矩阵会被拆分为多个头进行投影,最后再把每个头的注意力合并在一起

相信看到这里,你对注意力以及多头注意力有了清晰的认识,以上的每个版本的注意力,都在上一版本的基础上进行了改进

版本 1: 从基线开始,其中使用前馈网络计算输入矩阵和查询矩阵之间的相似度函数。

版本 2 ,我们将前馈网络换成了简单的点积。

版本3 由于梯度消失和非归一化概率分布等问题,提出了缩放点积的概念

版本 4 ,我们使用多个查询向量Q,而不仅仅是一个。

版本 5 ,我们通过将输入向量分解为K和V矩阵来构建交叉注意力

版中6,我们也从输入矩阵中获取查询向量Q,然后计算注意力,称之为自注意力机制。

版本 7 QKV三个矩阵被拆分成多个头,来计算注意力,便是我们说的多头注意力机制

相关推荐

一条命令搞定pip国内镜像源设置(pip install 指定镜像)

玩python的同学想必没有不用pip的吧,pip是python包管理工具,和Nodejs的npm、Java的maven类似,这些依靠开源力量建立起的庞大软件库极大提高了开发的效率,不过默认pytho...

Cadence Allegro在PCB中手动或者自动添加差分对属性

设计PCB过程中,若设计中有差分对信号,则需要将是差分的2个信号设置为差分对,设置差分对有2种方式:手动添加及自动添加一、手动添加差分对:1、点击Setup-Constraints-Constrain...

合亿 Gutab 三防|车载工业平板功能介绍,车载工业平板厂家推荐

在商用车队管理迈向智能化、特种车辆作业追求高效化的今天,车载工业平板早已突破传统“车载导航”的单一功能,成为连接车辆、司机与云端管理的核心枢纽。从物流运输的实时调度中枢,到矿山开采的无人驾驶控制器,再...

「探长分享-黑匣子」本田冠道 2020款

【品牌】探长360汽车黑匣子【产品型号】2TPro【安装车型】本田冠道2020款【功能特点】360全景安全辅助,行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,震动监控,一步标...

「探长分享-黑匣子」奥迪A6L 2019款

【品牌】探长360汽车黑匣子【产品型号】2TPro【安装车型】奥迪A6L2019款【功能特点】360全景安全辅助,行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,震动监控,一步...

探长360全景案例分享:奥迪Q7 2011款360全景效果展示

【品牌】DCT360汽车黑匣子【产品型号】3TPro【安装车型】奥迪Q72011款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小时停...

「探长分享-黑匣子」保时捷Cayenne 2015款

【品牌】探长360汽车黑匣子【产品型号】4TPro【安装车型】保时捷Cayenne2015款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,...

苍蝇再小也是肉,变态电路的大阳巧客S2差点难死大神

这台大阳巧客S2电动四轮车是我家第二台四轮俱全的篷车!哈哈!大阳巧客S2配置4.5Kw永磁同步电机,SVPWM矢量控制正弦波系统,车辆在加速、爬坡上性能有提升,效率高,操控灵敏。这台车前段时间刚更换了...

「探长分享-黑匣子」奥迪Q5L 2020款

360汽车黑匣子【产品型号】4TPro【安装车型】奥迪Q5L2020款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小时停车监控,一秒一...

「探长分享-黑匣子」丰田兰德酷路泽 2016款

【品牌】探长360汽车黑匣子【产品型号】3TPro【安装车型】丰田兰德酷路泽2016款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小...

驾驶室盲区是酿成重卡事故主因?后视系统:这个锅我不背

小时候家中长辈常常提醒:离大货车远一点!司机根本看不到你!早期的货车可能真的存在驾驶盲区,比如车辆正下方,因驾驶座过高,恰好是司机看不到的视野盲区。而如今的重卡在环视系统上已经非常完善,是否还存在驾驶...

前后双录,360 G580行车记录仪(360行车记录仪g580s)

相信每一位车主都会为爱车安装行车记录仪,行车记录仪的作用不仅能为交通事故还原证据,还能防止碰瓷。传统的单镜头行车记录仪只能拍摄车头方向的行车画面,如果遇到后方车辆故意碰瓷的事故时,没有监控和后摄画面则...

海康威视同轴录像机怎么使用,海康XVR配置说明

海康威视同轴录像机支持模拟、同轴以及数字IP摄像机接入,因此在使用多种类型摄像机、老久监控项目改造等场景广泛使用。首先,新录像机第一次使用需要设置管理密码激活,密码需由8-16位数字、小写字母、大写...

亿道三防2代工业级车载平板电脑震撼登场,农机矿车专用

亿道三防近日推出2024年全新2代车载平板电脑V12R,引领多项技术创新和升级,为农机、矿车等车载领域带来了超越期待与想象的震撼体验。V12R是一款从里到外,性能、功能全线拉满的工业级车载平板电脑!拥...

分析神州十八号返回舱内的摄像机最有可能是什么类型的摄像头

有没有发现,神州十八号返回舱内摄像机的图像虽然清晰度不是很高,但是画面非常干净,没有一点干扰,几乎看不到噪点。图像清晰度不高不太可能是镜头原因,很可能是图像传感器的分辨率比较低的原因,图像传感器分辨率...