百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

论文荐读 | NLP之Attention从入门到精通

bigegpt 2024-09-02 16:28 3 浏览

关注微信公众号:人工智能前沿讲习,
重磅干货,第一时间送达


Sequence to Sequence Learning with Neural Networks

seq2seq是最先进NMT(神经机器翻译)的奠基之作,不围观一下?其核心思想是用一个LSTM将可变长度的输入序列编码为固定长度的隐特征表示,另一个LSTM将此隐特征再解码为可变长度的输出序列。

论文链接

https://arxiv.org/pdf/1409.3215.pdf


Neural Machine Translation by Jointly Learning to Align andTranslate

没有attention的seq2seq就像没有翅膀的鸟,一双翅膀送给你。在seq2seq模型中,源序列的所有信息都解码到最后一个时刻的隐含层,造成了信息瓶颈。在加入attention机制之后,decoder部分利用了encoder部分的所有输入信息(加权求和)。原来输出的梯度只能从最后一个时刻的隐含状态向更早时刻传导,有了attention机制之后,梯度能直接传导到输入部分,降低的梯度消失的风险。当然,效果也确实比原始seq2seq好多了。

论文链接

https://arxiv.org/pdf/1409.0473.pdf

博客链接

https://distill.pub/2016/augmented-rnns/


SequenceTransduction with Recurrent Neural Networks

seq2seq的输出部分只知道softmax?赶紧学习beam search的新姿势,不然也不好意思说自己懂NLP,是吧?

论文链接

https://arxiv.org/pdf/1211.3711.pdf


Massive Exploration of Neural Machine Translation

本文做好多个实验,用GPU总共跑25w个小时!!得到相当多的实验性靠谱结论,1)数据预处理很重要。2)嵌入空间的维数并非越大越好,在作者的实验中2048维的总体效果最好。2)LSTM的效果好于GRU。3)seq2seq模型中,encoder的深度多于2层不见得有好处,太深的话反而会使训练发散。4)双向LSTM好于单向LSTM。还有其它好处祥见论文啦~

论文链接

https://arxiv.org/pdf/1703.03906.pdf


a Deep Reinforced Model for Abstractive Summarization

之前的attention太naive啦,赶紧学两个fancy的新attention机制去装逼~_^。对于长文本的总结任务,一般的seq2seq模型经常出现重复和不一致的词组。为此,论文在encoder部分使用了intra-temporal attention,又首次在decoder部分使用了intra-attention(self-attention),值得注意的是,它使用了不同于最初的attention形式,且进行了新颖的规范化,以降低以前时刻的比重。此外,在以最小化负对数似然函数训练seq2seq模型时,往往还会存在exposure bias的问题----训练的时候有下一个字符的监督信息,而测试时没有这种监督信息。为此,论文还将最大似然交叉熵损失和策略梯度强化学习中reward结合起来以缓解这个问题。

论文链接

https://arxiv.org/abs/1705.04304


Get To ThePoint: Summarization with Pointer-Generator Networks

attention机制玩转了,再学个coverage机制耍耍呗?!对文本总结任务的seq2seq模型,本文的亮点作者在attention机制的基础上又使用了coverage机制,以解决相同词组重复出现问题。此外,论文还提出了pointer-generator网络,通过pointer从源文本中复制词句,辅助提升其准确性;通过generator产生新词,就像原来的seq2seq一样。

论文链接

https://arxiv.org/abs/1704.04368

博客链接

http://www.abigailsee.com/2017/04/16/taming-rnns-for-better-summarization.html

代码链接

www.github.com/abisee/pointer-generator


BlackOut: Speeding up Recurrent Neural Network Language Models With Very Large Vocabularies

softmax输出节点巨多咋办??看这篇论文呗!!论文提出BlackOut----一个近似算法,用于高效训练大型递归神经网络语言模型 (RNNLMs),其高效体现在训练速度快、效果好,大型体现在百万级的词汇量(即百万级的分类,所以适用于任何有大量softmax输出结点的网络,包括CV领域)。BlackOut的核心在于将判别损失函数加权采样策略结合起来,极大提高了稳定性、采样效率、收敛速度。具体来说,作者将softmax和cross entropy的训练等效表示为最大似然(maximum likelihood)的形式,同时按照unigram分布只采样部分输出节点(通常是所有输出结点的1/200!)。当然之所以这样做是因为对于百万级别的分类任务,其计算的瓶颈在softmax层。

论文链接

https://arxiv.org/abs/1511.06909

代码链接

https://github.com/IntelLabs/rnnlm


Attention Is All You Need

没有RNN的NMT模型不拜读一下??论文提出Transformer模型(作者可能是变形金刚迷~),其效果比带RNN的NMT模型质量更好、可并行化(重点!)、速度快。而只利用了Attention机制!牛皮不是吹的,火车不是推的,GitHub上3900 star也不盖的~_^

论文链接

https://arxiv.org/abs/1706.03762

代码链接

https://github.com/tensorflow/tensor2tensor


LayerNormalization

还记得Batch Normalization吗?Layer Normalization算是其中一种变体。BN是对Batch这一维计算统计量,LN是对当前层所有神经元计算统计量。之所以这么做的动机是基于BN对RNN这时序结构不友好。而我推荐这篇论文的最大理由,其实是因为上篇推荐论文里用到了:)

论文链接

https://arxiv.org/pdf/1607.06450.pdf

相关推荐

一条命令搞定pip国内镜像源设置(pip install 指定镜像)

玩python的同学想必没有不用pip的吧,pip是python包管理工具,和Nodejs的npm、Java的maven类似,这些依靠开源力量建立起的庞大软件库极大提高了开发的效率,不过默认pytho...

Cadence Allegro在PCB中手动或者自动添加差分对属性

设计PCB过程中,若设计中有差分对信号,则需要将是差分的2个信号设置为差分对,设置差分对有2种方式:手动添加及自动添加一、手动添加差分对:1、点击Setup-Constraints-Constrain...

合亿 Gutab 三防|车载工业平板功能介绍,车载工业平板厂家推荐

在商用车队管理迈向智能化、特种车辆作业追求高效化的今天,车载工业平板早已突破传统“车载导航”的单一功能,成为连接车辆、司机与云端管理的核心枢纽。从物流运输的实时调度中枢,到矿山开采的无人驾驶控制器,再...

「探长分享-黑匣子」本田冠道 2020款

【品牌】探长360汽车黑匣子【产品型号】2TPro【安装车型】本田冠道2020款【功能特点】360全景安全辅助,行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,震动监控,一步标...

「探长分享-黑匣子」奥迪A6L 2019款

【品牌】探长360汽车黑匣子【产品型号】2TPro【安装车型】奥迪A6L2019款【功能特点】360全景安全辅助,行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,震动监控,一步...

探长360全景案例分享:奥迪Q7 2011款360全景效果展示

【品牌】DCT360汽车黑匣子【产品型号】3TPro【安装车型】奥迪Q72011款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小时停...

「探长分享-黑匣子」保时捷Cayenne 2015款

【品牌】探长360汽车黑匣子【产品型号】4TPro【安装车型】保时捷Cayenne2015款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,...

苍蝇再小也是肉,变态电路的大阳巧客S2差点难死大神

这台大阳巧客S2电动四轮车是我家第二台四轮俱全的篷车!哈哈!大阳巧客S2配置4.5Kw永磁同步电机,SVPWM矢量控制正弦波系统,车辆在加速、爬坡上性能有提升,效率高,操控灵敏。这台车前段时间刚更换了...

「探长分享-黑匣子」奥迪Q5L 2020款

360汽车黑匣子【产品型号】4TPro【安装车型】奥迪Q5L2020款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小时停车监控,一秒一...

「探长分享-黑匣子」丰田兰德酷路泽 2016款

【品牌】探长360汽车黑匣子【产品型号】3TPro【安装车型】丰田兰德酷路泽2016款【功能特点】360全景安全辅助,四路行车录像,极致高清摄像头,模拟/数字高清/AHD多种信号格式输出,24小...

驾驶室盲区是酿成重卡事故主因?后视系统:这个锅我不背

小时候家中长辈常常提醒:离大货车远一点!司机根本看不到你!早期的货车可能真的存在驾驶盲区,比如车辆正下方,因驾驶座过高,恰好是司机看不到的视野盲区。而如今的重卡在环视系统上已经非常完善,是否还存在驾驶...

前后双录,360 G580行车记录仪(360行车记录仪g580s)

相信每一位车主都会为爱车安装行车记录仪,行车记录仪的作用不仅能为交通事故还原证据,还能防止碰瓷。传统的单镜头行车记录仪只能拍摄车头方向的行车画面,如果遇到后方车辆故意碰瓷的事故时,没有监控和后摄画面则...

海康威视同轴录像机怎么使用,海康XVR配置说明

海康威视同轴录像机支持模拟、同轴以及数字IP摄像机接入,因此在使用多种类型摄像机、老久监控项目改造等场景广泛使用。首先,新录像机第一次使用需要设置管理密码激活,密码需由8-16位数字、小写字母、大写...

亿道三防2代工业级车载平板电脑震撼登场,农机矿车专用

亿道三防近日推出2024年全新2代车载平板电脑V12R,引领多项技术创新和升级,为农机、矿车等车载领域带来了超越期待与想象的震撼体验。V12R是一款从里到外,性能、功能全线拉满的工业级车载平板电脑!拥...

分析神州十八号返回舱内的摄像机最有可能是什么类型的摄像头

有没有发现,神州十八号返回舱内摄像机的图像虽然清晰度不是很高,但是画面非常干净,没有一点干扰,几乎看不到噪点。图像清晰度不高不太可能是镜头原因,很可能是图像传感器的分辨率比较低的原因,图像传感器分辨率...