赞
踩
Transformer默认是512,在 线性Transformer应该不是你要等的那个模型 中强调对于base版来说,当序列长度不超过1536时,Transformer的复杂度都是近乎线性的;当序列长度超过1536时,Transformer的计算量逐渐以Attention为主,复杂度慢慢趋于二次方,直到长度超过4608,才真正以二次项为主。 今天来梳理下真有更长的Transformer如何做的一些方法:
来自于Generating Long Sequences with Sparse Transformers,以下转载自https://kexue.fm/archives/6853#Sparse%20Self%20Attention:
来自于 https://arxiv.org/abs/2004.05150
也就是说,从下图实现来看Longformer和Sparse Transformer的思路是一样的,只是这篇的实验更加充分
这篇文章有两张亮炸眼的图:
然后看改进,其实和LongTransformer、Big Bird是一脉相承的,作者管这里叫Dilated Attention
来自于https://arxiv.org/abs/2001.04451,以下转载自 https://kexue.fm/archives/7546
Reformer也是有代表性的改进工作,它将Attention的复杂度降到了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。