Transformer 的新里程碑诞生6 年开创性工作被引用近80,000-东辰网

原标题：《变形金刚新里程碑！开创性工作诞生6年近8万次引用，没拿下NeurIPS最佳论文，却彻底改变了AI世界

变形金刚，6岁！ 2017年基础著作Attention is All You Need问世，至今已获得近8万次引用。这个王者结构还能玩多久？

2017年6月12日，Attention is All You Need，一声惊雷，大名鼎鼎的变形金刚诞生了。

它的出现不仅改变了NLP的世界，成为自然语言领域的主流模型，还成功跨界CV，给AI世界带来意想不到的惊喜。

到今天，Transformer 已经诞生6 年了。而这篇论文被引用高达77926次。

Nvidia科学家Jim Fan对这部大作做了深度评测总结：

1. Transformer 没有发明注意力，它把注意力推到了极致。

第一篇注意力论文发表于3 年前（2014 年）。

这篇论文来自Yoshua Bengio的实验室，题目不起眼《Neural Machine Translation by Jointly Learning to Align and Translate》。

它是“RNN + context vector”（即attention）的组合。

许多人可能没有听说过这篇论文，但它是NLP 中最伟大的里程碑之一，被引用了29K 次（相比之下，Transformer 的引用次数为77K）。

2. Transformer 和最初的Attention 论文都没有谈到通用顺序计算机。

相反，两者都解决了一个狭窄而具体的问题：机器翻译。值得注意的是，AGI 可以（有一天）追溯到不起眼的谷歌翻译。

3. Transformer发表于全球顶级人工智能会议之一的NeurIPS 2017。然而，它连口头报告都没有，更别说获奖了。

那年的NeurIPS 有3 篇最佳论文。截至今天，它们总共被引用了529 次。

经典的Transformer 在NeurIPS 2017 上并没有引起太多关注。

对此，吉姆范认为，一部优秀的作品在没有产生影响之前，人们是很难认可的。

我不会因为获奖论文而责怪NeurIPS 委员会——，它仍然是一流的，但没有那么有影响力。一个反例是ResNet。

He Kaiming 等人获得了CVPR 2016 的最佳论文。这篇论文是当之无愧的，也得到了应有的认可。

2017 年，该领域最聪明的人中几乎没有人能预测到今天法学硕士的革命性规模。就像1980 年代一样，很少有人能预见到2012 年以来的深度学习海啸。

OpenAI 科学家Andrej Karpathy 对Jim Fan 的观点2总结很感兴趣，并说，

介绍注意力的论文（@DBahdanau、@kchonyc、Bengio）获得的关注比论文“Attention is All You Need”少1000 倍。从历史上看，这两篇论文都很普通，但有趣的是，这两篇论文恰好都是为机器翻译而开发的。

你只需要关注！在Transformer诞生之前，AI圈内的人多采用基于RNN（Recurrent Neural Network）的Encoder-Decoder结构来完成自然语言处理中的序列翻译。

然而，RNN 及其派生网络最致命的缺点是速度慢。关键问题在于前后隐藏状态的依赖，无法并行化。

变形金刚现在的世界可谓是鼎盛时期，更是让不少研究者开始了追星之旅。

2017 年，8 位谷歌研究人员发表了Attention is All You Need。可以说，这篇论文是NLP领域的一次颠覆。

论文地址：https://arxiv.org/pdf/1706.03762.pdf 完全摒弃递归结构，依靠attention机制，挖掘输入输出关系，进而实现并行计算。

甚至有人问，“有了Transformer框架，RNN能不能完全抛弃？”

JimFan 说Transformer 最初是为了解决翻译问题而设计的，这一点毋庸置疑。

谷歌当年的博客解释说，Transformer 是一种新的语言理解神经网络架构。

文章地址：https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html 具体来说，Transformer由输入、编码器、解码器、输出四部分组成。

输入的字符首先通过Embedding转化为向量，加上位置编码（Positional Encoding）来增加位置信息。

然后，使用多头自注意力和前馈神经网络的“编码器”和“解码器”提取特征，最后输出结果。

如下图所示，Google给出了Transformer如何用于机器翻译的例子。

机器翻译的神经网络

通常包含一个编码器，在读取完句子后生成一个表征。空心圆代表着 Transformer 为每个单词生成的初始表征。

然后，利用自注意力，从所有其他的词中聚合信息，在整个上下文中为每个词产生一个新表征，由实心圆表示。

接着，将这个步骤对所有单词并行重复多次，依次生成新的表征。

同样，解码器的过程与之类似，但每次从左到右生成一个词。它不仅关注其他先前生成的单词，还关注编码器生成的最终表征。

2019 年，谷歌还专门为其申请了专利。

自此，在自然语言处理中，Transformer 逆袭之路颇有王者之风。

归宗溯源，现在各类层出不穷的 GPT（Generative Pre-trained Transformer），都起源于这篇 17 年的论文。

然而，Transformer 燃爆的不仅是 NLP 学术圈。

万能 Transformer：从 NLP 跨到 CV

2017 年的谷歌博客中，研究人员曾对 Transformer 未来应用潜力进行了畅享：

不仅涉及自然语言，还涉及非常不同的输入和输出，如图像和视频。

没错，在 NLP 领域掀起巨浪后，Transformer 又来「踢馆」计算机视觉领域。甚至，当时许多人狂呼 Transformer 又攻下一城。

自 2012 年以来，CNN 已经成为视觉任务的首选架构。

随着越来越高效的结构出现，使用 Transformer 来完成 CV 任务成为了一个新的研究方向，能够降低结构的复杂性，探索可扩展性和训练效率。

2020 年 10 月，谷歌提出的 Vision Transformer (ViT)，不用卷积神经网络（CNN），可以直接用 Transformer 对图像进行分类。

值得一提的是，ViT 性能表现出色，在计算资源减少 4 倍的情况下，超过最先进的 CNN。

紧接着，2021 年，OpenAI 连仍两颗炸弹，发布了基于 Transformer 打造的 DALL-E，还有 CLIP。

这两个模型借助 Transformer 实现了很好的效果。DALL-E 能够根据文字输出稳定的图像。而 CLIP 能够实现图像与文本的分类。

再到后来的 DALL-E 进化版 DALL-E 2，还有 Stable Diffusion，同样基于 Transformer 架构，再次颠覆了 AI 绘画。

以下，便是基于 Transformer 诞生的模型的整条时间线。

由此可见，Transformer 是有多么地能打。

2021 年，当时就连谷歌的研究人员 David Ha 表示，Transformers 是新的 LSTMs。

而他曾在 Transformer 诞生之前，还称 LSTM 就像神经网络中的 AK47。无论我们如何努力用新的东西来取代它，它仍然会在 50 年后被使用。

Transformer 仅用 4 年的时间，打破了这一预言。

新硅谷「七叛徒」

如今，6 年过去了，曾经联手打造出谷歌最强 Transformer 的「变形金刚们」怎么样了？

Jakob Uszkoreit 被公认是 Transformer 架构的主要贡献者。

他在 2021 年中离开了 Google，并共同创立了 Inceptive Labs，致力于使用神经网络设计 mRNA。

到目前为止，他们已经筹集了 2000 万美元，并且团队规模也超过了 20 人。

Ashish Vaswani 在 2021 年底离开 Google，创立了 AdeptAILabs。

可以说，AdeptAILabs 正处在高速发展的阶段。

目前，公司不仅已经筹集了 4.15 亿美元，而且也估值超过了 10 亿美元。

此外，团队规模也刚刚超过了 40 人。

然而，Ashish 却在几个月前离开了 Adept。

在 Transformers 论文中，Niki Parmar 是唯一的女性作者。

她在 2021 年底离开 Google，并和刚刚提到的 Ashish Vaswani 一起，创立了 AdeptAILabs。

不过，Niki 在几个月前也离开了 Adept。

Noam Shazeer 在 Google 工作了 20 年后，于 2021 年底离开了 Google。

随后，他便立刻与自己的朋友 Dan Abitbol 一起，创立了 Character AI。

虽然公司只有大约 20 名员工，但效率却相当之高。

目前，他们已经筹集了近 2 亿美元，并即将跻身独角兽的行列。

Aidan Gomez 在 2019 年 9 月离开了 Google Brain，创立了 CohereAI。

经过 3 年的稳定发展后，公司依然正在扩大规模 ——Cohere 的员工数量最近超过了 180 名。

与此同时，公司筹集到的资金也即将突破 4 亿美元大关。

Lukasz Kaiser 是 TensorFlow 的共同作者人之一，他在 2021 年中离开了 Google，加入了 OpenAI。

Illia Polosukhin 在 2017 年 2 月离开了 Google，于 2017 年 6 月创立了 NEAR Protocol。

目前，NEAR 估值约为 20 亿美元。

与此同时，公司已经筹集了约 3.75 亿美元，并进行了大量的二次融资。

现在，只有 Llion Jones 还在谷歌工作。

在论文的贡献方面，他风趣地调侃道：「自己最大的意义在于 —— 起标题。」

网友热评

走到现在，回看 Transformer，还是会引发不少网友的思考。

AI 中的开创性论文。

马库斯表示，这有点像波特兰开拓者队对迈克尔・乔丹的放弃。

这件事说明了，即使在这样的一级研究水平上，也很难预测哪篇论文会在该领域产生何种程度的影响。

这个故事告诉我们，一篇研究文章的真正价值是以一种长期的方式体现出来的。

哇，时间过得真快！令人惊讶的是，这个模型突破了注意力的极限，彻底改变了 NLP。

在我攻读博士期间，我的导师 @WenmeiHwu 总是教育我们，最有影响力的论文永远不会获得最佳论文奖或任何认可，但随着时间的推移，它们最终会改变世界。我们不应该为奖项而奋斗，而应该专注于有影响力的研究！

参考资料：

https://twitter.com/DrJimFan/status/1668287791200108544

https://twitter.com/karpathy/status/1668302116576976906

https://twitter.com/JosephJacks_/status/1647328379266551808

本文来自微信公众号：新智元（ID：AI_era）

本文由网络整理发布，不代表东辰网立场，转载联系作者并注明出处：https://www.ktwxcd.com/sszx/253250.html

Transformer 的新里程碑 诞生6 年 开创性工作被引用近80,000

相关推荐

联系我们

Transformer 的新里程碑诞生6 年开创性工作被引用近80,000