|
- 一文了解Transformer全貌(图解Transformer) - 知乎
网络上关于Transformer的解析文章非常大,但本文将力求用浅显易懂的语言,为大家深入解析Transformer的技术内核。 前言 Transformer是谷歌在2017年的论文《Attention Is All You Need》中提出的,用于NLP的各项任务,现在是谷歌云TPU推荐的参考模型。
- 如何最简单、通俗地理解Transformer? - 知乎
Transformer 与 RNN 不同,可以比较好地并行训练。 Transformer 本身是不能利用单词的顺序信息的,因此需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。 Transformer 的重点是 Self-Attention 结构,其中用到的 Q, K, V矩阵通过输出进行线性变换得到。
- Transformer模型详解(图解最完整版) - 知乎
Transformer 与 RNN 不同,可以比较好地并行训练。 Transformer 本身是不能利用单词的顺序信息的,因此需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。 Transformer 的重点是 Self-Attention 结构,其中用到的 Q, K, V矩阵通过输出进行线性变换得到。
- MoE和transformer有什么区别和联系? - 知乎
01 Transformer:像“万能翻译官”的神经网络 Transformer 是当今AI大模型(如ChatGPT)的核心架构,最初用于机器翻译,核心是自注意力机制(Self-Attention),能同时分析句子中所有词的关系,而非像传统RNN那样逐词处理。
- 挑战 Transformer:全新架构 Mamba 详解 - 知乎
屹立不倒的 Transformer 迎来了一个强劲竞争者。 自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。
- 如何从浅入深理解 Transformer? - 知乎
transformer解决的问题就是,过往的时间序列处理往往无法并行的问题。 注意 :基于时间并不意味着处理对象一定要像时间一样有 时间轴 ,比如这里的处理对象就是文章,那么其实这里的t表示的就是文字的序。
- mamba替换transformer? - 知乎
7 4 将Transformer的新兴技术应用于Mamba Transformer作为主导的骨干,已经引领AI社区开发了许多旨在提高基于注意力模型性能的独特工具。幸运的是,通过SSMs和注意力的连接,Mamba-2[28]引入的SSD框架允许我们为Transformer和Mamba开发共享的技术和库。
- 如何评价 Meta 新论文 Transformers without Normalization? - 知乎
再后来,transformer成为主流,nlp那边用layer norm居多,所以transformer继承了它,至于为什么不用BN而用LN,之前知乎一个问题大佬们都有很多讨论了:transformer 为什么使用 layer normalization,而不是其他的归一化方法? 。
|
|
|