|
- 如何最简单、通俗地理解Transformer? - 知乎
Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点让Transformer自2017年发布以来,持续受到关注,基于Transformer的工作和应用层出不穷。
- 如何从浅入深理解 Transformer? - 知乎
Transformer升级之路:12、无限外推的ReRoPE? Transformer升级之路:13、逆用Leaky ReRoPE Transformer升级之路:14、当HWFA遇见ReRoPE 预训练一下,Transformer的长序列成绩还能涨不少! VQ一下Key,Transformer的复杂度就变成线性了 Transformer升级之路:15、Key归一化助力长度外推
- MoE和transformer有什么区别和联系? - 知乎
01 Transformer:像“万能翻译官”的神经网络 Transformer 是当今AI大模型(如ChatGPT)的核心架构,最初用于机器翻译,核心是自注意力机制(Self-Attention),能同时分析句子中所有词的关系,而非像传统RNN那样逐词处理。 核心特点: 并行计算:同时处理所有词
- transformer主要用在哪些领域和哪些研究方向? - 知乎
经过近6年的发展,Transformer被广泛应用于各个主流深度学习研究领域,横扫CV、NLP等领域,目前大火的AIGC的典型应用诸如ChatGPT、DELLE·2等应用背后的基础模型就是Transformer结构。 关于Transformer的详细介绍可以参考illustrated-transformer和annotated-transformer,这里不再赘述。
- 为什么我还是无法理解transformer? - 知乎
7 Transformer 的发展 Transformer架构自从发明之后,沿着几条道路快速发展,它模型分Encoder和Decoder两个部分,怎么做成实际的模型是个排列组合问题:只选择Encoder,只选择Decoder,或者两者都选取,后面的问题就是多少层叠加的问题了。
- 为什么transformer在图像的效果比CNN好? - 知乎
通用的解释就是Transformer能学到远距离依赖,CNN只能学到局部特征。但是实际情况并不能一概而论。 就我自己的实验来说,我最近复现了接近30个分类或分割模型。 在分割任务上,基于Transformer的模型确实比基于卷积的强一些。 但是分类任务里,很多Transformer模型不一定比densenet强。而比densenet强的
- 为什么Transformer适合做多模态任务? - 知乎
这个问题其实应该从两个方面回答: 第一个是任务方面,之前的多模态任务是怎么做的,为什么现在大家会转向Transformer做多模态任务? 在Transformer,特别是 Vision Transformer 出来打破CV和NLP的模型壁垒之前,CV的主要模型是CNN,NLP的主要模型是RNN,那个时代的多模态任务,主要就是通过CNN拿到图像的
- 如何理解 Transformer 中的自注意力机制? - 知乎
0x00 概述 Transformer的核心所在或者说与其他架构的关键区别之处是自注意力机制,其允许模型在处理一个句子时,考虑句子中每个单词与其他所有单词的依赖关系,并使用这些信息来捕捉句子的内部结构和表示,最终计算单词之间的关联度(权重)。
|
|
|