Transformer y el mecanismo de atención: el motor central de los grandes modelos

En 2017, Google presentó la arquitectura Transformer en el paper "Attention Is All You Need", cambiando por completo las reglas del juego del procesamiento del lenguaje natural. Abandonó las redes neuronales recurrentes (RNN) tradicionales y, apoyándose únicamente en el mecanismo de atención, logró un rendimiento superior y una mayor eficiencia de entrenamiento. Hoy en día, prácticamente todos los grandes modelos de lenguaje —GPT, BERT, T5, LLaMA— se construyen sobre la base de Transformer.

🔄

RNN 的困境

顺序处理，长距离依赖衰减

⚡

Transformer 突破

并行计算，全局注意力

🎯

注意力机制

动态关注重要信息

🚀

大模型基石

GPT、BERT 的核心架构

1. El dilema de las RNN y el avance de Transformer

Antes de la aparición de Transformer, el método dominante para procesar datos secuenciales (como texto, voz) eran las redes neuronales recurrentes (RNN) y sus variantes LSTM, GRU. Estos modelos procesaban los elementos de la secuencia uno por uno mediante una estructura recurrente, manteniendo un estado oculto para recordar la información histórica.

1.1 Los tres defectos fatales de las RNN

Dependencia secuencial, imposible paralelizar: las RNN deben esperar a que se complete el cálculo del paso temporal anterior para procesar la siguiente palabra. Esto hace que el entrenamiento sea extremadamente lento y no pueda aprovechar la capacidad de computación paralela de las GPUs modernas.

Decaimiento de dependencias a larga distancia: incluso las LSTM mejoradas, al procesar textos largos, van "olvidando" gradualmente la información temprana. Por ejemplo, en un artículo de 500 palabras, al modelo le cuesta recordar la información clave mencionada al principio.

Desvanecimiento/explosión del gradiente: durante la retropropagación, el gradiente debe transmitirse capa por capa a lo largo de los pasos temporales, lo que fácilmente provoca desvanecimiento o explosión del gradiente, resultando en un entrenamiento inestable.

1.2 El avance revolucionario de Transformer

Transformer, mediante el mecanismo de auto-atención (Self-Attention), permite que el modelo pueda "ver de un vistazo" toda la secuencia, calculando directamente la relación entre dos posiciones cualesquiera sin necesidad de transmitir información paso a paso.

RNN / LSTM

顺序处理：词1 → 词2 → 词3

❌ 长距离依赖衰减

❌ 无法并行训练

Transformer
并行处理：所有词同时计算
✅ 全局注意力
✅ 高效并行

Ventajas principales de Transformer

Computación paralela: la atención de todas las posiciones puede calcularse simultáneamente, aumentando la velocidad de entrenamiento decenas de veces
Visión global: captura directamente dependencias a larga distancia, sin limitación por la longitud de la secuencia
Escalabilidad: arquitectura simple y unificada, fácil de apilar redes más profundas

2. Arquitectura completa de Transformer: del conjunto al detalle

La arquitectura completa de Transformer consta de dos partes: el codificador (Encoder) y el decodificador (Decoder), responsables respectivamente de comprender la entrada y generar la salida.

Encoder（编码器）

× N 层

Multi-Head Self-Attention

捕获输入序列内部依赖

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输入

Token Embedding + Positional Encoding

Decoder（解码器）

输出

Linear + Softmax → 概率分布

× N 层

Masked Self-Attention

只看当前位置之前的词

Add & Norm

Cross-Attention

关注 Encoder 的输出

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输出（移位）

Token Embedding + Positional Encoding

2.1 El codificador (Encoder)

Tomemos la frase "el saldo de la cuenta bancaria es insuficiente". Cuando el modelo procesa la palabra "saldo", calcula automáticamente su relevancia con otras palabras:

"saldo" está altamente relacionado con "cuenta" (0.35)
"saldo" está moderadamente relacionado con "bancaria" (0.20)
"saldo" tiene baja relevancia con palabras funcionales como "de", "la" (0.05-0.10)

Esta relevancia no está definida manualmente, sino que el modelo la aprende automáticamente a partir de grandes cantidades de datos.

自注意力示例：「他」关注「小明」

小明把苹果给了他的母亲

小明

65%

把

苹果

10%

给了

10%

他

的

母亲

「他」把 65% 注意力投向「小明」，识别代词指代关系

2.2 El proceso de cálculo de la atención

El mecanismo de auto-atención se implementa mediante tres pasos clave:

Generar vectores Q, K, V: cada palabra pasa por tres transformaciones lineales diferentes, generando los vectores Query (consulta), Key (clave) y Value (valor)
Calcular los pesos de atención: se calcula el producto escalar de Query con todos los Key, obteniendo puntuaciones de similitud
Suma ponderada: se ponderan los vectores Value con los pesos de atención para obtener la salida final

3. Query, Key, Value: los tres mosqueteros de la atención

El mecanismo de atención de Transformer toma prestada la idea de la recuperación de información, asignando cada palabra a tres espacios vectoriales diferentes.

3.1 El rol de los tres vectores

Query (consulta): representa "qué quiero encontrar". La intención de consulta de la palabra actual, usada para emparejar con los Key de otras palabras.

Key (clave): representa "qué soy". El identificador de características de cada palabra, usado para ser recuperado por los Query.

Value (valor): representa "cuál es mi contenido". La información real a transmitir, ponderada según los pesos de atención.

La genialidad de este diseño está en que el cálculo de similitud (Q·K) y la transmisión de información (V) están desacoplados. El modelo puede aprender que "qué palabras deben recibir atención" y "qué información extraer tras prestar atención" son dos problemas independientes.

🔍

Query

我想找什么

🔑

Key

我是什么

💎

Value

我的内容

Attention(Q, K, V) = softmax(QK^T / √d_k) V

3.2 Fórmula de cálculo de la atención

La fórmula completa del cálculo de atención es:

Attention(Q, K, V) = softmax(QK^T / √d_k) V

Donde:

QK^T: calcula el producto escalar de Query y Key, obteniendo la matriz de similitud
√d_k: factor de escala, evita que los valores del producto escalar sean demasiado grandes y causen desvanecimiento del gradiente en softmax
softmax: convierte la similitud en una distribución de probabilidad (pesos de atención)
Finalmente se multiplica por V: pondera los Value con los pesos de atención

4. Atención multi-cabeza: entender la semántica desde múltiples perspectivas

Una sola cabeza de atención solo puede capturar un tipo de relación de dependencia. Para que el modelo entienda las frases desde múltiples ángulos, Transformer introduce la atención multi-cabeza (Multi-Head Attention).

4.1 Mecanismo de funcionamiento multi-cabeza

La atención multi-cabeza proyecta la entrada en múltiples subespacios diferentes, cada "cabeza" calcula la atención de forma independiente y finalmente se concatenan las salidas de todas las cabezas.

Un Transformer típico usa 8 o 16 cabezas de atención, cada una potencialmente especializada en diferentes fenómenos lingüísticos:

Cabeza sintáctica: identifica relaciones gramaticales como sujeto, verbo, complementos
Cabeza semántica: captura relaciones de significado (como "banco" con "cuenta")
Cabeza posicional: atiende a dependencias locales de palabras adyacentes
Cabeza de referencia: resuelve a qué apuntan los pronombres (como "él" apunta a "Xiao Ming")
Cabeza de sentimiento: identifica connotaciones positivas/negativas y tendencias emocionales
Cabeza de entidades: reconoce nombres de personas, lugares y otras entidades nombradas

语法头

主谓宾关系

语义头

词义关联

位置头

距离关系

指代头

代词消解

情感头

情绪倾向

实体头

命名实体

修饰头

定状补

全局头

整体语境

8 个头从不同角度理解语义，最后拼接融合

4.2 Ventajas de la atención multi-cabeza

Mayor capacidad expresiva: diferentes cabezas pueden capturar diferentes tipos de relaciones de dependencia, evitando las limitaciones de una única perspectiva.

Computación paralela: múltiples cabezas pueden calcularse simultáneamente, sin aumentar el tiempo de cómputo.

Mejor robustez: incluso si algunas cabezas fallan en el aprendizaje, otras aún pueden proporcionar información útil.

Expresión matemática de la atención multi-cabeza

MultiHead(Q, K, V) = Concat(head_1, ..., head_h) W^O
donde head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

Cada cabeza tiene matrices de pesos independientes W^Q, W^K, W^V, y finalmente se fusionan todas las salidas mediante W^O.

5. Arquitectura completa de Transformer: codificador y decodificador

La arquitectura completa de Transformer consta de dos partes: el codificador (Encoder) y el decodificador (Decoder), responsables respectivamente de comprender la entrada y generar la salida.

5.1 Codificador (Encoder)

El codificador está formado por múltiples capas (normalmente 6-12) de la misma estructura apiladas, cada capa contiene dos subcapas:

Capa de auto-atención multi-cabeza: captura las dependencias internas de la secuencia de entrada
Red feed-forward: aplica transformaciones no lineales independientes a cada posición

Cada subcapa va seguida de una conexión residual (Residual Connection) y una normalización de capa (Layer Normalization), asegurando la estabilidad del entrenamiento de redes profundas.

5.2 Decodificador (Decoder)

El decodificador también está formado por múltiples capas apiladas, pero cada capa tiene tres subcapas:

Auto-atención multi-cabeza enmascarada (Masked Multi-Head Attention): solo puede ver las palabras anteriores a la posición actual, evitando "hacer trampa"
Atención cruzada (Cross-Attention): conecta el codificador y el decodificador, permitiendo que el decodificador preste atención a la secuencia de entrada
Red feed-forward: igual que en el codificador

Encoder（编码器）

× N 层

Multi-Head Self-Attention

捕获输入序列内部依赖

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输入

Token Embedding + Positional Encoding

Decoder（解码器）

输出

Linear + Softmax → 概率分布

× N 层

Masked Self-Attention

只看当前位置之前的词

Add & Norm

Cross-Attention

关注 Encoder 的输出

Add & Norm

Feed Forward Network

位置独立的非线性变换

Add & Norm

输出（移位）

Token Embedding + Positional Encoding

5.3 Variantes modernas: solo codificador vs solo decodificador

Aunque el Transformer original contiene tanto codificador como decodificador, los grandes modelos modernos suelen usar solo uno de ellos:

Tipo de arquitectura	Modelos representativos	Tareas adecuadas
Solo codificador	BERT, RoBERTa	Clasificación de texto, reconocimiento de entidades, QA
Solo decodificador	GPT, LLaMA, Claude	Generación de texto, diálogo, completado de código
Codificador-decodificador	T5, BART	Traducción, resumen, reformulación de texto

¿Por qué GPT usa solo decodificador?

La familia de modelos GPT utiliza el método de generación autorregresiva, prediciendo la siguiente palabra una a una. La arquitectura de solo decodificador es naturalmente adecuada para este tipo de tareas generativas, además de ser más simple y fácil de escalar a cientos de miles de millones de parámetros.

6. Codificación posicional: decirle al modelo el orden de las palabras

El mecanismo de auto-atención de Transformer es inherentemente independiente de la posición: trata la frase como un conjunto de palabras, sin importarle el orden. Pero el orden es crucial para el significado: "te quiero" y "quiero te" son completamente diferentes.

6.1 La necesidad de la codificación posicional

Para que el modelo perciba la información posicional, Transformer añade a los embeddings de entrada una codificación posicional (Positional Encoding). Es un vector de la misma dimensión que el embedding de palabra, que se suma directamente a este.

问题：词序很重要

我爱你≠你爱我

解决：位置编码

Token Embedding + Positional Encoding

正弦余弦（Transformer 原始）

可学习（BERT、GPT）

旋转编码 RoPE（LLaMA）

6.2 Codificación posicional seno-coseno

El Transformer original usa funciones seno y coseno fijas para generar la codificación posicional:

PE(pos, 2i) = sin(pos / 10000^(2i/d))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d))

Ventajas de este diseño:

Unicidad: cada posición tiene una codificación única
Posición relativa: el modelo puede aprender relaciones de distancia relativa
Extrapolación: puede manejar secuencias más largas que las vistas durante el entrenamiento

6.3 Esquemas modernos de codificación posicional

Con el avance de la investigación, han surgido más esquemas de codificación posicional:

Codificación posicional aprendible: BERT, GPT tratan la codificación posicional como parámetros entrenables en lugar de funciones fijas.

Codificación posicional relativa: T5, DeBERTa no codifican la posición absoluta, sino la distancia relativa entre palabras.

Codificación posicional rotatoria (RoPE): el esquema usado por LLaMA, GPT-NeoX, inyecta información posicional rotando los vectores Q y K, con mejor rendimiento de extrapolación.

ALiBi: implementa la percepción posicional añadiendo un sesgo a las puntuaciones de atención, sin parámetros adicionales.

7. El impacto y futuro de Transformer

La aparición de Transformer no es solo el nacimiento de una nueva arquitectura, sino un cambio completo del paradigma de investigación en IA.

7.1 Un paradigma unificado de preentrenamiento

Transformer ha convertido "preentrenamiento + fine-tuning" en el flujo estándar de NLP. Mediante el preentrenamiento en cantidades masivas de texto no etiquetado, el modelo aprende representaciones universales del lenguaje, y luego solo necesita pocos datos etiquetados para adaptarse a diversas tareas posteriores.

El éxito de Transformer no se limita al texto. Se ha aplicado con éxito a:

Visión por computador: Vision Transformer (ViT) supera a las CNN en clasificación de imágenes
Reconocimiento de voz: Whisper usa Transformer para convertir voz a texto en múltiples idiomas
Predicción de estructura de proteínas: AlphaFold 2 usa Transformer para predecir la estructura 3D de proteínas
Aprendizaje por refuerzo: Decision Transformer convierte problemas de RL en modelado de secuencias

7.3 La piedra angular de la era de los grandes modelos

Desde los 175 mil millones de parámetros de GPT-3 hasta los billones de GPT-4, Transformer ha demostrado una escalabilidad asombrosa. Su capacidad de computación paralela nos permite entrenar modelos gigantes sin precedentes y observar habilidades emergentes (Emergent Abilities) — cuando el modelo es suficientemente grande, "descubre" automáticamente capacidades de razonamiento, código, multilingüismo, etc.

7.4 Desafíos y direcciones futuras

A pesar del enorme éxito de Transformer, aún enfrenta desafíos:

Complejidad computacional: la complejidad de la auto-atención es O(n²), lo que supone un enorme coste computacional al procesar textos largos.

Modelado de textos largos: aunque teóricamente puede manejar cualquier longitud, en la práctica está limitado por la VRAM y los recursos de cómputo.

Explicabilidad: aunque los pesos de atención proporcionan cierta explicabilidad, el proceso de decisión de las redes profundas sigue siendo una caja negra.

Las líneas de investigación actuales incluyen:

Transformer eficiente: Linformer, Performer, Flash Attention para reducir la complejidad
Modelado de contexto largo: Sparse Attention, Sliding Window, mecanismos de memoria
Fusión multimodal: arquitecturas nativas multimodales que unifican el procesamiento de texto, imagen y audio

8. Resumen

La propuesta de Transformer y el mecanismo de atención marca el cambio definitivo del deep learning desde las "características diseñadas manualmente" hacia el "aprendizaje end-to-end". No solo resolvió los cuellos de botella técnicos de las RNN, sino que, más importante aún, proporcionó una arquitectura simple, universal y escalable que se ha convertido en la piedra angular de la era de los grandes modelos.

Entender Transformer es entender el núcleo de la IA moderna. Desde la codificación bidireccional de BERT, pasando por la generación autorregresiva de GPT, hasta la representación unificada de los grandes modelos multimodales, todos estos avances se apoyan sobre los hombros de Transformer.

En el futuro, con el aumento de la potencia de cómputo y la optimización de algoritmos, Transformer seguirá evolucionando, impulsando la IA hacia direcciones más potentes y generales.

Transformer y el mecanismo de atención: el motor central de los grandes modelos ​

1. El dilema de las RNN y el avance de Transformer ​

1.1 Los tres defectos fatales de las RNN ​

1.2 El avance revolucionario de Transformer ​

2. Arquitectura completa de Transformer: del conjunto al detalle ​

2.1 El codificador (Encoder) ​

2.2 El proceso de cálculo de la atención ​

3. Query, Key, Value: los tres mosqueteros de la atención ​

3.1 El rol de los tres vectores ​

3.2 Fórmula de cálculo de la atención ​

4. Atención multi-cabeza: entender la semántica desde múltiples perspectivas ​

4.1 Mecanismo de funcionamiento multi-cabeza ​

4.2 Ventajas de la atención multi-cabeza ​

5. Arquitectura completa de Transformer: codificador y decodificador ​

5.1 Codificador (Encoder) ​

5.2 Decodificador (Decoder) ​

5.3 Variantes modernas: solo codificador vs solo decodificador ​

6. Codificación posicional: decirle al modelo el orden de las palabras ​

6.1 La necesidad de la codificación posicional ​

6.2 Codificación posicional seno-coseno ​

6.3 Esquemas modernos de codificación posicional ​

7. El impacto y futuro de Transformer ​

7.1 Un paradigma unificado de preentrenamiento ​

7.2 Una arquitectura universal cross-modal ​

7.3 La piedra angular de la era de los grandes modelos ​

7.4 Desafíos y direcciones futuras ​

8. Resumen ​

Transformer y el mecanismo de atención: el motor central de los grandes modelos

1. El dilema de las RNN y el avance de Transformer

1.1 Los tres defectos fatales de las RNN

1.2 El avance revolucionario de Transformer

2. Arquitectura completa de Transformer: del conjunto al detalle

2.1 El codificador (Encoder)

2.2 El proceso de cálculo de la atención

3. Query, Key, Value: los tres mosqueteros de la atención

3.1 El rol de los tres vectores

3.2 Fórmula de cálculo de la atención

4. Atención multi-cabeza: entender la semántica desde múltiples perspectivas

4.1 Mecanismo de funcionamiento multi-cabeza

4.2 Ventajas de la atención multi-cabeza

5. Arquitectura completa de Transformer: codificador y decodificador

5.1 Codificador (Encoder)

5.2 Decodificador (Decoder)

5.3 Variantes modernas: solo codificador vs solo decodificador

6. Codificación posicional: decirle al modelo el orden de las palabras

6.1 La necesidad de la codificación posicional

6.2 Codificación posicional seno-coseno

6.3 Esquemas modernos de codificación posicional

7. El impacto y futuro de Transformer

7.1 Un paradigma unificado de preentrenamiento

7.2 Una arquitectura universal cross-modal

7.3 La piedra angular de la era de los grandes modelos

7.4 Desafíos y direcciones futuras

8. Resumen