Skip to content

RAG: Generación Aumentada por Recuperación

Prólogo

¿Por qué ChatGPT a veces "alucina" con tanta seguridad? El conocimiento de los grandes modelos de lenguaje proviene de sus datos de entrenamiento, pero estos datos tienen una fecha de corte y no incluyen los documentos internos de tu empresa. RAG (Retrieval-Augmented Generation, Generación Aumentada por Recuperación) es la tecnología clave para resolver este problema: permite que la IA "consulte fuentes" antes de responder.

¿Qué aprenderás en este artículo?

Al terminar este capítulo, habrás aprendido:

  • Comprensión de conceptos fundamentales: entenderás qué es RAG, por qué es necesario y cómo resuelve el problema de las "alucinaciones" de los grandes modelos
  • Conocimiento del flujo completo: dominarás el proceso end-to-end desde la carga de documentos, chunking, vectorización hasta la recuperación y generación
  • Capacidad de selección tecnológica: conocerás las ventajas y desventajas de diferentes estrategias de chunking y métodos de recuperación, pudiendo elegir según el escenario
  • Visión de evolución arquitectónica: entenderás la evolución de RAG desde Naive hasta Advanced y Modular
  • Capacidad de decisión práctica: sabrás cuándo usar RAG y cuándo usar fine-tuning
CapítuloContenidoConceptos clave
Capítulo 1Flujo básico de RAGTres fases: indexación, recuperación, generación
Capítulo 2Estrategias de chunking de textoChunking fijo, semántico, recursivo
Capítulo 3Técnicas de recuperaciónRecuperación vectorial, por palabras clave, híbrida
Capítulo 4Evolución de la arquitecturaNaive RAG → Advanced RAG → Modular RAG
Capítulo 5RAG vs Fine-tuningComparación de escenarios aplicables

0. Panorama general: ¿por qué los grandes modelos necesitan "consultar fuentes"?

Imagina que eres un profesor erudito que ha leído innumerables libros. Pero si alguien te pregunta "¿cuáles fueron las ventas de la empresa ayer?", seguro que no puedes responder, porque esa información no está en los libros que has leído.

Los grandes modelos de lenguaje enfrentan el mismo dilema:

  • Conocimiento con fecha de corte: los datos de entrenamiento de GPT-4 tienen una fecha límite, no sabe lo que ocurrió después
  • Falta de conocimiento privado: los documentos internos, manuales de producto y datos de clientes de tu empresa, el modelo nunca los ha visto
  • Tendencia a alucinar: cuando el modelo no está seguro de la respuesta, tiende a "inventar" una respuesta que parezca razonable

La idea central de RAG

La solución de RAG es muy intuitiva: antes de dejar que el modelo responda, ayúdalo a encontrar materiales de referencia relevantes. Es como un examen a libro abierto: no necesitas recordar todo el conocimiento, solo necesitas saber dónde y cómo encontrarlo.

RAG = Recuperación (Retrieval) + Aumento (Augmented) + Generación (Generation)


1. Flujo básico de RAG: indexación, recuperación, generación

El flujo de trabajo de RAG se divide en dos fases: indexación offline y consulta online.

La fase offline es como el trabajo de catalogación de una biblioteca: clasificar, numerar y colocar todos los libros en estanterías para facilitar su búsqueda posterior. La fase online es el proceso de un lector que viene a la biblioteca a consultar materiales: encontrar libros relevantes según la pregunta y luego sintetizar la información para dar una respuesta.

选择问题:
💬
用户提问
我们公司的年假政策是什么?
🔍
语义检索
📋
上下文组装
🤖
LLM 生成
返回结果
用户提问 — 详细说明
用户向系统提出一个自然语言问题。这个问题会被转化为向量表示,用于后续的语义检索。
1 / 5

Las tres fases principales

  1. Fase de indexación (Indexing): cargar, limpiar y dividir los documentos originales en chunks, luego convertirlos en vectores mediante un modelo de embedding y almacenarlos en una base de datos vectorial. Es un trabajo preparatorio único.
  2. Fase de recuperación (Retrieval): cuando el usuario hace una pregunta, esta también se convierte en vector y se buscan los fragmentos de documento más similares en la base de datos vectorial.
  3. Fase de generación (Generation): los fragmentos de documento recuperados y la pregunta del usuario se combinan en un Prompt que se envía al LLM para generar la respuesta final.
FaseEntradaSalidaTecnología clave
IndexaciónDocumentos originalesBase de datos vectorialChunking de texto, modelo de embedding
RecuperaciónPregunta del usuarioTop-K fragmentos de documentoSimilitud vectorial, reranking
GeneraciónPregunta + contextoRespuesta finalIngeniería de prompts, LLM

2. Chunking de texto: meter un elefante en la nevera

El chunking de texto es el aspecto más infravalorado de RAG, pero el que más impacto tiene en los resultados. ¿Por qué es necesario dividir? Porque la ventana de contexto de los grandes modelos es limitada, no podemos meter un libro entero. Y lo más importante: la calidad del chunking determina directamente la calidad de la recuperación.

Imagina que buscas un concepto específico en un libro de la biblioteca. Si el libro entero es un solo "chunk", aunque lo recuperes no sirve de nada: todavía tienes que hojear todo el libro. Pero si está dividido por capítulos o incluso párrafos, puedes localizar con precisión lo que necesitas.

输入文本
固定大小
按照固定的字符数切分文本,是最简单直接的分块方式。通常会设置一定的重叠区域(overlap),避免在切分边界丢失上下文。
块大小: 80 字符重叠: 20 字符
分块结果 共 0 个块
请输入文本后查看分块结果
策略优点缺点适用场景
📏 固定大小实现简单,块大小均匀可能在句子中间截断结构化程度低的长文本
📝 按句子保持句子完整性块大小不均匀文章、报告等自然文本
🧠 语义分块主题连贯,语义完整计算成本高,需要嵌入模型多主题混合的复杂文档
🔄 递归分块兼顾结构与大小实现较复杂通用场景,推荐默认选择

Elección de la estrategia de chunking

  • Chunking de tamaño fijo: dividir por número de caracteres o tokens, simple pero puede cortar el significado
  • Chunking recursivo: dividir primero por párrafos, si el párrafo es muy largo dividir por frases, mantiene la integridad semántica
  • Chunking semántico: usar el modelo de embedding para detectar fronteras semánticas, dividir donde haya cambios bruscos de similitud
  • Chunking por estructura del documento: aprovechar títulos Markdown, etiquetas HTML y otra información estructural

No existe una estrategia de chunking "mejor" universal, solo la más adecuada para tus datos. Se recomienda empezar con chunking recursivo, tamaño de chunk de 200-500 tokens, solapamiento del 10-20%.


3. Técnicas de recuperación: ¿cómo encontrar el contenido más relevante?

Una vez completado el chunking, la siguiente pregunta clave es: el usuario hace una pregunta, ¿cómo encontrar los fragmentos más relevantes entre miles de documentos?

Es como buscar un libro en una biblioteca enorme. Puedes buscar por palabras clave del título (recuperación por palabras clave), o describir lo que quieres para que el bibliotecario te ayude a encontrarlo (recuperación semántica). La mejor opción es combinar ambos (recuperación híbrida).

选择查询:
1
查询编码
2
向量搜索
3
重排序
4
Top-K 选择
查询编码
将用户的自然语言查询通过嵌入模型(如 text-embedding-ada-002)转化为高维向量表示。这个向量捕捉了查询的语义信息。
查询文本
如何申请年假?
↓ 嵌入模型编码
查询向量
0.12-0.450.780.33-0.210.560.89-0.14
Método de recuperaciónPrincipioVentajasDesventajas
Por palabras clave (BM25)Basado en frecuencia de término y frecuencia inversa de documentoCoincidencia exacta, rápidoNo entiende semántica, falla con sinónimos
VectorialBasado en similitud coseno de vectores de embeddingEntiende semántica, soporta coincidencia difusaInsensible a nombres propios
HíbridaFusiona resultados de palabras clave y vectorialesEquilibra precisión y semánticaRequiere ajustar pesos, mayor complejidad

Reranking

Después de recuperar los documentos candidatos, normalmente se necesita un paso de "reranking". La recuperación inicial busca recall (no omitir nada relevante), el reranking busca precisión (colocar lo más relevante al principio). Los modelos de reranking más comunes son Cohere Rerank, BGE Reranker, etc., que usan cross-encoders para puntuar finamente los pares query-document.


4. Evolución de la arquitectura: de lo simple a lo inteligente

La tecnología RAG ha experimentado tres generaciones de evolución en apenas dos años, cada una resolviendo los puntos débiles de la anterior.

最基础的 RAG 架构,流程简单直接:索引 → 检索 → 生成。适合快速原型验证,但在复杂场景下效果有限。
📄
文档加载
✂️
文本分块
🔢
向量化
🔍
检索
🤖
生成
点击流程节点查看详细说明
架构特点
实现简单,上手快
适合结构化知识库
⚠️检索质量依赖分块策略
无法处理复杂查询
架构演进路线
Naive RAG
2023
Advanced RAG
2024
Modular RAG
2025

Comparación de las tres generaciones de RAG

  • Naive RAG (2023): el flujo más básico "indexar → recuperar → generar", implementación simple pero resultados limitados. Problemas: calidad de recuperación inestable, no maneja consultas complejas, tiende a introducir contexto ruidoso.
  • Advanced RAG (2024): añade sobre Naive RAG optimizaciones como reescritura de consultas, recuperación híbrida, reranking, compresión de contexto, mejorando significativamente la precisión de recuperación y la calidad de generación.
  • Modular RAG (2025): descompone RAG en módulos intercambiables, soportando capacidades avanzadas como enrutamiento, recuperación adaptativa y auto-reflexión. Puede seleccionar dinámicamente el flujo de procesamiento óptimo según el tipo de consulta.

5. RAG vs Fine-tuning: ¿cuál elegir?

Cuando quieres que un gran modelo domine conocimiento de un dominio específico, normalmente hay dos caminos: RAG y fine-tuning. No son mutuamente excluyentes, sino complementarios.

Usando una analogía: el fine-tuning es como enviar a un estudiante a clases particulares, interiorizando el conocimiento en el cerebro; RAG es como darle al estudiante libros de referencia, que puede consultar durante el examen. Cada método tiene sus ventajas, la clave está en tus necesidades específicas.

RAG 检索增强生成
VS
Fine-tuning 微调
知识更新速度
实时更新,修改文档即生效
需要重新训练,周期长
实施成本
搭建检索系统,成本适中
💰
需要 GPU 资源和标注数据
回答风格控制
依赖 Prompt 工程
🎨
可深度定制输出风格
幻觉控制
有据可查,可追溯来源
🎯
仍可能产生幻觉
推理延迟
需要额外的检索步骤
⏱️
直接生成,无额外开销
私有数据安全
数据留在本地,不进入模型
🔒
数据融入模型权重
一句话总结
RAG 像是给模型配了一个实时更新的参考书库,适合知识频繁变化的场景; 微调像是让模型上了一门专业课,适合需要特定风格或领域深度的场景。 实际项目中,两者常常结合使用。
DimensiónRAGFine-tuning
Actualización de conocimientoEn tiempo real, solo hay que actualizar documentosRequiere reentrenamiento
CosteBajo (no requiere GPU para entrenar)Alto (requiere recursos de entrenamiento)
ExplicabilidadAlta (se puede rastrear la fuente)Baja (conocimiento internalizado en los pesos)
Escenarios aplicablesQA sobre base de conocimiento, recuperación documentalTransferencia de estilo, optimización para tareas específicas
Control de alucinacionesBueno (tiene referencias)Regular (aún puede alucinar)

Recomendación práctica

En la mayoría de los escenarios, prueba primero RAG. Las ventajas de RAG: no requiere entrenamiento, el conocimiento se actualiza en tiempo real, las respuestas tienen fuentes rastreables. Solo cuando necesites cambiar el "patrón de comportamiento" del modelo (como formato de salida, estilo de lenguaje, modo de razonamiento), considera el fine-tuning. La solución más potente suele ser la combinación de RAG + fine-tuning.


Resumen

RAG es una de las tecnologías más prácticas para hacer que los grandes modelos "aterricen" en aplicaciones reales. Su valor principal: hacer que las respuestas del modelo sean verificables, que el conocimiento se actualice en tiempo real y que las alucinaciones se puedan controlar eficazmente.

Puntos clave de este capítulo:

  1. El problema central que resuelve RAG: conocimiento desactualizado del modelo, falta de datos privados, tendencia a alucinar
  2. Flujo de tres fases: indexación (preparación offline) → recuperación (búsqueda online) → generación (respuesta sintetizada)
  3. El chunking es la base: la calidad del chunking determina directamente la calidad de la recuperación, elegir la estrategia adecuada es crucial
  4. La recuperación es clave: recuperación híbrida + reranking es actualmente la combinación más efectiva
  5. La arquitectura evoluciona: de Naive RAG a Modular RAG, el sistema es cada vez más inteligente y flexible
  6. RAG y fine-tuning son complementarios: en la mayoría de casos prueba primero RAG, cuando necesites cambiar el comportamiento del modelo considera el fine-tuning

Lecturas adicionales