Skip to content

Diccionario de Capacidades de IA

A medida que la tecnología de IA generativa se implementa ampliamente en diversos productos y escenarios de negocio, surge una pregunta cada vez más concreta: ¿qué capacidades de IA están realmente disponibles? Y, ante una necesidad específica, ¿qué capacidad, qué tipo de modelo o qué producto deberíamos elegir para abordarla?

Ante esta confusión, el enfoque más intuitivo quizás sea «improvisar sobre la marcha»: cuando surja una necesidad, buscar las API de los productos de los proveedores de servicios en la nube, o los modelos correspondientes, y consultar la documentación y demos de las soluciones comerciales disponibles. Si se necesita trabajar con imágenes, se piensa en generación de imágenes; si aparece una tarea de texto, se recurre a un modelo grande; si implica interacción por voz, se recuerdan ASR y TTS, y luego se comparan innumerables API y servicios. Sin embargo, apilar productos dispersos es algo muy distinto a planificar, seleccionar y combinar capacidades de IA de forma sistemática en un entorno empresarial. Limitarse a buscar información puntual y confiar en el criterio personal conlleva una serie de desafíos graves: fragmentación del conocimiento sobre capacidades, diseño arbitrario de soluciones y dificultad para reutilizar capacidades.

Para resolver estos problemas, este documento se articula en torno a un «mapa completo de capacidades de IA». Con este manual no pretendemos acumular términos, sino ayudarte a responder rápidamente tres preguntas: «¿Qué capacidad de IA puede resolver esto? ¿Qué tipo de modelo o producto conviene elegir? ¿Con qué palabras clave buscar API, proyectos o servicios para probar?» Mediante un recorrido sistemático desde las modalidades (texto, imagen, audio, vídeo, 3D, multimodal) hasta las capas arquitectónicas (modelos, recuperación, agentes, ingeniería de plataformas), podemos identificar para cada necesidad y escenario típico la capacidad de IA correspondiente, los modelos o productos representativos y sus usos habituales en entornos reales, ayudando a los equipos a construir su sistema de IA con menor coste de experimentación, mayor eficiencia en la toma de decisiones y una reutilización más sólida.

En este manual presentaremos de forma sistemática el panorama actual de las capacidades de IA más relevantes: desde las modalidades individuales hasta la fusión multimodal, desde los modelos puntuales hasta el marco completo de plataforma e ingeniería, ofreciendo referencias prácticas para la selección de capacidades en función de los formatos de producto y los escenarios de aplicación más comunes.

Dado que el contenido es extenso, te recomendamos consultar el manual solo cuando durante la práctica te enfrentes a un escenario en el que no sepas cómo elegir; te sugerimos que, según la dirección concreta de tu aplicación, le pidas a la IA que tome este manual como referencia y te ofrezca sugerencias de selección de modelos y recomendaciones de llamadas a API para la solución.

Si solo quieres conocer las categorías generales sin entrar en los detalles, basta con leer el párrafo inicial de cada capítulo principal, por ejemplo el contenido de 1.1 o 1.2, sin necesidad de leer apartados como 1.1.1 o 1.1.2.

Recomendamos consultar este manual solo cuando necesites una sección concreta, o bien limitarte a ojear los títulos de primer nivel; si algún tema te interesa, entonces explora el texto completo.

En futuras actualizaciones se incluirán, en cada sección, direcciones de servicios API de modelos recomendados para probar.

Lo que aprenderás en esta sección

  • Panorama de las capacidades de IA: cómo se organizan desde texto, imagen, audio, video y 3D hasta multimodalidad, Agent, RAG, seguridad e ingeniería de plataformas
  • Modelos y productos correspondientes a cada capacidad: conoce los modelos y servicios representativos detrás de capacidades clave como Embedding, OCR, ASR, TTS, VLM y RAG
  • Método para mapear capacidades a escenarios: domina cómo convertir un "catálogo de capacidades" en aplicaciones concretas como contenido de productos, búsqueda con preguntas y respuestas, atención al cliente inteligente y operaciones automatizadas

Al completar el estudio de este manual, habrás adquirido un conocimiento sistemático de nivel introductorio sobre las principales capacidades de IA. No solo sabrás "qué capacidades existen en el mercado y qué productos se suelen asociar a ellas", sino que también comprenderás su posición e interrelación dentro de la arquitectura general. Sabrás cómo localizar rápidamente la capacidad necesaria y tomar decisiones fundamentadas ante requisitos de negocio concretos, sentando una base sólida para construir tu propio sistema de capacidades de IA.## Parámetros de modelos mencionados en este manual

Antes de adentrarnos en el mapa de capacidades, aclaremos un concepto que se menciona con frecuencia pero que resulta algo abstracto: ¿qué se considera un modelo grande y qué un modelo pequeño?

Desde el punto de vista académico, los modelos grandes suelen referirse a modelos de propósito general con miles de millones, decenas de miles de millones o incluso billones de parámetros, mientras que los modelos pequeños son modelos especializados para tareas o escenarios específicos, con un número menor de parámetros (del orden de decenas a cientos de millones).

Desde el punto de vista del precio, si la API de un modelo es muy barata — por ejemplo, unos pocos céntimos por llamada, o solo unos céntimos por cada mil tokens — y no se enfatiza especialmente que sea un modelo grande de propósito general, normalmente se trata de un modelo pequeño típico (como modelos especializados en OCR, ASR, clasificación de imágenes o moderación de contenido) o de una versión ligera de un modelo grande con menos parámetros (comprimida o destilada específicamente para alta concurrencia y bajo coste). Si el precio por llamada es notablemente más alto — por ejemplo, varias decenas de céntimos o incluso a partir de 1 yuan — lo más probable es que sea un modelo grande.

Además, si el texto promocional del producto enfatiza explícitamente el uso de modelos de lenguaje de gran tamaño (LLM), modelos grandes de propósito general o modelos grandes multimodales, o menciona la realización de tareas complejas de extremo a extremo (como chatbots conversacionales, sistemas de preguntas y respuestas con recuperación, o generación de vídeo), normalmente puede considerarse un modelo grande.

Por el contrario, si el enfoque promocional está en una capacidad vertical específica — como reconocimiento de tarjetas bancarias, reconocimiento de facturas, reconocimiento de matrículas, predicción de tasa de clics en anuncios, transcripción de voz o moderación de contenido — es más probable que el producto se base en uno o varios modelos pequeños.

Por lo tanto, en lo que sigue de este documento podemos establecer una convención práctica:

  • Los modelos grandes se refieren principalmente a aquellos modelos de propósito general, conversacionales, programables y con un precio generalmente más elevado (incluyendo sus versiones multimodales, como GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, etc.), capaces de cubrir la mayoría de las tareas generales de texto, código, así como tareas multimodales de imagen, audio y vídeo;
  • Los modelos pequeños son aquellos ajustados o personalizados para una tarea específica; suelen ser más baratos, con un rendimiento más estable y controlable, pero con un ámbito de aplicación más reducido, lo que requiere que los combines y orquestes activamente en tu sistema.

Conviene añadir aquí un cambio clave en la industria: muchas de las capacidades de modelo mencionadas en este manual, antes de 2021, eran cubiertas por "modelos pequeños". Se entrenaban modelos específicos para escenarios y datos concretos con el fin de satisfacer necesidades precisas. Hoy en día, sin embargo, la gran mayoría de escenarios y tareas generales ya pueden resolverse directamente invocando modelos grandes.

Desde la perspectiva de la búsqueda extrema de precisión y coste, el entrenamiento y la aplicación de modelos pequeños siguen teniendo un valor insustituible; pero para quienes empiezan, podemos perfectamente comenzar aprendiendo a encontrar e invocar APIs de modelos grandes, para luego profundizar gradualmente en técnicas más avanzadas. Solo necesitas sopesar coste, precisión y latencia, y decidir dónde usar modelos grandes de propósito general y dónde mantener o introducir modelos pequeños especializados.

Modelos grandes de texto y multimodales de propósito general a partir de algunos productos comunes:

  • Serie OpenAI: GPT-4, GPT-4.1, GPT-4o, GPT-5.1, etc.
  • Serie Google: Gemini 1.5 Pro, Gemini 1.5 Flash, etc.
  • Serie Anthropic: Claude 3.5 Sonnet, Claude 3.5 Haiku, etc.
  • Modelos nacionales: serie Tongyi Qianwen (Qwen), serie ERNIE Bot de Wenxin, GLM/Zhipu Qingyan, Tencent Hunyuan, iFlytek Spark, el modelo detrás de Kimi de Moonshot AI, serie MiniMax-M2.7 de MiniMax, etc.

Modelos y servicios más orientados a visión y vídeo:

  • Generación de imágenes: DALL·E, Midjourney, Stable Diffusion, SDXL, Flux, etc.
  • Comprensión visual multimodal: GPT-4o, GPT-4.1 with Vision, Gemini 1.5 (multimodal imagen-texto), Claude 3.5 Sonnet Vision, LLaVA, etc.
  • Generación de vídeo: Sora, Kling, Runway Gen-2, Pika, Luma, Veo, etc.

Modelos grandes de voz y audio:

  • Reconocimiento de voz (ASR): serie Whisper (Whisper, Whisper-large-v3, etc.), Deepgram, modelos ASR grandes de extremo a extremo de los principales proveedores cloud (como iFlytek, Baidu, Volcano Engine, Alibaba, etc.)
  • Voz multimodal y conversación por voz: GPT-4o (conversación por voz de extremo a extremo), OpenAI Realtime, capacidad de comprensión de audio de Gemini 1.5, etc.
  • TTS / generación de audio y música: OpenAI TTS, ElevenLabs, Suno, Udio, MusicGen, etc.

Modelos de generación y comprensión 3D/espacial:

  • Texto a 3D e imagen a 3D: DreamFusion, Shap-E, GET3D, Zero-1-to-3, TripoSR, etc.
  • Familia NeRF / renderizado neuronal: Instant-NGP, serie NeRF, modelos relacionados con Gaussian Splatting, etc.# 1. Tareas de texto (Text / NLP / LLM)

En las capacidades de IA, las tareas de texto son la funcionalidad más básica. Ya sea que queramos hacer moderación de contenido, búsqueda y recomendación, preguntas y respuestas de conocimiento, o asistentes de escritura y Copilotos de código, en esencia todo se reduce a una pregunta: cómo las máquinas realmente entienden el texto.## 1.1 Modelado fundamental del lenguaje y representación

Comencemos desde la base más fundamental: el modelado del lenguaje y la representación. Su función es permitir que las máquinas se familiaricen primero con el lenguaje desde una perspectiva estadística y, sobre esta base, encuentren una representación vectorial matricial estable para palabras, oraciones y documentos, lo que facilita tareas posteriores como clasificación, emparejamiento, extracción y generación. Independientemente de las tareas relacionadas con texto que se quieran abordar en el futuro, en mayor o menor medida siempre hay que responder primero a la misma pregunta: ¿cómo puedo representar este fragmento de texto con una serie de números?

Podemos abordar este tema desde tres perspectivas: escenarios, principios y modelos:

  • Escenarios
    • Relacionados con búsqueda y recuperación
      • Motores de búsqueda generales: el usuario introduce una frase cualquiera y obtiene documentos relacionados semánticamente, en lugar de solo coincidencias exactas por palabras clave.
      • Búsqueda interna / búsqueda en e-commerce: el usuario utiliza descripciones coloquiales (por ejemplo, "camisa blanca adecuada para ir al trabajo en verano") y encuentra productos cuyo significado coincide.
      • Recuperación en bibliotecas documentales / bases de conocimiento: en documentación técnica, normativas o bases de conocimiento empresariales, se introduce una frase y se obtienen las entradas relacionadas.
    • Relacionados con recomendación y ranking
      • Feeds de contenido / recomendación de contenido: según el contenido que el usuario ha visto o en el que ha hecho clic recientemente, se encuentra automáticamente otro contenido similar para seguir recomendando, en lugar de depender solo de reglas manuales o etiquetas.
      • Recomendación de productos / e-commerce: a partir de las descripciones de productos que el usuario ha visto, comprado o guardado, se encuentran productos con estilo o uso similares para ofrecer recomendaciones personalizadas.
      • Modelado de intereses del usuario: basándose en los títulos que el usuario ha visto y los términos que ha buscado, se resumen varias direcciones principales de interés para mejorar el efecto de las recomendaciones y el ranking.
    • Relacionados con asistentes de preguntas y respuestas
      • Preguntas frecuentes (FAQ): el usuario formula la misma pregunta de distintas maneras ("¿Cómo solicito una factura?" vs "¿Dónde se pide la factura?"), y el sistema puede dirigirse a la misma respuesta.
      • Preguntas y respuestas sobre bases de conocimiento / asistentes empresariales: el usuario pregunta en lenguaje natural, y el sistema busca por significado en los documentos internos para encontrar el párrafo más relevante como respuesta.
    • Relacionados con análisis y comprensión de texto
      • Análisis de opiniones y sentimiento: clasificar grandes volúmenes de comentarios y publicaciones según "de qué hablan / qué sentimiento expresan".
      • Deduplicación de texto / detección de similitud: se utiliza para descubrir artículos reescritos o contenido pseudo-original.
      • Agrupación / clustering de documentos: agrupar numerosos artículos e informes según la similitud de contenido para facilitar la navegación, recomendación o muestreo.
    • Como características universales para tareas posteriores (las tareas posteriores son aquellas que utilizan las capacidades básicas del modelo para realizar tareas de procesamiento de texto más concretas)
      • Clasificación de texto: los modelos posteriores de clasificación de sentimiento, reconocimiento de intención, detección de spam, etc., reutilizan directamente esta capa de representación.
      • Extracción de información: el reconocimiento de entidades y la extracción de relaciones se ajustan sobre la representación de palabras/oraciones, en lugar de entrenarse desde cero.
      • Generación de texto: proporciona entrada de representación semántica para tareas de generación como resumen, reescritura y continuación, mejorando la calidad y la controlabilidad de la generación.
  • Principios Aprender la representación de palabras, oraciones y documentos como base para tareas posteriores más complejas.
    • Modelado del lenguaje
      • Modelo de lenguaje autorregresivo: predice el siguiente token (series GPT, LLaMA, Qwen, etc.)
      • Modelo de lenguaje enmascarado (Masked LM): predice el token oculto (BERT, RoBERTa, ERNIE)
    • Representación de palabras / oraciones / párrafos
      • Vectores de palabras estáticos: Word2Vec, GloVe, FastText
      • Representaciones contextuales: BERT embedding, Sentence‑BERT, etc.
      • Vectores a nivel de documento: utilizados para recuperación semántica y coincidencia de similitud
  • Modelos BERT / RoBERTa / ERNIE, familia GPT, LLMs como LLaMA / Qwen / Yi; diversos modelos de embedding (serie OpenAI text‑embedding‑3, bge, E5, SimCSE, etc.).

1.1.1 Modelado del lenguaje: aprender el idioma "adivinando la siguiente palabra"

El primer paso de esta capa es permitir que el modelo se familiarice con las regularidades del lenguaje a partir de grandes volúmenes de texto. La forma de hacerlo se puede entender simplemente así: se plantean al modelo innumerables "ejercicios de adivinar palabras", donde, tras ver el contexto de un pasaje, debe completar la palabra (token) más razonable. Con suficientes ejercicios y un corpus suficientemente amplio, el modelo aprende gradualmente: cómo es una oración natural, qué palabras suelen aparecer juntas y qué expresiones suenan extrañas. Este proceso se llama "modelado del lenguaje" y, en esencia, es un mecanismo unificado de entrenamiento de adivinanza de palabras.

Existen dos formas comunes de plantear los ejercicios, cada una ilustrada con un ejemplo sencillo:

  1. Continuación hacia adelante (autorregresivo): solo se proporciona el contenido anterior y se pide al modelo que adivine "cómo continuará".
  2. Prefijo de entrada: Hoy ha llovido, así que
  3. Tarea del modelo: adivinar la siguiente palabra, como "he traído (paraguas)", "no he (salido)", "pienso (quedarme en casa)", etc., y luego seguir continuando. Este método entrena principalmente la capacidad del modelo para la continuación, coherencia y expresiones comunes.
  4. Rellenar huecos (enmascarado): se oculta una parte en medio y se pide al modelo que la complete usando el contexto anterior y posterior.
  5. Oración original: Hoy ha llovido, así que he traído el paraguas
  6. Oración de entrenamiento: Hoy [MASK], así que he traído el paraguas
  7. Tarea del modelo: completar [MASK] con una palabra razonable como "ha llovido". Aquí el modelo debe observar simultáneamente "Hoy" y la terminación "-ido" a la izquierda y "así que he traído el paraguas" a la derecha para decidir qué rellenar, lo que favorece el aprendizaje de la semántica completa de la oración.

Al realizar repetidamente estos dos tipos de "ejercicios de adivinanza" sobre corpus masivos, el modelo acumula gradualmente un sentido lingüístico y conocimiento estadístico. Sobre esta base, el siguiente paso es transformar explícitamente esta capacidad en representaciones vectoriales de palabras, oraciones y documentos, sentando las bases para tareas posteriores como recuperación, recomendación y preguntas y respuestas.

1.1.2 Representación de palabras, oraciones y documentos: mapeo de símbolos discretos al espacio semántico

El primer método para construir vectores de texto fueron los vectores de palabras estáticos: se asigna un vector fijo a cada palabra que, una vez entrenado, no cambia según el contexto. Es intuitivo y simple, pero no puede distinguir los significados de palabras polisémicas en diferentes contextos. Para resolver este problema, surgieron posteriormente métodos de representación dinámica basados en el contexto: la misma palabra genera vectores diferentes en distintas oraciones, determinados completamente por el contexto en el que aparece. Por ejemplo, "manzana" en "Apple lanzó un nuevo teléfono" se acercará más a la dirección semántica de "empresa tecnológica", mientras que en "la manzana es rica en vitaminas" se aproximará más al concepto de "fruta".

Este mecanismo no solo mejoró la capacidad expresiva a nivel de palabra, sino que también allanó el camino para la vectorización de oraciones y documentos. Para las oraciones, se pueden generar vectores de oración; para los documentos, se pueden codificar completos (si la longitud lo permite) o por segmentos y luego agregarlos en un vector global mediante mecanismos de atención, pooling jerárquico, aprendizaje contrastivo, etc. En los últimos años, los modelos de embedding especializados (como bge, E5, la serie text-embedding) se han estado optimizando continuamente en torno al objetivo de "acercar en el espacio vectorial los textos semánticamente similares", destacando especialmente en tareas como recuperación semántica y coincidencia de similitud.

Este flujo que va desde el modelado contextual hasta la generación de vectores de oraciones/documentos se ha convertido en la infraestructura central detrás de sistemas de búsqueda, recomendación y preguntas y respuestas, volviendo a los diversos escenarios mencionados anteriormente:

  • Los escenarios de búsqueda y recuperación (búsqueda general, búsqueda en e-commerce, recuperación en bases de conocimiento) requieren codificar tanto la entrada del usuario como los documentos candidatos en vectores, para luego realizar una coincidencia de similitud en el espacio vectorial y encontrar los resultados semánticamente más cercanos, en lugar de depender solo de la coincidencia exacta de palabras clave.
  • Los escenarios de recomendación y ranking (recomendación de feeds, recomendación de productos, modelado de intereses del usuario) requieren convertir en vectores el contenido correspondiente al comportamiento histórico del usuario y luego encontrar contenido nuevo con vectores cercanos para recomendárselo, logrando un efecto personalizado de "viste A, te recomendamos B".
  • Los escenarios de asistentes de preguntas y respuestas (FAQ, preguntas sobre bases de conocimiento) requieren codificar en vectores tanto las preguntas del usuario como las preguntas o párrafos de la base de conocimiento, para encontrar la respuesta más adecuada mediante la similitud vectorial.
  • Los escenarios de análisis y comprensión de texto (análisis de opiniones, deduplicación, clustering) requieren convertir primero cada texto en un vector y luego realizar clustering, cálculo de similitud o clasificación basándose en los vectores.
  • Los escenarios de tareas posteriores (clasificación de texto, extracción de información, generación de texto) utilizan directamente esta capa de representación vectorial como características de entrada, alimentando a los clasificadores, extractores o generadores posteriores, evitando así aprender la semántica desde cero.

En términos de ingeniería, la práctica habitual es encapsular esto en un "servicio unificado de vectores de texto": se introduce cualquier fragmento de texto y se obtiene un vector de dimensión fija, compartido por múltiples sistemas como búsqueda, recomendación y preguntas y respuestas. A nivel de producto, la capacidad de esta capa se manifiesta principalmente en: la recuperación semántica en búsqueda y recomendación (ya no se depende solo de palabras clave, sino que se recupera mediante similitud vectorial contenido "expresado de manera diferente pero con significado similar"), así como servicios unificados de embedding/recuperación vectorial orientados a bases de conocimiento empresariales, FAQ y bibliotecas de casos.## 1.2 Clasificación y emparejamiento de texto (Classification & Matching)

En la sección anterior, mediante el modelado y la representación básica del lenguaje, asignamos a cada fragmento de texto una «coordenada» en el espacio semántico. Sin embargo, tener solo coordenadas no basta: lo que realmente interesa al negocio suele ser: ¿a qué categoría pertenece este texto? ¿trata del mismo tema que otro texto? ¿dos frases se apoyan o se contradicen lógicamente entre sí? Podemos entenderlo así: la clasificación y el emparejamiento son las dos capacidades que convierten las representaciones vectoriales subyacentes en etiquetas y señales de relevancia que impulsan directamente las decisiones de negocio. Como antes, analizamos esta capa desde tres ángulos: escenarios, principios y modelos.

  • Escenarios
    • Comprensión y moderación de contenido: asignar etiquetas de tema, sentimiento, riesgo, etc. a comentarios, publicaciones y artículos para su uso en moderación, recomendación y análisis estadístico.
    • Recomendación y ranking: decidir qué contenidos mostrar y en qué orden según el grado de coincidencia entre las «etiquetas de interés del usuario» y las «etiquetas de contenido».
    • Búsqueda y FAQ: cuando un usuario introduce una pregunta en lenguaje natural, el sistema localiza automáticamente el par pregunta-respuesta o el fragmento de documento más relevante.
    • Identificación de contenido similar: encontrar entradas con «contenido similar» entre grandes volúmenes de texto para deduplicación, consolidación estadística y recomendación de «contenido relacionado».
    • Juicio de relaciones lógicas: determinar si dos frases se apoyan, se contradicen o son independientes, útil para verificación de hechos, comprobación de coherencia en diálogos multi-turno, etc.
  • Principios Sobre la base de la representación semántica, se realiza un juicio global sobre un fragmento de texto completo o un par de textos:
    • Clasificación de texto: asignar etiquetas a un texto individual (p. ej., sentimiento, tema, tipo de riesgo);
    • Emparejamiento de texto: determinar la similitud, relevancia entre dos textos, o si una «pregunta» y una «respuesta» coinciden.
  • Modelos Basados en un encoder preentrenado, con una estructura simple de clasificación o emparejamiento añadida encima:
    • Clasificación de texto único: BERT / RoBERTa / DeBERTa + capa de clasificación fully-connected;
    • Emparejamiento de texto: Sentence-BERT, SimCSE, Bi-Encoder, Cross-Encoder;
    • Juicio complejo: ajuste por instrucciones sobre LLM para que el modelo genere directamente etiquetas o relaciones lógicas.

1.2.1 Clasificación de texto: de «comprender el contenido» a «catalogarlo»

Aprovechando la representación semántica de la capa anterior, podemos añadir de forma muy natural una cabeza de clasificación sencilla encima y, con una pequeña cantidad de datos etiquetados, enseñar al modelo a responder la pregunta: «¿A qué categoría pertenece este texto?».

El caso más clásico es la clasificación de sentimiento. La opinión de un usuario puede ser un elogio, una queja o simplemente una exposición de hechos. Una vez que el modelo obtiene la representación vectorial de la frase, basta con añadir una capa de clasificación softmax para generar probabilidades de «positivo / negativo / neutral». Este tipo de capacidad ya está muy consolidada en escenarios como el comercio electrónico, las redes sociales y las tiendas de aplicaciones.

Otro gran grupo es la clasificación temática o sectorial. En la recomendación de noticias, queremos saber si un artículo es de deportes, finanzas o entretenimiento; en los sistemas internos de atención al cliente o ticketing, interesa más distinguir si se trata de una consulta sobre el producto, un fallo funcional o una queja/sugerencia. Estas etiquetas ayudan tanto a encaminar el contenido con mayor precisión hacia el flujo adecuado como a servir de característica importante en la fase de ranking de recomendaciones.

Yendo un paso más allá, la clasificación de riesgo y cumplimiento normativo está directamente relacionada con la seguridad de la plataforma. Se configuran modelos de clasificación específicos para categorías como derivación publicitaria, insultos y ataques, contenido políticamente sensible, contenido vulgar o pornográfico, etc., que, combinados con la revisión manual, interceptan o reducen la visibilidad del contenido de alto riesgo. Se puede decir que la primera barrera de la mayoría de las estrategias de seguridad de contenido la constituyen precisamente este tipo de clasificadores.

Como puede verse, a estas alturas ya hemos conseguido transformar la «representación semántica abstracta» en diversas etiquetas utilizables por el negocio. A continuación, abordaremos cómo realizar emparejamiento e inferencia cuando los textos establecen relaciones entre sí.

1.2.2 Emparejamiento de texto: «encontrar la frase más adecuada» para una oración

A diferencia de la clasificación, que «cataloga un texto individual», el emparejamiento de texto se centra en la «relevancia entre dos fragmentos de texto». En muchos productos, esto suele ser la pieza clave para lograr la «inteligencia»: que el sistema pueda encontrar la respuesta más adecuada en la base de conocimiento ante lo que dice un usuario depende por completo de la calidad del emparejamiento.

Lo más básico es el cálculo de similitud semántica. Primero usamos el modelo de embedding de la capa anterior para codificar dos frases en vectores, y luego evaluamos su distancia en el espacio semántico mediante similitud coseno, producto escalar, etc. Modelos como SimCSE y Sentence-BERT están diseñados específicamente, mediante aprendizaje contrastivo, para acercar los «pares de frases similares» y alejar los «pares de frases disímiles».

Sobre esta base, la detección de paráfrasis y la detección de plagio no son más que tareas de emparejamiento en escenarios de aplicación concretos. La primera se utiliza para la deduplicación de contenido y evitar que la plataforma se llene de expresiones repetitivas; la segunda se emplea en contextos como la educación y las comunidades de conocimiento para identificar respuestas o artículos muy similares. Técnicamente, ambas consisten en realizar una clasificación binaria o un ranking basado en la similitud textual.

Una aplicación descendente muy importante es el emparejamiento de preguntas y respuestas. Cuando un usuario plantea una pregunta en lenguaje natural, no buscamos directamente en el FAQ por palabras clave, sino que primero recuperamos candidatos mediante vectores semánticos y luego reordenamos esos candidatos con un modelo de emparejamiento más fino (como un Cross-Encoder) para seleccionar el más probable. Esta cadena constituye la base de los chatbots de FAQ y los sistemas de preguntas y respuestas sobre documentos.

En esta capa ya tenemos la capacidad de clasificar fragmentos completos de texto y juzgar sus relaciones. Pero en muchos escenarios, el negocio no se conforma con esto y quiere ir más allá, deseando saber: ¿qué entidades concretas se mencionan en este texto y qué eventos han ocurrido?. Esto nos conduce de forma natural al tema de la siguiente sección: etiquetado de secuencias y extracción de información.## 1.3 Etiquetado de secuencias y extracción de información (Sequence Labeling & Information Extraction)

Después de completar la clasificación y el emparejamiento general del texto, a menudo surge una necesidad más detallada: no basta con saber "de qué trata este artículo o cuál es su nivel de riesgo", sino que también necesitamos saber "a quién menciona específicamente, dónde, cuándo y qué importe". Esta sección representa un paso clave desde el juicio global hacia la "estructuración de granularidad fina". Podemos entenderlo así: partiendo de la premisa de que ya sabemos "qué tipo de texto debemos examinar y de qué trata aproximadamente", extraemos del interior del texto entidades, relaciones, eventos y distintos campos, de modo que el texto no estructurado pueda ser consumido directamente por los sistemas de negocio. De nuevo, abordamos esta capa desde cuatro perspectivas: objetivo, principios, modelos y producto:

  • Escenarios
    • Estructuración de textos sectoriales: extraer de documentos como contratos, informes, comunicados, historiales clínicos y políticas, campos clave como nombres de personas, organizaciones, importes, fechas y cláusulas, para su almacenamiento y recuperación.
    • Grafos de conocimiento y redes de relaciones: identificar entidades y sus relaciones a partir de noticias, artículos académicos y preguntas-respuestas, para construir grafos de "quién tiene qué relación con quién", utilizados en búsqueda, recomendación y análisis.
    • Procesamiento de facturas y documentos: extraer automáticamente campos como cabecera, NIF, importe y fecha de facturas, extractos bancarios y notas de gastos, reduciendo la entrada manual de datos.
    • Análisis de opinión pública y eventos: extraer de grandes volúmenes de texto "quién hizo qué, cuándo y dónde", para seguimiento de eventos, alertas de riesgo e informes estadísticos.
    • Estructuración de registros y tickets: extraer información clave de textos no estructurados como conversaciones de atención al cliente, tickets y registros del sistema, facilitando la estadística, la monitorización y el procesamiento automatizado.
  • Principios A nivel de token / frase, se realiza un etiquetado fino y una estructuración del texto:
    • Etiquetado de secuencias: asignar etiquetas a cada token (como nombre de persona, lugar, organización, producto, etc.), logrando el reconocimiento de entidades nombradas, el etiquetado gramatical y la segmentación de frases;
    • Extracción de relaciones y eventos: sobre las entidades, identificar relaciones "entidad-entidad", así como la estructura de eventos de "quién hizo qué, cuándo y dónde";
    • Extracción de campos de negocio: en torno a esquemas de negocio concretos (como campos de contrato o de factura), convertir documentos largos en pares clave-valor o tablas de registros estandarizadas.
  • Modelos Sobre la base de representaciones preentrenadas, se completa la extracción de información mediante estructuras como el etiquetado de secuencias o la extracción basada en spans:
    • Modelos de etiquetado de secuencias: BiLSTM‑CRF, BERT + CRF / Softmax, etc.;
    • Extracción basada en spans: predecir directamente las posiciones de inicio y fin de fragmentos de entidad / relación;
    • Extracción a nivel de documento: modelos tipo DocIE que combinan formato y disposición;
    • Extracción basada en LLM: mediante Prompt / Few‑shot, hacer que los modelos grandes extraigan los campos requeridos en un formato especificado.

1.3.1 Etiquetado de secuencias: asignar "etiquetas" semánticas a cada token y frase

En la fase de clasificación de texto, solo nos importa a qué categoría pertenece el texto completo; en la fase de etiquetado de secuencias, necesitamos etiquetar cada token y cada segmento de frase del texto. La tarea más representativa es el reconocimiento de entidades nombradas (NER): identificar nombres de personas, organizaciones, lugares, productos, enfermedades y otros tipos específicos de entidades.

  • Por ejemplo, en la frase "Zhang San se incorporó a cierta empresa tecnológica en Pekín", etiquetar "Zhang San" como persona, "Pekín" como lugar y "cierta empresa tecnológica" como organización.

Desde el punto de vista del modelado, el enfoque tradicional utiliza estructuras de etiquetado de secuencias como BiLSTM + CRF; posteriormente se adoptaron más BERT + CRF o BERT + Softmax, aprovechando la capacidad de representación contextual del encoder preentrenado para determinar la etiqueta de cada token (como B‑ORG, I‑ORG, O, etc.). En la práctica, el modelo NER suele ser el primer paso de "preprocesamiento" para los grafos de conocimiento y la extracción de relaciones posteriores.

Además del NER, el etiquetado gramatical (POS tagging) y la segmentación de frases también son tareas típicas de etiquetado de secuencias. Estas tareas sirven principalmente al análisis lingüístico de bajo nivel, proporcionando la estructura básica para tareas gramaticales / semánticas más complejas posteriores.

  • Por ejemplo, para "mejorar rápidamente el rendimiento del modelo", etiquetar "rápidamente" como adverbio, "mejorar" como verbo y "rendimiento" como sustantivo, para su uso en análisis posteriores.

1.3.2 Extracción de relaciones y eventos: convertir los "puntos" en "líneas" e "historias"

Una vez que hemos identificado las entidades en el texto mediante el etiquetado de secuencias, surge una pregunta lógica: ¿qué relaciones existen exactamente entre estas entidades y qué tipo de eventos conforman en conjunto?

La extracción de relaciones se centra en "pares de entidades + tipo de relación". Por ejemplo, en la frase "Zhang San se incorporó a cierta empresa tecnológica como CTO en 2024", no solo debemos identificar las entidades "Zhang San" y "cierta empresa tecnológica", sino también extraer la relación "trabaja en" entre ellas.

  • En términos sencillos, se trata de asignar una etiqueta de relación como "empleo" al par de entidades "Zhang San – cierta empresa tecnológica".

Sobre la base de las relaciones, la extracción de eventos intenta reconstruir "quién hizo qué, cuándo y dónde". Tomando una noticia como ejemplo, una plantilla de evento estándar puede incluir múltiples campos: tipo de evento (adquisición, cooperación, accidente), fecha, lugar, participantes, importe, consecuencias, etc. El modelo de extracción de eventos debe rellenar automáticamente estos campos a partir de textos extensos, construyendo así una "tabla de eventos" que pueda ser consultada, analizada estadísticamente y sobre la que se pueda razonar.

  • Por ejemplo, de "cierta empresa adquirió otra empresa por 500 millones de yuanes" extraer: tipo de evento = adquisición, importe = 500 millones de yuanes, partes involucradas = dos empresas.

En cuanto a los métodos de modelado, además de la extracción tradicional basada en etiquetado de secuencias, también se emplea la extracción basada en spans (Span‑based IE, que predice directamente las posiciones de inicio y fin de los spans de entidad/relación), así como la extracción basada en prompts (Prompt‑based IE) y la extracción Few‑shot basada en LLM, que han surgido en los últimos años. La ventaja de esta última es que, mediante instrucciones en lenguaje natural, permite adaptarse rápidamente a nuevos esquemas, reduciendo considerablemente el coste de reetiquetado y reentrenamiento.

Desde una perspectiva de ingeniería, un sistema de extracción maduro suele formar una cadena de procesamiento:

  • El NER / etiquetado de secuencias en la fase inicial identifica las entidades;
  • La capa intermedia modela las relaciones y la estructura de eventos;
  • La fase final escribe los resultados en una base de datos o grafo de conocimiento, para que los consuman los sistemas de búsqueda, análisis y control de riesgos.## 1.4 Generación y edición de texto (Text Generation & Editing)

En las secciones anteriores, hemos construido secuencialmente la cadena de comprensión "representación → clasificación y emparejamiento → etiquetado de secuencias y extracción": el modelo no solo puede mapear texto a un espacio semántico, sino también emitir juicios sobre fragmentos completos de texto y extraer información estructurada de ellos. Lo que haremos en esta sección es recorrer esta cadena de comprensión en sentido inverso: partiendo de una comprensión sólida, permitir que el modelo produzca, reescriba, comprima y refine texto de forma proactiva. Puedes entenderlo como una "codificación inversa" en el espacio semántico, transformando representaciones internas de nuevo en una salida de lenguaje natural de alta calidad; es la capa más cercana a la percepción del usuario dentro de toda la cadena de capacidades de la modalidad textual. Como siempre, lo desglosamos desde cuatro dimensiones: objetivo, principios, modelos y producto:

  • Escenarios
    • Escritura cotidiana y ofimática: generar correos electrónicos, notificaciones, borradores de propuestas, o ampliar, reescribir y refinar textos existentes.
    • Gestión del conocimiento y resúmenes: generar resúmenes automáticos de documentos extensos, informes y actas de reuniones para ayudar a captar rápidamente los puntos clave.
    • Atención al cliente y preguntas y respuestas: generar automáticamente respuestas estructuradas y con un tono uniforme a partir de las preguntas de los usuarios y los materiales recuperados.
    • Marketing y contenido creativo: generar textos publicitarios, publicaciones en redes sociales, presentaciones de eventos, guiones, etc.
    • Escenarios multilingües: realizar traducciones y adaptaciones localizadas manteniendo el significado original, ajustándose a diferentes idiomas y contextos.
  • Principios Sobre la base del modelado del lenguaje, se realiza la creación de texto "desde cero" y la "modificación de contenido existente":
    • Generación libre: producir un texto completo desde cero a partir de una intención, un prompt o un esquema;
    • Reescritura controlada: ajustar el estilo, la longitud y la estructura manteniendo intacta la información central (por ejemplo, resumir, ampliar, cambiar de estilo);
    • Corrección y refinamiento: corregir erratas y problemas gramaticales, optimizar el orden de expresión y la estructura lógica.
  • Modelos Principalmente modelos generativos basados en preentrenamiento a gran escala + ajuste fino por instrucciones:
    • LLM con ajuste fino por instrucciones: series GPT, LLaMA / Qwen / GLM, etc., para generación y edición de propósito general;
    • Modelos Seq2Seq: T5, BART, mT5, etc., para tareas de resumen, traducción, conversión de formato, etc.;
    • Alineación y seguridad: mediante técnicas como RLHF / RLAIF, se logra que el contenido generado cumpla mejor con las instrucciones y los requisitos de seguridad.

Dado que esta parte equivale básicamente a la ingeniería de prompts, no profundizaremos más aquí; puedes consultar el tutorial de la sección de ingeniería de prompts por tu cuenta.# 2. Modalidad de imagen (Image / Vision)

En las capacidades de IA, la modalidad de imagen se encarga de «comprender el mundo mediante la visión». Ya sea que el objetivo final sea la videovigilancia, la conducción autónoma, los efectos especiales en vídeos cortos, la edición inteligente de imágenes para comercio electrónico, las preguntas y respuestas multimodales o la generación de imágenes con IA, en esencia todo sigue un mismo camino: partir de píxeles en bruto para obtener progresivamente una comprensión estructurada de la imagen y la capacidad de generación controlada.## 2.1 Visión de bajo nivel (Low‑Level Vision)

En la sección anterior, presentamos de forma general el papel de la modalidad visual en los sistemas multimodales y cómo se articula con el lenguaje y la voz. Pero antes de adentrarnos en las «tareas semánticas de alto nivel» como la detección de objetos, la comprensión de imágenes o las preguntas y respuestas visuales, existe una capa de capacidad fundamental que a menudo se pasa por alto, aunque es crucial: la visión de bajo nivel. Puedes entenderla así: antes de «comprender qué hay en la imagen», el sistema necesita resolver dos cuestiones: «¿cuál es la calidad de esta imagen?» y «¿qué estructuras locales estables pueden ser reutilizadas por las capas superiores?». Mediante una capa genérica de restauración, mejora y extracción de estructuras, los píxeles en bruto se transforman en representaciones de imagen más limpias y estables.

Desde una perspectiva de ingeniería, la visión de bajo nivel influye directamente tanto en la «experiencia de calidad de imagen» que percibe el usuario a simple vista, como en la calidad de la distribución de entrada que reciben las tareas superiores de detección, reconocimiento, segmentación, etc. Si esta capa no funciona bien, todos los modelos posteriores tendrán que lidiar con entornos de «mucho ruido, distorsión severa e iluminación extrema». Por el contrario, si en esta capa se corrige la imagen tanto como sea posible y se extrae bien la información estructural, las tareas de alto nivel podrán desplegar sus capacidades sobre una base mucho más favorable. A continuación, analizamos esta capa desde tres perspectivas: escenarios, principios y modelos:

  • Escenarios
    • Cámaras y dispositivos de captura: reducción automática de ruido, HDR, modo nocturno, estabilización en móviles y cámaras, fusión de múltiples fotogramas para mejorar el detalle y el rango dinámico.
    • Plataformas de contenido y vídeos cortos: mejora de calidad de imagen con un solo clic al subir imágenes o vídeos, eliminación de artefactos de compresión, aumento de nitidez y contraste, mejora de la percepción subjetiva.
    • Restauración de fotos antiguas y documentos: reducción de ruido, coloreado y superresolución de fotos antiguas; enderezado y mejora automática de recibos, contratos y páginas de libros torcidos u oscurecidos, para facilitar el OCR.
    • Vigilancia y seguridad: reducción de ruido, desempañado, eliminación de gotas de lluvia y mejora de resolución en imágenes de vigilancia con poca luz, sentando las bases para el reconocimiento posterior de rostros y matrículas.
    • AR/VR y reconstrucción 3D: provisión de esquinas, bordes y descriptores locales estables para SLAM, unión de panorámicas y reconstrucción 3D, garantizando la robustez del seguimiento y el registro.
  • Principios En torno a los dos objetivos centrales de «calidad de imagen» y «estructura local», se realiza un modelado físico y estadístico de la información a nivel de píxel:
    • Restauración y mejora de imagen: se asume que la imagen observada es el resultado de degradar una imagen ideal mediante ruido, núcleos de desenfoque, compresión y no linealidades de captura. Bajo esta premisa se realiza reducción de ruido, eliminación de desenfoque, eliminación de artefactos de compresión, mejora en baja iluminación y reconstrucción de superresolución, para que la salida se aproxime más a la imagen real de la escena y, al mismo tiempo, se ajuste a los hábitos de percepción del ojo humano.
    • Extracción de características estructurales: sin introducir etiquetas semánticas concretas, se extraen bordes, esquinas, texturas locales, regiones salientes y otras características a partir de gradientes de píxeles y estadísticas de textura, proporcionando un «esqueleto geométrico» para las tareas posteriores de detección, registro, seguimiento y segmentación.
    • Preprocesamiento geométrico y de iluminación: basándose en el modelo de cámara y en pistas geométricas simples (líneas rectas, puntos de fuga, simetrías, etc.), se estiman las relaciones de distorsión y perspectiva. Mediante operaciones como corrección de distorsión, enderezado, normalización de contraste e iluminación, la imagen original se alinea con un espacio de entrada más estándar y estable.
  • Modelos Se combinan métodos clásicos de procesamiento de imágenes con modelos de aprendizaje profundo, buscando un equilibrio entre eficiencia y efectividad:
    • Procesamiento de imágenes tradicional: filtro bilateral, medias no locales, filtro guiado, Retinex, ecualización de histograma, detección de bordes Canny/LoG, esquinas Harris/FAST, descriptores SIFT/SURF/ORB, transformada de Hough, calibración de cámara y corrección geométrica, entre otros.
    • Modelos profundos de restauración y mejora: modelos basados en CNN o Transformers visuales para reducción de ruido, eliminación de desenfoque, superresolución, eliminación de lluvia/niebla/artefactos de compresión (como EDSR, RCAN, SwinIR, ESRGAN, etc.), así como redes de mejora multifotograma o de vídeo, que aprenden de forma extremo a extremo el mapeo de una imagen degradada a una de alta calidad, o utilizan modelos modernos de edición de imágenes como Jimeng y los modelos de edición de Qwen.

2.1.1 Restauración y mejora de imagen: de «poder ver» a «ver con claridad»

Dentro de la visión de bajo nivel, la restauración y mejora de imagen se enfrentan en primer lugar a diversas degradaciones: ruido, desenfoque, distorsión por compresión, poca luz, rango dinámico insuficiente, etc. En muchos escenarios reales, las imágenes originales no son «limpias»: las fotos nocturnas y en interiores con poca luz aparecen llenas de grano y manchas de color, las capturas rápidas y de vigilancia a menudo salen borrosas por movimiento o desenfoque, y la compresión de vídeo introduce artefactos de bloque. El objetivo de la restauración y mejora es, sin alterar el contenido semántico de la imagen, recuperar en la medida de lo posible los detalles nítidos y una apariencia natural, convirtiendo una entrada «borrosa, oscura y sucia» en algo «nítido, brillante y agradable».

Las tareas típicas incluyen la reducción de ruido, la eliminación de desenfoque, la mejora en baja iluminación y la superresolución. La reducción de ruido y la eliminación de desenfoque requieren un equilibrio entre la textura local y la estructura global: hay que suprimir el ruido de alta frecuencia y deconvolucionar el efecto del núcleo de desenfoque, pero sin eliminar también los detalles reales. La mejora en baja iluminación debe aumentar el brillo y el contraste evitando que el ruido de las zonas oscuras se amplifique, corrigiendo al mismo tiempo las dominantes de color y controlando las zonas sobreexpuestas. La superresolución se centra en generar información de alta frecuencia plausible al ampliar, de modo que la imagen ampliada no parezca «borrosa» ni con un «aspecto plástico» exagerado, pero sin «inventar» detalles de la nada. Los métodos modernos utilizan mayoritariamente redes profundas (CNN o Transformers visuales), aprendiendo el mapeo de la imagen observada y a la imagen ideal x sobre grandes volúmenes de datos emparejados «degradado–nítido», y empleando un objetivo combinado que incluye error de píxel, pérdida perceptual y pérdida adversarial, para lograr un equilibrio entre «buenas métricas» y «buena apariencia para el ojo humano».

En los productos, estas capacidades suelen manifestarse de forma implícita: el modo nocturno y la fotografía HDR de las cámaras de los móviles, la mejora de calidad con un clic en las plataformas de vídeos cortos, las herramientas de restauración de fotos antiguas, los servicios de mejora en la nube de los sistemas de vigilancia… todos dependen en esencia de los módulos de restauración y mejora de esta capa. Para el negocio, influyen directamente tanto en la percepción subjetiva de «calidad de imagen» por parte del usuario, como indirectamente en la calidad de entrada que reciben los algoritmos superiores de detección, reconocimiento y segmentación. Se puede decir que, cuanto más complejas son las tareas visuales de alto nivel, más dependen de una «base de imagen» de alta calidad y con una distribución estable en la capa inferior.

2.1.2 Características estructurales y preprocesamiento: construir el «andamiaje» para la comprensión de alto nivel

Una vez que la calidad de la imagen se ha restaurado a un nivel utilizable, la segunda tarea clave de la visión de bajo nivel consiste en extraer de los píxeles aquellas características que, sin relación directa con una semántica concreta, son muy importantes para la estructura geométrica y la percepción visual, y en unificar la geometría y la iluminación. Este paso no te dirá directamente «aquí hay un coche» o «esta es la cara de alguien», pero responderá a preguntas como «dónde hay contornos nítidos y esquinas», «qué regiones tienen una estructura de textura significativa», «si la imagen está distorsionada o inclinada», etc., proporcionando una entrada estructural fiable para los modelos superiores.

En cuanto a la extracción de características, los bordes y las esquinas son los elementos más básicos. Mediante operadores como Canny o Sobel, el sistema puede marcar en toda la imagen los «bordes» donde el cambio de intensidad o color es más acusado, que suelen corresponder a contornos de objetos, límites entre partes y direcciones de textura. La detección de esquinas (como Harris, FAST) localiza aquellos «rincones» donde el gradiente local cambia significativamente en múltiples direcciones, que suelen aparecer en vértices de objetos e intersecciones de líneas. Además, los descriptores locales como SIFT, SURF u ORB codifican el patrón de textura de una pequeña región alrededor de estos puntos clave, de manera que el mismo punto físico pueda ser emparejado bajo distintos ángulos de visión, escalas y ciertas variaciones de iluminación. Esto proporciona un soporte fundamental para el registro de imágenes, la unión de panorámicas, SLAM, el seguimiento en AR y la reconstrucción 3D.

Paralelamente a la extracción de características, se llevan a cabo diversas operaciones de preprocesamiento geométrico y de iluminación. La distorsión de barril o cojín causada por lentes gran angular, la inclinación y el estiramiento en perspectiva al fotografiar documentos, se identifican mediante pistas geométricas de bajo nivel como la detección de líneas rectas y la estimación de puntos de fuga, y se «devuelven a la normalidad» mediante pasos de corrección de distorsión, enderezado y corrección de perspectiva. La ecualización de histograma global o adaptativa, el estiramiento de contraste y la normalización de iluminación mejoran el contraste local y mitigan los efectos de la iluminación desigual y las sombras, sin sacrificar los detalles. Las transformaciones de espacio de color (RGB→HSV/Lab) y las estadísticas de histograma de color proporcionan entradas directamente utilizables para tareas como la segmentación simple basada en color, la detección de regiones salientes y la corrección de dominantes de color.

Desde que el aprendizaje profundo de extremo a extremo se ha convertido en la corriente principal, parte de estas características estructurales y de este preprocesamiento se han «internalizado» en los núcleos de convolución y las estrategias de normalización de las primeras capas de la red, y ya no aparecen como operadores explícitos en los diagramas de arquitectura del sistema. Sin embargo, desde un punto de vista funcional, siguen desempeñando el mismo papel: primero se utiliza una capa de procesamiento de bajo nivel relativamente genérica, independiente de las categorías concretas, para organizar los píxeles en bruto en una representación más estable en cuanto a forma geométrica, condiciones de iluminación y estructura local, y luego se entrega a los módulos superiores de clasificación, detección, segmentación y multimodalidad para que completen la tarea de «comprender qué es esto». Sin este «andamiaje», los modelos superiores se verían obligados a lidiar con imágenes originales ruidosas, muy distorsionadas y de estructura borrosa, y tanto la robustez como la capacidad de generalización de todo el sistema se reducirían significativamente.## 2.2 Clasificación y reconocimiento de imágenes (Image Classification & Recognition)

En la mayoría de las tareas de imagen, lo que realmente le importa al negocio es: ¿A qué categoría pertenece esta imagen en su conjunto? ¿Quién es esta persona en la foto? ¿Es el mismo peatón bajo diferentes cámaras? Puedes entender esta capa como: sobre un espacio de entrada unificado y limpio, asignar "etiquetas de categoría" o "etiquetas de identidad" a la imagen completa, a una persona o a un objeto, transformando las señales visuales en resultados de reconocimiento directamente utilizables.

Desde la perspectiva del producto, la clasificación y el reconocimiento de imágenes fueron de las primeras capacidades visuales en desplegarse a gran escala, y también son el "módulo de entrada" para muchas aplicaciones de nivel superior. Las plataformas de e-commerce y contenido lo utilizan para etiquetar imágenes automáticamente e identificar categorías de productos; los sistemas de seguridad y control de acceso lo emplean para verificar "si es la misma persona"; y los sistemas de re-identificación de peatones rastrean al mismo objetivo a través de múltiples cámaras para reconstruir su trayectoria. A continuación, analizamos esta capa desde tres ángulos: escenarios, principios y modelos:

  • Escenarios
    • Comprensión general de imágenes: etiquetado automático de imágenes subidas por usuarios con temas como "paisaje / comida / mascota / documento" para búsqueda, recomendación y moderación de contenido.
    • Reconocimiento facial y control de acceso: en sistemas de acceso facial y fichaje, identificación de personas a partir de imágenes faciales para permitir el "acceso por rostro" o el "fichaje por rostro".
    • Re-identificación de peatones/personas: determinar si se trata del mismo peatón o persona en diferentes imágenes de cámara, utilizado en búsquedas de seguridad y análisis de trayectorias.
    • Reconocimiento de atributos corporales: sin confirmar directamente la identidad, identificar atributos como género, rango de edad, si lleva gorro/mochila/uniforme, etc., proporcionando pistas para la búsqueda y el análisis de comportamiento.
  • Principios Modelado discriminativo sobre la imagen completa, la persona o el objeto en un espacio de características visuales unificado:
    • Clasificación de imágenes: tomando la imagen completa como entrada, se extraen características globales mediante redes convolucionales o Vision Transformers, y se añade una cabeza de clasificación sobre las características para generar probabilidades de categoría (etiqueta única o múltiple), respondiendo a "qué tipo de imagen es esta".
    • Reconocimiento de identidad/instancia: el problema de "quién es" se transforma en un problema de aprendizaje métrico en el espacio de características, es decir, aprender un espacio de embedding donde las características de imágenes de la misma identidad estén cerca entre sí y las de diferentes identidades estén alejadas, para luego completar el reconocimiento y la búsqueda mediante búsqueda de vecinos más cercanos o clustering.
    • Reconocimiento de atributos: sobre las características compartidas de peatón/persona, se añaden múltiples cabezas de salida multitarea para predecir etiquetas de atributos como género, rango de edad, color de ropa, si porta objetos, etc., de modo que una misma representación de características pueda servir para diversas necesidades de búsqueda y análisis posteriores.
  • Modelos Basados en redes convolucionales profundas y Vision Transformers como backbone, combinados con cabezas de clasificación o aprendizaje métrico para distintos tipos de tareas de reconocimiento:
    • Backbones de clasificación de imágenes: ResNet, DenseNet, EfficientNet, ConvNeXt, Vision Transformer (ViT), Swin Transformer, etc., normalmente pre-entrenados en conjuntos de datos a gran escala como ImageNet y luego ajustados (fine-tuning) con datos específicos del negocio.
    • Estructura de clasificación general: Backbone + capa de clasificación fully connected (Softmax / Sigmoid), para tareas de clasificación de imágenes de etiqueta única o múltiple; se pueden usar técnicas como reponderación de clases o focal loss para manejar distribuciones de cola larga.
    • Reconocimiento de identidad/instancia: sobre la salida de características del Backbone, se utilizan funciones de pérdida con restricciones angulares como ArcFace, CosFace, SphereFace, que amplían explícitamente el margen entre clases de diferentes identidades, mejorando la separabilidad en el espacio de características, y se completa la comparación a gran escala mediante búsqueda vectorial aproximada (ANN).
    • Estructura de reconocimiento de peatones/atributos: para Re-ID de peatones y reconocimiento de atributos corporales, es habitual usar un Backbone compartido para extraer características del peatón, y luego dividir en la parte superior una "rama de identidad" y una "rama de atributos", optimizando tanto la capacidad de distinción de identidad entre cámaras como la predicción de múltiples atributos.

En cuanto a la forma del producto, las capacidades de esta capa suelen ofrecerse como "API de reconocimiento/clasificación de contenido de imágenes", "SDK/SaaS de reconocimiento facial" o "plataforma de re-identificación de peatones". A menudo, estas capacidades impulsan directamente decisiones de negocio (como la apertura de un torno o la escritura de etiquetas de contenido), y también actúan como módulo previo, proporcionando etiquetas estructuradas y representaciones de identidad estables para tareas posteriores como búsqueda, recomendación, análisis de comportamiento y comprensión multimodal. A continuación, desarrollamos los dos enfoques: clasificación de imágenes y reconocimiento de identidad/atributos.

2.2.1 Clasificación de imágenes: responder a "¿qué tipo de imagen es esta?"

En la tarea más básica de clasificación de imágenes, el sistema recibe una imagen completa y el objetivo es asignarle una o varias etiquetas semánticas de categoría. El caso más común es la clasificación de etiqueta única: por ejemplo, en conjuntos de datos como ImageNet, cada imagen se etiqueta con una categoría principal como "perro", "gato", "coche", "avión"; en escenarios de negocio, esta capacidad se usa ampliamente para asignar etiquetas temáticas como "paisaje / comida / mascota / retrato / documento" a las imágenes subidas por usuarios, facilitando la búsqueda, recomendación y moderación de contenido. De forma similar a la clasificación de texto, el modelo añade una capa fully connected + Softmax sobre las características visuales globales extraídas por el Backbone pre-entrenado y genera una distribución de probabilidad sobre todas las categorías candidatas.

En muchas aplicaciones reales, una imagen suele pertenecer a varias categorías a la vez: por ejemplo, una "foto de atardecer en la playa con selfie" puede ser tanto "paisaje" como "retrato", y también puede etiquetarse como "viaje" o "playa". Aquí se necesita clasificación multi-etiqueta (Multi‑label Classification): el modelo sigue partiendo de las características globales de la imagen, pero la capa de salida ya no es un Softmax excluyente, sino que predice de forma independiente la probabilidad de presencia/ausencia de cada etiqueta (Sigmoid), y se entrena con una función de pérdida multi-etiqueta. Para manejar la abundancia de "categorías de cola larga" (etiquetas poco frecuentes con muy pocas muestras) en los datos reales, los modelos de clasificación multi-etiqueta suelen incorporar mecanismos como reponderación de clases, minería de ejemplos difíciles o modelado de estructura de etiquetas, para mejorar el recall en categorías minoritarias.

En la interfaz humano-máquina, la clasificación de imágenes suele ofrecerse como una "API de reconocimiento de contenido de imágenes". El sistema upstream solo necesita subir una imagen para obtener un conjunto de etiquetas de categoría con sus niveles de confianza, que se utilizan para decisiones posteriores: por ejemplo, un sistema de publicación de anuncios puede restringir ciertas categorías sensibles según el contenido de la imagen, una plataforma de e-commerce puede usar la clasificación de imágenes para corregir categorías de productos, y una plataforma de contenido puede enriquecer sus señales de recomendación y moderación. Aunque desde el punto de vista técnico estas capacidades son relativamente maduras, siguen siendo la base sobre la que se construyen capacidades más complejas como detección de objetos, segmentación de instancias o respuesta a preguntas visuales (VQA).

2.2.2 Reconocimiento de imágenes y atributos: responder a "¿quién es? / ¿qué instancia es esta?"

A diferencia de "qué tipo de imagen es esta", el reconocimiento de imágenes se centra más en "quién es la persona/objeto en la imagen", es decir, una distinción a nivel de identidad o de instancia. Los ejemplos típicos son el reconocimiento facial y la re-identificación de peatones: el primero determina, en escenarios de control de acceso, fichaje o pago, "a qué identidad de la base de datos se parece más el rostro actual"; el segundo busca al mismo peatón entre múltiples cámaras y en distintos momentos temporales para apoyar la investigación de casos y el análisis de trayectorias. El núcleo de estas tareas ya no es la simple clasificación múltiple, sino cómo aprender en el espacio de características un embedding "compacto dentro de cada clase y separado entre clases", de modo que las imágenes de la misma identidad capturadas bajo diferentes poses, iluminaciones y cámaras puedan agruparse juntas.

En cuanto al diseño del modelo, el reconocimiento facial y la re-identificación de peatones suelen seguir un paradigma similar: primero se utiliza un Backbone como ResNet, ConvNeXt, ViT o Swin para extraer características centradas en el rostro o el peatón, y luego se aplican funciones de pérdida diseñadas específicamente para aprendizaje métrico, como ArcFace, CosFace, etc. A diferencia de las pérdidas de clasificación convencionales, estas pérdidas restringen directamente los márgenes entre clases en el espacio angular o de características, ampliando explícitamente la separación entre características de diferentes identidades, de modo que las características resultantes tras el entrenamiento puedan usarse para búsqueda vectorial a gran escala sin limitarse a las categorías fijas vistas durante el entrenamiento. En el servicio en línea, el sistema primero calcula e indexa las características de cada identidad en la galería, y luego realiza una búsqueda aproximada de vecinos más cercanos (ANN) sobre las características del rostro/peatón de la consulta, encuentra los candidatos más similares y toma la decisión final combinando umbrales de negocio e información multimodal.

Frente al "reconocimiento directo de identidad" se encuentra el reconocimiento de atributos, que no apunta a una persona concreta. En muchos escenarios de seguridad y retail, el sistema solo necesita saber "si es hombre o mujer", "rango de edad aproximado", "si lleva gorro/mascarilla", "color y estilo de ropa", "si lleva mochila/equipaje", etc., para filtrar rápidamente objetivos, sin necesidad —ni conveniencia— de revelar directamente la identidad personal. Este tipo de tareas suele añadir, sobre las características compartidas de peatón/persona, múltiples cabezas de atributos en paralelo (por "cabeza" se entiende la posición de salida de probabilidad, pudiendo tener varias salidas de probabilidad para decidir la categoría), donde cada cabeza se encarga de predecir una o un grupo de etiquetas de atributos, formando un marco de aprendizaje multitarea. Por un lado, el entrenamiento multitarea puede enriquecer las características y mejorar la generalización; por otro, los atributos en sí mismos pueden servir como condición auxiliar para Re-ID o búsqueda, aumentando la usabilidad del sistema en escenarios complejos.

En cuanto a la forma del producto, estas capacidades suelen empaquetarse como "SDK/servicio en la nube de reconocimiento facial", "plataforma de re-identificación de peatones", "API de reconocimiento de atributos corporales", etc., y se integran en tornos de acceso, terminales de fichaje, plataformas de seguridad y sistemas de estructuración de vídeo. En comparación con la clasificación general de imágenes, estas capacidades requieren mayores estándares de seguridad de datos y protección de la privacidad, y son más sensibles a la compensación entre tasa de falsos positivos y recall. Por ello, más allá de los algoritmos, se complementan con mecanismos como control de calidad (detección de si es una persona real, si hay oclusión o re-grabación), detección de vida (liveness detection) y verificación cruzada multimodal, conformando una solución de reconocimiento de identidad más completa y responsable.## 2.3 Detección de objetos (Object Detection)

En las secciones anteriores sobre clasificación y reconocimiento de imágenes, solo asignábamos una etiqueta global a "la imagen completa" o "la persona completa", ignorando su posición y tamaño dentro de la imagen. Sin embargo, la pregunta más habitual en el entorno empresarial real es: ¿qué objetos aparecen en esta imagen y dónde se encuentran? Por ejemplo, en una imagen de una calle queremos marcar simultáneamente todos los peatones, vehículos y señales de tráfico; en una línea de producción industrial necesitamos señalar todas las zonas defectuosas y posiciones de componentes dentro de la misma imagen. La detección de objetos nace para satisfacer estas necesidades: predice simultáneamente, en una sola imagen o fotograma de vídeo, la posición (bounding box) y la categoría de cada objeto, y constituye la capacidad fundamental para numerosas tareas visuales derivadas (seguimiento, segmentación, análisis de comportamiento, conteo multiobjeto, etc.).

Desde una perspectiva de uso en ingeniería, la detección de objetos es el "primer paso de estructuración" en muchos sistemas de visión: descompone una imagen en bruto en varios rectángulos etiquetados, cada uno de los cuales puede enviarse a otros módulos para reconocimiento, seguimiento, análisis de atributos e incluso generación semántica. La detección de peatones y vehículos en cámaras de seguridad, la detección de productos en estanterías de comercio minorista no tripulado, la detección de defectos y objetos extraños en inspección de calidad industrial, así como las API de "detección de objetos / detección de objetos" que ofrecen los proveedores de nube, dependen esencialmente de esta capacidad. A continuación, organizamos la detección de objetos desde tres perspectivas: escenarios, principios y modelos, y en las subsecciones siguientes desarrollamos cada dirección clave.

  • Escenarios
    • Seguridad y monitorización de tráfico: detección en tiempo real de peatones, vehículos, vehículos no motorizados, señales de tráfico, vehículos en dirección contraria u ocupando carriles indebidamente, etc., en las imágenes de cámara, proporcionando la base para el análisis de comportamiento y las alertas posteriores.
    • Inspección de calidad industrial y fabricación: detección de defectos en productos (arañazos, roturas, objetos extraños), posiciones de componentes y montajes faltantes en la línea de producción, facilitando la eliminación automática y el posicionamiento robótico.
    • Comercio minorista y logística: detección de productos en estanterías de comercio no tripulado y en cajas de cobro; detección y localización de paquetes, palés y pilas en almacenes, como apoyo al inventario y la manipulación robótica.
    • Comprensión y moderación de contenido: detección de personas, logotipos, armas, objetos sensibles, etc., en imágenes y vídeos, proporcionando señales estructuradas para la moderación de contenido, el cumplimiento publicitario y el reconocimiento de marca.
  • Principios El núcleo de la detección de objetos consiste en construir un mecanismo de predicción densa sobre la imagen:
    • La imagen de entrada se procesa mediante un Backbone para extraer mapas de características multiescala; sobre estos mapas, en cada "posición" (o región candidata) se predice simultáneamente "si hay un objeto", "de qué categoría es" y "los parámetros del bbox correspondiente".
    • Según la arquitectura, existen los detectores de doble etapa (Two‑stage), que primero generan cajas candidatas y luego las refinan, y los detectores integrados de etapa única (One‑stage), que realizan la clasificación y regresión directamente sobre el mapa de características; ambos difieren en el equilibrio entre precisión y velocidad.
    • Según el diseño de las cajas candidatas, existen métodos basados en anclas (anchor‑based), que dependen de cajas ancla predefinidas, y métodos sin anclas (anchor‑free), que predicen directamente el punto central o los bordes, así como la familia DETR, basada en emparejamiento de conjuntos.
    • Para afrontar objetos pequeños, objetos densos, oclusiones y variaciones de escala en datos reales, los detectores suelen optimizarse combinando características multiescala (FPN), entradas de mayor resolución, funciones de pérdida específicas y estrategias de posprocesamiento como variantes de NMS y pruebas multiescala.
  • Modelos Los modelos de detección se componen principalmente de tres partes: red troncal (backbone) + pirámide de características / estructura de cabeza + pérdida y posprocesamiento:
    • Detectores clásicos de doble etapa: Faster R‑CNN, Mask R‑CNN, etc., que primero generan cajas candidatas mediante RPN y luego realizan una clasificación y regresión fina sobre cada región candidata. Ofrecen alta precisión y una estructura clara, adecuados para escenarios con requisitos de precisión muy exigentes.
    • Detectores de etapa única: SSD, RetinaNet, la serie YOLO (YOLOv5/6/7/8, YOLOX, YOLOv10, etc.), que completan la detección en una red unificada, con estructura compacta y baja latencia, y constituyen la fuerza principal en detección en tiempo real en la industria.
    • Detectores sin anclas / con Transformer: FCOS, CenterNet, ATSS, etc., predicen cajas directamente tomando el píxel como centro; DETR / Deformable DETR, mediante Transformer y emparejamiento de conjuntos, conciben la detección como el problema de "generar un conjunto de objetos a partir de un conjunto de consultas", simplificando numerosos diseños manuales.
    • Detección y seguimiento en vídeo: sobre la base de los detectores de imagen, se incorpora información temporal y estrategias de asociación (como cabezas de seguimiento, flujo óptico, emparejamiento de trayectorias), formando un marco unificado de detección + seguimiento que soporta el análisis de comportamiento multiobjeto y de larga duración.

En conjunto, la detección de objetos ocupa una "posición central" en el espectro de capacidades visuales: por un lado, recibe la entrada de imágenes limpias proporcionada por la visión de bajo nivel y, por otro, descompone la imagen en elementos a "nivel de objeto" que pueden utilizarse para reconocimiento, seguimiento, segmentación y comprensión multimodal. A continuación, desarrollamos tres direcciones: arquitecturas de detección de etapa única frente a doble etapa, detección basada en anclas, sin anclas y con Transformer, y detección de objetos pequeños y en vídeo.

2.3.1 Detección de etapa única frente a doble etapa: el compromiso estructural entre precisión y velocidad

Desde el punto de vista arquitectónico, la división más clásica en detección de objetos es entre doble etapa (Two‑stage) y etapa única (One‑stage). La principal diferencia radica en si se "selecciona primero un lote de cajas candidatas y luego se refinan", o si se "predicen todas las cajas y categorías de una sola vez" sobre el mapa de características.

La detección de doble etapa tiene como representante a Faster R‑CNN. Primero, sobre el mapa de características del Backbone, genera mediante RPN (Region Proposal Network) un conjunto de cajas candidatas con "alta probabilidad de contener un objeto" (primera etapa); luego, para cada región candidata, realiza alineación RoI y extracción de características, seguida de una clasificación y regresión de caja más finas (segunda etapa). La ventaja de este diseño es que una gran cantidad de muestras negativas se filtran en la etapa RPN, y la segunda etapa puede concentrarse en un número reducido de regiones candidatas para realizar un juicio de alta calidad, lo que suele traducirse en una mayor precisión y facilita la extensión a tareas como segmentación de instancias (Mask R‑CNN) y detección de puntos clave (Keypoint R‑CNN). Sin embargo, la complejidad computacional y de implementación que conlleva la estructura multietapa es relativamente alta, por lo que resulta más adecuada para escenarios offline o casi en tiempo real donde la latencia no es crítica, pero se valora la precisión y la extensibilidad.

La detección de etapa única busca unificar todo el flujo, realizando simultáneamente la clasificación de categorías y la regresión de cajas en una sola red unificada. Entre los modelos representativos se encuentran SSD, RetinaNet y la serie YOLO: predicen directamente, en cada posición de los mapas de características multiescala, "primer plano/fondo + categoría + bbox" para varias cajas candidatas, eliminando la etapa explícita de proposal y facilitando la aceleración y el despliegue extremo a extremo. Los primeros detectores de etapa única presentaban cierta desventaja en precisión frente a los de doble etapa, pero gracias a su estructura simple y alta velocidad, pronto dominaron el ámbito industrial. Con la introducción de FPN, focal loss, IoU‑aware loss y Backbones y Necks más potentes, los nuevos modelos como RetinaNet, YOLOX, YOLOv7/8/10 han alcanzado en muchas tareas un equilibrio precisión-velocidad "cercano o incluso superior al de la doble etapa".

En el plano aplicado, en ingeniería se suele elegir entre estas dos arquitecturas según los requisitos: para tareas de análisis offline por lotes en la nube que requieren alta precisión y extensibilidad (por ejemplo, realizar simultáneamente detección + segmentación + puntos clave), la detección de doble etapa sigue siendo una opción estable y fiable; mientras que para escenarios sensibles a la latencia, como dispositivos edge, aplicaciones móviles y detección en tiempo real con cámaras, los detectores de etapa única como la serie YOLO son prácticamente la primera opción por defecto, y a menudo se combinan con técnicas de cuantización, poda y destilación para comprimir aún más el modelo y aumentar el rendimiento.

2.3.2 Basados en anclas frente a sin anclas: del diseño manual al aprendizaje extremo a extremo

En cuanto a cómo definir las "cajas candidatas", los métodos de detección pueden dividirse en dos grandes categorías: basados en anclas (Anchor‑based) y sin anclas (Anchor‑free). Los primeros métodos predominantes (como Faster R‑CNN, SSD, RetinaNet, YOLOv3/v4/v5, etc.) adoptaban el enfoque basado en anclas: en cada posición del mapa de características se predefinen varias cajas ancla (anchors) con distintas escalas y relaciones de aspecto, y luego se aprende la probabilidad de primer plano y el desplazamiento del bbox correspondiente a cada anchor. Este enfoque es sencillo de implementar y ofrece buenos resultados, pero requiere un ajuste manual considerable de los tamaños y proporciones de los anchors, y en escenarios con objetos pequeños o densos tiende a generar un número excesivo de anchors y un desequilibrio extremo entre muestras positivas y negativas.

Los métodos sin anclas intentan liberarse de la dependencia de los anchors predefinidos. Representados por FCOS, CenterNet, ATSS, etc., suelen predecir directamente en cada píxel del mapa de características "si este punto es el centro de algún objeto (o pertenece a él)" y las distancias hasta los bordes correspondientes, eliminando por completo la complejidad de los anchors predefinidos. Las ventajas son: una estructura de modelo más simple, una estrategia de asignación de muestras de entrenamiento más natural y, especialmente ante variaciones de escala grandes y formas de objeto complejas en entornos reales, una mejor capacidad de generalización y extensibilidad. Al mismo tiempo, los detectores sin anclas han impulsado más marcos unificados basados en píxeles o puntos, facilitando el modelado conjunto de la detección con tareas como puntos clave y segmentación.

Yendo un paso más allá, los detectores basados en Transformer como DETR / Deformable DETR reconsideran el problema de detección desde otra dimensión: en lugar de distribuir densamente anchors sobre el mapa de características, introducen un conjunto de "vectores de consulta" (object queries) de tamaño fijo y, mediante los mecanismos de autoatención y atención cruzada del Transformer, "generan" un conjunto de predicciones de objetos a partir de las características globales, logrando una alineación uno a uno mediante emparejamiento húngaro (Hungarian Matching). Esta idea de predicción de conjuntos (set prediction) elimina por completo componentes tradicionales como NMS y la asignación manual de muestras, siendo conceptualmente muy elegante; sin embargo, en las primeras implementaciones presentaba problemas de convergencia lenta y poca amigabilidad con objetos pequeños. Las versiones posteriores como Deformable DETR, al introducir atención deformable y mecanismos multiescala, han mejorado notablemente tanto la velocidad de convergencia como el rendimiento, ganando cada vez más aplicación en escenarios de detección y multitarea.

Para la práctica en ingeniería, los métodos basados en anclas, sin anclas y con Transformer no son opciones mutuamente excluyentes, sino que se asemejan más a una cadena evolutiva: desde el diseño de anchors fuertemente artesanal, pasando por la predicción por puntos o centros más extremo a extremo, hasta un marco unificado completamente basado en predicción de conjuntos y atención. En el despliegue industrial actual, los modelos basados en anclas ya consolidados, como la serie YOLO, siguen siendo la fuerza principal, mientras que los métodos sin anclas y la familia DETR aparecen más en sistemas con altos requisitos de simplicidad estructural, unificación multitarea y extensibilidad.

2.3.3 Objetos pequeños y detección en vídeo: hacia la robustez en escenarios reales

La detección de objetos en conjuntos de datos públicos suele dar la falsa impresión de que "el problema está prácticamente resuelto", pero en cuanto se entra en escenarios reales, surgen inmediatamente dos tipos de problemas espinosos: objetos pequeños y densos, y detección robusta y seguimiento en vídeo.

En la detección de objetos pequeños, el objeto ocupa a menudo una región de píxeles mínima en la imagen original, como peatones lejanos, vehículos distantes, drones aéreos o microdefectos en imágenes industriales de alta resolución. A medida que el Backbone reduce la resolución mediante submuestreo, estos objetos pequeños tienden a "diluirse" en las características de alto nivel, provocando omisiones. Para ello, los detectores suelen emplear pirámides de características multiescala (FPN/PAFPN, etc.), aumentar la resolución de entrada, añadir cabezas de detección en los mapas de características superficiales e incluso diseñar ramas y estrategias de ponderación de pérdida específicas para objetos pequeños. Al mismo tiempo, a nivel de datos es necesario mejorar la capacidad de percepción y memoria del modelo frente a objetos de pequeña escala mediante recorte, ampliación y remuestreo de objetos pequeños.

Los objetos densos (como multitudes abarrotadas, aparcamientos densos, productos o piezas muy apretados) ponen de manifiesto problemas como el solapamiento de cajas ancla, eliminaciones erróneas por NMS y oclusiones graves. Las estrategias de mejora incluyen una asignación de etiquetas más fina (como métodos adaptativos tipo ATSS), NMS suave o estrategias de deduplicación basadas en aprendizaje, y el modelado mediante puntos centrales o mapas de densidad para mitigar la competencia entre cajas. En la inspección de calidad industrial, muchos sistemas combinan además la detección con la segmentación a nivel de píxel para lograr una localización más precisa de los defectos, facilitando el procesamiento automático posterior.

Cuando la detección pasa de fotogramas individuales a vídeo, otro desafío es la continuidad temporal y la estabilidad de los objetos. Los detectores de fotograma único realizan predicciones independientes en cada fotograma, lo que difícilmente evita pérdidas breves de detección, inestabilidad de ID y falsas alarmas, mientras que las aplicaciones reales de alerta, conteo y análisis de trayectorias suelen requerir trayectorias de objetos consistentes entre fotogramas. Para ello, la detección de objetos en vídeo suele incorporar un módulo de seguimiento (Tracking), integrando "detección + seguimiento de objetos": el enfoque clásico utiliza un detector de imagen como frontend y, en el backend, aplica filtros de Kalman, emparejamiento húngaro y similitud de características de apariencia para realizar seguimiento multiobjeto (como SORT, DeepSORT, etc.); un enfoque más avanzado consiste en integrar la cabeza de seguimiento directamente en la red de detección, aprendiendo conjuntamente la detección y la asociación entre fotogramas para mejorar la robustez en escenarios con oclusiones breves y movimientos rápidos.

En sistemas reales, los objetos pequeños, los objetos densos y la detección en vídeo no suelen ser problemas aislados, sino que aparecen simultáneamente: por ejemplo, peatones y vehículos lejanos en la monitorización de calles urbanas, multitudes densas en plazas de estaciones o piezas en movimiento rápido en vídeos de líneas de producción. Esto también determina que un módulo de detección de objetos de alta calidad, además de obtener buenos resultados en benchmarks estándar, debe resistir la prueba de diversas condiciones reales — multiescala, multidensidad, vídeo de larga duración — para poder sustentar verdaderamente el análisis de comportamiento, las alertas inteligentes y la comprensión multimodal en los niveles superiores.## 2.4 Segmentación de Imágenes (Image Segmentation)

Con la detección de objetos ya podemos saber "qué objetos hay en una imagen y dónde se encuentran aproximadamente", pero muchas tareas requieren una comprensión estructural más fina: precisión a nivel de píxel, determinando a qué clase pertenece cada uno, a qué instancia corresponde. Por ejemplo, en la conducción autónoma es necesario saber qué píxeles son carretera, cuáles son peatones y cuáles vehículos; las herramientas de recorte deben separar el cabello del fondo con total nitidez; en imágenes médicas se necesita delimitar con precisión los contornos de tumores y órganos. Este tipo de tareas se agrupan bajo el nombre de segmentación de imágenes, que genera directamente etiquetas semánticas o de instancia a nivel de píxel, proporcionando información estructural espacial más detallada que la detección.

Desde la perspectiva del producto, la segmentación de imágenes es la capacidad central para la "estructuración a nivel de píxel": las herramientas de recorte y reemplazo de fondo dependen de ella para decidir qué píxeles conservar; el módulo de percepción de la conducción autónoma la utiliza para construir un mapa fino de "área transitable + obstáculos"; el software de imagen médica se apoya en ella para medir el tamaño, la forma y el volumen de las lesiones; las plataformas de teledetección la emplean para distinguir tierras de cultivo, masas de agua, edificios, carreteras y otros elementos del terreno. A continuación, organizamos la segmentación de imágenes desde tres ángulos: escenarios, principios y modelos, y en los subapartados siguientes desarrollamos las direcciones de segmentación semántica, de instancias, panóptica y con grandes modelos.

  • Escenarios
    • Edición de contenido y recorte: recorte de retratos, reemplazo de fondo a nivel de cabello, extracción de objetos y edición por capas, utilizados en embellecimiento de imágenes, efectos especiales para vídeos cortos y producción creativa publicitaria.
    • Conducción autónoma y robótica: etiquetado de cada píxel como calzada, línea de carril, peatón, vehículo, barrera, edificio, cielo, etc., para planificación de trayectorias, alerta de colisión y modelado del entorno.
    • Análisis de imágenes médicas: segmentación precisa de órganos, tumores y regiones de lesión en imágenes de TC, RM, ecografía, etc., como soporte al diagnóstico asistido, la planificación quirúrgica y la evaluación de la eficacia terapéutica.
    • Teledetección e información geográfica: segmentación de tierras de cultivo, masas de agua, carreteras, edificios, bosques y otros elementos en imágenes satelitales o aéreas, para planificación territorial, monitorización del uso del suelo y evaluación de desastres.
  • Principios La segmentación de imágenes es esencialmente una "predicción densa": se extraen características multiescala de la imagen de entrada mediante un codificador (backbone) y, a continuación, mediante un decodificador o módulos de upsampling, el mapa de características se restaura progresivamente hasta un mapa de segmentación del mismo tamaño que la entrada, generando en cada posición de píxel una etiqueta semántica o de instancia.
    • Segmentación semántica (Semantic Segmentation): asigna a cada píxel una categoría semántica (como carretera, persona, coche, cielo), sin distinguir entre distintos individuos de la misma clase; adecuada para describir la "composición de la escena".
    • Segmentación de instancias (Instance Segmentation): va un paso más allá de la información semántica al diferenciar instancias distintas de una misma clase, generando máscaras independientes para "cada coche, cada persona"; es una combinación de detección y segmentación.
    • Segmentación panóptica (Panoptic Segmentation): trata de forma unificada los "objetos contables (things, como personas, coches)" y los "fondos no contables (stuff, como carretera, cielo)", proporcionando simultáneamente para cada píxel una etiqueta semántica y un ID de instancia. En comparación con la detección, la segmentación es más sensible a los detalles espaciales y a la calidad de los contornos, y requiere información contextual multiescala más rica y estrategias de upsampling/fusión más refinadas.
  • Modelos La evolución de los modelos de segmentación, desde los clásicos hasta los más recientes, sigue aproximadamente la línea "FCN → codificador-decodificador → contexto multiescala → detección + segmentación unificadas → segmentación con grandes modelos":
    • Segmentación semántica: FCN, U-Net y sus variantes, la familia DeepLab (DeepLabv3/v3+), PSPNet, etc., que obtienen contexto multiescala y contornos precisos mediante convoluciones dilatadas, pooling piramidal, conexiones de salto (skip connections), entre otras técnicas.
    • Segmentación de instancias/panóptica: Mask R-CNN, Panoptic FPN, Mask2Former, etc., que combinan cabezales de detección y segmentación para lograr segmentación a nivel de objeto y segmentación panóptica.
    • Grandes modelos y segmentación universal: modelos fundamentales de segmentación como Segment Anything Model (SAM), que elevan la segmentación de "entrenar un modelo por cada tarea" a "un solo modelo adaptable a la mayoría de escenarios de segmentación", con soporte para segmentación interactiva y basada en prompts (prompt-based).

En conjunto, la segmentación de imágenes ofrece una representación estructural espacial más detallada que la detección de objetos, y es un componente indispensable para construir sistemas de percepción de alta fiabilidad y herramientas de edición avanzadas. A continuación, desarrollamos tres direcciones: segmentación semántica y de instancias, segmentación panóptica y unificación con detección, y segmentación universal, grandes modelos y segmentación no supervisada.

2.4.1 Segmentación semántica y de instancias: de la "categoría de píxel" a la "instancia de píxel"

El objetivo de la segmentación semántica (Semantic Segmentation) es asignar a cada píxel de la imagen una categoría semántica, de modo que la red aprenda que "esta región es carretera, aquella región es un coche, aquí hay una persona, allí están el cielo y los edificios". El enfoque clásico suele adoptar una estructura codificador-decodificador: el codificador (como ResNet, EfficientNet, Swin Transformer, etc.) extrae características de alto nivel con reducción progresiva de resolución, y el decodificador, mediante upsampling, conexiones de salto (skip connections) y fusión multiescala, combina las características semánticas gruesas de alto nivel con los detalles de bajo nivel para restaurar la resolución original. FCN fue el primero en sistematizar esta forma de predicción densa; U-Net, con su estructura simétrica en forma de U y abundantes skip connections, logró un gran éxito en imagen médica; la familia DeepLab, mediante convoluciones dilatadas (dilated convolution) y ASPP (Atrous Spatial Pyramid Pooling), amplía el campo receptivo sin reducir la resolución; PSPNet obtiene información contextual global mediante pooling piramidal. Estos modelos han impulsado conjuntamente aplicaciones a gran escala en escenas de carretera, teledetección, medicina y otros campos.

La segmentación de instancias (Instance Segmentation) va más allá de las etiquetas semánticas por píxel al diferenciar distintos individuos de una misma clase: no basta con saber qué píxeles son "coche", sino también a qué coche concreto pertenece cada píxel. El modelo más representativo es Mask R-CNN, que añade una rama de segmentación paralela sobre el marco de detección de Faster R-CNN: primero predice la clase y la ubicación de cada región candidata mediante el cabezal de detección, y luego genera una máscara binaria dentro de cada caja, obteniendo así un resultado de segmentación a nivel de objeto de "caja + máscara". En comparación con la segmentación puramente semántica, este enfoque maneja bien el solapamiento y la oclusión de objetos, y constituye la base de tareas como el recorte de retratos/productos, el conteo multiobjeto y la edición de grano fino. Los métodos posteriores de segmentación de instancias han mejorado continuamente en calidad de máscara, multiescala y velocidad, y han surgido nuevas arquitecturas basadas en anchor-free y Transformer, pero la idea de "detección + segmentación local" sigue siendo ampliamente predominante.

A nivel de producto, la segmentación semántica suele aparecer en aplicaciones de "nivel de escena", como la segmentación de carreteras para conducción autónoma, el reconocimiento de elementos del terreno por teledetección o la segmentación de órganos en medicina; la segmentación de instancias se utiliza más habitualmente en recorte, conteo y edición a "nivel de objeto", como seleccionar y separar con un solo clic cada coche, cada persona o cada producto. La combinación de ambas proporciona a las tareas de nivel superior información espacial a la vez detallada y estructurada.

Si solo se hace segmentación semántica, los objetos de la misma clase se mezclan (todos los píxeles de "coche" pertenecen a la misma clase); si solo se hace segmentación de instancias, a menudo solo se atiende a los "objetos contables" (things, como personas, coches, animales), ignorando las grandes áreas de "fondo no contable" (stuff, como carretera, césped, cielo). En muchos escenarios necesitamos tanto la máscara a nivel de instancia de cada objeto como comprender la composición global de la escena. Esto dio origen a la segmentación panóptica (Panoptic Segmentation): proporcionar simultáneamente para cada píxel una clase semántica y un ID de instancia, logrando un modelado unificado de things + stuff.

Los primeros sistemas de segmentación panóptica se implementaban típicamente mediante la combinación de "modelo de segmentación semántica + modelo de segmentación de instancias + postprocesado de fusión": primero se usaba una red para predecir la categoría semántica de cada píxel, luego otra red generaba las máscaras y clases de cada instancia, y finalmente se fusionaban ambas mediante un conjunto de reglas (como prioridad, manejo de solapamientos) en un resultado de segmentación panóptica consistente. Panoptic FPN representa un camino más elegante desde el punto de vista de la ingeniería: sobre un backbone compartido y una pirámide de características (FPN), se acoplan un cabezal de segmentación semántica y otro de segmentación de instancias, y mediante entrenamiento conjunto y compartición de características se obtienen simultáneamente ambas salidas, que luego se fusionan con un postprocesado ligero. Esto no solo mejora la eficiencia, sino que también refuerza la coherencia entre lo semántico y lo instancial.

A nivel de modelos, con el desarrollo de arquitecturas unificadas de detección/segmentación y Transformer, han surgido marcos panópticos unificados como Mask2Former: tienden a usar una estructura genérica de "query + mask decoder", prediciendo simultáneamente en una misma red máscaras semánticas, de instancia e incluso de otras tareas downstream, lo que simplifica enormemente el sistema a nivel arquitectónico y facilita la extensión a múltiples tareas. Para tareas complejas como la conducción autónoma, la navegación robótica o la comprensión de escenas en RA, la segmentación panóptica ofrece una descripción completa de la escena más cercana a la "percepción subjetiva humana", permitiendo que la toma de decisiones y la planificación de nivel superior operen sobre una semántica espacial más precisa.

En cuanto a la forma de producto, la segmentación panóptica suele estar integrada en sistemas de conducción autónoma, robótica y plataformas avanzadas de análisis visual; puede que el usuario no perciba directamente el concepto de "segmentación panóptica", pero se beneficia realmente de una comprensión más robusta de la escena y una experiencia de interacción más natural.

2.4.2 Segmentación universal y no supervisada: de la personalización por tarea a "Segment Anything"

Los modelos de segmentación tradicionales suelen entrenarse en torno a conjuntos de datos y tareas específicas: por ejemplo, "segmentación semántica de 19 clases en escenas de carretera", "segmentación de cierto tipo de tumor", "segmentación de ciertas categorías de productos", etc. Cada cambio de tarea exige reetiquetar y reentrenar. En el negocio real, esta fuerte dependencia de datos finamente etiquetados tiene un coste enorme y difícilmente cubre las categorías de cola larga y los nuevos escenarios que surgen constantemente. En los últimos años, con el desarrollo de modelos visuales preentrenados a gran escala y el paradigma basado en prompts (prompt-based), han surgido grandes modelos de segmentación universal, representados por Segment Anything Model (SAM), que aspiran a elevar la capacidad de segmentación de "personalización por tarea" a "infraestructura".

Tomando SAM como ejemplo, este modelo aprende características universales de toda la imagen mediante un potente codificador de imagen (normalmente un ViT preentrenado a gran escala) y luego, a través de un codificador de prompts ligero y un decodificador de máscaras, convierte los puntos, cajas, textos u otras indicaciones proporcionadas por el usuario en resultados de segmentación. En la fase de entrenamiento, SAM aprovecha una cantidad masiva de anotaciones de máscaras de múltiples fuentes y tareas, de modo que el modelo aprende una "capacidad de segmentación generalizada", en lugar de memorizar las etiquetas de un conjunto de datos concreto. En la fase de uso, el usuario solo necesita dar muy pocas indicaciones (un punto o una caja aproximada) para obtener máscaras de alta calidad en tipos de imagen y categorías de objetos nunca vistos. Este paradigma reduce drásticamente la barrera para construir nuevas aplicaciones de segmentación y también proporciona una herramienta potente para escenarios no supervisados o débilmente supervisados.

En relación con esto, está la dirección más amplia de la segmentación no supervisada / autosupervisada: sin depender — o dependiendo mínimamente — de máscaras anotadas por humanos, se divide automáticamente la imagen en regiones significativas mediante señales como la similitud intra-imagen, la coherencia temporal o las restricciones multivista. Los primeros trabajos se centraban más en el "agrupamiento visual" y la generación de propuestas de región (proposal generation); hoy en día, esto se internaliza cada vez más en los grandes modelos como una forma de aprendizaje de representaciones, proporcionando una buena inicialización para las tareas de segmentación downstream. Combinados con modelos de aprendizaje contrastivo texto-imagen como CLIP, cada vez más métodos son capaces de realizar segmentación zero-shot o few-shot bajo la condición de "solo proporcionar nombres de categorías textuales, sin anotaciones de máscara", ofreciendo nuevas soluciones para escenarios de arranque en frío y categorías de cola larga.

En productos reales, los grandes modelos de segmentación universal suelen aparecer en formas como "herramienta de recorte interactivo", "selección inteligente" o "quitar fondo con un clic", y se están integrando progresivamente en software profesional de los ámbitos médico, de teledetección, industrial, etc., como aceleradores de anotación semiasistida y segmentación asistida. En comparación con los modelos personalizados tradicionales, puede que no alcancen el máximo rendimiento en una tarea específica, pero presentan una ventaja significativa en "poder hacer un poco de todo e implantarse rápidamente en múltiples escenarios", sentando además las bases para construir en el futuro auténticos modelos visuales fundamentales multimodales.## 2.5 Detección de puntos clave y reconocimiento de acciones (Keypoint Detection & Action Recognition)

Tras la clasificación, detección y segmentación, ya podemos saber "qué hay en la imagen, dónde está y a qué pertenece cada píxel". Pero en muchas tareas reales, lo que le importa al negocio no es solo "la presencia y ubicación de objetos", sino la postura y la acción: ¿una persona está caminando o corriendo? ¿Está levantada esta mano, está haciendo un gesto? ¿El trabajador lleva correctamente el equipo de seguridad y ejecuta movimientos reglamentarios? ¿Es correcta la técnica del deportista? Estas preguntas requieren que comprendamos más a fondo la estructura interna y los cambios temporales de los objetos.

La detección de puntos clave y el reconocimiento de acciones son dos capacidades orientadas a esta necesidad:

  • Detección de puntos clave (Keypoint Detection): en una imagen o fotograma de video, predecir varios "puntos esqueléticos" (como articulaciones, yemas de los dedos, rasgos faciales) de un objetivo (normalmente cuerpo humano, manos, rostro o estructuras mecánicas específicas), obteniendo una representación estructurada y detallada de la postura (pose).
  • Reconocimiento de acciones (Action Recognition): analizar temporalmente cómo cambian estos puntos clave o características de apariencia a lo largo del tiempo, para determinar "qué acción o comportamiento está realizando esta persona/grupo de personas".

Desde la perspectiva del producto, esta capacidad se aplica ampliamente en: interacción persona-ordenador (control por gestos), análisis deportivo (evaluación de técnica), seguridad (detección de caídas, peleas/carreras y otros comportamientos anómalos), seguridad industrial (detección de movimientos no reglamentarios), animación de avatares virtuales (usando puntos clave corporales/faciales para impulsar esqueletos 3D y animaciones), entre otros escenarios. A continuación, organizamos esta capacidad desde tres ángulos: escenarios, principios y modelos, y desarrollamos por separado la detección de puntos clave y el reconocimiento de acciones en las subsecciones.

  • Escenarios
    • Interacción persona-ordenador y AR/VR: mediante reconocimiento de gestos y detección de postura corporal, lograr una interacción natural donde "un gesto basta para controlar", o animar avatares en tiempo real en AR/VR.
    • Entrenamiento deportivo y análisis de movimiento: realizar seguimiento de puntos clave y análisis de ángulos en acciones como correr, saltar, lanzar a canasta o levantar pesas, proporcionando evaluación técnica y sugerencias de corrección.
    • Seguridad y protección pública: detectar caídas, peleas, carreras bruscas, saltos de vallas y otros comportamientos anómalos para alertar a tiempo; identificar si las operaciones son reglamentarias en obras y fábricas.
    • Industria y colaboración persona-robot: detectar si los trabajadores operan con la postura reglamentaria, la distancia de seguridad al colaborar con robots y si se producen movimientos peligrosos.
    • Animación facial/expresiva y avatares virtuales: capturar detalles expresivos mediante puntos clave faciales para transferencia de expresiones, animación de humanos digitales, avatares en videoconferencias, etc.
  • Principios Los dos tipos de tareas se centran respectivamente en la estructura espacial y los cambios temporales, pero en esencia ambas realizan predicción estructurada en un espacio de características de alta dimensionalidad:
    • Detección de puntos clave: localizar en la imagen un conjunto predefinido de puntos clave (como 17/25 articulaciones corporales, 21 articulaciones de la mano, 68/106 puntos clave faciales). El método habitual consiste en predecir un mapa de calor (heatmap) para cada punto clave sobre el mapa de características, y luego inferir las coordenadas a partir de la posición del pico; en escenarios con múltiples personas, también se requiere "ensamblar articulaciones a cada persona".
    • Reconocimiento de acciones en un solo fotograma o ventana corta: basado en una sola imagen o una ventana temporal corta, usando la postura corporal (puntos clave) y características de apariencia, determinar la categoría de acción que ocurre en ese fotograma/segmento (como caminar, correr, levantar la mano, saludar, sentarse, etc.).
    • Reconocimiento de acciones temporales: en escalas de tiempo más largas, analizar secuencias de características (características de imagen, secuencias de puntos clave o flujo óptico, etc.), modelando el inicio, duración y fin de la acción, para reconocer comportamientos complejos como "hablando por teléfono", "haciendo flexiones", "dos personas forcejeando".
    • Representación estructurada: las secuencias de puntos clave ofrecen una representación estructurada más compacta y estable que los píxeles brutos, lo que facilita manejar cambios de punto de vista, interferencias de fondo y diferencias de apariencia en el reconocimiento de acciones.
  • Modelos Los modelos más comunes han evolucionado aproximadamente bajo el paradigma unificado de "extracción de características convolucionales/Transformer + cabezal de puntos clave/temporal":
    • Detección de puntos clave: series OpenPose, Hourglass Network, HRNet, basadas en enfoques top-down (primero detectar personas, luego estimar postura) y bottom-up (primero detectar articulaciones, luego ensamblar); en los últimos años también hay estimadores de postura basados en Transformer.
    • Reconocimiento de acciones en video: modelos de video basados en CNN 2D/3D (I3D, SlowFast, etc.), modelos GCN basados en esqueleto (ST-GCN, etc., que modelan relaciones espacio-temporales directamente sobre el grafo de puntos clave) y soluciones extremo a extremo basadas en Transformer de video (Video Swin, TimeSformer, etc.).
    • Modelos multitarea unificados y grandes modelos: sobre un backbone visual universal, producir simultáneamente etiquetas de detección, segmentación, puntos clave y acciones, o usar grandes modelos multimodales para comprender directamente "qué acción está realizando esta persona" mediante indicaciones textuales, conectando la predicción estructurada con la comprensión semántica.

A continuación, desarrollamos por separado las dos direcciones: detección de puntos clave y estimación de postura y reconocimiento de acciones y comprensión del comportamiento.

2.5.1 Detección de puntos clave y estimación de postura: "dibujar el esqueleto" de personas y objetos

La detección de puntos clave (también llamada estimación de postura, Pose Estimation) se centra en la estructura espacial en un solo fotograma o imagen: encontrar en una imagen bidimensional un conjunto de puntos clave con significado semántico y conectarlos formando un esqueleto. Por ejemplo, en la estimación de postura humana, normalmente necesitamos detectar articulaciones como cabeza, hombros, codos, muñecas, caderas, rodillas y tobillos; en la postura facial, las comisuras de los ojos, comisuras de los labios, punta de la nariz, contorno facial, etc.; en la postura de la mano, las bases de los dedos, articulaciones y yemas. Para objetos no humanos como brazos robóticos o piezas articuladas, también se puede definir igualmente un sistema de puntos clave.

En cuanto al diseño del modelo, la detección de puntos clave suele usar el paradigma de "extracción de características + predicción de mapas de calor":

  • Primero se usa una CNN o un Transformer visual (como ResNet, HRNet, Swin, etc.) para extraer características multiescala de la imagen de entrada.
  • Luego, mediante un cabezal de decodificación o convolución multicapa, se genera un mapa de calor (heatmap) para cada tipo de punto clave, donde el valor de cada píxel representa "la probabilidad de que esa posición sea ese punto clave".
  • En la fase de inferencia, normalmente se toma la posición del pico de cada mapa de calor como coordenada del punto clave, y se realiza un refinamiento subpíxel mediante interpolación bilineal, ajuste local, etc.

Para escenarios con múltiples personas, los métodos de estimación de postura se dividen aproximadamente en dos enfoques:

  • Top-down: primero se usa un detector de peatones para encontrar la caja delimitadora de cada persona en la imagen, y luego se realiza la estimación de postura individual dentro de cada caja. Este enfoque ofrece alta precisión por persona y una estructura simple, pero en escenas densamente pobladas el coste computacional es alto y es sensible a la calidad de la detección. Los sistemas representativos incluyen muchas combinaciones de Faster R-CNN/YOLO + Hourglass/HRNet.
  • Bottom-up: sin distinguir primero a cada persona, se predicen directamente todos los puntos clave potenciales (y sus tipos) sobre la imagen completa, junto con las relaciones de conexión o campos de afinidad entre puntos clave (como los PAF de OpenPose). Luego, mediante algoritmos de emparejamiento de grafos/agrupamiento, se ensamblan los puntos clave en múltiples esqueletos corporales independientes. Estos métodos son más eficientes en escenas densamente pobladas y más robustos frente al número de personas, pero el proceso de ensamblaje es complejo y sensible a la calidad de las conexiones.

En los últimos años, también han surgido modelos de estimación de postura basados en Transformer, que tratan la detección de puntos clave como un conjunto de tareas "consulta-respuesta", similar a DETR, pudiendo unificar arquitectónicamente la detección de objetos y la estimación de postura. En aplicaciones de ingeniería, la capacidad de detección de puntos clave suele encapsularse como "SDK o API de puntos clave corporales/gestuales/faciales": la aplicación upstream solo necesita enviar la imagen o el fotograma de video para obtener coordenadas estructuradas del esqueleto, que se usarán para el posterior reconocimiento de acciones, control de interacción o animación.

2.5.2 Reconocimiento de acciones y comprensión del comportamiento: hacer que el "esqueleto" cobre movimiento

Una vez obtenidos los puntos clave o las características visuales de alto nivel, el siguiente paso es comprender los cambios en la dimensión temporal: es decir, el reconocimiento de acciones (Action Recognition) y el análisis del comportamiento (Behavior Understanding). A diferencia de la detección de puntos clave, el reconocimiento de acciones ya no se limita a un solo fotograma; se centra en el patrón de evolución de las características a lo largo de un intervalo de tiempo: de "levantar la mano" a "saludar", de "caminar" a "correr", de "estar de pie" a "caerse".

En cuanto a la representación de entrada, existen aproximadamente tres enfoques:

  • Basado en fotogramas de video / flujo óptico originales: modelar directamente la secuencia de fotogramas de video, o incorporar adicionalmente el flujo óptico (campo que describe la velocidad del movimiento local) como entrada, para que el modelo aprenda conjuntamente de la información de apariencia + movimiento.
  • Basado en secuencias de esqueleto/puntos clave: primero obtener la secuencia de coordenadas de puntos clave corporales mediante estimación de postura, y luego modelar sobre un "grafo espacio-temporal del esqueleto", reduciendo la interferencia del fondo y la iluminación, y centrándose más en la estructura corporal y los patrones de movimiento.
  • Fusión multimodal: incorporar conjuntamente características de video, secuencias de puntos clave e incluso audio, texto y otras modalidades, para manejar escenarios de comportamiento complejo (como interacción entre varias personas, acciones a nivel de evento).

En correspondencia, las estructuras de los modelos también muestran un desarrollo diversificado:

  • Los primeros reconocimientos de acciones se basaban principalmente en CNN 2D + pooling temporal o CNN 3D (como I3D, C3D): el primero extrae características de cada fotograma y luego aplica pooling o RNN en la dimensión temporal; el segundo realiza directamente convolución tridimensional sobre espacio y tiempo para capturar patrones de movimiento a corto plazo.
  • Para secuencias de esqueleto, el método típico es la red convolucional en grafos espacio-temporales (ST-GCN): trata los puntos clave corporales como nodos de una estructura de grafo, las conexiones entre articulaciones son aristas, y también se añaden aristas en la dimensión temporal, propagando información en el grafo espacio-temporal mediante convolución de grafos para aprender patrones de acción. Estos métodos son ligeros, robustos frente al fondo y adecuados para desplegarse en dispositivos con recursos limitados.
  • En los últimos años, los Transformers de video (como TimeSformer, Video Swin) han destacado en el reconocimiento de acciones: dividen el video en parches espacio-temporales y modelan dependencias de largo alcance mediante mecanismos de autoatención, pudiendo capturar mejor acciones complejas e interacciones entre múltiples objetivos.

En el lado de negocio, el reconocimiento de acciones suele combinarse con detección, seguimiento y detección de puntos clave para formar sistemas de análisis de comportamiento extremo a extremo:

  • En seguridad, primero se detecta y se sigue a las personas, y luego se clasifican las acciones sobre la secuencia de puntos clave de cada trayectoria, logrando detección de caídas, reconocimiento de peleas/carreras, etc.;
  • En aplicaciones deportivas y de fitness, se analiza mediante secuencias de puntos clave si la acción es correcta y si la amplitud es adecuada, ofreciendo sugerencias de corrección;
  • En escenarios de interacción persona-ordenador, se realiza clasificación ligera de acciones sobre el flujo de postura en tiempo real, logrando interacciones como saludar, hacer un corazón con las manos, comandos gestuales, etc.;
  • En seguridad industrial, se monitorizan continuamente las acciones operativas de los trabajadores, identificando posturas peligrosas (como agacharse para entrar en zona de peligro, sobrepasar líneas de seguridad, etc.).

De cara al futuro, los grandes modelos multimodales están elevando el "reconocimiento de acciones" a un nivel superior de "comprensión de eventos e intenciones": el modelo no solo puede etiquetar "caminar, correr, hablar por teléfono", sino también responder a descripciones más cercanas al lenguaje cotidiano como "esta persona parece estar saludando a alguien" o "estas dos personas están discutiendo". La detección de puntos clave y el reconocimiento de acciones, como importantes pistas estructuradas de movimiento, se combinan con características de apariencia e indicaciones lingüísticas para sustentar conjuntamente capacidades de comprensión espacio-temporal más complejas.## 2.6 Detección de Vocabulario Abierto / Mundo Abierto / Dominio Abierto

(Open‑Vocabulary / Open‑World / Open‑Domain Detection)

Las capacidades de detección y segmentación anteriores asumen, por defecto, una premisa: el conjunto de categorías es fijo tanto en entrenamiento como en inferencia. Es decir, el modelo ha visto durante el entrenamiento "todas las categorías a reconocer", y en inferencia solo debe elegir dentro de ese conjunto cerrado de etiquetas. Pero el mundo real es mucho más complejo que los datasets: nuevos productos, nuevas marcas, nuevas señales de tráfico, nuevas especies, nuevos escenarios aparecen constantemente, y es imposible preparar datos anotados suficientes para cada nueva clase y reentrenar el detector desde cero. De aquí surge la detección de vocabulario abierto / mundo abierto / dominio abierto: lograr que, con datos de entrenamiento que solo cubren un conjunto limitado de "clases conocidas", el modelo sea capaz de percibir, localizar y reconocer nuevas clases no vistas durante la inferencia, manteniendo la robustez frente a cambios en el estilo visual y el dominio de captura.

Puedes entender esta capa como: sobre la detección tradicional, se añade "la capacidad de alineación y generalización hacia el espacio lingüístico y el mundo abierto". El modelo ya no se limita a decir "esto es una de las 80 clases de COCO", sino que puede comprender y buscar objetivos en el espacio de cualquier descripción textual, por ejemplo, "detecta todas las 'zapatillas deportivas rojas' en la imagen" o "marca todos los 'posibles vehículos aéreos pequeños'", incluso si esas categorías finas nunca aparecieron explícitamente en el conjunto de entrenamiento. A continuación, organizamos esta capa desde tres perspectivas: escenarios, principios y modelos, y en las subsecciones desarrollamos por separado la detección de vocabulario abierto, la detección de mundo abierto y la generalización de dominio abierto.

  • Escenarios
    • API de comprensión universal de escenas: el usuario proporciona una descripción arbitraria en lenguaje natural (palabra de categoría o frase corta), y el sistema devuelve cajas delimitadoras o máscaras de segmentación para los objetivos correspondientes en imágenes de cualquier estilo, por ejemplo, "todos los cascos de seguridad en la imagen", "todos los posibles logotipos de marca", "todos los objetos con ruedas".
    • Reconocimiento masivo de productos / especies: en el comercio electrónico, productos de larga cola que se renuevan constantemente; en la naturaleza, una enorme cantidad de especies de fauna y flora. Los datos de entrenamiento solo pueden cubrir una parte de las clases conocidas, pero el sistema necesita localizar y realizar un reconocimiento aproximado de una cantidad masiva de nuevas clases, además de permitir la búsqueda por texto o imagen.
    • Seguridad entre dominios / percepción en conducción autónoma: los datos de entrenamiento provienen mayoritariamente de carreteras urbanas diurnas o de unas pocas perspectivas de cámara, pero el despliegue real enfrenta "nuevos dominios" como distintas ciudades, zonas rurales, autopistas, clima extremo, cámaras infrarrojas/ojos de pez, donde además aparecen nuevos tipos de objetivos nunca anotados en el entrenamiento (nuevos modelos de vehículos, nuevas infraestructuras de tráfico, nuevos tipos de obstáculos).
  • Principios El núcleo de estos métodos consiste en reemplazar la tradicional "cabeza de clasificación one‑hot fija" por un espacio de embedding alineado visión‑lenguaje, y manejar las "clases no vistas" y los "nuevos dominios" mediante diversos mecanismos:
    • Detección de vocabulario abierto (Open‑Vocabulary Detection): en la fase de entrenamiento, se utilizan pares imagen‑texto a gran escala para preentrenar un espacio alineado similar a CLIP, de modo que las regiones de la imagen y los embeddings de texto puedan compararse por similitud directamente en el mismo espacio semántico; la cabeza de detección ya no produce logits de categorías fijas, sino un vector de características de región que se compara con cualquier vector de descripción textual, permitiendo así "entrenar solo con una parte de las categorías e inferir con cualquier categoría textual arbitraria".
    • Detección de mundo abierto (Open‑World Detection): va un paso más allá al manejar "nuevas clases completamente sin anotar en el conjunto de entrenamiento", exigiendo que el modelo pueda detectar tales objetivos como "clase desconocida (unknown)", y posteriormente, mediante anotación interactiva o aprendizaje continuo, incorporar progresivamente estas clases desconocidas al conjunto de clases conocidas, formando un sistema de aprendizaje en línea que puede expandir continuamente su catálogo de clases.
    • Detección de dominio abierto / entre dominios (Open‑Domain Detection): frente a cambios drásticos en el estilo de imagen, dispositivo de captura, condiciones ambientales, etc. (domain shift), se emplean técnicas como Adaptación de Dominio (Domain Adaptation) y Generalización de Dominio (Domain Generalization) para que el detector mantenga un rendimiento estable en nuevos dominios no vistos; los enfoques comunes incluyen alineación adversarial de dominio, entrenamiento multidominio, aleatorización de estilo, meta‑aprendizaje, etc.
    • Vocabulario abierto unificado para segmentación y detección: se extienden las ideas anteriores al nivel de píxel, generando máscaras de segmentación para cualquier descripción textual (open‑vocabulary segmentation), mediante pérdidas de alineación Region–Word o Mask–Word, logrando que "al describir una región/objeto en lenguaje natural, se obtenga la máscara o caja correspondiente".
  • Modelos Las principales líneas técnicas actuales en detección de vocabulario abierto / mundo abierto / dominio abierto giran en torno a "preentrenamiento visión‑lenguaje a gran escala + adaptación de la cabeza de detección + mecanismos de generalización de dominio":
    • Detectores basados en CLIP: partiendo de codificadores de imagen y texto al estilo CLIP, se aplica aprendizaje contrastivo y pérdidas de alineación Region–Word entre las características a nivel de región (ROI, patches del mapa de características, región de máscara) y los embeddings de texto; las implementaciones típicas incluyen reemplazar o extender la cabeza de clasificación en arquitecturas como Faster R‑CNN / RetinaNet / YOLO / DETR, para que produzcan puntuaciones de categoría mediante "similitud coseno + embedding de texto".
    • Detección basada en captions / prompts (Caption‑driven / Prompt‑based Detection): se aprovechan datos masivos de descripciones de imagen (caption) para generar automáticamente descripciones textuales de regiones o máscaras en la imagen, y luego se entrena alineando estas descripciones generadas con las regiones de detección/segmentación, reduciendo así la dependencia de etiquetas de categoría manuales; en inferencia, la detección/segmentación se guía mediante prompts en lenguaje natural (como "todas las personas con ropa roja", "todos los vehículos eléctricos").
    • Línea de trabajos de Open‑World Detection: se introduce explícitamente en los frameworks de detección tradicionales el modelado de "clase desconocida (unknown)", la expansión progresiva de categorías y mecanismos de aprendizaje incremental; algunos métodos determinan "si es una clase desconocida" mediante distancias en el espacio métrico y estimación de incertidumbre, mientras que otros introducen bancos de memoria y reentrenamiento en línea, permitiendo que el sistema acumule conocimiento de nuevas categorías con el tiempo.
    • Detección con adaptación / generalización de dominio: a nivel de backbone y cabeza de detección, se añaden módulos como discriminadores de dominio, pérdidas adversariales, batch normalization multidominio y aumento con aleatorización de estilo, para que el detector aprenda representaciones más invariantes al dominio; también hay trabajos que introducen entrenamiento con múltiples dominios fuente y estrategias de meta‑aprendizaje en frameworks de detección Transformer (como Deformable DETR) para mejorar la capacidad de generalización entre dominios.
    • Modelos de detección universales / Foundation: se eleva el problema de detección al nivel de "modelo fundacional", preentrenando un Detection Foundation Model que sea lo más universal posible en categorías y dominios, para luego adaptarlo a escenarios específicos mediante ajuste fino ligero o prompts de texto; estos modelos suelen combinar anotaciones de detección a gran escala, pares imagen‑texto de múltiples fuentes e incluso datos de video, con el objetivo de hacer posible la comprensión universal de "cualquier texto + cualquier estilo de imagen".

En cuanto a la forma concreta del producto, la detección de vocabulario abierto / mundo abierto / dominio abierto se manifiesta a menudo como una interfaz visual "más natural y con menos restricciones": el usuario no necesita acordar de antemano un pequeño conjunto fijo de etiquetas, sino que puede describir en lenguaje natural lo que busca; el sistema tampoco necesita reentrenar el detector desde cero para cada escenario de negocio, sino que se basa en un modelo universal unificado que se adapta rápidamente mediante prompts o pocas muestras. Para el reconocimiento masivo de productos / especies, y para los sistemas de seguridad y percepción de conducción autónoma con despliegue global, esta capa de capacidades se está convirtiendo en el trampolín clave para pasar del "rendimiento en datasets cerrados" a la "usabilidad real en el mundo abierto".

2.6.1 Detección de Vocabulario Abierto: de la cabeza de categorías fijas al espacio de categorías guiado por texto

El punto de partida de la detección de vocabulario abierto (Open‑Vocabulary Detection) es romper la limitación de la "cabeza de categorías fijas" en la detección tradicional. Los detectores anteriores incorporaban en la capa superior una capa de clasificación de tamaño fijo (correspondiente a las N categorías del conjunto de entrenamiento), y una vez entrenados solo podían elegir entre esas N categorías; en cambio, la detección de vocabulario abierto introduce un codificador de texto y un espacio de embedding semántico compartido, de modo que las características de región producidas por la cabeza de detección puedan compararse por similitud con cualquier descripción textual, permitiendo así aceptar nuevas categorías no vistas durante la inferencia.

El enfoque típico consiste en usar modelos de preentrenamiento visión‑lenguaje similares a CLIP:

  • Lado de texto: se codifican los nombres de categorías o descripciones en lenguaje natural (como "person", "red sports car", "yellow construction helmet") para obtener vectores de texto.
  • Lado de visión: dentro de un framework de detección (Faster R‑CNN, RetinaNet, YOLO, DETR, etc.), se extraen vectores de características de región para cada región candidata o punto de característica.
  • Entrenamiento de alineación: mediante pérdidas contrastivas y pérdidas de alineación Region–Word, se hace que los vectores de texto y de región con la misma semántica se acerquen en el espacio de embedding, y que los de semántica diferente se alejen. Durante el entrenamiento, incluso si solo se proporcionan anotaciones de caja explícitas para una parte de las categorías, se puede ampliar la cobertura semántica utilizando pares imagen‑texto o captions de imágenes.

En la fase de inferencia, el sistema ya no depende de un conjunto fijo de nombres de clase definido durante el entrenamiento, sino que permite al usuario proporcionar en línea cualquier palabra de categoría o descripción en lenguaje natural, que se convierte en embedding mediante el codificador de texto y luego se compara por similitud con las características de región. Esto permite que el detector, sin necesidad de reentrenamiento, soporte necesidades flexibles como "detectar todos los monopatines", "detectar todas las plantas verdes" o "detectar todos los equipos relacionados con la seguridad", incluso si algunas categorías específicas nunca tuvieron anotaciones completas en el conjunto de entrenamiento, siempre que exista un solapamiento semántico con el espacio imagen‑texto preentrenado, pueden ser reconocidas y localizadas en cierta medida.

En la práctica de ingeniería, la detección de vocabulario abierto requiere equilibrar eficacia y eficiencia: por un lado, mantener la alineación semántica con el backbone visión‑lenguaje preentrenado a gran escala; por otro, satisfacer los requisitos de multiescala y tiempo real propios de la tarea de detección. Los detectores convencionales basados en CLIP suelen adoptar el enfoque de "precálculo de embeddings de texto + cálculo eficiente de similitud vectorial", evitando codificar texto repetidamente en el servicio en línea, al tiempo que cuantizan o destilan las características de región para equilibrar precisión y velocidad de inferencia.

2.6.2 Detección de Mundo Abierto: de las "clases no vistas" a lo "desconocido aprendible"

La detección de mundo abierto (Open‑World Detection) va más allá del vocabulario abierto, exigiendo que el modelo maneje explícitamente las "clases desconocidas": en los datos de entrenamiento solo se han anotado algunas categorías, y el resto de objetos o bien no fueron anotados o bien se agruparon genéricamente como fondo; durante la inferencia, esos "objetos reales no anotados" no deberían tratarse simplemente como fondo, ni clasificarse erróneamente en categorías conocidas, sino que deben detectarse como "clase desconocida (unknown)" y tener la posibilidad de convertirse posteriormente en "nuevas clases conocidas".

En cuanto al modelado, la detección de mundo abierto generalmente necesita resolver tres problemas:

  1. Percepción de clases desconocidas: ¿cómo evitar que durante el entrenamiento todos los objetivos no anotados se aprendan como "fondo"? Los enfoques comunes incluyen: introducir una ranura explícita de "clase desconocida", usando minería de ejemplos negativos y modelado de incertidumbre para que el modelo aprenda a emitir "unknown" en regiones de baja confianza; o bien aprovechar datos no anotados y mecanismos autosupervisados para agrupar y generar pseudoetiquetas en regiones de alta confianza con potencial de ser objetivos.
  2. Control de clasificación errónea: el modelo necesita equilibrar entre "es preferible clasificar como unknown antes que asignar erróneamente a una clase conocida incorrecta", lo que implica diseño de pérdidas (como margen, discriminación de conjunto abierto), umbrales de decisión y estrategias de posprocesamiento.
  3. Expansión progresiva de categorías: cuando el equipo de negocio anota manualmente un nuevo lote de objetivos "unknown" con nuevas categorías, el modelo debe poder incorporar estas nuevas categorías al conjunto de "clases conocidas" mediante aprendizaje incremental, sin olvidar significativamente las clases antiguas. Para ello, muchos trabajos introducen bancos de memoria, pérdidas de destilación, aislamiento de parámetros o mecanismos de repetición, logrando una absorción estable de nuevas categorías.

Desde la perspectiva de producto, la detección de mundo abierto es especialmente adecuada para escenarios donde las categorías crecen continuamente y la larga cola es extremadamente pronunciada, como el reconocimiento de especies naturales, el reconocimiento de nuevos productos que se renuevan rápidamente, o la detección de objetivos anómalos en escenarios complejos de seguridad. El sistema puede usar primero la detección de mundo abierto para marcar "cualquier objetivo sospechoso que no sea fondo", y progresivamente, mediante anotación manual o semiautomática, elevar los clústeres valiosos a categorías formales, construyendo así un sistema de detección con "catálogo de categorías en crecimiento sostenible", en lugar de estar limitado por un conjunto de datos fijo.

2.6.3 Detección de Dominio Abierto / Distribución Abierta: robustez entre estilos, dispositivos y escenarios

Incluso si el conjunto de categorías se mantiene constante, el detector se enfrentará en el despliegue real a un grave desplazamiento de dominio (Domain Shift): los datos de entrenamiento pueden provenir de cámaras HD diurnas de unas pocas ciudades, mientras que el entorno de despliegue abarca distintos países, zonas rurales, autopistas, túneles, escenas nocturnas, lluvia/nieve, cámaras de baja resolución, lentes ojo de pez e incluso imágenes infrarrojas; también existen enormes diferencias entre la fotografía de producto de comercio electrónico y las fotos reales de usuarios, imágenes publicitarias/ilustraciones/estilo anime. La detección de dominio abierto (Open‑Domain Detection) se centra precisamente en: mantener el rendimiento de detección estable y fiable bajo condiciones donde la distribución de las imágenes cambia significativamente.

Las rutas técnicas típicas incluyen:

  • Adaptación de dominio (Domain Adaptation): partiendo de la disponibilidad de datos no anotados o con pocas anotaciones del dominio objetivo, se emplean técnicas como alineación adversarial de dominio (confundir dominio fuente/objetivo en el espacio de características), alineación multinivel (estilo de imagen, características, salida de la cabeza de detección) y transferencia de estilo (por ejemplo, transferir el estilo de las imágenes del dominio fuente al dominio objetivo), para que el modelo aprenda características insensibles al dominio.
  • Generalización de dominio (Domain Generalization): partiendo de que solo se dispone de datos de múltiples dominios fuente y ningún dato del dominio objetivo, se utilizan estrategias como entrenamiento multidominio, aleatorización de estilo, perturbación de características y meta‑aprendizaje, para que el modelo se exponga durante el entrenamiento a la mayor diversidad posible de distribuciones, mejorando así su capacidad de generalización a nuevos dominios desconocidos.
  • Modelos de detección universales / Foundation: mediante el preentrenamiento del backbone y la cabeza de detección a una escala extremadamente grande, con datos de múltiples fuentes y estilos (incluyendo imágenes naturales, fotogramas de video, datos sintéticos, datos intermodales, etc.), para luego realizar un ajuste fino ligero en el escenario de negocio específico, se obtiene una robustez de dominio abierto superior a la del "entrenamiento en un solo dominio".

Estos mecanismos de dominio abierto a menudo se superponen con las capacidades de vocabulario abierto / mundo abierto: un sistema de detección universal orientado al mundo real debe ser capaz de entender las descripciones de categorías en lenguaje natural del usuario (vocabulario abierto), emitir juicios razonables de "desconocido" ante nuevos objetivos que aparezcan y absorberlos progresivamente (mundo abierto), y mantener el rendimiento en diferentes países, dispositivos, condiciones climáticas y estilos (dominio abierto). En la implementación de ingeniería, estos tres no son direcciones de investigación aisladas entre sí, sino que constituyen conjuntamente el conjunto de capacidades clave para pasar de los "benchmarks cerrados" a la "usabilidad en el mundo abierto".## 2.7 Tareas de Visión–Lenguaje (Vision–Language Tasks)

Las secciones anteriores se centran principalmente en la "visión unimodal": la entrada es una imagen y la salida son cuadros delimitadores, máscaras de segmentación, etiquetas de categoría o puntuaciones de calidad. Sin embargo, en muchas aplicaciones reales, la información visual no existe de forma aislada: una imagen suele ir acompañada de pies de foto, textos explicativos, diálogos o consultas de búsqueda; lo que el usuario quiere saber es "qué cuenta la imagen" o "si esta imagen coincide con esta frase". Las tareas de visión–lenguaje abordan precisamente este tipo de problemas: toman imagen + texto como entrada o salida y, mediante alineación y modelado conjunto entre modalidades, permiten que el sistema "describa imágenes con palabras", "responda preguntas sobre imágenes" o "busque imágenes con texto / busque texto con imágenes".

Desde la perspectiva de producto, los modelos de visión–lenguaje (VLM) constituyen la capacidad central de los sistemas multimodales: los motores de búsqueda los utilizan para implementar la "búsqueda de imágenes por texto / búsqueda de texto por imagen"; las plataformas de contenido los emplean para el emparejamiento inteligente de imágenes, la revisión de anuncios y la verificación de coherencia imagen–texto; los asistentes multimodales los usan como capacidad fundamental para funciones como "charlar sobre imágenes" o "hacer preguntas sobre documentos y capturas de pantalla". A continuación, organizamos esta capa desde tres perspectivas: escenarios, principios y modelos, y en los subapartados siguientes desarrollaremos respectivamente la descripción de imágenes, la respuesta visual a preguntas y la recuperación cruzada imagen–texto.

  • Escenarios
    • Descripción de imágenes (Image Captioning): generar automáticamente una o dos frases en lenguaje natural que describan una imagen, utilizadas para lectura asistida accesible, descripciones inteligentes de álbumes y enriquecimiento de índices de búsqueda.
    • Respuesta visual a preguntas (VQA): el usuario formula preguntas en lenguaje natural sobre una imagen ("¿Qué sostiene esta persona?", "¿Cuál es el número de matrícula?") y el sistema proporciona una respuesta precisa, aplicable en educación, ayuda a la toma de decisiones y asistentes multimodales.
    • Recuperación cruzada imagen–texto (Cross‑modal Retrieval): recuperar imágenes relevantes a partir de un texto (Text‑to‑Image) y recuperar texto relevante a partir de una imagen (Image‑to‑Text), lo que permite la búsqueda del tipo "buscar imágenes por texto / buscar texto por imagen", la selección creativa de imágenes y la revisión de anuncios publicitarios.
    • Coherencia y revisión imagen–texto: determinar si una imagen coincide con su título o eslogan publicitario, detectando riesgos como "discordancia imagen–texto" o "descripciones engañosas", utilizado en moderación de contenido y seguridad de marca.
  • Principios La cuestión central es: cómo mapear imágenes y texto al mismo espacio semántico y realizar alineación y razonamiento dentro de ese espacio:
    • Alineación entre modalidades: mediante codificadores de imagen y de texto entrenados conjuntamente, se consigue que los pares "imagen–texto" correspondientes estén cerca entre sí en el espacio de representación, mientras que los pares no relacionados se alejan (ejemplo típico: CLIP); esto proporciona la base para la recuperación y el emparejamiento.
    • Comprensión y generación conjuntas: sobre la base de representaciones alineadas, se introduce atención cruzada entre modalidades para que el modelo de lenguaje genere texto (descripción de imágenes), razone y responda preguntas (VQA) "observando" las características de la imagen.
    • Prompting e instrucción: se utilizan instrucciones en lenguaje natural para describir de manera unificada diversas tareas de visión–lenguaje ("escribe un título para esta imagen", "responde a la pregunta sobre esta imagen", "determina si este texto describe la imagen"), permitiendo que un mismo modelo realice múltiples tareas mediante diferentes prompts.
  • Modelos Los modelos de visión–lenguaje más extendidos evolucionan aproximadamente en dos categorías: VLM de aprendizaje contrastivo y grandes modelos multimodales generativos:
    • De aprendizaje contrastivo: CLIP, ALIGN, etc., codifican imágenes y texto por separado en vectores y, mediante entrenamiento a gran escala con pares imagen–texto, destacan en tareas de recuperación y emparejamiento, siendo la base de "buscar imágenes por texto / buscar texto por imagen".
    • Modelos generativos de visión–lenguaje: BLIP / BLIP‑2, Flamingo, Kosmos, LLaVA, etc., conectan el codificador visual con un gran modelo de lenguaje (LLM) y, mediante atención cruzada y ajuste por instrucciones, soportan tareas complejas como descripción de imágenes, VQA y diálogo multigiro.
    • Grandes modelos multimodales generales: como GPT‑4.1 with Vision, Gemini 1.5, etc., unifican aún más la visión con otras modalidades (voz, código, etc.) en un solo gran modelo, ofreciendo recuperación, respuesta a preguntas, razonamiento y generación a través de una interfaz unificada.

En conjunto, las tareas de visión–lenguaje marcan el punto en que "la visión deja de ser un canal perceptual independiente" para participar, junto con el lenguaje, en una representación del conocimiento y un razonamiento de nivel superior. A continuación, desarrollamos dos direcciones (aquí agrupadas en dos subapartados por contenido): descripción de imágenes y respuesta visual a preguntas, y recuperación cruzada imagen–texto y alineación entre modalidades.

2.7.1 Descripción de imágenes y respuesta visual a preguntas: de "describir imágenes" a "razonar sobre imágenes"

El objetivo de la descripción de imágenes (Image Captioning) es, dada una imagen de entrada, generar una descripción en lenguaje natural, como "una niña pequeña vuela una cometa en el prado". El enfoque tradicional solía emplear una estructura "CNN + RNN": se extraían características globales de la imagen con una red convolucional y luego se generaba la descripción palabra por palabra con LSTM/GRU. Con la aparición de los Transformers y los VLM preentrenados, el paradigma dominante ha virado hacia una estructura de "codificador de imagen + decodificador de texto", como BLIP / BLIP‑2, ViT + GPT, etc. En cuanto al entrenamiento, los modelos suelen realizar un entrenamiento autorregresivo sobre grandes volúmenes de pares imagen–texto y, a veces, se emplea aprendizaje por refuerzo o pérdida contrastiva para optimizar la diversidad y corrección de las descripciones. A nivel de producto, la descripción de imágenes se utiliza ampliamente en lectura accesible (generar descripciones de imágenes para lectores de pantalla para personas ciegas), titulado automático de álbumes inteligentes y enriquecimiento de índices textuales para sistemas de búsqueda.

La respuesta visual a preguntas (VQA) lleva la interacción humana un paso más allá: la entrada del modelo ya no es "imagen + prompt vacío", sino "imagen + pregunta", y la salida es una respuesta breve o una explicación en lenguaje natural. En comparación con la descripción de imágenes, VQA enfatiza más la controlabilidad y la capacidad de razonamiento: la pregunta puede centrarse en detalles locales ("¿De qué color es el sombrero del hombre?"), relaciones ("¿Qué coche está más cerca del cruce?"), conteo ("¿Cuántos perros hay?") e incluso requerir conocimiento externo ("¿A qué tipo de cocina pertenece este plato?"). Los primeros modelos de VQA solían usar codificador de imagen + codificador de pregunta + módulo de fusión (como pooling bilineal, atención) + cabeza de clasificación, produciendo una respuesta de un vocabulario finito. Los grandes modelos multimodales modernos, en cambio, utilizan directamente codificador de imagen + LLM para generar lenguaje natural "observando" la imagen, con ventajas evidentes en respuestas abiertas y diálogo multigiro.

Ambas tareas pueden considerarse diferentes "plantillas de prompt" dentro de un marco VLM unificado:

  • Captioning: <imagen> + "Describe this image in one sentence." → texto;
  • VQA: <imagen> + "Q: ... A:" → texto.

Mediante el ajuste por instrucciones (Instruction Tuning), un mismo gran modelo multimodal puede ser compatible con descripción, respuesta a preguntas, explicación, etiquetado y muchas otras tareas, lo que constituye la base de ingeniería de los productos VLM modernos (asistentes multimodales, robots de respuesta a preguntas sobre imágenes, etc.).

2.7.2 Recuperación cruzada imagen–texto y alineación entre modalidades: buscar imágenes por texto y buscar texto por imagen

La recuperación cruzada imagen–texto (Cross‑modal Retrieval) aborda otra necesidad muy frecuente: dado un fragmento de texto, encontrar las imágenes que coincidan (Text‑to‑Image Retrieval); o, dada una imagen, encontrar descripciones textuales, información de productos, noticias, etc., relacionadas (Image‑to‑Text Retrieval). Estas capacidades constituyen el núcleo de productos como "buscar imágenes por texto / buscar texto por imagen", "encontrar productos a partir de una imagen" o "ilustrar noticias".

La tecnología central es la alineación entre modalidades: los modelos como CLIP utilizan codificadores separados para imagen y texto (por ejemplo, ViT y un codificador de texto Transformer) y se entrenan con aprendizaje contrastivo sobre datos masivos de pares imagen–texto:

  • Para un mismo par (imagen, texto), sus vectores se acercan entre sí en el espacio de embedding;
  • Para pares imagen–texto no coincidentes, sus vectores se alejan.

Una vez completado el entrenamiento, basta con codificar todas las imágenes y textos en vectores para realizar un emparejamiento rápido en el espacio compartido mediante búsqueda vectorial (búsqueda de vecinos más cercanos):

  • Text‑to‑Image: texto → vector de texto → vector de imagen más cercano;
  • Image‑to‑Text: imagen → vector de imagen → vector de texto más cercano.

En la práctica de ingeniería, este tipo de modelos suele adoptar una estructura en dos fases:

  • En la primera fase, se utiliza un doble codificador (Bi‑Encoder, como CLIP) ligero y rápido para realizar una recuperación gruesa, filtrando rápidamente un pequeño conjunto de candidatos entre cientos de millones de imágenes;
  • En la segunda fase, se puede emplear un codificador cruzado (Cross‑Encoder) más potente o un gran modelo multimodal para realizar un reordenamiento fino de los candidatos, mejorando la relevancia y la robustez.

En el lado de producto, la recuperación cruzada imagen–texto y la alineación entre modalidades se utilizan ampliamente en: búsqueda de imágenes, recuperación publicitaria (encontrar la imagen adecuada según el texto del anuncio), revisión de cumplimiento normativo (verificar la coherencia imagen–texto en anuncios), recomendación de contenido (recomendar imágenes o vídeos relevantes basándose en el historial de texto leído por el usuario), etc. Con el auge de los grandes modelos multimodales, este tipo de capacidades de recuperación se están unificando progresivamente en marcos multimodales más amplios, ofreciendo una interfaz unificada mediante "instrucciones en lenguaje natural + memoria/libería vectorial multimodal".## 2.8 Reconocimiento Óptico de Caracteres (OCR)

En muchos escenarios de negocio, la información más importante no se refleja en "los objetos y escenas de la imagen", ni en la descripción en lenguaje natural de la misma, sino en el texto que aparece directamente sobre la imagen: cláusulas de contratos, importes de facturas, nombres de calles, lecturas de instrumentos, mensajes de error en capturas de pantalla, etc. El Reconocimiento Óptico de Caracteres (OCR) se centra en tareas de comprensión estructurada de "imagen + formato de documento": detectar y reconocer automáticamente el contenido textual a partir de entradas visuales complejas, comprender la disposición y estructura del documento, para así permitir búsquedas, estadísticas, entrada automática de datos y preguntas y respuestas inteligentes.

Desde la perspectiva del producto, el OCR es el puente clave que "convierte la información en papel/imagen en texto computable", y constituye la infraestructura para la oficina electrónica, automatizada e inteligente: revisión de contratos, contabilización de facturas, digitalización de archivos gubernamentales y empresariales, conversión de PDF a Word en software ofimático, asistentes de preguntas y respuestas sobre documentos, etc., todo ello se sustenta en las capacidades de OCR. A continuación, se organiza el sistema OCR desde tres ángulos: escenarios, principios y modelos, y en las secciones siguientes se desarrollan las direcciones principales.

  • Escenarios
    • Reconocimiento de texto en escena: letreros de tiendas en paisajes urbanos, señales de tráfico, vallas publicitarias, textos de embalajes, etc., utilizados para navegación, búsqueda, análisis minorista y auditoría de cumplimiento.
    • OCR documental: reconocimiento y estructuración de texto en documentos escaneados, faxes, PDF, fotos de contratos/facturas/informes, etc., para convertirlos en texto editable.
    • Escenarios especializados: reconocimiento de matrículas, lectura de instrumentos (contadores eléctricos, de agua, de gas), extracción de texto de capturas de pantalla, reconocimiento de exámenes/formularios, etc.
    • Comprensión de documentos: en documentos largos con diseños complejos, extraer estructuras como títulos, párrafos, tablas, notas, sentando las bases para búsqueda, resumen y preguntas y respuestas.
  • Principios El sistema OCR suele dividirse en varios pasos clave:
    • Detección de texto: detectar todas las regiones de texto en la imagen (líneas o bloques de texto), generando cuadros delimitadores (horizontales o polígonos de cuatro puntos), que sirven como entrada para el reconocimiento posterior.
    • Reconocimiento de texto: realizar reconocimiento de secuencias sobre cada región de texto detectada, convirtiendo secuencias de píxeles en secuencias de caracteres (como chino, inglés, números, símbolos, etc.).
    • Análisis de diseño (Layout Analysis): en escenarios documentales, identificar el rol de cada región (título, cuerpo, imagen, tabla, encabezado/pie de página, etc.), recuperando el orden de lectura y la estructura jerárquica.
    • Reconocimiento de estructura de tablas: dividir las regiones de tabla en filas y columnas, analizar los límites de celdas, recuperar celdas combinadas y reconstruir la estructura lógica de la tabla.
    • Respuesta a preguntas sobre documentos (DocVQA): sobre la base del OCR y la comprensión del diseño, permitir que el modelo responda preguntas como "¿Cuál es la fecha de pago de este contrato?" o "¿Cuál es el importe de la factura?", que implican razonamiento multirregional y de múltiples pasos.
  • Modelos En ingeniería, es común la combinación de "módulos OCR especializados + modelo de comprensión documental + modelo multimodal grande":
    • Detección y reconocimiento de texto:
      • Detección: EAST, DBNet/DBNet++ y otros métodos basados en segmentación o aprendizaje de bordes, capaces de manejar texto curvado y fondos complejos;
      • Reconocimiento: CRNN, RARE, SAR y otros modelos secuenciales (CNN + RNN/Attention + CTC o decodificación autorregresiva), compatibles con múltiples idiomas y fuentes.
    • Comprensión de diseño y estructura documental:
      • LayoutLM / LayoutLMv2/v3, DocFormer, etc., que codifican conjuntamente el contenido textual (tokens), la información posicional (bounding box) y las características visuales;
      • Modelos de "comprensión documental de extremo a extremo" como Donut, que van directamente de la imagen a una salida estructurada (como JSON / Markdown), difuminando los límites del OCR tradicional.
    • Respuesta a preguntas sobre documentos y comprensión multimodal:
      • Sobre la base de modelos de diseño, añadir cabezales de tarea para DocVQA;
      • O utilizar directamente modelos multimodales grandes (VLM) para leer imágenes de documentos, completando preguntas y respuestas y resúmenes a nivel de lenguaje natural, aprovechando implícitamente las capacidades de OCR.

En conjunto, el OCR ha evolucionado desde el "simple reconocimiento de caracteres" inicial hasta un sistema integral de comprensión documental que abarca texto + diseño + estructura + preguntas y respuestas, y es un pilar clave para la digitalización empresarial, la gestión de archivos gubernamentales y la oficina inteligente. A continuación, desarrollamos tres direcciones: detección y reconocimiento de texto, análisis de diseño documental y estructura de tablas, y respuesta a preguntas sobre documentos y DocVQA multimodal.

2.8.1 Detección y reconocimiento de texto: del píxel al texto utilizable

El primer paso del OCR es la detección de texto: encontrar todas las regiones que contienen texto en la imagen de entrada. El texto en paisajes urbanos/escenas se enfrenta a desafíos como diversidad de fuentes, inclinación y distorsión, iluminación compleja e interferencias graves del fondo; los escenarios documentales, en cambio, exigen un soporte robusto para texto denso y diseños con múltiples columnas. Métodos como EAST y DBNet convierten el problema de detección en "segmentación a nivel de píxel + aprendizaje de bordes", prediciendo la probabilidad de texto y los parámetros geométricos en el mapa de características, para luego obtener mediante posprocesamiento cuadros de texto precisos (que pueden ser rectangulares horizontales o cuadriláteros/polígonos arbitrarios), equilibrando precisión y velocidad.

El reconocimiento de texto toma cada región de texto detectada y la convierte en una secuencia de caracteres. El enfoque clásico está representado por CRNN: primero se extraen características con CNN, luego se modela la secuencia mediante RNN o Transformer, y finalmente se utiliza CTC o decodificación por atención para producir la secuencia de caracteres. Para texto de longitud variable, texto curvado e idiomas complejos (mezcla de chino e inglés, multilingüe), el modelo de reconocimiento necesita trabajar simultáneamente en el modelado de características visuales y en el modelado del lenguaje de caracteres. Métodos como RARE y SAR introducen redes de transformación espacial (STN) o mecanismos de alineación por atención para corregir distorsiones geométricas y mejorar la adaptabilidad a diseños complejos.

En sistemas de ingeniería, la detección y el reconocimiento suelen funcionar como dos servicios desacoplados que forman un pipeline de OCR: la detección frontal divide la imagen en varias líneas/bloques de texto, y el reconocimiento posterior realiza el reconocimiento de caracteres en cada bloque, pudiendo añadir un modelo de lenguaje para corrección de errores (como corrección ortográfica, validación de números/importes). Para escenarios específicos como matrículas o lecturas de instrumentos, se utilizan modelos de detección/reconocimiento específicamente ajustados, aprovechando los conocimientos previos del dominio (fuente fija, conjunto de caracteres limitado) para obtener mayor precisión y menor latencia.

2.8.2 Análisis de diseño documental y estructura de tablas: recuperar "la forma del documento"

No basta con reconocer el texto, especialmente en escenarios como documentos largos, informes, contratos y facturas, donde la estructura del diseño a menudo determina el significado y la importancia de la información: la relación jerárquica entre títulos y cuerpo, la posición de gráficos y leyendas, la función de encabezados y pies de página, el orden lógico de los bloques de texto dentro y fuera de las tablas, etc. El objetivo del análisis de diseño documental (Document Layout Analysis) es identificar los roles y límites de las diferentes regiones en una página bidimensional, y recuperar un orden de lectura razonable y una estructura jerárquica.

Modelos como LayoutLM / LayoutLMv2/v3 y DocFormer codifican conjuntamente el contenido de cada token de texto (text embedding), su posición espacial (coordenadas del bounding box) y las características visuales locales (provenientes de CNN/ViT), modelando las relaciones semántico-espaciales entre tokens mediante Transformer. Al entrenar en conjuntos de datos con anotaciones de diseño, el modelo puede aprender a distinguir entre múltiples tipos de regiones como "título/párrafo/lista/tabla/leyenda/encabezado/pie de página", y proporcionar las etiquetas y jerarquías correspondientes en la salida. Estos modelos suelen actuar como "capa intermedia", ofreciendo el esqueleto estructurado del documento para sistemas de revisión de contratos, análisis de informes y plataformas de digitalización de archivos.

El reconocimiento de estructura de tablas (Table Structure Recognition) es una rama particularmente crítica del análisis de diseño: no solo debe detectar las regiones de tabla, sino también analizar más a fondo los límites de filas y columnas, las coordenadas de las celdas y las celdas combinadas, para finalmente reconstruir una tabla lógica (normalmente representada como HTML, tabla Markdown o JSON estructurado con coordenadas). Los métodos de implementación incluyen:

  • Basados en reglas/visión: utilizar detección de líneas, redes de segmentación, detección de objetos y otros medios para extraer líneas de tabla y regiones de celdas, para luego construir el grafo topológico;
  • Basados en Transformer: codificar los bloques de texto y la información geométrica de la región de la tabla en secuencias, para predecir directamente la estructura de celdas y las relaciones de asociación.

En términos de producto, estas capacidades respaldan escenarios de alto valor como "conversión de PDF a Word/Excel", "entrada estructurada de facturas/recibos", "análisis de informes y extracción de indicadores", y son un componente clave de la automatización de oficinas gubernamentales y empresariales.

2.8.3 Respuesta a preguntas sobre documentos y DocVQA: de "leer documentos" a "preguntar a los documentos"

Cuando las capacidades de OCR y análisis de diseño son suficientemente sólidas, la siguiente necesidad natural es: que la gente ya no tenga que revisar documentos por sí misma, sino "preguntar directamente a los documentos". Esto es la respuesta a preguntas sobre documentos (DocVQA): el modelo responde preguntas sobre documentos complejos como contratos, informes, facturas, manuales, etc., por ejemplo "¿Cuál es la fecha de entrada en vigor de este contrato?", "¿Cuál es el beneficio neto del Q4 de 2023 en este informe?", "¿Quién es el comprador en esta factura?".

Los sistemas tradicionales de DocVQA suelen construirse como "OCR + modelo de diseño + cabezal de QA":

  • Primero se utiliza OCR para extraer texto y coordenadas;
  • Se emplean LayoutLM / DocFormer, etc. para modelar las relaciones trimodales texto–diseño–visión;
  • Finalmente, sobre esta representación se añade un cabezal de tarea (clasificación / extracción / predicción de span) que, en función de la pregunta, localiza la respuesta o los fragmentos relevantes en el documento.

Con el desarrollo de los modelos multimodales grandes, cada vez más sistemas comienzan a utilizar directamente "imagen del documento + pregunta" como entrada, permitiendo que un VLM o LLM multimodal genere directamente la respuesta o una explicación con referencias. Bajo esta arquitectura, el OCR, el diseño, la comprensión semántica y la capacidad de razonamiento colaboran de extremo a extremo dentro del modelo: el modelo puede ver tanto las pistas visuales y de diseño originales, como aprovechar el conocimiento lingüístico del mundo y los patrones de razonamiento para resolver preguntas complejas.

En cuanto a la forma del producto, DocVQA suele presentarse como "asistente de revisión de contratos", "preguntas y respuestas sobre facturas/informes", "preguntas y respuestas inteligentes sobre documentos largos", ayudando a los usuarios a localizar rápidamente información clave entre grandes volúmenes de documentos, generar resúmenes automáticamente, realizar comparaciones de cláusulas, etc., reduciendo significativamente la carga de la revisión manual y la búsqueda de información.## 2.9 Generación y edición de imágenes (Image Generation & Editing)

La mayoría de las capacidades visuales presentadas anteriormente son de tipo "discriminativo": la entrada es una imagen y la salida son etiquetas, cuadros delimitadores, máscaras o texto. Sin embargo, otra línea que ha avanzado rápidamente en los últimos años es la visión generativa: el modelo ya no se limita a comprender imágenes, sino que crea o modifica imágenes, generando contenido visual de alta calidad y en múltiples estilos a partir de condiciones de texto/imagen. La generación y edición de imágenes es precisamente la capacidad central de esta dirección, y sustenta una gran cantidad de productos, desde plataformas de dibujo AIGC hasta herramientas inteligentes de retoque y efectos especiales.

Desde una perspectiva de negocio, la visión generativa ha pasado de ser una "demostración técnica" a una herramienta de productividad realmente útil: los diseñadores la utilizan para bocetos de inspiración y refinamiento de ilustraciones; los equipos de marketing la emplean para generar carteles y materiales publicitarios en lotes; los usuarios comunes la usan para crear avatares, ilustraciones y fondos de pantalla; y los creadores de video la aprovechan para el recorte de sujetos, reemplazo de fondos y efectos especiales. A continuación, organizamos esta capa desde tres perspectivas: escenarios, principios y modelos, y en las subsecciones siguientes profundizaremos en la generación de texto a imagen, imagen a imagen y las capacidades de edición.

  • Escenarios
    • Texto a imagen: el usuario introduce una descripción ("una ciudad nocturna de estilo cyberpunk") y el sistema genera automáticamente varias imágenes que coinciden con la descripción, permitiendo la selección y modificación iterativa.
    • Transferencia de estilo y traducción de imagen: convierte fotos reales a estilos de anime, boceto, óleo o acuarela, o realiza mapeos entre diferentes dominios (día ↔ noche, verano ↔ invierno).
    • Repintado condicional y expansión: repinta localmente áreas de la imagen original (Inpainting) o expande más allá de los bordes de la imagen (Outpainting), para reparar imperfecciones, eliminar/añadir objetos o ampliar la composición.
    • Edición basada en texto: modifica imágenes mediante instrucciones en lenguaje natural ("cambia el cielo a un atardecer", "convierte este coche en un deportivo rojo"), sin que el usuario necesite dominar software complejo de edición de imágenes.
  • Principios Los modelos de visión generativa logran la generación y edición principalmente mediante el aprendizaje de la "distribución de imágenes" y el "control condicional":
    • Modelado de distribución: GAN, modelos de difusión (Diffusion), Flow Matching, etc., aprenden distribuciones de alta dimensionalidad a partir de grandes volúmenes de imágenes, lo que permite al modelo "muestrear" progresivamente imágenes realistas desde ruido aleatorio.
    • Generación condicional: sobre la base del modelado puro de distribución de imágenes, se introducen condiciones como texto, bocetos, mapas de segmentación, puntos clave o mapas de profundidad, de modo que el proceso de generación esté restringido por señales externas (Text-to-Image, Image-to-Image, ControlNet, etc.).
    • Edición controlable: en el espacio latente de una imagen existente, se guían y modifican características locales mediante texto o máscaras locales, logrando repintado local, cambios de estilo, ajustes de composición, etc.
  • Modelos Los modelos actuales de generación y edición de imágenes se basan principalmente en modelos de difusión + control condicional:
    • Familia GAN: StyleGAN y similares destacan en rostros de alta resolución y control de estilo, pero su entrenamiento es inestable y tienen dificultades para cubrir distribuciones multimodales complejas.
    • Modelos de difusión: Stable Diffusion, Imagen, la familia DALL·E, etc., realizan el muestreo mediante un proceso de "adición progresiva de ruido + eliminación progresiva de ruido", combinando calidad y diversidad, y constituyen la dirección principal actual de Text-to-Image.
    • Generación y edición controlable: ControlNet, T2I-Adapter, etc., superponen canales condicionales (bordes, pose, segmentación, etc.) sobre el modelo de difusión base para lograr un control preciso; combinados con Inpainting/Outpainting guiado por texto, permiten la edición local y la expansión de la imagen.
    • Flow Matching y modelos generativos de nueva generación: transforman la distribución de ruido en distribución de imágenes mediante el aprendizaje de campos de flujo continuos, explorando un nuevo equilibrio entre eficiencia, controlabilidad y estabilidad.

A nivel de producto, estas tecnologías se presentan a los usuarios a través de Jimeng, los modelos de imagen Qwen de Alibaba, FLUX, OpenAI o Gemini nanobanana, el ecosistema de Stable Diffusion, Photoshop Generative Fill, Canva AI, el recorte inteligente y efectos especiales de Jianying/CapCut, entre otros, evolucionando gradualmente de "juguetes" a eslabones formales en la cadena de producción de contenido. A continuación, desarrollamos tres direcciones: texto a imagen, traducción de imagen a imagen y edición basada en texto.

2.9.1 Texto a imagen (Text-to-Image): de una frase a una pintura

La tarea central de texto a imagen (Text-to-Image) es: dada una descripción en lenguaje natural, generar una imagen que coincida lo más posible con su semántica y estilo. Los modelos modernos de Text-to-Image se basan principalmente en la arquitectura de difusión:

  • En primer lugar, se utiliza un codificador de texto (como CLIP Text Encoder o T5/LLM) para codificar el texto de entrada en un vector condicional;
  • A continuación, en el espacio latente de la imagen, partiendo de un estado de alto ruido, se realiza un muestreo mediante múltiples pasos de eliminación progresiva de ruido, utilizando en cada paso la condición textual para guiar la dirección de generación;
  • Finalmente, se obtiene una imagen de alta resolución que coincide con la descripción, que puede ampliarse aún más o someterse a postprocesado.

Métodos como Stable Diffusion, Imagen y la familia DALL·E se entrenan con pares imagen-texto a gran escala, lo que permite al modelo dominar tanto el repertorio visual (formas, texturas, composición, iluminación) como adquirir un cierto grado de alineación lenguaje-visión (comprender descripciones complejas como "estilo", "material" o "composición"). A nivel de producto, esta capacidad permite que "incluso quien no sabe dibujar pueda crear imágenes": el usuario solo necesita describir su idea en lenguaje natural y el sistema ofrece múltiples realizaciones visuales, permitiendo la exploración iterativa y el refinamiento.

Los modelos de Text-to-Image suelen admitir salidas en múltiples estilos y resoluciones: mediante la incorporación de tokens de estilo, condiciones de tamaño, etc., durante el entrenamiento o la inferencia, el mismo modelo puede alternar entre diferentes estilos como "fotorrealista", "ilustración plana" o "renderizado 3D". Las técnicas de ingeniería más utilizadas incluyen:

  • Ingeniería de prompts (Prompt Engineering), para refinar y estabilizar el estilo de salida;
  • Técnicas de ajuste fino ligero como LoRA / DreamBooth, para adaptar rápidamente un modelo general a personas, IP o estilos de marca específicos.

2.9.2 Imagen a imagen (Image-to-Image): traducción, transferencia de estilo y repintado local

La tarea de Image-to-Image, a partir de una imagen de entrada dada, genera otra versión de imagen "restringida por ella": conserva la estructura o el contenido general de la imagen original, mientras logra algún tipo de transformación o mejora. Las formas típicas incluyen:

  • Traducción de imagen / transferencia de estilo: mapeo entre diferentes dominios visuales, como "foto → anime", "verano → invierno", "día → noche", "boceto → imagen a color". Las primeras soluciones se basaban principalmente en GAN (CycleGAN, Pix2Pix, etc.), pero ahora también pueden realizarse con modelos de difusión bajo control condicional.
  • Generación condicional: utilizando bocetos, mapas de segmentación, mapas de profundidad, mapas de bordes, etc., como condiciones, y mediante módulos como ControlNet o T2I-Adapter para guiar el proceso de difusión, de modo que la imagen generada respete estrictamente las condiciones geométricas y de composición, mientras se desarrolla libremente en texturas, iluminación y estilo.
  • Inpainting / Outpainting: se delimita una región en la imagen original, que se trata como el área a repintar (inpainting), o se genera nuevo contenido expandiendo más allá de los bordes de la imagen (outpainting), logrando operaciones como "rellenar huecos" o "expandir la imagen".

La clave de este tipo de tareas es crear nuevo contenido preservando las restricciones. Los modelos de difusión destacan en este aspecto: en el inpainting, el modelo solo muestrea la región de la máscara, mientras mantiene la imagen original inalterada en las áreas no ocluidas, utilizando la comprensión semántica y la información contextual para que el nuevo contenido se integre de forma natural con el área circundante en estilo e iluminación. Para la transferencia de estilo, el modelo, mientras conserva la estructura de entrada, muestrea texturas y colores de la distribución del estilo objetivo, logrando "cambiar la apariencia sin alterar la esencia".

En los productos, la capacidad de Image-to-Image sustenta una gran cantidad de herramientas creativas: filtros de estilo, conversión a cómic, reemplazo de cielo con un solo clic, embellecimiento automático, restauración de fotos antiguas, retoque local, etc., que generalmente se presentan al usuario a través de interfaces altamente visuales.

2.9.3 Edición de imágenes basada en texto: el lenguaje natural como "pincel"

En el software tradicional de edición de imágenes, el usuario necesita dominar todo un conjunto de conceptos profesionales como capas, máscaras, selecciones y filtros; la edición de imágenes basada en texto (Text-guided Editing) intenta reemplazar la mayoría de las operaciones profesionales con lenguaje natural:

  • "Cambia el fondo por el horizonte de una ciudad nocturna";
  • "Haz que esta persona lleve un traje negro";
  • "Convierte este coche en un deportivo azul y añade un efecto de desenfoque de movimiento".

Técnicamente, la edición basada en texto suele construirse sobre modelos de difusión Text-to-Image, implementándose de varias maneras:

  • Búsqueda o muestreo en el espacio latente cercano a la imagen original, de modo que la imagen editada mantenga una alta similitud con la original y solo cambien las partes locales afectadas por el texto;
  • Uso de máscaras explícitas (área delimitada por el usuario), restringiendo el alcance de la edición a una región específica (esto es lo que ocurre en muchas herramientas con la funcionalidad de "seleccionar área e introducir instrucción de texto");
  • Introducción de módulos de "control por instrucciones" (como ControlNet, tokens de control aprendibles), para mejorar la controlabilidad y estabilidad del modelo frente a las solicitudes de edición.

Productos como Jimeng, FLUX, los modelos de imagen Qwen de Alibaba, el ecosistema de Stable Diffusion y Canva AI ofrecen capacidades similares: el usuario puede realizar ediciones complejas con solo un texto sencillo y una mínima interacción. Para los usuarios profesionales, esto se convierte en un "asistente inteligente" que acelera el flujo de trabajo creativo; para los usuarios comunes, reduce enormemente la barrera de entrada a la edición de imágenes.## 2.10 Evaluación de Calidad de Imagen (Image Quality Assessment, IQA)

En tareas como la mejora visual de bajo nivel, la codificación por compresión y la generación o edición de imágenes, a menudo necesitamos responder a una pregunta aparentemente subjetiva: "¿Esta imagen se ve bien?". La inspección manual claramente no es escalable, y métricas tradicionales como PSNR a menudo no coinciden con la percepción subjetiva del ojo humano. El objetivo de la Evaluación de Calidad de Imagen (Image Quality Assessment, IQA) es establecer un mecanismo automatizado para puntuar u ordenar la calidad subjetiva/objetiva de las imágenes, convirtiéndose en un vínculo clave entre "la salida del algoritmo de bajo nivel" y "la experiencia real del usuario".

Desde una perspectiva de sistema, IQA actúa como "guardián" y "referencia para el ajuste de parámetros" en muchos pipelines: las plataformas de comercio electrónico/contenido lo utilizan para filtrar imágenes subidas que estén borrosas, tengan mucho ruido o estén excesivamente comprimidas; las cámaras de teléfonos y aplicaciones de galería lo usan para seleccionar "la mejor foto" entre ráfagas; los servicios de mejora y compresión en la nube lo emplean para comparar antes y después, guiando así la iteración del modelo. A continuación, se organiza IQA desde tres dimensiones: escenarios, principios y modelos, y en las subsecciones siguientes se profundiza en los tipos de evaluación, métricas y paradigmas de aprendizaje.

  • Escenarios
    • Control de calidad y revisión de subidas: puntuar la calidad de imágenes/vídeos subidos por los usuarios, filtrando contenido con desenfoque severo, exposición anormal, ruido evidente y artefactos de compresión graves.
    • Selección inteligente y eliminación de duplicados: en aplicaciones de galería y cámara, elegir entre varias fotos similares aquellas con mejor nitidez, expresión y composición, al mismo tiempo que se identifican imágenes de baja calidad o redundantes para su limpieza.
    • Evaluación de algoritmos de mejora/compresión: en pruebas A/B de algoritmos de mejora de imagen, reducción de ruido, superresolución y codificación/decodificación, usar métricas IQA para medir objetivamente "qué estrategia es mejor", ayudando en la búsqueda de parámetros y la selección de modelos.
    • Selección automática de pósteres/miniaturas: elegir automáticamente los fotogramas con mayor calidad visual y atractivo como candidatos a portada o miniatura en colecciones de vídeos o múltiples imágenes.
  • Principios El núcleo de IQA es caracterizar la calidad de imagen desde dos dimensiones: el grado de distorsión respecto a una imagen de referencia y la calidad percibida subjetivamente por el ojo humano:
    • IQA con referencia completa (FR‑IQA): partiendo de una imagen de referencia de alta calidad, se compara la imagen evaluada con la referencia píxel a píxel o a nivel de características, midiendo el grado de distorsión. Se utiliza en investigación de algoritmos y evaluación experimental.
    • IQA sin referencia (NR‑IQA / Blind IQA): más común en escenarios reales, donde no hay imagen de referencia y solo se puede inferir la calidad a partir de las características estadísticas o profundas de una sola imagen. El modelo necesita aprender, a partir de grandes volúmenes de imágenes y puntuaciones subjetivas, "qué tipo de imágenes prefiere el ojo humano".
    • IQA con pseudo-referencia / referencia de submuestreo: en ciertos escenarios, se puede usar una versión de baja resolución anterior a la compresión o una "imagen ideal" predicha por el modelo como referencia aproximada, equilibrando viabilidad y precisión de evaluación.
  • Modelos Los modelos IQA se dividen aproximadamente en dos grandes categorías: métricas tradicionales basadas en características artesanales y predicción de calidad mediante aprendizaje profundo:
    • Métricas tradicionales:
      • FR‑IQA: PSNR, SSIM, MS‑SSIM, FSIM, etc., que se enfocan en la estructura, el contraste y la información de fase, siendo más sensibles a degradaciones simples (como adición de ruido, desenfoque).
      • Métricas perceptuales: LPIPS, DISTS, etc., que miden las diferencias perceptuales entre imágenes en un espacio de características profundas, con mayor correlación con la percepción subjetiva humana.
    • IQA sin referencia / basada en aprendizaje:
      • Métodos tempranos: BRISQUE, NIQE, la serie BLIINDS, etc., que parten de estadísticas de escenas naturales (NSS) y características artesanales, entrenando modelos superficiales para predecir puntuaciones de calidad.
      • NR‑IQA profundo: RankIQA, DBCNN, HyperIQA, MUSIQ, etc., que utilizan directamente CNN / ViT para extraer características de la imagen y se entrenan de forma supervisada sobre datos MOS (Mean Opinion Score, puntuación subjetiva media), haciendo que la puntuación de calidad de salida se ajuste lo más posible a la evaluación humana.
      • Representaciones preentrenadas: aprovechan características de modelos grandes como CLIP, ViT como entrada o backbone para la red de predicción de calidad, ajustándose con datos MOS limitados para mejorar la capacidad de generalización frente a tipos de distorsión complejos.

En conjunto, IQA no es una métrica única de "cuanto más alto, mejor", sino un sistema de evaluación vinculado a objetivos de negocio específicos: en ciertos escenarios (como la mejora de videovigilancia), preservar detalles e identificabilidad es más importante que la naturalidad visual; en plataformas de creación de contenido, la percepción subjetiva y los criterios estéticos son los que predominan. Por ello, una práctica común en la industria es: sobre un modelo IQA genérico, ajustar o ponderar con una pequeña cantidad de datos de negocio para construir un evaluador de calidad "consciente de la tarea".

2.10.1 Tipos de evaluación: con referencia, sin referencia y con pseudo-referencia

Según la existencia de una imagen de referencia de alta calidad, IQA se puede clasificar en tres tipos: con referencia completa (FR‑IQA), sin referencia (NR‑IQA) y con pseudo-referencia.

En IQA con referencia completa, asumimos que existe una imagen de referencia ideal de alta calidad, y la imagen a evaluar es su versión degradada tras compresión, transmisión o procesamiento. El modelo cuantifica el grado de distorsión comparando ambas píxel a píxel o a nivel de características. PSNR es la métrica más simple (basada en el error cuadrático medio), mientras que SSIM/MS‑SSIM/FSIM consideran además brillo, contraste, estructura o información de fase, acercándose en cierta medida más a la percepción humana. Estas métricas son muy adecuadas para evaluar métodos de codificación/decodificación, superresolución y reducción de ruido durante la fase de desarrollo de algoritmos, pero en entornos de producción real a menudo falta la imagen de referencia, lo que limita su aplicación.

IQA sin referencia (Blind IQA) es la configuración más común en sistemas reales: solo se dispone de la imagen a evaluar, sin ninguna referencia. Los primeros métodos sin referencia (como BRISQUE, NIQE, BLIINDS, etc.) se basaban principalmente en estadísticas de escenas naturales: asumiendo que las imágenes naturales de alta calidad presentan una forma estable en ciertas distribuciones estadísticas, la distorsión provoca cambios en dichas características, lo que permite entrenar un modelo para predecir puntuaciones de calidad a partir de esas características. En la era del aprendizaje profundo, los modelos NR‑IQA suelen utilizar directamente CNN / ViT para extraer características y realizan regresión de puntuaciones de calidad o aprenden relaciones de ordenamiento sobre conjuntos de datos con puntuaciones subjetivas humanas (MOS), permitiendo cubrir múltiples tipos de distorsión como ruido, desenfoque, artefactos de compresión y exposición anormal.

IQA con pseudo-referencia / referencia de submuestreo se sitúa entre ambos extremos: sin una referencia real de alta calidad, se utiliza alguna versión aproximada disponible (como la imagen de baja resolución previa a la compresión, o una "imagen limpia" predicha por el modelo) como referencia para estimar el grado de degradación. Este enfoque es común en tareas de monitorización de calidad de vídeo en línea y optimización de codificación/decodificación, logrando un equilibrio entre coste y precisión.

2.10.2 Métricas y paradigmas de aprendizaje: de PSNR a la predicción de calidad perceptual

A nivel de implementación, IQA emplea diversas métricas y paradigmas de aprendizaje para aproximarse a la percepción subjetiva del ojo humano.

En cuanto a métricas tradicionales:

  • PSNR se basa directamente en el error a nivel de píxel: es simple y eficiente, pero penaliza en exceso cambios que el ojo humano apenas percibe (como pequeños desplazamientos o filtrados que preservan la estructura);
  • SSIM, MS‑SSIM, FSIM, etc., modelan la similitud de imágenes desde múltiples dimensiones como brillo, contraste, estructura y fase, siendo más sensibles a distorsiones estructurales y reflejando en cierta medida la preferencia del ojo humano por la información estructural.

En cuanto a métricas perceptuales: LPIPS, DISTS, etc., calculan diferencias vectoriales en las capas de características internas de redes profundas preentrenadas (VGG, AlexNet, ViT, etc.) y las ponderan según la importancia de cada capa, obteniendo una "distancia en el espacio de características" con mayor correlación con la similitud perceptual subjetiva. Son especialmente adecuadas como objetivo de entrenamiento o métrica de evaluación en tareas generativas (superresolución, generación, edición), para medir "cuánto se parece visualmente".

En cuanto a predicción de calidad mediante aprendizaje, los modelos profundos NR‑IQA (como RankIQA, DBCNN, HyperIQA, MUSIQ, etc.) puntúan u ordenan imágenes directamente:

  • En los datos de entrenamiento, cada imagen va acompañada de un conjunto de puntuaciones subjetivas (MOS), y el modelo se entrena de forma supervisada para regresión de calidad o redes de ordenamiento;
  • En cuanto a la estructura del modelo, se suele usar CNN/ViT + pooling global + MLP para producir una puntuación de calidad, o generar una distribución de calidad y tomar su esperanza;
  • Algunos métodos también emplean aprendizaje contrastivo o aprendizaje de ordenamiento por pares (pairwise ranking), para que el modelo preste más atención a las relaciones de "relativamente mejor/peor" en lugar de a las puntuaciones absolutas.

Con la popularización de los modelos visuales preentrenados a gran escala, cada vez más métodos IQA adoptan el paradigma de "backbone preentrenado + cabeza ligera": aprovechan representaciones visuales ricas como las de CLIP o ViT y las ajustan con pocos datos MOS, manteniendo así una buena generalización entre distintos tipos de distorsión y distintos escenarios.

En la implementación en producción, se suelen combinar varias de las métricas anteriores: por ejemplo, las métricas FR‑IQA se usan en la fase experimental para evaluar mejoras algorítmicas; los modelos profundos NR‑IQA se emplean para el control de calidad en línea; y las métricas perceptuales se utilizan para la optimización interna de tareas generativas. Mediante experimentos A/B, estas métricas automáticas se alinean con datos reales de usuarios (CTR, tasa de visualización completa, tasa de quejas, etc.), construyendo progresivamente un "sistema de medición de calidad perceptual" altamente correlacionado con los objetivos de negocio.# 3. Modalidad 3D / Espacial (3D / Spatial / XR)

A medida que las aplicaciones evolucionan de "imágenes/video planos" hacia escenarios como conducción autónoma, robótica, AR/VR/XR, los sistemas ya no se conforman con solo ver "píxeles 2D", sino que necesitan comprender la estructura tridimensional del mundo real, sus escalas y relaciones de pose. Este tipo de tareas se agrupan bajo la modalidad 3D / espacial: incluyen tanto el modelado preciso de geometría y topología como la comprensión semántica, localización, navegación y generación de contenido en el espacio 3D. En un extremo se conecta con múltiples sensores como LiDAR, RGB‑D e IMU; en el otro, con módulos de percepción de conducción autónoma, sistemas de navegación robótica, modelos de entorno de ARKit/ARCore, aplicaciones de escaneo y modelado 3D en móviles, así como plataformas de gemelos digitales.## 3.1 Percepción y Reconstrucción 3D (3D Perception & Reconstruction)

En la visión 2D, solo vemos "el mundo después de ser fotografiado"; pero en escenarios como la conducción autónoma, la robótica y AR/VR, lo más crítico es: la posición, forma y estructura del mundo real en el espacio 3D. La percepción y reconstrucción 3D consiste en recuperar la información geométrica tridimensional del entorno a partir de múltiples sensores (cámaras, LiDAR, cámaras de profundidad, etc.) y expresarla en forma de nubes de puntos, vóxeles, mallas (Mesh), campos implícitos, etc., proporcionando la base para la planificación de trayectorias, la simulación física, los gemelos digitales y la generación de contenido 3D.

En la práctica de ingeniería, esta capa abarca desde el procesamiento de nubes de puntos hasta la reconstrucción geométrica multivista y el renderizado basado en campos de radiancia neuronal/campos neuronales, correspondiendo a módulos de percepción 3D para conducción autónoma, modelado de entornos con ARKit/ARCore, aplicaciones de escaneo 3D móvil y plataformas de modelado de gemelos digitales urbanos o de campus. A continuación, se desarrolla desde tres perspectivas: escenarios, principios y modelos, con un desglose adicional en varias subdirecciones clave.

  • Escenarios
    • Conducción autónoma y asistida: percepción de estructuras 3D como vehículos, peatones, bordillos, líneas de carril e infraestructura vial a partir de nubes de puntos LiDAR e imágenes de múltiples cámaras, para la planificación de trayectorias y decisiones de seguridad.
    • Escaneo de entornos interiores/exteriores: uso de teléfonos/tabletas (luz estructurada / ToF / estéreo) o escáneres portátiles para capturar datos multivista y reconstruir en tiempo real modelos 3D de habitaciones, edificios y manzanas, para modelado AR, diseño de interiores y gemelos digitales.
    • Gemelos digitales y BIM: reconstrucción de fábricas, campus y ciudades reales en modelos 3D de alta precisión mediante imágenes multivista y nubes de puntos, para gestión de operaciones, simulación y visualización.
    • Escaneo 3D de consumo: aplicaciones de escaneo 3D en móviles, herramientas de "foto a modelo 3D" con un solo clic, que proporcionan geometría original para impresión 3D, pruebas virtuales y producción de assets para videojuegos/cine.
  • Principios
    • Procesamiento de nubes de puntos: el conjunto de puntos dispersos/densos obtenido por LiDAR o reconstrucción multivista se trata como un conjunto de puntos de muestreo 3D, sobre el que se aplican filtrado, registro, submuestreo y aprendizaje de características, seguido de clasificación, segmentación semántica/de instancias o detección de objetos 3D.
    • Geometría multivista y reconstrucción 3D: mediante SfM (Structure‑from‑Motion) se estiman las poses de cámara y la nube de puntos 3D dispersa entre múltiples imágenes; luego, con MVS (Multi‑View Stereo) se genera una nube de puntos densa, seguida de reconstrucción de malla y mapeado de texturas.
    • Campos de radiancia neuronal / campos implícitos neuronales: utilizando métodos como NeRF, Instant‑NGP, Gaussian Splatting, la escena 3D se representa como una función continua de densidad de volumen/color o un conjunto de partículas gaussianas, y se generan imágenes mediante renderizado volumétrico o rasterización, aprendiendo a partir de supervisión multivista. Una vez entrenado, se puede realizar síntesis de nuevas vistas (Novel View Synthesis) y extracción geométrica.
  • Modelos
    • Redes para nubes de puntos: PointNet / PointNet++, PointCNN, DGCNN, MinkowskiNet, etc., que aprenden características directamente sobre puntos o vóxeles dispersos para clasificación, segmentación y detección 3D. En conducción autónoma se utilizan habitualmente frameworks de detección 3D como VoxelNet, SECOND, CenterPoint, que convierten nubes de puntos en características de vóxeles o BEV (vista de pájaro) para la detección.
    • Cadena de herramientas de reconstrucción geométrica: sistemas tradicionales de SfM/MVS como COLMAP, OpenMVG / OpenMVS, que permiten recuperar poses de cámara y nubes de puntos densas a partir de fotos multivista para construir mallas de alta calidad.
    • Reconstrucción y renderizado basado en campos neuronales: NeRF / Instant‑NGP, Gaussian Splatting y numerosos modelos mejorados que codifican la escena en una red neuronal o nube gaussiana, logrando síntesis de nuevas vistas de alta fidelidad y reconstrucción 3D de escenas, evolucionando progresivamente hacia productos de ingeniería. También han surgido en la industria servicios de IA 3D orientados a desarrolladores y producción de contenido, como «Hunyuan 3D» y «Tripo», que encapsulan técnicas como NeRF/Gaussian en APIs en la nube o herramientas interactivas.

A partir de esta capa, la geometría tradicional y el aprendizaje profundo, las representaciones implícitas y las mallas explícitas se entrelazan estrechamente, debiendo resolver tanto el problema de «cómo reconstruir fielmente el mundo real» como el de equilibrar el rendimiento en tiempo real y la usabilidad, al servicio de capas superiores como la comprensión de escenas 3D, la generación 3D y la edición 3D.

3.1.1 Procesamiento de nubes de puntos y detección de objetos 3D

Para la conducción autónoma, la robótica y la topografía de alta precisión, la nube de puntos LiDAR es una de las fuentes de información sensorial 3D más críticas. Una nube de puntos es un conjunto disperso de coordenadas tridimensionales (a veces acompañadas de intensidad de reflexión, marcas de tiempo, etc.), sin una estructura de rejilla regular, lo que supone un desafío para las convoluciones tradicionales. El objetivo del procesamiento de nubes de puntos es extraer información geométrica y semántica útil de estos puntos no estructurados, por ejemplo, «aquí hay un coche», «esto es un bordillo/suelo» o «esto es un edificio».

En las tareas de clasificación y segmentación de nubes de puntos, nos centramos en: a qué clase estructural pertenece un punto (o clúster de puntos), como coche, peatón, suelo, bordillo, edificio, vegetación, etc., o en realizar segmentación semántica/de instancias de la escena. Desde la perspectiva del modelado, se pueden clasificar aproximadamente en tres categorías:

  1. Redes directas sobre nubes de puntos: PointNet / PointNet++, PointCNN, DGCNN, etc., que definen operaciones «insensibles a la permutación del conjunto de puntos» directamente sobre el conjunto de puntos, construyendo características jerárquicas mediante agregación de vecindarios locales, adecuadas para clasificación y segmentación de nubes de puntos de escala pequeña a media.
  2. Vóxeles y convolución dispersa: se rasteriza la nube de puntos en vóxeles 3D y se aplica convolución con CNN 3D dispersa (como VoxelNet, MinkowskiNet), combinando regularidad estructural con dispersión espacial, ampliamente utilizado en detección 3D para conducción autónoma.
  3. Proyección y multivista: se proyecta la nube de puntos a BEV (vista de pájaro), mapas de profundidad frontales o vistas múltiples, y luego se extraen características con CNN 2D, lo que facilita relativamente la integración con redes de detección 2D maduras.

En la detección de objetos 3D, el objetivo ya no es simplemente etiquetar puntos, sino predecir cajas delimitadoras 3D (posición, tamaño, orientación) y su categoría, lo cual constituye el núcleo de la percepción del entorno en conducción autónoma. Métodos típicos como VoxelNet, SECOND, PointPillars y CenterPoint suelen convertir la nube de puntos en representaciones de vóxeles o pilares, realizando la regresión de detección en el espacio BEV o 3D. Métodos como CenterPoint, mediante el paradigma de «detección por punto central», detectan directamente el centro del objeto y su tamaño/orientación en BEV, combinando precisión y velocidad. Con la evolución del aprendizaje profundo y el hardware de sensores, la detección 3D ya es capaz de realizar inferencia en tiempo real en chips de grado automotriz, convirtiéndose en uno de los módulos fundamentales del stack de percepción para conducción autónoma.

3.1.2 Geometría multivista y reconstrucción 3D: de fotos a Mesh

Sin LiDAR, ¿es posible aún «entender» el 3D? La respuesta es sí: la geometría multivista y la reconstrucción 3D se basan en «múltiples fotos + movimiento de cámara». Fotografiando la misma escena desde diferentes puntos de vista, podemos aprovechar las restricciones geométricas para recuperar las poses de cámara y la estructura espacial; este es el flujo clásico de SfM/MVS.

SfM (Structure‑from‑Motion) resuelve principalmente dos problemas:

  1. Estimar, a partir de múltiples pares o conjuntos de imágenes multivista, los parámetros extrínsecos de cámara (posición y orientación) de cada imagen;
  2. Recuperar un conjunto de puntos característicos 3D dispersos en un sistema de coordenadas unificado.

Herramientas típicas como COLMAP y OpenMVG, mediante extracción y emparejamiento de características (SIFT/ORB, etc.) y BA (Bundle Adjustment) incremental o global, pueden recuperar automáticamente nubes de puntos dispersas y poses de cámara a partir de colecciones de imágenes no calibradas. Sobre esta base, MVS (Multi‑View Stereo) utiliza la consistencia fotométrica multivista para generar una nube de puntos densa: estima la profundidad para cada píxel/rayo de visión, completando progresivamente los detalles geométricos de la escena.

Una vez obtenida la nube de puntos densa, el siguiente paso es la reconstrucción de malla (Mesh Reconstruction):

  • Mediante Poisson Surface Reconstruction, Marching Cubes o métodos basados en aprendizaje, se «envuelve» la nube de puntos dispersa en una superficie continua, formando una malla con estructura topológica.
  • Posteriormente, se suelen realizar relleno de huecos, suavizado, optimización de bordes y mapeado de texturas (Texture Mapping), obteniendo un modelo 3D directamente utilizable para renderizado y edición.

En cuanto a la forma de producto, todo este flujo se ha integrado en software de escritorio, servicios en la nube y SDKs. Por ejemplo: las aplicaciones de escaneo 3D en móviles ejecutan en segundo plano un proceso similar a SfM/MVS, permitiendo al usuario «dar una vuelta fotografiando» o «grabar un vídeo alrededor» y obtener automáticamente un modelo de malla importable a motores de videojuegos; las plataformas de gemelos digitales, a escala urbana o de campus, ejecutan reconstrucciones a gran escala con imágenes aéreas + datos de street view, generando escenas 3D interactivas.

3.1.3 Campos de radiancia neuronal y renderizado volumétrico: NeRF, Gaussian y la nueva generación de reconstrucción 3D

Los métodos tradicionales de SfM/MVS y reconstrucción de malla pueden producir geometría explícita bien estructurada, pero tienen limitaciones en calidad de renderizado, continuidad de vistas y representación de detalles. Los campos de radiancia neuronal (NeRF) y sus trabajos posteriores redefinen la reconstrucción 3D y la síntesis de nuevas vistas mediante campos implícitos + renderizado volumétrico.

En NeRF, toda la escena 3D se modela como una función continua:

Fθ(x,d)=(σ,c)F_\theta(\mathbf{x}, \mathbf{d}) = (\sigma, \mathbf{c})

donde x\mathbf{x} representa la posición del punto en el espacio tridimensional, d\mathbf{d} la dirección de observación, σ\sigma la densidad de volumen, c\mathbf{c} el color, y θ\theta los parámetros de la red.

Dados una posición de punto x y una dirección de observación d en el espacio tridimensional, la red genera la densidad de volumen σ y el color c correspondientes a ese punto. Integrando esta función de mapeo mediante renderizado volumétrico a lo largo de la dirección del rayo de cámara, obtenemos el color del píxel para esa pose de cámara. A la inversa, con un conjunto de fotos multivista y sus parámetros de cámara, podemos resolver los parámetros θ del modelo minimizando el error entre el resultado renderizado y la imagen real. Una vez entrenado el modelo, basta con cambiar la pose de cámara para sintetizar imágenes de nuevas vistas que «nunca fueron fotografiadas realmente» (Novel View Synthesis).

El NeRF tradicional sufría de velocidades lentas tanto en entrenamiento como en renderizado. Trabajos posteriores como Instant‑NGP, mediante codificación hash multirresolución en rejilla, aceleraron drásticamente la convergencia y la inferencia. Gaussian Splatting, por su parte, representa la escena con partículas gaussianas 3D y, mediante estrategias eficientes de rasterización, logra renderizado de nuevas vistas en tiempo real y de alta calidad. Paralelamente, numerosos trabajos han extendido NeRF/Gaussian con capacidades de edición, multimodalidad y composición, haciendo que evolucione progresivamente de prototipo de investigación a sistema de ingeniería.

A nivel de producto, las tecnologías tipo NeRF/Gaussian ya se han integrado en diversos productos de IA 3D:

  • Herramientas de «vídeo multivista → escena 3D» para móvil/PC, cuya capa subyacente a menudo se basa en campos neuronales o partículas gaussianas para reconstrucción y renderizado;
  • En los pipelines de assets para videojuegos/cine, se utilizan campos neuronales para captura rápida de escenas y restauración de iluminación, exportando posteriormente como Mesh + texturas para su uso en herramientas DCC tradicionales;
  • Los servicios de IA 3D lanzados por los principales proveedores cloud y plataformas de contenido, como «Hunyuan 3D» de Tencent y Tripo, suelen admitir el flujo «múltiples fotos/vídeos cortos → modelo/escena 3D editable», combinando internamente campos de radiancia neuronal, representaciones SDF/Gaussian y reconstrucción explícita posterior, empaquetando resultados 3D de alta calidad como APIs amigables para desarrolladores o productos interactivos.## 3.2 Comprensión y localización de escenas 3D (3D Scene Understanding & SLAM)

Si la percepción y reconstrucción 3D responden a la pregunta "¿cómo es este mundo?", la comprensión y localización de escenas 3D responden además a: "¿Dónde estoy en este mundo? ¿Qué zonas se pueden transitar y cuáles son obstáculos?" Para robots aspiradores, AGVs, drones, navegación AR y sistemas de posicionamiento en interiores, la capacidad de autolocalizarse, construir mapas y planificar rutas de forma autónoma en entornos 3D es un requisito de supervivencia.

Este trabajo gira principalmente en torno a la comprensión semántica 3D y SLAM (Simultaneous Localization and Mapping) : la primera realiza segmentación semántica e identificación de áreas transitables en escenas 3D reconstruidas, mientras que el segundo utiliza sensores visuales/IMU/LiDAR para estimar la pose de la cámara/robot y construir mapas. En ingeniería, esta capa suele integrarse en forma de SDK o módulo algorítmico en el chasis de robots, controladores de vuelo de drones o motores AR para dispositivos móviles.

  • Escenarios
    • Robots domésticos y de servicio: robots aspiradores, robots de reparto/inspección construyen mapas en entornos interiores, identifican tipos de habitaciones y obstáculos, y planifican automáticamente rutas de limpieza o patrullaje.
    • Almacenamiento y logística: robots AGV/AMR navegan de forma autónoma en almacenes, identificando estanterías, pasillos y zonas restringidas, para realizar tareas de transporte e inventario.
    • Drones y robots de exteriores: construyen mapas 3D en entornos al aire libre, evitan edificios, árboles, cables eléctricos y otros obstáculos, y ejecutan tareas de inspección, topografía y seguridad.
    • Navegación AR y posicionamiento en interiores: teléfonos/gafas AR obtienen la pose de la cámara mediante SLAM, superponen flechas de navegación, información de habitaciones y POI sobre mapas semánticos, logrando visitas guiadas y navegación inmersivas.
  • Principios
    • Segmentación semántica 3D y comprensión de escenas: realiza segmentación semántica sobre nubes de puntos o representaciones voxelizadas, distinguiendo paredes, suelos, mesas, sillas, estanterías, puertas y ventanas, mientras identifica áreas transitables y obstáculos, proporcionando información semántica para la navegación y la toma de decisiones.
    • Estimación de pose y SLAM: mediante Visual SLAM (monocular/estéreo/RGB‑D) o LiDAR‑SLAM, se estima la pose 6D de la cámara/robot a partir de datos de sensores continuos, se gestiona la detección de cierre de bucle y la optimización del mapa, y cuando es necesario se fusionan IMU, odometría de ruedas, GNSS y otras fuentes de información para mejorar la robustez.
    • Construcción de mapas y navegación: se superpone información geométrica y semántica sobre mapas locales/globales, formando mapas 2D/3D/topológicos/semánticos, sobre los cuales se realiza planificación de rutas, evasión de obstáculos y asignación de tareas.
  • Modelos
    • Sistemas SLAM: métodos clásicos basados en puntos característicos como la familia ORB‑SLAM, métodos directos como DSO, así como VINS‑Mono / VINS‑Fusion con fusión inercial, que logran una estimación precisa de la pose y mapas densos/semidensos mediante seguimiento de características en el frontend y optimización en el backend. En fusión LiDAR/visual‑LiDAR son comunes frameworks como LIO‑SAM.
    • Redes de segmentación semántica 3D: 3D U‑Net, MinkowskiNet y otras CNN 3D, así como las familias PointNet++ / KPConv / SparseConv basadas en nubes de puntos, utilizadas para segmentación semántica y de instancias sobre nubes de puntos/vóxeles.
    • Localización con fusión multisensor: métodos basados en optimización de grafos o filtrado (EKF/UKF) que fusionan información visual, IMU, LiDAR y odometría en un espacio de estados unificado, mejorando la estabilidad de la localización en condiciones de iluminación adversa, falta de textura o entornos dinámicos.

En conjunto, la comprensión y localización de escenas 3D constituye la base para que los robots "se muevan": se trata tanto de construir un marco fiable de autolocalización en mundos tridimensionales complejos, como de dotar de "significado" a los mapas para soportar la planificación de tareas de alto nivel y la interacción persona-robot.

3.2.1 Segmentación semántica 3D y comprensión de áreas transitables

En un mapa puramente geométrico, todas las estructuras son solo puntos/vóxeles sin distinción; en aplicaciones reales, lo que nos interesa es: dónde está el suelo, dónde están las paredes, dónde hay mesas o estanterías, y por dónde se puede transitar. La segmentación semántica 3D consiste precisamente en asignar una etiqueta semántica a cada punto o vóxel, transformando la "geometría pura" en "geometría + semántica".

En escenarios interiores/exteriores, los objetivos típicos incluyen:

  • Estructuras fijas: paredes, suelo, techos, escaleras, columnas, carreteras, bordillos, etc.;
  • Mobiliario e instalaciones: mesas, sillas, armarios, estanterías, puertas, ventanas, pasamanos, etc.;
  • Áreas transitables/no transitables: zonas por las que el robot puede circular, obstáculos que debe rodear, zonas restringidas, etc.

En cuanto al modelado, la segmentación semántica 3D suele emplear:

  • Enfoques basados en vóxeles/convolución dispersa: tras voxelizar la nube de puntos, se utilizan CNN dispersas como 3D U‑Net o MinkowskiNet para aprender características a nivel de vóxel, equilibrando el detalle local y la estructura global.
  • Enfoques directos sobre nubes de puntos: redes como PointNet++ o KPConv realizan agregación de características en vecindarios locales para lograr predicción semántica a nivel de punto.

En aplicaciones como robots aspiradores o AGVs, los resultados de la segmentación semántica se abstraen aún más en mapas semánticos: por ejemplo, dividir las habitaciones en dormitorio/salón/cocina, o dividir el espacio del almacén en zonas de estanterías/pasillos/áreas restringidas. El robot no solo sabe "por dónde puede ir", sino que también puede adaptar diferentes estrategias según el tipo de habitación (como evitar zonas con alfombras en el dormitorio o priorizar ciertas áreas de estanterías en el almacén).

3.2.2 Estimación de pose, SLAM y localización con fusión multisensor

El objetivo del SLAM (Simultaneous Localization and Mapping) es: en un entorno desconocido, estimar la propia trayectoria mientras se construye simultáneamente un mapa del entorno. Para entornos interiores sin soporte de posicionamiento externo de alta precisión (como RTK‑GNSS), SLAM es la solución preferida para la gran mayoría de robots y motores AR.

En SLAM visual, los métodos representativos como ORB‑SLAM, DSO, VINS‑Mono/VINS‑Fusion suelen dividirse en varios módulos clave:

  • Frontend: extrae y sigue puntos clave/parches de imagen de fotogramas consecutivos, estimando la pose relativa entre fotogramas adyacentes.
  • Backend: realiza BA u optimización de grafos en una ventana deslizante o en el grafo global, gestionando la deriva, la detección de cierre de bucle y la relocalización.
  • Mapa: construye mapas densos o semidensos a partir de la pose y la información de profundidad, proporcionando la base para la navegación o renderizado posteriores.

El SLAM puramente visual tiende a fallar ante la falta de textura o cambios bruscos de iluminación, por lo que en la práctica se suele emplear localización con fusión multisensor:

  • Visual + IMU: frameworks como VINS‑Mono/VINS‑Fusion combinan la precisión a corto plazo y alta frecuencia del IMU con las restricciones geométricas y de escala de la visión, mejorando notablemente la estabilidad en escenarios de corta duración y giros bruscos.
  • LiDAR + IMU + visual: frameworks de odometría como LIO‑SAM introducen información inercial y opcionalmente visual en LiDAR‑SLAM, aprovechando la complementariedad de los tres sensores para lograr una localización robusta, ampliamente utilizada en conducción autónoma y topografía de alta precisión.

A nivel de producto, estos métodos suelen encapsularse como parte del controlador de chasis del robot, del controlador de vuelo del dron, del motor AR (como el Visual‑Inertial SLAM en ARKit/ARCore) o del SDK de posicionamiento en interiores, ocultando a las aplicaciones superiores la compleja lógica de estimación de estado y optimización de grafos, para que los desarrolladores puedan obtener directamente "pose en tiempo real + mapa".

3.2.3 Mapas semánticos, navegación y evasión de obstáculos

Con una estimación de pose estable y mapas geométricos/semánticos, el siguiente paso es hacer que el robot "se mueva con inteligencia". Esta parte abarca principalmente la construcción de mapas semánticos, planificación de rutas y evasión de obstáculos.

  • Construcción de mapas semánticos: superponer información semántica (tipo de habitación, POI, etiquetas de zona) sobre mapas geométricos, formando una representación cartográfica adecuada para la toma de decisiones de alto nivel. Por ejemplo:
    • En entornos domésticos, dividir el mapa en zonas como dormitorio, salón, cocina, baño, etc.;
    • En entornos de almacén, marcar la ubicación de estanterías, zonas de carga/descarga, áreas peligrosas, etc.;
    • En grandes centros comerciales o recintos feriales, marcar tiendas, mostradores de información, aseos y otros POI para navegación AR y visitas guiadas.
  • Planificación de rutas y evasión de obstáculos: construir una cuadrícula o un grafo topológico sobre el mapa, y utilizar algoritmos de planificación como A*, D* Lite o RRT para encontrar una ruta factible desde el punto de inicio hasta el destino; al mismo tiempo, combinando la percepción en tiempo real (obstáculos delante, peatones/vehículos dinámicos), se realiza una replanificación local y evasión de obstáculos para garantizar la seguridad y eficiencia del desplazamiento.
  • Comportamiento de navegación y programación de tareas: en robots AGV y drones, se superpone además un módulo de programación de tareas y coordinación multi-robot sobre la navegación: asignar tareas, evitar congestiones y optimizar las rutas globales y el consumo energético.

Los sistemas de navegación AR y posicionamiento en interiores también dependen esencialmente de mapas semánticos y planificación de rutas similares, con la diferencia de que el "ejecutor" pasa de ser un robot a una persona: el sistema obtiene la pose del dispositivo del usuario mediante SLAM, planifica una ruta a pie sobre el mapa semántico y luego visualiza la ruta superpuesta en la vista del mundo real mediante realidad aumentada.## 3.3 Generación y edición 3D (3D Generation & Editing)

Si la percepción 3D y SLAM consisten en «capturar y comprender» la geometría del mundo real, la generación y edición 3D se sitúan en el ámbito de la producción de contenido: cómo usar IA para producir y transformar automáticamente activos 3D. Esto responde directamente a las enormes necesidades de contenido en videojuegos, cine y televisión, humanos digitales, espacios virtuales, exhibición de comercio electrónico, impresión 3D y otros sectores.

En los últimos dos o tres años, con avances en NeRF/Gaussian, representaciones SDF, modelos de difusión multimodal y otras tecnologías, la generación 3D ha entrado en una fase de rápido desarrollo: generar modelos o escenas 3D con un solo clic a partir de texto, imágenes o video ya es una realidad. Las principales plataformas en la nube y equipos de startups han lanzado soluciones como «Hunyuan 3D», Tripo, y las familias de métodos DreamFusion / Magic3D, implementadas como herramientas en línea, haciendo que la producción 3D evolucione progresivamente hacia un escenario «accesible para todos». La generación y edición 3D se puede desglosar aproximadamente en cuatro categorías de capacidades: texto a 3D, imagen/video a 3D, optimización y edición de modelos, y rigging con animación.

  • Escenarios
    • Producción de activos para videojuegos / cine y televisión: generar rápidamente modelos 3D utilizables para personajes, props, edificios y escenas, reduciendo drásticamente la carga de trabajo artístico.
    • Comercio electrónico y exhibición de productos: generar automáticamente modelos 3D de exhibición a partir de descripciones de producto o fotografías, para visualización 3D, pruebas de colocación en AR y publicidad interactiva.
    • Humanos digitales y contenido virtual: generar rápidamente activos 3D como humanos virtuales, modelos virtuales de prueba de ropa y escenarios para streamers virtuales, para aplicaciones de streaming en vivo, videos cortos e interactivas.
    • Impresión 3D y modelado personalizado: generar modelos imprimibles desde bocetos/fotos/texto, permitiendo regalos personalizados, diseño de prototipos y aplicaciones educativas.
  • Principios
    • Texto a 3D (Text‑to‑3D): codificar la descripción textual como un vector semántico y luego generar una representación 3D (NeRF/SDF/Gaussian/Mesh) mediante optimización multifase o proceso de difusión, normalmente aprovechando potentes modelos 2D de texto a imagen como «evaluador» o prior.
    • Imagen / video a 3D: utilizar una o múltiples imágenes, o video multivista como supervisión, combinado con NeRF, SDF o representaciones híbridas implícitas/explícitas, para reconstruir un modelo 3D con geometría y texturas.
    • Optimización y edición de modelos 3D: aplicar retopología, simplificación, mejora de detalles, generación de LOD, desempaquetado UV y generación de mapas a modelos existentes, así como deformación y estilización basadas en lenguaje o imágenes.
    • Rigging y animación: inferir automáticamente la estructura ósea de un personaje 3D y completar el rigging, con soporte para animación esqueletal y simulación física (telas, cuerpos blandos, cuerpos rígidos), generando activos dinámicos animables.
  • Modelos
    • Representaciones fundamentales para generación 3D: NeRF / Instant‑NGP, SDF (superficie implícita), Gaussian Splatting y redes generativas basadas en mallas, que constituyen el espacio expresivo de los datos 3D.
    • Métodos de texto a 3D: rutas típicas como DreamFusion, Magic3D, Fantasia3D, que logran la generación integral de texto a 3D mediante «modelo 2D de texto a imagen + optimización 3D» o «modelo de difusión 3D», sentando las bases técnicas para productos posteriores como Hunyuan 3D y Tripo.
    • Modelos de imagen/video a 3D: frameworks de reconstrucción y optimización basados en NeRF/SDF/Gaussian, que recuperan geometría 3D estable y texturas a partir de consistencia multivista y priors de vista única.
    • Algoritmos de rigging y animación: extracción automática de esqueletos, predicción de pesos de huesos, retargeting basado en aprendizaje profundo y generación de movimiento, proporcionando herramientas en un clic para animación de humanos virtuales/personajes.

En esta capa, las herramientas DCC 3D tradicionales (Maya/Blender/3ds Max, etc.) y la cadena de herramientas de IA se están integrando progresivamente: muchos servicios de IA 3D se incorporan a los flujos de producción existentes mediante complementos o interfaces en la nube, permitiendo a modeladores y artistas iterar rápidamente activos en colaboración humano-máquina.

3.3.1 Texto a 3D y bocetos de escena

El objetivo de texto a 3D (Text‑to‑3D) es: dada una descripción en lenguaje natural, por ejemplo «un patito amarillo de juguete estilo cartoon, con bufanda azul, adecuado para exhibición de juguetes infantiles», el sistema genera automáticamente un modelo 3D editable (Mesh/NeRF/SDF/Gaussian, etc.). Esta es una aplicación típica que combina modelos de lenguaje grandes / modelos multimodales con representación 3D.

Las rutas técnicas típicas incluyen:

  1. Optimización basada en modelos 2D de texto a imagen (como DreamFusion, Magic3D):
  2. Utilizar un potente modelo de texto a imagen (como un modelo de difusión) como «evaluador»: dada la imagen renderizada desde una vista de la representación 3D, evalúa su grado de coincidencia con la descripción textual.
  3. Mediante optimización por gradiente o proceso de difusión, ajustar iterativamente la representación 3D (NeRF/SDF/Mesh) para que las imágenes renderizadas desde múltiples vistas cumplan la semántica textual.
  4. Modelo de difusión 3D / generación directa:
  5. Tratar los datos 3D (nubes de puntos, vóxeles, parámetros de campo implícito, partículas Gaussian, etc.) como objetivo de generación del modelo de difusión, preentrenado en conjuntos de datos 3D a gran escala;
  6. Mediante condicionamiento textual, lograr un muestreo integral de texto a 3D.

A nivel de escena, la capacidad de boceto de escena permite al usuario describir la distribución espacial en lenguaje natural o con bocetos aproximados, por ejemplo «un salón con ventanal, un sofá en L a la izquierda, una mesa de centro en el medio, una estantería y un mueble TV a la derecha»; el sistema construye automáticamente un boceto de distribución 3D geométrica y semánticamente razonable. Posteriormente se puede refinar el modelo y los materiales en herramientas DCC, o producir rápidamente prototipos de escena utilizables mediante capacidades de «generación de escenas» en herramientas como Hunyuan 3D o Tripo.

Actualmente, múltiples plataformas han lanzado productos de texto a 3D orientados a diseñadores y desarrolladores:

  • «Hunyuan 3D» y similares integran capacidades de texto a 3D, generación multivista y reconstrucción en una interfaz unificada, permitiendo generar rápidamente personajes, props y escenas desde texto para exportar a motores de videojuegos;
  • Productos como Tripo enfatizan «entrada multimodal + salida 3D en un clic», admitiendo la combinación de texto simple e imágenes de referencia para guiar la generación de activos 3D que cumplan requisitos de estilo y estructura.

3.3.2 Imagen / video a 3D y optimización y edición de modelos

En comparación con el texto puro, generar modelos 3D a partir de imágenes o video impone restricciones geométricas más fuertes y ofrece mejor consistencia visual. Por ello, numerosos productos de IA 3D admiten imagen a 3D / video a 3D:

  • Foto única → 3D aproximado: utilizando priors de vista única (como priors de forma para rostros, cuerpos humanos, categorías comunes de objetos), inferir la geometría 3D aproximada y generar un modelo 3D utilizable para vista previa o interacción simple.
  • Múltiples fotos / video corto → 3D de alta calidad: combinando reconstrucción con NeRF/SDF/Gaussian, geometría multivista y posprocesamiento, convertir decenas de fotos o unos segundos de video en modelos 3D de alta fidelidad, adecuados para activos de videojuegos/cine o exhibición de comercio electrónico de alta calidad.

Generar la geometría 3D es solo el primer paso; después se necesita un trabajo considerable de optimización y edición de modelos:

  • Retopología y simplificación: convertir campos implícitos o mallas de alta poligonización en topologías estructuradas con conteo de caras controlado, facilitando el rigging, la animación y el renderizado en tiempo real.
  • Generación de LOD: generar automáticamente modelos multinivel de detalle (Level of Detail), usando modelos de baja poligonización a distancia y alta poligonización de cerca, equilibrando calidad visual y rendimiento.
  • Desempaquetado UV y generación de mapas: desempaquetar UV automáticamente para el modelo, generar u optimizar mapas de normales, mapas de desplazamiento, mapas de rugosidad/metálico y otros materiales PBR; algunos modelos también admiten la generación automática de texturas estilizadas a partir de texto o imágenes de referencia.
  • Edición geométrica y de estilo: realizar modificaciones locales basadas en lenguaje o imágenes de ejemplo, como «acorta un poco las patas de esta silla» o «convierte este edificio al estilo cyberpunk»; a nivel subyacente, se implementa típicamente mediante operaciones en el espacio latente de formas o edición de campos neuronales.

Productos como Hunyuan 3D y Tripo suelen integrar el flujo anterior: el usuario parte de fotos/video o texto simple, y el sistema completa internamente la reconstrucción, retopología, mapeado y exportación, permitiendo que incluso usuarios no profesionales obtengan modelos 3D «listos para usar» en cuestión de minutos, acortando drásticamente el tiempo del concepto al activo.

3.3.3 Rigging, animación y activos 3D dinámicos

Un modelo estático es solo la mitad del contenido; los activos 3D que «pueden moverse» son aún más críticos en videojuegos, cine, humanos virtuales y aplicaciones interactivas. Esto involucra rigging (creación de esqueleto), pintado de pesos, animación y simulación física, tareas tradicionalmente profesionales y de alto umbral que ahora están siendo asistidas o incluso semiautomatizadas por herramientas de IA.

  • Rigging automático: dado un mesh de personaje, el sistema infiere automáticamente la estructura jerárquica del esqueleto (columna, extremidades, dedos, etc.) y la posición de los huesos en el modelo, y predice el peso de cada vértice respecto a cada hueso. Los métodos de aprendizaje profundo recientes pueden aprender este mapeo sobre conjuntos de datos a gran escala de personajes con anotación esqueletal, logrando rigging en un clic.
  • Animación y generación de movimiento: superponer datos de movimiento (Mocap o generados por IA) sobre un esqueleto existente para completar animaciones de caminar, correr, expresiones faciales, gestos, etc.; la generación de movimiento y el retargeting basados en aprendizaje profundo pueden transferir movimientos humanos desde video o movimientos de otros personajes a un nuevo personaje.
  • Simulación física: realizar simulación física de telas, cuerpos blandos, cuerpos rígidos, etc., para que el movimiento de cabello, ropa, banderas y objetos flexibles sea más natural. Algunos sistemas utilizan redes neuronales para acelerar o aproximar la física, logrando efectos físicos más realistas en motores de tiempo real.

En cuanto a productos y ecosistema, estas capacidades suelen estar integradas en:

  • Cadenas de herramientas de activos para videojuegos / cine y televisión: proporcionan rigging en un clic, asignación automática de pesos y bibliotecas de movimientos básicos para modeladores, reduciendo drásticamente el trabajo repetitivo;
  • Plataformas de creación de humanos virtuales / activos digitales: partiendo de fotos o escaneos de personas, pasando por reconstrucción 3D + rigging automático + animación, producen humanos virtuales animables para streaming en vivo, videos cortos y aplicaciones interactivas;
  • Plataformas de IA 3D (como Hunyuan 3D, Tripo y productos similares): después de la generación 3D, añaden funciones de rigging y animación simple, para que «el personaje generado pueda moverse inmediatamente», sin necesidad de operaciones complejas con herramientas DCC.

Con la maduración de las tecnologías de generación y edición 3D, todo el flujo de producción de contenido 3D está evolucionando desde «centrado en herramientas DCC profesionales» hacia una «colaboración humano-máquina impulsada por IA»: la IA se encarga de la generación y del trabajo básico masivo, mientras que los humanos toman decisiones principalmente en definición de estilo, control de calidad y nodos clave de diseño. Hunyuan 3D, Tripo y otros productos de IA 3D de nueva generación son la materialización concentrada de esta tendencia, proporcionando una infraestructura 3D más rápida y fácil de usar para aplicaciones de nivel superior como videojuegos, cine y televisión, AR/VR, gemelos digitales y humanos virtuales.# 4. Audio (Audio / Speech)

En la pila tecnológica general, "audio" corresponde a la percepción y generación de señales acústicas: abarca tanto el procesamiento de formas de onda y espectros en bruto como la conversión de voz a texto, la comprensión de "quién está hablando" y "qué se dice", así como la creación y síntesis de sonidos y música. De manera similar al ámbito visual, el audio también se puede descomponer en varias capas: en la base, el procesamiento de formas de onda y espectros se encarga de "escuchar con claridad"; en la capa intermedia, el reconocimiento de voz y las tecnologías de identificación del hablante se ocupan de "entender quién dice qué"; y por encima, se sitúan la comprensión de audio/música, más abstracta, junto con la generación de voz y música. Todo este conjunto de capacidades sustenta productos como los subtítulos en tiempo real para reuniones, los asistentes de voz, la postproducción y edición de podcasts, los altavoces inteligentes, la vigilancia acústica para seguridad, y la recomendación y generación musical.## 4.1 Procesamiento de audio a nivel de forma de onda: empezar por «oír con claridad»

En el nivel más bajo de la tecnología de audio, lo primero que nos preocupa no es «qué se ha dicho», «quién está hablando» o «qué estilo musical es», sino si el sonido en sí es limpio y se oye con claridad. Esta capa trabaja principalmente a nivel de forma de onda y espectro y, mediante operaciones de remuestreo, mejora, reducción de ruido y separación, convierte el sonido original ruidoso, distorsionado y mezclado en una «señal limpia» más adecuada para el posterior reconocimiento, análisis y generación. Se puede comparar con el «realce de imagen + eliminación de ruido + separación de primer plano/fondo» en el ámbito visual: se trata más de una limpieza a nivel acústico, sin procesar directamente la semántica.

Desde el punto de vista del producto, esta capa está prácticamente «invisible» detrás de todos los productos de audio: la reducción de ruido en tiempo real del software de reuniones, la postproducción de sonido en pódcast y vídeos cortos, el «modo de mejora de voz» en grabadoras y teléfonos móviles, el interruptor de «embellecimiento de sonido» en las plataformas de streaming en directo, así como el preprocesamiento frontal para modelos ASR y de huella vocal, son manifestaciones directas del procesamiento de audio a nivel de forma de onda. A continuación, lo organizamos desde tres perspectivas —escenarios, principios y modelos— y en las subsecciones posteriores desarrollaremos en detalle las tres direcciones clave: preprocesamiento y extracción de características, mejora y reducción de ruido, y separación de fuentes de sonido.

  • Escenarios
    • Comunicación y reuniones en línea: Zoom, Tencent Meeting y similares, en entornos de oficina ruidosos, puestos de trabajo abiertos o en casa, suprimen en tiempo real el sonido del teclado, golpes, ruido de calle y eco para que la voz sea más clara.
    • Creación de contenido y postproducción de sonido: en la postproducción de pódcast, vídeos cortos y streaming en directo, se eliminan automáticamente el ruido de fondo, el zumbido eléctrico, la reverberación de la sala y se reparan los estallidos y las pérdidas de banda de frecuencia de la grabación para mejorar la calidad auditiva general.
    • Frontend de grabación y transcripción: antes de entrar en el ASR, las grabadoras, los subtítulos inteligentes y los servicios de transcripción de reuniones procesan la señal mediante VAD, reducción de ruido y normalización de sonoridad para mejorar la robustez del reconocimiento posterior.
    • Terminales e IoT: la «captación de sonido de campo lejano» y el «modo de reducción de ruido» en dispositivos como altavoces inteligentes, sistemas de vehículo y cámaras intentan captar al hablante principal o la fuente de sonido clave en campos sonoros complejos.
  • Principios El procesamiento a nivel de forma de onda normalmente no comprende directamente la semántica, sino que optimiza la señal en función de la estructura espectral y las características estadísticas:
    • Se transforma alternativamente entre el dominio del tiempo y el de la frecuencia (por ejemplo, STFT → espectrograma/espectrograma de mel → iSTFT) para suprimir o modelar bandas de ruido, características de reverberación o sonido de fondo.
    • Mediante VAD y características de energía/espectrales, se distinguen los «segmentos con voz» de los «segmentos de silencio/ruido», reduciendo el impacto de los segmentos no válidos en el procesamiento posterior.
    • Se utilizan métodos de aprendizaje profundo o filtrado clásico para estimar máscaras o funciones de ganancia del «espectro de voz limpia» y del «espectro de ruido», ponderando el espectro para lograr la mejora y reducción de ruido.
    • En escenarios con múltiples fuentes de sonido mezcladas, mediante redes de separación extremo a extremo o representación dispersa, se separan los distintos hablantes, la voz y el acompañamiento, o el sonido de primer plano y el ambiente de fondo en pistas independientes.
  • Modelos Los modelos a nivel de forma de onda/espectro se pueden dividir aproximadamente en dos categorías: modelos en el dominio espectral y modelos extremo a extremo en el dominio temporal:
    • Familia U‑Net sobre espectrograma/espectrograma de mel: Spectrogram‑based U‑Net, DCCRN, etc., que realizan convolución y codificación-decodificación «tipo imagen» en el plano tiempo-frecuencia. Son soluciones habituales para tareas como mejora de voz y separación de voz cantada.
    • Modelos extremo a extremo en forma de onda: Wave‑U‑Net, Conv‑TasNet, Demucs, etc., que modelan directamente sobre la forma de onda en el dominio temporal, evitando la STFT/ISTFT explícitas. Suelen ofrecer mejores resultados en calidad auditiva subjetiva y fidelidad en el dominio temporal.
    • Métodos clásicos de procesamiento de señales: técnicas tradicionales en el dominio de la frecuencia como la sustracción espectral y el filtrado de Wiener, que siguen siendo ampliamente utilizadas en dispositivos ligeros o escenarios muy sensibles a la latencia, y a menudo se combinan con redes de mejora profundas formando «soluciones híbridas».

4.1.1 Preprocesamiento y extracción de características: «despejar la escena y montar el escenario» para el backend

Cualquier modelo posterior de ASR, reconocimiento de huella vocal, detección de eventos, TTS, etc., necesita una entrada de audio lo más uniforme, limpia y estructurada posible: esta es la responsabilidad de la capa de preprocesamiento y extracción de características. Se encarga del «despeje» y la «unificación de formato» más básicos pero extremadamente críticos, preparando el escenario para los modelos de audio superiores.

En la fase de preprocesamiento, primero se realiza la conversión de frecuencia de muestreo y de canales del audio capturado: por ejemplo, convertir audio estéreo de 48 kHz a mono de 16 kHz para cumplir con las especificaciones de entrada del modelo posterior y reducir el coste computacional. A continuación, se normaliza la sonoridad, se elimina la componente de corriente continua, se aplica un filtrado simple, etc., para que el audio grabado en distintos dispositivos y escenarios sea más consistente en la escala de energía.

La detección de actividad de voz (VAD) es otro componente clave del preprocesamiento. Intenta dividir automáticamente el flujo de audio en «segmentos con voz» y «segmentos de silencio/ruido puro», basándose normalmente en la energía por trama, la entropía espectral, la tasa de cruce por cero o en la discriminación mediante pequeñas redes neuronales. La ventaja del VAD es que puede reducir significativamente los datos no válidos que entran en los modelos ASR/de huella vocal, disminuyendo la carga computacional y evitando que los segmentos de silencio interfieran en el reconocimiento (por ejemplo, siendo reconocidos erróneamente como largas cadenas de espacios o caracteres extraños). En comunicaciones en tiempo real, el VAD también puede activar el «indicador de actividad de voz» y la lógica de silencio automático.

En el nivel de extracción de características, lo más habitual es convertir la forma de onda temporal en espectrograma o espectrograma de mel. Mediante la Transformada de Fourier de Tiempo Corto (STFT), el audio se descompone en una distribución de frecuencias que varía en el tiempo; y a través de un banco de filtros de mel, se obtienen el espectrograma de mel o las características cepstrales de mel (como log Mel‑spectrogram, MFCC), más acordes con la percepción auditiva humana. Estas características tiempo-frecuencia proporcionan una «representación bidimensional» para el posterior reconocimiento, separación y generación, similar a una imagen en escala de grises o un mapa de características multicanal en el ámbito visual, lo que facilita el procesamiento mediante estructuras de convolución y atención. Con el desarrollo del modelado extremo a extremo, cada vez más modelos aprenden características directamente sobre la forma de onda (como Wav2Vec 2.0), pero en la práctica de ingeniería, la combinación de STFT + características de mel sigue siendo el frontend más común y fiable.

4.1.2 Mejora y reducción de ruido: convertir el «sonido embarrado» en «sonido seco»

En entornos reales, el sonido casi siempre se propaga entre ruido y reverberación: el zumbido del aire acondicionado, el tecleo, el ruido de la calle, el bullicio de la gente, el eco de la sala, todo ello reduce en mayor o menor medida la inteligibilidad y la calidad subjetiva de la voz y la música. El objetivo de la mejora y reducción de ruido de voz es suprimir estas interferencias de fondo manteniendo en la medida de lo posible la naturalidad e integridad de la voz, convirtiendo el sonido «embarrado» en un sonido lo más «limpio» posible.

En los métodos tradicionales, esta tarea se realiza principalmente mediante técnicas en el dominio de la frecuencia como la sustracción espectral y el filtrado de Wiener: primero se estima el espectro de ruido y luego, en el espectro, se «resta» el ruido según ciertas reglas o se realizan ajustes de ganancia por banda de frecuencia. Aunque la implementación es simple y el rendimiento en tiempo real es bueno, en escenarios de ruido intenso, ruido no estacionario y reverberación compleja, es fácil que aparezcan los característicos «ruido musical» y artefactos.

Los métodos de aprendizaje profundo, en cambio, aprenden una correspondencia sobre el espectro o la forma de onda: dada una voz con ruido, predicen una máscara tiempo-frecuencia o directamente la forma de onda limpia. Las soluciones habituales incluyen el uso de estructuras de codificación-decodificación como Spectrogram‑based U‑Net, DCCRN sobre espectrogramas de mel/lineales, para reparar minuciosamente el espectro de cada trama; también existen modelos como Conv‑TasNet, Demucs, Wave‑U‑Net que realizan mejora de forma de onda extremo a extremo directamente en el dominio temporal. Estos métodos pueden mejorar significativamente la claridad de la voz y la calidad auditiva subjetiva en escenarios como llamadas telefónicas, reuniones en línea y restauración de grabaciones.

En la creación de contenido y la postproducción, la «restauración de grabaciones» a menudo también implica operaciones con un carácter más «de ingeniero de audio», como la reducción de explosivas (plosives) y sibilantes (sibilance), la compensación de pérdidas de banda de frecuencia, así como la ecualización (EQ) y el procesamiento dinámico (compresores/limitadores). Cada vez más herramientas combinan estos procesamientos tradicionales con modelos profundos para ofrecer capacidades de «reparación de sonido» y «embellecimiento de audio» con un solo clic, al servicio de pódcast, creadores de vídeo y plataformas de streaming en directo.

4.1.3 Separación de fuentes de sonido: descomponer la «mezcla»

Si la mejora y reducción de ruido consiste en «hacer que el sonido principal destaque más y el fondo esté más silencioso», la separación de fuentes de sonido va un paso más allá e intenta descomponer por completo múltiples fuentes de sonido mezcladas en pistas independientes. Por ejemplo: varios hablantes hablando simultáneamente en una grabación de reunión; la voz y el acompañamiento mezclados en una canción; el evento principal (como una alarma o un grito) enterrado en el ruido de fondo en una grabación ambiental. El objetivo de la separación de fuentes de sonido es recuperar la forma de onda o el espectro de cada fuente de sonido independiente a partir de una o varias señales mezcladas.

En el ámbito de la voz, la separación de múltiples hablantes es una aplicación central: el modelo necesita, sin disponer de pistas de micrófono independientes, separar múltiples voces solapadas en distintos canales basándose en la huella vocal, la estructura tiempo-frecuencia y las características del hablante. Esta capacidad no solo mejora el rendimiento del ASR con múltiples hablantes, sino que también proporciona una entrada más limpia para la separación y etiquetado de hablantes (Diarization). En el ámbito musical, la separación de voz/acompañamiento (separación de voz cantada) permite separar una pista de voz clara y una pista de acompañamiento puro de una canción mezclada, para su uso en covers, remixes, karaoke, análisis musical, etc. De manera similar, la separación de sonido ambiental/sonido de primer plano se puede utilizar en escenarios de seguridad e IoT para extraer sonidos de eventos clave (como rotura de cristales, sonidos de conflicto) de un fondo complejo.

A nivel de modelo, la separación de fuentes de sonido suele requerir una capacidad de modelado más potente y arquitecturas más complejas que la mejora ordinaria. Redes extremo a extremo como Conv‑TasNet, Demucs, Wave‑U‑Net pueden realizar la descomposición de múltiples fuentes de sonido directamente en el dominio temporal; en el dominio espectral, son habituales las estructuras de U‑Net multirrama, atención y estimación de máscaras, que predicen máscaras o espectros especializados para cada fuente de sonido. Con el crecimiento de los datos de entrenamiento y los recursos computacionales, los modelos modernos de separación de fuentes de sonido ya son capaces de producir pistas separadas de alta calidad utilizables para creación y análisis reales en entornos de reverberación y ruido considerablemente complejos, proporcionando una base sólida para el embellecimiento de sonido en directo, las reuniones con múltiples hablantes, la producción musical y la recuperación de audio.## 4.2 Reconocimiento de voz y tecnología del hablante (ASR & Speaker)

Una vez completado el preprocesamiento, la mejora y la separación a nivel de forma de onda, por fin podemos empezar a plantearnos preguntas de más alto nivel: «¿Qué se dice en el audio?» «¿Quién lo dice?» «¿Cuándo habla cada uno?» Esta capa se centra en diversas tareas de «comprensión y etiquetado» en torno a la propia voz: reconocimiento automático del habla (ASR), identificación y verificación del hablante, separación y etiquetado de hablantes (Diarization), y detección de palabras clave y hotwords orientada a la interacción (KWS).

Desde el punto de vista del producto, esta capa constituye el núcleo de la mayoría de los «productos de voz»: entrada de voz por teclado, transcripción de reuniones, análisis de grabaciones de atención al cliente, control de calidad inteligente en servicios de atención, interacción por voz en altavoces inteligentes y vehículos, bots telefónicos, verificación biométrica por voz en escenarios financieros, etc. Prácticamente todos dependen directamente de estas tecnologías, que convierten el «sonido limpio» de la capa anterior en secuencias de texto, etiquetas de hablante o eventos de palabras clave, constituyendo uno de los puentes más importantes entre el audio y el mundo semántico.

  • Escenarios
    • Reconocimiento automático del habla (ASR): subtítulos en tiempo real, entrada de voz por teclado, grabación de reuniones y clases, transcripción de llamadas de atención al cliente, proporcionando al usuario un canal inmediato «del oído al texto».
    • Identificación y verificación del hablante: «desbloqueo por huella vocal» y «verificación por voz» en móviles, banca y centros de llamadas, así como la búsqueda de un hablante específico en grandes volúmenes de grabaciones.
    • Separación y etiquetado de hablantes (Diarization): en reuniones, entrevistas y mesas redondas, responder automáticamente «quién habla en cada momento» para lograr una «transcripción por hablante».
    • Detección de hotwords y palabras clave (KWS): detección de palabras de activación en altavoces inteligentes y vehículos («Hey Siri», «OK Google»), así como la captura de frases clave en grabaciones de atención al cliente y control de calidad (como «queja», «reembolso», «quiero escalar», etc.).
  • Principios La mayoría de las tareas de esta capa pueden considerarse de forma unificada como un problema de alineación temporal y etiquetado de secuencias sobre el flujo de audio:
    • ASR: dado un segmento de voz, se aprende la correspondencia entre características acústicas y secuencias de texto, empleando habitualmente CTC, RNN-Transducer (RNN-T) o arquitecturas end-to-end basadas en atención; los modelos modernos suelen recurrir al preentrenamiento a gran escala (como Wav2Vec 2.0, Whisper, etc.) seguido de un ajuste fino.
    • Identificación del hablante: se extrae del audio un embedding de hablante de dimensión fija (speaker embedding, como x-vector, ECAPA-TDNN); en este espacio de embeddings, las voces de una misma persona se agrupan y las de personas distintas se alejan, y posteriormente se combinan con modelos de clasificación o métrica para realizar la identificación y verificación.
    • Separación y etiquetado de hablantes (Diarization): se aprovechan de forma integral los embeddings de huella vocal, VAD, segmentación por clustering o redes end-to-end (EEND) para asignar una etiqueta de hablante a cada fragmento temporal, reconstruyendo así una «línea de tiempo multi-hablante sobre el eje temporal».
    • KWS: detección mediante modelos pequeños y de baja latencia sobre flujos de audio continuos, realizando coincidencia local de patrones y evaluación de confianza para palabras de activación o palabras clave predefinidas, equilibrando bajo consumo computacional y alto recall.
  • Modelos El espectro de modelos de ASR y tecnología del hablante incluye tanto arquitecturas end-to-end como modelos de embedding y métodos de clustering especializados:
    • ASR: Wav2Vec 2.0, Conformer, Whisper, RNN-T, Citrinet, etc., la mayoría con estructuras de convolución + self-attention o puramente basadas en self-attention, con soporte para múltiples idiomas, vocabularios amplios y contexto largo.
    • Embeddings de hablante: ECAPA-TDNN, x-vector, i-vector, etc., que mediante entrenamiento de clasificación o aprendizaje métrico sobre grandes volúmenes de datos de hablantes obtienen un espacio de características de hablante robusto.
    • Diarization: desde el flujo tradicional de VAD + segmentación + clustering hasta métodos end-to-end como End-to-End Diarization (EEND), que producen directamente una matriz de «instante × hablante».
    • Detección de hotwords/palabras clave: frontales ligeros de CNN/RNN/Transformer combinados con CTC o mecanismos de activación condicionada, embebidos localmente en el dispositivo para una escucha siempre activa con consumo y latencia ultrabajos.

4.2.1 Reconocimiento automático del habla (ASR): convertir el «sonido» en «texto»

El reconocimiento automático del habla (ASR) es la vía principal de «audio → texto»: ya sea un teclado por voz, una transcripción de reuniones, subtítulos inteligentes o el análisis de grabaciones de atención al cliente, el primer paso siempre es convertir con precisión lo que el usuario dice en texto. Los sistemas ASR modernos adoptan mayoritariamente arquitecturas end-to-end: partiendo de características acústicas (como espectrogramas Mel o directamente la forma de onda), pasan por una serie de redes profundas (como Conformer, Citrinet, codificadores basados en Transformer) y producen directamente la secuencia de texto o la secuencia de tokens correspondiente.

En cuanto al modelado, las principales dificultades del ASR incluyen las dependencias de largo alcance, la multitud de idiomas y dialectos, la variación de acentos, el habla superpuesta, el ruido de fondo y los términos específicos de cada dominio. Por ello, la tendencia actual predominante consiste en realizar preentrenamiento autosupervisado sobre grandes volúmenes de audio sin etiquetar (como Wav2Vec 2.0, HuBERT) o entrenamiento supervisado a gran escala sobre datos multilingües y multitarea (como Whisper), para luego afinar con cantidades relativamente pequeñas de datos del dominio objetivo, logrando así una buena robustez en distintos idiomas, acentos y escenarios.

A nivel de producto, el ASR suele empaquetarse como «SDK de entrada de voz», «API de reconocimiento de voz en la nube» o «servicio de transcripción de reuniones»: el front-end puede ser reconocimiento en streaming en tiempo real (RNN-T, Transformer en streaming, etc.), y el back-end puede reforzar el reconocimiento de nombres propios, topónimos, marcas y términos de negocio específicos mediante inyección de hotwords, vocabularios personalizados y restricciones contextuales. Estos resultados de reconocimiento suelen ser la base de los procesos posteriores de NLP, sistemas de diálogo y análisis de datos.

4.2.2 Identificación del hablante y separación con etiquetado: responder «quién» y «cuándo habla»

En comparación con «qué se dice», «quién lo dice» es igual de importante en muchas aplicaciones: los escenarios financieros, gubernamentales, de atención al cliente y de seguridad requieren el reconocimiento por huella vocal para verificar la identidad o detectar riesgos; mientras que los escenarios de reuniones y entrevistas necesitan saber «quién dijo cada frase» para permitir transcripciones por hablante, estadísticas de intervención y análisis de comportamiento.

En la tarea de identificación/verificación del hablante (Speaker Recognition), el objetivo del sistema es: dado un segmento de voz, determinar quién es el hablante o si coincide con un hablante registrado. Los sistemas modernos suelen extraer, mediante modelos como ECAPA-TDNN o x-vector, un vector de embedding de hablante de dimensión fija a partir del segmento de voz. En la fase de entrenamiento, se combinan clasificación de hablantes y aprendizaje métrico para garantizar que los embeddings de una misma persona se agrupen más y que la distancia entre embeddings de personas distintas sea mayor; en la fase de inferencia, se emplea el vecino más cercano o un discriminador posterior (como PLDA, cosine scoring con margen) para la verificación e identificación. De este modo, el sistema puede responder, con un cierto nivel de confianza, si «se trata de la misma persona» en entornos telefónicos, con micrófono o con ruido.

La separación y etiquetado de hablantes (Diarization) va un paso más allá y responde a «quién habla en cada momento». El enfoque tradicional suele constar de tres pasos: primero se usa VAD para encontrar los fragmentos con voz, luego se divide el audio largo en segmentos cortos, se extrae un embedding de hablante para cada segmento y, por último, se realiza clustering en el espacio de embeddings y concatenación temporal para obtener una línea de tiempo multi-hablante. Los métodos más avanzados de tipo End-to-End Diarization (EEND) intentan producir directamente, a partir de las características del audio, una matriz booleana de «tiempo × hablante», aprendiendo de forma end-to-end patrones complejos como el habla superpuesta y los cambios de hablante. La diarización es enormemente valiosa en reuniones, programas de entrevistas, registros judiciales y atención telefónica al cliente, y suele combinarse con ASR para generar una «transcripción textual con etiquetas de hablante».

4.2.3 Detección de hotwords y palabras clave: el «oído» para la interacción y la monitorización

En un flujo de audio continuo, no cada segundo merece ser reconocido y almacenado por completo. El papel de la detección de hotwords y palabras clave (KWS) es el de un «guardián» siempre activo:

  • En altavoces inteligentes, vehículos y asistentes de móvil, el módulo KWS se encarga de detectar la palabra de activación (como «Hey Siri», «OK Google», «Xiao Ai Tong Xue»); una vez detectada, el flujo de audio se transfiere a los sistemas ASR y de diálogo, más costosos computacionalmente.
  • En escenarios de atención al cliente inteligente, control de calidad y cumplimiento normativo, KWS marca y alerta sobre frases clave que aparecen en grabaciones o llamadas en tiempo real (como «queja», «devolución», «reclamación», «fraude»), proporcionando puntos de activación para el análisis posterior y las estrategias de control de calidad.

En cuanto a la implementación técnica, KWS normalmente debe funcionar bajo restricciones de consumo computacional y latencia extremadamente bajos, especialmente en la detección de palabras de activación en dispositivos locales: el modelo suele ser un pequeño frontal CNN/RNN/Transformer, conectado a una cabeza de discriminación CTC o por activación condicionada, que detecta los patrones acústicos de palabras específicas y utiliza ventanas deslizantes y suavizado de confianza para evitar activaciones falsas. Para escenarios de control de calidad por palabras clave, se puede emplear un enfoque más potente de ASR + coincidencia de palabras clave/expresiones regulares + análisis estadístico, o entrenar directamente un modelo end-to-end de etiquetado de palabras clave. En cualquiera de sus formas, KWS consiste esencialmente en añadir una capa de filtrado semántico a «nivel de eventos» sobre el flujo de voz, siendo una interfaz importante que conecta el mundo del audio con la lógica de interacción.## 4.3 Comprensión de audio/música (Audio Event & Music Understanding)

No todo el audio gira en torno a la "voz". En la realidad existen numerosos escenarios relacionados con sonidos ambientales, sonidos de eventos y música, cuyo enfoque principal es: "¿Qué evento sonoro ha ocurrido?", "¿Cuál es el paisaje sonoro actual del entorno?", "¿Qué estilo tiene esta canción, qué instrumentos utiliza, cuál es su ritmo y tonalidad?" Este conjunto de capacidades se denomina comprensión de audio/música, y se centra principalmente en la detección de eventos sonoros, la clasificación de entornos/escenas y la comprensión de atributos musicales.

Desde la perspectiva de producto, la tecnología de comprensión de audio sustenta aplicaciones como la monitorización acústica en seguridad, los sensores acústicos IoT, la adaptación ambiental de dispositivos inteligentes, la recomendación y clasificación musical, el reconocimiento de derechos de autor musicales, la búsqueda musical y las herramientas de asistencia a la creación. De forma análoga a la "clasificación de imágenes + clasificación detallada" en el ámbito visual, esta capa estructura el espacio sonoro —originalmente continuo y complejo— en etiquetas discretas de eventos, vectores de atributos multidimensionales y descripciones de estilo.

  • Escenarios
    • Detección de eventos sonoros: detección de alarmas, rotura de cristales, llanto de bebés, impactos, etc., utilizada en vigilancia de seguridad, edificios inteligentes, sistemas de seguridad vehicular y alertas industriales.
    • Clasificación de entornos/escenas: identificación de paisajes sonoros como "interior/exterior", "oficina/coche/calle/metro", proporcionando criterios para estrategias de reducción de ruido, ganancia adaptativa y cambio de modo en dispositivos inteligentes.
    • Comprensión musical y recuperación de información musical (MIR): clasificación de géneros musicales, identificación de instrumentos, análisis de ritmo y tonalidad, que sustentan la recomendación musical, la generación de playlists, la búsqueda musical, el reconocimiento de derechos de autor y los asistentes de creación.
  • Principios La comprensión de audio/música se basa mayoritariamente en características tiempo-frecuencia + redes neuronales profundas para realizar clasificación o etiquetado multietiqueta:
    • Uso de características como log Mel-spectrogram, transformando el audio en "imágenes acústicas", para luego emplear arquitecturas como CNN, CRNN o Transformer en el reconocimiento de patrones tiempo-frecuencia.
    • Para la detección de eventos sonoros, se suele recurrir a salidas multietiqueta y multitemporales, prediciendo la presencia de cada evento a lo largo del eje temporal, a veces combinado con etiquetas de supervisión débil y aprendizaje multi-instancia.
    • Para la clasificación de entornos/escenas, se presta más atención a las características estadísticas de largo plazo y los patrones de fondo, requiriendo generalmente modelado sobre ventanas temporales más amplias.
    • Las tareas de comprensión musical integran conocimientos de teoría musical, modelando el ritmo (BPM), los puntos de pulso, la tonalidad, los acordes y la estructura; algunas tareas utilizan preentrenamiento de embeddings musicales mediante aprendizaje autosupervisado o contrastivo, seguido de ajuste fino posterior.
  • Modelos Los modelos de comprensión de audio más comunes suelen preentrenarse en conjuntos de datos públicos (como AudioSet) y luego transferirse a tareas específicas:
    • Modelos CNN/CRNN como VGGish, YAMNet, PANNs, preentrenados sobre grandes volúmenes de datos de audio, que pueden utilizarse para diversas tareas de eventos sonoros y paisajes acústicos.
    • Modelos basados en Transformer como AST (Audio Spectrogram Transformer), que aplican autoatención directamente sobre el espectrograma, obteniendo una capacidad de modelado tiempo-frecuencia global más potente.
    • Modelos de MusicTagging/MIR orientados a música, preentrenados sobre millones de canciones para generar modelos de etiquetas o embeddings, utilizados para etiquetas de estilo/emoción/instrumento, búsqueda musical y recomendación.

4.3.1 Eventos sonoros y paisajes acústicos ambientales: que los dispositivos "entiendan el entorno"

En seguridad, IoT, ciudades inteligentes y sistemas vehiculares, las cámaras por sí solas no son suficientes para comprender completamente el estado del entorno. El objetivo de la detección de eventos sonoros es precisamente que el sistema "comprenda" los eventos críticos: cuando se produce una rotura de cristales, suena una alarma, un bebé llora, hay una colisión, gritos, peleas o actos vandálicos, el sistema debe ser capaz de identificarlos en la señal de audio y emitir una alerta. A diferencia del reconocimiento de voz, este tipo de eventos suelen ser breves, no verbales, con rangos de frecuencia y formas de energía variables, y con frecuencia altamente solapados con el ruido de fondo.

La clasificación de entornos/escenas, por su parte, se centra más en paisajes acústicos (acoustic scene) continuos: ¿es una oficina tranquila, una calle concurrida, el interior de un coche, una estación de tren de alta velocidad o una cafetería? El sistema puede ajustar automáticamente la intensidad de la reducción de ruido, los parámetros de cancelación de eco, la dirección del haz del array de micrófonos en función del paisaje sonoro, e incluso cambiar la estrategia de interacción (por ejemplo, ofreciendo retroalimentación más breve dentro del vehículo, o aumentando el volumen de salida en calles ruidosas). En escenarios IoT, una "red acústica" compuesta por múltiples sensores de sonido puede utilizarse para la monitorización a largo plazo y el análisis estadístico del estado ambiental.

En cuanto a la implementación técnica, ambos tipos de tareas adoptan mayoritariamente esquemas de clasificación multietiqueta + modelado temporal: el audio se convierte en un espectrograma Mel, se utilizan modelos como VGGish, PANNs, AST o similares para la extracción de características, y luego se emplea pooling temporal o modelos secuenciales para generar la activación de cada etiqueta a lo largo del eje temporal. Dado que muchos conjuntos de datos solo proporcionan "etiquetas a nivel de fragmento" (weak labels), los modelos a menudo necesitan recurrir al aprendizaje multi-instancia, pooling de autoatención u otros métodos para aprender la localización temporal de eventos bajo supervisión débil.

4.3.2 Comprensión y etiquetado musical: de las "etiquetas de playlist" al "análisis estructural"

En el ámbito musical, el objetivo de la comprensión de audio no es simplemente "¿qué canción es esta?", sino responder a: "¿Qué estilo tiene esta canción? ¿Qué instrumentos utiliza? ¿Cómo es su ritmo? ¿Cuál es su tonalidad y estructura armónica general?" Esta información, por un lado, sustenta la recomendación musical y la organización de playlists, y por otro, proporciona "metadatos musicales" estructurados para creadores y modelos generativos.

La tarea de clasificación de géneros musicales asigna cada canción a diferentes estilos —pop, rock, clásica, hip-hop, electrónica, Lo-Fi, etc.— en función de sus características acústicas y estructura globales; la identificación de instrumentos distingue las huellas acústicas de diferentes instrumentos —batería, bajo, guitarra, piano, cuerdas, etc.— sobre las características tiempo-frecuencia, lo que resulta útil para estadísticas de instrumentación, búsqueda musical y análisis de mezclas. El análisis de ritmo/tonalidad estima el BPM, la posición de los pulsos, el compás, la tonalidad principal (Key), etc., proporcionando la base para tareas como el emparejamiento rítmico, la armonización automática, la mezcla de DJ y la sincronización de pistas de audio en videojuegos.

En cuanto a los modelos, la comprensión musical suele reutilizar modelos de audio genéricos (como PANNs, AST), pero también existe una gran cantidad de modelos y embeddings preentrenados específicamente orientados a la recuperación de información musical (MIR). El enfoque típico consiste en realizar un aprendizaje de etiquetado musical multietiqueta (género, estado de ánimo, instrumento, época, etc.) sobre conjuntos de datos musicales a gran escala para obtener un espacio de embedding musical, y luego realizar ajuste fino o inferencia zero-shot sobre las tareas específicas mencionadas. Combinando estos modelos, las plataformas musicales pueden realizar una clasificación y recomendación musical más inteligente, las plataformas de derechos de autor pueden reforzar las huellas digitales musicales y la búsqueda por similitud, y las herramientas de creación pueden aprovechar estas capacidades de comprensión para recomendar acompañamientos adecuados, expandir estilos similares o generar automáticamente estructuras musicales.## 4.4 Voz y generación de audio (TTS / VC / Music Generation)

Tras completar la "limpieza", el "reconocimiento" y la "comprensión" del audio, la siguiente pregunta natural es: "¿Podemos hacer que las máquinas 'hablen', 'canten' o incluso 'compongan'?" Este es el mundo de la generación de voz y audio: desde texto a voz (TTS), de una voz a otra (VC / Voice Cloning), hasta la generación de música y efectos de sonido a mayor escala, e incluso la síntesis de canto que interpreta letras y melodías. De forma similar a la generación de imágenes, esta capa ya no se limita a etiquetar o extraer estructura de datos existentes, sino que "crea" activamente nuevo contenido sonoro.

A nivel de producto, esta capa de capacidades ya ha permeado diversas aplicaciones: productos de voz como OpenAI TTS, ElevenLabs, Volcano Engine y minimax proporcionan síntesis de voz de alta calidad para aplicaciones; plataformas de generación musical como Suno y Udio ofrecen a creadores e incluso a usuarios comunes la capacidad de convertir un texto en música completa; videojuegos, vídeos, VTubers y avatares digitales dependen de estos modelos para doblaje y canto, reduciendo drásticamente las barreras de producción de contenido.

  • Escenarios
    • Texto a voz (TTS): locución de noticias, navegación por voz, respuestas de voz en atención al cliente inteligente, lectura de contenido en aplicaciones educativas, lectores de pantalla accesibles, etc., que requieren convertir texto arbitrario en voz natural, clara y controlable.
    • Conversión y clonación de voz (VC / Voice Cloning): cambiar el timbre del hablante manteniendo la semántica y la prosodia, logrando "hablar con otra voz" o "clonación de huella vocal con pocas muestras" (bajo estrictas condiciones de cumplimiento normativo).
    • Generación de música y efectos de sonido: crear música de fondo y efectos de sonido adecuados (sonidos ambientales, efectos de UI, sonidos de transición) para vídeos cortos, videojuegos, anuncios, pódcasts, etc.
    • Síntesis de canto y versiones (covers): dado una melodía y una letra, hacer que un cantante virtual las interprete, o generar una versión con un estilo/timbre específico bajo condiciones de cumplimiento.
  • Principios La generación de voz y audio suele adoptar un enfoque de modelado por capas de "representación de alto nivel → forma de onda de bajo nivel":
    • En TTS, primero se convierte el texto en una secuencia de fonemas/sílabas/caracteres, luego se pasa por un modelo de secuencia a características acústicas (como espectrogramas Mel) (Tacotron, FastSpeech, VITS, etc.), y finalmente se usa un vocoder neuronal (WaveNet, WaveRNN, HiFi‑GAN, etc.) para generar formas de onda de alta fidelidad a partir de las características.
    • En Voice Conversion, mediante la descomposición de "qué se dice (contenido)" y "quién lo dice (timbre)", se extrae la representación del contenido de la voz fuente y se combina con el embedding del hablante objetivo o condiciones del codec para generar una nueva forma de onda de voz.
    • La generación de música y efectos de sonido puede basarse en representaciones tokenizadas (como notas, MIDI, espectros codificados/tokens de codec), utilizando modelos autorregresivos, de difusión (Diffusion) o de codec neuronal generativo para muestrear nuevo audio a partir de texto, audio de referencia o parámetros estructurales.
    • La síntesis de canto introduce, sobre la base del TTS, un control más fino de la prosodia, la trayectoria del tono y el control del canto, modelando generalmente de forma explícita o implícita el tono, la duración, las ligaduras, el vibrato, etc.
  • Modelos Las principales líneas técnicas actuales en generación de voz y audio incluyen:
    • TTS: Tacotron / Tacotron2, la familia FastSpeech (TTS no autorregresivo), VITS, entre otros, se encargan del paso de texto a espectrograma Mel o tokens de codec; WaveNet, WaveRNN, HiFi‑GAN, WaveGlow, etc. actúan como vocoder o decodificador para pasar de características a forma de onda. Los modelos TTS basados en difusión y los modelos de codec neuronal más recientes han mejorado aún más la naturalidad y diversidad.
    • Voice Conversion / Cloning: frameworks de VC basados en speaker embedding + content encoder, así como modelos de conversión de voz que utilizan codecs neuronales, que permiten la clonación de timbre con pocas muestras y la transferencia de hablante entre idiomas. Estas tecnologías ya han sido desplegadas comercialmente por múltiples plataformas, ofreciendo servicios de clonación de voz accesibles. En China, las plataformas más comunes incluyen Volcano Engine, minimax, la Plataforma Abierta de iFLYTEK, la Plataforma de Modelos Grandes Qianfan de Baidu AI Cloud y la Plataforma de Voz Interactiva Inteligente de Alibaba Cloud; en el extranjero, plataformas como ElevenLabs, Resemble.ai y Play.ht son las principales. Entre ellas, la capacidad de clonación de voz de Volcano Engine permite el entrenamiento rápido con pocas muestras de audio, adaptándose a escenarios comerciales como atención al cliente inteligente y audiolibros; minimax, aprovechando su ventaja en modelos grandes, logra una adaptación natural entre el timbre clonado y el contenido textual, además de permitir la transferencia de timbre del hablante entre idiomas; la clonación de voz de la Plataforma Abierta de iFLYTEK destaca por la claridad y expresividad emocional en la pronunciación en chino, sirviendo ampliamente a sectores como la educación y la radiodifusión.
    • Generación de música y efectos de sonido: MusicLM, MusicGen y modelos como Suno / Udio, típicamente basados en condiciones de texto y/o audio de referencia, utilizan arquitecturas autorregresivas o de difusión sobre tokens de codec discretos para generar audio de larga duración.

4.4.1 Texto a voz (TTS): hacer que las máquinas "hablen con naturalidad"

Texto a voz (TTS) es la tarea más intuitiva de generación de voz: se introduce un texto y se obtiene una voz fluida y natural, idealmente casi indistinguible de la voz humana. Los sistemas TTS modernos suelen dividirse en dos etapas principales: de texto a características acústicas (como espectrogramas Mel), y de características acústicas a forma de onda.

En la primera etapa, el modelo debe abordar la tokenización, la fonetización, la desambiguación de polisílabos, la puntuación y las pausas, la predicción de la prosodia, entre otros problemas. Los modelos típicos incluyen la familia Tacotron basada en atención y la familia FastSpeech basada en predicción de duración; esta última acelera significativamente la síntesis y mejora la estabilidad mediante una arquitectura no autorregresiva. En los últimos años, modelos extremo a extremo como VITS han fusionado el modelado acústico y el vocoder en un marco unificado, simplificando aún más el sistema.

En la segunda etapa, los vocoders neuronales (Neural Vocoder) como WaveNet, WaveRNN, HiFi‑GAN, WaveGlow, etc. se encargan de convertir los espectrogramas Mel u otras representaciones intermedias en formas de onda de alta fidelidad. Un vocoder bien entrenado no solo puede generar voz natural y clara, sino también reproducir fielmente diferentes timbres, emociones y estilos. Los sistemas TTS modernos también admiten modelado multi-hablante (mediante speaker embedding), control de timbre/velocidad/emoción (como "entusiasmado", "tranquilo", "tono de locutor"), y TTS multilingüe, proporcionando capacidades de voz altamente personalizables para diversas aplicaciones.

4.4.2 Conversión de voz y clonación de huella vocal: cambiar "quién habla"

En muchos escenarios creativos y de asistencia, deseamos cambiar el timbre o estilo del hablante sin alterar el contenido ni la prosodia. Esta es la tarea de la conversión de voz (VC) y la clonación de voz (Voice Cloning). La primera se centra en "convertir lo que dice A en la voz de B"; la segunda enfatiza aún más la capacidad de "aprender un nuevo timbre con pocas muestras o incluso unas pocas frases".

Técnicamente, la VC suele adoptar un enfoque de "desacoplamiento contenido-timbre": un codificador de contenido extrae la información del contenido hablado y la prosodia (pueden ser unidades discretas basadas en ASR o representaciones continuas auto-supervisadas), y luego un generador condicional combina el embedding del hablante objetivo o las condiciones del codec para generar una nueva voz con el timbre objetivo pero con semántica y ritmo prácticamente inalterados. Si se introducen codecs neuronales, se puede editar directamente la voz en el espacio de codificación-decodificación, logrando una conversión de alta fidelidad.

La clonación de voz añade a la VC un énfasis en la capacidad de pocas muestras y generalización: el modelo debe extraer una representación estable del hablante a partir de unas pocas muestras o incluso unos segundos de audio, y generar voz sintetizada con estilo consistente y timbre cercano. Esta capacidad resulta muy útil en personajes virtuales, asistentes personalizados, personalización de personajes de videojuegos y aceleración de doblaje, pero también requiere un estricto cumplimiento de las normas legales y éticas, garantizando su uso solo bajo condiciones de autorización conforme, consentimiento plenamente informado y control de seguridad, para evitar riesgos de uso indebido o suplantación de identidad.

4.4.3 Generación de música y efectos de sonido: del prompt a un paisaje sonoro completo

En comparación con la generación de voz, la generación de música y efectos de sonido es más compleja en estructura y escala temporal: la música suele durar más tiempo y su estructura interna (secciones, melodía, armonía, ritmo) es más rica; los efectos de sonido abarcan una gran variedad, desde entornos naturales (lluvia, viento, olas del mar) hasta sonidos sintéticos (clics de UI, tonos de notificación, efectos de habilidades en videojuegos), cada uno con sus propios patrones. En los últimos años, los modelos basados en codecs neuronales, modelado de secuencias y difusión han hecho realidad la "generación de música/efectos de sonido completos a partir de texto".

En la generación musical, modelos como MusicLM, MusicGen, Suno y Udio suelen codificar el audio como secuencias de tokens de codec discretos, y luego entrenar modelos generativos condicionados por texto o multimodales en este espacio discreto. El usuario solo necesita proporcionar una descripción textual (como "música de fondo Lo‑Fi de ritmo moderado, cálida y reconfortante, adecuada para estudiar y concentrarse", "banda sonora orquestal electrónica tensa, adecuada para un tráiler de ciencia ficción") o subir un fragmento de música de referencia, y el modelo puede generar música de alta calidad de decenas de segundos o incluso varios minutos de duración. Para los creadores, esto es tanto una fuente de inspiración como una herramienta poderosa para prototipado rápido y generación de música de fondo.

En la generación de efectos de sonido, tecnologías similares pueden generar efectos de UI, tonos de notificación, sonidos ambientales para videojuegos, etc. a partir de prompts de texto, ayudando a los equipos de producto y videojuegos a iterar rápidamente en el diseño sonoro. Combinado con las capacidades de comprensión de audio de la capa anterior, también se puede lograr alineación de estilo y adaptación a la escena, por ejemplo, haciendo coincidir automáticamente el estilo de los efectos de sonido según la imagen o el nivel del juego.

Ya sea en generación de voz, música o efectos de sonido, esta capa de capacidades está evolucionando rápidamente: desde los primeros sonidos sintéticos con un marcado carácter artificial, hasta contenidos de alta fidelidad hoy difíciles de distinguir de la voz humana y la música profesional. Al mismo tiempo, las cuestiones relacionadas con los derechos de autor, el cumplimiento normativo, la trazabilidad y la controlabilidad se vuelven cada vez más importantes: cómo proporcionar herramientas creativas potentes mientras se protegen los derechos legítimos de creadores y usuarios será un tema clave que esta capa tecnológica deberá seguir abordando.# 5. Vídeo (Video)

En el sistema multimodal de IA, la modalidad de vídeo se encarga de comprender y generar "señales visuales que cambian a lo largo del tiempo". En comparación con una sola imagen, el vídeo no solo contiene información de textura, forma y disposición en la dimensión espacial, sino que también transporta ricas pistas de la dimensión temporal: el inicio y fin de las acciones, las trayectorias de movimiento de los objetos, el ritmo de cambio entre planos, etc. Ya sea el reconocimiento de comportamiento en videovigilancia, el análisis de movimiento en el entrenamiento deportivo, la edición con un solo clic en plataformas de vídeos cortos o el análisis inteligente de vídeos largos, todo depende fundamentalmente de un conjunto completo de capacidades de comprensión y generación centradas en las "secuencias de fotogramas".

Desde una perspectiva de ingeniería, las capacidades de vídeo se pueden dividir en varios niveles: la mejora y restauración de vídeo de bajo nivel se encarga de garantizar que "se pueda ver con claridad"; la comprensión y análisis estructural del vídeo se encarga de responder "qué está ocurriendo"; sobre esta base, las tareas multimodales de vídeo + lenguaje convierten el contenido del vídeo en descripciones estructuradas e interfaces de búsqueda utilizables mediante texto; más adelante, la generación y edición de vídeo genera o reorganiza contenido de vídeo de forma controlable a partir de texto o vídeos de ejemplo; y un tipo de aplicación representada por los humanos digitales / avatares virtuales integra voz, lenguaje, movimiento y renderizado de vídeo, constituyendo una nueva forma orientada a la interacción y la producción de contenido.

A continuación, organizamos las capacidades relacionadas con el vídeo partiendo igualmente de las capacidades por niveles.## 5.1 Procesamiento de video tradicional: de "que se reproduzca" a "que se vea bien y sea útil"

En el nivel más básico de la tecnología de video, lo primero que nos preocupa no es "quién aparece en la imagen" o "qué evento ocurre", sino si el video en sí es estable, nítido y cómodo de ver: si la imagen tiembla, se ve borrosa, tiene mucho ruido o si la proporción es adecuada para el terminal de reproducción objetivo. Esta capa de procesamiento de video tradicional trabaja principalmente a nivel de secuencias de fotogramas y píxeles espacio-temporales, mediante operaciones de mejora, restauración, superresolución, interpolación de fotogramas y reencuadre, transformando videos originales ruidosos, temblorosos, de baja resolución o con proporciones inadecuadas en "señales temporales de alta calidad" más adecuadas para su visualización y análisis posterior. Puede compararse con la "restauración y mejora de imagen + corrección geométrica" en la modalidad de imagen, con la diferencia de que aquí se introduce adicionalmente la suavidad y consistencia en la dimensión temporal.

Desde el punto de vista del producto, esta capa de capacidades está prácticamente "invisible" detrás de todos los productos de video: la mejora de calidad con un solo clic en programas de edición, la mejora automática de calidad en plataformas de videos cortos, la súper resolución e interpolación inteligente en televisores y reproductores, los servicios de restauración de películas antiguas, así como el preprocesamiento multifotograma para modelos de detección/reconocimiento, son manifestaciones directas del procesamiento de video tradicional. A continuación, lo analizaremos desde tres perspectivas: escenarios, principios y modelos, y en las subsecciones siguientes profundizaremos en direcciones clave como la mejora y restauración de video, la súper resolución y la interpolación de fotogramas.

  • Escenarios En plataformas de video en línea, herramientas de edición, sistemas de vigilancia y dispositivos terminales, el procesamiento de video tradicional aparece principalmente en los siguientes escenarios típicos:
    • Plataformas de contenido y herramientas de edición: al subir o editar videos cortos o largos, mediante mejora de calidad con un solo clic, estabilización, antitemblor y reducción de ruido, se permite que el usuario "tome el teléfono, grabe y el resultado ya sea utilizable"; al importar material de video antiguo en proyectos de edición, mediante restauración e interpolación de fotogramas, se logra una apariencia más consistente con el material nuevo.
    • Cine, televisión y restauración de películas antiguas: restauración digital de películas históricas, programas de televisión antiguos y material en definición estándar, eliminando arañazos, ruido y temblores, recuperando color y detalles, para ofrecer versiones de mayor calidad para reestrenos, redistribución y preservación en archivos digitales.
    • Videovigilancia y dashcams: reducción de ruido, desempañado, mejora de contraste y estabilización en imágenes de vigilancia con poca luz, lluvia/niebla o alta compresión, mejorando la robustez de los módulos de detección y reconocimiento posteriores, facilitando la obtención de pruebas y el rastreo.
    • Reproducción en terminales y mejora en dispositivo: televisores, decodificadores y reproductores móviles integran localmente funciones de súper resolución e interpolación de fotogramas, "actualizando" contenido existente en 720p/1080p y 24/30fps a efectos visuales cercanos a 4K y 60/120fps en el extremo de reproducción.
    • Adaptación y distribución multidispositivo: para cubrir simultáneamente móviles en vertical, tablets en horizontal y televisores de pantalla grande, se realiza adaptación vertical/horizontal, recorte inteligente y reencuadre multiproporción del mismo video, reduciendo los costes de edición manual y mantenimiento de múltiples versiones.
  • Principios El procesamiento de video tradicional generalmente no interpreta directamente categorías semánticas, sino que modela y optimiza en torno a la calidad de imagen, estabilidad y consistencia temporal a nivel de señales espacio-temporales:
    • Modelado conjunto espacio-temporal: sobre la base de la mejora de imagen de un solo fotograma, se introduce información de la dimensión temporal, utilizando estimación de flujo óptico, modelado de movimiento de cámara o convolución espacio-temporal, tomando los fotogramas adyacentes como "observaciones" adicionales para realizar fusión multifotograma y supresión de ruido en el eje temporal.
    • Estabilización y antitemblor: se modela el temblor de la cámara como una secuencia de transformaciones geométricas (traslación, rotación, escala, etc.) a lo largo del tiempo; estimando las trayectorias de movimiento global o local, se suavizan y se reproyectan al video de salida, logrando así eliminar el temblor y estabilizar la imagen.
    • Súper resolución e interpolación de fotogramas en video: la súper resolución de video, mediante alineación multifotograma y reconstrucción de detalles, mejora la resolución espacial manteniendo la consistencia temporal; la interpolación de fotogramas, mediante estimación de flujo óptico o redes generativas espacio-temporales, sintetiza fotogramas intermedios entre dos fotogramas, presentando el movimiento a mayor tasa de fotogramas y mejorando la fluidez.
    • Reencuadre y composición automática: detectando y rastreando los sujetos en el video (personas, objetos), se estiman sus trayectorias en el eje temporal y, combinado con la relación de aspecto de la resolución objetivo, se selecciona una ventana de recorte adecuada para cada fotograma, aplicando suavizado temporal al movimiento de la ventana de recorte para garantizar una apariencia natural.
    • Compromiso entre calidad y eficiencia: en el procesamiento offline en la nube se puede buscar la máxima calidad de imagen y modelos complejos, mientras que en móviles, reproductores y escenarios en tiempo real es necesario controlar el número de parámetros del modelo, la complejidad computacional y la latencia, logrando un equilibrio fino en la estructura algorítmica y el marco de inferencia.
  • Modelos En la implementación concreta, el procesamiento de video tradicional combina métodos clásicos de procesamiento de señales de video con modelos de aprendizaje profundo, buscando un equilibrio entre efecto, eficiencia y forma de despliegue:
    • Métodos clásicos de procesamiento de video: estabilización e interpolación de fotogramas basadas en flujo óptico, filtrado temporal y fusión multifotograma, eliminación de ruido y artefactos de compresión basada en coincidencia de bloques, entre otros, siguen siendo ampliamente utilizados en escenarios con recursos computacionales limitados o donde se requiere interpretabilidad.
    • Modelos profundos de restauración y mejora de video: redes de súper resolución y mejora multifotograma como EDVR, BasicVSR/BasicVSR++, la versión de video de Real-ESRGAN, entre otros, mediante alineación y agregación de características espacio-temporales, superan significativamente a los métodos tradicionales en reducción de ruido, desempañado, recuperación de detalles y eliminación de artefactos de compresión.
    • Modelos profundos de interpolación de fotogramas: redes de interpolación como DAIN, RIFE, FILM, que generan fotogramas intermedios mediante estimación explícita o implícita de flujo óptico y fusión de características intermedias, son más estables que los métodos tradicionales de flujo óptico + remuestreo en escenas con movimiento complejo y oclusiones.
    • Restauración de video basada en Transformer: utiliza atención espacio-temporal para procesar unificadamente texturas espaciales y dependencias temporales, ofreciendo mayor capacidad de modelado en escenas con movimientos de cámara complejos y múltiples objetos, mientras controla el coste computacional en inferencia mediante mecanismos como atención dispersa y ventanas deslizantes.
    • Productos y sistemas reales: la mejora inteligente de Jianying/CapCut, software comercial de mejora como Topaz Video Enhance, los pipelines de mejora de calidad de Bilibili y diversas plataformas de videos cortos, los servicios SaaS de restauración de películas antiguas, etc., suelen encadenar múltiples modelos y estrategias, seleccionando dinámicamente la ruta de procesamiento óptima según el tipo de material y las condiciones del terminal.

En conjunto, esta capa se centra más en sentar las bases físicas y perceptivas del video "antes de la semántica": ayuda a los usuarios a obtener una experiencia visual más cómoda y también proporciona entradas más limpias y estables para los modelos de detección, reconocimiento y generación. A continuación, desarrollamos respectivamente las subdirecciones de mejora y restauración de video y súper resolución e interpolación de fotogramas.

5.1.1 Mejora y restauración de video: de "se puede ver" a "se ve bien"

En condiciones reales de grabación, el video a menudo no está "limpio": las sacudidas violentas de dispositivos portátiles, el alto nivel de ruido y la sensación de emborronamiento en condiciones de poca luz, los artefactos de bloque y bandas de color causados por la compresión de red, la decoloración y los arañazos de equipos antiguos, todo ello hace que la calidad del video esté muy por debajo del estado ideal. El objetivo de la mejora y restauración de video es, sin alterar el contenido semántico del video, recuperar al máximo una apariencia estable, nítida y natural, transformando material "apenas visible" en algo "agradable a la vista o incluso atractivo".

En el dominio temporal, la mejora y restauración deben resolver primero el problema de la estabilidad. Mediante la correspondencia de características o la estimación de flujo óptico entre fotogramas consecutivos, se puede separar el movimiento global de la cámara del movimiento local de los objetos, y luego utilizar la trayectoria suavizada de la cámara para volver a renderizar los fotogramas de salida, suprimiendo así las sacudidas rápidas y las pequeñas vibraciones, evitando que el espectador sienta mareo durante la visualización. Sobre esta base, la reducción de ruido, el desempañado y la eliminación de artefactos a nivel de imagen se centran más en el modelado conjunto espacio-temporal: la reducción de ruido multifotograma aprovecha la información redundante de fotogramas adyacentes, realizando en la dirección temporal un procesamiento similar a la "fusión de múltiples exposiciones", suprimiendo eficazmente el ruido de ISO alto y el ruido de compresión mientras se preservan las texturas de detalle; para el desenfoque de movimiento leve, se estima el núcleo de desenfoque o se utilizan redes profundas de extremo a extremo para realizar un tratamiento de deconvolución en la secuencia de fotogramas, haciendo que tanto el fondo estático como los sujetos en movimiento sean más nítidos.

Para películas antiguas y material de baja calidad, la restauración también implica la "reconstrucción" a nivel de color y estructura. El envejecimiento de la película provoca amarilleamiento, pérdida de contraste y arañazos y manchas locales notables, mientras que el video digital antiguo suele presentar baja resolución, alta compresión y artefactos de bordes dentados. Los flujos de restauración modernos suelen emplear múltiples pasos coordinados: primero se utilizan modelos de detección y segmentación para localizar áreas dañadas localmente como arañazos y manchas, y luego se emplean redes de completado espacio-temporal para "tomar prestado material de relleno" de fotogramas y píxeles espaciales adyacentes; al mismo tiempo se realiza restauración de color y reconstrucción de contraste, para que el tono general se aproxime a la grabación original o a la referencia de estilo establecida. Para videos con compresión severa, se introducen además redes especializadas en eliminar artefactos de bloque y artefactos de timbre, mejorando bordes y detalles sin un suavizado excesivo.

Estas capacidades de mejora y restauración se manifiestan en los productos típicamente como funciones "de un solo clic": el usuario solo necesita marcar "estabilización", "mejora de calidad" o "restauración de video antiguo", y el sistema selecciona automáticamente en segundo plano el modelo y la combinación de parámetros adecuados, aplicando procesamiento multifase a la secuencia de fotogramas del video. Para el negocio, esta capa determina directamente la valoración subjetiva del espectador sobre la calidad de imagen e indirectamente afecta al rendimiento de los modelos de análisis posteriores: una entrada de video más limpia y estable generalmente implica un reconocimiento facial/de matrículas más fiable, una detección de comportamiento más precisa y menos falsas alarmas.

5.1.2 Súper resolución e interpolación de fotogramas: de "se distingue" a "más fluido"

En un contexto de continua mejora de los dispositivos de visualización y de crecientes exigencias de los usuarios en cuanto a detalle y fluidez, una gran cantidad de contenido de video existente resulta "deficitario de fábrica" en resolución y tasa de fotogramas: 1080p no se ve suficientemente nítido en pantallas 4K, y 24/30fps tiende a mostrar estelas o sensación de tartamudeo en pantallas grandes y escenas de movimiento rápido. Las tecnologías de súper resolución e interpolación de fotogramas están diseñadas precisamente para resolver estos dos problemas: la primera "añade detalles" en la dimensión espacial, la segunda "añade proceso" en la dimensión temporal, elevando conjuntamente un video "apenas distinguible" a una experiencia de "detalles abundantes y reproducción fluida".

La súper resolución de video tiene una dimensión clave adicional respecto a la súper resolución de imagen de un solo fotograma: el tiempo. Una simple ampliación fotograma a fotograma tiende a provocar inconsistencias en los detalles entre fotogramas adyacentes, apareciendo parpadeos y vibraciones de textura. Por ello, los métodos convencionales aprovechan la información de múltiples fotogramas adyacentes, utilizando estimación de flujo óptico o alineación a nivel de características para alinear los detalles de los fotogramas vecinos con el fotograma objetivo, y luego realizar la reconstrucción de detalles tras la alineación. Modelos como EDVR, BasicVSR/BasicVSR++, la versión de video de Real-ESRGAN, primero alinean y agregan múltiples fotogramas en el espacio de características, y luego utilizan redes profundas para inferir detalles de alta resolución, evitando el aspecto "borroso" y "artificial" que produce la interpolación simple. En este proceso, el equilibrio entre lo "físicamente razonable" y lo "perceptivamente atractivo" es el núcleo del diseño de la función de pérdida y la estrategia de entrenamiento: se debe mejorar tanto las métricas objetivas (como PSNR, SSIM) como garantizar una apariencia subjetiva natural, sin exceso de nitidez ni detalles falsos.

La interpolación de fotogramas se centra en "añadir fotogramas" en el eje temporal. Los métodos tradicionales dependen de la estimación de flujo óptico: primero predicen el movimiento de cada píxel entre dos fotogramas adyacentes y luego interpolan en la posición intermedia según ciertas reglas para generar un nuevo fotograma. Sin embargo, en áreas de movimiento rápido, múltiples oclusiones o texturas complejas, el flujo óptico a menudo no es suficientemente preciso, y tienden a aparecer estelas, imágenes fantasma o deformaciones locales. Los modelos profundos de interpolación de fotogramas como DAIN, RIFE, FILM, mediante redes de extremo a extremo que aprenden simultáneamente el flujo óptico, la profundidad o las estrategias de fusión de características intermedias, producen directamente fotogramas interpolados, con una mejora notable en estabilidad y calidad visual en escenas complejas. Para eventos deportivos, grabaciones de videojuegos de acción y creación de cámara lenta, la interpolación de fotogramas puede elevar suavemente videos originales de 24/30fps a 60/120fps, preservando los detalles de movimiento y reduciendo el tartamudeo y las imágenes residuales.

En la práctica de ingeniería, la súper resolución y la interpolación de fotogramas se combinan frecuentemente: para contenido existente de baja resolución y baja tasa de fotogramas, primero se realiza la interpolación temporal de fotogramas y luego la súper resolución espacial, o ambas se implementan de forma integrada en una red espacio-temporal unificada. En cuanto a la forma de despliegue, el procesamiento offline en la nube es adecuado para restauración cinematográfica con requisitos de calidad extremadamente altos y servicios de "mejora de calidad" a nivel de plataforma, mientras que la inferencia en tiempo real en el dispositivo se encuentra más comúnmente en decodificadores, aplicaciones de reproductor y cámaras de juego/deportivas, donde es necesario garantizar baja latencia mediante compresión de modelos y aceleración por hardware. Independientemente de la forma que adopten, la súper resolución y la interpolación de fotogramas se han convertido en una infraestructura esencial para la "experiencia HD/UHD", haciendo que el contenido antiguo reviva con una "segunda vida" en los nuevos terminales.## 5.2 Comprensión de video y análisis estructural(Video Understanding)

Si el procesamiento de video tradicional se centraba más en la "calidad de imagen y estabilidad", la comprensión de video y análisis estructural comienza a responder preguntas semánticas del tipo "qué está pasando en el video": quién hace qué, dónde, durante cuánto tiempo, si hay comportamientos anómalos, etc. El objetivo aquí es descomponer estructuralmente el video en el eje temporal: reconocer acciones y comportamientos, detectar y rastrear objetivos, segmentar primer plano y fondo, dividir escenas y planos, y extraer señales semánticas de alto nivel que sirvan para la toma de decisiones, la recuperación y las alertas posteriores.

Desde la perspectiva del producto, esta capa de capacidades ya está profundamente integrada en diversas plataformas de videovigilancia inteligente, sistemas de análisis de entrenamiento deportivo, dashcams inteligentes y sistemas de análisis de video para inspección de calidad industrial: en vigilancia, identifica anomalías como peleas, caídas o merodeo; en escenarios deportivos y de fitness, analiza la corrección de los movimientos y los detalles técnicos; en entornos de tráfico e industriales, rastrea las trayectorias de vehículos y personas y supervisa si los flujos de producción son normales. A continuación, organizamos estas capacidades desde tres perspectivas: escenarios, principios y modelos, y en las subsecciones siguientes profundizamos en varias direcciones representativas.

  • Escenarios
    • Videovigilancia y seguridad pública: en vigilancia urbana, campus y edificios, identifica comportamientos como peleas, caídas, aglomeraciones, carreras o saltos de vallas, y emite alertas tempranas ante patrones anómalos como merodeo o permanencia nocturna prolongada.
    • Tráfico y movilidad: detecta y rastrea las trayectorias de peatones, vehículos y bicicletas en intersecciones, túneles y autopistas, analiza comportamientos como saltarse semáforos en rojo, circular en sentido contrario, invadir carriles o exceso de velocidad, proporcionando evidencias para la gestión del tráfico y la trazabilidad de accidentes.
    • Deporte y entrenamiento atlético: analiza las fases clave y la calidad postural de acciones como el tiro en baloncesto, el saque en tenis o las posturas de yoga, ofreciendo análisis técnico y sugerencias de corrección para atletas y usuarios generales.
    • Producción industrial e inspección de calidad: supervisa si los pasos operativos en la línea de producción son correctos, detecta si hay omisiones, montajes incorrectos o movimientos anómalos durante el ensamblaje, proporcionando datos básicos para la seguridad en la producción y la mejora del rendimiento.
    • Estructuración de contenido y recuperación: divide videos largos en planos, clasifica escenas y marca segmentos importantes, generando índices estructurados para la posterior recuperación, recomendación y edición.
  • Principios La clave de la comprensión de video y el análisis estructural reside en modelar conjuntamente los objetivos espaciales y la semántica en la dimensión temporal:
    • Reconocimiento de acciones y análisis de comportamiento: mediante convoluciones 2D/3D, pooling temporal o Transformers, se codifica globalmente un fragmento de video para identificar la categoría de acción que ocurre en él; los métodos avanzados combinan secuencias de puntos clave del cuerpo humano con la topología del esqueleto para analizar la calidad y los patrones de movimiento con mayor granularidad.
    • Detección y seguimiento de objetivos: mientras se realiza la detección en cada fotograma, se introducen mecanismos de asociación entre fotogramas (características de apariencia, trayectorias de movimiento, etc.) para vincular las cajas de detección del mismo objetivo en distintos momentos en una trayectoria continua, obteniendo resultados de seguimiento multiobjetivo.
    • Segmentación semántica de video y análisis de escenas: se realiza segmentación semántica o segmentación de instancias en cada fotograma del video a nivel de píxel, y se utiliza la continuidad temporal para suavizar las predicciones; al mismo tiempo, se detectan los cambios de plano y los límites de escena para lograr la descomposición estructural de videos largos.
    • Detección de eventos de alto nivel y anomalías: sobre las características básicas de acciones y trayectorias, se emplean modelos temporales y métodos de reconocimiento de patrones para detectar eventos raros y patrones anómalos, a menudo combinando aprendizaje no supervisado o débilmente supervisado para mitigar la escasez de anotaciones.
  • Modelos En cuanto a la selección de modelos, la comprensión de video y el análisis estructural suelen adoptar una arquitectura combinada de "características espaciales + modelado temporal":
    • Modelos clásicos basados en convolución 3D y Two-Stream, como I3D, que realizan convolución simultánea en las dimensiones espacial y temporal para el reconocimiento de acciones de extremo a extremo en fragmentos cortos de video.
    • La familia de modelos SlowFast, basados en múltiples rutas y escalas temporales, que capturan la semántica mediante una ruta lenta y los detalles de movimiento mediante una ruta rápida, logrando un mejor equilibrio entre costo computacional y precisión.
    • Modelos de video basados en Transformer, como TimeSformer y Video Swin Transformer, que utilizan mecanismos de atención espaciotemporal para modelar videos de larga duración, siendo más adecuados para capturar eventos complejos e interacciones entre múltiples sujetos.
    • Detectores basados en "tubes" y modelos de convolución espaciotemporal / Transformer, que extienden las cajas de detección en el tiempo formando "tubes", realizando detección de comportamiento y segmentación espaciotemporal sobre características conjuntas espacio-temporales.
    • Métodos de seguimiento multiobjetivo(MOT), como DeepSORT, que combinan los resultados de detección por fotograma con embeddings de apariencia y predicción de movimiento para asociar de forma estable las identidades de los objetivos en el video.

En conjunto, esta capa de capacidades eleva el video de "flujo de píxeles de alta calidad" a "flujo de comportamientos y eventos", sentando las bases estructurales para la comprensión multimodal, la recuperación y la toma de decisiones en niveles superiores. A continuación, profundizamos en tres direcciones: reconocimiento de acciones y análisis de comportamiento, detección y seguimiento de objetivos y detección de eventos y anomalías.

5.2.1 Reconocimiento de acciones y análisis de comportamiento: de la secuencia de fotogramas a "quién hace qué"

El reconocimiento de acciones y el análisis de comportamiento se centran en "qué está haciendo un sujeto dentro de una ventana temporal". En escenarios de vigilancia, esto implica identificar comportamientos como "caminar, correr, caerse, pelear" a partir del video; en deportes y fitness, corresponde a acciones más detalladas como "si el tiro, el saque o la sentadilla son correctos" o "si la postura de yoga es adecuada". Técnicamente, los primeros métodos se basaban principalmente en convolución 2D + flujo óptico o características artesanales, apilando varios fotogramas para una clasificación global; los métodos modernos, en cambio, emplean convolución 3D(I3D, diversas variantes de 3D ResNet), estructuras multiescala temporal como SlowFast, o modelos basados en atención espaciotemporal como TimeSformer y Video Swin Transformer, para modelar conjuntamente las texturas espaciales y los cambios temporales.

En muchos escenarios que requieren un análisis de postura de alta precisión, la clasificación directa de fragmentos RGB no es suficiente, por lo que se combina con estimación de pose humana y modelado de secuencias de esqueleto: primero se extraen puntos clave 2D/3D de cada fotograma, y luego la secuencia de puntos clave se introduce en redes RNN, convolucionales temporales o GCN/Transformer para analizar la estructura temporal y la coordinación espacial de la acción. Este enfoque de "prior de pose + modelado temporal" es más robusto frente a cambios de fondo, iluminación y vestimenta, y resulta adecuado para aplicaciones que exigen un alto nivel de detalle en los movimientos, como yoga, fitness o evaluación de conformidad operativa industrial.

5.2.2 Detección y seguimiento de objetivos: de "dónde está en este fotograma" a "la trayectoria completa"

La detección de objetivos en un solo fotograma nos dice "qué objetivos hay en este fotograma y dónde están", pero muchas tareas del mundo real necesitan saber "de dónde vino este coche o esta persona, a dónde fue y qué hizo en el camino". El módulo de detección y seguimiento de objetivos existe precisamente para encadenar las detecciones por fotograma en trayectorias temporales continuas: por un lado, se ejecuta un detector en cada fotograma para obtener cajas candidatas de objetivos; por otro, basándose en características de apariencia(embeddings ReID), predicción de movimiento(filtro de Kalman)y solapamiento espacial, se emparejan y asocian las cajas entre fotogramas adyacentes para obtener resultados de seguimiento multiobjetivo(MOT).

En la práctica de ingeniería, un pipeline típico es: "detección robusta de peatones/vehículos + algoritmo de asociación como DeepSORT", desplegado en cámaras de vigilancia o dashcams, que emite en tiempo real la trayectoria de movimiento de cada ID. En sistemas más complejos, estas trayectorias se combinan además con semántica de zona(carriles, división de áreas)y reglas de lógica de negocio para inferir patrones de comportamiento de alto nivel como circular en sentido contrario, permanencia prolongada o entradas y salidas frecuentes, proporcionando señales temporales continuas para los sistemas superiores de vigilancia, análisis de flujo de tráfico y supervisión de procesos industriales.

5.2.3 Detección de eventos y anomalías: encontrar "lo que no encaja" a partir del "patrón normal"

En la mayoría de los escenarios de negocio, lo que realmente requiere atención prioritaria suelen ser las "pocas anomalías" y los "eventos críticos": por ejemplo, peleas, caídas o aglomeraciones en vigilancia; paradas anómalas u operaciones no conformes en producción industrial; comportamientos de conducción peligrosa en tráfico, etc. Este tipo de eventos son relativamente raros, con un alto costo de anotación y muestras extremadamente desequilibradas, lo que plantea desafíos adicionales para la construcción de modelos.

El enfoque habitual consiste en construir un módulo de detección de anomalías temporales sobre el reconocimiento de acciones, el seguimiento de objetivos y la segmentación de escenas básicos: ya sea aprendiendo directamente de las pocas muestras anómalas anotadas mediante métodos supervisados, o bien modelando la distribución de movimientos y comportamientos del "patrón normal" con métodos no supervisados o débilmente supervisados, de modo que cuando una nueva observación se desvía significativamente de la distribución histórica, se emita una alerta. A nivel de modelo, se combinan autocodificadores temporales, aprendizaje contrastivo, redes neuronales de grafos o Transformers temporales para codificar de forma unificada las relaciones espaciales y las dependencias temporales, capturando así patrones de comportamiento grupal más complejos y dependencias de largo alcance.## 5.3 Tareas multimodales de vídeo + lenguaje (Video‑Language)

Si la comprensión de vídeo resuelve el problema de «entender el vídeo en sí mismo», las tareas multimodales de vídeo + lenguaje se centran en «cómo describir, responder preguntas y recuperar contenido de vídeo mediante lenguaje natural», así como en «cómo localizar rápidamente información clave en la línea temporal de un vídeo largo a partir de necesidades textuales». Este tipo de tareas requiere procesar simultáneamente señales visuales, de voz y textuales: por un lado, se extraen las características visuales y sonoras del vídeo; por otro, se conectan con la capacidad de razonamiento y generación de los modelos de lenguaje, comprimiendo el contenido espaciotemporal en resúmenes de texto, resultados de preguntas y respuestas e índices semánticos aptos tanto para el consumo humano como para la invocación automatizada.

Desde la perspectiva del producto, esta capa de capacidades ya se ha integrado profundamente en escenarios como la generación automática de subtítulos y líneas de tiempo para vídeos largos, el «marcado inteligente / extracción de fragmentos clave» en plataformas de edición de vídeos cortos, y los asistentes de preguntas y respuestas para vídeos de formación corporativa y reuniones: el usuario ya no necesita «verlo todo de principio a fin», sino que puede buscar, preguntar y reorganizar el contenido del vídeo directamente mediante lenguaje natural. A continuación, se desarrolla desde tres perspectivas: escenarios, principios y modelos.

  • Escenarios
    • Subtítulos y generación de resúmenes: generación automática de subtítulos multilingües para cursos, conferencias, reuniones y contenidos de vídeo largos y, sobre esta base, generación de resúmenes a nivel de capítulo, listas de puntos destacados y líneas de tiempo.
    • Preguntas y respuestas sobre vídeo y acceso al conocimiento: construcción de «asistentes de preguntas y respuestas sobre vídeo» para vídeos educativos, demostraciones operativas y contenidos de formación corporativa, que permitan a los usuarios hacer preguntas en lenguaje natural, como «¿cómo se hace este paso?» o «¿dónde dejó el móvil esta persona al final?».
    • Recuperación de contenido de vídeo y localización de fragmentos: soporte para la recuperación precisa de «texto → fragmento de vídeo» en grandes bibliotecas de vídeos, por ejemplo, «encuentra la parte donde se menciona el precio» o «encuentra el fragmento donde se explica una fórmula determinada»; dentro de un único vídeo largo, marcado automático de fragmentos destacados e información clave.
    • Producción de contenido y asistencia a la edición: combinación de la comprensión del contenido de vídeo con la generación de lenguaje para producir automáticamente títulos, textos publicitarios y guiones de storyboard, ayudando a los creadores a editar y reorganizar material rápidamente.
  • Principios El núcleo de un sistema multimodal de vídeo-lenguaje consiste en alinear las características visuales temporales con las representaciones textuales en un espacio de embedding unificado y, sobre esta base, realizar recuperación, generación y razonamiento:
    • Extracción y alineación de características multimodales: extracción de características espaciotemporales de los fotogramas/fragmentos de vídeo (CNN/ViT/Video Transformer) y de embeddings lingüísticos del texto (LLM preentrenado o codificador de texto), alineando ambas modalidades mediante aprendizaje contrastivo o preentrenamiento multimodal.
    • Canal de voz y texto: para contenidos que incluyen voz, normalmente se utiliza primero ASR para generar una transcripción alineada con marcas de tiempo, que luego se modela conjuntamente con las características visuales, lo que permite tanto impulsar la recuperación directamente mediante texto como realizar contrastes y correcciones intermodales.
    • Modelado temporal y localización de fragmentos: para vídeos largos, es necesario aprender representaciones a «nivel de fragmento» en la línea temporal, alternando dinámicamente entre fragmentos locales y contexto global mediante atención o RAG temporal, para lograr una localización precisa de los intervalos relevantes para la pregunta.
    • Generación y razonamiento: sobre las representaciones multimodales alineadas se conecta un modelo de lenguaje grande para realizar generación de lenguaje natural (subtítulos, resúmenes, explicaciones) o llevar a cabo preguntas y respuestas en múltiples turnos y razonamiento lógico.
  • Modelos En cuanto a la forma de los modelos, las tareas multimodales de vídeo-lenguaje han evolucionado desde «codificadores especializados + cabezales simples» hasta «modelos multimodales grandes unificados»:
    • Modelos tempranos de vídeo-lenguaje: como VideoBERT, que modelan conjuntamente tokens visuales y textuales durante la fase de preentrenamiento, obteniendo representaciones de vídeo-lenguaje transferibles mediante predicción de máscara y aprendizaje contrastivo.
    • Modelos de vídeo-lenguaje todo en uno (All‑in‑One): integran vídeo, texto (y voz) en un único Transformer multimodal, logrando un tratamiento unificado de múltiples tareas como generación de descripciones, recuperación y QA, mediante parámetros compartidos total o parcialmente.
    • Modelos multimodales para vídeos largos: como Gemini, Claude, GPT con capacidad de vídeo, que mediante contextos largos y modelado temporal jerárquico logran una comprensión global de vídeos de decenas de minutos o incluso horas, soportando resúmenes y preguntas y respuestas a nivel de línea temporal.
    • RAG temporal + VLM: construcción de un «índice vectorial temporal» sobre el vídeo, codificando primero los fragmentos de vídeo con un VLM para crear una base de datos, y luego recuperando los fragmentos relevantes en el momento de la consulta, combinándolos con un LLM para la síntesis de respuestas y el razonamiento explicable.

En conjunto, esta capa eleva el vídeo desde la «comprensión por máquina» hasta el nivel de «diálogo y colaboración persona-máquina»: el usuario puede hacer preguntas al vídeo como si preguntara a una persona, y el sistema realiza entre bastidores la compleja alineación y razonamiento visual, de voz y lingüístico.

5.3.1 Subtítulos, resúmenes y líneas de tiempo: comprimir vídeos largos en texto navegable

Para cursos, conferencias, reuniones y contenidos de vídeo largos, la necesidad más acuciante suele ser «saber rápidamente de qué se ha hablado y dónde están los puntos clave», en lugar de verlo completo de principio a fin. Los sistemas automáticos de subtítulos y resúmenes, mediante la combinación de «ASR + procesamiento de texto + asistencia visual», transcriben el contenido de audio a texto alineado con marcas de tiempo y, sobre esta base, generan esquemas estructurados y resúmenes concisos, logrando una compresión de la información desde «vídeo de horas» hasta «lectura de minutos».

A nivel de implementación, el módulo ASR se encarga de proporcionar una transcripción multilingüe estable y de alta calidad con alineación temporal; en el lado textual, se utilizan modelos de lenguaje grandes para corregir, segmentar oraciones y reorganizar semánticamente la transcripción original, extrayendo títulos de capítulo, información clave y pares de pregunta-respuesta. En algunos escenarios, también se combinan pistas visuales (como cambios de diapositivas PPT o transiciones de escena) para ayudar a delimitar los límites de los capítulos y los fragmentos destacados, garantizando que la estructura del resumen sea más coherente con el ritmo del contenido real.

5.3.2 Preguntas y respuestas sobre vídeo y recuperación semántica: «manipular» el vídeo con lenguaje natural

Más allá de los subtítulos y resúmenes, una necesidad más avanzada es poder hacer preguntas y recuperar información sobre contenidos de vídeo específicos: por ejemplo, «¿dónde dejó el móvil esta persona al final?», «¿en qué parte se habla de la estrategia de precios?» o «¿en qué minuto se demuestra este paso?». Este tipo de tareas requiere localizar semánticamente la pregunta en la línea temporal: hay que comprender las personas, objetos y acciones implicados en la pregunta, y también encontrar el fragmento correspondiente en la representación temporal del vídeo.

En la práctica, se suele construir primero un índice multigranular del vídeo de forma offline: se extraen representaciones multimodales (imagen + texto/voz) de fragmentos de longitud fija y se construye un índice vectorial o una estructura de grafo. Durante la interacción en línea, la pregunta del usuario se codifica como un vector de texto y se compara con las representaciones de los fragmentos en el índice para encontrar los intervalos de tiempo más relevantes; a continuación, el contenido de estos fragmentos (descripciones de capturas de fotogramas clave, texto transcrito, etc.) se introduce junto con la pregunta en un LLM, que genera una respuesta en lenguaje natural o devuelve el punto temporal correspondiente. Para bibliotecas de vídeo a gran escala, este mismo mecanismo permite la «recuperación entre vídeos», por ejemplo, buscando fragmentos relevantes de forma transversal en bases de conocimiento de formación corporativa o en vídeos de productos de comercio electrónico.

5.3.3 Asistencia a la edición multimodal: de la comprensión a «ayudarte a editar»

Cuando el sistema es capaz de comprender de forma estable el contenido y la estructura semántica del vídeo, el siguiente paso natural es utilizar inversamente esos resultados de comprensión para ayudar en la creación y edición. Los modelos multimodales de vídeo-lenguaje pueden seleccionar automáticamente fragmentos que coincidan semánticamente con el guion o las indicaciones proporcionadas por el creador dentro del material existente, generando una línea de tiempo de montaje preliminar; también pueden generar automáticamente títulos, textos de portada, etiquetas de capítulo e incluso sugerir el ritmo de planos y la banda sonora a partir del contenido del vídeo.

En el flujo de trabajo, este tipo de capacidades suelen aparecer en forma de «recomendación inteligente» y «montaje preliminar automático»: tras subir el material, el sistema completa automáticamente el análisis, el storyboard y el marcado, y ofrece varias versiones candidatas (por ejemplo, diferentes ritmos y duraciones de edición); el creador puede realizar ajustes finos sobre esta base, sin necesidad de empezar a seleccionar fotograma a fotograma desde cero. Para aplicaciones empresariales, el sistema también puede integrar bases de conocimiento y normas de marca, garantizando que los textos, subtítulos y estilos de edición generados cumplan con los requisitos de negocio y los estándares de conformidad establecidos.## 5.4 Generación y edición de video (Video Generation & Editing)

Una vez que se cuenta con una capacidad estable de comprensión y análisis estructural, la generación y edición de video avanza hacia la fase de "creación activa de contenido": ya no se trata solo de mejorar la calidad de imagen o realizar análisis estructurados, sino de generar planos completamente nuevos a partir de guiones de texto, imágenes de referencia o videos existentes, o de realizar ediciones y reorganizaciones estructurales sobre el video original. Esto abarca tanto la generación de video a partir de texto (Text‑to‑Video) desde cero, como la transferencia de estilo, expansión y reorganización basadas en imágenes/videos existentes, así como la edición y reemplazo fino a nivel de objeto.

En cuanto a productos, esta capa de capacidad ya ha entrado en el ámbito principal de la creación de contenido a través de una serie de productos como Jimeng Video, Minimax Video, Sora, Runway Gen‑2, Pika y Kling: anuncios publicitarios, videos conceptuales, animaciones y storyboards dramáticos pueden generarse rápidamente sin depender de grandes equipos de rodaje ni de una compleja posproducción; los creadores pueden dirigir planos y estilos mediante guiones en lenguaje natural; y los flujos de trabajo tradicionales de edición de video comienzan a integrarse profundamente con herramientas de generación estructurada. A continuación, se organiza desde las perspectivas de escenarios, principios y modelos.

  • Escenarios
    • De copy y guion a video corto: anuncios de marca, microdramas, fragmentos narrativos y animaciones conceptuales, generando borradores de video reproducibles de forma automática o semiautomática a partir del guion.
    • De imagen/video a video: generar versiones animadas para ilustraciones o diseños de personajes, realizar transferencia de estilo sobre material filmado real (real → anime/ilustración), o expandir/reorganizar videos existentes en el tiempo y el espacio.
    • Edición estructurada y posproducción: sin alterar la semántica general del contenido, lograr operaciones finas como intercambio de rostros, sincronización labial, borrado y reemplazo de objetos, y reorganización de clips guiada por texto.
  • Principios Los métodos actuales más utilizados para generación y edición de video se basan principalmente en modelos de difusión (Diffusion) o sus variantes, generando video mediante un "desruido" progresivo en un espacio latente espaciotemporal de alta dimensión:
    • Modelado condicionado por texto: mediante codificadores de texto (como T5/CLIP text tower o modelos de lenguaje especializados), el guion se mapea a vectores de condición que guían al decodificador de video para alinear estilo, contenido y patrones de movimiento con la descripción textual.
    • Consistencia espaciotemporal y control de movimiento: se incorporan convoluciones espaciotemporales, atención temporal o representaciones 4D (NeRF/GS, etc.) en el proceso de difusión u optimización a posteriori, garantizando la coherencia en la línea de tiempo y la plausibilidad física del video.
    • Generación condicionada por imagen/video: se inicia el proceso de difusión sobre el espacio de características de la imagen o video de entrada, controlando la inyección de ruido, las regiones de máscara y los canales de condición para lograr una edición o expansión controlada que "conserva las partes dadas + genera nuevo contenido".
    • Señales de control estructurado: se combinan esqueletos de pose, máscaras de segmentación, mapas de profundidad, trayectorias de cámara y otra información estructural para hacer más controlables los movimientos del sujeto y los cambios de perspectiva en el video generado.
  • Modelos Los modelos y direcciones representativas incluyen:
    • Modelos de Text‑to‑Video basados en difusión (Sora, Runway Gen‑2, Pika, Kling, etc.), preentrenados con pares video–texto a gran escala, con una sólida capacidad de generación en escenas complejas, movimientos de múltiples planos y diversos estilos.
    • Modelos de difusión Image‑to‑Video: toman una sola imagen como condición y predicen la evolución dinámica de los fotogramas siguientes, logrando "imagen única → animación/efectos de movimiento"; o realizan operaciones como continuación, expansión y rotación de perspectiva sobre videos cortos.
    • Métodos de NeRF/representación 4D y keyframe + interpolación: utilizan representación de escenas 3D o keyframes con interpolación temporal, combinando generación con modelado geométrico y de consistencia para lograr recorridos de cámara más estables y movimientos complejos.

Estas capacidades no existen de forma aislada, sino que se infiltran gradualmente en los flujos de edición y posproducción: del copy al storyboard, del storyboard al corte preliminar, del corte preliminar a la estilización y edición local — cada vez más etapas son impulsadas por "texto + control estructurado".

5.4.1 Texto a video: del guion a una secuencia de planos "visible"

Lo que la generación de video a partir de texto (Text‑to‑Video) busca lograr es: el usuario describe una escena, un plano o un fragmento de historia en lenguaje natural, y el sistema genera automáticamente un video coherente. En comparación con la generación de imágenes, el texto a video añade la dificultad de la dimensión temporal: no solo se debe mantener la calidad de imagen y la consistencia de estilo a nivel de fotograma individual, sino también garantizar la coherencia de la identidad del sujeto, la iluminación, el fondo y la trayectoria de movimiento a través de los fotogramas.

Los modelos típicos de difusión para texto a video se preentrenan primero con datos emparejados de video–texto a gran escala: el codificador de texto extrae las condiciones semánticas, y el decodificador de video "desruye" repetidamente un "video ruidoso" en el espacio latente, convergiendo gradualmente hacia una señal espaciotemporal consistente con el texto. Durante este proceso, se incorporan explícitamente dependencias temporales en la red mediante estructuras como atención temporal, convolución 3D o representación 4D, para evitar problemas como "saltos entre fotogramas" o "reinicio de personajes". Algunos sistemas también permiten controlar el movimiento de cámara (zoom, paneo, inclinación) y el ritmo de composición, haciendo que los resultados generados se aproximen más al lenguaje cinematográfico real.

5.4.2 De imagen/video a video: "crecer" y "transformarse" sobre contenido existente

Otra línea importante es la generación y edición basada en imágenes o videos existentes: por ejemplo, "dar vida" a una ilustración o arte conceptual, estilizar un video real como anime, o cambiar el fondo, ajustar el clima y la hora manteniendo la estructura sin cambios. Técnicamente, estos métodos suelen añadir "canales de referencia" al proceso de difusión: la imagen o video de entrada se codifica en características que participan en el desruido como condición o estado inicial, mientras que mecanismos como máscaras y restricciones geométricas explícitas controlan "qué regiones pueden modificarse y cuáles deben conservarse".

En escenarios de transferencia de estilo, el modelo repinta texturas e iluminación para que coincidan con el estilo objetivo, preservando el movimiento y la composición originales; para la expansión y reorganización de video, se "continúan" nuevos fotogramas en los extremos o en el medio de la línea de tiempo, logrando expansión horizontal/vertical de escena, rodeos de perspectiva o complementos narrativos. Este tipo de capacidad es ideal para integrarse con flujos de edición tradicionales: el editor proporciona primero los planos clave y el ritmo, y el modelo genera automáticamente transiciones y variantes entre estos "puntos de anclaje".

5.4.3 Edición estructurada de video: control fino a nivel de objeto

En muchos escenarios de negocio, regenerar completamente un video no es una necesidad prioritaria; lo más crítico es realizar ediciones estructuradas finas y controlables sobre las imágenes existentes: por ejemplo, intercambiar rostros, modificar el movimiento labial, borrar objetos no deseados, reemplazar contenido publicitario, o reorganizar el orden de los planos según un guion de texto. La edición estructurada de video se desarrolla precisamente en esta dirección: sobre la base de la comprensión de video, introduce segmentación a nivel de objeto, seguimiento y representación paramétrica, permitiendo que las operaciones de edición se vinculen de forma estable a objetivos y períodos de tiempo específicos.

El intercambio de rostros y la sincronización labial (Lip‑sync) son las aplicaciones más representativas de esta dirección: el modelo necesita mapear la identidad de la persona objetivo sobre la actuación del video original, garantizando al mismo tiempo que la postura de la cabeza y la expresión general sean naturales y coherentes, y controlando con precisión el movimiento labial según la nueva señal de voz. El borrado/reemplazo de objetos depende de una segmentación de alta calidad y de un completado espaciotemporal: primero se segmenta y elimina el objeto objetivo en cada fotograma, luego se rellenan los huecos utilizando fotogramas adyacentes y texturas contextuales, evitando que queden marcas evidentes de "parche". La edición guiada por texto, por su parte, alinea la "estructura del guion" con la línea de tiempo del video, seleccionando y ensamblando automáticamente los fragmentos que coinciden con la semántica del guion, para lograr una edición automatizada de más alto nivel.## 5.5 Digital Human / Avatar

Digital Human / Avatar puede considerarse una "integración a nivel de sistema" de generación de video, síntesis de voz, comprensión multimodal y renderizado gráfico: no se trata solo de generar un fragmento de video, sino de impulsar de forma continua y controlable a un personaje virtual para que "hable, gesticule y se mueva" a partir de texto o voz, logrando una interacción casi en tiempo real o incluso en tiempo real en cada vez más escenarios. En comparación con la generación de video convencional, el Digital Human pone énfasis en tres aspectos: consistencia a largo plazo de la identidad y apariencia, alineación precisa entre voz, expresión y movimiento, y la latencia y estabilidad del sistema de extremo a extremo.

Desde la perspectiva de producto, los Digital Humans ya están ampliamente presentes en escenarios como plataformas de producción de contenido, atención al cliente virtual / recepción inteligente / guía virtual, educación y formación, clases en línea, IP virtual de marca / ídolos virtuales, herramientas de streamer virtual / avatar digital para creadores: las empresas pueden producir contenido de video por lotes con una imagen y estilo fijos, los gobiernos y servicios empresariales pueden usar recepcionistas virtuales para atender a los usuarios 24/7, y los creadores individuales pueden producir continuamente videos "con presencia humana" sin mostrar su rostro. A continuación, lo organizamos desde tres dimensiones: escenarios, principios y modelos, y en las subsecciones siguientes desarrollamos tres direcciones: control y expresión, apariencia y generación de video, e interacción en tiempo real e integración de sistemas.

  • Escenarios
    • Producción de contenido y difusión en línea: videos corporativos, explicaciones de funciones de productos, grabación de cursos, boletines informativos, utilizando Digital Humans en lugar de personas reales frente a la cámara, lo que reduce significativamente los costos de locación, equipos de iluminación y personal.
    • Atención al cliente virtual y guía: en sucursales bancarias, oficinas gubernamentales, centros comerciales, museos y otros lugares, usar Digital Humans para recepción, consultas, asesoría de negocio y orientación de rutas, combinando uniformidad de imagen con servicio 24/7.
    • IP virtual de marca / ídolos virtuales: operar videos cortos, transmisiones en vivo y contenido de comercio electrónico en torno a una imagen virtual a largo plazo, manteniendo una personalidad y estilo visual consistentes en diferentes plataformas.
    • Streamers virtuales y avatares digitales: para creadores que no desean aparecer en cámara o necesitan operar múltiples identidades, ofrecer streamers virtuales / avatares digitales configurables, vinculados a una voz real o sintética, para lograr "aparecer en cámara de forma estable solo hablando o escribiendo".
  • Principios Un sistema de Digital Human es esencialmente un pipeline multimodal de "impulsado por voz/texto + modelado de apariencia + salida de video/renderizado", con ligeras diferencias entre escenarios offline y en tiempo real, pero con componentes centrales similares:
    • Impulso por voz y lenguaje: sintetizar voz directamente desde el guion mediante TTS, o conectar ASR + LLM para generar texto de respuesta a partir de la voz/texto del usuario y luego producir voz mediante TTS; las características de voz (como el espectrograma mel) sirven como señal de control para la sincronización de labios y la línea de tiempo de expresiones.
    • Modelado de apariencia y espacio de movimiento: construir una representación geométrica y de apariencia controlable para el personaje virtual, como retratos/ilustraciones 2D, Avatares 3D basados en esqueletos y Blendshapes, o representaciones de volumen renderizables basadas en NeRF / 4D Gaussian; y definir un conjunto de "parámetros de control" (como puntos clave, esqueleto de pose, coeficientes de Blendshape) para codificar expresiones y posturas.
    • Mapeo de voz → expresión / movimiento: a través de modelos especializados de "impulso por voz", mapear características de voz a parámetros de control facial y del torso superior, logrando sincronización labial (Lip-sync), detalles expresivos y movimientos de cabeza y hombros; los Digital Humans en tiempo real requieren que este mapeo sea de extremo a extremo con baja latencia y estable.
    • Renderizado y composición: según los parámetros de control del frame actual, realizar renderizado de imagen o 3D del personaje virtual, produciendo un flujo de video continuo o imagen en tiempo real; se pueden superponer fondos, accesorios, subtítulos y otros elementos, integrándose con flujos de trabajo tradicionales de edición de video.
  • Modelos En cuanto a modelos concretos, los sistemas de Digital Human suelen combinar múltiples tipos de modelos especializados y modelos multimodales de propósito general:
    • Modelos de Talking Head impulsados por audio (Audio-driven Talking Head): como Wav2Lip, modelos de sincronización labial que aprenden la alineación entre características de voz y los píxeles/geometría de la región oral, generando movimientos labiales naturales manteniendo la consistencia de identidad.
    • Modelos de Digital Human en tiempo real / ligeros: como Ultralight‑Digital‑Human, modelos ligeros de Talking Head que comprimen significativamente los parámetros y el costo computacional, permitiendo un impulso y renderizado casi en tiempo real incluso en CPU / dispositivos móviles / WebGPU.
    • Modelos de expresión NeRF / 4D: como ER‑NeRF (soluciones NeRF para Digital Humans orientadas a ser Explícitas / Eficientes / Editables), que modelan la apariencia y los cambios de expresión del personaje en espacio 3D, logrando perspectivas, iluminación y movimientos más naturales y fluidos, adecuados para escenarios de alta fidelidad y múltiples cámaras.
    • Modelos de impulso por voz y alineación multimodal: como MuseTalk, modelos de "voz → expresión facial / cabeza parlante" que alinean características de audio y visuales, logrando expresiones de habla y movimientos de cabeza realistas sin depender de grandes cantidades de anotaciones 3D.
    • Modelos de voz y diálogo: TTS multihablante de alta naturalidad, modelos de diálogo por voz de extremo a extremo (ASR + LLM + TTS integrados), que proporcionan al Digital Human capacidades de voz y diálogo multiestilo y multilingüe.

En conjunto, el Digital Human es tanto un conjunto de modelos como un sistema completo: integra comprensión del lenguaje, voz, generación visual e inferencia en tiempo real para presentar un personaje virtual interactivo "frente a la pantalla". A continuación, lo desarrollamos en tres direcciones: control y expresión, apariencia y generación de video, e interacción en tiempo real e integración de sistemas.

5.5.1 Control y Expresión: del guion/voz a un personaje que "habla y se expresa"

En el pipeline de Digital Human, control y expresión se encarga de responder una pregunta central: dado un guion o una voz, qué forma de labios, expresión y movimientos de cabeza y hombros debe presentar el personaje virtual en cada frame. Esto incluye tanto escenarios de producción por lotes offline como respuestas en diálogos en tiempo real.

En la producción de contenido offline, el flujo común es "guion de texto → TTS → impulso por voz": el equipo de negocio proporciona el texto del mensaje, el módulo TTS genera la voz con el timbre objetivo (como el portavoz virtual de una marca), y luego las características de voz se introducen en el modelo de "voz → movimiento". Los modelos tipo Wav2Lip son representantes importantes de esta etapa:

  • Toman como entrada un frame de retrato de referencia y el fragmento de voz correspondiente, y a través de una red convolucional/de atención predicen la región labial finamente alineada con la voz, que luego se fusiona con el retrato original, modificando con precisión la forma de los labios mientras se mantienen la identidad y la mayoría de las expresiones.
  • Durante el entrenamiento, los datos de alineación voz-video supervisan a la red para que aprenda las formas orales correspondientes a diferentes fonemas, manteniendo continuidad temporal para evitar saltos o retrasos en los labios.

En comparación con los primeros esquemas puros de sincronización labial, la nueva generación de modelos de impulso por voz (como los métodos tipo MuseTalk) se extienden a expresiones faciales completas y postura de la cabeza:

  • Estos modelos suelen mapear las características de voz a un "espacio latente de emoción/expresión" de baja dimensión, y luego a través de un decodificador generan puntos clave, coeficientes de Blendshape o directamente características de imagen, impulsando cambios sutiles en cejas, ojos, mejillas y otras áreas, haciendo que la "expresión al hablar" sea más vívida.
  • Algunos modelos también codifican información semántica del contenido de voz (como preguntas, énfasis, exclamaciones) y, combinados con señales sintácticas/pragmáticas analizadas por LLM, añaden movimientos como asentir, fruncir el ceño o gesticular en los cambios de entonación, mejorando la naturalidad y el poder comunicativo de la expresión.

En una dimensión superior, control y expresión también puede combinarse con señales de control externas: por ejemplo, usando el esqueleto de pose, trayectoria de gestos, dirección de la mirada como entradas adicionales, permitiendo que el Digital Human imite el estilo de un orador específico, o ejecute plantillas de acción predefinidas según "acciones indicadas" en el guion (como "señalar la pantalla", "abrir las manos"). Ya sean modelos de sincronización labial local como Wav2Lip, o modelos de expresión más corporal como MuseTalk / impulso por esqueleto en tiempo real, todos logran conjuntamente el mapeo continuo de voz/texto a movimientos faciales y del torso superior, siendo el eslabón clave para que el Digital Human "parezca que realmente está hablando".

5.5.2 Apariencia y Generación de Video: de "un modelo" a "un personaje moldeable"

La cadena de control resuelve "cómo se mueve", mientras que apariencia y generación de video determina "quién se mueve, dónde se mueve y con qué estilo se mueve". Esto abarca tanto Digital Humans fotorrealistas de alta fidelidad como personajes estilizados tipo anime, cartoon y Avatares low-poly, así como diferentes opciones técnicas para renderizado en tiempo real y offline.

En escenarios de retratos e ilustraciones 2D, el enfoque típico es entrenar un modelo de generación de Talking Head a partir de unas pocas imágenes de referencia y videos cortos:

  • El modelo codifica la información de identidad de la persona como un "vector de apariencia" o característica de estilo, y usa los parámetros de control (como vectores latentes de voz, puntos clave, codificación de expresión) como entradas condicionales para sintetizar nuevos frames en el espacio de imagen.
  • A diferencia de Wav2Lip puro que solo modifica los labios, este tipo de modelo puede realizar pequeñas oscilaciones de postura y superponer cambios emocionales en la expresión, haciendo que el Digital Human parezca menos "rígido".

En escenarios que buscan mayor realismo, perspectivas más libres y cambio entre múltiples cámaras, cada vez más soluciones adoptan modelado de Digital Humans basado en NeRF / expresión 4D (como los métodos tipo ER‑NeRF):

  • A través de captura desde múltiples vistas o video, primero se reconstruye el volumen 3D o campo Gaussiano de la cabeza/torso superior del personaje, codificando los estados correspondientes a diferentes expresiones y formas labiales en un espacio latente interpolable;
  • Durante el impulso, los parámetros de voz/expresión se mapean a este espacio latente, se realiza renderizado volumétrico o Gaussiano en 3D, y luego se proyecta en pantalla.
  • La ventaja de este enfoque es que la perspectiva, iluminación y fondo son más naturales, permite movimientos de "vista envolvente" y "cámara virtual", siendo especialmente adecuado para VR/AR, salas de transmisión virtual y producción publicitaria de alto nivel.

En aplicaciones que priorizan el despliegue multiplataforma y el rendimiento en tiempo real, también se emplean soluciones ligeras como Ultralight‑Digital‑Human:

  • Mediante poda estructural, reestructuración de operadores y destilación de modelos, se comprime la red de renderizado de Talking Head o Avatar a una escala ejecutable en dispositivos móviles / WebGPU;
  • Se completa la generación de un frame de imagen a partir de los parámetros de control en pocos milisegundos, alineándose con el flujo de voz en tiempo real o señales de control, logrando un "Digital Human de baja latencia", adecuado para terminales interactivas, quioscos de autoservicio y aplicaciones web frontend.

A nivel de producción de video completa, la apariencia y generación de video también debe combinarse con fondos, accesorios y lenguaje cinematográfico. Un flujo de trabajo común es:

  • Primero personalizar una imagen de Digital Human (2D o 3D) para una marca o individuo;
  • Preestablecer varios escenarios virtuales (estudio, oficina, aula, sala de exposiciones, etc.);
  • Al producir contenido, el sistema selecciona automáticamente el escenario y ángulo de cámara adecuados según el guion, genera la imagen del Digital Human y la compone con PPT, videos de demostración e imágenes de productos en una disposición multipantalla. Esto hace que el Digital Human no sea solo una "cabeza parlante", sino un "personaje" que puede integrarse naturalmente en diversos formatos de programas y contenidos.

5.5.3 Digital Humans en Tiempo Real e Integración de Sistemas: del video offline al "compañero en pantalla"

Con la madurez de ASR, TTS, LLM y los modelos ligeros de generación de video, cada vez más sistemas de Digital Human están pasando de la producción offline por lotes a la interacción en tiempo real: el usuario habla o escribe texto en el terminal, y el Digital Human en pantalla "escucha — piensa — responde — habla" en un intervalo de cientos de milisegundos a unos pocos segundos, creando una experiencia similar a la de un agente humano de atención al cliente / guía / presentador. Lo clave aquí no son solo los modelos en sí, sino cómo comprimir la cadena multimodal hasta una latencia de extremo a extremo aceptable.

En un bucle cerrado típico de Digital Human en tiempo real:

  • Entrada frontal: el módulo ASR convierte la voz del usuario a texto en tiempo real, o se recibe directamente la entrada de texto del usuario.
  • Comprensión semántica y decisión: el LLM, combinado con la base de conocimiento de negocio y herramientas (RAG, consultas a bases de datos, orquestación de flujos), genera el texto de respuesta y las instrucciones estructuradas necesarias (como qué diapositiva mostrar, qué fragmento de video reproducir).
  • Voz y control: TTS convierte el texto de respuesta en voz con el timbre objetivo; el flujo de voz se genera y es consumido simultáneamente por modelos como Wav2Lip / MuseTalk / control por esqueleto en tiempo real, produciendo segmento a segmento los parámetros correspondientes de labios y expresión.
  • Salida de renderizado: redes ligeras de renderizado tipo Ultralight‑Digital‑Human o motores de renderizado NeRF / Avatar basados en GPU convierten los parámetros de control en frames de video en tiempo real, enviándolos directamente a la pantalla a través de WebRTC, RTMP o renderizado local.

Para ofrecer una experiencia consistente en múltiples terminales, el sistema también necesita equilibrar cuidadosamente latencia, ancho de banda y capacidad de cómputo:

  • En el esquema de renderizado en la nube, la mayor parte del cómputo (LLM, TTS, control y renderizado) se completa en el servidor, y el terminal solo reproduce el flujo de video, adecuado para Web/App con recursos limitados y pantallas grandes offline, pero con dependencia de la estabilidad de la red;
  • En el esquema "nube + terminal híbrido", ASR y parte de la inferencia LLM se completan en la nube, mientras que el control y renderizado ligeros se realizan localmente, lo que puede reducir significativamente la latencia de interacción audio-visual, adecuado para dispositivos móviles y terminales de autoservicio;
  • En terminales con alta capacidad de cómputo (como PCs de alto rendimiento, estaciones de trabajo dedicadas), se puede incluso trasladar la mayor parte de la cadena a nivel local, logrando una interacción estable en entornos de red débil.

En el lado del modelo, los Digital Humans en tiempo real también plantean requisitos adicionales para el diseño estructural:

  • Los modelos de control por voz deben tener capacidad de inferencia en streaming, pudiendo predecir los labios y la expresión tras recibir un pequeño fragmento de voz, en lugar de esperar a que termine toda la frase;
  • Las redes de renderizado deben minimizar la dependencia de grandes kernels de convolución y atención global, utilizando estructuras como convolución local, atención ligera y pirámides de resolución para controlar el costo computacional;
  • Para las soluciones de alta fidelidad basadas en NeRF / 4D, se requiere cacheo de mallas, recorte de frustum, volúmenes dispersos y optimización GPU para mantener el renderizado de cada frame en el rango de unos pocos a varias decenas de milisegundos.

A nivel de integración de sistemas, los Digital Humans en tiempo real a menudo deben estar estrechamente vinculados con conocimiento de negocio, configuración de personalidad y estrategia de diálogo:

  • Gestionar conocimiento sectorial, procesos de negocio y FAQ a través de bases de conocimiento y RAG, asegurando "respuestas correctas y completas";
  • Controlar el estilo de habla y los límites de expresión mediante configuración de personalidad y plantillas de discurso, asegurando "hablar como esta persona (o esta marca)";
  • Mediante estrategias de diálogo multigiro y gestión del estado de la conversación, permitir que el Digital Human recuerde el contexto del usuario, confirme y pregunte en el momento adecuado, presentando una sensación de interacción "como un verdadero compañero / guía / profesor".

En general, con la incorporación de modelos como Wav2Lip, MuseTalk, ER‑NeRF y Ultralight‑Digital‑Human, diseñados específicamente para sincronización labial, control de expresiones y renderizado en tiempo real, el Digital Human está evolucionando aceleradamente de ser una "herramienta de plantillas de video offline" a convertirse en entidades virtuales con capacidad de respuesta en tiempo real, personalidad estable y conocimiento profesional, constituyendo el eslabón más integral y con mayor potencial de aplicación dentro del ecosistema de tecnologías de video.# 6. Series Temporales y Decisión Secuencial (Time Series & Sequential Decision)

En los apartados anteriores sobre modelado visual y estructurado, hemos estado pensando principalmente en un espacio "estático": una imagen, un registro, un fragmento de texto. Sin embargo, en el negocio real, una gran parte de los indicadores clave evolucionan con el tiempo: las ventas y el tráfico fluctúan a diario, la carga del servidor y las lecturas de sensores cambian cada segundo, y los precios financieros y los indicadores macroeconómicos se ajustan continuamente impulsados por políticas y eventos. El nivel de series temporales y decisión secuencial se centra precisamente en: predecir el futuro, identificar anomalías y caracterizar cambios estructurales en el eje temporal, para luego tomar decisiones prospectivas y acciones de control basadas en dichos análisis.

Desde la perspectiva del producto, este tipo de capacidades atraviesa áreas clave como operaciones, planificación, control de riesgos y programación: los módulos de predicción de indicadores integrados en sistemas tradicionales de BI/reportes, las previsiones de demanda y sugerencias de stock de seguridad en herramientas de planificación financiera y de cadena de suministro, el análisis de correlaciones macroeconómicas y el descubrimiento de causalidad en software de análisis de investigación cuantitativa, las predicciones de tráfico y capacidad en plataformas de e-commerce y movilidad, así como la detección de anomalías en indicadores y las alertas en AIOps de operaciones, son todas formas típicas de implementación de este nivel. A continuación, desarrollaremos cuatro direcciones: métodos estadísticos clásicos, modelado de series temporales con aprendizaje profundo, detección de anomalías y puntos de cambio, y modelado de series espacio-temporales.## 6.1 Modelado estadístico clásico de series temporales (Statistical TS Modeling)

En muchos negocios, el «tiempo» es el eje principal natural: las ventas varían por día/semana, el tráfico web fluctúa con las campañas, la carga de los equipos sigue el comportamiento de los usuarios y las lecturas de los sensores reflejan cambios sutiles en el estado del sistema. El modelado estadístico clásico de series temporales aprovecha precisamente esta estructura temporal, utilizando modelos estadísticos relativamente interpretables y analizables para responder a tres preguntas fundamentales: ¿qué pasará en el futuro? ¿Cómo se relacionan las variables entre sí? ¿En qué estado se encuentra actualmente el sistema? Aunque el deep learning ha ganado protagonismo en muchos escenarios, métodos tradicionales como ARIMA, el análisis de cointegración y el filtro de Kalman siguen prestando servicio a largo plazo en finanzas, cadena de suministro, operaciones y control de riesgos, y a menudo sirven como «línea base» y herramienta de interpretación para sistemas más complejos.

Desde una perspectiva aplicada, los modelos clásicos de series temporales están ampliamente presentes en los módulos de predicción de indicadores de los sistemas tradicionales de BI/reporting, en herramientas de planificación financiera y de cadena de suministro, y en diversos softwares de investigación cuantitativa. Pueden proporcionar intervalos de predicción futura para una o varias series temporales, analizar la co-variación y las relaciones de equilibrio a largo plazo entre indicadores macroeconómicos, y estimar trayectorias y estados ocultos mediante modelado de espacio de estados. A continuación, organizamos los usos típicos de estos métodos desde tres dimensiones — escenario, principio y modelo — para luego desarrollar cada dirección concreta.

  • Escenario
    • Predicción de indicadores: realizar predicciones a corto o medio plazo sobre valores que varían en el tiempo, como volumen de ventas, tráfico web, carga de CPU o lecturas de sensores, para apoyar decisiones de aprovisionamiento de inventario, planificación de capacidad y programación de operaciones.
    • Análisis macroeconómico y financiero: estudiar las relaciones a largo plazo y las dinámicas a corto plazo entre indicadores macroeconómicos y de mercado como PIB, tasa de inflación, tipos de interés, tipos de cambio y precios de activos, apoyando la investigación de políticas y el desarrollo de estrategias cuantitativas.
    • Estimación de procesos y trayectorias: en localización, navegación, seguimiento de objetivos y monitorización de equipos, estimar y suavizar trayectorias, velocidades y estados que varían en el tiempo, reconstruyendo el «proceso real» en la medida de lo posible en entornos ruidosos.
  • Principio Los métodos clásicos de series temporales se basan generalmente en el enfoque de «hipótesis estadísticas + estructura paramétrica»:
    • Se asume que la serie temporal cumple ciertas condiciones de estacionariedad o estacionariedad débil, y se caracteriza mediante la estructura de autocorrelación (función de autocorrelación ACF, función de autocorrelación parcial PACF) cómo «el valor actual está determinado por cuántos retardos del pasado».
    • En el caso multivariante, mediante modelos de cointegración y vectores autorregresivos (VAR), se describen las relaciones de equilibrio a largo plazo y las correcciones de desviación a corto plazo entre múltiples series temporales.
    • Para sistemas con mucho ruido y estados no directamente observables, se introducen estados latentes (latent state) y ecuaciones de observación que conforman modelos de espacio de estados, utilizando inferencia bayesiana o filtrado recursivo (como el filtro de Kalman) para estimación y predicción en línea.
  • Modelo La familia de modelos de estos métodos es relativamente clara y estructuralmente nítida, lo que facilita la interpretación y el ajuste de parámetros:
    • La serie AR/MA/ARIMA/SARIMA univariante y multivariante, utilizada para modelado de series temporales estacionarias y estacionales, es el «miembro permanente» de los sistemas de BI y los módulos de predicción tradicionales.
    • Modelos VAR y de cointegración, para modelado conjunto y pruebas de causalidad de series temporales macroeconómicas y financieras multidimensionales, adecuados para análisis de relaciones a nivel de políticas y estrategias.
    • Modelos de espacio de estados con filtro de Kalman, modelos ocultos de Markov (HMM), etc., para estimación de trayectorias, estimación de estado de equipos e inferencia de estados ocultos, herramientas fundamentales en control de ingeniería y procesamiento de señales.

En conjunto, las ventajas del modelado estadístico clásico de series temporales residen en su interpretabilidad, capacidad de diagnóstico y controlabilidad en ingeniería: el flujo de modelado, las pruebas de hipótesis y el análisis de residuos cuentan con normas maduras, y se integran fácilmente en los sistemas existentes de BI y planificación. A continuación, desarrollamos tres direcciones: predicción univariante/multivariante, cointegración y causalidad, y espacio de estados.

6.1.1 Predicción de series temporales univariantes y multivariantes: de ARIMA a VAR

En el escenario de negocio más típico, nos encontramos primero con una o varias curvas de indicadores ordenadas por tiempo: por ejemplo, las ventas diarias de un producto, las visitas por hora a un sitio web, el uso de CPU por minuto en un centro de datos o las lecturas por segundo de un sensor. El objetivo es predecir intervalos futuros a corto o medio plazo a partir del comportamiento histórico y proporcionar intervalos de confianza razonables. La familia de modelos AR/MA/ARMA/ARIMA/SARIMA es precisamente la herramienta estándar diseñada para este fin.

Para una serie univariante, los modelos de tipo ARIMA asumen que «el valor actual está determinado linealmente por los valores de varios períodos pasados y perturbaciones aleatorias», eliminando tendencia y estacionalidad mediante diferenciación y diferenciación estacional para lograr estacionariedad:

  • La parte AR (autorregresiva) describe «la influencia de los propios retardos sobre el valor actual»;
  • La parte MA (media móvil) captura «la influencia de los términos de error históricos sobre el valor actual»;
  • La parte I (integrada) se encarga de eliminar la tendencia;
  • Al añadir el componente estacional se obtiene SARIMA, que puede describir explícitamente estructuras periódicas como las semanales o mensuales.

En el uso práctico de ingeniería, normalmente se realizan primero pruebas de estacionariedad (como ADF), se observan los gráficos ACF/PACF y luego se seleccionan órdenes razonables mediante criterios de información (AIC/BIC) y diagnóstico de residuos. Para indicadores con una estacionalidad marcada (como ventas diarias de comercio electrónico o tráfico en días festivos), el modelado SARIMA es especialmente adecuado, y la incorporación de características festivas o variables exógenas puede mejorar aún más el rendimiento predictivo.

Cuando deseamos modelar simultáneamente varias series temporales relacionadas, podemos recurrir a los modelos de series temporales multivariantes. El método representativo es VAR (Vector Autorregresivo) y sus variantes. VAR trata múltiples series como un vector conjunto y utiliza los retardos propios y cruzados para explicar conjuntamente el valor actual, capturando así las influencias mutuas entre distintos indicadores. Por ejemplo, en análisis macroeconómico, se puede incluir el crecimiento del PIB, la tasa de inflación, los tipos de interés y los tipos de cambio en un mismo modelo VAR para estudiar respuestas a impulsos y vías de transmisión; en operaciones de negocio, VAR también puede describir «cómo afecta el cambio de tráfico en un canal a otros canales» o «la relación dinámica entre la intensidad promocional y el volumen de ventas», proporcionando referencias para la asignación de recursos.

En cuanto a su forma de producto, esta capacidad de predicción univariante/multivariante suele integrarse en las funciones de predicción de sistemas tradicionales de BI/reporting y herramientas de planificación financiera y de cadena de suministro: el usuario selecciona una o varias series temporales, el sistema completa automáticamente el modelado y la predicción, y proporciona intervalos de predicción, análisis de residuos e informes de diagnóstico del modelo para apoyar la toma de decisiones, sin necesidad de comprender todos los detalles matemáticos subyacentes.

6.1.2 Cointegración y causalidad: el equilibrio a largo plazo entre indicadores macroeconómicos

En el ámbito económico y financiero, muchas series temporales parecen superficialmente paseos aleatorios, pero en escalas temporales más largas existe una cierta relación de equilibrio estable a largo plazo. Ejemplos típicos incluyen el tipo de cambio y el diferencial de tipos de interés, los índices bursátiles y los beneficios macroeconómicos, o los precios de materias primas y los índices de costes. Individualmente, cada serie puede ser no estacionaria; sin embargo, alguna combinación lineal oscila en torno a un nivel estable a largo plazo. Este fenómeno se denomina cointegración (cointegration) y proporciona pistas importantes para comprender las relaciones estructurales entre indicadores macroeconómicos.

En la práctica de ingeniería, el análisis de cointegración suele incluir varios pasos:

  1. Realizar pruebas de raíz unitaria en cada serie temporal para confirmar que están integradas del mismo orden (por ejemplo, todas I(1));
  2. Realizar pruebas de cointegración (como el método de dos etapas de Engle-Granger, la prueba de Johansen, etc.) para determinar si existe una combinación lineal no trivial que haga estacionaria dicha combinación;
  3. Si se encuentra una relación de cointegración, construir un modelo de corrección de error (ECM) que describa «cuando hay una desviación a corto plazo del equilibrio a largo plazo, cómo el sistema se corrige gradualmente para volver al estado de equilibrio».

Relacionada con la cointegración está la prueba de causalidad de Granger. No se trata de una «causalidad» en sentido filosófico estricto, sino de una definición estadística basada en la capacidad predictiva: si la información histórica de la variable X puede mejorar significativamente la precisión de la predicción de la variable Y, se dice que «X causa en sentido de Granger a Y». Comparando el error de predicción con y sin los términos de retardo de una variable en un marco VAR o de regresión, se puede evaluar la influencia direccional entre distintos indicadores macroeconómicos o de mercado. En investigación cuantitativa y análisis macroeconómico, esta prueba se utiliza con frecuencia para identificar indicadores adelantados potenciales, construir factores o validar hipótesis estratégicas.

Desde la perspectiva de producto, el análisis de cointegración y causalidad aparece más en softwares de análisis de investigación cuantitativa, plataformas de análisis macroeconómico y herramientas de investigación financiera. Ayudan a los investigadores a extraer relaciones estructurales relativamente robustas de montones de series temporales y a traducir estas relaciones en conceptos de negocio de nivel superior (como «la restricción a largo plazo de los tipos de interés sobre el tipo de cambio» o «la reversión de diferenciales entre distintos activos»), constituyendo una base importante para el diseño de estrategias y la gestión de riesgos.

6.1.3 Modelos de espacio de estados y estimación de estados latentes: filtro de Kalman y HMM

En muchos sistemas reales, la serie temporal que observamos es solo la apariencia contaminada por ruido, y lo que realmente nos interesa es el «estado del sistema» que evoluciona detrás en el tiempo: por ejemplo, la posición y velocidad reales de un vehículo, el estado de salud de un equipo, los patrones de comportamiento latentes de los usuarios, etc. En estos casos, limitarse a modelar con ARIMA sobre la serie observada difícilmente aprovecha toda la comprensión de la estructura del sistema. Los modelos de espacio de estados (State Space Models) se propusieron precisamente para este tipo de problemas de «estado latente + observación ruidosa».

Los modelos de espacio de estados suelen constar de dos partes:

  • Ecuación de transición de estado: describe cómo evoluciona el estado oculto a lo largo del tiempo, pudiendo ser lineal o no lineal;
  • Ecuación de observación: describe cómo el estado oculto genera los valores observados con ruido.

Bajo la hipótesis lineal gaussiana, este marco permite la estimación y predicción recursiva del estado mediante el filtro de Kalman (Kalman Filter) y el suavizador (Smoother): cada paso se divide en dos grandes fases, «predicción» y «actualización», combinando la distribución del estado del momento anterior con la observación actual para obtener una nueva estimación del estado. Esto es extremadamente común en navegación y localización (como estimación de trayectorias, seguimiento de objetivos), series temporales financieras (como estimación de volatilidad) y estimación de estado de equipos (como monitorización de salud, predicción de vida útil restante).

Junto a los modelos de espacio de estados continuos se encuentran los modelos ocultos de Markov (HMM). HMM asume que el sistema transita en el tiempo entre varios estados ocultos discretos, y que la distribución de probabilidad de los datos observados generados es diferente en cada estado oculto. Mediante el algoritmo forward-backward y el algoritmo de Viterbi, HMM puede estimar la secuencia de estados ocultos, calcular la probabilidad de la secuencia de observación y predecir el siguiente estado y observación. HMM se utilizó ampliamente en sus inicios en reconocimiento de voz y etiquetado de texto, y también se emplea con frecuencia en reconocimiento simple de patrones de comportamiento y modelado de secuencias de eventos. En ciertos escenarios industriales y financieros sigue teniendo sus ventajas: estructura interpretable, entrenamiento estable y fácil integración con el conocimiento del dominio.

A nivel de sistema, el modelado de espacio de estados, el filtro de Kalman y HMM suelen funcionar como módulos subyacentes de estimación de trayectorias, estimación de estado de equipos y sistemas de control financiero e ingenieril, encapsulados en cadenas de herramientas más amplias. Puede que no estén directamente expuestos al usuario final, pero detrás de productos de navegación, seguimiento de objetivos, control industrial y medición de riesgos, desempeñan desde hace mucho tiempo el papel de «motor invisible».## 6.2 Modelado de Series Temporales con Aprendizaje Profundo (Deep TS Forecasting)

A medida que la escala de los datos y la complejidad de los escenarios continúan aumentando, los modelos clásicos que dependen únicamente de supuestos lineales y de estacionariedad empiezan a mostrar sus limitaciones en muchas aplicaciones: una gran cantidad de patrones no lineales, dependencias de largo alcance, interacciones multivariantes complejas, comportamientos abruptos y superposición de ciclos exigen estructuras de modelo más flexibles y de mayor capacidad. El modelado de series temporales con aprendizaje profundo surge precisamente en este contexto: desde RNN/LSTM/GRU, pasando por Temporal CNN/TCN, hasta Transformers especializados para series temporales, modelos híbridos y jerárquicos, todos ellos conforman el conjunto principal de herramientas para la predicción y el modelado moderno de series temporales.

Desde una perspectiva aplicada, los modelos profundos de series temporales ya se han desplegado ampliamente en plataformas de predicción de tráfico y ventas de e-commerce, sistemas de predicción de oferta-demanda/capacidad/logística, herramientas de predicción de carga de recursos en la nube y planificación de capacidad, utilizándose para ofrecer soluciones de predicción unificadas y flexibles en estructuras complejas que abarcan múltiples categorías, tiendas, ciudades e incluso líneas de negocio. En comparación con los modelos clásicos, estos ponen mayor énfasis en el "aprendizaje de representaciones extremo a extremo" y el "modelado de patrones globales", y son más hábiles para manejar escenarios con secuencias largas, alta dimensionalidad y múltiples variables. A continuación, desarrollamos el tema desde tres dimensiones: escenarios, principios y modelos.

  • Escenarios
    • Predicción masiva de múltiples series: miles de secuencias de ventas/tráfico en dimensiones de producto, tienda y ciudad que necesitan modelarse simultáneamente bajo un modelo unificado, con soporte para arranque en frío y secuencias de cola larga.
    • Operaciones y planificación complejas: en sistemas de suministro eléctrico, abastecimiento de agua, capacidad logística y planificación de turnos, la demanda se ve afectada por características multidimensionales (clima, festivos, precios, campañas), y existen estructuras jerárquicas (tienda/ciudad/nacional) que requieren conciliar patrones globales con diferencias locales.
    • Recursos en la nube e infraestructura: los clústeres de servidores a gran escala, plataformas de contenedores y cargas de red y almacenamiento presentan estructuras altamente no lineales y multimodales, y requieren predicciones de alta frecuencia y planificación de capacidad para cumplir con los SLO.
  • Principios El núcleo de los modelos profundos de series temporales radica en aprender automáticamente patrones multiescala y dependencias de largo plazo a partir de secuencias históricas y covariables:
    • RNN/LSTM/GRU transmiten explícitamente "memoria" a lo largo de la dimensión temporal mediante estructuras recurrentes, siendo adecuados para capturar dependencias secuenciales y estructuras temporales locales.
    • Temporal CNN / TCN utilizan convolución unidimensional y convolución dilatada para ampliar el campo receptivo garantizando la causalidad, lo que permite el entrenamiento paralelo y una propagación de gradientes estable.
    • Los Transformers para series temporales y sus variantes especializadas (Informer, Autoformer, TimesNet, etc.) aprovechan los mecanismos de autoatención para modelar dependencias complejas y patrones periódicos en configuraciones de secuencias largas y multivariantes.
    • Los modelos híbridos y jerárquicos introducen además supuestos estructurales de "global + local" y "series temporales multinivel", aprendiendo simultáneamente patrones globales y características individuales en un marco unificado.
  • Modelos En la implementación concreta, el modelado profundo de series temporales ha dado lugar a una serie de arquitecturas representativas:
    • Modelos profundos clásicos de secuencias: RNN/LSTM/GRU y modelos de predicción probabilística autorregresiva basados en ellos, como DeepAR.
    • Modelos integrados de descomposición y predicción: N‑BEATS y similares mejoran la interpretabilidad mediante módulos explícitos de descomposición de tendencia/estacionalidad.
    • Modelos temporales basados en atención: Temporal Fusion Transformer (TFT) y similares combinan atención, mecanismos de compuerta y selección de variables, siendo adecuados para escenarios de negocio multivariantes con covariables abundantes.
    • Modelos Transformer para secuencias largas: Informer, Autoformer, TimesNet, PatchTST, etc., diseñados específicamente para abordar la eficiencia en secuencias largas y el modelado multiescala.

A continuación, desarrollamos el tema desde tres enfoques: modelos profundos de secuencias, convolucionales y Transformer, y modelado híbrido y jerárquico.

6.2.1 RNN/LSTM/GRU profundas: de secuencias individuales a DeepAR

En los inicios del aprendizaje profundo aplicado a series temporales, RNN/LSTM/GRU fueron la opción más natural. De manera similar al modelado de texto y voz, estas redes "recuerdan" información histórica transmitiendo estados ocultos entre pasos temporales, lo que permite capturar dependencias no lineales y de largo plazo más complejas que las de los modelos lineales tradicionales. Para una o pocas series temporales, una LSTM/GRU simple puede lograr buenos resultados de predicción cuando se dispone de datos suficientes; mientras que en escenarios masivos de múltiples series, se puede emplear un modelo RNN/LSTM/GRU con parámetros compartidos, entrenado conjuntamente en todas las secuencias para aprender patrones temporales universales.

Sobre esta base, modelos probabilísticos autorregresivos como DeepAR proporcionan un marco estándar para el modelado profundo de series temporales: introducen las observaciones históricas y covariables en una red RNN/LSTM/GRU compartida, generan en cada paso temporal los parámetros de la distribución condicional de los valores de la serie (como gaussiana, binomial negativa, etc.) y logran predicciones probabilísticas extremo a extremo mediante entrenamiento por máxima verosimilitud. Este diseño permite que el modelo genere intervalos de predicción de forma natural, maneje escalas irregulares y mezclas de múltiples series, lo que facilita su aplicación en escenarios como predicción de ventas en e-commerce y previsión de demanda.

Sin embargo, los modelos de tipo RNN presentan problemas típicos: atenuación del gradiente en secuencias largas e imposibilidad de paralelización completa durante el entrenamiento. Aunque los mecanismos de compuerta (LSTM/GRU) mitigan parcialmente estos problemas, en horizontes temporales especialmente largos y con datos de alta frecuencia, la eficiencia de entrenamiento e inferencia sigue siendo un factor que requiere compensación. Esto ha impulsado a la industria y al mundo académico a explorar estructuras más favorables a la paralelización, como TCN y Transformer.

6.2.2 Temporal CNN y Transformer: de la convolución local a la atención en secuencias largas

Para resolver los problemas de eficiencia y estabilidad de las RNN en secuencias largas, Temporal CNN / TCN introducen la convolución unidimensional y la convolución dilatada para modelar dependencias temporales: mediante el apilamiento de múltiples capas de convolución causal y la expansión progresiva del campo receptivo, logran modelar el historial lejano sin violar la causalidad temporal. En comparación con las RNN, las TCN pueden entrenarse con un alto grado de paralelismo y tienen rutas de propagación de gradiente más cortas, lo que las hace destacar en estabilidad y eficiencia de entrenamiento, siendo adecuadas para escenarios industriales de predicción de series temporales con datos de alta frecuencia y necesidad de grandes campos receptivos.

En niveles superiores de complejidad, los Transformers y las estructuras especializadas para series temporales se han convertido en los protagonistas del modelado de secuencias largas y multivariantes en los últimos años. El uso directo del Transformer estándar presenta el problema de que la complejidad computacional crece cuadráticamente con la longitud de la secuencia, por lo que han surgido una serie de adaptaciones orientadas a series temporales:

  • Informer reduce la carga computacional en secuencias largas mediante mecanismos como la autoatención probabilística dispersa, optimizando la estructura para tareas de predicción.
  • Autoformer integra la descomposición de tendencia y estacionalidad en el marco de autoatención, buscando mejorar la interpretabilidad y estabilidad sin perder la capacidad de modelado de secuencias largas.
  • TimesNet mejora la percepción de ciclos y patrones mediante el despliegue en el dominio tiempo-frecuencia o multiescala, manejando mejor secuencias largas complejas y multicíclicas.
  • PatchTST toma prestada la idea de "patch" de Vision Transformer, tratando subsecuencias continuas como parches para mejorar la eficiencia de modelado y la capacidad de generalización en secuencias largas.

Este tipo de modelos suele ser especialmente adecuado para escenarios temporales complejos de secuencias largas, multivariantes y con covariables de alta dimensión, como cargas masivas de recursos en la nube, demanda energética multirregional y predicción de tráfico multicanal. Pueden modelar simultáneamente entradas multidimensionales, características estáticas y variables dependientes del tiempo en una arquitectura unificada, y proporcionar ciertas pistas para la interpretación y el diagnóstico posteriores a través de los pesos de atención.

6.2.3 Modelos híbridos y jerárquicos: global + local, series temporales multinivel

En el negocio real, las series temporales rara vez están "aisladas": suelen presentar una clara estructura jerárquica y patrones compartidos — por ejemplo, la jerarquía de ventas tienda/ciudad/región/nacional, la jerarquía de productos SKU/categoría/marca o la estructura organizativa línea de negocio/producto/canal. Si se modela cada serie por separado, resulta difícil aprovechar esta estructura jerárquica; y si se mezclan todas las series indiscriminadamente, se ignoran sus diferencias individuales. Los modelos híbridos y jerárquicos están diseñados precisamente para resolver este tipo de problemas.

Un enfoque común es el de los modelos global + local: un "modelo global" compartido aprende los patrones comunes de todas las series (como tendencia general, efecto de festivos, estacionalidad), mientras que para cada serie o subgrupo se introducen parámetros locales o vectores de embedding que capturan las características individuales. Esta estructura evita el problema de escasez de datos que supone entrenar modelos separados para secuencias de cola larga, al tiempo que conserva la capacidad de modelado fino en las secuencias más frecuentes.

Otro enfoque es el modelado de series temporales jerárquicas (hierarchical TS): durante el proceso de predicción se consideran explícitamente las restricciones jerárquicas (como que la suma de los subniveles debe coincidir con la predicción del nivel superior), y mediante optimización conjunta descendente, ascendente o de nivel intermedio, se logra que las predicciones de cada nivel sean coherentes en valor y estructura. En el marco del aprendizaje profundo para series temporales, esto se manifiesta típicamente en la incorporación de características jerárquicas en la codificación de entrada, el diseño de salidas multi-cabeza para diferentes niveles o el entrenamiento con funciones de pérdida jerárquicas.

Desde la perspectiva de producto, este tipo de modelado híbrido y jerárquico se aplica ampliamente en escenarios como plataformas de predicción de ventas de e-commerce y sistemas de predicción de oferta-demanda/capacidad/logística: el sistema necesita proporcionar simultáneamente predicciones con diferentes granularidades como "producto individual por tienda", "nivel de ciudad" y "total nacional", manteniendo la coherencia entre los niveles superior e inferior durante la planificación de recursos y el desglose de KPI. La estructura flexible de los modelos profundos permite que este tipo de restricciones se integren en el proceso de modelado de manera extremo a extremo, sin depender completamente de correcciones a posteriori.## 6.3 Detección de anomalías y detección de puntos de cambio (Anomaly & Change Point Detection)

En escenarios de series temporales, "predecir el futuro" es solo una parte del problema; otra parte igualmente crítica es: descubrir anomalías y cambios estructurales en tiempo real. Ya sea en el funcionamiento de equipos, métricas de negocio, comportamientos transaccionales o monitorización de operaciones, la detección de anomalías y puntos de cambio es una capacidad central para garantizar la estabilidad del sistema e identificar riesgos y oportunidades. Tradicionalmente, se han utilizado ampliamente métodos como umbrales estadísticos, EWMA y CUSUM; a medida que aumentan la dimensionalidad y la complejidad de los datos, diversos métodos de machine learning y deep learning (Isolation Forest, One‑Class SVM, AutoEncoder/VAE, GANs temporales, GNN + modelos de series temporales) también han comenzado a desempeñar un papel importante.

Desde la perspectiva del producto, este tipo de capacidades suelen integrarse en sistemas de alerta temprana de fallos de equipos, plataformas de alarmas de anomalías en métricas de negocio (como caídas repentinas en la tasa de conversión), sistemas de detección de ataques de seguridad y fraudes, y motores de alerta AIOps para operaciones, monitorizando señales temporales multidimensionales en tiempo real, marcando automáticamente puntos sospechosos y cambios estructurales, y combinándose con reglas, bases de conocimiento y flujos de decisión humanos. A continuación, profundizamos desde tres perspectivas: escenarios, principios y modelos.

  • Escenarios
    • Equipos y sistemas industriales: monitorizar datos de sensores como temperatura, vibración, corriente y presión para detectar anticipadamente fallos y tendencias de degradación, reduciendo paradas y pérdidas.
    • Métricas de negocio y operaciones: monitorizar indicadores clave como PV/UV, tasa de conversión, volumen de pedidos, latencia y tasa de errores, detectando rápidamente caídas repentinas, picos y fluctuaciones anómalas para alertar a los equipos de operaciones y tecnología.
    • Seguridad y control de riesgos: analizar series temporales como comportamientos de inicio de sesión, secuencias de transacciones y patrones de acceso para identificar posibles ataques, trampas y fraudes.
  • Principios La detección de anomalías y puntos de cambio consiste esencialmente en buscar desviaciones significativas y rupturas estructurales sobre el "patrón normal":
    • Para anomalías puntuales y de secuencia, se puede determinar si la observación actual cae fuera de la "región normal" mediante ajuste de distribuciones estadísticas, estimación de densidad o aprendizaje de fronteras.
    • Para los puntos de cambio, se presta atención a las rupturas en las propiedades estadísticas de la serie temporal (media, varianza, estructura de correlación, distribución, etc.) a lo largo del eje temporal, intentando localizar la posición temporal donde ocurre el cambio.
    • En redes multidimensionales y de múltiples puntos, es necesario incorporar en el modelado la estructura de dependencia entre múltiples series temporales (como topología y correlación), para evitar confundir anomalías locales con tendencias globales.
  • Modelos Desde la perspectiva de las familias de métodos, se pueden clasificar aproximadamente en métodos estadísticos, métodos de clase única/aislamiento, modelos profundos reconstructivos y modelos combinados de grafos + series temporales:
    • Detección estadística de anomalías: umbrales, EWMA, CUSUM, etc., extremadamente eficientes para escenarios univariantes o simples, y constituyen la base de los sistemas de monitorización tradicionales.
    • Métodos de machine learning: Isolation Forest, One‑Class SVM, etc., utilizados para caracterizar la "región normal" en espacios de características multidimensionales y aislar las muestras anómalas.
    • Modelos profundos reconstructivos: AutoEncoder / VAE / GANs temporales, que aprenden a reconstruir secuencias normales y marcan anomalías cuando el error de reconstrucción es elevado.
    • Redes neuronales de grafos + modelos de series temporales: en escenarios como redes de sensores y métricas de microservicios, se introduce la estructura de grafos junto con modelos temporales para aprender conjuntamente los patrones normales, reforzando la identificación de anomalías relacionadas con la topología.

A continuación, nos centramos en tres direcciones: anomalías puntuales/de secuencia, detección de puntos de cambio y estructuras multidimensionales y de grafos.

6.3.1 Anomalías puntuales y de secuencia: de umbrales estadísticos a modelos reconstructivos

La forma más intuitiva de detección de anomalías es la anomalía puntual: el valor observado en un determinado punto temporal se aleja del rango normal histórico (por ejemplo, el uso de CPU sube repentinamente al 100%, el importe de una transacción es anormalmente grande, la lectura de un sensor salta instantáneamente). En los métodos tradicionales, la práctica más común es ajustar una distribución estadística o estadísticas deslizantes (media, varianza, percentiles) sobre los datos normales históricos y, sobre esta base, establecer umbrales o gráficos de control (como EWMA, CUSUM), emitiendo una alarma cuando la observación actual supera el intervalo aceptable. La ventaja es una implementación simple, bajo coste computacional y fácil interpretación, por lo que siguen siendo ampliamente utilizados en numerosos sistemas de monitorización de operaciones y sistemas industriales.

Cuando la dimensionalidad aumenta o los patrones se vuelven más complejos, se pueden introducir métodos de clase única/aislamiento como Isolation Forest y One‑Class SVM: estos aprenden una región agregada (o frontera) sobre las "muestras normales" y consideran como anómalos los puntos que caen fuera de dicha región. Extrayendo características estadísticas en ventanas deslizantes de la secuencia (como media de la ventana, varianza, características en el dominio de la frecuencia, etc.), estos métodos también pueden utilizarse para identificar "anomalías de secuencia" locales (es decir, comportamientos que se desvían del patrón normal durante un período de tiempo), siendo adecuados para métricas multidimensionales y escenarios donde es difícil definir con precisión la forma de la distribución.

En el marco del deep learning, métodos basados en error de reconstrucción como AutoEncoder / VAE / GANs temporales ofrecen opciones más flexibles:

  • Entrenar un modelo de "compresión-reconstrucción" con AutoEncoder o VAE sobre una gran cantidad de secuencias normales, para que aprenda a reconstruir patrones normales;
  • Durante la monitorización en línea, introducir la nueva ventana temporal en el modelo; si el error de reconstrucción aumenta significativamente, se considera que ese intervalo contiene una anomalía;
  • Los métodos basados en GANs temporales aprenden a generar secuencias normales y buscan señales anómalas en el resultado del discriminador o en el error de generación.

Estos métodos pueden adaptarse a patrones altamente no lineales y estructuras complejas de covariables, siendo especialmente adecuados para construir motores unificados de detección de anomalías sobre métricas de negocio multidimensionales y datos complejos de sensores de equipos.

6.3.2 Detección de puntos de cambio: rupturas estructurales y activación de eventos

A diferencia de las anomalías puntuales y locales, la detección de puntos de cambio (Change Point Detection) se centra en las rupturas estructurales de las series temporales: por ejemplo, la media salta de un nivel a otro, la volatilidad cambia, o los patrones periódicos y las estructuras de correlación se ajustan. Este tipo de cambios suele corresponderse con algún evento o cambio de estado en el mundo real, como cambios de configuración, activación de nuevas políticas, ajustes normativos, cambios en el proceso de producción o cambios de régimen de mercado, siendo extremadamente relevante para el diagnóstico de negocio y el análisis causal.

En los métodos estadísticos tradicionales, la detección de puntos de cambio suele recurrir a pruebas de razón de verosimilitud, CUSUM y Bayesian Online Change Point Detection (BOCPD):

  • Ajustando modelos con diferentes parámetros (como diferentes medias/varianzas) antes y después de distintos puntos temporales, y comparando la bondad de ajuste entre la "hipótesis sin punto de cambio" y la "hipótesis con punto de cambio";
  • En escenarios en línea, actualizando recursivamente en cada punto temporal la probabilidad posterior de "si ha aparecido un punto de cambio hasta el segmento actual", y activando una alarma cuando se supera un umbral predefinido.

En configuraciones más complejas, se puede combinar el aprendizaje profundo de representaciones con modelos de segmentación, tratando la detección de puntos de cambio como un problema de segmentación de secuencias: extraer características con redes neuronales y luego buscar fronteras de segmento en el espacio de características, o entrenar directamente un modelo para predecir la probabilidad de que un punto temporal pertenezca a un "punto de cambio". Esto resulta especialmente útil para métricas de negocio que presentan múltiples formas de cambio (no solo cambios en media/varianza) y que son difíciles de caracterizar con hipótesis estadísticas simples.

En los sistemas de producto, la detección de puntos de cambio suele integrarse en plataformas de análisis de métricas de negocio, sistemas de análisis de experimentos A/B y herramientas de monitorización de cambios de configuración y políticas: cuando los indicadores clave presentan cambios estructurales, el sistema puede marcar automáticamente los puntos de cambio potenciales y asociarlos con los eventos de cambio correspondientes (como lanzamiento de versiones, ajuste de parámetros, implementación de políticas), proporcionando pistas para el posterior análisis de causa raíz.

6.3.3 Series temporales multidimensionales y estructuras de grafos: modelado conjunto con GNN + modelos temporales

En los sistemas distribuidos modernos y en escenarios de IoT, a menudo nos enfrentamos a series temporales de múltiples puntos, multidimensionales y con topología relacional asociada: por ejemplo, múltiples puntos de medición en una red de sensores, los indicadores de cada servicio en una arquitectura de microservicios, o múltiples nodos y aristas en una red de distribución eléctrica o de tráfico. En estos casos, realizar la detección de anomalías sobre cada serie temporal de forma aislada e individual puede llevar fácilmente a malinterpretar fluctuaciones locales o a ignorar el patrón global; la verdadera anomalía suele manifestarse como una "inconsistencia local-global" o una "descoordinación en la estructura topológica".

Por ello, en los últimos años han surgido numerosos métodos combinados de redes neuronales de grafos (GNN) + modelos de series temporales:

  • Primero, según la topología real (conexiones físicas, topología de red) o un grafo de correlación estimado a partir de los datos, se construye una estructura de grafo que representa las relaciones entre múltiples puntos;
  • En cada paso temporal, se utiliza una GNN para realizar paso de mensajes sobre las características de los nodos (valores temporales de cada punto y su contexto local), aprendiendo características de asociación espacial;
  • A continuación, la representación codificada por el grafo se introduce en modelos temporales como RNN, TCN o Transformer para capturar los patrones dinámicos en la dimensión temporal;
  • Finalmente, se realiza la puntuación de anomalías o la detección de puntos de cambio sobre la representación conjunta, logrando un reconocimiento de anomalías espacio-temporal conjunto.

Este marco es especialmente adecuado para escenarios como monitorización de redes de sensores, detección de anomalías en métricas de microservicios y detección de anomalías espacio-temporales en computación urbana: permite distinguir entre "cambios globales" (como un aumento de carga en todo el sistema) y "anomalías locales" (como la congestión anómala de un nodo concreto), y también identifica mejor patrones anómalos relacionados con la topología (como problemas a nivel de enlace o fallos de red regionales).

A nivel de ingeniería, este tipo de métodos suelen aparecer como capacidades avanzadas dentro de sistemas de alerta AIOps para operaciones, plataformas de seguridad y control de riesgos, y sistemas de monitorización de flotas de dispositivos, combinándose con monitorización estadística básica, sistemas de reglas y conocimiento experto para proporcionar mecanismos de descubrimiento de anomalías más inteligentes y conscientes del contexto en sistemas complejos.## 6.4 Modelado Espacio-Temporal (Spatio-Temporal Modeling)

En muchos escenarios de negocio críticos, modelar únicamente el "tiempo" no es suficiente: "cuándo" y "dónde" coexisten en paralelo, y ambos están altamente acoplados. El flujo del tráfico urbano está influenciado tanto por la estructura de la red vial como por los patrones temporales; la meteorología y la calidad del aire dependen de la evolución temporal, pero también de la proximidad geográfica y los campos de flujo atmosférico; la logística, las bicicletas compartidas y la gestión de flotas de transporte requieren considerar simultáneamente la distribución espaciotemporal de la demanda y la estructura de carreteras/regiones. El modelado espacio-temporal (Spatio‑Temporal Modeling) es precisamente el enfoque sistemático para abordar este tipo de problemas de modelado conjunto "tiempo + espacio".

En comparación con los modelos puramente de series temporales, los modelos espacio-temporales necesitan incorporar explícitamente la estructura de dependencia espacial: el flujo de tráfico en segmentos de carretera adyacentes, la calidad del aire en estaciones de monitoreo cercanas, la carga y el estado de nodos conectados, suelen tener una correlación más alta que la de puntos geográficamente distantes. Por ello, estructuras como las redes neuronales de grafos (GNN) y las LSTM convolucionales (ConvLSTM) se utilizan ampliamente para combinar el aprendizaje de características en las dimensiones espacial y temporal. A nivel de producto, este tipo de capacidades sustentan aplicaciones críticas como plataformas de computación urbana (predicción de tráfico/flujo de personas), sistemas de predicción meteorológica/ambiental, planificación de rutas logísticas y plataformas de gestión de bicicletas compartidas y flotas de transporte.

  • Escenarios
    • Predicción de tráfico y flujo de personas: sobre la estructura de la red vial o de metro, predecir el flujo de vehículos y personas en diferentes franjas horarias, apoyando la optimización de semáforos, la gestión de congestión y las decisiones de despacho.
    • Monitorización meteorológica y ambiental: sobre una cuadrícula geográfica o una red de estaciones de monitoreo, predecir la distribución espaciotemporal futura de temperatura, precipitaciones, viento, calidad del aire, etc., proporcionando soporte para previsiones y toma de decisiones.
    • Logística y despacho de movilidad: sobre la estructura urbana regional o vial, predecir la demanda de pedidos, la distribución de vehículos y la carga de almacenes/estaciones, proporcionando una base para la planificación de rutas, el despacho de vehículos y la asignación de capacidad.
  • Principios El núcleo del modelado espacio-temporal es aprender simultáneamente la correlación espacial y la dinámica temporal en un marco unificado:
    • En la dimensión espacial, a través de estructuras de grafos o convolucionales, se caracteriza "quién está relacionado con quién" y, sobre esta base, se realiza el paso de mensajes y la agregación de características;
    • En la dimensión temporal, se utilizan RNN, TCN, Transformer o estructuras temporales especializadas para modelar los cambios dinámicos;
    • Ambas pueden conectarse en serie (primero el espacio, luego el tiempo), entrelazarse o actuar simultáneamente (como en la convolución espacio-temporal o la atención espacio-temporal).
  • Modelos Los modelos espacio-temporales típicos adoptan mayoritariamente la combinación "GNN + modelo temporal" o "convolución + LSTM":
    • Redes neuronales de grafos + modelos temporales: ST‑GCN, DCRNN, Graph WaveNet, ST‑Transformer, etc., que capturan la dependencia espacial mediante convolución de grafos o atención de grafos, y luego modelan la dinámica temporal con estructuras temporales.
    • Modelos de tipo LSTM convolucional: ConvLSTM, Conv‑TT‑LSTM, etc., que incorporan compuertas de convolución espacial en la recurrencia temporal, logrando un modelado conjunto de características espacio-temporales locales.

A continuación, desarrollamos tres direcciones: tareas espacio-temporales y representación de datos, modelos GNN + temporales, y LSTM convolucional con convolución espacio-temporal.

6.5.1 Tareas espacio-temporales y representación de datos: de la red vial a la cuadrícula geográfica

Antes de entrar en modelos concretos, el modelado espacio-temporal debe resolver primero cómo representar la estructura espacial. A diferencia del eje temporal unidimensional, la estructura espacial puede ser una cuadrícula regular (grid), un grafo irregular (graph) o una forma híbrida.

  • En el escenario del tráfico, las carreteras e intersecciones forman naturalmente un grafo dirigido o no dirigido: los nodos representan segmentos de carretera o intersecciones, las aristas representan conexiones viales y direcciones de circulación; cada nodo tiene un conjunto de características en cada paso temporal, como el flujo de tráfico, la velocidad media, el índice de congestión, etc.
  • En la predicción meteorológica y de calidad del aire, se puede utilizar una cuadrícula geográfica regular (como una cuadrícula de latitud-longitud), o construir una estructura de grafo a partir de las relaciones de adyacencia entre estaciones de monitoreo, definiendo los pesos de las aristas en función de la distancia geográfica, la dirección del viento o la correlación.
  • En escenarios de logística y movilidad compartida, la ciudad puede dividirse en cuadrículas o unidades regionales, donde cada unidad tiene características temporales como el volumen de pedidos o el número de vehículos activos, y está conectada espacialmente mediante relaciones de adyacencia o distancias reales por carretera.

Esta representación unificada de "estructura espacial + serie temporal" permite modelar muchos escenarios diferentes como problemas similares: dada una secuencia espacio-temporal histórica, predecir el estado de cada nodo o celda de la cuadrícula en varios pasos temporales futuros. El diseño posterior del modelo (ya sea GNN + modelo temporal o ConvLSTM) se desarrolla sobre esta perspectiva unificada.

A nivel de producto, esta capa de abstracción suele encapsularse en la capa de datos y modelado de plataformas de computación urbana, sistemas de predicción meteorológica/ambiental, plataformas de planificación de rutas y despacho: el negocio solo necesita saber "cómo predecimos el flujo/demanda futura en la red vial/cuadrícula", mientras que la representación de datos subyacente y la fusión espacio-temporal son gestionadas de forma unificada por el marco de modelado.

6.5.2 Redes neuronales de grafos + modelos temporales: ST‑GCN, DCRNN, Graph WaveNet, etc.

Para modelar secuencias espacio-temporales sobre estructuras de grafo, el enfoque más predominante actualmente es la combinación de "redes neuronales de grafos (GNN) + modelos temporales". Los modelos representativos incluyen ST‑GCN, DCRNN, Graph WaveNet, ST‑Transformer, entre otros, cuyas características comunes son:

  • En la dimensión espacial, utilizan métodos como convolución de grafos (GCN), atención de grafos (GAT) o convolución en el dominio espectral para realizar una "agregación de vecindad" de las características de los nodos en cada paso temporal, capturando así la dependencia espacial y la influencia de la estructura topológica;
  • En la dimensión temporal, modelan secuencialmente las características a nivel de nodo mediante RNN (como GRU/LSTM), TCN o Transformer, capturando tendencias temporales y periodicidad;
  • Mediante el apilamiento alternado o el diseño conjunto, permiten que el modelo aprenda patrones locales y globales en múltiples escalas espacio-temporales.

Por ejemplo, DCRNN (Diffusion Convolutional RNN) combina la convolución de grafos con unidades recurrentes con compuertas, utilizando convolución de difusión para simular la propagación de información en la red vial, y luego captura la dinámica temporal a través de RNN, siendo muy adecuado para tareas como la predicción del flujo de tráfico. Graph WaveNet, por su parte, introduce aprendizaje adaptativo de la estructura del grafo y modelado multiescala sobre la base de la convolución de grafos y la convolución temporal, mejorando la adaptabilidad a redes viales complejas y topologías irregulares. Modelos como ST‑Transformer incorporan el mecanismo de autoatención en el modelado espacio-temporal, considerando simultáneamente las correlaciones entre diferentes posiciones temporales y espaciales a través de módulos de atención espacio-temporal.

En sistemas reales, esta clase de modelos GNN + temporales se despliega ampliamente en productos como plataformas de predicción de tráfico urbano y flujo de personas, sistemas de despacho de movilidad compartida y monitorización de redes IoT complejas. Generalmente funcionan como uno de los motores de predicción centrales, formando un ciclo cerrado junto con sistemas basados en reglas, modelos de simulación y estrategias de negocio, de modo que la planificación y el despacho puedan considerar tanto la estructura global como responder a los cambios locales.

6.5.3 LSTM convolucional y convolución espacio-temporal: ConvLSTM, Conv‑TT‑LSTM, etc.

Otra línea importante es el modelado espacio-temporal basado en LSTM convolucional (ConvLSTM) y sus variantes. A diferencia de la LSTM estándar, que transmite vectores unidimensionales entre pasos temporales, ConvLSTM utiliza operadores de convolución en su estructura de compuertas, de modo que tanto el estado oculto como la entrada se mantienen como tensores multidimensionales (como mapas de características sobre una cuadrícula espacial). Así, en cada actualización de estado por paso temporal, se incluye tanto la recurrencia temporal como una agregación convolucional local en la dimensión espacial, logrando un modelado natural de patrones espacio-temporales locales.

Sobre esta base, modelos mejorados como Conv‑TT‑LSTM intentan aumentar la capacidad expresiva y la eficiencia del modelo mediante mecanismos como la descomposición tensorial, el uso compartido de parámetros y la convolución multiescala, adaptándose a datos espacio-temporales de mayor escala y complejidad. Por ejemplo, en la predicción meteorológica, se puede apilar múltiples capas de ConvLSTM para realizar recurrencia espacio-temporal sobre mapas multicanal de variables meteorológicas (temperatura, humedad, dirección del viento, etc.), prediciendo la distribución espacial de las próximas horas o días a partir de varios fotogramas históricos; en la monitorización del tráfico y ambiental, también se puede mapear la red vial o los puntos de monitoreo a una cuadrícula regular y utilizar modelos como ConvLSTM para la predicción.

En comparación con los modelos GNN + temporales, la familia ConvLSTM se utiliza más en escenarios con estructura de cuadrícula regular y suavidad espacial local evidente, como la predicción de ecos de radar meteorológico, la previsión en cuadrícula de calidad del aire, la predicción de fotogramas de vídeo, etc. Su ventaja radica en una implementación relativamente directa, la facilidad para aprovechar la infraestructura existente de redes convolucionales para aceleración y despliegue, y la facilidad de colaboración con modelos visuales como CNN/ViT, por ejemplo, combinando características convolucionales y recurrencia temporal en el modelado espacio-temporal de imágenes de teledetección.

En cuanto a la forma de producto, los modelos de esta dirección se utilizan principalmente en sistemas de predicción meteorológica/ambiental, plataformas de análisis espacio-temporal de teledetección, predicción espacio-temporal de vídeo e imágenes, y a menudo exponen sus capacidades hacia arriba en forma de "mapas de predicción de escenarios espacio-temporales futuros", convirtiéndose en una entrada importante para la toma de decisiones de negocio y el análisis visual.# 7. Agentes y uso de herramientas (Agents & Tool Use)

En las capas anteriores de capacidades como visión y lenguaje, los modelos funcionan principalmente de forma "pasiva": reciben una entrada y generan una salida. Sin embargo, en muchos escenarios de negocio reales, lo que necesitamos es un agente inteligente que pueda planificar de forma proactiva, invocar herramientas externas y orquestar flujos de trabajo: no solo debe ver, leer y comprender, sino también "decidir qué hacer a continuación", como consultar información, ejecutar código, leer y escribir archivos, llamar a sistemas internos, y luego integrar, interpretar y devolver los resultados al usuario.

Esta capa puede entenderse como el pegamento clave que "convierte un modelo base en un sistema accionable": mediante interfaces estructuradas de invocación de herramientas, orquestación de flujos de trabajo, colaboración multiagente y mecanismos de humano en el circuito (human-in-the-loop), se transforma un LLM desde un potente "núcleo cognitivo" hasta un "empleado digital" capaz de realizar tareas de extremo a extremo.## 7.1 Llamada y ejecución de herramientas (Tool Calling / Function Calling)

En la era del texto puro —solo leer, no escribir; solo decir, no hacer—, los LLM se parecían más a un "superconversador": podían entender preguntas, dar sugerencias, escribir código y enumerar soluciones, pero todo el trabajo de "ejecución real" —consultar bases de datos, ejecutar scripts, generar archivos, invocar servicios en la nube— seguía requiriendo intervención humana. La aparición de Tool Calling / Function Calling permitió por primera vez que los modelos "actuaran" dentro de límites seguros: generar parámetros estructurados a partir del lenguaje natural para invocar motores de búsqueda, bases de datos, motores de cálculo, servicios de generación de imágenes/audio/vídeo y otras capacidades externas, y luego organizar y devolver los resultados de la ejecución, formando así un ciclo cerrado de "comprensión → decisión → ejecución".

Desde la perspectiva del producto, la llamada a herramientas es la "capacidad base" de la mayoría de los sistemas de agentes: OpenAI Assistants API, LangChain, LlamaIndex, AutoGen y las plataformas de agentes de diversos proveedores de nube son, en esencia, una capa de runtime construida sobre los LLM en torno a cómo definir herramientas, cómo hacer que el modelo seleccione la herramienta correcta y cómo gestionar errores y reintentos. A continuación, organizamos esta capacidad desde tres ángulos: escenarios, principios y modelos, y en las subsecciones siguientes desarrollaremos tres direcciones: "diseño de la interfaz de llamada a herramientas", "selección y estrategia de herramientas" y "tipos típicos de herramientas".

  • Escenarios
    • QA inteligente y generación aumentada por recuperación: el modelo decide automáticamente, según la pregunta del usuario, si debe invocar herramientas de recuperación (búsqueda vectorial o por palabras clave), consultar la base de conocimiento interna de la empresa o buscar en la web pública, e integrar los documentos y FAQ encontrados en la respuesta final.
    • Automatización de datos e informes: ante solicitudes como "consúltame las ventas de este período y haz un gráfico" o "calcúlame los indicadores de riesgo de esta cartera de inversión", el modelo genera automáticamente SQL o parámetros de análisis, invoca la base de datos y el motor de cálculo, y devuelve gráficos y conclusiones.
    • Operaciones con documentos y archivos: lee automáticamente PDF/Word/Excel/tablas de base de datos, extrae y resume información clave, o genera nuevos archivos según instrucciones (como informes, contratos, propuestas) y los sube/almacena en ubicaciones designadas mediante herramientas.
    • Generación y procesamiento de medios: invoca servicios de generación de imágenes/audio/vídeo/3D según instrucciones de texto, o realiza operaciones de edición, compresión, transcodificación y marca de agua sobre medios existentes, formando una cadena de contenido integral de "texto + diseño + exportación" con un solo clic.
  • Principios El núcleo de la llamada a herramientas es: impulsar llamadas a funciones estructuradas mediante lenguaje natural.
    • En primer lugar, se expone al LLM el nombre, la descripción y la estructura de parámetros (tipos, campos obligatorios, valores enumerados, etc.) de las herramientas externas en forma de JSON Schema o firmas de función.
    • Cuando el usuario realiza una solicitud, el LLM no solo debe comprender la semántica, sino también juzgar "si es necesario llamar a alguna herramienta", "qué herramienta(s) se necesita(n)" y "cómo deben rellenarse los parámetros de dichas herramientas".
    • Una vez que el modelo decide invocar una herramienta, genera un conjunto de parámetros estructurados (normalmente en JSON), que el runtime ejecuta realmente contra la API o programa externo, y devuelve el resultado de la ejecución al modelo de forma estructurada, para que este continúe razonando o genere la respuesta final basándose en dicho resultado.
    • Para garantizar la seguridad y robustez, el sistema debe gestionar durante este proceso la validación de parámetros, los timeouts, las respuestas de error, los reintentos y los fallbacks, además de aplicar control de permisos y auditoría sobre las llamadas que puedan implicar cuestiones de seguridad o privacidad.
  • Modelos Los modelos y frameworks que respaldan esta capacidad se dividen principalmente en tres categorías:
    • LLM con soporte para Function Calling: como las series GPT‑4.1 / o, que comprenden de forma nativa "firmas de herramientas + JSON Schema" a nivel de decodificación y pueden generar parámetros de llamada estructurados de manera activa o pasiva en el momento adecuado.
    • Paradigmas de razonamiento aumentado por herramientas: como ReAct y Toolformer, que entrelazan "pensamiento + llamada a herramientas" dentro de la misma cadena de razonamiento, tratando el uso de herramientas como parte de los pasos intermedios en lugar de un simple pre/post-procesamiento.
    • Frameworks de ingeniería y runtimes: OpenAI Assistants API, LangChain, LlamaIndex, AutoGen, plataformas de agentes de diversos proveedores de nube, etc., que proporcionan infraestructura para la definición de herramientas, enrutamiento de llamadas, gestión de estado, manejo de errores y auditoría de logs, permitiendo a los desarrolladores centrarse en "qué herramientas exponer" y "qué API de negocio abstraer", sin tener que construir el runtime desde cero.

7.1.1 Interfaz de llamada a herramientas: del lenguaje natural a la llamada estructurada a funciones

Un sistema de llamada a herramientas utilizable necesita, ante todo, una "capa de interfaz de herramientas" clara, estandarizada y amigable para el LLM. Esta capa se encarga de envolver las API, scripts y servicios del mundo externo como "funciones" que el modelo pueda comprender e invocar de forma segura, permitiendo que el modelo "exprese" la herramienta que desea llamar y sus parámetros como si escribiera pseudocódigo.

  • Definición de herramientas y esquema de parámetros En la capa de interfaz, cada herramienta se define típicamente mediante una estructura similar a JSON Schema o una firma de función, que incluye: nombre (name), descripción (description), campos de parámetros (properties), tipos (string / number / boolean / array / object), si son obligatorios (required), rango de valores o enumeraciones, etc. Esta información se utiliza, por un lado, para impulsar la verificación de tipos en el frontend/SDK y, por otro, se proporciona directamente al LLM para ayudarle a "aprender" cómo rellenar correctamente los parámetros. Cuanto más clara sea la descripción y más razonables sean las restricciones, más estandarizadas serán las llamadas generadas por el modelo y menor será la tasa de errores.
  • Generación de parámetros estructurados por el LLM Cuando el usuario hace una solicitud como "consúltame los ingresos del Q3 de 2024 y haz un gráfico de barras desglosado por región", el modelo necesita razonar primero que esto requiere al menos una "herramienta de consulta de informes" (para acceder a los datos) y posiblemente una "herramienta de generación de gráficos" (para dibujar). Para cada herramienta, debe extraer y mapear parámetros estructurados a partir del lenguaje original, como el rango de tiempo (start_date/end_date), la dimensión (region), los indicadores (revenue), el tipo de gráfico (bar), el formato de salida, etc., y luego entregarlos en JSON al runtime. En este proceso, el modelo realiza esencialmente un razonamiento integrado de "lenguaje natural → planificación de tareas → extracción/relleno de parámetros", por lo que las indicaciones en lenguaje natural de la descripción de la herramienta, los ejemplos de parámetros y las muestras few-shot son todos críticos.
  • Ejecución de herramientas y devolución de resultados Cuando el runtime recibe la llamada JSON producida por el modelo, primero realiza la validación de parámetros y la verificación de seguridad, y luego invoca realmente la API o programa backend. Una vez completada la ejecución, encapsula el resultado como un objeto estructurado (como una tabla de resultados de consulta, una URL de archivo, un ID de recurso multimedia, etc.) y lo devuelve al modelo. A continuación, el modelo convierte estos resultados brutos en explicaciones legibles para el usuario o los procesa posteriormente, por ejemplo, resumiendo informes, generando análisis en lenguaje natural o incrustando anotaciones en gráficos. Para el modelo, el resultado de la herramienta es solo una parte de la información intermedia; sigue siendo responsable de "comprender el resultado + explicar el resultado".

7.1.2 Selección y estrategia de herramientas: tomar decisiones en un mundo multi-herramienta

Cuando el sistema solo tiene una herramienta, "¿debo usar la herramienta?" es la única pregunta. Pero en las aplicaciones de agentes reales, a menudo hay decenas o incluso cientos de herramientas: búsquedas en diferentes fuentes de datos, API de negocio de distintos departamentos, capacidades de generación/análisis de diversos dominios técnicos. Esto plantea un nuevo desafío: cómo el modelo puede hacer una selección y orquestación razonables en un entorno multi-herramienta.

  • Selección y enrutamiento de herramientas En primer lugar, el modelo debe juzgar "si la solicitud actual requiere llamar a una herramienta" y "qué herramienta(s) debe(n) llamarse". Esto se logra normalmente listando las descripciones de las herramientas disponibles en el prompt del sistema y proporcionando ejemplos típicos, para que el modelo aprenda a seleccionar la herramienta adecuada según la intención del usuario. Para escenarios con muchas herramientas y descripciones muy similares, muchos frameworks introducen un "enrutador de herramientas" (como un filtro previo basado en búsqueda vectorial o reglas), que primero filtra un conjunto de herramientas candidatas de la lista grande y luego las expone al LLM para que elija, reduciendo así la carga del modelo y la probabilidad de selección errónea.
  • Secuenciación y combinación de múltiples herramientas Las tareas complejas a menudo requieren la colaboración de múltiples herramientas. Por ejemplo, "investigar las principales empresas cotizadas de cierto sector y generar un informe con gráficos comparativos financieros" puede implicar motores de búsqueda, bases de datos de informes financieros, motores de cálculo, herramientas de generación de gráficos, herramientas de exportación de documentos, etc. En este caso, el modelo necesita hacer una planificación ligera de tareas: primero usar una herramienta para obtener la lista, luego consultar información detallada para cada elemento de la lista, después fusionar los datos, hacer cálculos y visualizaciones, y finalmente llamar a la herramienta de exportación para generar el informe. Las prácticas típicas incluyen el enfoque ReAct/Planner‑Executor, donde el modelo completa progresivamente la llamada combinada a herramientas en un ciclo de "pensar (Plan) — actuar (Act) — reflexionar (Reflect)".

7.1.3 Tipos típicos de herramientas: el rompecabezas de capacidades desde la recuperación hasta la generación de medios

Los diferentes tipos de herramientas proporcionan a los sistemas de agentes "cerebros externos" en distintas dimensiones. Desde la práctica de ingeniería, las siguientes categorías de herramientas son prácticamente la "configuración estándar" de todas las aplicaciones complejas.

  • Herramientas de recuperación: búsqueda vectorial y por palabras clave Las herramientas de recuperación se encargan de extender la "memoria" al mundo exterior:
    • La búsqueda por palabras clave es adecuada para documentos tradicionales y bases de datos de negocio con buena estructuración y campos claros.
    • La búsqueda vectorial, mediante embeddings, crea índices semánticos para texto no estructurado, código, registros de conversaciones e incluso datos multimodales, permitiendo una recuperación "difusa pero semánticamente relevante". En escenarios RAG, el LLM obtiene contexto relevante para la pregunta del usuario a través de herramientas de recuperación, y luego razona y genera sobre esa base, mejorando significativamente la actualidad y precisión de las respuestas.
  • Ejecución de código y motores de cálculo Las herramientas de ejecución de código (como sandboxes de Python/JS, ejecutores de Notebooks) permiten al LLM "escribir un fragmento de código y ejecutarlo inmediatamente", resolviendo problemas de cálculo complejo, procesamiento de datos, simulación numérica, visualización, etc. El modelo se encarga de producir el código y los parámetros de entrada; el entorno de ejecución se encarga del aislamiento de seguridad, la limitación de recursos y la recopilación de resultados. Este tipo de herramientas es crítico en escenarios como análisis de datos, investigación cuantitativa, informes automatizados, computación científica y autoverificación de agentes (el modelo genera una respuesta y luego la verifica con código).
  • Acceso a archivos y fuentes de datos Las herramientas de lectura/escritura de archivos se encargan de incorporar sistemas de archivos externos y fuentes de datos al campo de visión del agente: leer PDF/Word/Excel, acceder a tablas de bases de datos, invocar API de negocio internas, etc. El modelo obtiene datos de negocio reales a través de estas herramientas y luego realiza síntesis, comparación y generación de informes. De forma complementaria, existen herramientas de escritura y gestión de archivos: almacenan de forma persistente los informes, gráficos, PPT, código, etc. generados, y devuelven enlaces o IDs para facilitar el acceso e integración posteriores por parte del usuario.
  • Herramientas de generación y procesamiento de medios Las herramientas de generación de medios añaden al agente brazos de "creación" y "diseño":
    • Generación y edición de imágenes/vídeo: generar automáticamente ilustraciones, pósteres y guiones gráficos a partir del texto, o recortar, subtitular y añadir marcas de agua a medios existentes.
    • Generación y procesamiento de audio: TTS, doblaje, generación de música, mejora y edición de audio.
    • Herramientas 3D/ingeniería: generar escenas 3D simples, bocetos CAD, prototipos de UI, etc. En la producción de contenido, el diseño de marketing, la educación, los videojuegos y las aplicaciones multimedia, este tipo de herramientas acerca "de la idea al producto final" a una cadena de producción automatizada.

En resumen, la llamada y ejecución de herramientas expande el LLM de un "modelo de lenguaje" a un "controlador universal con interfaz de acción": el modelo comprende las necesidades y el entorno a través del lenguaje, ejecuta operaciones reales a través de herramientas y ajusta continuamente su estrategia mediante retroalimentación. Combinado con una orquestación de flujos de trabajo y colaboración multi-agente adecuadas (ver 7.2), esto constituye la arquitectura fundamental de las aplicaciones inteligentes de nueva generación.## 7.2 Orquestación de flujos de trabajo y colaboración multiagente (Workflow & Orchestration)

Con la capacidad de uso de herramientas, un LLM deja de ser solo un «respondedor de preguntas» para convertirse en una «unidad de ejecución» orientada a tareas concretas. Sin embargo, los procesos de negocio reales suelen ser mucho más complejos que una sola conversación: un análisis jurídico completo, una investigación de mercado, una configuración de pruebas A/B o un flujo de operaciones de TI de extremo a extremo normalmente requieren múltiples pasos, diversas herramientas e incluso la participación prolongada de varios roles. En estos casos, el modelo de un único LLM más herramientas se queda corto y se necesita una capa adicional de orquestación de flujos de trabajo y colaboración multiagente.

Desde una perspectiva de sistemas, la responsabilidad de esta capa es: abstraer un proceso de negocio complejo, de múltiples pasos y con múltiples participantes, en un grafo de flujo de trabajo que el LLM pueda comprender y controlar, y luego orquestar sobre ese grafo a uno o varios agentes, combinados con intervención humana, para completar la tarea de forma conjunta. Las implementaciones típicas incluyen arquitecturas de agente de tipo Planner-Executor, agentes con capacidad de reflexión/autocorrección y orquestadores de flujo de trabajo basados en grafos. Los productos correspondientes abarcan plataformas de generación automática de informes y automatización de operaciones, integración de LLM con flujos de trabajo low-code, robots para procesos de negocio complejos, sistemas de operaciones automatizadas, etc.

  • Escenarios
    • Canalizaciones de informes y contenido: desde «recepción de requisitos → recuperación y extracción de datos → análisis y visualización → redacción del informe → revisión y modificación → exportación y distribución», automatizando total o parcialmente los flujos de producción de contenido de múltiples pasos.
    • Automatización de procesos de negocio: como «análisis de productos → monitorización de la competencia → generación de estrategias de campaña → configuración en producción» en operaciones de e-commerce, o «alerta de monitorización → análisis de causa raíz → ejecución de medidas de mitigación → informe retrospectivo» en escenarios de operaciones de TI.
    • Colaboración entre roles: hacer que agentes de diferentes dominios (legal, financiero, técnico, operaciones) colaboren en torno a un proyecto complejo, como la diligencia debida en fusiones y adquisiciones, la preparación de materiales de inversión y financiación, o la elaboración de propuestas para grandes proyectos.
  • Principios El núcleo de los flujos de trabajo y la colaboración multiagente consiste en añadir una capa de control estructurado y gestión de estado por encima del LLM:
    • Descomponer tareas complejas en varias subtareas con dependencias entre sí, representadas mediante estructuras como DAG, máquinas de estados o grafos dirigidos, y configurar para cada nodo las condiciones de activación, entradas/salidas y el agente o herramienta necesarios.
    • Un agente de tipo Planner o un orquestador de nivel superior decide cuándo activar cada nodo, qué agente o herramienta usar, y ajusta dinámicamente la ruta posterior en función de los resultados de ejecución (ramas condicionales, bucles, retrocesos por error).
    • Introducir intervención humana (Human-in-the-loop) en los puntos críticos, solicitando confirmación y edición manual en decisiones de alto riesgo y entregables clave, y reincorporando la retroalimentación humana al sistema para actualizar estrategias o ajustar el modelo.
  • Modelos Las principales líneas técnicas que sustentan esta capa incluyen:
    • Arquitectura de agente Planner-Executor: un «agente planificador» se encarga de la descomposición de tareas y el diseño de rutas, mientras que uno o varios «agentes ejecutores» se encargan de implementar los pasos concretos.
    • Agentes de reflexión/autocorrección: durante la ejecución, revisan continuamente su propio rendimiento, reflexionan sobre resultados intermedios inadecuados y los corrigen, reduciendo la propagación silenciosa de «errores por exceso de confianza».
    • Orquestador de flujo de trabajo basado en grafos: modela todo el flujo de tareas como una estructura de grafo, introduciendo mecanismos como estados de nodo, condiciones de arista y control paralelo/secuencial, de modo que las llamadas al LLM se convierten en uno o varios nodos del grafo, en lugar de ser el único centro de control.

7.2.1 Descomposición de tareas y planificación: de una «frase de requisito» a un flujo ejecutable

Lo que el usuario da al agente suele ser una frase en lenguaje natural altamente comprimida, como «hazme una investigación de mercado sobre el sector de vehículos de nueva energía y genera un PPT». Detrás de esto hay en realidad una gran cantidad de pasos: búsqueda, filtrado, análisis, visualización, maquetación, múltiples rondas de revisión, etc. Cómo construir automáticamente un flujo de trabajo claro y ejecutable a partir de esa frase es el primer paso de la orquestación de flujos de trabajo.

  • Del lenguaje natural al grafo de subtareas El agente Planner primero necesita «desplegar» el requisito: combinando plantillas integradas, casos históricos y el catálogo de herramientas, identifica las fases clave (como recopilación de información, análisis de datos, diseño estructural, redacción de contenido, revisión y exportación) y las refina aún más en subtareas ejecutables (como «buscar 5 informes sectoriales autorizados del último año», «extraer datos de ventas de los últimos 3 años desglosados por modelo de vehículo», «generar 3 gráficos comparativos», etc.). Las dependencias y la lógica de programación entre estas subtareas se representan explícitamente como un grafo o una máquina de estados: cuáles pueden ejecutarse en paralelo, cuáles deben ser secuenciales, en qué nodos se requiere confirmación humana y bajo qué condiciones es necesario retroceder o reintentar.
  • Ramas condicionales, bucles y rutas de excepción Los flujos reales no suelen ser tuberías lineales, sino que incluyen ramas condicionales (por ejemplo, «si no se pueden recuperar suficientes informes de alta calidad, cambiar palabras clave o fuente de datos»), bucles (como «seguir intentando reescribir y comprimir hasta que la longitud del informe cumpla el límite») y rutas de excepción (como «si una fuente de datos no está disponible, cambiar a una fuente alternativa o usar un método de estimación»). Esto exige que la capa de orquestación de flujos de trabajo pueda expresar semánticas de flujo de control como if/else, while/for, try/catch sobre la estructura del grafo, y permitir que el agente Planner o el orquestador de nivel superior tome decisiones en tiempo de ejecución basadas en los resultados obtenidos, en lugar de limitarse a planificar todos los pasos de una sola vez al principio.
  • Conexión con el uso de herramientas La descomposición de tareas y la planificación están estrechamente vinculadas con el uso de herramientas de la sección 7.1: al generar subtareas, el Planner suele especificar simultáneamente «qué herramientas/agentes necesita esa tarea» y «el formato de entrada/salida de ese nodo», sentando las bases para el posterior llenado automático de parámetros y la ejecución de herramientas. Algunos sistemas adoptan un enfoque explícito de dos fases «Plan + Execute»: primero el Planner genera un plan legible por máquina (como una descripción de flujo de trabajo en JSON), y luego el Executor invoca herramientas y agentes siguiendo estrictamente el plan. Otros sistemas utilizan un estilo ReAct, entrelazando «razonamiento–uso de herramientas–observación–nuevo razonamiento» dentro de la misma conversación, para lograr una ejecución adaptativa más flexible.

7.2.2 Colaboración multiagente: que el «equipo virtual» asuma roles especializados

Un único modelo grande es ciertamente potente, pero en escenarios de negocio complejos, los distintos dominios suelen requerir diferentes estructuras de conocimiento, preferencias de estilo y políticas de seguridad. La idea de la colaboración multiagente consiste en descomponer una inteligencia «grande y generalista» en múltiples roles «especializados y precisos»: alguien planifica, alguien ejecuta, alguien revisa, alguien emite juicios profesionales de dominio, formando un equipo virtual compuesto por agentes + herramientas + humanos.

  • División de roles: planificación, ejecución y revisión En un flujo multiagente típico, los roles comunes incluyen:
    • Agente planificador: responsable de comprender los requisitos del usuario, diseñar el plan general, descomponer subtareas y ajustar dinámicamente la ruta durante la ejecución según los resultados.
    • Agente ejecutor: optimizado en profundidad para ciertas herramientas o subdominios (como agente de búsqueda, agente de análisis de datos, agente de redacción de contenido), completa pasos concretos según lo planificado.
    • Agente revisor: desde perspectivas de estructura, lógica, consistencia de estilo y control de riesgos, verifica y revisa los productos intermedios y finales, funcionando como un «editor/revisor virtual».
  • Colaboración de agentes expertos de dominio Para dominios altamente especializados como legal, financiero, técnico u operaciones, se pueden subdividir aún más agentes expertos de dominio: como «agente asesor jurídico», «agente de análisis de inversiones», «agente de operaciones cloud-native», «agente de optimización de campañas publicitarias», etc. Estos pueden basarse en bases de conocimiento, herramientas e incluso modelos específicamente ajustados para cada dominio, y participar en colaboración por proyectos. Por ejemplo, en un material de inversión y financiación, el agente técnico se encarga de la parte de viabilidad técnica, el agente financiero de los modelos financieros y la valoración, el agente legal del cumplimiento normativo y la divulgación de riesgos, el agente de operaciones de la estrategia de mercado y crecimiento, y un agente coordinador consolida y unifica el estilo.
  • Protocolos de colaboración y enrutamiento de mensajes La clave de la colaboración multiagente también reside en «quién habla con quién y cuándo». El sistema necesita un mecanismo de enrutamiento y coordinación de mensajes:
    • Decidir qué agente debe procesar una determinada solicitud del usuario o un resultado intermedio.
    • Mantener un contexto compartido y memorias privadas respectivas.
    • Controlar la ejecución paralela y secuencial, así como la resolución de conflictos (por ejemplo, cómo arbitrar cuando diferentes agentes proponen sugerencias contradictorias). Estas capacidades suelen ser proporcionadas por el orquestador de nivel superior o un «agente gestor», mientras que frameworks como LangChain, AutoGen y otros ofrecen a nivel de ingeniería la infraestructura para enrutamiento de conversaciones, sesiones multiagente y configuración de roles.

7.2.3 Human-in-the-loop: mantener el control en los puntos de riesgo

Por muy inteligentes que sean los flujos de trabajo y la colaboración multiagente, en los negocios reales sigue siendo imposible prescindir completamente del juicio humano, especialmente en escenarios de alto riesgo, alto coste y alta sensibilidad, como cumplimiento legal, decisiones financieras, asesoramiento médico, cambios en producción a gran escala o respuesta a crisis de opinión pública. El diseño de Human-in-the-loop busca precisamente encontrar el equilibrio entre automatización y control: lo que se pueda automatizar se automatiza, y lo que requiera confirmación humana debe detenerse para que una persona lo revise.

  • Confirmación manual en pasos críticos En el grafo de flujo de trabajo se suelen marcar explícitamente varios «nodos de aprobación/confirmación humana»:
    • Por ejemplo, al generar automáticamente un contrato, se requiere una doble confirmación del departamento jurídico y del responsable de negocio antes de su emisión.
    • En sistemas de operaciones automatizadas, las operaciones que impliquen cambios en el entorno de producción, reinicios masivos o modificaciones de configuración deben contar con la confirmación explícita del ingeniero de guardia.
    • En escenarios de generación de contenido, el contenido sensible para la marca o destinado a publicación masiva requiere revisión humana. El orquestador pausa la ejecución automática en estos nodos, envía los resultados intermedios al rol humano correspondiente y, tras recibir la retroalimentación, continúa con el flujo posterior.
  • Actualización de estrategias basada en retroalimentación El ser humano no solo «aprueba o rechaza» en un momento dado; lo más importante es que el contenido de su retroalimentación pueda ser absorbido por el sistema:
    • Comparar la versión modificada manualmente con la salida original, registrándola como «ejemplos positivos/negativos» para la optimización posterior de prompts o el ajuste fino del modelo.
    • Identificar mediante análisis estadístico qué tipos de tareas o pasos son modificados manualmente con mayor frecuencia, para optimizar los prompts, la combinación de herramientas o el diseño del flujo de trabajo del agente correspondiente.
    • En casos extremos o anómalos, los humanos pueden añadir «listas negras / listas blancas / reglas especiales» que afecten directamente a la elección de estrategias del sistema en situaciones similares.
  • Clasificación de riesgos y observabilidad Por último, el Human-in-the-loop también requiere un mecanismo claro de clasificación de riesgos y observabilidad:
    • Clasificar los flujos en diferentes niveles de riesgo según el tipo de tarea, el alcance del impacto, la cuantía económica y el tipo de información sensible implicada, con niveles correspondientes de intervención humana (como solo lectura, aprobación obligatoria, aprobación multinivel).
    • Mediante registros, auditorías y paneles de visualización, permitir al personal de operaciones y gestión hacer un seguimiento en tiempo real de qué tareas están en ejecución, en qué paso se encuentran, dónde se ha activado la intervención humana y qué fallos y correcciones manuales han ocurrido históricamente. Estas capacidades no solo aumentan la aceptabilidad del sistema dentro de la empresa, sino que también proporcionan la base para futuras auditorías de cumplimiento y asignación de responsabilidades.

En resumen, el uso de herramientas y la ejecución (7.1) resuelven el problema de la «acción en un solo paso», mientras que la orquestación de flujos de trabajo y la colaboración multiagente (7.2) intentan responder a «cómo encadenar muchos pasos, permitiendo que diferentes roles colaboren a largo plazo y de forma controlada». La combinación de ambas, junto con el Human-in-the-loop y buenas prácticas de ingeniería, constituye la base de una nueva generación de aplicaciones inteligentes orientadas a escenarios de negocio reales.# 8. Generación Aumentada por Recuperación y Capa de Conocimiento (Retrieval & Knowledge)

En las capas anteriores de visión y comprensión, el modelo se basa principalmente en el "conocimiento aprendido en sus propios parámetros" para comprender y generar contenido. Sin embargo, en escenarios de negocio reales, muchos problemas no pueden resolverse únicamente con la "memoria": las políticas internas de una empresa cambian a diario, las regulaciones y estándares del sector se actualizan constantemente y el historial de un cliente específico solo existe en bases de datos internas. En estos casos, el conocimiento "memorizado" por el modelo resulta claramente insuficiente; lo más importante es si el sistema es capaz de realizar búsquedas y razonamientos eficaces sobre bases de conocimiento externas, datos estructurados y grafos de conocimiento.

Esta capa puede entenderse como: sobre las capacidades del modelo, se añade un "cerebro externo capaz de consultar documentación y bases de datos". Cuando el usuario plantea una pregunta, el sistema ya no genera una respuesta directamente, sino que primero "busca información" en las fuentes de datos adecuadas: bibliotecas de documentos, bases de datos, motores de búsqueda, grafos de conocimiento, registros y sistemas de negocio… y luego permite que el modelo genere respuestas y decisiones basadas en el contenido realmente recuperado. De este modo, no solo se mejora significativamente la precisión y la actualidad de la información, sino también, en gran medida, la explicabilidad y el cumplimiento normativo (por ejemplo, se pueden citar fuentes, conservar registros de ejecución SQL, etc.).

En esta capa, las capacidades más comunes pueden dividirse aproximadamente en dos grandes direcciones: por un lado, la Generación Aumentada por Recuperación (RAG), orientada principalmente a "preguntas y respuestas en lenguaje natural + búsqueda en documentos y bases de conocimiento"; por otro, los Datos Estructurados y Grafos de Conocimiento (Structured Data & KG), encargados de realizar accesos y razonamientos más precisos y controlados sobre bases de datos, bases de datos de grafos y plataformas de conocimiento de dominio. A continuación se desarrollan ambos enfoques.## 8.1 Generación Aumentada por Recuperación (RAG)

RAG (Retrieval‑Augmented Generation) puede entenderse como un "LLM que sabe consultar documentación". A diferencia de depender únicamente de los parámetros internos del modelo, RAG realiza primero una búsqueda en una base de conocimiento externa antes de responder cada pregunta, recupera los fragmentos de documentos (chunks) más relevantes y luego los proporciona como "contexto" al LLM para que este genere una respuesta basada en la "documentación consultada". RAG se ha convertido en el paradigma predeterminado para escenarios como preguntas y respuestas sobre bases de conocimiento empresariales, búsqueda en informes sectoriales, consultas profesionales en los ámbitos jurídico, médico y financiero, y robots de búsqueda en documentación interna.

En cuanto a la arquitectura del sistema, un RAG típico puede descomponerse en tres capas: capa de construcción de índices, capa de recuperación y capa de generación. Las dos primeras se centran principalmente en "recuperar con precisión", mientras que la última se encarga de "expresar con claridad". A continuación se desarrollan estas tres capas y se detallan los diseños y prácticas fundamentales en las subsecciones.

  • Escenarios
    • Preguntas y respuestas sobre conocimiento interno empresarial: los empleados formulan preguntas en lenguaje natural sobre procesos normativos, documentación técnica o materiales de proyecto; el sistema recupera contenido relevante de documentos internos y wikis, y el LLM genera respuestas claras con citas.
    • Búsqueda en informes e investigaciones sectoriales: recuperación de contenido relevante sobre un tema sectorial (por ejemplo, "cambios en la política de subvenciones para vehículos de nueva energía") entre grandes volúmenes de PDF, informes y artículos académicos, con resúmenes automáticos, comparativas y referencias.
    • Preguntas y respuestas en los ámbitos jurídico, médico y financiero: recuperación aumentada basada en materiales autorizados como textos normativos, sentencias judiciales, guías clínicas y fichas técnicas de productos, reduciendo el riesgo de "alucinaciones".
    • Robots de búsqueda en documentación interna y tickets: ayudan a los equipos de operaciones, atención al cliente y desarrollo a localizar rápidamente respuestas en bases de conocimiento, tickets y registros de cambios, resumiendo los resultados en lenguaje natural.
  • Principios La idea central de RAG es "almacenar el conocimiento externamente y delegar el razonamiento al modelo":
    • Los documentos no estructurados (PDF, páginas web, Word, documentación técnica, etc.) se dividen en fragmentos (chunks) adecuados para la recuperación, se mapean al espacio vectorial mediante un modelo de embedding y se construye un índice vectorial (por ejemplo, FAISS, Milvus, PGVector, etc.).
    • Al recibir una consulta del usuario, se emplea simultáneamente la recuperación semántica vectorial y la búsqueda por palabras clave (Hybrid Search) para encontrar los fragmentos de documento más relevantes, y se realiza un reordenamiento (Re‑ranking) según la relevancia y la cobertura.
    • El contexto recuperado, la pregunta del usuario y las instrucciones del sistema o restricciones de formato necesarias se introducen conjuntamente en el LLM, que responde bajo la restricción de la "evidencia visible" y cita las fuentes (source citation) en la salida, mejorando así la interpretabilidad y auditabilidad.
  • Modelos Un sistema RAG típico suele ser una arquitectura de combinación de modelos:
    • Modelo de embedding: se utiliza para codificar consultas y fragmentos de documentos en un mismo espacio semántico; es clave para la eficacia de la recuperación vectorial (incluye embeddings genéricos y embeddings adaptados a dominios específicos).
    • Modelos de recuperación y reordenamiento: Hybrid Search (por ejemplo, BM25 + Vector) se encarga de la primera ronda de recuperación; un Cross‑Encoder Re‑ranker o el propio LLM se utiliza para un reordenamiento más preciso de los resultados recuperados.
    • Modelo de generación: el LLM responde a partir del contexto de recuperación proporcionado; en arquitecturas más complejas como RAG / HyDE / ReAct + RAG, el LLM también participa en procesos como "generación de pseudo-documentos", "invocación de herramientas en múltiples rondas" y "alternancia entre razonamiento y recuperación", con el fin de mejorar la recuperación, reducir omisiones y reforzar la capacidad de razonamiento.### 8.1.1 Construcción de índices y organización del conocimiento

En cualquier sistema RAG, la construcción de índices es la base. Sin un índice de alta calidad, incluso el LLM más potente sería como «un buen artesano sin herramientas». El objetivo de la construcción de índices es transformar recursos documentales desordenados en «activos de conocimiento recuperables, mantenibles y escalables».

Desde el punto de vista del flujo de trabajo, la construcción típica de un índice incluye los siguientes pasos clave:

  1. Segmentación y preprocesamiento de documentos Los documentos suelen ser PDFs extensos, presentaciones, archivos Word o páginas web. Si se vectoriza directamente un documento completo, se corre el riesgo de «dilución» (un documento puede abarcar varios temas) y se perjudica la eficiencia de la recuperación. Por lo tanto, es necesario:
    1. Segmentar por párrafos, títulos, números de página y estructura de capítulos, equilibrando la «integridad semántica» y el «tamaño del fragmento»;
    2. Gestionar problemas de formato (tablas, fórmulas, OCR del texto en imágenes), eliminar ruido (encabezados, pies de página, índices, información de derechos de autor, etc.);
    3. Generar «etiquetas de contexto» para cada fragmento (como el documento de origen, el título del capítulo, el número de página), preparando la interpretación y las referencias posteriores.
  2. Embedding e índice vectorial Sobre la base de la segmentación, se generan vectores semánticos para cada fragmento de documento:
    1. Seleccionar un modelo de Embedding adecuado (por ejemplo, modelos semánticos generales o modelos ajustados al dominio), asegurando una buena capacidad de representación para el idioma de destino y la terminología del dominio;
    2. Utilizar FAISS, Milvus, PGVector u otras herramientas para construir índices vectoriales de alta dimensionalidad, con soporte para búsqueda aproximada de vecinos más cercanos a gran escala;
    3. Gestionar múltiples versiones y actualizaciones incrementales: cuando los documentos se actualizan, es necesario admitir estrategias de reconstrucción incremental del índice, registro de versiones y limpieza de versiones anteriores.
  3. Indexación de metadatos y filtrado Los vectores semánticos por sí solos no bastan para satisfacer necesidades complejas de filtrado; normalmente también se requiere construir un índice de metadatos:
    1. Añadir a cada fragmento metadatos como fecha, autor, origen, tipo de documento, línea de negocio, nivel de confidencialidad, etc.;
    2. Permitir el prefiltrado basado en metadatos durante la recuperación (por ejemplo, por rango de fechas, departamento, nivel de permisos), reduciendo los resultados irrelevantes;
    3. Sentar las bases para el control de permisos y la auditoría, evitando que el RAG filtre en sus respuestas contenido al que el usuario no tiene derecho de acceso.### 8.1.2 Recuperación y reordenación: de «recuperar documentos relevantes» a «encontrar la evidencia más adecuada»

Una vez construido el índice, cuando un usuario realiza una consulta, se entra en la fase de recuperación y reordenación. El objetivo clave no es simplemente «encontrar algunos documentos relacionados», sino hallar un conjunto de evidencias que sea relevante, tenga una cobertura suficiente y permita sustentar el razonamiento.

  1. Recuperación híbrida: complementariedad entre vectores y palabras clave La recuperación puramente vectorial destaca en la captura de similitud semántica, pero para términos precisos, nombres en clave, campos de tablas, etc., la recuperación por palabras clave (como BM25) suele ser más robusta. Por ello, en la práctica de ingeniería se adopta ampliamente la búsqueda híbrida (Hybrid Search):
    1. Primero se realizan en paralelo una búsqueda vectorial y una búsqueda por palabras clave sobre la consulta, obteniendo dos conjuntos de fragmentos de documentos candidatos;
    2. Mediante puntuación ponderada o estrategias de fusión aprendidas, se combinan ambas listas de candidatos;
    3. En algunos escenarios, se puede ajustar dinámicamente el peso entre la búsqueda vectorial y la de palabras clave según el tipo de consulta (p. ej., preguntas frecuentes tipo FAQ frente a localización de artículos legales).
  2. Reordenación (Re‑ranking): seleccionar el «conjunto de evidencias» con mayor precisión Los resultados iniciales de la recuperación suelen incluir muchos fragmentos «marginalmente relevantes» o redundantes, por lo que se necesita una reordenación para mejorar la calidad del Top‑K final:
    1. Usar un Cross‑Encoder (codificador cruzado) para codificar bidireccionalmente el par «consulta–fragmento» y puntuar su relevancia. En comparación con los modelos de embedding de dos torres, ofrece mayor precisión, pero con un coste computacional más elevado, por lo que resulta adecuado como etapa de reordenación secundaria;
    2. Cuando el rendimiento lo permita, incorporar un LLM para una reordenación ligera, dejando que el modelo juzgue qué fragmentos son realmente «útiles» basándose en una semántica y un contexto más ricos;
    3. Considerar simultáneamente la cobertura y la diversidad, evitando que todos los fragmentos recuperados se concentren en un mismo documento o párrafo, lo que restringiría el alcance de la respuesta.
  3. Optimización en bucle cerrado entre recuperación y generación En prácticas más avanzadas, la recuperación y la generación dejan de ser un flujo unidireccional y forman un bucle cerrado:
    1. Analizar el «uso» que el LLM hace de los resultados de recuperación (qué fragmentos se citan, cuáles se ignoran sistemáticamente) para guiar inversamente la optimización del índice y de la estrategia de segmentación;
    2. Aprovechar las señales de «preguntas de seguimiento/corrección» presentes en los registros de conversación para etiquetar y reentrenar muestras con fallos de recuperación o falsos positivos, aumentando así la robustez del sistema frente a consultas ambiguas y problemas de larga cola.### 8.1.3 Generacion y citas: responder bajo la restriccion de la evidencia

El ultimo eslabon es la capa de generacion, que determina directamente la experiencia del usuario. El objetivo aqui no es que el modelo "improvise libremente", sino que, bajo la restriccion de la evidencia recuperada, entregue respuestas claras, acotadas y con citas.

  1. Generacion controlada basada en el contexto recuperado En una arquitectura RAG, el LLM no recibe solo la pregunta del usuario, sino tambien varios fragmentos de documentos recuperados e instrucciones del sistema. Normalmente, el sistema:
    1. restringe mediante Prompt que el modelo "responda solo con base en los documentos proporcionados" y que "indique claramente si la respuesta no esta en los documentos";
    2. organiza el contexto recuperado de forma estructurada (secciones, numeracion, marcas de fuente), para que el modelo pueda entenderlo y citarlo con mayor facilidad;
    3. controla el formato de salida (listas, tablas, explicaciones por puntos, etc.) para adaptarlo a sistemas posteriores o a la presentacion en el frontend.
  2. Citas y explicabilidad (Source Citation) Para facilitar la auditoria y la trazabilidad, especialmente en ambitos de alto riesgo como derecho, medicina, finanzas y normas internas de empresa, las respuestas suelen necesitar citas explicitas:
    1. marcar las fuentes en la salida, por ejemplo "[Documento A, capitulo 3, seccion 2]" o "[Reglamento X, articulo 12]";
    2. permitir en la interfaz frontend saltar con un clic a la ubicacion original, para que el usuario pueda verificarla y seguir leyendo;
    3. guardar en backend el registro completo de "pregunta - resultados recuperados - fragmentos citados - respuesta final", aportando datos para control de riesgos y mejora del modelo.
  3. Variantes avanzadas de RAG: HyDE / ReAct + RAG, etc. Para mejorar los resultados en escenarios dificiles, en la practica tambien se usan variantes de RAG mas complejas:
    1. HyDE: el LLM genera primero un "documento de respuesta hipotetico" a partir de la pregunta y despues usa el vector de ese documento para recuperar documentos reales, mejorando asi la calidad del recall;
    2. ReAct + RAG: el LLM alterna "razonamiento (Reasoning) + accion (Action)" y llama varias veces a herramientas de recuperacion durante el razonamiento, refinando gradualmente la pregunta y anadiendo evidencia, como si "pensara mientras consulta";
    3. RAG multivuelta: durante la conversacion se conservan resultados de recuperacion y respuestas anteriores, formando una conversacion de conocimiento de largo plazo consciente del contexto, no solo un flujo de "una pregunta, una busqueda".

8.2 Datos estructurados y grafos de conocimiento (Structured Data & KG)

Si RAG se ocupa principalmente de "cómo buscar información en documentos no estructurados a gran escala", la capa de datos estructurados y grafos de conocimiento se orienta más a "cómo aprovechar de forma elegante el conocimiento estructurado en bases de datos, sistemas de informes y bases de datos de grafos".

En el entorno empresarial, los datos de negocio verdaderamente críticos —pedidos, clientes, contratos, inventarios, registros de comportamiento— suelen residir en bases de datos relacionales, almacenes de datos, motores OLAP o bases de datos de grafos. Estos sistemas son muy maduros en cuanto a capacidad de consulta, eficiencia de cálculo y auditoría, pero para el personal de negocio, escribir SQL/DSL directamente sigue teniendo una barrera de entrada elevada. Text‑to‑SQL / Text‑to‑DSL y respuesta a preguntas y razonamiento sobre grafos de conocimiento consisten en permitir que los LLM se integren como una "interfaz de lenguaje natural" y un "socio de razonamiento colaborativo", sin comprometer la estabilidad de estos sistemas.

  • Escenarios
    • Consultas inteligentes de BI y análisis autoservicio: el personal de negocio formula preguntas en lenguaje natural (como "muéstrame la tendencia de la tasa de recompra de nuevos clientes en el este de China en los últimos 3 meses") y el sistema genera automáticamente la SQL, consulta el almacén de datos y devuelve los resultados en lenguaje natural con gráficos de visualización.
    • Asistente de análisis de operaciones y ventas: los equipos de operaciones pueden explorar datos de forma conversacional ("¿por qué ha bajado la tasa de conversión de esta campaña?", "¿qué canales aportan más usuarios de alto valor?") y refinar progresivamente condiciones y dimensiones en múltiples turnos de diálogo.
    • Plataforma central de conocimiento de dominio: organiza entidades, conceptos, reglas y casos como un grafo de conocimiento, permitiendo explorar relaciones ascendentes y descendentes en torno a una entidad y realizar verificaciones de cumplimiento normativo.
    • Sistema de consultas y razonamiento sobre bases de datos de grafos: en escenarios como control de riesgos, prevención de blanqueo de capitales y análisis de cadena de suministro, combina bases de datos de grafos con LLM para responder y explicar preguntas sobre "cadenas de relaciones" y "razonamiento multi-salto".
  • Principios El núcleo de esta capa consiste en transformar al LLM de "alguien que da respuestas directamente" a "un asistente que sabe consultar bases de datos y bases de datos de grafos":
    • En consultas a bases de datos, el modelo debe comprender la intención del usuario en lenguaje natural, combinarla con el esquema de la base de datos (estructura de tablas, significado de los campos, restricciones, etc.) y generar SQL/GraphQL/DSL interno correcto, para luego interpretar y visualizar los resultados de la ejecución.
    • En escenarios de grafos de conocimiento, el sistema necesita primero extraer entidades y relaciones de documentos y registros para construir un grafo estructurado; después, durante la consulta, el LLM se encarga de traducir la pregunta en lenguaje natural a una consulta de grafo (como Cypher) y realizar razonamiento multi-salto e interpretación basándose en los resultados de la consulta.
    • A diferencia de RAG, aquí se enfatiza el acceso preciso a datos estructurados y estructuras de grafo, garantizando por un lado la corrección semántica y el rigor sintáctico, y por otro controlando los ataques de sondeo lateral, la exposición de datos sensibles y las consultas de alto coste.
  • Modelos La solución típica suele ser una arquitectura multimodal de "LLM + componentes especializados":
    • Modelos Text‑to‑SQL: modelos preentrenados o ajustados con corpus SQL a gran escala (como PICARD, DIN‑SQL, etc.), centrados en la corrección sintáctica y la alineación con el esquema, a veces acompañados de retroalimentación de ejecución para autocorrección.
    • Pipeline de extracción de información y construcción de grafos: mediante módulos de reconocimiento de entidades (NER), extracción de relaciones, extracción de eventos, etc., se construyen y actualizan grafos de conocimiento a partir de textos y registros; el LLM puede intervenir en la extracción de casos difíciles y en el juicio auxiliar de relaciones con límites difusos.
    • Consulta conjunta LLM + base de datos de grafos: el LLM se encarga del análisis de preguntas, la generación de consultas y la interpretación de resultados, mientras que la base de datos de grafos (como Neo4j, etc.) se encarga de la ejecución eficiente y la búsqueda de relaciones multi-salto; ambos se conectan mediante protocolos de llamada a herramientas o un DSL intermedio.

8.2.1 Consultas a bases de datos (Text‑to‑SQL / DSL) en la práctica

El objetivo de las consultas a bases de datos es permitir que el personal de negocio "pregunte a los datos en lenguaje natural", mientras el sistema genera, ejecuta e interpreta automáticamente las sentencias de consulta en segundo plano. Para hacerlo bien, la clave está en equilibrar precisión semántica, corrección sintáctica y seguridad de ejecución.

  1. Conversión de lenguaje natural a SQL / DSL En el flujo más básico, el sistema necesita:
    1. Analizar la intención del usuario: identificar el objeto de la consulta (como "nuevos clientes del este de China"), las condiciones de filtro (tiempo, región, canal), el método de agregación (total, promedio, interanual/mensual) y los requisitos de presentación (tendencia, ranking, Top‑N);
    2. Combinar con el esquema de la base de datos: comprender qué tablas y campos pueden expresar los conceptos anteriores, cómo realizar asociaciones (join), agrupaciones (group by) y ordenaciones;
    3. Generar SQL / GraphQL / DSL interno ejecutable y garantizar la validez estructural mediante validadores sintácticos o modelos Text2SQL especializados (PICARD, DIN‑SQL, etc.).
  2. Interpretación en lenguaje natural y visualización de los resultados de ejecución Tras la ejecución de la consulta, el sistema debe convertir el "conjunto de resultados frío" en "información comprensible":
    1. Producir una explicación textual para resultados simples, como "en los últimos 3 meses, la tasa de recompra de nuevos clientes del este de China muestra una tendencia general al alza, pasando del 15% al 21%";
    2. Seleccionar la forma de visualización adecuada para resultados complejos (gráfico de líneas, barras, sectores, distribución, etc.) y ofrecer un análisis breve;
    3. Permitir al usuario seguir preguntando a partir de los resultados actuales (como "¿de qué canales proviene principalmente este crecimiento?"), construyendo automáticamente nuevas consultas basándose en la SQL histórica y el contexto.
  3. Seguridad y control: evitar "consultas indiscriminadas" y "accesos no autorizados" Dado que la SQL generada por el LLM es altamente flexible, debe existir una capa de seguridad y gobernanza:
    1. Restringir estrictamente las bases de datos, tablas, campos y rangos temporales consultables según el rol y los permisos del usuario;
    2. Establecer reglas de revisión estática/dinámica para la SQL generada por el modelo, filtrando operaciones peligrosas (como escaneos de amplio alcance, joins de alto coste, consultas entre inquilinos, etc.);
    3. Registrar íntegramente la cadena "pregunta en lenguaje natural – SQL generada – resultado de ejecución – respuesta final" para fines de auditoría y análisis de anomalías.

8.2.2 Construcción y consulta de grafos de conocimiento

Los grafos de conocimiento buscan organizar el conocimiento disperso en textos, tablas y registros en una red estructurada de "entidades – relaciones – atributos – eventos", para soportar mejor la exploración de relaciones, el razonamiento multi-salto y las consultas complejas. En esta dirección, los LLM complementan eficazmente la extracción de información tradicional y las bases de datos de grafos.

  1. Extracción de entidades y relaciones de documentos para construir el grafo La construcción de un grafo de conocimiento suele emplear un pipeline en varias fases:
    1. Extracción de información: utilizando modelos de NER, extracción de relaciones, extracción de eventos, etc., para identificar a partir del texto entidades (personas, organizaciones, productos, lugares, conceptos, etc.), las relaciones entre ellas (pertenencia, colaboración, dependencia, causalidad) y eventos clave (transacciones, riesgos, cambios);
    2. Normalización y alineación: unificar las distintas denominaciones de una misma entidad (abreviaturas, alias, variantes ortográficas) y alinearlas con un ID unificado;
    3. Actualización del grafo y gestión de versiones: soportar actualizaciones incrementales, resolución de conflictos y corrección de errores, garantizando que el grafo mantenga su calidad y consistencia a lo largo de su evolución. El LLM puede asistir a los algoritmos tradicionales en tareas como resolución de ambigüedades, refinamiento de tipos de relación e inducción de reglas.
  2. Consulta y razonamiento con LLM + base de datos de grafos (Neo4j, etc.) Una vez construido el grafo, la base de datos de grafos se encarga del almacenamiento y la recuperación eficientes, mientras que el LLM asume el papel de "punto de entrada en lenguaje natural + controlador de razonamiento":
    1. Análisis de preguntas y generación de consultas de grafo: traducir preguntas en lenguaje natural a sentencias de consulta de grafo (como Cypher de Neo4j), incluyendo la determinación de la entidad de partida, los tipos de relación, la longitud del camino y las condiciones de filtro;
    2. Razonamiento multi-salto: a partir de los caminos y subgrafos locales obtenidos mediante consultas de grafo, el LLM realiza la interpretación e inducción, como "el cliente A está conectado indirectamente con la entidad de alto riesgo B a través de tres empresas";
    3. Visualización de resultados y explicabilidad: presentar los resultados de la consulta de grafo en forma de red visualizada, acompañados de una explicación verbal del LLM que ayude al usuario a comprender estructuras de relación complejas.
  3. Plataforma central de conocimiento de dominio y servicio unificado En aplicaciones empresariales o sectoriales de mayor escala, el grafo de conocimiento suele funcionar como una "plataforma central de conocimiento de dominio":
    1. Proporcionar una vista unificada de entidades y relaciones para los sistemas de negocio superiores (control de riesgos, cumplimiento normativo, vista 360 del cliente, análisis de cadena de suministro, etc.);
    2. Constituir, junto con RAG y las consultas a bases de datos, una capa de servicio de conocimiento unificada, donde una lógica de orquestación central del LLM decide si la pregunta actual debe acceder al índice documental, a la base de datos relacional o a la base de datos de grafos;
    3. Bajo requisitos de seguridad y cumplimiento, reducir aún más el riesgo de fuga de información sensible mediante políticas de control de acceso y enmascaramiento de datos a nivel de grafo.

El objetivo común de esta capa es elevar "el modelo sabe hablar" a "el modelo sabe hablar y además está realmente conectado con los datos y activos de conocimiento reales de la empresa". Cuando RAG, Text‑to‑SQL, los grafos de conocimiento y la infraestructura de datos tradicional se combinan de forma efectiva, los sistemas de IA pueden mantener inteligencia y flexibilidad en entornos de negocio complejos, al tiempo que poseen controlabilidad, explicabilidad y capacidad de evolución a largo plazo.# 9. Seguridad, Alineación y Evaluación (Safety / Alignment / Evaluation)

En los capítulos anteriores, nos centramos más en "lo que el modelo puede hacer": entender imágenes, escribir código, conversar con los usuarios. Pero en un sistema real de modelos grandes, tener simplemente "capacidad" no es suficiente: ¿cómo demostrar que estas capacidades son estables, fiables y controlables? ¿Cómo garantizar que los resultados cumplen con los valores y requisitos normativos? ¿Cómo monitorizar, iterar y realizar regresiones de forma continua durante una operación a largo plazo? Esta capa se ocupa precisamente de: evaluación de capacidades y pruebas de referencia (benchmarking), alineación de valores y entrenamiento, seguridad del contenido y cumplimiento normativo, así como robustez y control de alucinaciones, todo lo cual constituye en conjunto una "capa de infraestructura" para la operación sostenible de modelos grandes.

Desde la perspectiva del producto, estas capacidades abarcan todo el ciclo de vida del modelo: en la fase de laboratorio, el modelo necesita benchmarks estándar y evaluaciones profesionales; antes del despliegue, debe pasar por entrenamiento de alineación y revisión de seguridad; tras el lanzamiento, depende de pasarelas de seguridad de contenido, auditorías de registros y pruebas A/B para una monitorización continua; y ante nuevos escenarios y nuevas amenazas, es necesario volver a las fases de evaluación y alineación para reentrenar y validar. A continuación, desarrollamos el tema desde cuatro direcciones: evaluación de capacidades y benchmarking, alineación de valores y entrenamiento, seguridad del contenido y cumplimiento normativo, y robustez y control de alucinaciones.## 9.1 Evaluación de Capacidades y Benchmarks (Capability Evaluation & Benchmarks)

En el desarrollo y despliegue de modelos de lenguaje a gran escala, la evaluación de capacidades y los benchmarks constituyen el eslabón clave para convertir la "capacidad del modelo" en una "señal observable": se debe responder tanto a la pregunta "¿qué nivel general tiene este modelo?" como a "¿cómo se desempeña en un dominio profesional específico o en un escenario de negocio real?". Por un lado, utilizamos conjuntos de benchmarks estandarizados y sistemas de evaluación automatizada para medir el rendimiento del modelo en dimensiones universales como comprensión y generación de lenguaje, razonamiento y matemáticas, conocimiento y factualidad; por otro lado, también es necesario construir evaluaciones especializadas para dominios como medicina, derecho, finanzas y educación, y validarlas y corregirlas continuamente mediante diálogos reales con usuarios, pruebas A/B y métricas de negocio (Task Success Rate, CSAT, tasa de cierre de tickets, etc.). En conjunto, esta capa se consolida finalmente en una plataforma interna de evaluación de capacidades y una "ficha de capacidades" externa, proporcionando una base unificada para la toma de decisiones en la selección de modelos en entornos multiversión, multiinquilino y multiescenario. A continuación se desarrolla desde tres perspectivas: escenarios, principios y modelos.

  • Escenarios
    • Escenarios de evaluación de capacidades generales: al actualizar un modelo base o una versión mayor, se necesita evaluar sistemáticamente su rendimiento en tareas de comprensión y generación de lenguaje como comprensión lectora, resumen, traducción y calidad de diálogo, así como su capacidad en tareas de razonamiento y matemáticas como aritmética, razonamiento en múltiples pasos y problemas de código/lógica. Al mismo tiempo, se mide su nivel de conocimiento y factualidad mediante preguntas factuales, QA de dominio abierto y tareas de cobertura de conocimiento, para determinar si "el nuevo modelo supone una mejora global".
    • Escenarios de evaluación en dominios profesionales: para sectores especializados como medicina, derecho, finanzas y educación, es necesario diseñar preguntas profesionales y simulaciones de decisión, como preguntas sobre enfermedades y recomendaciones de triaje, comprensión de textos legales y clasificación de casos, análisis de inversión y financiación con juicio de riesgos, y tutoría educativa con resolución de dudas. Además, se debe probar la consistencia y estabilidad del modelo en entornos multilingües y multiculturales, para confirmar si puede "decir lo correcto y lo apropiado" en contextos de alto riesgo.
    • Escenarios de evaluación en entornos reales y métricas de negocio: durante la fase de lanzamiento y operación continua del producto, mediante la reproducción de registros de diálogos de usuarios y pruebas A/B en línea, se vincula el rendimiento del modelo con métricas de negocio como tasa de finalización de tareas (Task Success Rate), satisfacción del usuario (CSAT) y tasa de cierre de tickets. En este punto, el objeto de evaluación es en realidad el sistema completo "modelo + estrategia + flujo del producto", utilizado para guiar la reversión de versiones, el ajuste de estrategias y el despliegue gradual de nuevas funcionalidades.
  • Principios El sistema de evaluación de capacidades puede considerarse como un "sistema de ingeniería de medición" estratificado, cuyos principios fundamentales incluyen:
    • Benchmarks estandarizados: escala común y experimentos reproducibles
      • Lenguaje / Razonamiento: uso de tareas integrales como MMLU y BIG-Bench, junto con problemas matemáticos y lógicos como GSM8K y MATH, para construir una escala unificada de comprensión del lenguaje, dominio del conocimiento y razonamiento en múltiples pasos.
      • Programación: mediante HumanEval, MBPP y bancos de problemas de Codeforces, se cuantifica la capacidad de generación de código, reparación de programas y resolución de problemas.
      • Multimodal: utilizando benchmarks como VQA, MMBench, ScienceQA y MathVista para evaluar la comprensión texto-imagen, las preguntas y respuestas visuales y el razonamiento matemático sobre imágenes. Estos benchmarks enfatizan la estandarización, reproducibilidad y comparabilidad, facilitando la comparación horizontal entre modelos e instituciones y su divulgación externa.
    • Evaluación automatizada: escalabilidad y regresión continua
      • LLM-as-a-Judge: uso de modelos más potentes o especialmente entrenados para puntuar/clasificar respuestas, evaluando corrección, completitud, estilo y seguridad, logrando una evaluación subjetiva automatizada a gran escala.
      • Métricas basadas en reglas: como BLEU / ROUGE / BERTScore para medir la similitud textual, Pass@k para medir la tasa de aprobación en problemas de código, etc., permitiendo comparar rápidamente las diferencias entre versiones sobre conjuntos de datos fijos. La clave de la evaluación automatizada reside en la estabilidad y consistencia: aunque no sea perfecta, siempre que "el sesgo sea consistente", puede reflejar de forma fiable los cambios relativos del modelo en integración continua (CI).
    • Evaluación humana: alineación con la percepción humana y los objetivos de negocio
      • Comparación por pares (Pairwise) y anotación con puntuación: anotadores realizan selección pairwise o puntuación multidimensional (helpful / honest / harmless, etc.) sobre las respuestas de los modelos A/B, constituyendo una fuente de datos importante para el entrenamiento de modelos de recompensa en RLHF / RLAIF.
      • Experimentos con usuarios en línea: mediante pruebas A/B en escenarios reales como asistentes de diálogo, búsqueda/recomendación, se observa directamente el impacto de diferentes modelos/estrategias en indicadores como satisfacción del usuario y tasa de conversión. La evaluación humana se utiliza tanto para calibrar la evaluación automatizada como para constituir una base importante a la hora de "explicar el comportamiento del modelo" externamente.
  • Modelos En la práctica de ingeniería, la evaluación de capacidades se consolida en un conjunto relativamente completo de "plataforma + flujo + sistema de indicadores":
    • Plataforma interna de evaluación de capacidades y pipeline de CI: gestiona de forma unificada diversos conjuntos de benchmarks, scripts de evaluación, configuraciones de LLM-as-a-Judge y herramientas de anotación humana, permitiendo activar con un solo clic la regresión de benchmarks tras la incorporación de un nuevo modelo o estrategia; agrega automáticamente los cambios en los indicadores de diferentes tareas y dimensiones, proporcionando un dashboard de visualización y alertas de regresión.
    • "Ficha de capacidades" externa y perfil del modelo: consolida los resultados de la evaluación interna en una "ficha de capacidades" consumible externamente, que incluye puntuaciones representativas en benchmarks, escenarios de uso recomendados (como diálogo general, asistencia en código, comprensión multimodal, etc.), limitaciones conocidas y escenarios no recomendados, ayudando a los clientes a formarse expectativas correctas y proporcionando una base para el cumplimiento normativo y la delimitación de responsabilidades.
    • Herramienta unificada de evaluación y selección de modelos multiinquilino/multiversión: bajo el mismo sistema de evaluación, compara de forma unificada modelos de diferentes tamaños, estrategias de alineación o arquitecturas, permitiendo configurar ponderaciones por sector, región y requisitos de SLA, y generando automáticamente una puntuación integral de "rendimiento–coste–latencia", para ayudar a los equipos de producto y negocio en la selección de modelos y en las decisiones de despliegue gradual (canary release).

9.1.1 Evaluación de capacidades generales y profesionales: del Benchmark a la validación en escenarios

La evaluación de capacidades generales y profesionales constituye la "primera capa de cimientos" de todo el sistema de evaluación, con el foco puesto en: primero medir las capacidades fundamentales del modelo con una escala unificada, y luego validar su usabilidad y riesgos en escenarios profesionales.

En la evaluación de capacidades generales, las tareas suelen desglosarse en tres dimensiones: comprensión y generación de lenguaje, razonamiento y matemáticas, y conocimiento y factualidad. La primera, mediante tareas de comprensión lectora, resumen, traducción y calidad de diálogo, verifica si el modelo puede comprender con precisión el contexto, controlar el estilo y producir texto coherente; la segunda, mediante aritmética, razonamiento en múltiples pasos y problemas de código/lógica, evalúa la capacidad del modelo en cadenas de razonamiento complejas y estructuras de programa; la tercera, mediante preguntas factuales y QA de dominio abierto, mide la cobertura de conocimiento y el nivel de factualidad. En la evaluación de dominios profesionales, es necesario invitar a expertos del sector a participar en el diseño de datos: por ejemplo, en preguntas médicas se configuran contextos con historial clínico y resultados de análisis, exigiendo al modelo que incluya advertencias de riesgo y límites en las recomendaciones médicas; en tareas legales se diseñan búsquedas de disposiciones, comparación de casos y análisis de aplicabilidad jurídica; en finanzas y educación, el foco se pone en la divulgación normativa y la orientación pedagógica. Esta capa de evaluación suele combinar conjuntos de benchmarks estandarizados con conjuntos de datos propios, buscando tanto la comparabilidad como la relevancia para el negocio.

9.1.2 Evaluación automatizada y LLM-as-a-Judge: haciendo la evaluación escalable

Cuando la escala de tareas y el número de versiones de modelos crecen rápidamente, depender únicamente de la evaluación humana ya no basta para satisfacer las necesidades de evaluación, siendo necesario implementar un sistema de evaluación automatizada para lograr escalabilidad y regresión de alta frecuencia.

Un enfoque consiste en utilizar métricas tradicionales basadas en reglas: en tareas de traducción y resumen, se comparan con respuestas de referencia usando BLEU / ROUGE / BERTScore; en tareas de código, se usa Pass@k para comprobar si al menos una de las múltiples muestras generadas pasa las pruebas unitarias. Estas métricas son simples de implementar y altamente automatizables, pero resultan insensibles a la diversidad de respuestas y a los matices de estilo. Otro enfoque más representativo es LLM-as-a-Judge: utilizar un modelo más potente o especialmente entrenado como "juez calificador", que según una rúbrica de puntuación predefinida, evalúa dimensionalmente o clasifica por pares las salidas del modelo bajo prueba. Esto permite realizar evaluaciones automatizadas eficientes incluso en tareas de QA abierta y diálogo donde no existen respuestas estándar y las respuestas son diversas. En la práctica de ingeniería, los criterios de puntuación y los prompts de LLM-as-a-Judge deben calibrarse e iterarse con datos anotados por humanos para garantizar su consistencia con los jueces humanos.

9.1.3 Evaluación humana y métricas de negocio: cerrando el ciclo hacia la experiencia real del usuario

Por muy completas que sean las métricas offline, solo pueden aproximarse a la experiencia real del usuario. Para cerrar el ciclo de la evaluación de capacidades hacia el negocio, es necesario introducir tanto la evaluación humana como los experimentos en línea.

En el ámbito de la evaluación humana, lo más habitual es la comparación por pares (Pairwise): se pide a los anotadores que, sin conocer la identidad del modelo y basándose en dimensiones como helpful / honest / harmless, elijan o puntúen su preferencia entre las respuestas A/B, obteniendo así datos de preferencia de alta calidad que, por un lado, se utilizan para la evaluación directa y, por otro, pueden servir para entrenar modelos de recompensa en RLHF / RLAIF. En el ámbito de negocio, mediante pruebas A/B en línea, se compara el impacto de diferentes modelos, prompts y configuraciones de estrategias en indicadores clave como la tasa de finalización de tareas, la satisfacción del usuario (CSAT) y la tasa de cierre de tickets, complementado con la reproducción de registros de diálogos de usuarios y muestreos manuales, para monitorizar continuamente el rendimiento real del modelo tras su puesta en producción. Los resultados de esta capa de evaluación retroalimentan a su vez la dirección prioritaria y el ajuste de ponderaciones de la plataforma de evaluación de capacidades, formando un ciclo cerrado de "indicadores offline — evaluación humana — indicadores en línea".## 9.2 Alineación de valores y entrenamiento (Value Alignment & Training)

Después de contar con sólidas capacidades fundamentales, para que un modelo grande se convierta en un producto "seguro, confiable y controlable", debe pasar por un proceso de alineación de valores y entrenamiento. Esta capa ya no se centra en si el modelo "puede responder", sino en "si la respuesta es útil, honesta e inofensiva", así como en "cómo debe expresarse en diferentes roles y sectores". Desde una perspectiva de ingeniería, el proceso de alineación comprende aproximadamente tres pasos: primero, definir claramente los objetivos de alineación (What to Align) mediante documentos y normativas, desglosando los conceptos de útil (Helpful), honesto (Honest) e inofensivo (Harmless) en criterios etiquetables y entrenables; segundo, construir un conjunto amplio de datos de instrucción y datos de seguridad, que abarquen tareas normales, casos límite y respuestas inapropiadas; tercero, mediante métodos como SFT, RLHF/RLAIF y modelado de estrategias de rechazo/redirección, "escribir" estas preferencias y reglas en el comportamiento del modelo, complementado con gestión de diálogo y motores de políticas en capas superiores para lograr una alineación de seguridad de extremo a extremo. A continuación, se desarrolla desde tres perspectivas: escenarios, principios y modelos.

  • Escenarios
    • Escenario de asistente general para usuario final (C-end): Asistentes de chat y búsqueda de información dirigidos al público general, que deben mantener una actitud "amigable, útil y sin extralimitarse" en una amplia gama de temas: responder de forma profesional y centrada en la tarea, expresar honestamente las limitaciones cuando haya incertidumbre y rechazar o redirigir con tacto las solicitudes claramente inapropiadas.
    • Escenario de asistente profesional sectorial: En ámbitos como salud, derecho, finanzas o educación, además de la seguridad básica, se deben superponer normativas sectoriales: por ejemplo, un asistente médico debe enfatizar repetidamente su "carácter no diagnóstico + advertencias de riesgo + recomendación de consultar a un profesional", un asistente legal debe evitar sugerir formas de eludir la ley, un asistente financiero debe cumplir con los requisitos de divulgación regulatoria de inversiones y un asistente educativo debe considerar la protección de menores y la adecuación del contenido por edad.
    • Escenario de capa de alineación configurable para empresas (B-end): Las empresas a menudo desean integrar, sobre una base de seguridad genérica, sus propios requisitos sectoriales, tono de marca y políticas internas, por lo que se necesita una capa de alineación configurable que permita a los clientes ajustar los umbrales de seguridad, las categorías sensibles y el estilo de comunicación sin tener que reentrenar el modelo grande subyacente.
  • Principios La alineación de valores puede entenderse como "restringir el espacio de comportamiento del modelo mediante los valores humanos y organizacionales". Sus principios fundamentales incluyen:
    • Definición de objetivos de alineación (What to Align)
      • Útil (Helpful): Las respuestas deben ser de alta calidad, profesionales, bien estructuradas y centradas en el objetivo de la tarea, sin divagaciones ni charlas excesivas.
      • Honesto (Honest): Evitar en lo posible inventar información; cuando falte conocimiento o la comprensión sea ambigua, reconocer proactivamente la incertidumbre, ofrecer rangos estimados o sugerir canales de verificación.
      • Inofensivo (Harmless): Respetar la legislación y las políticas de la plataforma, evitar generar contenido que incite al odio, la discriminación, el autolesionismo o la comisión de delitos, y respetar la dignidad y los límites del usuario. Estos objetivos se plasman en guías de etiquetado y documentos de políticas, convirtiéndose en el estándar unificado para la posterior construcción de datos, modelado de recompensas y evaluación.
    • Construcción de datos de entrenamiento para alineación
      • Datos de instrucción (Instruction): Diseñar instrucciones de tareas e respuestas ideales que cubran una amplia variedad de escenarios como preguntas y respuestas, redacción, resúmenes, código y planificación, enseñando al modelo el comportamiento óptimo ante "solicitudes normales".
      • Datos de seguridad (Safety): Construir muestras comparativas de "buena respuesta vs. respuesta inapropiada", prestando especial atención a las zonas grises (gray zone), como información divulgativa vs. instrucciones operativas concretas, apoyo emocional vs. incitación al autolesionismo, debate legítimo vs. incitación al odio, proporcionando al modelo ejemplos detallados de límites.
    • Métodos de entrenamiento de alineación
      • SFT (Supervised Fine-Tuning): El ajuste fino supervisado sobre datos de diálogo/instrucción de alta calidad es el primer paso para moldear el comportamiento y el tono de referencia del modelo.
      • RLHF / RLAIF: Construir datos de preferencia mediante puntuaciones humanas o del propio modelo, entrenar un modelo de recompensa y luego realizar una optimización de políticas para que el modelo tienda a generar respuestas "preferidas" (más útiles, más seguras, más honestas).
      • Modelado de estrategias de rechazo/redirección: Para solicitudes de alto riesgo o inapropiadas, entrenar al modelo no solo para rechazarlas, sino también para ofrecer una explicación razonable y redirigir al usuario hacia alternativas seguras (por ejemplo, proporcionar recursos de ayuda, recomendar consultar a un profesional, etc.).
  • Modelos En el diseño del sistema, la alineación de valores suele materializarse como una combinación de "entrenamiento de alineación en la capa inferior + barreras de políticas en la capa superior":
    • Modelo alineado SFT + RLHF / RLAIF: La fase SFT enseña al modelo los patrones básicos de respuestas ideales; la fase RLHF/RLAIF "restringe" aún más el comportamiento mediante aprendizaje de preferencias, acercándolo a las preferencias humanas y los estándares de seguridad. En la dimensión de seguridad, se puede construir un cabezal de recompensa o clasificador específico para la nocividad, utilizado para aplicar penalizaciones durante la optimización de políticas.
    • Constitutional AI / Policy-based Alignment: Redactando primero un conjunto de reglas ("Constitución" o documento de políticas) y haciendo que el modelo realice autocrítica y reescritura según dichas reglas, se generan grandes volúmenes de "datos de corrección auto-supervisados", lo que reduce el coste humano a la vez que refuerza la interiorización de las reglas por parte del modelo.
    • Gestión de diálogo y detección de intención coordinadas: En el pipeline de producto, se traslada parcialmente la lógica de seguridad/alineación a la capa de gestión de diálogo, donde mediante reconocimiento de intención, llenado de slots y enrutamiento de tareas se decide si la solicitud se envía al modelo grande, si necesita filtrado de seguridad adicional o una respuesta con plantilla. Esto crea un doble seguro de "alineación del modelo + barreras de políticas".
    • Plataforma interna de alineación y configuración de roles: Construir una plataforma interna de alineación que proporcione herramientas de etiquetado/puntuación, gestión de versiones de políticas y pipelines de entrenamiento; además, permitir la configuración de objetivos de alineación y estilos de comunicación diferenciados para distintos roles (atención al cliente, asesoramiento médico, tutoría educativa, etc.), de modo que el mismo modelo base muestre personalidades distintas pero consistentes y controlables en diferentes productos.

9.2.1 Objetivos de alineación y datos de entrenamiento: convertir los valores en señales aprendibles

El primer paso de la alineación de valores es traducir los "valores abstractos" en señales que el modelo pueda aprender, lo cual depende de la definición de objetivos de alineación y la construcción de datos de entrenamiento.

En cuanto a los objetivos de alineación, el equipo suele elaborar un conjunto detallado de documentos de normas de comportamiento, desglosando los conceptos de Helpful/Honest/Harmless en cláusulas concretas, tales como: prohibir proporcionar pasos operativos detallados para ciertas acciones de alto riesgo, exigir exenciones de responsabilidad y advertencias de riesgo en consejos médicos/legales, mantener neutralidad y presentar múltiples perspectivas en temas controvertidos, etc. A continuación, en la fase de datos de instrucción, se construyen tareas diversificadas y respuestas ideales en torno a estos indicadores, cubriendo escenarios de chat, redacción, código, preguntas y respuestas, e integrando contextos multilingües y multiculturales; en la fase de datos de seguridad, se elaboran ejemplos emparejados de "buena/mala respuesta" para contenido nocivo, dominios de alto riesgo y zonas grises, proporcionando material de entrenamiento para el posterior aprendizaje de preferencias y los clasificadores de seguridad. De este modo, los objetivos de valor se "traducen" a una distribución real de datos, convirtiéndose en señales directamente perceptibles para el entrenamiento del modelo.

9.2.2 SFT, RLHF/RLAIF y estrategias de rechazo: moldear el comportamiento del modelo

Una vez definidos los objetivos de alineación y los datos, el siguiente paso consiste en incorporar estos objetivos al comportamiento del modelo mediante un proceso de entrenamiento en múltiples fases.

En la fase SFT, el modelo se somete a un ajuste fino supervisado con datos de demostración humana de alta calidad, similar a un "aprendizaje con libro de texto": esto determina el tono, la estructura y el paradigma estándar de resolución de problemas del modelo ante la gran mayoría de solicitudes normales. Posteriormente, mediante RLHF/RLAIF se realiza una optimización de preferencias: primero se entrena un modelo de recompensa utilizando etiquetas de preferencia generadas por anotadores humanos o por un LLM más grande, y después se emplean algoritmos de optimización de políticas (como PPO) para ajustar el modelo y que tienda a obtener recompensas más altas en sus generaciones. De esta forma, el modelo no solo "sabe qué aspecto tiene una respuesta correcta", sino también "qué tipo de respuesta se ajusta mejor a las preferencias humanas y los requisitos de seguridad". Sobre esta base, se modelan específicamente diversas estrategias de rechazo y redirección: para preguntas claramente ilegales, de muy alto riesgo o inapropiadas para ser respondidas por una IA, el modelo debe aprender a dar un rechazo claro con una explicación y ofrecer vías alternativas seguras (como líneas de ayuda, consulta profesional, etc.), en lugar de simplemente guardar silencio o dar evasivas.

9.2.3 Capa de políticas y plataforma de alineación: hacer que la alineación sea configurable y evolutiva

Incluso cuando el modelo subyacente ha sido sometido a un entrenamiento de alineación exhaustivo, en un sistema real sigue siendo necesaria una capa de políticas y una plataforma de alineación para lograr un control más detallado y capacidad de evolución.

La capa de políticas suele incluir reconocimiento de intención, evaluación de riesgos y lógica de enrutamiento: cuando una entrada del usuario llega al sistema, un modelo ligero evalúa primero su intención, dominio y nivel de riesgo, y luego decide si invocar directamente el modelo grande, si se necesita un filtrado de seguridad adicional, o si debe dirigirse a una respuesta con plantilla o a un canal humano. Para distintos sectores y clientes, la capa de políticas puede cargar diferentes configuraciones de políticas, permitiendo personalizar las categorías sensibles, el estilo de rechazo y el tono de marca. Paralelamente, la plataforma interna de alineación gestiona todos los activos relacionados con la alineación: herramientas de etiquetado/puntuación, versiones de modelos de recompensa, registros de cambios de políticas, resultados de pruebas A/B en línea, etc., lo que permite al equipo iterar rápidamente las políticas de alineación y realizar despliegues graduales sin necesidad de reentrenar frecuentemente el modelo base, manteniendo así un control continuo sobre el comportamiento del modelo.## 9.3 Seguridad de contenido y cumplimiento normativo (Content Safety & Compliance)

A medida que los grandes modelos se integran en motores de búsqueda, diálogos, creación de contenido, plataformas sociales e incluso sistemas internos empresariales, la seguridad de contenido y el cumplimiento normativo han pasado de ser una "funcionalidad adicional" a un "requisito de entrada". Esta capa se centra en: si el modelo genera contenido ilegal o dañino al producir texto, imágenes, audio o video; si el sistema cumple con las leyes y regulaciones del país/región y del sector correspondiente al procesar datos de usuario; y si, ante auditorías y supervisiones regulatorias, puede proporcionar una cadena de evidencia clara y trazable. Para ello, necesitamos construir un sistema técnico y de gobernanza completo que cubra la moderación de contenido multimodal, el cumplimiento regional y sectorial, y la privacidad y protección de datos locales, y empaquetarlo en formas de producto como servicios SaaS de seguridad de contenido, plataformas intermedias de cumplimiento empresarial y pasarelas de seguridad sectoriales. A continuación, lo desarrollamos desde tres perspectivas: escenarios, principios y modelos.

  • Escenarios
    • Escenario de moderación y filtrado de contenido multimodal: En productos de diálogo, plataformas UGC, comunidades y aplicaciones sociales, los grandes modelos generan o reciben grandes volúmenes de contenido de texto, imagen, audio y video, lo que requiere una capacidad unificada de moderación multimodal para identificar y bloquear en tiempo real salidas de alto riesgo que involucren privacidad personal, instrucciones para actividades delictivas, incitación al odio, violencia extrema, contenido sexual y contenido inapropiado relacionado con menores.
    • Escenario de restricciones de cumplimiento y localización: Las leyes y regulaciones de diferentes países/regiones imponen requisitos distintos sobre protección de datos, protección de menores y supervisión de contenido; diferentes sectores (salud, finanzas, educación, publicidad, etc.) también tienen normas de cumplimiento específicas. Por lo tanto, el sistema debe permitir cargar diferentes plantillas de políticas según región y sector para cumplir con los requisitos regulatorios locales.
    • Escenario de privacidad del usuario y protección de datos: Durante el entrenamiento del modelo y los servicios en línea, se procesan grandes cantidades de diálogos de usuarios y datos de negocio. Cómo lograr la anonimización, el enmascaramiento y la recolección mínima de datos, al mismo tiempo que se protege la privacidad mediante medios técnicos e institucionales durante el entrenamiento y la inferencia, constituye otro pilar del sistema de seguridad de contenido y cumplimiento, especialmente en sectores altamente sensibles como finanzas y salud.
  • Principios Los principios subyacentes de la seguridad de contenido y el cumplimiento normativo se pueden dividir en tres niveles: políticas, filtrado y privacidad:
    • Sistema de políticas de seguridad (Policy Engine)
      • Formaliza las leyes, regulaciones, normas de plataforma y estándares sectoriales como políticas ejecutables y, mediante un motor de reglas combinado con puntuaciones del modelo, clasifica el contenido por nivel de riesgo (seguro / zona gris / alto riesgo).
      • Permite seleccionar diferentes plantillas de políticas según el escenario y el cliente, por ejemplo, configurando distintas categorías sensibles y umbrales para productos dirigidos a adolescentes, comunidades profesionales o empresas multinacionales.
    • Filtrado de contenido en múltiples niveles: antes – durante – después
      • Antes: Intercepta y reescribe los prompts del usuario (Prompt Shielding), bloqueando intenciones claramente ilegales o altamente sensibles antes de que la solicitud llegue al modelo principal, o redirigiéndolas hacia expresiones más seguras.
      • Durante: Mientras el modelo genera la salida, se utilizan modelos de clasificación de seguridad y reglas para realizar una revisión en tiempo real (Real-time Safety Filter), truncando, reemplazando, difuminando o activando una respuesta de rechazo para el contenido de alto riesgo.
      • Después: Se realiza un muestreo y auditoría de los registros de diálogo y generación, con revisión humana complementaria, para analizar el origen de los problemas detectados, actualizar las políticas y los modelos, y proporcionar registros trazables para la supervisión regulatoria externa.
    • Tecnologías de protección de privacidad y gobernanza de datos
      • Antes del almacenamiento y entrenamiento de datos, se aplica anonimización y enmascaramiento a los datos de diálogo de los usuarios, eliminando o sustituyendo campos sensibles como nombres, números de identificación, números de teléfono y direcciones, y siguiendo el principio de recolección mínima para conservar solo la información necesaria.
      • En ciertos escenarios, se emplea privacidad diferencial (DP) para limitar la influencia de muestras individuales en los parámetros del modelo, o mediante aprendizaje federado (FL) se mantiene el entrenamiento en el dominio de datos local, evitando que los datos originales se trasladen a la nube.
      • Se utilizan mecanismos de control de acceso como RBAC / ABAC para restringir estrictamente quién puede acceder a qué nivel de registros y datos sensibles, complementados con registros de auditoría que garantizan la trazabilidad de las rutas de acceso.
  • Modelos Desde la perspectiva del diseño de producto y sistema, la seguridad de contenido y el cumplimiento normativo evolucionan hacia un conjunto de "servicios y plataformas intermedias de seguridad" reutilizables:
    • Servicio SaaS de seguridad de contenido: Encapsula las capacidades de moderación de texto / imagen / audio / video en una API unificada, integrándose con las aplicaciones upstream; recibe contenido y devuelve el tipo de riesgo, la clasificación y las recomendaciones de acción (permitir, bloquear, revisión humana), ayudando a los desarrolladores a integrar rápidamente módulos de seguridad.
    • Plataforma intermedia de cumplimiento empresarial interno: Proporciona a grandes empresas capacidades centralizadas de configuración de políticas de cumplimiento, informes de auditoría y alertas de riesgo, integrándose con los sistemas de negocio internos y los equipos de revisión humana, de modo que cada línea de negocio ejecute reglas personalizadas bajo una política unificada y satisfaga los requisitos de informes regulatorios externos.
    • Pasarela de seguridad específica para sectores de alto riesgo y sistema de auditoría de registros: En sectores de alto riesgo como finanzas y salud, una pasarela de seguridad específica actúa como proxy de todas las llamadas al modelo principal, inspeccionando y desensibilizando el tráfico en tiempo real, reteniendo los registros críticos en ubicaciones locales o conformes con la regulación, y proporcionando capacidades detalladas de auditoría de acceso y trazabilidad de eventos para cumplir con estrictos requisitos regulatorios.

9.3.1 Moderación multimodal y motor de políticas: convertir las reglas en "código ejecutable"

Un sistema real de seguridad de contenido debe primero ser capaz de "entender" el contenido proveniente de diferentes canales y modalidades, para luego materializar las políticas en cada solicitud y respuesta.

En cuanto a la moderación multimodal, el sistema generalmente construye múltiples modelos de detección para texto, imagen y video: los modelos de texto identifican palabras clave sensibles, contexto y expresiones implícitas; los modelos de imagen y video detectan violencia, contenido sexual, menores, símbolos de odio y objetos ilegales, y cuando es necesario combinan OCR, ASR y características visuales para un juicio conjunto. El motor de políticas vincula estas salidas de los modelos con los requisitos regulatorios: por ejemplo, si en una determinada región existen restricciones más estrictas sobre contenido de apuestas o político, se puede aumentar la sensibilidad de las categorías de detección correspondientes en la plantilla de políticas, o forzar la revisión humana para el contenido que coincida con esas clasificaciones. Al transformar reglas abstractas en cadenas de reglas, umbrales y acciones (permitir/bloquear/revisión humana/difuminar), el Policy Engine hace que los requisitos de cumplimiento realmente "funcionen".

9.3.2 Filtrado multinivel y auditoría de registros: construir un circuito cerrado de seguridad de extremo a extremo

La interceptación en un solo punto difícilmente puede cubrir todos los riesgos, por lo que los sistemas de seguridad de contenido adoptan generalmente un diseño de defensa en tres capas: antes – durante – después.

En la fase previa, el sistema realiza una detección rápida de la entrada del usuario, rechazando o reescribiendo directamente los prompts claramente infractores o altamente sensibles, guiando al usuario hacia formas seguras de preguntar; para intentos límite y solicitudes ambiguas, también puede añadir proactivamente declaraciones y advertencias de riesgo. En la fase intermedia, la salida del modelo pasa por un componente de filtrado de seguridad en tiempo real: este componente utiliza clasificación de texto y coincidencia de reglas para recortar, reemplazar o activar un flujo de rechazo para las salidas potencialmente de alto riesgo, asegurando que el contenido finalmente presentado al usuario se mantenga dentro de límites aceptables. En la fase posterior, mediante mecanismos de auditoría de registros y muestreo, el equipo de seguridad o un sistema automatizado confiable reproduce y revisa periódicamente las sesiones, analizando falsos positivos, falsos negativos y nuevos patrones de riesgo, y actualizando en consecuencia las políticas, los datos de entrenamiento y los modelos de detección. Así se forma un circuito cerrado de seguridad en evolución continua, en lugar de una "configuración única".

9.3.3 Protección de privacidad y pasarela de seguridad sectorial: hacer que la seguridad de los datos sea "demostrable"

En sectores altamente sensibles, no basta con "no generar contenido dañino"; también hay que demostrar que "el uso interno de los datos de los usuarios es igualmente seguro, conforme y trazable".

La protección de la privacidad comienza desde el momento en que los datos ingresan al sistema: en las fases de recolección y almacenamiento se aplica anonimización y enmascaramiento en la medida de lo posible, asegurando que incluso si los registros se filtran, sea difícil asociarlos directamente a personas concretas; en la fase de entrenamiento, se utilizan privacidad diferencial, estrategias de muestreo o aprendizaje federado para reducir la influencia de los datos de un usuario individual en el modelo final y el riesgo de fuga. Para el tráfico de inferencia del modelo, se utiliza una pasarela de seguridad para el control de acceso unificado: todas las solicitudes y respuestas deben pasar por la inspección de contenido, verificación de permisos y registro de auditoría de la pasarela, aplicando cuando sea necesario diferentes políticas de acceso y vistas de datos según la línea de negocio y el rol del usuario. Finalmente, estos registros y cambios de políticas se consolidan como una "cadena de evidencia" que puede ser revisada tanto por auditores internos como por supervisores externos, permitiendo que la empresa no solo cumpla en la práctica, sino que también pueda "demostrar formalmente que cumple".# 10. AI para la Ciencia (AI4Science)

Cuando el aprendizaje profundo y los grandes modelos pasan de "recomendar anuncios y comprender el lenguaje natural" a los problemas científicos en sí mismos, el objetivo ya no es solo predecir una métrica o hacer una clasificación, sino participar realmente en el descubrimiento de patrones, el diseño de experimentos y la aceleración de simulaciones y razonamientos. AI4Science busca combinar el "reconocimiento estadístico de patrones" con las "leyes físicas / regularidades bioquímicas / estructuras matemáticas", permitiendo que los modelos actúen como "asistentes científicos programables" en áreas como el diseño molecular, la ingeniería de proteínas, el descubrimiento de materiales, la simulación física y el razonamiento matemático.

En la práctica de ingeniería, esta capa conecta, por un lado, infraestructuras científicas tradicionales como software de química cuántica, dinámica molecular (MD), simuladores CFD/FEA, demostradores automáticos de teoremas, bases de datos bibliográficas y laboratorios robóticos (Robotic Lab); y por otro, los flujos de trabajo reales de investigación de empresas farmacéuticas, empresas de materiales, compañías energéticas e instituciones científicas. A continuación, se desarrolla desde tres perspectivas: escenarios, principios y modelos, con una mayor subdivisión en varias direcciones clave.

  • Escenarios
    • Diseño molecular y de fármacos: a partir de un gran número de pequeñas moléculas o fragmentos, predecir propiedades y ADMET, diseñar fármacos candidatos para dianas específicas, y reducir el espacio experimental mediante cribado virtual y optimización multiobjetivo.
    • Modelado de proteínas y estructuras biológicas: predecir la estructura tridimensional de proteínas y complejos, asistir en el diseño de anticuerpos, enzimas y fármacos proteicos, y evaluar el impacto de las mutaciones en la función y estabilidad.
    • Simulación física y diseño de ingeniería: utilizar modelos sustitutos profundos para acelerar simulaciones costosas como CFD, FEA y dinámica molecular, proporcionando herramientas de evaluación y optimización rápida para los sectores aeroespacial, automotriz y energético.
    • Descubrimiento de materiales y diseño de cristales: realizar cribado virtual y diseño inverso en vastos espacios químicos y de materiales, acelerando el desarrollo de materiales clave como baterías, fotovoltaicos, catalizadores y aleaciones.
    • Razonamiento matemático y simbólico: realizar demostración automática de teoremas, cálculo simbólico y resolución de ecuaciones en sistemas formales, mejorando la capacidad de razonamiento riguroso de los grandes modelos en problemas matemáticos y derivaciones de ingeniería.
    • Flujos de trabajo científicos y experimentación automatizada: integrar literatura, bases de datos y plataformas experimentales automatizadas para construir "laboratorios autónomos (Self-Driving Lab)", donde los modelos participen en el diseño, ejecución y análisis de resultados experimentales.
  • Principios
    • Representación estructurada y modelado con grafos: utilizar grafos (Graph), grafos cristalinos (Crystal Graph), grafos moleculares y otras estructuras para caracterizar objetos complejos, modelando relaciones geométricas y topológicas mediante redes neuronales de grafos o redes equivariantes E(3).
    • Sesgo inductivo físico y químico: incorporar conocimiento previo físico en la estructura del modelo y la función de pérdida a través de leyes de conservación, simetrías (traslación, rotación, reflexión), restricciones de EDP (PINN) y funciones de energía potencial.
    • Generación y diseño inverso: utilizar métodos de modelado generativo como VAE, GAN, Diffusion y RL para inferir estructuras a partir de "propiedades objetivo / restricciones", logrando el diseño inverso de moléculas, materiales y estructuras.
    • Modelos sustitutos y acoplamiento multiescala: aproximar simulaciones costosas de química cuántica, medios continuos y mecánica estructural mediante modelos sustitutos profundos, y conectar modelos a escala micro, meso y macro para lograr un modelado multiescala.
    • Agentes aumentados por herramientas y flujos de trabajo: combinar LLM con simuladores, calculadoras simbólicas, demostradores automáticos de teoremas, sistemas de búsqueda bibliográfica y robots experimentales para construir agentes capaces de planificar y ejecutar tareas científicas de forma autónoma.
  • Modelos
    • Modelos de representación molecular y de materiales: redes equivariantes E(3) y redes de grafos como SchNet, DimeNet, PhysNet, CGCNN, MEGNet, ALIGNN; modelos de lenguaje molecular como ChemBERTa, MolBERT, MoleculeSTM.
    • Modelos de biología estructural: AlphaFold / AlphaFold2 / AlphaFold3, RoseTTAFold, OpenFold, ProteinMPNN, ESM‑IF, la familia de modelos de lenguaje proteico ESM y modelos de generación de estructuras.
    • Simulación física y aprendizaje de operadores: PINN, DeepONet, Fourier Neural Operator (FNO) y la familia Neural Operator, DeepMD, NequIP y otros modelos de superficies de energía potencial y aprendizaje de operadores.
    • Modelos de razonamiento matemático y simbólico: modelos especializados en matemáticas y demostración como Minerva, Gödel, GPT‑f, Lean‑Dojo, y sistemas aumentados por herramientas como LLM + SymPy/Mathematica/Lean/Coq.
    • Agentes científicos y sistemas de flujo de trabajo: "asistentes científicos de IA" y plataformas experimentales autónomas que integran búsqueda, generación de código, invocación de simulaciones e interfaces de control experimental para los sectores farmacéutico, de materiales, físico y químico.

A partir de esta capa, la computación científica tradicional se entrelaza profundamente con el aprendizaje profundo y los grandes modelos: se debe respetar las estrictas restricciones de la física, la química, la biología y las matemáticas, al tiempo que se aprovecha la gran capacidad de ajuste basada en datos para mejorar la eficiencia. El objetivo final es que la IA se convierta en un "colaborador" en la investigación científica, y no simplemente en una caja negra de predicción.

---## 10.1 Diseño molecular y descubrimiento de fármacos (Molecular Modeling & Drug Discovery)

En el desarrollo tradicional de fármacos, desde el descubrimiento de la diana hasta los ensayos clínicos suelen transcurrir más de 10 años y costar miles de millones de dólares, y una gran parte del tiempo y del presupuesto se consume en las fases tempranas de diseño molecular, predicción de propiedades y cribado virtual. El modelado molecular y el descubrimiento de fármacos impulsados por IA tienen como objetivo acelerar este proceso mediante modelado generativo + basado en datos: partiendo de descripciones estructurales o textuales, predecir propiedades moleculares y ADMET, diseñar compuestos candidatos para dianas específicas y reducir significativamente la carga experimental mediante optimización multiobjetivo y cribado virtual.

Esta área conecta, por un lado, con fuentes de datos como software de química cuántica (DFT, ab initio), experimentos de bioactividad y HTS (High‑Throughput Screening), y por otro, con plataformas internas de Small Molecule Design de empresas farmacéuticas, SaaS de predicción de propiedades y herramientas de diseño de materiales y productos químicos. A continuación, se desarrolla desde tres dimensiones: escenarios, principios y modelos.

  • Escenarios
    • Cribado virtual temprano y descubrimiento de Hits: frente a bibliotecas virtuales de millones a miles de millones de moléculas, utilizar IA para predecir rápidamente actividad / ADMET, clasificar moléculas candidatas y filtrar un pequeño número de Hits de alto valor para pasar a la fase experimental.
    • Evaluación de propiedades moleculares y ADMET: en la fase de optimización de compuestos cabeza de serie (Lead Optimization), predecir de forma continua indicadores como solubilidad, toxicidad, estabilidad metabólica y biodisponibilidad oral, proporcionando referencias para la evaluación farmacocinética y de seguridad.
    • Generación de moléculas orientada a dianas: dada la información de una diana proteica (características del bolsillo, ligandos conocidos) o restricciones de propiedades objetivo, generar automáticamente moléculas pequeñas candidatas con diversidad estructural, alta actividad y viabilidad sintética.
    • Diseño molecular para materiales y productos químicos: para escenarios no farmacéuticos como recubrimientos, disolventes, electrolitos y tensioactivos, diseñar moléculas de formulación que satisfagan propiedades físicas específicas (viscosidad, polaridad, energía interfacial, etc.).
  • Principios
    • Representación molecular y predicción de propiedades:
      • Representación estructural: las formas más comunes incluyen secuencias SMILES, grafos moleculares (átomos como nodos, enlaces como aristas), coordenadas 3D y características cuánticas; el modelo debe extraer de estas representaciones información semántica y geométrica generalizable.
      • Predicción de propiedades: mediante GNN (GCN, GAT, MPNN) o redes equivariantes 3D (SchNet, DimeNet, PhysNet, etc.), aprender a partir de grafos moleculares o estructuras 3D propiedades cuánticas como energía, momento dipolar y niveles orbitales, así como propiedades ADMET como solubilidad, LogP, toxicidad y estabilidad metabólica.
      • Aprendizaje de representaciones y preentrenamiento: basándose en grandes bibliotecas moleculares (como ZINC, ChEMBL, PubChem), realizar predicción enmascarada, aprendizaje contrastivo o preentrenamiento autorregresivo para obtener representaciones moleculares universales transferibles que sirvan como características para tareas posteriores de QSAR / ADMET.
    • Generación estructural y optimización molecular:
      • Modelado generativo: utilizar modelos generativos como VAE, GAN, Flow y Diffusion para muestrear nuevas moléculas en el espacio SMILES o de grafos moleculares, garantizando la validez química estructural (valencia, estructuras de anillos, etc.) y la diversidad.
      • Generación condicionada: introducir vectores de condición (actividad objetivo, propiedades fisicoquímicas, fragmentos estructurales, descripciones del bolsillo de la diana, etc.) para generar moléculas candidatas bajo restricciones dadas, logrando un diseño orientado a propiedades o por complementación de fragmentos.
      • Optimización multiobjetivo y RL: mediante aprendizaje por refuerzo (como MolDQN, etc.), realizar operaciones de "edición" en el espacio molecular (agregar átomos, cambiar enlaces, sustituir fragmentos) para equilibrar múltiples objetivos como actividad, toxicidad, viabilidad sintética y evasión de patentes.
    • Modelado de interacciones proteína–ligando:
      • Sitios de unión y funciones de puntuación: mediante convolución 3D / redes de grafos / modelos de interacción, modelar las relaciones espaciales entre el bolsillo proteico y el ligando, prediciendo sitios de unión y afinidad de unión (Binding Affinity).
      • Acoplamiento y predicción de Binding Pose: combinar la búsqueda conformacional del Docking con modelos profundos, utilizando funciones de puntuación profundas o generación tipo Diffusion para predecir conformaciones estables, mejorando la precisión del acoplamiento y reduciendo el costo computacional.
  • Modelos
    • Modelos de representación molecular:
      • GNN y redes 3D: modelos equivariantes 3D como DimeNet / DimeNet++, SchNet y PhysNet que consideran ángulos / distancias; redes de grafos generales como GCN / GAT / MPNN, adecuadas para predicción de propiedades y QSAR.
      • Transformers basados en SMILES: tratar las moléculas como "frases del lenguaje químico", utilizando Transformers para modelado de lenguaje autorregresivo o enmascarado, proporcionando representaciones secuenciales para generación y predicción de propiedades.
    • Modelos de generación y optimización:
      • Modelos de generación de grafos: GraphVAE, Junction Tree VAE, GraphAF, etc., que generan moléculas en el espacio de grafos / fragmentos, enfatizando la validez estructural y la interpretabilidad (construcción a nivel de fragmentos).
      • Modelos de difusión: Diffusion for Molecules genera nuevas moléculas o conformaciones añadiendo / eliminando ruido en el espacio de grafos o estructuras 3D, y puede combinarse con vectores de condición para lograr generación personalizada.
      • Optimización por aprendizaje por refuerzo: métodos basados en RL como MolDQN tratan la optimización molecular como un problema de decisión secuencial en el espacio de estados de "edición molecular", codificando indicadores multiobjetivo mediante funciones de recompensa.
    • Modelos moleculares grandes y dirección multimodal:
      • Modelos de lenguaje molecular: ChemBERTa, MolBERT, etc., preentrenados en corpus SMILES a gran escala, compatibles con transferencia zero-shot o few-shot a tareas posteriores.
      • Modelos moleculares multimodales: MoleculeSTM, etc., que integran estructura (grafo / 3D), descripciones textuales (rutas sintéticas, resúmenes de literatura) y propiedades moleculares, permitiendo recuperación intermodal y predicción conjunta.
    • Productos y formas de aplicación:
      • Plataformas de cribado temprano de fármacos y plataformas internas de Small Molecule Design orientadas a empresas farmacéuticas, que ofrecen capacidades integradas de cribado virtual, generación molecular y predicción ADMET.
      • SaaS de predicción de propiedades orientado a personal de I+D: consulta rápida de propiedades moleculares, ADMET, similitud molecular, etc., a través de Web o API.
      • Herramientas de diseño a nivel molecular para materiales y productos químicos, destinadas al desarrollo personalizado de sistemas moleculares como recubrimientos, disolventes y electrolitos.

A partir de esta subárea, el proceso de diseño de fármacos está pasando de "experto + experimentación de alto rendimiento" a un ciclo cerrado de "experto + modelo + experimentación automatizada", donde la IA no solo proporciona puntuaciones, sino que participa gradualmente en el proceso completo desde "proponer ideas" hasta "generar candidatos" y luego "cribar y optimizar".

10.1.1 Representación molecular y predicción de propiedades / ADMET

En la investigación de fármacos y materiales, una capacidad fundamental es: dada una molécula, predecir rápida y precisamente sus propiedades y comportamiento, incluyendo propiedades químico-cuánticas (energía, orbitales, momento dipolar), propiedades fisicoquímicas (solubilidad, LogP) e indicadores ADMET relacionados con farmacocinética / toxicidad. La esencia de este problema es cómo aprender, a partir de diferentes formas de representación molecular, una representación que cumpla con las leyes químicas y posea capacidad de generalización.

  • En el nivel de representación molecular, las representaciones comunes incluyen:
    • Cadenas SMILES / SELFIES: tratan la molécula como una secuencia, naturalmente adecuadas para modelado de lenguaje con RNN / Transformer.
    • Representación de grafo molecular: átomos como nodos, enlaces como aristas, con características de tipo, valencia y aromaticidad en nodos y aristas; adecuada para modelar vecindad y topología con GNN, MPNN, etc.
    • Representación geométrica 3D: coordenadas 3D, ángulos de enlace y ángulos diedros obtenidos mediante química cuántica u optimización por campos de fuerza, que proporcionan la base para que las redes equivariantes E(3) capturen la estructura espacial.
  • En el nivel de predicción de propiedades y ADMET, las tareas objetivo incluyen:
    • Predicción de propiedades cuánticas de moléculas pequeñas: energía, momento dipolar, niveles HOMO/LUMO, etc., como sustituto de costosos cálculos DFT / ab initio.
    • QSAR / predicción de actividad: proporcionar la actividad de un compuesto frente a una diana específica (IC50, Ki), selectividad, etc., para cribar candidatos potenciales.
    • Indicadores relacionados con ADMET: solubilidad, permeabilidad, toxicidad, estabilidad metabólica, inhibición de CYP, etc., que son clave para evaluar la farmacabilidad de un fármaco.

La ruta típica del modelo es: utilizar DimeNet / SchNet / PhysNet / GNN, etc., para extraer representaciones de alta dimensión de la estructura molecular y luego predecir simultáneamente múltiples propiedades mediante aprendizaje multitarea; realizar preentrenamiento con datos públicos o internos a gran escala para mejorar la capacidad de modelado en escenarios con pocos datos. Externamente, se ofrece como SaaS de predicción ADMET o API de plataforma interna, proporcionando a los equipos de proyecto una capacidad rápida de "experimentación virtual".

10.1.2 Generación estructural y optimización molecular: de SMILES / Graph a fármacos candidatos

Una vez que se dispone de modelos fiables de representación molecular y predicción de propiedades, el siguiente objetivo es generar activamente moléculas "mejores": ya no solo evaluar compuestos dados, sino diseñar directamente nuevas moléculas candidatas en función de la diana y las restricciones de propiedades. Esta dirección suele denominarse generación molecular y optimización molecular.

En cuanto a la generación estructural, la investigación y la práctica de ingeniería se centran principalmente en tres enfoques:

  1. Generación de secuencias basada en SMILES Tratar las moléculas como cadenas de texto y usar VAE, GAN o Transformers autorregresivos para muestrear nuevas estructuras en el espacio SMILES; garantizar la validez química mediante restricciones gramaticales (como SELFIES) o posprocesamiento.
  2. Generación basada en grafos / fragmentos Modelos como GraphVAE, Junction Tree VAE y GraphAF construyen estructuras directamente a nivel de grafos moleculares o fragmentos elementales (Fragment / Motif), lo que se ajusta mejor al pensamiento de síntesis química y facilita el control de anillos, grupos funcionales y estructuras de esqueleto.
  3. Generación basada en difusión y 3D Métodos como Diffusion for Molecules realizan difusión y eliminación de ruido en el espacio de grafos o coordenadas 3D, pudiendo considerar simultáneamente la conformación espacial, adecuados para generar ligandos o unidades de material sensibles a la forma 3D.

En cuanto a la optimización molecular, la clave está en introducir objetivos y restricciones:

  • Generación condicionada: introducir la actividad objetivo, propiedades fisicoquímicas o anclajes de fragmentos como vectores de condición en el modelo, para que durante la generación se favorezca el cumplimiento de dichas condiciones.
  • Aprendizaje por refuerzo y optimización multiobjetivo: utilizar el modelo de predicción de propiedades como "entorno" y emplear RL para tomar decisiones secuenciales en el espacio molecular (como MolDQN), estableciendo recompensas y penalizaciones en indicadores multidimensionales como actividad, toxicidad, viabilidad sintética y riesgo de patentes, logrando un equilibrio multiobjetivo.
  • Viabilidad sintética y conocimiento químico previo: incorporar modelos de predicción de rutas sintéticas e indicadores de complejidad sintética (como SA score) en el proceso de generación y optimización, para evitar la producción de estructuras difíciles de sintetizar o inestables.

En cuanto a la materialización en producto, este tipo de modelos suelen integrarse en las "plataformas de diseño de fármacos con IA" internas de las empresas farmacéuticas: dada una diana, estructuras cabeza de serie conocidas y direcciones de optimización, la plataforma propone automáticamente varios lotes de moléculas candidatas, y el equipo de proyecto las criba e itera progresivamente combinando consideraciones experimentales, de patentes y comerciales, logrando una optimización en ciclo cerrado "modelo–experimento–modelo".## 10.2 Modelado de proteínas y biología estructural (Protein & Structural Biology)

En las ciencias de la vida, la estructura determina la función es un principio casi dogmático: cómo se pliega una proteína en una estructura tridimensional y cómo se ensambla con otras moléculas en complejos determina directamente su función en la célula. Los métodos tradicionales de resolución estructural —cristalografía de rayos X, RMN, criomicroscopía electrónica— requieren ciclos largos, son costosos y presentan enormes puntos ciegos como «difícil de cristalizar, difícil de resolver». Los modelos de aprendizaje profundo, representados por AlphaFold, han ampliado drásticamente la capacidad de ir «directamente de la secuencia a la estructura», haciendo posible obtener estructuras de alta calidad a escala genómica completa.

Esta línea conecta, por un lado, bases de datos de secuencias y estructuras como UniProt/PDB, experimentos ómicos y proyectos de biología estructural; y por otro, plataformas industriales de diseño y análisis estructural en biofarmacéutica, biología sintética e ingeniería enzimática. A continuación, se desarrolla desde tres perspectivas: escenarios, principios y modelos, desglosando además las subdirecciones clave.

  • Escenarios
    • Anotación y cribado estructural de dianas: predecir las estructuras de un gran número de proteínas a nivel genómico, apoyando el descubrimiento de dianas, la anotación funcional y el análisis de vías; combinado con información de variantes para evaluar posibles mecanismos patogénicos.
    • Diseño de anticuerpos y fármacos proteicos: modelado y diseño fino de regiones clave como las regiones variables de anticuerpos (CDR) y los dominios de unión a receptores, optimizando afinidad, especificidad e inmunogenicidad.
    • Diseño de enzimas y biocatálisis: basándose en la estructura tridimensional de la enzima y el entorno del sitio activo, diseñar mutaciones y librerías de variantes para mejorar la eficiencia catalítica, el espectro de sustratos y la estabilidad.
    • Estudio de complejos e interacciones: predecir estructuras de complejos proteína-proteína, proteína-ácido nucleico y proteína-ligando pequeño, analizando patrones de interacción en interfaces, proporcionando la base para el diseño de fármacos y el modelado de vías de señalización.
    • Efectos mutacionales y análisis de resistencia a fármacos: evaluar el impacto de variantes naturales o mutaciones artificiales sobre la estabilidad estructural, la función y la unión a ligandos, analizando la base estructural de las mutaciones de resistencia.
  • Principios
    • Predicción de estructura de proteínas:
      • Secuencia → estructura: a partir de la secuencia de aminoácidos (secuencia única o que incluye alineamientos múltiples de secuencias MSA), modelar las restricciones geométricas por pares de residuos (distancias, ángulos, mapas de contacto) y luego generar la estructura 3D totalmente atómica mediante un módulo de reconstrucción geométrica.
      • Señales de coevolución: utilizar patrones de mutación acoplada (co‑evolution) entre secuencias homólogas para inferir relaciones potenciales de contacto entre residuos, proporcionando un fuerte prior para las restricciones de plegamiento.
      • Refinamiento estructural y estimación de incertidumbre: refinar localmente la estructura predicha (relax, repack) y generar puntuaciones de confianza (como pLDDT, PAE) que guíen la selección de «regiones fiables» en aplicaciones posteriores.
    • Modelado de complejos y ensamblaje molecular:
      • Modelado conjunto multicadena: tomar múltiples cadenas proteicas o secuencias de proteína + ácido nucleico como entrada, introducir identificación de cadenas y restricciones de interfaz, y generar directamente la estructura completa del complejo.
      • Predicción de interfaces y ensamblaje: basándose en estructuras monoméricas conocidas, predecir las configuraciones de interfaz y los modos de ensamblaje más probables mediante modelos de grafos o modelos de difusión.
    • Diseño de proteínas y predicción de efectos mutacionales:
      • Plegamiento inverso (Inverse Folding): dada una estructura tridimensional del esqueleto (backbone) o restricciones topológicas, generar secuencias de aminoácidos capaces de plegarse establemente en dicha estructura, permitiendo el diseño de novo de proteínas.
      • Modelado de efectos mutacionales: combinar modelos de lenguaje de proteínas con modelos estructurales para predecir el impacto de mutaciones específicas sobre la estabilidad (ΔΔG), la actividad o la afinidad de unión, apoyando la evolución dirigida y el cribado de variantes.
  • Modelos
    • Predicción de estructura:
      • AlphaFold / AlphaFold2 / AlphaFold3: basados en mecanismos de atención y módulos geométricos, predicen estructuras proteicas de alta precisión a partir de MSA, estructuras molde (templates) y características de secuencia, generando además estimaciones de incertidumbre.
      • RoseTTAFold, OpenFold: emplean representaciones multicarril (sequence / pair / structure) y mecanismos de atención multiescala, proporcionando implementaciones base para aplicaciones de código abierto e industrialización.
    • Modelado de complejos e interfaces:
      • AlphaFold‑Multimer: modela directamente estructuras de complejos proteína-proteína en escenarios multicadena, contemplando simultáneamente el plegamiento monomérico y las interacciones en la interfaz.
      • RFdiffusion: basado en modelos de difusión en espacio 3D, genera u optimiza esqueletos proteicos e interfaces de complejos, permitiendo ensamblajes complejos y diseño de estructuras simétricas.
      • Métodos como DiffDock: en sistemas proteína-ligando pequeño, utilizan difusión o funciones de puntuación profundas para predecir el Binding Pose y el modo de unión.
    • Modelos de diseño y mutación:
      • ProteinMPNN: genera secuencias compatibles dada una estructura, utilizado para estabilizar esqueletos y diseñar interfaces.
      • ESM‑IF, ESMFold / serie ESM‑2: modelos de lenguaje preentrenados a gran escala sobre secuencias de proteínas, con capacidad de inferir estructura, función y efectos mutacionales a partir de la secuencia.
    • Productos y aplicaciones:
      • Servicios y bases de datos de predicción de estructura proteica en la nube pública (como AlphaFold DB), que proporcionan anotación estructural a gran escala e interfaces de descarga para la investigación científica.
      • Plataformas internas de diseño estructural en empresas biofarmacéuticas: integran módulos de predicción de estructura proteica, diseño de anticuerpos, ingeniería enzimática y acoplamiento proteína-ligando.
      • SaaS de biotecnología: ofrecen herramientas de predicción de sitios de unión, evaluación termodinámica de interfaces, evaluación de afinidad e inmunogenicidad, al servicio del desarrollo de anticuerpos terapéuticos y biológicos.

A partir de esta subdirección, la IA no solo «interpreta» las estructuras proteicas existentes en la naturaleza, sino que también «crea» arquitecturas completamente nuevas de proteínas y complejos, haciendo que la biología estructural transite de la «era de la medición pasiva» a la «era del diseño activo».

10.2.1 Predicción de estructura de proteínas y ensamblaje de complejos

La predicción de estructura de proteínas es uno de los avances más representativos de la combinación entre biología estructural e IA. Su problema central es: ¿es posible, partiendo de la secuencia y dependiendo poco o nada de datos experimentales, predecir una estructura 3D cercana a la resolución experimental? Y en aplicaciones reales, la estructura monomérica suele ser solo el punto de partida; lo más relevante es cómo se ensambla la proteína con otras moléculas para formar complejos.

En la predicción de estructura monomérica, el flujo típico incluye:

  1. Codificación de secuencia / MSA: extraer características de secuencia y obtener señales de coevolución mediante alineamiento múltiple de secuencias.
  2. Inferencia de restricciones geométricas: predecir distribuciones de distancia entre pares de residuos, probabilidades de contacto y orientaciones relativas, formando un campo geométrico de «pseudomediciones».
  3. Construcción de estructura y refinamiento iterativo: bajo las restricciones geométricas, construir la estructura 3D usando módulos estructurales (como bloques invariantes a rotación-traslación, actualización en coordenadas internas) y realizar múltiples iteraciones de refinement para reducir las violaciones geométricas.
  4. Incertidumbre y evaluación de calidad: generar indicadores como la confianza por residuo (pLDDT) y la estimación de error entre pares de residuos (PAE), que sirven de referencia para el modelado y cribado posteriores.

En la predicción de complejos y ensamblajes, el problema se amplía a «cómo se organizan e interactúan múltiples cadenas en el espacio»:

  • Para complejos proteína-proteína, habitualmente se emplean estrategias específicas de modelado multicadena (como AlphaFold‑Multimer) sobre entradas multicadena, generando directamente la estructura del ensamblaje.
  • Para sistemas proteína-ácido nucleico / proteína-ligando pequeño, una vía consiste en predecir primero cada estructura por separado y luego predecir el modo de ensamblaje mediante acoplamiento y funciones de puntuación de interfaz; otra vía utiliza modelos de difusión o modelado conjunto para generar directamente las conformaciones del complejo en el espacio 3D.
  • En escenarios de múltiples subunidades y grandes ensamblajes, es necesario incorporar además restricciones de simetría, mapas de densidad EM de baja resolución y otra información, realizando un ensamblaje jerárquico y multiescala.

En la práctica de producto, la predicción y el ensamblaje de estructuras suelen empaquetarse como servicios en la nube o cadenas de herramientas locales, proporcionando información estructural básica para la anotación funcional de proteínas, el modelado de redes de interacción y la validación de dianas terapéuticas.

10.2.2 Diseño de proteínas y predicción de efectos mutacionales: de la estructura a la regulación funcional

Una vez dominada la correspondencia «secuencia → estructura», el siguiente paso es el problema inverso: dada una estructura o un requisito funcional, ¿cómo diseñar secuencias proteicas y esquemas de mutación adecuados? Este es el núcleo del diseño de proteínas y la predicción de efectos mutacionales.

En el diseño de proteínas, las tareas clave incluyen:

  • Plegamiento inverso (Inverse Folding): dado un esqueleto objetivo (backbone) o una topología global, generar secuencias de aminoácidos capaces de plegarse establemente en dicha estructura. Este proceso puede realizarse mediante modelos generativos condicionados por estructura como ProteinMPNN o ESM‑IF.
  • Diseño orientado a función: manteniendo la estabilidad estructural global, realizar un diseño dirigido sobre sitios activos, bolsas de unión y regiones de interfaz, optimizando afinidad, especificidad y eficiencia catalítica.
  • Restricciones de fabricabilidad e inmunogenicidad: durante el proceso de diseño de secuencias, incorporar restricciones como viabilidad de expresión, modificaciones postraduccionales y riesgo de inmunogenicidad, garantizando la viabilidad de las secuencias candidatas en el desarrollo de productos biológicos.

En la predicción de efectos mutacionales, los focos de atención son:

  • Cambio de estabilidad (ΔΔG): dada la estructura wild-type y los sitios de mutación, predecir el impacto de mutaciones puntuales o múltiples sobre la estabilidad de plegamiento, utilizado en evolución dirigida y análisis de mutaciones de resistencia.
  • Cambios de actividad y afinidad: combinando modelos estructurales y modelos de lenguaje de proteínas, evaluar el impacto de las mutaciones sobre la actividad enzimática, la afinidad por ligandos y la regulación de vías de señalización.
  • Diseño de librerías de variantes a gran escala: antes de los experimentos de cribado in vivo/in vitro, utilizar modelos para precribar el enorme espacio mutacional, conservando variantes de alto potencial y reduciendo los costes experimentales.

A nivel de ingeniería y producto, el diseño de proteínas y la predicción de efectos mutacionales suelen integrarse como un «módulo de diseño y optimización estructural» dentro de las empresas biofarmacéuticas o de biología sintética: partiendo de una estructura candidata de esqueleto, se proponen automáticamente múltiples rondas de mutación y esquemas de diseño de librerías de variantes, formando un ciclo cerrado basado en datos con los experimentos de cribado de alto rendimiento.## 10.3 Simulación Física y Computación Acelerada (Physics Simulation & Surrogate Modeling)

En los sectores aeroespacial, automotriz, ingeniería civil, energía e industria química, la simulación de alta precisión es un pilar fundamental del diseño y la verificación. Sin embargo, métodos como CFD (dinámica de fluidos computacional), FEA (análisis por elementos finitos), dinámica molecular (MD) y la resolución de diversas EDP suelen ser computacionalmente costosos, lo que dificulta el barrido de parámetros a gran escala, el control en tiempo real o la optimización en línea. La simulación física y el modelado surrogate impulsados por IA buscan aproximar solucionadores numéricos u operadores completos mediante redes profundas, logrando aceleraciones de varios órdenes de magnitud sin sacrificar la consistencia física ni la interpretabilidad.

Esta área conecta, por un lado, el software de simulación tradicional (ANSYS, Fluent, COMSOL, solucionadores propios), las mediciones experimentales y los datos de sensores, y por otro, las plataformas de diseño de ingeniería, el diseño aerodinámico para conducción autónoma y aeroespacial, y los sistemas de simulación y optimización de procesos químicos. A continuación se desarrolla desde tres perspectivas: escenarios, principios y modelos.

  • Escenarios
    • Aceleración de simulación de ingeniería: dada una geometría y condiciones de operación, usar modelos surrogate profundos para predecir rápidamente campos de presión, velocidad, temperatura, distribuciones de tensión/deformación, etc., facilitando múltiples iteraciones de diseño y optimización.
    • Simulación de procesos complejos y optimización de procesos industriales: en industrias de procesos como la química y la energía, aproximar modelos mecanísticos o modelos de caja negra mediante ML para lograr una evaluación rápida y control en tiempo real.
    • Simulación a escala molecular y de materiales: usar superficies de energía potencial basadas en ML (Neural Network Potential) para reemplazar los costosos cálculos de energía potencial y fuerzas ab initio, acelerando la dinámica molecular y la simulación del comportamiento de fases de materiales.
    • Acoplamiento multiescala e interdisciplinario: conectar modelos micro, meso y macro mediante modelos surrogate profundos para construir cadenas integrales de simulación y optimización multiescala.
  • Principios
    • Modelos surrogate / modelos de sustitución (Surrogate Models):
      • Aprender el mapeo "parámetros de entrada → campo/indicador de salida" a partir de datos de simulación numérica o experimentales, como aproximación del solucionador de alta fidelidad.
      • En espacios de parámetros de alta dimensión, combinar aprendizaje activo y optimización bayesiana para seleccionar automáticamente los puntos de muestreo más informativos para simulación de alta fidelidad o experimentos, mejorando continuamente la calidad del modelo surrogate.
    • Redes neuronales informadas por la física (PINN):
      • Incorporar las EDP, condiciones iniciales/de contorno y leyes de conservación física en la función de pérdida, utilizando técnicas de diferenciación automática para resolver campos físicos en espacios continuos.
      • Soportan tanto problemas directos (resolver campos de estado) como inversos (inferir términos fuente, parámetros de materiales, etc. a partir de observaciones dispersas), siendo especialmente útiles para geometrías complejas y condiciones de contorno difíciles de tratar con métodos numéricos tradicionales.
    • Aprendizaje de operadores y Neural Operator:
      • No solo ajustar "la solución bajo condiciones específicas", sino aprender el mapeo de función a función (operador), como "condiciones de contorno/término fuente → campo de solución completo".
      • Métodos representativos como Fourier Neural Operator (FNO), DeepONet, etc., que mediante transformaciones en el dominio de la frecuencia o arquitecturas de red específicas mejoran la capacidad de generalización a diferentes densidades de malla y formas geométricas.
    • Modelado multiescala:
      • Entrenar parámetros efectivos o relaciones constitutivas a nivel meso/macro sobre datos de simulación microscópica, donde el modelo surrogate profundo actúa como "capa puente entre escalas".
      • Para problemas de materiales complejos, acoplamiento fluido-estructura y flujos multifásicos, usar modelos profundos para transferir información entre diferentes escalas y módulos físicos.
  • Modelos
    • Redes neuronales físicas generales:
      • Familia PINN: resuelven minimizando el residuo de la EDP en puntos de muestreo del dominio espacio-temporal, aplicables a ecuaciones como Navier-Stokes, Maxwell, elasticidad, etc.
      • Familia DeepONet, FNO, Neural Operator: aprenden directamente la aproximación a "nivel de operador" del solucionador de EDP, permitiendo inferencia rápida en múltiples condiciones de operación y geometrías.
    • Modelos de potencial a escala molecular y de materiales:
      • DeepMD, SchNet, NequIP, SpookyNet, etc.: construyen superficies de energía potencial ML de alta precisión, acelerando drásticamente el cálculo de fuerzas y energía manteniendo una precisión cercana a ab initio.
      • Acoplados con motores de MD tradicionales, permiten dinámica molecular de alta precisión en sistemas grandes y escalas de tiempo largas.
    • Modelos surrogate para CFD y mecánica estructural:
      • Redes Encoder-Decoder como U-Net / UNet++: predicen campos de flujo o temperatura a partir de geometría/condiciones de contorno en mallas regulares.
      • Graph Neural Networks sobre malla (GNN on Mesh): realizan paso de mensajes y actualización en nodos/elementos sobre mallas no estructuradas, adecuadas para geometrías complejas y escenarios de acoplamiento multifísico.
      • Neural Operator para CFD: generalizan la predicción de campos de flujo bajo diferentes números de Reynolds, condiciones de flujo entrante y parámetros geométricos.
    • Productos y aplicaciones:
      • Módulos de aceleración por IA en software de simulación industrial: proporcionan funciones de estimación rápida y análisis de sensibilidad como capa externa del solucionador tradicional.
      • Plataformas de simulación y optimización de procesos químicos/energéticos: combinan modelos mecanísticos + modelos surrogate + algoritmos de optimización en herramientas integradas de optimización de procesos.
      • Diseño aerodinámico para conducción autónoma y aeroespacial: realizan barrido de variables de diseño a gran escala y optimización automática de formas en el diseño aerodinámico.

10.3.1 Modelos Surrogate y Redes Neuronales Informadas por la Física (PINN)

Los modelos surrogate (Surrogate Models) y las redes neuronales informadas por la física (PINN) son dos caminos complementarios para la aplicación de IA en simulación física: los primeros aproximan el mapeo de simulación a partir de datos, las segundas construyen el objetivo de aprendizaje a partir de la física.

En el escenario de modelos surrogate, el flujo típico es:

  1. Recopilar un conjunto de datos de muestra mediante simulación numérica de alta fidelidad o experimentos (parámetros de entrada, condiciones de contorno, geometría → cantidades físicas de salida).
  2. Entrenar una red profunda (como MLP, redes convolucionales, GNN, Neural Operator) para aproximar esta función de mapeo.
  3. En optimización de diseño, barrido de parámetros o control en tiempo real, usar el modelo surrogate en lugar del solucionador costoso para una evaluación rápida.

En el escenario PINN, el modelo ya no se basa principalmente en grandes cantidades de etiquetas supervisadas, sino que construye la función de pérdida minimizando el residuo de la EDP y la violación de las condiciones de contorno:

  • En puntos de muestreo espaciales/temporales, la red neuronal produce cantidades físicas (como velocidad, presión, campo de desplazamiento, etc.) y la diferenciación automática obtiene gradientes y derivadas.
  • Estas derivadas se sustituyen en la EDP para formar el residuo, que junto con el error de las condiciones de contorno e iniciales constituye la pérdida total.
  • Mediante optimización, se busca que el residuo de la EDP y el error de contorno se aproximen a 0, obteniendo así una solución aproximada que satisface las ecuaciones físicas.

Ambos enfoques pueden combinarse: cuando se dispone de datos parciales de alta fidelidad, se puede entrenar con una restricción conjunta de error de datos + residuo físico para mejorar la precisión y la capacidad de generalización. En aplicaciones de ingeniería, PINN es especialmente adecuado para tratar problemas inversos y modelado basado en datos, como inferir parámetros de materiales, términos fuente o ubicaciones de defectos a partir de observaciones de sensores.

10.3.2 Neural Operator y Modelado Físico Multiescala

Neural Operator eleva el modelado físico del mapeo "punto a punto / parámetro a solución" al nivel de "función a función": aprende una aproximación de operador unificada para "dada una clase de EDP y condiciones de contorno, resolver su campo de solución", en lugar de una solución específica para una única condición de operación. Esto abre nuevas posibilidades para la generalización a múltiples condiciones, geometrías y resoluciones de malla.

En el aprendizaje de operadores, el enfoque típico es:

  • Tomar funciones (como términos fuente, condiciones de contorno, campos de parámetros de materiales, etc.) como entrada, y usar redes (como FNO, DeepONet) para producir el campo de solución completo como salida.
  • Entrenar con muestras en diferentes mallas, parámetros y geometrías para que el modelo aprenda los "patrones comunes" del solucionador de EDP.
  • En el despliegue, basta con proporcionar una nueva función de entrada (como nuevas condiciones de contorno, geometría) para obtener rápidamente por inferencia un campo de solución aproximado.

En el escenario de modelado multiescala:

  • Entrenar Neural Operator sobre grandes volúmenes de datos generados a escala microscópica (como dinámica molecular, plasticidad cristalina) para aprender el mapeo entre microestructura y respuesta macroscópica.
  • En modelos de medio continuo macroscópicos, usar este mapeo como relación constitutiva o módulo de cálculo de parámetros efectivos, logrando el acoplamiento micro-macro.
  • Para sistemas complejos como acoplamiento fluido-estructura, flujos multifásicos y flujos reactivos, se pueden modelar diferentes campos físicos por separado y acoplarlos mediante variables de interfaz compartidas (como flujos, fuerzas de interfaz, etc.).

En la práctica de ingeniería, Neural Operator está transitando gradualmente de prototipos de investigación a aplicaciones reales, convirtiéndose en una dirección técnica clave para "aceleración de solucionadores + puente multiescala" en escenarios como CFD, geofísica y modelado climático.## 10.4 Descubrimiento de materiales y diseño de cristales (Materials Science & Crystal Design)

En la ciencia de materiales, existe una contradicción fundamental: el espacio de diseño es casi infinito, mientras que el coste de los experimentos y los cálculos de alta precisión es extremadamente elevado. Cómo encontrar de manera eficiente materiales candidatos que cumplan con requisitos de rendimiento específicos dentro de un enorme espacio de combinaciones químicas y estructurales es un problema clave en campos como las nuevas energías, la electrónica, los materiales estructurales y los materiales funcionales. El descubrimiento de materiales y el diseño de cristales impulsados por IA, mediante redes neuronales de grafos, modelos generativos y cribado virtual de alto rendimiento, están transformando gradualmente el enfoque de I+D basado en "prueba y error" hacia uno de "datos + diseño inverso".

Esta dirección conecta, por un lado, bases de datos de materiales como Materials Project, OQMD y AFLOW con resultados de cálculos DFT/MD y, por otro, plataformas de I+D de materiales en escenarios de aplicación como baterías, energía fotovoltaica, catálisis, semiconductores y aleaciones. A continuación, se desarrolla desde tres perspectivas: escenarios, principios y modelos.

  • Escenarios
    • Cribado de materiales orientado al rendimiento: dada una estructura cristalina o fórmula química, predecir la estructura de bandas, el band gap, la movilidad de portadores y las propiedades térmicas, eléctricas y magnéticas, proporcionando una base para el cribado y la optimización combinatoria de materiales.
    • I+D de materiales para nuevas energías: para sistemas como electrolitos de baterías, materiales de electrodos, conductores iónicos de estado sólido, capas absorbentes fotovoltaicas y catalizadores, predecir la conductividad iónica, la estabilidad, la ventana electroquímica y la actividad.
    • Cribado virtual de alto rendimiento (HTVS): dentro de una gran biblioteca de candidatos construida, evaluar rápidamente mediante modelos de ML para seleccionar materiales prometedores, verificándolos y calibrándolos posteriormente con una pequeña cantidad de cálculos DFT o experimentos.
    • Diseño inverso de estructura cristalina y composición: a partir de las propiedades objetivo, buscar de forma inversa combinaciones de estructura cristalina y composición que satisfagan las restricciones de rendimiento y proceso.
  • Principios
    • Representación de materiales y cristales:
      • Representar la estructura cristalina periódica como un grafo cristalino (Crystal Graph): los nodos son átomos, las aristas son relaciones de vecindad interatómica, combinadas con parámetros de red e información del grupo espacial.
      • Para materiales amorfos o multifásicos complejos, se pueden utilizar descriptores de entorno local (como SOAP), características de Voronoi o estructuras de grafos multiescala para representar su microestructura.
    • Predicción de propiedades:
      • Realizar convolución/paso de mensajes en grafos cristalinos sobre modelos GNN como CGCNN, MEGNet y ALIGNN para predecir energía, band gap, módulo elástico, conductividad térmica, etc.
      • Utilizar embeddings basados en literatura y fórmulas químicas como Mat2Vec para lograr aprendizaje por transferencia y estimación zero-shot en escenarios con pocos datos.
    • Cribado virtual de alto rendimiento:
      • Construir una biblioteca de candidatos (mediante enumeración combinatoria, generación de estructuras, reglas empíricas, etc.) → predecir rápidamente las propiedades de cada candidato con modelos ML → seleccionar los Top candidatos para calibración mediante DFT o experimentos → actualizar el modelo y la estrategia de cribado, formando un ciclo cerrado de aprendizaje activo.
    • Generación y diseño inverso:
      • Utilizar modelos de difusión, VAE o modelos generativos basados en GNN para muestrear nuevas estructuras en el espacio de estructuras cristalinas, pudiendo imponer restricciones de composición, grupo espacial y densidad.
      • Combinar modelos sustitutos con optimización bayesiana para buscar combinaciones adecuadas de estructura/composición a partir de las propiedades objetivo, logrando el diseño inverso (inverse design).
  • Modelos
    • Representación y predicción:
      • CGCNN (Crystal Graph Convolutional Neural Network): realiza convolución sobre grafos cristalinos para la predicción de propiedades de materiales inorgánicos como energía y band gap.
      • MEGNet, ALIGNN: integran estructura de grafos con información de aristas y ángulos, ofreciendo mayor generalización y precisión en diversas familias de materiales.
      • Mat2Vec + ML ligero: mediante la vectorización de fórmulas químicas e información de elementos, entrenar rápidamente modelos pequeños para la predicción de propiedades específicas.
    • Generación y diseño inverso:
      • Diffusion for Crystals: realizar difusión/eliminación de ruido en el espacio de alta dimensión compuesto por parámetros de red y posiciones atómicas, generando estructuras cristalinas que cumplan ciertas restricciones.
      • Modelos generativos basados en GNN: mediante la adición/modificación gradual de átomos y enlaces o la manipulación de la red, lograr la búsqueda de estructuras desde la inicialización aleatoria hasta las proximidades de las propiedades objetivo.
      • Surrogate + Bayesian Optimization: utilizar modelos ML como caja negra aproximada de "estructura → propiedad", sobre la cual se realiza optimización bayesiana para encontrar la estructura o composición óptima.
    • Plataformas de datos y cadena de herramientas:
      • Materials Project, OQMD, AFLOW: proporcionan grandes cantidades de datos de estructuras y cálculos DFT, constituyendo la base para el entrenamiento y la evaluación de modelos ML de materiales.
      • Bases de datos y modelos internos de empresas: combinar datos experimentales e información de procesos de la empresa para construir plataformas de diseño de materiales con IA específicas del dominio.
    • Productos y aplicaciones:
      • Plataforma de aceleración de I+D de materiales para nuevas energías: ofrece capacidades integradas de predicción de propiedades, HTVS y diseño inverso para equipos de baterías, electrocatálisis y energía fotovoltaica.
      • Software de cribado virtual y SaaS: proporciona herramientas de cribado digital para aleaciones, semiconductores y cerámicas funcionales, reduciendo los costes de prueba y error en etapas tempranas.
      • Herramientas de diseño con IA internas de empresas de materiales: se integran con sistemas de gestión de información de laboratorio (LIMS) y datos de línea de producción, formando un ciclo cerrado de "modelo → experimento → producción".

10.4.1 Predicción de propiedades de materiales y cribado virtual de alto rendimiento (HTVS)

En el proceso de I+D de materiales, la predicción rápida y fiable de propiedades es una capacidad fundamental: dado un candidato estructural o composicional, ¿se puede estimar aproximadamente si merece una exploración más profunda sin necesidad de realizar costosos cálculos DFT o experimentos? Los modelos de predicción de propiedades basados en GNN y bases de datos de materiales hacen posible el cribado virtual de alto rendimiento.

En el nivel de predicción de propiedades:

  • Utilizar grafos cristalinos para representar estructuras periódicas, aprendiendo las interacciones entre átomos y vecindarios mediante modelos como CGCNN, MEGNet y ALIGNN.
  • Realizar entrenamiento monotarea o multitarea para diferentes objetivos (energía, band gap, constantes elásticas, conductividad térmica, conductividad eléctrica, propiedades magnéticas, etc.), alcanzando un rendimiento de predicción cercano a la precisión DFT en conjuntos de datos como Materials Project.
  • En escenarios industriales, a menudo se combina con datos experimentales internos para reentrenamiento o adaptación de dominio, mejorando la adecuación a familias de materiales y condiciones de proceso específicas.

En el escenario de cribado virtual de alto rendimiento (HTVS), el flujo típico es:

  1. Construir una gran biblioteca de candidatos (enumeración combinatoria, generación de estructuras o expansión desde bases de datos existentes).
  2. Utilizar modelos ML para predecir rápidamente las propiedades objetivo y auxiliares de cada candidato (estabilidad, seguridad, indicadores relacionados con el coste, etc.).
  3. Clasificar según las propiedades objetivo y múltiples restricciones, seleccionando los Top‑K candidatos para cálculos DFT de alta fidelidad o verificación experimental.
  4. Realimentar los resultados de verificación al modelo, actualizando parámetros y estimaciones de incertidumbre, formando un ciclo cerrado de aprendizaje activo de "cribado–verificación–recribado".

Este flujo de trabajo ya ha entrado en fase práctica en múltiples campos como materiales para baterías, capas absorbentes fotovoltaicas, catalizadores y materiales estructurales, convirtiéndose en el "motor de cribado previo" de los equipos de I+D de materiales.

10.4.2 Generación de cristales y diseño inverso: de las propiedades objetivo a las estructuras candidatas

Una vez que se dispone de capacidades fiables de predicción de propiedades y HTVS, el siguiente objetivo es proponer directamente nuevas estructuras cristalinas y composiciones candidatas a partir de las propiedades objetivo y las restricciones, es decir, el diseño inverso y la generación de materiales.

En la generación de cristales, las cuestiones clave incluyen:

  • ¿Cómo generar redes y disposiciones atómicas físicamente razonables bajo restricciones de periodicidad?
  • ¿Cómo imponer explícita o implícitamente restricciones de composición, simetría y densidad durante el proceso de generación?
  • ¿Cómo garantizar que las estructuras generadas permanezcan estables tras una relajación simple?

Para ello, la investigación y la práctica en ingeniería suelen emplear:

  • Diffusion for Crystals: añadir/eliminar ruido en el espacio conjunto de parámetros de red + posiciones atómicas, logrando una generación progresiva desde una inicialización aleatoria hasta muestras estructurales, pudiendo incorporar restricciones de propiedades objetivo y composición en el proceso de ruido o en el vector de condición.
  • Modelos generativos basados en GNN: añadir gradualmente átomos y relaciones de conexión sobre la estructura de grafo, o editar estructuras existentes, para generar estructuras candidatas que satisfagan las restricciones.

En el diseño inverso, se suele combinar con modelos sustitutos y métodos de optimización:

  • Tratar el modelo de predicción de propiedades como una función de caja negra "estructura → propiedad".
  • Explorar el espacio estructural mediante optimización bayesiana, algoritmos evolutivos o RL, haciendo que las propiedades predichas se aproximen gradualmente a los valores objetivo, satisfaciendo al mismo tiempo restricciones de estabilidad, seguridad y coste.
  • Verificar las estructuras candidatas obtenidas mediante DFT o experimentos, y utilizar los resultados para actualizar el modelo sustituto y la estrategia de búsqueda.

En aplicaciones de ingeniería, los módulos de diseño inverso suelen integrarse en plataformas de IA de materiales, proporcionando a los investigadores una interfaz interactiva de "establecer propiedades objetivo → el sistema propone automáticamente estructuras candidatas", mejorando significativamente la eficiencia en la exploración de nuevos materiales.## 10.5 Matemáticas y razonamiento simbólico (Mathematics & Symbolic Reasoning)

Las matemáticas son un lenguaje altamente formalizado y verificable con precisión, lo que les confiere dos atributos simultáneos en la era de la IA: "dificultad extrema" y "potencial de recompensa enorme". Por un lado, la demostración de teoremas complejos y el razonamiento de alto nivel exigen capacidades muy avanzadas del modelo; por otro, los resultados del razonamiento matemático y el cálculo simbólico pueden verificarse de forma rigurosa, lo que los hace naturalmente adecuados para colaborar con herramientas programáticas. El objetivo de la IA en el ámbito del razonamiento matemático y simbólico es construir modelos capaces de realizar razonamientos y cálculos fiables dentro de sistemas formales, e integrarlos en aplicaciones educativas, de investigación científica y de ingeniería.

Este campo conecta, por un lado, con demostradores interactivos de teoremas como Lean / Coq / Isabelle, sistemas de álgebra computacional (CAS) como SymPy / Mathematica / Maple, y grandes repositorios de problemas matemáticos y literatura académica; por otro lado, conecta con productos de educación matemática, herramientas de investigación asistida y necesidades de derivación de fórmulas y análisis de riesgos en ámbitos como la ingeniería y las finanzas. A continuación se desarrolla desde tres perspectivas: escenarios, principios y modelos.

  • Escenarios
    • Demostración automática de teoremas y demostración asistida: generar automáticamente demostraciones de teoremas en sistemas formales, o producir borradores de demostración legibles para que los humanos los revisen y perfeccionen.
    • Manipulación de expresiones y cálculo simbólico: simplificar automáticamente expresiones, derivar, integrar, expandir en series, transformar y resolver ecuaciones, proporcionando herramientas simbólicas para modelado de ingeniería y análisis de riesgos financieros.
    • Comprensión de problemas matemáticos y generación de pasos de resolución: extraer representaciones estructuradas a partir de problemas en lenguaje natural o imágenes, y ofrecer pasos de resolución rigurosos y verificables, al servicio de escenarios educativos y de entrenamiento.
    • Mejora de la capacidad de razonamiento matemático: mediante ajuste fino especializado en matemáticas y aumento con herramientas, mejorar el razonamiento en múltiples pasos y el rigor de los modelos grandes en aritmética, álgebra, geometría, combinatoria y otras áreas.
  • Principios
    • Sistemas formales y búsqueda:
      • En sistemas como Lean / Coq / Isabelle, los objetos y teoremas matemáticos se formalizan como términos y tipos, y el proceso de demostración consiste en construir un árbol de demostración bajo restricciones de reglas.
      • La búsqueda de demostraciones puede verse como "encontrar un camino que satisfaga restricciones en un espacio de estados enorme", lo que la hace adecuada para métodos como aprendizaje por refuerzo, MCTS (búsqueda de árbol de Monte Carlo) y redes de política/valor.
    • Colaboración neuro-simbólica:
      • El LLM se encarga de extraer la estructura del problema y las ideas de resolución a partir de lenguaje natural o entradas no estructuradas, y las traduce a expresiones simbólicas (como código de SymPy, scripts de demostración de Lean).
      • Los sistemas de álgebra computacional y los demostradores de teoremas se encargan de ejecutar cálculos simbólicos rigurosos y verificación formal, validando y corrigiendo la salida del LLM.
    • Mejora de la capacidad de razonamiento matemático:
      • Mediante preentrenamiento o ajuste fino especializado en grandes volúmenes de textos matemáticos y bancos de problemas (como Minerva, Gödel), se mejora la comprensión del lenguaje matemático y el dominio del estilo de razonamiento del modelo.
      • Se adopta el marco Tool-Augmented LLM, utilizando resolvedores simbólicos, bibliotecas de cálculo numérico, herramientas de graficación y demostradores como herramientas externas, para que el modelo aprenda a "invocar herramientas" en lugar de "memorizar resultados" durante el razonamiento complejo.
  • Modelos
    • Demostración automática de teoremas:
      • Demostradores estilo AlphaZero: tratan el proceso de demostración como un juego, utilizando redes de política y redes de valor para guiar la búsqueda y construir demostraciones formales paso a paso.
      • GPT‑f, Lean‑Dojo, etc.: entrenados con grandes corpus de teoremas formalizados y demostraciones, se utilizan para generar demostraciones automáticamente en sistemas como Lean.
    • Modelos grandes matemáticos y aumento con herramientas:
      • Minerva, Gödel, etc.: modelos grandes ajustados con corpus de libros de texto matemáticos, artículos, bancos de problemas, que muestran un rendimiento superior en problemas de demostración, preguntas de olimpiadas y tareas de razonamiento de alto nivel.
      • LLM + SymPy / Mathematica / Lean / Coq: el LLM realiza el análisis del problema y la planificación de estrategias, mientras que las herramientas de cálculo simbólico y demostración ejecutan operaciones precisas y verificación.
    • Productos y aplicaciones:
      • "Asistentes matemáticos / ayudantes de resolución de problemas" en productos educativos, que ofrecen explicaciones personalizadas y múltiples enfoques de resolución.
      • Herramientas de investigación asistida: ayudan a los investigadores a formular conjeturas, generar borradores de demostración, buscar teoremas y lemas relacionados, acelerando la exploración teórica.
      • Derivación de fórmulas y análisis de modelos de riesgo en ingeniería y finanzas: formalizar modelos complejos para realizar análisis de sensibilidad simbólica y revisión de cumplimiento normativo.

10.5.1 Demostración automática de teoremas y razonamiento formalizado

La demostración automática de teoremas (ATP) y la demostración interactiva de teoremas (ITP) constituyen una dirección importante en la intersección de las matemáticas y las ciencias de la computación. La tarea central de la IA en este ámbito es construir o asistir en la construcción automática de demostraciones dentro de sistemas formales, reduciendo la carga humana en detalles de bajo nivel y permitiendo que se concentren más en las ideas de alto nivel.

En los sistemas formalizados:

  • Los teoremas se codifican como tipos objetivo (goal) que deben construirse, y la demostración corresponde a construir un término cuyo tipo sea dicho tipo objetivo.
  • El proceso de demostración consta de una serie de tácticas (tactics) o pasos de razonamiento, cada uno de los cuales avanza bajo reglas lógicas estrictas.

La IA puede desempeñar múltiples roles en este contexto:

  1. Selección de tácticas y recomendación de parámetros: en el estado actual de la demostración, predecir la táctica que debe usarse a continuación y sus parámetros, reduciendo la prueba manual y el retroceso.
  2. Recuperación de lemas y teoremas: buscar en amplias bibliotecas los lemas/teoremas más relevantes para el objetivo actual, reduciendo el espacio de búsqueda.
  3. Generación de demostraciones de extremo a extremo: dado un teorema y su contexto, generar directamente un script de demostración completo o parcial, que luego es verificado por el demostrador.

Trabajos como los demostradores estilo AlphaZero, GPT‑f y Lean‑Dojo, mediante el entrenamiento de redes de política y valor o modelos de lenguaje sobre grandes corpus formalizados, han logrado demostrar automáticamente una proporción considerable de teoremas en sistemas como Lean / Coq. En cuanto a productos, esta capacidad podría evolucionar hacia "asistentes de verificación formal", utilizados para verificación de software/hardware, análisis de protocolos criptográficos y diseño de sistemas de alta fiabilidad.

10.5.2 Cálculo simbólico y resolución de problemas matemáticos: LLM + CAS

En comparación con la demostración de teoremas, el cálculo simbólico y la resolución de problemas matemáticos están más cerca de los escenarios de ingeniería y educación. Su objetivo es: a partir de problemas en lenguaje natural, construir automáticamente expresiones simbólicas, ejecutar cálculos y proporcionar pasos de resolución interpretables.

En esta dirección, el flujo de trabajo típico de colaboración neuro-simbólica es:

  1. Comprensión y abstracción del problema: el LLM analiza el problema en lenguaje natural o imagen y lo convierte en una representación matemática estructurada (ecuaciones, restricciones, funciones objetivo, etc.).
  2. Generación de expresiones simbólicas: traduce el resultado abstracto a código CAS (como expresiones de SymPy, comandos de Mathematica).
  3. Ejecución mediante CAS: utiliza el CAS para realizar operaciones algebraicas precisas, derivación, integración, resolución de sistemas de ecuaciones, límites, etc.
  4. Interpretación de resultados y generación de pasos: el LLM, basándose en los resultados del cálculo del CAS, genera pasos de resolución y explicaciones acordes a los hábitos humanos.

Este enfoque presenta varias ventajas clave:

  • El CAS garantiza la corrección de los cálculos, evitando los "errores de desalineación" y la acumulación de fallos del LLM en operaciones largas.
  • El LLM proporciona comprensión y expresión en lenguaje natural, reduciendo la barrera de uso del CAS y permitiendo que usuarios no expertos también puedan invocar potentes herramientas simbólicas.
  • En escenarios educativos, se puede controlar el nivel de detalle y el estilo de la resolución, generando explicaciones adecuadas para diferentes etapas de aprendizaje.

En escenarios de ingeniería y finanzas, esta capacidad puede extenderse a la formulación y análisis de modelos complejos: extraer automáticamente la estructura del modelo a partir de documentos y código, construir representaciones simbólicas y realizar análisis de sensibilidad, análisis de casos límite e identificación de riesgos.## 10.6 Flujo de trabajo científico y automatización de experimentos (Scientific Workflow & Lab Automation)

Las subsecciones anteriores se centran principalmente en "capacidades puntuales": predecir una propiedad, generar una estructura, demostrar un teorema. Sin embargo, en la investigación científica y el desarrollo industrial reales, lo más crítico es cómo encadenar estas capacidades en flujos de trabajo completos e integrarlas con literatura, bases de datos, plataformas de simulación y equipos de experimentación automatizada. La dirección de flujo de trabajo científico y automatización de experimentos busca construir sistemas integrados de Agente + herramientas + robots orientados a escenarios científicos, permitiendo que la IA evolucione de "saber calcular" a "saber hacer experimentos, saber investigar".

Esta dirección conecta, por un lado, bases de datos de artículos y patentes (como PubMed, arXiv), almacenes de datos científicos, grafos de conocimiento de dominio y plataformas de simulación; y por otro, laboratorios automatizados (Robotic Lab), equipos de cribado de alto rendimiento y sistemas de gestión de flujos de trabajo de investigación. A continuación, se desarrolla desde tres perspectivas: escenarios, principios y modelos.

  • Escenarios
    • Minería de literatura científica y construcción de bases de conocimiento: extraer automáticamente de una gran cantidad de artículos información sobre compuestos, proteínas, materiales, condiciones de reacción, resultados experimentales, etc., para construir bases de conocimiento estructuradas y grafos de conocimiento.
    • Diseño experimental y Self‑Driving Lab: bajo la guía de un plan experimental propuesto por IA, una plataforma robótica de experimentación ejecuta automáticamente la preparación, reacción, medición y recolección de datos, logrando una optimización en "ciclo cerrado".
    • Gestión de datos científicos y garantía de reproducibilidad: organizar automáticamente datos de simulación y experimentación, metadatos y scripts de código, generando registros e informes experimentales estandarizados para mejorar la trazabilidad y la reproducibilidad.
    • "Asistente de experimentación IA" de dominio: proporcionar a empresas farmacéuticas, de materiales e instituciones de investigación soporte integral para búsqueda de literatura, diseño de protocolos, planificación experimental y análisis de resultados.
  • Principios
    • Minería de literatura y LLM de dominio:
      • Utilizar modelos preentrenados de dominio como SciBERT, BioBERT, PubMedBERT para reconocimiento de entidades nombradas, extracción de relaciones, análisis de ecuaciones de reacción y extracción de condiciones experimentales.
      • Sobre esta base, entrenar LLM de dominio como Bio‑LM, Chem‑LM, Materials‑LM, mejorando la capacidad de comprensión y razonamiento sobre terminología especializada, enunciados experimentales e hipótesis implícitas.
    • Diseño experimental y Self‑Driving Lab:
      • Tratar el espacio experimental (formulación, temperatura, tiempo, orden de adición, etc.) como variables de optimización, donde LLM + RL o estrategias de optimización bayesiana proponen el siguiente conjunto de condiciones experimentales.
      • Los robots e instrumentos experimentales ejecutan según el plan, recolectan datos y los retransmiten en tiempo real; el modelo actualiza parámetros y estimaciones de incertidumbre, formando un ciclo cerrado de aprendizaje activo.
    • Orquestación de flujos de trabajo y Agentes:
      • Bajo el marco de Agent & Tool Use, integrar de manera unificada herramientas de búsqueda de literatura, generación de código, invocación de simulaciones, análisis de datos, visualización y generación de informes.
      • El Agente, según el objetivo de la tarea (como "encontrar una formulación de electrolito de alta conductividad"), planifica automáticamente la descomposición de tareas, el orden de invocación de herramientas y la integración de resultados.
  • Modelos
    • Modelos de minería de literatura y conocimiento:
      • SciBERT, BioBERT, PubMedBERT, etc.: modelos preentrenados en literatura científica y biomédica, utilizados para extracción de entidades/relaciones, clasificación y respuesta a preguntas.
      • Galactica, LLM especializados de dominio: entrenados principalmente con corpus científicos, soportan generación de revisiones, borradores de código, sugerencias de diseño experimental, etc.
    • Modelos de planificación y control experimental:
      • LLM + RL / Bayesian Optimization: combinando conocimiento previo del dominio, incertidumbre del modelo y coste experimental, para explorar y explotar eficientemente el espacio experimental.
      • Agentes integrados con interfaces de control de Robotic Lab: convierten descripciones de experimentos en lenguaje natural en pasos experimentales estructurados y comandos de control de instrumentos.
    • Agentes científicos y sistemas de flujo de trabajo:
      • Sobre la base de las capacidades de Agent & Tool Use del capítulo 7, construir "Agentes multi-herramienta" orientados a escenarios científicos: capaces de buscar literatura, generar código, invocar simulaciones, procesar datos, crear gráficos y redactar borradores de informes.
    • Productos y aplicaciones:
      • "Asistentes de experimentación IA" internos y bancos de experimentación automatizados en empresas farmacéuticas y de materiales: para acelerar el desarrollo de formulaciones, la optimización de procesos y el cribado de candidatos.
      • Motores de búsqueda científica de dominio y grafos de conocimiento (Bio / Chem / Materials / Physics Knowledge Graph): soportan búsqueda semántica, exploración interactiva y razonamiento sobre conocimiento.
      • Plataformas de gestión de flujos de trabajo de investigación: integran planificación experimental, registro de datos, control de versiones, visualización y generación automática de informes, mejorando la eficiencia del equipo de investigación y la reproducibilidad de los resultados.

10.6.1 Minería de literatura científica y construcción de bases de conocimiento de dominio

La gran mayoría del conocimiento científico aparece primero en forma de artículos e informes. Para que la IA participe realmente en la investigación científica, debe ser capaz de "leer y comprender artículos, y extraer de ellos conocimiento estructurado". La minería de literatura científica y construcción de bases de conocimiento consiste precisamente en construir, a partir de texto no estructurado, una infraestructura de conocimiento consultable y razonable.

En esta dirección, las tareas centrales incluyen:

  • Reconocimiento de entidades y normalización: identificar en la literatura entidades como compuestos, proteínas, materiales, reactivos, productos, equipos y condiciones experimentales, y alinearlas con bases de datos estándar (como ChEMBL, Uniprot, Materials Project).
  • Extracción de relaciones y eventos: extraer del texto relaciones y eventos como "quién interactúa con quién y cómo", "qué condiciones produjeron qué resultados", por ejemplo, ecuaciones de reacción, correspondencias formulación‑rendimiento, etc.
  • Construcción de grafos de conocimiento: organizar entidades y relaciones en una estructura de grafo, soportando consultas complejas (como "todos los métodos reportados que mejoran cierta propiedad bajo ciertas condiciones") y razonamiento sobre caminos.

Para lograr estos objetivos, se suelen emplear:

  • Modelos preentrenados como SciBERT, BioBERT, PubMedBERT para NER (reconocimiento de entidades), RE (extracción de relaciones) y extracción de eventos a nivel de documento.
  • Sobre esta base, construir LLM especializados de dominio (Bio‑LM, Chem‑LM, Materials‑LM) para realizar tareas más complejas como respuesta a preguntas, generación de revisiones y completado de conocimiento.

Las bases de conocimiento y grafos de conocimiento de dominio construidos no solo pueden proporcionar servicios de búsqueda y recomendación más inteligentes para el personal de I+D, sino que también ofrecen datos y conocimiento previo para el posterior diseño experimental y diseño inverso de materiales/fármacos.

10.6.2 Self‑Driving Lab y Agentes de flujo de trabajo científico: de "leer artículos" a "hacer experimentos"

Una vez que se dispone de capacidades de minería de literatura, modelado y optimización, el siguiente paso es combinar estas capacidades con plataformas de experimentación automatizada para construir verdaderos Self‑Driving Labs (laboratorios autónomos) y Agentes de flujo de trabajo científico.

En un Self‑Driving Lab, el ciclo de trabajo cerrado típico es:

  1. Definición de objetivos: el investigador proporciona un objetivo macro (como "mejorar la conductividad de cierto material bajo condiciones específicas") y restricciones (coste, seguridad, limitaciones de proceso, etc.).
  2. Búsqueda de literatura y conocimiento: el Agente invoca herramientas de búsqueda de literatura y grafos de conocimiento para comprender el trabajo existente y las regularidades empíricas, formando hipótesis iniciales y un espacio de diseño experimental.
  3. Planificación experimental y estrategia de optimización: basándose en LLM + RL / optimización bayesiana, propone el primer lote de condiciones experimentales (formulación, temperatura, tiempo, entorno, etc.).
  4. Ejecución robótica y recolección de datos: el banco de experimentación automatizado (Robotic Lab) ejecuta los experimentos, recolecta resultados en tiempo real y los retransmite.
  5. Actualización del modelo y siguiente ronda de diseño: el modelo proxy actualiza parámetros y estimaciones de incertidumbre según los nuevos datos, y propone la siguiente ronda de condiciones experimentales con mayor contenido informativo o mayor potencial.

En un Agente de flujo de trabajo científico más amplio, este ciclo cerrado se extiende a simulación, análisis de datos y generación de informes:

  • El Agente puede generar automáticamente código de simulación o invocar herramientas de simulación existentes para realizar evaluaciones previas de ciertas condiciones experimentales;
  • En la fase de análisis de datos, completa automáticamente la limpieza de datos, visualización y pruebas estadísticas;
  • En la fase de resumen del proyecto, genera registros experimentales estructurados y borradores de informes, acompañados de gráficos y referencias bibliográficas.

En cuanto a la forma de producto, estos sistemas suelen materializarse como plataformas: proporcionan una interfaz y API unificadas que conectan bases de datos de literatura, motores de simulación y equipos experimentales, permitiendo que científicos e ingenieros definan objetivos a alto nivel mediante lenguaje natural e interfaces visuales, mientras que el resto de las etapas son orquestadas y ejecutadas automáticamente por el Agente + cadena de herramientas.

A partir de esta subdirección, el papel de la IA en la ciencia transita verdaderamente de "herramienta de análisis offline" a "colaborador de investigación online": no solo puede leer artículos, escribir código y calcular modelos, sino también, junto con robots, llevar a cabo experimentos y descubrimientos reales.# 11. Plataforma y capacidades de ingeniería (MLOps / Infra)

El paso de los grandes modelos de lenguaje del laboratorio a la producción empresarial no depende solo de que "el modelo sea lo suficientemente bueno", sino de contar con un sistema completo de plataforma e ingeniería que sea estable, escalable y operativamente mantenible. Este sistema debe abarcar desde el entrenamiento y ajuste fino, el despliegue y la optimización de inferencia, la operación de datos y modelos, la monitorización y gestión de costes, la seguridad y el cumplimiento normativo, hasta las capacidades de middleware y soporte de aplicaciones, integrando todos estos aspectos técnicos —antes dispersos— en un ciclo cerrado y sostenible.

Desde una perspectiva de negocio, las capacidades de plataforma e ingeniería determinan a menudo si una organización puede utilizar grandes modelos de lenguaje "a escala, de forma segura y con bajo coste": con el mismo modelo base, si no se dispone de un sistema MLOps adecuado, es probable que el proyecto se quede en la fase de demo o piloto; en cambio, una vez que se cuenta con una plataforma completa, la empresa puede replicar y evolucionar rápidamente aplicaciones de alta calidad en múltiples unidades de negocio, países o regiones y escenarios sectoriales. A continuación, desarrollaremos estos conceptos en seis dimensiones: plataforma de entrenamiento y ajuste fino de modelos, despliegue y optimización de inferencia, operación de datos y modelos, monitorización y fiabilidad de costes, infraestructura de seguridad y cumplimiento normativo, y capacidades de aplicaciones de capa superior y middleware.## 11.1 Entrenamiento y ajuste fino de modelos (Training & Fine-tuning)

A nivel de modelo base, la mayoría de las organizaciones no entrenan modelos de cientos de miles de millones de parámetros desde cero, sino que realizan preentrenamiento continuo + ajuste fino sobre modelos base de código abierto o comerciales. La pregunta central en esta capa es: cómo utilizar eficientemente la potencia de cómputo y los datos para "acercar" un gran modelo de propósito general a sectores, empresas y tareas específicas, garantizando al mismo tiempo una gestión de ingeniería manejable para múltiples modelos y versiones.

Desde una perspectiva de ingeniería, esta capa suele comprender tres bloques: preentrenamiento y preentrenamiento continuo, paradigmas y cadena de herramientas de ajuste fino, e infraestructura de entrenamiento distribuido a gran escala.

  • Escenarios
    • Desarrollo de modelos base de propósito general: los proveedores de nube y las grandes empresas desarrollan sus propios modelos base de lenguaje general o multimodal, utilizados para APIs externas y compartidos entre múltiples negocios internos.
    • Modelos sectoriales y propietarios: construcción de modelos base sectoriales o "grandes modelos empresariales propios" en torno a sectores específicos como finanzas, medicina, derecho, manufactura, energía y videojuegos.
    • Personalización de modelos a nivel empresarial: para un único gran cliente (bancos, aseguradoras, gobiernos, grupos manufactureros, etc.), se personalizan modelos de ajuste fino exclusivos o pesos LoRA basados en sus datos internos.
    • Mercado de modelos multiinquilino: las plataformas SaaS/nube ofrecen a numerosos clientes pequeños y medianos la capacidad de ajuste fino y alojamiento de "un modelo por cliente", con un conjunto de pesos o capa de adaptación por inquilino.
    • Plataforma de ajuste fino con un solo clic: producto totalmente gestionado abierto a equipos no algorítmicos, con el flujo "cargar datos → seleccionar modelo base → ajuste fino automático → desplegar con un clic".
  • Principios
    • Preentrenamiento y preentrenamiento continuo:
      • Realizar preentrenamiento a gran escala sobre cantidades masivas de texto general, código y datos multimodales, para que el modelo adquiera comprensión general del lenguaje, conocimiento del mundo y capacidades básicas de razonamiento.
      • Para sectores específicos, continuar el preentrenamiento sobre el modelo general mediante Domain-adaptive Pretraining (DAPT), introduciendo terminología propia del sector, estilos de redacción y distribución de conocimiento.
      • El preentrenamiento multilingüe/multimodal, mediante espacios semánticos compartidos y entrenamiento conjunto, dota al modelo de capacidad de transferencia interlingüística y de fusión de texto/imagen/voz/datos estructurados.
    • Paradigmas de ajuste fino:
      • Ajuste fino completo (Full Fine-tuning) : cuando la distribución de la tarea objetivo difiere mucho de la del preentrenamiento y se dispone de suficiente cómputo y datos, actualizar directamente todos los parámetros para obtener el máximo rendimiento posible.
      • Ajuste fino eficiente en parámetros (PEFT) : mediante Adapter, LoRA/QLoRA, Prefix/P-Tuning y otros métodos, entrenar solo una cantidad mínima de "parámetros incrementales", adecuado para escenarios con múltiples tareas, múltiples clientes y actualizaciones frecuentes.
      • Ajuste fino por instrucciones y por tarea : utilizar muestras de "instrucción + ejemplos" para que el modelo aprenda a comprender descripciones de tareas en lenguaje natural; puede orientarse tanto a una única tarea vertical como a múltiples tareas sobre un modelo unificado.
      • RLHF / RLAIF : entrenar un modelo de recompensa mediante retroalimentación humana o de IA, y luego usar aprendizaje por refuerzo para alinear el comportamiento del modelo (cortesía, seguridad, política de rechazo, valores).
    • Entrenamiento distribuido y sistema de ingeniería:
      • Utilizar estrategias como paralelismo de datos, paralelismo de modelo, paralelismo de pipeline y paralelismo de tensores para dividir modelos enormes y grandes volúmenes de datos entre múltiples nodos y GPUs del clúster para entrenamiento colaborativo.
      • Mediante tecnologías como ZeRO/FSDP, reducir el uso de memoria de video y aumentar el rendimiento del entrenamiento, junto con planificación eficiente (Kubernetes + Slurm/Ray) para lograr entrenamiento en clústeres a gran escala.
      • Apoyarse en pipelines de datos estandarizados (carga, limpieza, deduplicación, particionado, caché de conjuntos de datos) y marcos de ajuste fino (Transformers Trainer, DeepSpeed, Lightning, etc.) para reducir la reinvención de la rueda.
  • Modelos
    • Cadena de herramientas de preentrenamiento y preentrenamiento continuo:
      • Marcos de entrenamiento: PyTorch, TensorFlow, JAX.
      • Aceleración de entrenamiento a gran escala: DeepSpeed, Megatron-LM, Colossal-AI, Fairscale.
      • Estrategias de entrenamiento distribuido: paralelismo de datos (DP), paralelismo de modelo (MP), paralelismo de pipeline (PP), paralelismo de tensores; ZeRO/FSDP, Megatron (TP+PP), DeepSpeed ZeRO.
      • Planificación y gestión de clústeres: Kubernetes + Slurm/Ray/Horovod/TorchElastic.
      • Pipeline de datos: Hugging Face Datasets, WebDataset, Petastorm, tf.data, Arrow; almacenamiento de objetos (S3/OSS/GCS) + caché local; herramientas de limpieza y deduplicación de datos.
    • Herramientas de ajuste fino y PEFT:
      • Marcos de ajuste fino: Hugging Face Transformers + Trainer/Accelerate, PyTorch Lightning, DeepSpeed, Colossal-AI.
      • Conjunto de herramientas PEFT: PEFT (LoRA/QLoRA/Prefix Tuning/Prompt Tuning, etc.), LLaMA-Adapter y diversas cadenas de herramientas LoRA.
      • Construcción de instrucciones y datos: Self-Instruct, pipelines estilo Alpaca/Dolly, diversas herramientas de aumento de datos y reescritura de diálogos.
    • Cadena de herramientas RLHF/RLAIF:
      • TRL (Transformers Reinforcement Learning), trlx, DeepSpeed-RLHF, pipelines RLHF propios.
      • Entrenamiento de modelos de recompensa, modelos de clasificación/puntuación, políticas de rechazo y plantillas de estrategia de alineación.

En cuanto a la forma del producto, esta capa se materializa típicamente como: plataforma de desarrollo de modelos base, servicios empresariales de "entrenamiento por encargo + personalización", plataforma de ajuste fino con un solo clic y mercado de modelos (Model Hub/Model Store), que sustentan el camino productivo desde el "modelo de propósito general" hasta "miles de modelos para miles de empresas".

11.1.1 Preentrenamiento y preentrenamiento continuo: de la capacidad general a la base sectorial

El preentrenamiento es la "ingeniería de origen" de las capacidades de los grandes modelos modernos: mediante el aprendizaje autosupervisado sobre cantidades masivas de texto no etiquetado, código y datos multimodales, el modelo adquiere gradualmente capacidades de modelado del lenguaje, conocimiento del mundo, razonamiento básico y aprendizaje de representaciones. Sobre esta base, el preentrenamiento continuo (en particular el Domain-adaptive Pretraining, DAPT) asume la tarea de "acercar el modelo a un dominio vertical específico".

En la fase de preentrenamiento general, los focos principales incluyen:

  1. Escala y diversidad del corpus : mezclar texto web, libros, código, diálogos, contenido multilingüe y pares imagen-texto junto con otros datos multimodales, cubriendo en la medida de lo posible un amplio conocimiento y formas de expresión.
  2. Objetivos de entrenamiento y mezcla de tareas múltiples : además del clásico modelado de lenguaje autorregresivo, a veces se incorporan objetivos como relleno de espacios, predicción de la siguiente oración, aprendizaje contrastivo y alineación imagen-texto, para mejorar la alineación semántica y la comprensión multimodal del modelo.
  3. Multilingüismo y alineación : mediante vocabularios compartidos o codificación de subpalabras, así como corpus paralelos interlingüísticos o tareas de alineación, el modelo modela diferentes idiomas en un espacio vectorial unificado, logrando transferencia interlingüística y traducción.

En la fase de preentrenamiento continuo sectorial (DAPT), el enfoque se desplaza hacia:

  1. Construcción de corpus sectorial : construir corpus propietarios a partir de historiales clínicos y guías médicas, sentencias judiciales y textos legales, informes financieros y datos de transacciones, documentos de diseño de manufactura/energía/videojuegos, entre otras fuentes.
  2. Adaptación de estilo y terminología : mediante el preentrenamiento continuo con grandes volúmenes de corpus del dominio, el modelo asimila naturalmente la terminología sectorial, expresiones fijas, estilos de redacción profesionales y conocimiento tácito (como hábitos de expresión clínica o fraseología jurídica).
  3. Inyección de conocimiento propietario empresarial : para grandes empresas u organizaciones, se puede añadir además documentación interna, bases de conocimiento, registros de tickets, etc., sobre el corpus general y sectorial, para entrenar un "gran modelo empresarial propio" como base inteligente unificada.

En la práctica de ingeniería, el preentrenamiento y el preentrenamiento continuo se ejecutan junto con marcos distribuidos a gran escala (Megatron-LM, DeepSpeed ZeRO, etc.) y pipelines de datos eficientes (WebDataset/HF Datasets + almacenamiento de objetos), formando pipelines de entrenamiento estables y reutilizables. Para proveedores de nube o grandes empresas, este pipeline suele encapsularse como una plataforma interna, que soporta preentrenamiento incremental periódico e iteración paralela de múltiples bases sectoriales.

11.1.2 Paradigmas de ajuste fino y RLHF: de "saber hablar" a "entender el negocio y respetar los límites"

Una vez que se dispone de una base de preentrenamiento potente, la clave para que el modelo sea "útil para el negocio" y tenga un "comportamiento controlable" reside en las fases de ajuste fino y alineación. Esto incluye tanto el ajuste fino supervisado (SFT) en sentido tradicional como el ajuste fino por instrucciones, el ajuste fino multitarea y el aprendizaje por refuerzo basado en retroalimentación (RLHF/RLAIF).

En el nivel de paradigmas de ajuste fino, se pueden distinguir aproximadamente:

  1. Ajuste fino completo (Full Fine-tuning) Cuando la distribución de la tarea difiere mucho del preentrenamiento, o existen requisitos estrictos de rendimiento extremo con suficiente cómputo (por ejemplo, modelos de lenguajes de programación específicos, modelos de diálogo para un idioma/sector concreto), actualizar todos los parámetros permite obtener el máximo rendimiento posible. Sin embargo, su alto coste y la complejidad de gestión de versiones hacen que generalmente solo se utilice en unos pocos modelos centrales.
  2. Ajuste fino eficiente en parámetros (PEFT) Mediante métodos como Adapter, LoRA/QLoRA, Prefix/P-Tuning, solo se entrenan los "pequeños bloques de parámetros incrementales" insertados o los incrementos de bajo rango de los pesos, manteniendo congelados los pesos del modelo grande original. Esto aporta tres ventajas de ingeniería:
    1. Múltiples tareas/clientes pueden compartir la misma base, cambiando únicamente diferentes pesos de Adapter/LoRA.
    2. Reduce significativamente los requisitos de memoria de video y cómputo, permitiendo realizar el ajuste fino en clústeres de GPU medianos/pequeños o en entornos de una sola máquina.
    3. Actualizaciones frecuentes y reversiones sencillas, facilitando la iteración rápida y los experimentos A/B.
  3. Ajuste fino por instrucciones y por tarea
    1. Ajuste fino por instrucciones (Instruction Tuning) : mediante muestras de "instrucción en lenguaje natural + entrada + salida esperada", el modelo aprende a comprender formas de instrucción humana como "ayúdame a…", "por favor explica…", liberándose así de plantillas específicas de tarea.
    2. Ajuste fino de tarea única : ajuste fino dirigido exclusivamente a tareas verticales como atención al cliente, completado de código, consultoría jurídica, maximizando el rendimiento en dicha tarea.
    3. Ajuste fino multitarea : soportar simultáneamente múltiples tareas en un modelo unificado (preguntas y respuestas, resumen, traducción, código, generación de razones de recomendación, etc.), mejorando la generalidad del modelo y la utilización de recursos.

En el nivel de alineación de comportamiento y seguridad, RLHF/RLAIF desempeña un papel clave:

  1. Entrenamiento del modelo de recompensa (Reward Model) : recopilar preferencias humanas o de IA sobre múltiples respuestas candidatas del modelo (clasificación/puntuación), y entrenar un modelo de recompensa capaz de evaluar "qué tan buena es una respuesta".
  2. Optimizar el modelo base mediante aprendizaje por refuerzo (como PPO) : bajo la guía del modelo de recompensa, ajustar los parámetros del modelo mediante aprendizaje por refuerzo para que se ajuste mejor a las preferencias humanas y los valores de la plataforma, por ejemplo:
  3. Ser más cortés, neutral y profesional;
  4. Rechazar o reformular de forma segura solicitudes peligrosas, infractoras o relacionadas con la privacidad;
  5. Expresar incertidumbre cuando la haya, en lugar de inventar hechos.
  6. RLAIF y alineación autosupervisada : en algunos escenarios, utilizar un modelo base potente como proveedor de retroalimentación, o combinar reglas con evaluación automatizada, para realizar una alineación semiautomatizada del proceso de ajuste fino, reduciendo los costes de anotación humana.

En cuanto a la cadena de herramientas, marcos como Hugging Face Transformers + PEFT, TRL/trlx y DeepSpeed-RLHF han conformado básicamente un flujo de trabajo industrial estándar desde SFT → entrenamiento RM → RLHF. En términos de definición de producto, esta capa se materializa típicamente en: servicios de personalización/entrenamiento por encargo de modelos, plataformas de ajuste fino con un solo clic, mercados de modelos multiinquilino y plataformas de ingeniería de grandes modelos sectoriales/empresariales.## 11.2 Despliegue e inferencia de modelos (Serving & Optimization)

Una vez entrenado un modelo grande, proporcionar servicios de inferencia de forma altamente disponible, con baja latencia, escalable y con costes optimizados constituye el segundo pilar del sistema de ingeniería de IA. La capa de despliegue e inferencia se conecta, por un lado, a los clústeres de cómputo (GPU / NPU) y, por otro, a las pasarelas de API, aplicaciones empresariales y plataformas abiertas al exterior. Sus responsabilidades principales incluyen: diseño de arquitectura de despliegue, estrategias de enrutamiento de modelos, optimización del rendimiento de inferencia y aprovechamiento del hardware.

Desde una perspectiva global, esta capa debe resolver tres problemas: con qué arquitectura exponer el servicio al exterior, cómo hacer la inferencia más rápida y económica y cómo mantener alta disponibilidad y gobernanza en entornos multimodelo, multirregión y multitenant.

  • Escenarios
    • Plataforma central de IA empresarial / bus de servicios de modelos: proporciona APIs de modelos grandes de forma unificada a todas las líneas de negocio, ocultando las diferencias entre modelos subyacentes y hardware.
    • API en la nube abierta al exterior: ofrece interfaces de inferencia estandarizadas a desarrolladores externos y socios del ecosistema, con soporte para selección de múltiples modelos y gestión de versiones.
    • Servicios online de alto QPS: asistentes de atención al cliente, búsqueda, recomendación, asistentes de oficina y otros escenarios con requisitos muy exigentes de latencia y estabilidad.
    • Generación offline de bajo coste: redacción publicitaria o de videojuegos, generación de bases de conocimiento, refactorización masiva de código y otras tareas por lotes donde prima el rendimiento y el coste sobre la latencia.
    • Despliegue multirregión y multiclúster: proporciona acceso cercano a usuarios globales o multirregionales, con soporte para entornos multicloud o de nube híbrida.
  • Principios
    • Arquitectura de despliegue y enrutamiento de modelos:
      • Servicio de modelo único: en etapas tempranas o escenarios simples, se expone un único modelo principal como servicio unificado. La arquitectura es sencilla pero difícilmente equilibra latencia y coste.
      • Servicio y enrutamiento multimodelo: según la tarea, los requisitos de latencia, las restricciones de coste, el nivel de usuario y otras dimensiones, se configuran modelos de distintos tamaños o especialidades, y se enrutan las solicitudes mediante reglas o un Meta-modelo (incluyendo pruebas A/B, estrategias Bandit, etc.).
      • Aislamiento multitenant y gestión de SLA: en escenarios con múltiples clientes, se garantiza el aislamiento de rendimiento y seguridad entre tenants mediante cuotas de recursos, límites de QPS, autenticación de acceso y niveles de SLA diferenciados.
      • Escalado elástico y alta disponibilidad: aprovechando infraestructura como Kubernetes / Service Mesh, se implementa autoescalado, despliegue con múltiples réplicas, despliegues canary, despliegues blue-green y recuperación ante desastres entre regiones.
    • Optimización del rendimiento de inferencia:
      • Compresión y aceleración de modelos: mediante cuantización (INT8 / INT4 / NF4 / GPTQ / AWQ), pruning / sparsification, destilación de conocimiento y otras técnicas se reduce la carga computacional y el uso de memoria de vídeo del modelo.
      • Optimización a nivel de sistema: uso de KV Cache para almacenar en caché las claves y valores de atención, acelerando conversaciones largas e inferencia continua; equilibrio entre rendimiento y latencia mediante procesamiento por lotes (Batching), generación paralela de tokens y salida en streaming; reducción de accesos a memoria y sobrecarga de lanzamiento de kernels mediante fusión de operadores y optimización de grafos.
      • Aprovechamiento de hardware heterogéneo: construcción de Runtimes y estrategias de planificación adaptadas a distintos hardwares como GPU, CPU, NPU, FPGA, ASIC, mejorando la eficiencia global en escenarios de una máquina con múltiples tarjetas o múltiples máquinas con múltiples tarjetas mediante interconexiones de alta velocidad como NVLink / RDMA.
    • Ingeniería y operaciones:
      • Uso de frameworks de inferencia especializados como vLLM, TGI, Triton para reducir significativamente los costes de desarrollo propio.
      • Despliegue multiplataforma y optimización a nivel de operador mediante compiladores y Runtimes como ONNX Runtime, TensorRT, TVM, OpenVINO.
      • Construcción de un clúster de inferencia online unificado y capa de gestión de tráfico mediante Kubernetes, Ray, Service Mesh y pasarelas de API.
  • Modelos
    • Frameworks de Serving y servicios de inferencia:
      • vLLM, TGI (Text Generation Inference), Triton Inference Server.
      • Ray Serve, KServe, TorchServe, SageMaker Endpoint, Vertex AI Endpoint, etc.
    • Clústeres y planificación:
      • Kubernetes (K8s), Kubeflow, Ray, Slurm.
      • Service Mesh: Istio / Linkerd (con soporte para despliegues canary, limitación de velocidad, circuit breaking, fallback y otras capacidades de gobierno del tráfico).
    • Pasarelas de API y autenticación:
      • Kong, NGINX / APISIX / Envoy.
      • IAM / Keycloak / Auth0, API Gateway de proveedores cloud, OAuth2 / OIDC, etc.
    • Compresión de modelos y bibliotecas de rendimiento:
      • Cuantización: NVIDIA TensorRT‑LLM / TensorRT, Intel Neural Compressor, OpenVINO (PTQ / QAT), BitsAndBytes, GPTQ, AWQ, AutoGPTQ.
      • Pruning / Sparsity: PyTorch Sparse, TensorFlow Model Optimization Toolkit, SparseML, Neural Magic.
      • Destilación: esquemas de referencia como DistilBERT / TinyBERT, o pipelines de destilación basados en Hugging Face Trainer + pérdida de destilación personalizada.
    • Motores de inferencia / Runtime y optimización de grafos:
      • ONNX Runtime, TensorRT, OpenVINO Runtime, TVM, MNN, NCNN.
      • Motores de inferencia especializados para modelos grandes: Sglang, vLLM, FasterTransformer, TGI, LMDeploy, DeepSpeed‑Inference.
      • Compilación y optimización de grafos: TVM, XLA (JAX/TF), TensorRT Graph Optimizer, TorchDynamo / TorchInductor, MLIR, Glow, ONNX Graph Optimizer, Intel NNCF, etc.
    • Hardware y soporte heterogéneo:
      • GPU: CUDA / cuDNN / cuBLAS, ROCm (AMD).
      • CPU: oneDNN (MKL‑DNN), OpenBLAS, Eigen.
      • NPU / aceleradores dedicados: SDKs como Ascend CANN, Habana Gaudi, Graphcore IPU.

En el lado del producto, esta capa suele materializarse como plataforma central de IA empresarial / bus de servicios de modelos, API en la nube pública, pasarela de inferencia unificada, clúster de inferencia online de alto QPS, plataforma de procesamiento por lotes de bajo coste y soluciones de optimización de utilización de cómputo, constituyendo el "sistema operativo" en tiempo de ejecución que permite el despliegue a gran escala de las capacidades de los modelos grandes.

11.2.1 Arquitectura de despliegue y enrutamiento de modelos: del modelo único a la malla de servicios multimodelo

En las primeras fases de experimentación, muchos equipos optan por un modelo "grande y completo" como punto de entrada único para el servicio: todas las solicitudes son procesadas por el mismo modelo. Este modelo tiene una arquitectura simple y un bajo coste de mantenimiento, adecuado para POCs y escenarios de bajo tráfico. Sin embargo, a medida que el negocio se expande y la presión de costes aumenta, las limitaciones de la arquitectura de modelo único se hacen rápidamente evidentes:

  1. Los distintos tipos de tareas tienen requisitos diferentes de latencia / coste / calidad; usar el mismo modelo grande para todas las solicitudes provoca desperdicio de cómputo.
  2. Distintos sectores y clientes requieren capacidades diferenciadas — por ejemplo, modelos específicos de industria o pesos personalizados por cliente —, algo difícil de gestionar de forma unificada en modo "modelo único".
  3. Escenarios como despliegues canary, pruebas A/B o recuperación ante desastres entre regiones exigen una planificación flexible entre múltiples versiones de modelo.

Por ello, un servicio de modelos grandes maduro suele evolucionar hacia una arquitectura de servicio multimodelo con enrutamiento inteligente:

  1. Pool multimodelo y catálogo de modelos: se mantienen simultáneamente modelos de diversos tamaños (small / base / large / ultra), diversas especialidades (general / código / multimodal / sectorial) y diversas versiones (v1 / v1.1 / personalizados por cliente, etc.), registrándolos y gestionándolos de forma unificada en la capa de servicio.
  2. Estrategias de enrutamiento:
  3. Enrutamiento por reglas: selección explícita basada en parámetros de la solicitud (tipo de tarea, nivel de usuario, preferencia de latencia / coste, etc.) y reglas de negocio (un sector o región determinados obligan a usar un modelo específico).
  4. Selector de modelos (Meta‑model): un modelo ligero que selecciona automáticamente el modelo óptimo (por ejemplo, modelo pequeño y rápido frente a modelo grande y lento) según el contenido de entrada, el rendimiento histórico y las métricas en tiempo real.
  5. Enrutamiento A/B / Bandit: experimentación online entre modelos nuevos y antiguos o distintas configuraciones, convergiendo automáticamente hacia la mejor solución según CTR, satisfacción del usuario, tasa de éxito de tareas y otras métricas.
  6. Aislamiento multitenant y gestión de cuotas:
  7. Sobre el enrutamiento de modelos se superpone el control de cuotas por tenant, límites de QPS, autenticación de acceso y niveles de SLA, garantizando el aislamiento de recursos y datos entre distintos clientes.
  8. Mediante aislamiento lógico + aislamiento físico (clústeres dedicados o nodos exclusivos) se abordan escenarios de alta conformidad como finanzas, sanidad o administración pública.
  9. Escalado elástico y alta disponibilidad:
  10. Autoescalado según el tráfico mediante Kubernetes HPA / VPA, Cluster Autoscaler.
  11. Estabilidad del servicio garantizada mediante despliegue con múltiples réplicas, balanceo de carga, despliegues canary, despliegues blue-green y recuperación ante desastres multirregión.

Técnicamente, se suele adoptar la combinación de Kubernetes + Service Mesh (Istio / Linkerd) + pasarela de API (Kong / APISIX / Envoy) + frameworks de servicio de modelos (vLLM / TGI / Triton / Ray Serve / KServe), formando una plataforma de inferencia en malla de servicios que admite múltiples modelos, multitenencia, gobierno del tráfico y despliegues canary.

11.2.2 Optimización del rendimiento de inferencia y aceleración por hardware: reducir al mínimo el "coste por inferencia"

En escenarios de comercialización a gran escala de modelos grandes, el coste de inferencia suele ser uno de los mayores gastos continuos. Cómo comprimir el coste unitario por solicitud (Cost per Request / per Token) y la latencia de extremo a extremo hasta un rango aceptable, sin comprometer la experiencia, es el desafío técnico central de la capa de despliegue.

En el lado del modelo, las técnicas habituales incluyen:

  1. Cuantización (Quantization) Al comprimir los pesos y las activaciones de FP16 / BF16 a formatos de baja precisión como INT8 / INT4 / NF4, se reduce significativamente el uso de memoria de vídeo y el ancho de banda.
    1. Cuantización post-entrenamiento (PTQ): como GPTQ, AWQ, BitsAndBytes, etc., que cuantizan el modelo ya entrenado de forma offline.
    2. Entrenamiento consciente de la cuantización (QAT): tiene en cuenta el error de cuantización durante la fase de entrenamiento / fine-tuning, mejorando la precisión tras la cuantización.
  2. Pruning y sparsification (Pruning & Sparsity) Mediante pruning estructurado o no estructurado se eliminan pesos o canales poco importantes, haciendo el modelo disperso, y se combina con operadores dispersos optimizados para hardware (como la aceleración de matrices dispersas de NVIDIA) para aumentar la velocidad de inferencia.
  3. Destilación (Distillation) Se usa un modelo grande como profesor para destilar el conocimiento en un modelo estudiante más pequeño o en un modelo específico de tarea, reduciendo drásticamente la escala de parámetros mientras se mantiene un rendimiento cercano en la tarea. Adecuado para servicios online extremadamente sensibles a la latencia o despliegues en edge.

En el lado del sistema y Runtime, los puntos clave de optimización incluyen:

  1. KV Cache y optimización para contexto largo: En la generación autorregresiva, se almacenan en caché las claves y valores de atención de los tokens históricos para evitar cálculos repetidos, mejorando así la eficiencia en conversaciones largas y solicitudes multiturno; combinado con cálculo por bloques y estrategias de recorte dinámico para controlar el uso de memoria de vídeo.
  2. Procesamiento por lotes y generación paralela: Mediante agrupación dinámica de solicitudes, planificación por grupos y generación paralela de tokens, se mejora el rendimiento global sin aumentar significativamente la latencia P95; combinado con salida en streaming para mejorar la experiencia interactiva en el frontend.
  3. Optimización de operadores y grafos: Uso de compiladores y Runtimes (como TensorRT, TVM, ONNX Runtime, TorchInductor) para realizar fusión de operadores, optimización de disposición de memoria y compilación de grafos estáticos, reduciendo la sobrecarga de lanzamiento de kernels y acceso a memoria.
  4. Planificación de hardware heterogéneo: Según las características computacionales y los requisitos de latencia de cada tarea, se asigna de forma racional entre recursos heterogéneos como GPU, CPU, NPU, FPGA:
    1. Las solicitudes de diálogo / búsqueda extremadamente sensibles a la latencia y de alta concurrencia se planifican prioritariamente en GPU / NPU.
    2. Las tareas de generación por lotes, evaluación offline o reproducción de logs pueden planificarse en CPU o en GPU / NPU de bajo coste.

En cuanto a herramientas y frameworks, TensorRT‑LLM, SgLang, vLLM, FasterTransformer, LMDeploy, DeepSpeed‑Inference y otros ya han conformado un ecosistema de aceleración de inferencia para modelos grandes relativamente maduro. En el lado del negocio, estas optimizaciones se traducen finalmente en: clústeres de inferencia online de alto QPS y baja latencia, plataformas de generación por lotes de bajo coste, soluciones de optimización de utilización de cómputo y sistemas de facturación y contabilidad de costes MaaS / API.## 11.3 Datos y operaciones de modelos (Data / Model Ops)

Una vez que un modelo grande entra en producción, deja de ser un activo estático de «entrega única» y se convierte en un sistema dinámico que requiere iteración continua en cinco dimensiones: datos, modelo, configuración, versiones y experimentación. La capa de Data / Model Ops constituye el paradigma de ingeniería construido en torno a esta realidad: desde el data flywheel y la gestión del ciclo de vida del modelo hasta la experimentación en línea y el despliegue automatizado, proporciona la base para la mejora sostenible y la evolución controlada de las capacidades del modelo.

Esta capa conecta, por un lado, el lago de datos/almacén de datos, los sistemas de registro y captura, y por otro, la plataforma de entrenamiento, el sistema de evaluación y el gateway de servicios en línea, actuando como el eje central que cierra el ciclo «datos–modelo–retroalimentación de negocio».

  • Escenarios
    • Plataforma integrada de datos empresariales + entrenamiento de modelos: cubre todo el flujo desde la captura de datos, limpieza, etiquetado y gestión hasta el entrenamiento/ajuste fino, soportando la iteración continua de múltiples modelos.
    • Mecanismo de «mejora continua de resultados» para aplicaciones de IA orientadas al consumidor (C-end) o a empresas (B-end): se apoya en la retroalimentación del usuario y en un data flywheel impulsado por datos de uso.
    • Plataforma de gestión de datos y estación de trabajo de etiquetado compartida por equipos de anotación y algoritmos: permite la asignación de tareas, el control de calidad y el versionado retrospectivo.
    • Plataforma ModelOps a nivel corporativo: registro y gestión unificados de todas las versiones de modelos, resultados de evaluación y estados de despliegue.
    • Sistema de experimentación en línea y despliegue gradual: admite pruebas A/B, pruebas en producción con tráfico reducido para múltiples modelos y ampliación automática del tráfico hacia la mejor versión.
    • Servicio de alojamiento de modelos: ofrece a socios/clientes la capacidad de gestión de modelos «cargar una vez, desplegar en múltiples entornos, gestionar múltiples versiones».
  • Principios
    • Gestión de datos y data flywheel:
      • Captura y gobernanza de datos: recopilación de muestras desde registros de negocio, conversaciones de usuarios, datos públicos y datos de socios, con procesos de deduplicación, reducción de ruido, anonimización, unificación de formato y evaluación de calidad.
      • Ciclo cerrado de etiquetado y retroalimentación: combinación de anotación experta y crowdsourcing con mecanismos de control de calidad para construir datos de etiquetado de alta calidad; reintegración al conjunto de entrenamiento de las señales de retroalimentación del usuario como «me gusta»/«no me gusta», correcciones y revisiones manuales.
      • Data Flywheel: tras el despliegue, recopilación continua de datos reales de uso → selección de muestras de alto valor (errores del modelo, baja confianza, tareas de alto rendimiento) → reentrenamiento o ajuste fino → mejora del rendimiento del modelo → nueva ronda de uso, formando un bucle de retroalimentación positiva.
    • Ciclo de vida del modelo y despliegue:
      • Control de versiones del modelo: mantenimiento de un número de versión claro (versión mayor/menor), versión de los datos de entrenamiento, parámetros de configuración, resultados de evaluación, informes de seguridad y registro de cambios para cada modelo.
      • CI/CD y pipeline automatizado: tras el entrenamiento, activación automática de evaluación y verificación de seguridad; mediante pruebas de regresión y umbrales de aprobación, solo se permite el despliegue gradual y completo si los indicadores clave no se degradan excesivamente.
      • Experimentación y asignación de tráfico: uso de métodos de experimentación en línea como pruebas A/B y bandidos multibrazo (multi-armed bandits) para comparar múltiples versiones del modelo, seleccionando automáticamente la mejor según indicadores de negocio en tiempo real (por ejemplo, tasa de éxito de tareas, tasa de resolución de tickets, satisfacción del usuario).
  • Modelos y herramientas
    • Lagos de datos y almacenes de datos:
      • Delta Lake, Apache Hudi, Iceberg, Hive, BigQuery, Snowflake, etc., para el almacenamiento y gestión unificados de datos estructurados/no estructurados a gran escala.
    • Procesamiento de datos en streaming:
      • Kafka, Pulsar, Flink, Spark Streaming, etc., para la ingesta en tiempo real de registros, conversaciones de usuarios y flujos de eventos.
    • Gestión de características y muestras:
      • Feature Stores como Feast, repositorios de muestras propios, ML Metadata Store, para registrar muestras, características y metadatos de entrenamiento.
    • Plataformas de etiquetado y control de calidad:
      • Label Studio, plataformas tipo Scale, sistemas de etiquetado propios, con soporte para etiquetado multitarea, control de calidad y gestión de personal.
    • Plataformas MLOps / ModelOps:
      • MLflow, Kubeflow, SageMaker, Vertex AI, Azure ML, Weights & Biases, etc., para gestionar experimentos de entrenamiento, parámetros, métricas y artefactos del modelo.
    • Registro de modelos y control de versiones:
      • MLflow Model Registry, SageMaker Model Registry, W&B Artifacts, etc.
    • Herramientas de CI/CD:
      • GitHub Actions, GitLab CI, Jenkins, Argo CD, Flux, etc., para construir pipelines de entrega continua de modelos.

11.3.1 Data flywheel y ciclo cerrado de entrenamiento: hacer que el modelo «mejore con el uso»

En el desarrollo de software tradicional, las actualizaciones de versión suelen estar impulsadas por el plan de desarrollo; en la era de los modelos grandes, los datos y la retroalimentación se convierten en el principal motor de iteración. El objetivo del data flywheel es transformar «uso del modelo → acumulación de datos → reentrenamiento → actualización del modelo» en un ciclo cerrado automatizado, haciendo que el modelo sea cada vez mejor con el uso en entornos de negocio reales.

Los componentes clave incluyen:

  1. Captura y filtrado de datos en línea En aplicaciones como chatbots, Copilot, búsqueda con preguntas y respuestas y asistentes de código, cada interacción del usuario es una muestra de entrenamiento potencialmente de alto valor. A través de sistemas de registro y seguimiento de eventos, se capturan de forma estructurada las solicitudes, las respuestas del modelo y el comportamiento del usuario (clics, aceptación o rechazo), realizando la anonimización de privacidad y el recorte de campos en el punto de captura para garantizar que no se introduzcan riesgos adicionales de cumplimiento normativo.
  2. Minería de muestras de alto valor Del enorme volumen de registros, se filtran las pocas muestras más valiosas para el entrenamiento, por ejemplo:
    1. Respuestas claramente erróneas o marcadas negativamente por los usuarios, utilizadas para reentrenamiento de tipo «correctivo».
    2. Muestras de preguntas largas de alta dificultad y tareas de flujo de trabajo complejas, para mejorar la capacidad del modelo en «razonamiento de cadena larga / llamadas a herramientas en múltiples pasos».
    3. Casos de negocio típicos y tickets de alto valor, para construir capacidades especializadas de industria o empresa.
  3. Etiquetado y control de calidad Las muestras candidatas se etiquetan de forma manual o semiautomática (incluyendo respuesta esperada, clasificación de calidad, etiquetas de seguridad, etc.) y se garantiza la calidad del etiquetado mediante múltiples rondas de control de calidad, revisión y muestreo, proporcionando datos fiables para el posterior SFT o RLHF.
  4. Reentrenamiento continuo y despliegue tras evaluación Periódicamente, se incorporan nuevas muestras al conjunto de entrenamiento, realizando operaciones de reentrenamiento como SFT / DAPT / RLHF, y se evalúan simultáneamente tanto las «métricas offline como los resultados en línea» mediante conjuntos de evaluación estándar y experimentos A/B en línea, asegurando que la nueva versión supere globalmente a la anterior y evitando que el data flywheel «derive en la dirección equivocada».

En su forma madura, la gran mayoría de las operaciones del data flywheel se encapsulan de forma automatizada dentro de la plataforma de Data / Model Ops: desde la captura de datos, el filtrado de muestras y la asignación de tareas de etiquetado, hasta la activación del reentrenamiento del modelo, la recopilación de resultados de evaluación y la decisión de despliegue, minimizando la intervención manual y convirtiendo la iteración del modelo en un proceso de ingeniería estable y controlable.

11.3.2 Ciclo de vida del modelo y ModelOps: del modelo experimental al activo de producción

Con el crecimiento exponencial del número de modelos y versiones, la falta de una gestión rigurosa del ciclo de vida conduce fácilmente a problemas como «modelos dispersos por todas partes, versiones caóticas y dificultad para revertir cambios». El objetivo de ModelOps es gestionar los modelos como activos de ingeniería de primer nivel, completamente trazables, comparables y recuperables.

Los puntos clave incluyen:

  1. Versionado y gestión de metadatos Asignar a cada modelo un número de versión inequívoco (p. ej., industry-legal-base-v1.2.3) y registrar:
    1. Versión y rango temporal de los datos de entrenamiento;
    2. Configuración de entrenamiento (hiperparámetros, versión del script de entrenamiento, commit de código utilizado);
    3. Indicadores de evaluación (benchmarks generales + benchmarks específicos del negocio);
    4. Evaluación de seguridad y estrategia de alineación (p. ej., versión de la política de respuesta a temas sensibles);
    5. Historial de despliegue/retirada/reversión.
  2. Pipeline automatizado de extremo a extremo (CI/CD for Models) Encapsular el flujo «entrenamiento completado → evaluación automática → verificación de seguridad y sesgos → despliegue gradual → despliegue completo» en un pipeline de CI/CD.
  3. Si los indicadores de evaluación offline no alcanzan el umbral preestablecido, se bloquea automáticamente el despliegue.
  4. Si el rendimiento en el experimento A/B en línea es deficiente, se reduce automáticamente el tráfico o se revierte a la versión anterior.
  5. Coexistencia de múltiples versiones y enrutamiento de tráfico En el entorno de producción, a menudo coexisten múltiples versiones del modelo (como stable / canary / experimental), que se comparan en línea mediante estrategias de asignación de tráfico (proporción fija, dimensión de usuario, dimensión de características).
    1. Las pruebas A/B se centran más en conclusiones estadísticas estables;
    2. Los bandidos multibrazo (Multi‑armed Bandit) equilibran automáticamente exploración y explotación, acelerando la convergencia hacia la versión de mejor rendimiento.
  6. Soporte de cumplimiento normativo y auditoría Para sectores como finanzas, salud y gobierno, es necesario mantener un registro trazable de cada cambio de versión del modelo: quién, cuándo, basándose en qué datos, actualizó el modelo de qué versión a qué versión, y cuál fue la evaluación de impacto posterior. Esta parte suele integrarse con la infraestructura de seguridad y cumplimiento descrita en la sección 11.5.

En cuanto a la implementación de ingeniería, herramientas como MLflow / SageMaker / Vertex AI / W&B ya ofrecen capacidades de ModelOps relativamente maduras; la mayoría de las empresas construyen sobre ellas una segunda capa de encapsulación adaptada a sus propios procesos, creando un registro de modelos interno y plataforma de despliegue unificados.## 11.4 Monitorización, Coste y Fiabilidad (Monitoring, Cost & Reliability)

Cuando los grandes modelos de lenguaje se convierten en infraestructura central del negocio, garantizar su observabilidad, alertabilidad, escalabilidad y control de costes se vuelve una responsabilidad clave para los equipos de SRE y plataforma. La capa de monitorización, coste y fiabilidad combina los sistemas tradicionales de observabilidad con métricas específicas de LLM, construyendo una vista multidimensional orientada a operaciones, algoritmos y gestión.

Esta capa conecta, por un lado, los sistemas de recolección de métricas, logs y trazado distribuido, y por otro, los KPI de negocio y las plataformas de análisis de costes, siendo el pilar fundamental para garantizar que el servicio de modelos sea "estable, rápido y económico".

  • Escenarios
    • Panel de monitorización operativa para equipos de operaciones / SRE: visualización unificada de uso de CPU / GPU, QPS, latencia, tasa de errores, alertas, etc.
    • Plataforma de monitorización de datos y calidad del modelo para equipos de algoritmos: monitorización de la distribución de datos de entrada, deriva del modelo, efectividad del prompt engineering y tasa de aciertos de RAG.
    • Panel de salud del servicio para la dirección: vinculación de KPI de negocio (tasa de conversión, satisfacción, tasa de finalización de tareas) con métricas del modelo.
    • Plataforma de análisis y optimización de costes de IA: desglose de costes de computación por modelo, proyecto y línea de negocio, con soporte para gestión presupuestaria y estrategias de optimización de costes.
    • Sistema de planificación inteligente y escalado elástico: escalado automático o cambio de especificación del modelo según la carga y el presupuesto.
    • Sistema de facturación y contabilidad de costes para MaaS / API externas: soporte para facturación por volumen de llamadas, número de tokens, uso de computación, etc.
  • Principios
    • Monitorización y observabilidad:
      • Monitorización multicapa: desde la capa de infraestructura (CPU / GPU / memoria / red / almacenamiento) hasta la capa de servicio (QPS, latencia P50 / P95 / P99, tasa de errores, reintentos por timeout), y hasta la capa de modelo (uso de tokens, distribución de longitud de contexto, longitud de respuesta, tipos de errores frecuentes).
      • Logs y trazado distribuido: registro estructurado de solicitudes / respuestas (con desensibilización previa), incluyendo versión del modelo, decisión de enrutamiento e información del inquilino; uso de herramientas de trazado distribuido para registrar la traza completa desde el API Gateway → servicio del modelo → sistemas downstream.
      • Alertas y análisis: configuración de alertas por umbral, detección de anomalías y análisis de tendencias, vinculados con métricas de negocio, costes y eventos de seguridad para lograr una localización y recuperación rápidas.
    • Control de costes y planificación elástica:
      • Análisis de costes: desglose de costes de GPU / CPU / almacenamiento / ancho de banda por modelo, proyecto y línea de negocio, cálculo del coste medio por solicitud y del coste marginal por tarea / cliente.
      • Planificación elástica: uso de estrategias de franjas horarias pico/valle, con escalado automático en horas punta y reducción en horas valle; desplazamiento de tareas batch offline a horarios nocturnos o de baja carga.
      • Degradación estratégica y aceleración bajo demanda: cambio automático a modelos más pequeños, contextos más cortos o configuraciones de inferencia más conservadoras cuando los recursos escasean; uso automático de modelos más grandes o contextos más largos para solicitudes de alto valor.
  • Modelos
    • Monitorización y visualización:
      • Prometheus + Grafana, VictoriaMetrics, Thanos y otras soluciones de recolección y visualización de métricas.
    • Sistemas de logs:
      • ELK (Elasticsearch + Logstash + Kibana), EFK (Fluentd / Fluent Bit), OpenSearch, etc.
    • Trazado distribuido:
      • OpenTelemetry, Jaeger, Zipkin, etc.
    • Monitorización específica del modelo:
      • WhyLabs, Arize AI, Fiddler, Evidently AI, etc., para monitorización de deriva de datos/modelos y evaluación de calidad de salida.
    • Estadísticas de costes y atribución:
      • K8s Metrics / Cost Exporter, Kubecost, y herramientas de gestión de costes de cada proveedor cloud (AWS Cost Explorer / GCP Billing / Azure Cost Management).
    • Planificación de recursos y escalado elástico:
      • K8s HPA / VPA, Cluster Autoscaler, Volcano, Ray Cluster Autoscaler.
    • Orquestación de tareas:
      • Argo Workflows, Airflow, Prefect, Dagster, etc.

11.4.1 Monitorización y Observabilidad: de la Infraestructura al Comportamiento del Modelo

En los sistemas de grandes modelos de lenguaje, las métricas tradicionales de CPU / memoria / QPS ya no son suficientes; es necesario añadir una capa de monitorización desde la "perspectiva del modelo" para comprender realmente el estado de salud del sistema. Un sistema completo de observabilidad suele incluir:

  1. Monitorización de infraestructura y capa de servicio Mediante Prometheus / Grafana, VictoriaMetrics, etc., recolectar y visualizar:
    1. Uso de CPU, GPU, memoria, disco y red a nivel de nodo / Pod;
    2. QPS, latencia P50 / P95 / P99, tasa de errores, ratio de reintentos por timeout y número de conexiones a nivel de servicio;
    3. Tasa de utilización de recursos y alertas de capacidad a nivel de clúster.
  2. Monitorización de métricas a nivel de modelo Para servicios de LLM, además de las métricas de rendimiento convencionales, se requiere monitorización específica:
    1. Consumo de tokens por solicitud (entrada / salida), distribución de longitud de contexto;
    2. Longitud de respuesta y ratio de truncamiento, para investigar problemas de calidad causados por límites de contexto o de longitud de salida;
    3. Estadísticas de tipos de errores frecuentes (como entrada demasiado larga, timeout del modelo, fallo en llamadas a herramientas, etc.).
  3. Logs y trazado distribuido
    1. Uso de logs estructurados para registrar parámetros de solicitud (tras desensibilización), versión del modelo, decisión de enrutamiento, identificador de inquilino, código de retorno, etc.
    2. Con ayuda de OpenTelemetry, Jaeger, Zipkin, etc., trazar el recorrido completo de una solicitud a través de API Gateway → servicio del modelo → sistemas downstream → callbacks, facilitando la localización de cuellos de botella de latencia y puntos de fallo.
  4. Detección de anomalías y alertas inteligentes Sobre la base de las alertas tradicionales por umbral, se pueden introducir modelos simples de monitorización estadística o de machine learning para detectar anomalías en QPS, latencia, tasa de errores, distribución de tokens, etc. Cuando se produzcan cambios bruscos, se activan alarmas automáticas vinculadas a estrategias de autorreparación (como escalado automático, conmutación de tráfico, degradación del servicio).

Para los equipos de algoritmos, también se pueden integrar en esta capa herramientas como WhyLabs, Arize, Evidently AI, etc., para realizar un seguimiento a largo plazo de la distribución de entradas, las características de salida del modelo y la deriva, proporcionando señales para el posterior data flywheel y reentrenamiento.

11.4.2 Análisis de Costes y Planificación Elástica: Encontrar el Equilibrio entre "Experiencia" y "Presupuesto"

Uno de los desafíos operativos más notables de los servicios de LLM es el alto coste y su gran volatilidad. Sin un análisis de costes detallado y una planificación elástica, es fácil no ver "dónde se quema el dinero" cuando el negocio crece, y resulta difícil hacer ajustes a tiempo. Un sistema maduro de costes y planificación de recursos suele incluir:

  1. Atribución y reparto de costes Utilizando Kubecost, herramientas de facturación de proveedores cloud y libros contables propios, desglosar los costes de GPU / CPU / almacenamiento / ancho de banda por modelo, proyecto, línea de negocio e inquilino, para que cada equipo y cliente pueda ver su consumo real de recursos y gastos correspondientes.
  2. Análisis de coste unitario por solicitud y coste marginal
    1. Calcular el coste medio por solicitud de cada modelo / tarea (Coste por 1k tokens / por solicitud), comparando la relación coste-rendimiento entre diferentes modelos y configuraciones.
    2. Analizar el coste marginal de diferentes clientes y escenarios de negocio, proporcionando bases para la estrategia de precios (facturación de API), la clasificación de SLA y el empaquetado de productos.
  3. Escalado elástico y aprovechamiento de horas pico/valle
    1. Mediante mecanismos como K8s HPA / VPA, Cluster Autoscaler, Ray Autoscaler, implementar escalado automático para garantizar que no haya caídas en horas punta ni recursos inactivos en horas valle.
    2. Programar tareas offline (como generación batch de contenido, reproducción de logs, evaluación offline) en horarios nocturnos o de baja demanda, para mejorar la utilización general de GPU y suavizar la curva de costes.
  4. Degradación estratégica y aceleración bajo demanda
    1. Activar automáticamente estrategias de degradación cuando los recursos escasean o el coste supera el presupuesto: usar modelos más pequeños, acortar el contexto o la salida, reducir el paralelismo.
    2. Para solicitudes de alto valor (como usuarios premium de pago, flujos de negocio críticos), usar automáticamente modelos más grandes, contextos más largos o capacidades de llamada a herramientas más ricas, logrando una "asignación de computación basada en el valor".

En escenarios de API externa, esta capa también se integra profundamente con el sistema de facturación, formando una plataforma de facturación y contabilidad de costes MaaS / API: facturación según el uso de tokens, número de llamadas, especificación del modelo y tipo de solicitud, proporcionando análisis de costes y márgenes para los equipos de operaciones y ventas.## 11.5 Infraestructura de seguridad, control de acceso y cumplimiento normativo (Security, Access Control & Compliance Infra)

Cuando las capacidades de los modelos grandes ingresan en sectores altamente sensibles como finanzas, salud y gobierno, la seguridad y el cumplimiento normativo dejan de ser un "valor agregado" para convertirse en un requisito previo de entrada. La capa de infraestructura de seguridad, control de acceso y cumplimiento es responsable de construir defensas a nivel de sistema que abarcan desde el control de acceso, la seguridad de datos y la protección de la privacidad hasta la auditoría de cumplimiento, garantizando que los servicios de modelos operen de manera confiable dentro del marco legal y regulatorio.

Esta capa conecta por un lado los sistemas de autenticación de identidad, gestión de permisos, claves y cifrado, y por el otro los servicios de modelos y las plataformas de registro/auditoría. Es el elemento clave que transforma un "modelo utilizable" en un "modelo en el que se puede confiar".

  • Escenarios
    • Plataformas de modelos grandes localizadas para sectores de alto cumplimiento (finanzas, salud, gobierno): requieren que los datos no salgan del dominio, sean auditables y trazables.
    • Gateway unificado de control de acceso y auditoría de IA empresarial: autenticación, gestión de permisos y registros de auditoría centralizados para todas las llamadas a modelos.
    • Plataformas SaaS / cloud multi-tenant: necesidad de proporcionar aislamiento de seguridad estricto y soporte de cumplimiento para diferentes clientes, tanto a nivel lógico como físico.
    • Interfaces abiertas orientadas a socios / ecosistema: requieren control de permisos detallado y límites de cuota para las llamadas API, cumpliendo con requisitos normativos (como GDPR, etc.).
  • Principios
    • Control de acceso y aislamiento de tenants:
      • Autenticación de identidad mediante API Key / Token / OAuth / SSO.
      • Gestión detallada de permisos a nivel de modelo, funcionalidad, frecuencia de llamadas y alcance de datos mediante RBAC (control de acceso basado en roles) y ABAC (control de acceso basado en atributos).
      • En entornos multi-tenant, implementar aislamiento de datos, registros, configuración y pesos de modelo para evitar accesos entre tenants y fugas de información.
    • Seguridad de datos y protección de la privacidad:
      • Uso de cifrado TLS en transmisión, cifrado en reposo y gestión centralizada de claves (KMS) para proteger los datos durante la transmisión y el almacenamiento.
      • Implementación de anonimización de registros y estrategias de minimización de datos, conservando solo la información necesaria para el negocio y la optimización, con auditoría de los comportamientos de acceso.
      • Introducción de tecnologías de mejora de la privacidad (como anonimización de datos, privacidad diferencial, aprendizaje federado) en los escenarios necesarios para reducir aún más los riesgos de privacidad.
    • Cumplimiento normativo y auditoría:
      • Registro completo y aprobación de operaciones críticas como publicación de modelos, cambios de configuración, cambios de permisos y ajustes de estrategias de enrutamiento.
      • Registro de metadatos trazables para cada solicitud: origen de la solicitud, versión del modelo, fundamento de la decisión (como la base de conocimiento utilizada / estado de las llamadas a herramientas).
      • Garantizar que el diseño y funcionamiento del sistema cumplan con los requisitos regulatorios de los sectores financiero, sanitario y gubernamental, así como con las normas locales y transfronterizas de cumplimiento de datos.
  • Modelos
    • Autenticación de identidad y gestión de permisos:
      • Keycloak, Auth0, Okta, IAM de los principales proveedores cloud (AWS IAM / GCP IAM / Azure AD).
      • Motores de políticas como OPA (Open Policy Agent) + Rego Policy, para gestión y ejecución unificada de políticas.
    • Gateway de seguridad API:
      • Kong, Apigee, Envoy, API Gateway de proveedores cloud, etc.
    • Seguridad de datos y claves:
      • KMS (Key Management Service), HashiCorp Vault.
      • Terminación TLS, computación confidencial (Confidential Computing), etc.

11.5.1 Control de acceso y aislamiento de tenants: garantizar "quién puede usar, qué puede usar y cuánto puede usar"

En una plataforma de modelos grandes utilizada por múltiples líneas de negocio, clientes y roles, la ausencia de un control de acceso detallado y aislamiento de tenants puede provocar fácilmente problemas graves como abuso de permisos, fugas de datos y disputas por recursos. Un sistema completo de acceso y aislamiento requiere coordinación en las siguientes dimensiones:

  1. **Autenticación de identidad e****inicio de sesión único** Mediante API Key / Token, OAuth2 / OIDC, SSO empresarial, etc., se realiza una autenticación de identidad unificada para empleados internos, socios externos y aplicaciones de terceros. Para usuarios empresariales, se puede integrar con los sistemas de identidad existentes (como AD / LDAP / IAM empresarial) para evitar sistemas de cuentas duplicados.
  2. Control de permisos detallado (**RBAC** / **ABAC**)
  3. RBAC: configurar para cada rol (administrador, ingeniero de algoritmos, operaciones de negocio, usuario común, socio) los modelos accesibles, entornos (pruebas / producción), operaciones (invocación / configuración / publicación) y cuotas correspondientes.
  4. ABAC: sobre la base de los roles, introducir atributos como ID de tenant, ID de proyecto, dominio de datos, franja horaria, etc., para implementar políticas más flexibles (por ejemplo, "permitir solo al tenant gubernamental A invocar el clúster de modelos localizados en su región").
  5. Aislamiento multi-tenant y gestión de cuotas
    1. A nivel lógico, aislar las llamadas, datos y registros de diferentes clientes mediante el ID de tenant;
    2. A nivel físico, para clientes de alto cumplimiento (como bancos / gobierno), proporcionar clústeres o nodos dedicados para lograr un mayor nivel de aislamiento;
    3. Configurar límites de QPS, conexiones concurrentes y cuotas de tokens para diferentes tenants, evitando que "el pico de un tenant colapse todo el sistema".
  6. Auditoría de acceso y evaluación de políticas
    1. Registrar en auditoría las operaciones críticas (como crear / eliminar API Keys, ajustar permisos, modificar cuotas);
    2. Utilizar motores de políticas como OPA / Rego para evaluar e interpretar de manera unificada las políticas de acceso complejas antes de la ejecución, reduciendo el riesgo de "políticas dispersas en el código".

Mediante este mecanismo, la plataforma puede exponer las capacidades de modelos grandes a usuarios internos y externos garantizando al mismo tiempo la seguridad de los recursos y los datos, y proporcionar datos fundamentales para auditorías de cumplimiento posteriores y trazabilidad de responsabilidades.

11.5.2 Seguridad de datos, privacidad y auditoría de cumplimiento: hacer que el modelo sea "útil y conforme a la normativa"

Los modelos grandes suelen tener acceso a grandes volúmenes de datos sensibles (conversaciones de usuarios, documentos de negocio, registros de transacciones, etc.). Si surgen problemas de seguridad o cumplimiento, las consecuencias pueden ser extremadamente graves. Por ello, es necesario implementar una "defensa en múltiples capas" a lo largo de todo el ciclo de vida de los datos y de toda la cadena de invocación del modelo.

  1. Seguridad en la transmisión y almacenamiento de datos
    1. Habilitar el cifrado TLS en todas las interfaces externas e internas para evitar escuchas o manipulaciones durante la transmisión;
    2. Utilizar cifrado en reposo para datos sensibles, gestionando el ciclo de vida de las claves a través de KMS del proveedor cloud o propio;
    3. Utilizar herramientas como Vault para gestionar de forma centralizada las claves y credenciales necesarias para acceder a bases de datos, almacenamiento de objetos y APIs de terceros.
  2. Principio de minimización y anonimización
    1. Recopilar solo los campos de datos necesarios para el negocio y eliminar en la medida de lo posible la información de identificación personal (PII) y los campos sensibles de los registros y muestras de entrenamiento;
    2. Aplicar hash o anonimización a los identificadores que inevitablemente deban conservarse, reduciendo el riesgo de exposición;
    3. En escenarios RAG / bases de conocimiento, aplicar clasificación de permisos al acceso a documentos, garantizando que el modelo no pueda recuperar información de "documentos que no debería leer".
  3. Tecnologías de mejora de la privacidad y restricciones perimetrales
    1. En escenarios donde se necesita compartir modelos sin compartir los datos originales, introducir privacidad diferencial o aprendizaje federado, equilibrando privacidad y eficacia;
    2. Para escenarios gubernamentales, financieros y sanitarios, adoptar el modelo de "datos sin salir del dominio, modelo desplegado localmente o in situ", desplegando la capacidad de entrenamiento/inferencia dentro del dominio de cumplimiento.
  4. Mecanismos de cumplimiento y auditoría
    1. Implementar flujos de aprobación y registro para operaciones como publicación de modelos, cambios de configuración y ajustes de permisos, facilitando la trazabilidad posterior;
    2. Registrar para cada solicitud los metadatos como versión del modelo, invocador, decisión de enrutamiento y alcance de acceso a datos, permitiendo la reconstrucción en caso de disputas o necesidades de investigación;
    3. Generar periódicamente informes de cumplimiento (como auditorías de acceso a datos, registros de uso de permisos, informes de eventos anómalos), integrándolos con los requisitos de control interno y supervisión regulatoria externa.

Esta capacidad funciona en conjunto con las plataformas de Data/Model Ops y monitoreo descritas en 11.3 y 11.4, constituyendo conjuntamente un entorno de operación de modelos que "puede iterar continuamente y a la vez ser seguro y conforme a la normativa".## 11.6 Aplicaciones de capa superior y capacidades de plataforma intermedia (Application Enablers)

Una vez que se cuenta con la infraestructura completa que abarca desde el entrenamiento hasta la inferencia, la seguridad y las operaciones, se necesita una «capa de capacidades» orientada al negocio y a los desarrolladores, que abstraiga los grandes modelos subyacentes en componentes y servicios más fáciles de usar y más cercanos a la semántica de negocio. Esta capa suele denominarse plataforma intermedia de IA, capa de habilitación de aplicaciones o plataforma Copilot, y su función es: empaquetar grandes modelos + RAG + Agent + flujos de trabajo en capacidades estandarizadas, para que los equipos de negocio y los socios del ecosistema puedan crear aplicaciones de IA rápidamente.

Esta capa conecta, por un lado, las APIs de modelos, los motores RAG y los orquestadores de agentes y, por otro, los sistemas de negocio como CRM, ERP, OA y sistemas de tickets, constituyendo el puente clave «desde las capacidades del modelo hasta los escenarios de negocio».

  • Escenarios
    • Plataforma intermedia de IA empresarial / Plataforma Copilot: proporciona de forma unificada capacidades inteligentes como diálogo, RAG y Agent para sistemas internos como CRM, ERP, OA, atención al cliente, marketing e I+D.
    • Plataforma de desarrollo de aplicaciones orientada a desarrolladores y socios del ecosistema: mediante SDKs, plantillas de proyecto y herramientas de orquestación visual, permite a terceros crear y desplegar aplicaciones de IA rápidamente.
    • Backend de IA para productos SaaS sectoriales: como la nube de atención al cliente inteligente, la nube de marketing, la nube de colaboración ofimática, la nube de gestión de I+D, etc., integrando capacidades de IA en el ecosistema de productos existente.
    • Asistentes para escenarios verticales: Copilot de código, asistente de ventas, asistente de operaciones, asistente legal, asistente médico, etc., que combinan rápidamente soluciones contextualizadas a través de las capacidades de la plataforma intermedia.
  • Principios
    • Capacidades de diálogo y Agent:
      • Gestión de sesiones y memoria: mantiene el estado del diálogo multigiro y la memoria a largo plazo, permitiendo el cambio de tema, la compresión de contexto y los perfiles personalizados.
      • Tool Use y orquestación de flujos de trabajo: conecta el modelo con sistemas externos (bases de datos, búsqueda, APIs de negocio, servicios de terceros) mediante llamadas a funciones o mecanismos de plugins; en tareas complejas, utiliza Workflow/Orchestrator para encadenar operaciones de múltiples pasos.
      • Colaboración multiagente: para tareas complejas, se asignan diferentes roles (como planificador, ejecutor, revisor) que colaboran en la descomposición de tareas y la agregación de resultados.
    • RAG y base de conocimiento:
      • Análisis y preprocesamiento de documentos: analiza, trocea y estructura documentos como PDF, Word, páginas web y documentos escaneados.
      • Vectorización y recuperación: utiliza modelos de Embedding para vectorizar contenido como texto, tablas y código, y construye índices vectoriales; combina búsqueda por palabras clave y búsqueda vectorial para lograr una alta recuperación.
      • Generación aumentada por recuperación (RAG) y cadena de evidencia: durante la inferencia, primero se recupera contenido relevante de la base de conocimiento y luego el gran modelo genera una respuesta basada en los resultados de la recuperación, proporcionando citas y cadena de evidencia para mejorar la precisión y la explicabilidad.
      • Grafos de conocimiento e integración de conocimiento estructurado: combina grafos de conocimiento de dominio, tablas de datos de negocio y sistemas de reglas con LLM, mejorando la capacidad de manejar consultas estructuradas y restricciones complejas.
    • Acceso para desarrolladores y desarrollo secundario:
      • SDKs multilingüe y diseño de API: proporciona SDKs en lenguajes como Python, JS, Java y Go, encapsulando patrones de llamada, reintentos y manejo de idempotencia.
      • Plantillas y construcción low-code / no-code: mediante plantillas de proyecto predefinidas y herramientas visuales de tipo «bloques de construcción», permite que incluso desarrolladores no profesionales puedan crear RAG, Agent y Workflow.
      • Plugins y middleware: proporciona plugins o middleware para los sistemas de negocio más comunes (CRM, ERP, OA, sistemas de tickets, etc.), reduciendo el coste de integración de sistemas.
  • Modelos
    • Frameworks de diálogo / Agent:
      • LangChain, LlamaIndex, Haystack, Semantic Kernel, entre otros.
      • Capa de orquestación propia: normalmente incluye Workflow Engine, Tool Router y módulo de gestión de memoria.
    • RAG y búsqueda vectorial:
      • Bases de datos vectoriales: FAISS, Milvus, Qdrant, Weaviate, Pinecone, entre otras.
      • Análisis de documentos: unstructured, Textract, pdfplumber, Apache Tika, entre otros.
    • SDK / Capa de acceso:
      • SDKs oficiales o propios, librerías de componentes frontend (componentes de chat, gestión de plantillas de prompts, vista de historial de conversaciones).
      • Middleware / plugins para sistemas de negocio (CRM, ERP, OA, tickets, etc.).

11.6.1 Orquestación de diálogo y Agent: del «robot de preguntas frecuentes» al «colaborador de tareas»

Comparado con los primeros robots de preguntas frecuentes (FAQ), las aplicaciones modernas impulsadas por grandes modelos se asemejan más a «colaboradores inteligentes que saben usar herramientas». El objetivo de la orquestación de diálogo y Agent es actualizar el gran modelo de «generador de lenguaje» a un agente inteligente capaz de invocar herramientas, ejecutar planes y coordinar múltiples roles.

  1. Gestión de diálogo y mecanismos de memoria
    1. Mantiene el contexto del diálogo, el perfil del usuario y la memoria a largo plazo, garantizando coherencia y consistencia en interacciones multigiro;
    2. Para diálogos muy largos, utiliza resúmenes y memoria basada en recuperación para comprimir, evitando que el contexto «reviente»;
    3. En aplicaciones empresariales, incorpora información de identidad y permisos en el contexto del diálogo, de modo que las respuestas y operaciones se ajusten a los permisos del usuario en el sistema de negocio.
  2. Tool Use y orquestación de flujos de trabajo
    1. Proporciona al modelo una lista estructurada de herramientas (como «consultar pedido», «crear ticket», «consultar inventario», «llamar al motor de búsqueda», etc.) y, a través de una interfaz de llamada a funciones, permite que el modelo las invoque activamente cuando sea necesario;
    2. Utiliza el Orchestrator para coordinar, según el plan propuesto por el modelo, el orden de las múltiples llamadas a herramientas, el flujo de datos y el manejo de errores;
    3. Modela flujos de trabajo para procesos de negocio complejos (como flujos de aprobación, reembolsos, posventa), permitiendo que el Agent desempeñe el rol de «coordinador de procesos».
  3. Modos de colaboración multiagente
    1. Descompone tareas complejas en múltiples roles: como «Agent planificador», «Agent de recuperación de información», «Agent ejecutor», «Agent de control de calidad/revisión»;
    2. Habilita la colaboración entre agentes mediante canales de mensajes o memoria compartida, mejorando la robustez y explicabilidad de las tareas complejas;
    3. En entornos empresariales, se puede incorporar el rol humano en el bucle de colaboración, como «redacción por IA – revisión humana – modificación por IA – ejecución por el sistema».

Esta capa suele apoyarse en frameworks consolidados como LangChain, Semantic Kernel y LlamaIndex, combinados con servicios de orquestación propios, para unificar diálogo, herramientas, flujos de trabajo, permisos y auditoría dentro de una única «plataforma Agent».

11.6.2 RAG, base de conocimiento y plataforma de desarrolladores: «conectar el conocimiento empresarial al cerebro del modelo»

Por muy potente que sea un gran modelo, no puede dominar de forma natural el conocimiento privado de cada empresa, ni conocer en tiempo real las últimas políticas, productos y reglas de negocio. RAG + base de conocimiento + plataforma de desarrolladores constituye la vía clave para integrar de forma ingenieril ese conocimiento empresarial, sectorial y datos en tiempo real en las capacidades del modelo.

  1. Análisis de documentos e ingesta de conocimiento
    1. Utiliza componentes como unstructured, Textract, pdfplumber y Tika para analizar PDFs, documentos de Office, páginas web y documentos escaneados, convirtiéndolos en texto estructurado;
    2. Trocea por capítulos, títulos y bloques semánticos, proporcionando la granularidad adecuada para la posterior vectorización y recuperación;
    3. Para información estructurada como datos tabulares, bases de datos de negocio y documentación de APIs, construye los mapeos de esquema e interfaces de acceso correspondientes.
  2. Vectorización, indexación y reranking de recuperación
    1. Utiliza modelos de Embedding para convertir texto, código y contenido multimodal en vectores, almacenándolos en bases de datos vectoriales como FAISS, Milvus, Qdrant, Weaviate y Pinecone;
    2. Mantiene simultáneamente la capacidad de indexación por palabras clave y filtrado por metadatos (como filtrar por inquilino, departamento o tipo de documento), combinando un flujo de alta precisión de «filtrado previo a la recuperación + búsqueda semántica + reranking»;
    3. En el momento de la consulta, introduce los resultados de la recuperación junto con la pregunta original en el gran modelo, implementando la «generación aumentada por recuperación (RAG)» y devolviendo citas y cadena de evidencia.
  3. Plantillas de aplicación RAG y construcción low-code
    1. Proporciona plantillas RAG predefinidas para escenarios comunes (preguntas y respuestas sobre conocimiento, interpretación de políticas, descripciones de productos, asistentes de documentación interna, etc.);
    2. Mediante interfaces de configuración visual (seleccionar fuentes de conocimiento, establecer reglas de troceo, elegir modelo de embedding y gran modelo), permite crear rápidamente asistentes de conocimiento personalizados;
    3. Expone estas capacidades a los desarrolladores en forma de SDK, permitiendo su rápida integración en Web, aplicaciones móviles, aplicaciones de escritorio o plugins de sistemas de negocio.
  4. Plataforma de desarrolladores e integración con el ecosistema
    1. Proporciona SDKs en lenguajes como Python, JS, Java y Go, así como componentes frontend (burbujas de chat, zona de referencias documentales, botones de feedback, etc.), reduciendo las barreras de integración;
    2. Ofrece plugins o middleware para los principales sistemas de negocio (CRM, ERP, OA, tickets), permitiendo que accedan a las capacidades de IA con solo «marcar algunas opciones de configuración»;
    3. Abre al exterior la plataforma de desarrollo de aplicaciones, para que los socios del ecosistema construyan sus propias aplicaciones sectoriales basándose en los modelos fundacionales, RAG y capacidades Agent, formando un ciclo virtuoso de «plataforma – ecosistema – cliente final».

Esta capa encapsula en última instancia las complejas capacidades de modelos e infraestructura en «componentes de negocio reutilizables y ensamblables», ayudando a las empresas a convertir los grandes modelos en verdaderas herramientas de productividad que impulsen la innovación empresarial, con seguridad, cumplimiento normativo y costes controlados, reduciendo barreras y acelerando el tiempo de puesta en marcha.