Dictionnaire des capacités de l'IA
Avec l'adoption croissante des technologies d'IA générative dans divers produits et scénarios métier, une question de plus en plus concrète se pose à chacun d'entre nous : quelles sont exactement les capacités d'IA disponibles ? Et pour un besoin spécifique, quelle capacité, quel type de modèle ou quel produit choisir ?
Face à cette perplexité, l'approche la plus intuitive serait peut-être de « s'y mettre à la dernière minute » : chercher les API des fournisseurs de services cloud ou les modèles correspondants uniquement lorsqu'un besoin survient, puis consulter la documentation et les démos des solutions commerciales disponibles sur le marché. Voir une demande d'image évoque la génération d'images, rencontrer une tâche textuelle fait penser aux grands modèles de langage, et dès qu'il s'agit d'interaction vocale, on songe à l'ASR et au TTS — puis on compare les offres parmi une multitude d'API et de services. Cependant, empiler des produits disparates et planifier, sélectionner et combiner systématiquement des capacités d'IA dans un contexte d'entreprise sont deux choses radicalement différentes. Se fier uniquement à des recherches ponctuelles et à son jugement empirique entraîne une fragmentation de la connaissance des capacités, une conception hasardeuse des solutions et une difficulté à réutiliser les capacités, parmi d'autres défis sérieux.
Pour résoudre ces problèmes, cet article propose une approche structurée autour de la « cartographie des capacités de l'IA ». Dans ce manuel, notre objectif n'est pas d'accumuler des termes techniques, mais de vous aider à clarifier rapidement trois choses : « Quelle capacité d'IA peut répondre à ce besoin ? Quel type de modèle ou de produit choisir approximativement ? Quels mots-clés utiliser ensuite pour rechercher des API, des projets ou des services à essayer ? » Grâce à un inventaire systématique allant des modalités (texte, image, audio, vidéo, 3D, multimodal) aux couches architecturales (modèles, recherche, agents, ingénierie de plateforme), nous pouvons associer à chaque besoin et scénario typique les capacités d'IA correspondantes, les modèles/produits représentatifs, ainsi que leurs usages courants en contexte métier réel, aidant ainsi les équipes à construire leur système d'IA avec un coût d'essai-erreur réduit, une efficacité décisionnelle accrue et une meilleure réutilisabilité.
Dans ce manuel, nous présenterons systématiquement le paysage actuel des capacités d'IA dominantes, des modalités uniques à la fusion multimodale, des modèles ponctuels au cadre global plateforme et ingénierie, en combinant les formes de produits courantes et les scénarios d'application, afin de fournir une référence pratique pour la sélection des capacités.
En raison de la densité du contenu, vous pouvez consulter ce manuel uniquement lorsque vous rencontrez un scénario où vous ne savez pas quelle approche choisir ; nous vous recommandons de laisser l'IA se référer à ce manuel en fonction de votre direction applicative spécifique, pour vous suggérer des modèles pertinents et des recommandations d'appels d'API.
Si vous souhaitez seulement comprendre les catégories correspondantes sans entrer dans les détails, contentez-vous du contenu introductif de chaque grande section, par exemple le contenu des sections 1.1 et 1.2, sans avoir à lire les sous-sections comme 1.1.1 ou 1.1.2.
Il est recommandé de ne consulter ce manuel que pour les parties pertinentes en cas de besoin, ou de parcourir uniquement la table des matières de premier niveau, et de lire l'intégralité seulement si cela vous intéresse.
Les prochaines mises à jour incluront, dans chaque section, des adresses de services API de modèles recommandés à essayer.# Ce que vous allez apprendre dans cette leçon
- Panorama des capacités de l'IA : une logique de découpage global des capacités allant du texte, de l'image, de l'audio, de la vidéo et de la 3D jusqu'au multimodal, aux agents, au RAG, à la sécurité et à l'ingénierie de plateforme
- Modèles et produits associés à chaque capacité : découvrir les modèles et services représentatifs derrière les capacités clés telles que l'Embedding, l'OCR, l'ASR, le TTS, le VLM, le RAG, etc.
- Méthode de correspondance entre capacités et scénarios : maîtriser la transformation d'un « catalogue de capacités » en applications concrètes telles que le contenu produit, la recherche questions-réponses, le service client intelligent et l'automatisation opérationnelle
À l'issue de ce manuel, vous aurez acquis une connaissance systématique de niveau débutant des principales capacités de l'IA. Vous saurez non seulement « quelles capacités sont disponibles sur le marché et quels produits y sont généralement associés », mais vous comprendrez également leur position et leurs interrelations dans l'architecture globale. Vous saurez, face à un besoin métier concret, identifier rapidement la capacité requise et effectuer un choix éclairé, posant ainsi des bases solides pour la construction d'un système de capacités en IA.## Paramètres des modèles mentionnés dans ce manuel
Avant d'entrer dans la carte des capacités, clarifions une notion souvent évoquée mais un peu abstraite : qu'est-ce qu'un grand modèle ? Qu'est-ce qu'un petit modèle ?
D'un point de vue académique, un grand modèle désigne généralement un modèle générique dont le nombre de paramètres se chiffre en milliards, dizaines de milliards, voire milliers de milliards, tandis qu'un petit modèle est un modèle spécialisé, conçu pour une tâche ou un scénario spécifique, avec un nombre de paramètres plus réduit (de l'ordre de quelques dizaines à quelques centaines de millions).
D'un point de vue tarifaire, si l'appel API d'un modèle est très bon marché — par exemple facturé à quelques centimes par appel, ou seulement quelques centimes par millier de tokens — et qu'il n'est pas spécifiquement présenté comme un grand modèle généraliste, il s'agit généralement soit d'un petit modèle classique (par exemple un modèle spécialisé en OCR, ASR, classification d'images ou modération de contenu), soit d'une version allégée d'un grand modèle (compressée ou distillée pour supporter une forte concurrence et un faible coût). Si le prix par appel est nettement plus élevé — par exemple plusieurs dizaines de centimes, voire à partir de 1 yuan — il s'agit probablement d'un grand modèle.
Par ailleurs, si la documentation produit mentionne explicitement l'utilisation d'un LLM (Large Language Model), d'un grand modèle généraliste, d'un grand modèle multimodal, ou évoque la réalisation de tâches complexes de bout en bout (comme un chatbot conversationnel de bout en bout, une recherche-réponse de bout en bout, une génération vidéo de bout en bout), on peut généralement le considérer comme un grand modèle.
À l'inverse, si la communication met l'accent sur une capacité verticale spécifique — reconnaissance de carte bancaire, reconnaissance de facture, reconnaissance de plaque d'immatriculation, prédiction du taux de clic publicitaire, transcription vocale, modération de contenu — cela signifie que le produit sous-jacent repose plus probablement sur un ou plusieurs petits modèles.
Ainsi, dans la suite de cet article, nous pouvons adopter une convention pragmatique :
- Un grand modèle désigne plutôt un modèle généraliste, conversationnel, programmable, généralement plus coûteux (y compris leurs versions multimodales, comme GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, etc.), capable de couvrir la plupart des tâches générales de texte, de code, ainsi que les tâches multimodales (image, audio, vidéo) ;
- Un petit modèle désigne un modèle affiné ou personnalisé pour une tâche spécifique, généralement moins cher, aux performances plus stables et contrôlables, mais au champ d'application plus restreint, nécessitant une orchestration et une composition actives dans votre système.
Ajoutons ici un changement clé dans l'industrie : avant 2021, la plupart des capacités mentionnées dans ce manuel étaient en réalité assurées par des « petits modèles » — on entraînait des modèles dédiés sur des données spécifiques pour répondre à des besoins précis. Aujourd'hui, la grande majorité des scénarios et tâches généralistes peuvent être résolus directement en appelant un grand modèle.
Du point de vue de la précision et du coût poussés à l'extrême, l'entraînement et l'application de petits modèles conservent une valeur irremplaçable ; mais pour les débutants, il est tout à fait possible de commencer par apprendre à trouver et appeler des API de grands modèles, puis d'approfondir progressivement les usages avancés. Il vous suffit de trouver le bon équilibre entre coût, précision et latence, puis de décider où utiliser un grand modèle généraliste et où conserver ou introduire un petit modèle spécialisé.
Reconnaître quelques produits courants — les grands modèles généralistes texte et multimodaux les plus utilisés :
- Série OpenAI : GPT-4, GPT-4.1, GPT-4o, GPT-5.1, etc.
- Série Google : Gemini 1.5 Pro, Gemini 1.5 Flash, etc.
- Série Anthropic : Claude 3.5 Sonnet, Claude 3.5 Haiku, etc.
- Modèles chinois : série Tongyi Qianwen Qwen, série Wenxin Yiyan ERNIE Bot, GLM / Zhipu Qingyan, Tencent Hunyuan, iFlytek Spark, le grand modèle derrière Kimi de Moonshot AI, série MiniMax MiniMax-M2.7, etc.
Les grands modèles et services davantage orientés vision et vidéo incluent :
- Génération d'images : DALL·E, Midjourney, Stable Diffusion, SDXL, Flux, etc.
- Compréhension visuelle multimodale : GPT-4o, GPT-4.1 with Vision, Gemini 1.5 (multimodal texte-image), Claude 3.5 Sonnet Vision, LLaVA, etc.
- Génération vidéo : Sora, Kling, Runway Gen-2, Pika, Luma, Veo, etc.
Les grands modèles dans le domaine de la voix et de l'audio incluent :
- Reconnaissance vocale ASR : série Whisper (Whisper, Whisper-large-v3, etc.), Deepgram, les grands modèles ASR de bout en bout des fournisseurs cloud (iFlytek, Baidu, Volcano Engine, Alibaba, etc.)
- Multimodal vocal et dialogue vocal : GPT-4o (dialogue vocal de bout en bout), OpenAI Realtime, capacité de compréhension audio de Gemini 1.5, etc.
- TTS / génération audio et musicale : OpenAI TTS, ElevenLabs, Suno, Udio, MusicGen, etc.
Les modèles de génération et de compréhension 3D / spatiale incluent :
- Text-to-3D et image-to-3D : DreamFusion, Shap-E, GET3D, Zero-1-to-3, TripoSR, etc.
- Famille NeRF / rendu neuronal : Instant-NGP, série NeRF, modèles liés au Gaussian Splatting, etc.# 1. Tâches textuelles (Text / NLP / LLM)
Parmi les capacités de l'IA, les tâches textuelles constituent la fonctionnalité la plus fondamentale. Que l'on cherche à faire de la modération de contenu, de la recherche et recommandation, de la réponse aux questions basée sur les connaissances, ou encore un assistant d'écriture ou un Copilot de code, tout revient essentiellement à une même question : comment une machine peut-elle vraiment comprendre le texte.## 1.1 Modélisation et représentation fondamentales du langage
Commençons par le niveau le plus fondamental : la modélisation et la représentation du langage. Son rôle est de permettre à la machine de se familiariser statistiquement avec la langue, puis de trouver une représentation vectorielle matricielle stable pour les mots, les phrases et les documents, afin de faciliter les tâches ultérieures de classification, de correspondance, d'extraction, de génération, etc. Quelle que soit la tâche textuelle à accomplir, il faudra tôt ou tard répondre à la même question : comment représenter ce passage de texte par une suite de nombres ?
Nous pouvons aborder ce sujet sous trois angles : les scénarios, les principes et les modèles.
- Scénarios
- Recherche et moteur de recherche
- Moteur de recherche généraliste : l'utilisateur saisit une phrase quelconque et obtient des documents pertinents sur le plan sémantique, sans se limiter à une correspondance exacte des mots-clés.
- Recherche interne / e-commerce : l'utilisateur formule une description en langage naturel (par exemple « une chemise blanche adaptée aux trajets domicile-travail en été ») et trouve les produits correspondant à ce sens.
- Recherche dans une base documentaire / base de connaissances : dans la documentation technique, les textes réglementaires ou une base de connaissances d'entreprise, il suffit de saisir une phrase pour obtenir les entrées pertinentes.
- Recommandation et classement
- Fil d'actualité / recommandation de contenu : en fonction du contenu récemment consulté ou cliqué par l'utilisateur, rechercher automatiquement des contenus sémantiquement proches à recommander, sans se limiter à des règles manuelles ou à des étiquettes.
- E-commerce / recommandation de produits : à partir des descriptions de produits consultés, achetés ou mis en favoris, trouver des produits de style ou d'usage similaire pour une recommandation personnalisée.
- Modélisation des centres d'intérêt : à partir des titres consultés, des termes recherchés, etc., dégager plusieurs directions d'intérêt principales pour améliorer la recommandation et le classement.
- Assistance par questions-réponses
- FAQ : l'utilisateur pose la même question de différentes manières (« Comment obtenir une facture ? » vs « Où puis-je obtenir la facture ? »), le système doit aboutir à la même réponse.
- Questions-réponses sur base de connaissances / assistant d'entreprise : l'utilisateur pose une question en langage naturel, le système recherche par correspondance sémantique dans les documents internes et trouve le passage le plus pertinent pour répondre.
- Analyse et compréhension de texte
- Analyse de sentiment dans les commentaires : classer un grand nombre de commentaires et de publications selon « ce dont ils parlent / l'émotion exprimée ».
- Déduplication de texte / détection de similarité : pour repérer les articles réécrits ou le pseudo-contenu original.
- Clustering / regroupement de documents : regrouper de nombreux articles ou rapports par proximité de contenu pour faciliter la navigation, la recommandation ou l'échantillonnage.
- En tant que caractéristiques génériques pour les tâches aval (les tâches aval désignent l'utilisation des capacités fondamentales du modèle pour réaliser des tâches de traitement de texte plus spécifiques)
- Classification de texte : classification de sentiment, reconnaissance d'intention, détection de contenu indésirable, etc., ces modèles aval réutilisent directement les représentations de cette couche.
- Extraction d'information : reconnaissance d'entités, extraction de relations effectuées par fine-tuning sur la base des représentations de mots/phrases, sans repartir d'un entraînement from scratch.
- Génération de texte : fournir des représentations sémantiques en entrée pour les tâches de résumé, reformulation, continuation, etc., afin d'améliorer la qualité et la contrôlabilité de la génération.
- Recherche et moteur de recherche
- Principes Apprendre les représentations des mots, des phrases et des documents, servant de fondation pour les tâches ultérieures plus complexes.
- Modélisation du langage
- Modèle de langage autorégressif : prédire le token suivant (famille GPT, LLaMA, Qwen, etc.)
- Modèle de langage masqué (Masked LM) : prédire les tokens masqués (BERT, RoBERTa, ERNIE)
- Représentation de mots / phrases / paragraphes
- Vecteurs de mots statiques : Word2Vec, GloVe, FastText
- Représentations contextuelles : embeddings BERT, Sentence‑BERT, etc.
- Vecteurs au niveau document : pour la recherche sémantique et la correspondance de similarité
- Modélisation du langage
- Modèles BERT / RoBERTa / ERNIE, la famille GPT, les LLM comme LLaMA / Qwen / Yi ; divers modèles d'embedding (série OpenAI text‑embedding‑3, bge, E5, SimCSE, etc.).
1.1.1 Modélisation du langage : apprendre la langue en « devinant le mot suivant »
La première étape de cette couche consiste à familiariser le modèle avec les régularités de la langue à partir de vastes corpus de textes. On peut simplement comprendre l'approche ainsi : on soumet au modèle un nombre incalculable d'« exercices de devinette de mots » — face au contexte d'un passage, il doit compléter avec le mot (token) le plus plausible. Avec suffisamment d'exercices et un corpus suffisamment large, le modèle apprend progressivement : à quoi ressemble une phrase naturelle, quels mots apparaissent souvent ensemble, quelles expressions semblent bancales. Ce processus s'appelle la « modélisation du langage », qui consiste essentiellement en un mécanisme unifié d'entraînement par devinette de mots.
Il existe deux façons courantes de poser ces exercices, illustrées chacune par un exemple simple :
- Prédire la suite (autorégressif) : on ne donne que le contenu précédent, et on demande au modèle de deviner « ce qui vient après ».
- Préfixe d'entrée :
Aujourd'hui il pleut, donc je - Tâche du modèle : deviner le mot suivant, par exemple « prends (le parapluie) », « ne (sors pas) », « compte (rester à la maison) », etc., puis continuer la suite. Cette approche entraîne principalement le modèle à maîtriser la continuation, la cohérence et les expressions courantes.
- Combler un trou (masqué) : on crée un trou au milieu et on demande au modèle de le remplir en utilisant le contexte avant et après.
- Phrase originale :
Aujourd'hui il pleut, donc j'ai pris un parapluie - Phrase d'entraînement :
Aujourd'hui [MASK], donc j'ai pris un parapluie - Tâche du modèle : compléter
[MASK]par un mot plausible comme « il pleut ». Ici, le modèle doit regarder simultanément à gauche (« Aujourd'hui », « donc ») et à droite (« j'ai pris un parapluie ») pour décider quoi remplir, ce qui favorise l'apprentissage de la sémantique de la phrase entière.
En répétant ces deux types d'« exercices de devinette » sur des corpus massifs, le modèle accumule progressivement un sens linguistique et une intuition statistique de la langue. Sur cette base, l'étape suivante consiste à transformer explicitement cette capacité en représentations vectorielles des mots, des phrases et des documents, posant ainsi les fondations pour les tâches ultérieures de recherche, de recommandation et de questions-réponses.
1.1.2 Représentation des mots, des phrases et des documents : projeter les symboles discrets dans l'espace sémantique
La première génération de méthodes de construction de vecteurs textuels est celle des vecteurs de mots statiques : on attribue à chaque mot un vecteur fixe qui, une fois l'entraînement terminé, ne varie pas selon le contexte. C'est intuitif et simple, mais incapable de distinguer les différents sens d'un mot polysémique selon le contexte. Pour résoudre ce problème, des méthodes de représentation dynamique basées sur le contexte sont apparues par la suite : un même mot génère des vecteurs différents selon la phrase dans laquelle il se trouve, entièrement déterminés par son contexte. Par exemple, « orange » dans « Orange a sorti un nouveau téléphone » se rapprochera de la direction sémantique « entreprise technologique », tandis que dans « l'orange est riche en vitamine C », il se rapprochera du concept de « fruit ».
Ce mécanisme améliore non seulement la capacité expressive au niveau des mots, mais ouvre également la voie à la vectorisation des phrases et des documents. Pour une phrase, on peut générer un vecteur de phrase ; pour un document, on peut encoder l'intégralité du texte en entrée (si la longueur le permet), ou encoder par segments puis agréger en un vecteur global via des mécanismes d'attention, de pooling hiérarchique, d'apprentissage contrastif, etc. Les modèles d'embedding spécialisés récents (comme bge, E5, la série text-embedding) sont précisément optimisés autour de l'objectif « rapprocher dans l'espace vectoriel les textes sémantiquement proches », avec des performances particulièrement remarquables en recherche sémantique et en correspondance de similarité.
Ce pipeline allant de la modélisation contextuelle à la génération de vecteurs de phrases/documents est devenu l'infrastructure centrale derrière les systèmes de recherche, de recommandation et de questions-réponses, nous ramenant aux différents scénarios évoqués précédemment :
- Les scénarios de recherche (recherche généraliste, recherche e-commerce, recherche en base de connaissances) nécessitent tous d'encoder la requête de l'utilisateur et les documents candidats en vecteurs, puis d'effectuer une correspondance de similarité dans l'espace vectoriel pour trouver les résultats sémantiquement les plus proches, sans se limiter à la correspondance exacte des mots-clés.
- Les scénarios de recommandation et de classement (recommandation de fil d'actualité, recommandation de produits, modélisation des centres d'intérêt) nécessitent de convertir le contenu correspondant au comportement historique de l'utilisateur en vecteurs, puis de trouver de nouveaux contenus vectoriellement proches à recommander, réalisant ainsi l'effet personnalisé « ayant consulté A, recommander B ».
- Les scénarios d'assistance par questions-réponses (FAQ, questions-réponses sur base de connaissances) nécessitent d'encoder les questions des utilisateurs et les questions ou passages de la base de connaissances en vecteurs, pour trouver la réponse la plus pertinente par similarité vectorielle.
- Les scénarios d'analyse et de compréhension de texte (analyse de sentiment, déduplication, clustering) nécessitent d'abord de convertir chaque texte en vecteur, puis d'effectuer le clustering, le calcul de similarité ou la classification sur la base de ces vecteurs.
- Les scénarios de tâches aval (classification de texte, extraction d'information, génération de texte) utilisent directement les représentations vectorielles de cette couche comme caractéristiques d'entrée, fournies aux classifieurs, extracteurs ou générateurs ultérieurs, évitant ainsi d'apprendre la sémantique from scratch.
Sur le plan de l'ingénierie, la pratique courante consiste à encapsuler ces capacités dans un « service unifié de vectorisation de texte » : en entrée, un texte arbitraire ; en sortie, un vecteur de dimension fixe, partagé par les systèmes de recherche, de recommandation, de questions-réponses, etc. Au niveau produit, les capacités de cette couche se manifestent principalement par : le rappel sémantique dans la recherche et la recommandation (ne plus dépendre uniquement des mots-clés, mais rappeler par similarité vectorielle des contenus « formulés différemment mais de sens proche »), ainsi que des services unifiés d'embedding / recherche vectorielle destinés aux bases de connaissances d'entreprise, aux FAQ et aux bibliothèques de cas.## 1.2 Classification et correspondance de texte (Classification & Matching)
Dans la section précédente, nous avons attribué à chaque segment de texte des « coordonnées » dans l'espace sémantique grâce à la modélisation et à la représentation fondamentales du langage. Mais ces coordonnées seules ne suffisent pas : les problématiques métier portent souvent sur des questions telles que — à quelle catégorie ce texte appartient-il ? Parle-t-il de la même chose qu'un autre texte ? Deux phrases se soutiennent-elles ou se contredisent-elles logiquement ? On peut voir cela ainsi : les deux capacités de classification et de correspondance transforment les représentations vectorielles sous-jacentes en étiquettes et signaux de pertinence capables d'orienter directement les décisions métier. Nous abordons cette couche sous trois angles : scénarios, principes et modèles.
- Scénarios
- Compréhension et modération de contenu : attribuer des étiquettes de thème, de sentiment, de risque, etc. aux commentaires, publications et articles, à des fins de modération, de recommandation et d'analyse statistique.
- Recommandation et classement : décider quels contenus afficher et dans quel ordre, en fonction du degré de correspondance entre les « étiquettes d'intérêt utilisateur » et les « étiquettes de contenu ».
- Recherche et FAQ : lorsqu'un utilisateur saisit une question en langage naturel, le système retrouve automatiquement la paire question-réponse ou le fragment de document le plus pertinent.
- Identification de contenu similaire : repérer les entrées « proches en contenu » dans un grand volume de textes, pour la déduplication, la fusion statistique ou la recommandation de « contenu associé ».
- Jugement de relation logique : déterminer si deux phrases se soutiennent, se contredisent ou sont sans rapport, pour la vérification des faits, le contrôle de cohérence dans les dialogues multi-tours, etc.
- Principes Sur la base de la représentation sémantique, effectuer un jugement global sur un texte entier ou une paire de textes :
- Classification de texte : attribuer une étiquette à un texte isolé (sentiment, thème, type de risque, etc.) ;
- Correspondance de texte : juger la similarité, la pertinence entre deux textes, ou si une « question » et une « réponse » se correspondent ;
- Modèles S'appuyer sur un encodeur pré-entraîné, auquel on ajoute une structure simple de classification/correspondance :
- Classification mono-texte : BERT / RoBERTa / DeBERTa + couche de classification fully connected ;
- Correspondance de texte : Sentence-BERT, SimCSE, architecture bi-encodeur (Bi-Encoder), encodeur croisé (Cross-Encoder) ;
- Jugement complexe : fine-tuning par instruction sur un LLM, pour que le modèle produise directement l'étiquette ou la relation logique.
1.2.1 Classification de texte : de « comprendre le contenu » à « qualifier le contenu »
En nous appuyant sur la représentation sémantique de la couche précédente, nous pouvons tout naturellement ajouter par-dessus une tête de classification simple et, avec un petit volume de données annotées, apprendre au modèle à répondre à la question : « À quelle catégorie ce texte appartient-il ? » .
Le cas le plus classique est la classification de sentiment. Un avis utilisateur peut exprimer une approbation, une plainte, ou simplement un constat factuel. Une fois la représentation vectorielle de la phrase obtenue, il suffit d'ajouter une couche de classification softmax pour produire les probabilités « positif / négatif / neutre ». Ce type de capacité est déjà très mature dans l'e-commerce, les plateformes sociales, les boutiques d'applications, etc.
Une autre grande famille est la classification thématique / sectorielle. Dans la recommandation d'actualités, on souhaite savoir si un article traite de sport, de finance ou de divertissement ; dans un système interne de service client ou de tickets, on s'intéresse davantage à distinguer une demande d'information produit, un dysfonctionnement ou une réclamation. Ces étiquettes permettent à la fois d'orienter le contenu avec plus de précision vers le bon processus et de servir de caractéristiques importantes dans la phase de recommandation et de classement.
Plus en aval, la classification de risque / conformité touche directement à la sécurité des plateformes. On met en place des modèles de classification dédiés pour des catégories telles que le détournement publicitaire, les insultes et attaques, les contenus politiquement sensibles, les contenus vulgaires ou pornographiques, etc., en les couplant à une modération humaine pour bloquer ou rétrograder les contenus à haut risque. On peut dire que la première ligne de défense de la plupart des stratégies de sécurité de contenu repose sur ce type de classifieurs.
On le voit, à ce niveau, nous sommes déjà capables de transformer une « représentation sémantique abstraite » en plusieurs étiquettes exploitables par le métier. Nous allons maintenant aborder la question suivante : lorsque des relations existent entre les textes, comment procéder à la correspondance et à l'inférence .
1.2.2 Correspondance de texte : « trouver la phrase la plus adaptée » pour une phrase donnée
Contrairement à la classification qui « qualifie un texte isolé », la correspondance de texte s'intéresse à « la pertinence entre deux textes ». Dans de nombreux produits, c'est souvent l'élément clé de l'« intelligence » : quand un utilisateur dit quelque chose, la capacité du système à trouver la réponse la plus appropriée dans la base de connaissances dépend entièrement de la qualité de la correspondance.
Le point de départ est le calcul de similarité sémantique. On encode d'abord les deux phrases en vecteurs à l'aide du modèle d'embedding de la couche précédente, puis on mesure leur distance dans l'espace sémantique via la similarité cosinus, le produit scalaire, etc. Des modèles comme SimCSE ou Sentence-BERT sont spécifiquement entraînés par apprentissage contrastif pour rapprocher les « paires de phrases similaires » et éloigner les « paires de phrases dissemblables ».
Sur cette base, la détection de paraphrase et la détection de plagiat ne sont que des tâches de correspondance appliquées à des contextes spécifiques. La première sert à la déduplication de contenu, pour éviter que la plateforme ne soit envahie d'expressions redondantes ; la seconde est utilisée dans l'éducation, les communautés de connaissances, etc., pour identifier des réponses ou des articles fortement similaires. Techniquement, il s'agit dans les deux cas d'une classification binaire ou d'un classement fondé sur la similarité textuelle.
Une application aval très importante est la correspondance question-réponse. Lorsqu'un utilisateur pose une question en langage naturel, on ne fait pas correspondre des mots-clés directement à la FAQ, mais on effectue d'abord un rappel par vecteurs sémantiques, puis on réordonne les candidats avec un modèle de correspondance plus fin (comme un encodeur croisé Cross-Encoder) pour sélectionner l'entrée la plus probable. Cette chaîne constitue la base des robots FAQ et des systèmes de questions-réponses documentaires.
À cette couche, nous disposons déjà de la capacité de classifier et de juger des relations sur des « textes entiers ». Mais dans de nombreux scénarios, le métier ne s'arrête pas là et souhaite aller plus loin en sachant : quelles entités spécifiques sont mentionnées dans ce texte, et quels événements s'y sont produits. Cela nous amène naturellement au thème de la section suivante — l'étiquetage de séquences et l'extraction d'information .## 1.3 Étiquetage de séquences et extraction d'informations (Sequence Labeling & Information Extraction)
Après avoir classifié et mis en correspondance des textes dans leur ensemble, on rencontre souvent un besoin plus fin : non seulement savoir « de quoi parle cet article, quel est son niveau de risque », mais aussi « qui est mentionné, où, quand, pour quel montant ». Cette section constitue une étape clé vers la « structuration fine » qui s'ajoute au jugement global. On peut la comprendre ainsi : une fois que l'on sait « quel type de texte consulter et de quoi il parle », on extrait de l'intérieur du texte les entités, les relations, les événements et les différents champs, afin que le texte non structuré puisse être directement consommé par les systèmes métier. Nous examinons cette couche sous les mêmes quatre angles : objectif, principe, modèle et produit :
- Scénarios
- Structuration de textes sectoriels : extraire des noms de personnes, d'organisations, des montants, des dates, des clauses, etc., à partir de contrats, rapports, annonces, dossiers médicaux, documents réglementaires, en vue de leur stockage et de leur recherche.
- Graphes de connaissances et réseaux de relations : identifier des entités et leurs relations dans des actualités, articles scientifiques, sessions de questions-réponses, afin de construire un graphe de type « qui est lié à qui », utilisé pour la recherche, la recommandation et l'analyse.
- Traitement de documents et de reçus : extraire automatiquement des champs tels que l'en-tête, le numéro fiscal, le montant, la date, à partir de factures, relevés, notes de frais, etc., afin de réduire la saisie manuelle.
- Analyse de l'opinion publique et des événements : extraire de grands volumes de textes « qui a fait quoi, quand et où », pour le suivi d'événements, l'alerte précoce et les rapports statistiques.
- Structuration de journaux et de tickets : extraire les informations clés de textes non structurés tels que les conversations du service client, les tickets, les journaux système, afin de faciliter les statistiques, la supervision et le traitement automatisé.
- Principe Au niveau des tokens / expressions, effectuer un étiquetage fin et une structuration du texte :
- Étiquetage de séquences : attribuer une étiquette à chaque token (par ex., nom de personne, nom de lieu, nom d'organisation, nom de produit, etc.), afin de réaliser la reconnaissance d'entités nommées, l'étiquetage grammatical, la segmentation en syntagmes, etc.
- Extraction de relations et d'événements : au-delà des entités, identifier les relations « entité‑entité » ainsi que la structure événementielle « qui a fait quoi, quand et où » ;
- Extraction de champs métier : autour d'un schéma métier concret (par ex., champs d'un contrat, champs d'un document), convertir un document long en enregistrements key‑value ou en tables normalisées.
- Modèle Sur la base de représentations pré-entraînées, réaliser l'extraction d'informations via des structures d'étiquetage de séquences ou d'extraction de spans :
- Modèles d'étiquetage de séquences : BiLSTM‑CRF, BERT + CRF / Softmax, etc. ;
- Extraction Span‑based : prédire directement les positions de début et de fin des segments d'entités / relations ;
- Extraction au niveau document : modèles de type DocIE intégrant la mise en page et la disposition ;
- Extraction basée sur les LLM : via Prompt / Few‑shot, faire en sorte que le grand modèle extraie les champs requis dans un format spécifié.
1.3.1 Étiquetage de séquences : attribuer une « étiquette » sémantique à chaque token et à chaque expression
Au stade de la classification de texte, seul nous intéresse le type global du texte ; au stade de l'étiquetage de séquences, nous devons étiqueter chaque token, chaque segment du texte. La tâche la plus typique est la reconnaissance d'entités nommées (NER) : identifier les noms de personnes, d'organisations, de lieux, de produits, de maladies, etc.
- Par exemple, dans la phrase « Zhang San a rejoint une entreprise technologique à Pékin », étiqueter « Zhang San » comme nom de personne, « Pékin » comme nom de lieu et « une entreprise technologique » comme organisation.
Du point de vue de la modélisation, l'approche traditionnelle utilise des structures d'étiquetage de séquences telles que BiLSTM + CRF, puis plus tard, on adopte davantage BERT + CRF ou BERT + Softmax, en exploitant la capacité de représentation contextuelle de l'encodeur pré-entraîné pour déterminer l'étiquette de chaque token (par ex., B‑ORG, I‑ORG, O, etc.). En pratique, le modèle NER constitue souvent le premier « prétraitement » des tâches ultérieures de graphe de connaissances et d'extraction de relations.
Outre le NER, l'étiquetage grammatical et la segmentation en syntagmes sont également des tâches typiques d'étiquetage de séquences. Elles servent principalement l'analyse linguistique de bas niveau, fournissant la structure de base pour des tâches syntaxiques / sémantiques plus complexes en aval.
- Par exemple, pour « améliorer rapidement les performances du modèle », étiqueter « rapidement » comme adverbe, « améliorer » comme verbe, « performances » comme nom, pour les analyses en aval.
1.3.2 Extraction de relations et d'événements : relier les « points » en « lignes » et en « histoires »
Une fois les entités identifiées dans le texte par l'étiquetage de séquences, une question se pose naturellement : quelles sont exactement les relations entre ces entités, et quels événements composent-elles ensemble ?
L'extraction de relations s'intéresse aux « paires d'entités + types de relation ». Par exemple, dans la phrase « Zhang San a rejoint une entreprise technologique en 2024 en tant que CTO », il ne s'agit pas seulement d'identifier les deux entités « Zhang San » et « une entreprise technologique », mais aussi d'extraire la relation « travaille pour » entre elles.
- En bref, il s'agit d'apposer une étiquette de relation telle que « emploi » sur la paire d'entités « Zhang San – une entreprise technologique ».
Au-delà des relations, l'extraction d'événements tente de reconstruire « qui a fait quoi, quand et où ». En prenant l'exemple d'un article d'actualité, un modèle d'événement standard peut contenir plusieurs slots : type d'événement (acquisition, coopération, accident), date, lieu, participants, montant, conséquences, etc. Le modèle d'extraction d'événements doit remplir automatiquement ces slots à partir d'un texte long, afin de construire une « table d'événements » consultable, analysable statistiquement et exploitable pour le raisonnement.
- Par exemple, à partir de « La société X a acquis une autre société pour 500 millions de yuans », extraire : type d'événement = acquisition, montant = 500 millions de yuans, participants = les deux sociétés.
En termes de méthodes de modélisation, au-delà de l'extraction traditionnelle par étiquetage de séquences, on utilise également l'IE Span‑based (prédire directement les positions de début et de fin des spans d'entités / relations) ainsi que l'IE Prompt‑based et l'extraction Few‑shot basée sur les LLM, qui ont émergé ces dernières années. L'avantage de ces dernières est qu'elles permettent, via des instructions en langage naturel, de s'adapter rapidement à de nouveaux schémas, réduisant ainsi considérablement le coût de ré-annotation et de ré-entraînement.
D'un point de vue ingénierie, un système d'extraction mature forme généralement un pipeline :
- Le NER / l'étiquetage de séquences en amont identifie les entités ;
- La couche intermédiaire modélise les relations et les structures événementielles ;
- En aval, les résultats sont écrits dans une base de données ou un graphe de connaissances, pour être consommés par les systèmes de recherche, d'analyse et de gestion des risques.## 1.4 Génération et édition de texte (Text Generation & Editing)
Dans les sections précédentes, nous avons construit progressivement la chaîne de compréhension « représentation → classification et correspondance → étiquetage de séquences et extraction » : le modèle est capable non seulement de projeter le texte dans un espace sémantique, mais aussi de porter un jugement sur un texte entier et d'en extraire des informations structurées. Cette section vise à parcourir cette chaîne de compréhension en sens inverse : sur la base d'une compréhension approfondie, amener le modèle à produire, réécrire, condenser et peaufiner activement du texte. On peut le concevoir comme un « encodage inverse » dans l'espace sémantique, qui retransforme les représentations internes en une sortie en langage naturel de haute qualité – c'est la couche la plus proche de la perception utilisateur dans l'ensemble de la chaîne de capacités de la modalité textuelle. Nous l'aborderons toujours selon quatre dimensions : objectifs, principes, modèles et produits.
- Scénarios
- Rédaction quotidienne et bureautique : génération d'e-mails, de notifications, de brouillons de propositions, ou enrichissement, reformulation et polissage de textes existants.
- Gestion des connaissances et synthèse : résumé automatique de longs documents, rapports et comptes rendus de réunion, pour aider à saisir rapidement l'essentiel.
- Service client et questions-réponses : génération automatique de réponses structurées et homogènes dans le ton, à partir des questions des utilisateurs et des documents retrouvés.
- Marketing et contenu créatif : génération de textes publicitaires, de publications sur les réseaux sociaux, de présentations d'événements, de scripts, etc.
- Scénarios multilingues : traduction et reformulation localisée tout en préservant le sens original, pour s'adapter à différentes langues et différents contextes.
- Principes Sur la base de la modélisation du langage, le texte est produit « à partir de zéro » ou modifié « à partir d'un contenu existant » :
- Génération libre : produire un texte complet à partir de zéro, en fonction d'une intention, d'une consigne ou d'un plan ;
- Reformulation contrôlée : ajuster le style, la longueur ou la structure tout en préservant les informations essentielles (résumé, enrichissement, changement de style) ;
- Correction et polissage : corriger les fautes d'orthographe et de grammaire, optimiser l'ordre d'expression et la structure logique.
- Modèles Principalement des modèles génératifs à base de pré-entraînement à grande échelle et d'affinage par instructions :
- LLM affinés par instructions : séries GPT, LLaMA / Qwen / GLM, etc., pour la génération et l'édition générales ;
- Modèles Seq2Seq : T5, BART, mT5, etc., pour les tâches de résumé, traduction, conversion de format, etc. ;
- Alignement et sécurité : via des techniques telles que RLHF / RLAIF, pour rendre le contenu généré plus conforme aux instructions et aux exigences de sécurité.
Cette partie relevant essentiellement de l'ingénierie des prompts, nous ne nous y attarderons pas davantage ; vous pouvez consulter directement le tutoriel consacré à l'ingénierie des prompts.# 2. Modalité image (Image / Vision)
Dans les capacités de l'IA, la modalité image est responsable de « comprendre le monde par la vision ». Que l'objectif final soit la surveillance de sécurité, la conduite autonome, les effets pour vidéos courtes, la retouche intelligente d'images e-commerce, les questions-réponses multimodales ou la peinture par IA, tout cela repose essentiellement sur un même chemin : partir des pixels bruts pour obtenir progressivement une compréhension structurée et une capacité de génération contrôlable du contenu visuel.## 2.1 Vision de bas niveau (Low‑Level Vision)
Dans la section précédente, nous avons présenté de manière globale le rôle de la modalité visuelle dans les systèmes multimodaux, ainsi que son articulation avec le langage et la parole. Mais avant d'aborder les « tâches sémantiques de haut niveau » telles que la détection d'objets, la compréhension d'images ou la réponse à des questions visuelles, il existe une couche fondamentale souvent négligée, pourtant cruciale : la vision de bas niveau. On peut l'envisager ainsi : avant de « comprendre ce qui se trouve dans l'image », le système doit d'abord résoudre deux problèmes — « quelle est la qualité de cette image ? » et « quelles structures locales stables peuvent être réutilisées par les couches supérieures ? » — en appliquant une couche générique de restauration, d'amélioration et d'extraction structurelle, afin de transformer les pixels bruts en une représentation plus propre et plus stable de l'image.
D'un point de vue technique, la vision de bas niveau influence directement la « qualité visuelle » perçue par l'utilisateur, mais elle détermine également si la distribution des entrées des tâches de niveau supérieur (détection, reconnaissance, segmentation, etc.) est saine. Si cette couche est mal réalisée, tous les modèles en aval devront fonctionner dans un environnement « bruité, fortement déformé et aux conditions d'éclairage extrêmes ». À l'inverse, si l'image est corrigée au mieux et que les informations structurelles sont bien extraites à ce niveau, les tâches de haut niveau pourront s'appuyer sur une base plus favorable pour déployer leurs capacités. Nous allons à présent examiner cette couche sous trois angles : les scénarios, les principes et les modèles.
- Scénarios
- Appareils photo et dispositifs de capture : débruitage automatique, HDR, mode nuit, stabilisation sur les smartphones/appareils photo, fusion multi-images pour améliorer les détails et la plage dynamique.
- Plateformes de contenu et vidéos courtes : amélioration de la qualité en un clic pour les images/vidéos uploadées, suppression des artefacts de compression, augmentation de la netteté et du contraste, amélioration de la perception subjective.
- Restauration de photos anciennes et de documents : débruitage, colorisation, super-résolution pour les vieilles photos ; redressement et amélioration automatiques des reçus, contrats et pages de livres mal cadrés ou sous-exposés, facilitant l'OCR.
- Surveillance et sécurité : débruitage, désembuage, suppression des gouttes de pluie, amélioration de la résolution pour les flux de surveillance en basse luminosité, posant les bases de la reconnaissance faciale ou de plaques d'immatriculation.
- AR/VR et reconstruction 3D : fourniture de points d'intérêt, de contours et de descripteurs locaux stables pour le SLAM, l'assemblage panoramique et la reconstruction 3D, garantissant la robustesse du suivi et du recalage.
- Principes Autour des deux objectifs fondamentaux que sont la « qualité d'image » et la « structure locale », une modélisation physique et statistique des informations au niveau du pixel est réalisée :
- Restauration et amélioration d'image : on suppose que l'image observée est le résultat d'une dégradation de l'image idéale par le bruit, un noyau de flou, la compression et des non-linéarités de capture. Sous cette hypothèse, on effectue le débruitage, la défloutage, la suppression des artefacts de compression, l'amélioration en basse luminosité et la reconstruction en super-résolution, afin que la sortie se rapproche de l'imagerie réelle de la scène tout en respectant les habitudes perceptuelles humaines.
- Extraction de caractéristiques structurelles : sans introduire d'étiquettes sémantiques spécifiques, on extrait des gradients de pixels et des statistiques de texture les contours, les points d'intérêt, les textures locales, les régions saillantes et d'autres caractéristiques, fournissant ainsi un « squelette géométrique » pour la détection, le recalage, le suivi et la segmentation ultérieurs.
- Prétraitement géométrique et d'éclairage : en s'appuyant sur le modèle de caméra et des indices géométriques simples (lignes droites, points de fuite, symétrie, etc.), on estime les relations de distorsion et de perspective. Par des opérations de correction de distorsion, de redressement, de normalisation du contraste et de l'éclairage, l'image brute est alignée dans un espace d'entrée plus standard et plus stable.
- Modèles Une combinaison de méthodes classiques de traitement d'image et de modèles d'apprentissage profond est utilisée, en cherchant un équilibre entre efficacité et qualité :
- Traitement d'image traditionnel : filtrage bilatéral, moyennes non locales, filtrage guidé, Retinex, égalisation d'histogramme, détection de contours Canny/LoG, points d'intérêt Harris/FAST, descripteurs SIFT/SURF/ORB, transformée de Hough, calibration de caméra et correction géométrique, etc.
- Modèles profonds de restauration et d'amélioration : modèles basés sur des CNN ou des Transformers visuels pour le débruitage, le défloutage, la super-résolution, la suppression de pluie/brouillard/artefacts de compression (tels que EDSR, RCAN, SwinIR, ESRGAN, etc.), ainsi que des réseaux d'amélioration multi-images/vidéo, apprenant de bout en bout le mapping d'une image dégradée vers une image de haute qualité, ou utilisant des modèles modernes d'édition d'image tels que Jimeng et les modèles d'édition Qwen.
2.1.1 Restauration et amélioration d'image : de « visible » à « net »
En vision de bas niveau, la restauration et l'amélioration d'image sont d'abord confrontées à diverses dégradations : bruit, flou, distorsion de compression, faible luminosité, plage dynamique insuffisante, etc. Dans de nombreuses situations réelles, les images brutes ne sont pas « propres » : les scènes de nuit et la faible luminosité intérieure produisent des images pleines de grain et de taches de couleur, les photos prises sur le vif et les flux de surveillance sont souvent flous en raison du mouvement ou d'une mise au point imprécise, et la compression vidéo introduit des artefacts de blocs. L'objectif de la restauration et de l'amélioration est, sans altérer le contenu sémantique de l'image, de restaurer autant que possible des détails nets et un rendu naturel, en transformant une entrée « floue, sombre et sale » en quelque chose de « clair, lumineux et agréable ».
Les tâches typiques incluent le débruitage, le défloutage, l'amélioration en basse luminosité et la super-résolution. Le débruitage et le défloutage exigent un compromis entre les textures locales et la structure globale : il faut à la fois supprimer le bruit haute fréquence, déconvoluer l'effet du noyau de flou, sans pour autant aplanir les détails réels. L'amélioration en basse luminosité doit, tout en augmentant la luminosité et le contraste, éviter d'amplifier le bruit des zones sombres, corriger les dominantes de couleur et maîtriser les zones surexposées. La super-résolution, quant à elle, vise à générer des informations haute fréquence plausibles lors de l'agrandissement, de sorte que l'image agrandie ne paraisse ni « floue » ni « trop plastique », sans pour autant « inventer » des détails de toute pièce. Les méthodes modernes reposent majoritairement sur des réseaux profonds (CNN ou Transformers visuels), qui apprennent le mapping de l'image observée y vers l'image idéale x sur de grands ensembles de données appariées « dégradé– net », en utilisant une fonction de perte composite incluant l'erreur pixel, la perte perceptuelle et la perte adversariale, afin de trouver un équilibre entre « de bons indicateurs quantitatifs » et « un bon rendu visuel pour l'humain ».
Ces capacités se manifestent souvent de manière implicite dans les produits : le mode nuit et la photo HDR des smartphones, l'amélioration de la qualité en un clic sur les plateformes de vidéos courtes, les outils de restauration de photos anciennes, les services d'amélioration dans le cloud des systèmes de surveillance — tout cela repose fondamentalement sur les modules de restauration et d'amélioration de cette couche. Pour les produits, ces modules influencent directement la perception subjective de la « qualité d'image » par l'utilisateur, et déterminent indirectement la qualité des entrées des algorithmes de détection, de reconnaissance et de segmentation en amont. On peut dire que plus une tâche visuelle de haut niveau est complexe, plus elle dépend d'un « socle d'image » de haute qualité et à la distribution stable fourni par la couche basse.
2.1.2 Caractéristiques structurelles et prétraitement : construire l'« échafaudage » pour la compréhension de haut niveau
Une fois la qualité de l'image restaurée à un niveau exploitable, le deuxième travail clé de la vision de bas niveau consiste à extraire des pixels des caractéristiques momentanément indépendantes de la sémantique concrète, mais très importantes pour la structure géométrique et la perception visuelle, puis à unifier les conditions géométriques et d'éclairage. Cette étape ne vous dira pas directement « voici une voiture » ou « c'est le visage de telle personne », mais elle répondra à des questions telles que « où se trouvent les contours nets et les coins ? », « quelles régions présentent des structures de texture significatives ? », « l'image est-elle déformée ou inclinée ? », fournissant ainsi des entrées structurelles fiables aux modèles de niveau supérieur.
En ce qui concerne l'extraction de caractéristiques, les contours et les points d'intérêt sont les éléments les plus fondamentaux. Grâce à des opérateurs tels que Canny ou Sobel, le système peut marquer sur l'ensemble de l'image les « contours » où les changements de niveaux de gris ou de couleur sont les plus marqués — ceux-ci correspondent souvent aux silhouettes des objets, aux jonctions entre composants et à l'orientation des textures. La détection de points d'intérêt (comme Harris, FAST) identifie les « coins » où le gradient local varie significativement dans plusieurs directions, généralement situés aux angles des objets ou aux intersections de lignes. Ensuite, des descripteurs locaux tels que SIFT, SURF ou ORB encodent le motif de texture d'une petite région autour de ces points clés, permettant au même point physique d'être reconnu sous différents angles de vue, échelles et avec certaines variations d'éclairage — ce qui fournit un support fondamental pour le recalage d'images, l'assemblage panoramique, le SLAM, le suivi AR et la reconstruction 3D.
Parallèlement à l'extraction de caractéristiques, diverses opérations de prétraitement géométrique et d'éclairage sont menées. La distorsion en barillet ou en coussinet causée par les objectifs grand angle, l'inclinaison et l'étirement perspectif lors de la capture de documents sont identifiés grâce à des indices géométriques de bas niveau tels que la détection de lignes et l'estimation des points de fuite, puis « remis d'aplomb » par des étapes de correction de distorsion, de redressement et de correction de perspective. L'égalisation d'histogramme globale ou adaptative, l'étirement du contraste et la normalisation de l'éclairage améliorent le contraste local et atténuent les effets d'un éclairage irrégulier et des ombres, sans perte de détails. Les transformations d'espace colorimétrique (RGB → HSV/Lab) et les statistiques d'histogramme de couleur fournissent des entrées directement exploitables pour des tâches simples telles que la segmentation basée sur la couleur, la détection de régions saillantes ou la correction de dominante de couleur.
Depuis que l'apprentissage profond de bout en bout est devenu dominant, une partie de ces caractéristiques structurelles et de ces prétraitements a été « internalisée » dans les noyaux de convolution et les stratégies de normalisation des premières couches du réseau, n'apparaissant plus sous forme d'opérateurs explicites dans les diagrammes d'architecture système. Mais fonctionnellement, ils jouent toujours le même rôle : d'abord appliquer une couche de traitement de bas niveau relativement générique et indépendante des catégories concrètes, pour transformer les pixels bruts en une représentation plus stable du point de vue de la forme géométrique, des conditions d'éclairage et de la structure locale, avant de la transmettre aux modules de classification, de détection, de segmentation et multimodaux des niveaux supérieurs pour accomplir la tâche de « comprendre ce que c'est ». Sans cet « échafaudage », les modèles de niveau supérieur seraient contraints de fonctionner sur des images brutes bruitées, fortement déformées et structurellement floues, ce qui entraînerait une dégradation significative de la robustesse et de la capacité de généralisation de l'ensemble du système.## 2.2 Classification et reconnaissance d'images (Image Classification & Recognition)
Dans la plupart des tâches liées aux images, les questions qui intéressent véritablement les parties prenantes sont : À quelle catégorie globale cette image appartient-elle ? Qui est cette personne sur l'image ? Ce piéton est-il le même sur différentes caméras ? Vous pouvez considérer cette couche comme un espace d'entrée unifié et propre, où l'on attribue une « étiquette de catégorie » ou une « étiquette d'identité » à l'image entière ou à une personne/cible entière, transformant ainsi les signaux visuels en résultats de reconnaissance directement exploitables.
Du point de vue produit, la classification et la reconnaissance d'images comptent parmi les premières capacités visuelles déployées à grande échelle et constituent le « module d'entrée » de nombreuses applications de niveau supérieur. Les plateformes e-commerce et de contenu l'utilisent pour étiqueter automatiquement les images et identifier les catégories de produits ; les systèmes de sécurité et de contrôle d'accès l'utilisent pour vérifier « s'il s'agit de la même personne » ; les systèmes de ré-identification de piétons démêlent les trajectoires entre plusieurs caméras pour retrouver la trace d'une même cible à travers différentes scènes. Nous allons maintenant examiner cette couche sous les trois mêmes angles : scénarios, principes et modèles :
- Scénarios
- Compréhension générale d'images : attribuer automatiquement des balises thématiques telles que « paysage / gastronomie / animal de compagnie / document » aux images téléchargées par les utilisateurs, pour la recherche, la recommandation et la modération de contenu.
- Reconnaissance faciale et contrôle d'accès : dans les systèmes de contrôle d'accès par reconnaissance faciale et de pointage, identifier l'identité d'une personne à partir d'une image de visage, permettant le « passage par reconnaissance faciale » et le « pointage par reconnaissance faciale ».
- Ré-identification de piétons/personnes : déterminer si un même piéton ou une même personne apparaît dans les images de différentes caméras, pour la recherche en sécurité et l'analyse de trajectoire.
- Reconnaissance d'attributs corporels : sans confirmer directement l'identité, reconnaître des attributs tels que le sexe, la tranche d'âge, le port d'un chapeau/sac à dos/uniforme, etc., afin de fournir des indices pour la recherche et l'analyse comportementale.
- Principes Dans un espace de caractéristiques visuelles unifié, une modélisation discriminative est appliquée à l'image entière ou à la personne/cible entière :
- Classification d'images : en prenant l'image entière comme entrée, les caractéristiques globales sont extraites via un réseau convolutif ou un Vision Transformer, puis une tête de classification est ajoutée au sommet des caractéristiques, produisant des probabilités de catégorie à étiquette unique ou multiples, pour répondre à la question « de quel type d'image s'agit-il ».
- Reconnaissance d'identité/d'instance : le problème « qui est-ce » est transformé en un problème d'apprentissage métrique dans l'espace des caractéristiques, c'est-à-dire apprendre un espace de plongement où les caractéristiques d'images de la même identité sont proches les unes des autres et celles d'identités différentes sont éloignées, puis effectuer la reconnaissance et la recherche par recherche des plus proches voisins ou clustering.
- Reconnaissance d'attributs : sur la base de caractéristiques partagées de piétons/personnes, des têtes de sortie multi-tâches sont ajoutées pour prédire des étiquettes d'attributs telles que le sexe, la tranche d'âge, la couleur des vêtements, le port d'objets, etc., permettant ainsi à la même représentation de caractéristiques de servir plusieurs besoins de recherche et d'analyse en aval.
- Modèles S'appuyant sur des réseaux convolutifs profonds et des Vision Transformers comme backbone, combinés à des têtes de classification ou d'apprentissage métrique pour réaliser différents types de tâches de reconnaissance :
- Backbones de classification d'images : ResNet, DenseNet, EfficientNet, ConvNeXt, Vision Transformer (ViT), Swin Transformer, etc., généralement pré-entraînés sur des ensembles de données à grande échelle comme ImageNet, puis affinés sur les données métier spécifiques.
- Structure de classification générale : Backbone + couche de classification entièrement connectée (Softmax / Sigmoid), utilisée pour les tâches de classification d'images à étiquette unique ou multiples, pouvant gérer les distributions à longue traîne via la repondération des classes, la focal loss, etc.
- Reconnaissance d'identité/d'instance : au-dessus de la sortie de caractéristiques du Backbone, utiliser des fonctions de perte avec contrainte angulaire telles que ArcFace, CosFace, SphereFace, pour élargir explicitement l'écart inter-classes entre différentes identités, améliorant la séparabilité dans l'espace des caractéristiques, et effectuer la comparaison sur des bibliothèques à grande échelle via la recherche vectorielle (ANN).
- Structure de reconnaissance de piétons/d'attributs : pour la Re-ID de piétons et la reconnaissance d'attributs corporels, l'approche courante consiste à utiliser un Backbone partagé pour extraire les caractéristiques des piétons, puis à séparer au niveau supérieur une « branche d'identité » et une « branche d'attributs », optimisant à la fois la capacité de distinction d'identité inter-caméras et la prédiction multi-attributs.
En ce qui concerne les formes concrètes de produits, les capacités de cette couche sont souvent fournies sous forme d'« API de reconnaissance/classification de contenu d'image », de « SDK/SaaS de reconnaissance faciale » ou de « plateforme de ré-identification de piétons ». Elles alimentent souvent directement les décisions métier (comme le déverrouillage de portes, l'écriture d'étiquettes de contenu) et servent également de couche amont, fournissant des étiquettes structurées et des représentations d'identité stables pour les tâches ultérieures de recherche, de recommandation, d'analyse comportementale et de compréhension multimodale. Nous allons maintenant développer ces aspects sous deux angles : la classification d'images d'une part, et la reconnaissance d'identité/d'attributs d'autre part.
2.2.1 Classification d'images : répondre à « de quel type d'image s'agit-il ? »
Dans la tâche de classification d'images la plus basique, le système traite une image entière et a pour objectif de lui attribuer une ou plusieurs étiquettes de catégorie sémantique. Le cas le plus courant est la classification à étiquette unique : par exemple, dans des ensembles de données comme ImageNet, chaque image est annotée avec une catégorie principale telle que « chien », « chat », « voiture », « avion » ; dans les scénarios métier, ce type de capacité est largement utilisé pour ajouter des balises thématiques telles que « paysage / gastronomie / animal de compagnie / portrait / document » aux images téléchargées par les utilisateurs, afin de prendre en charge la recherche, la recommandation et la modération de contenu. Comme pour la classification de texte, le modèle ajoute une couche entièrement connectée + Softmax au-dessus des caractéristiques visuelles globales extraites par le Backbone pré-entraîné, et produit une distribution de probabilité sur toutes les catégories candidates.
Dans de nombreuses applications réelles, une image peut appartenir simultanément à plusieurs catégories : par exemple, une photo de « selfie au coucher du soleil à la plage » peut être à la fois « paysage » et « portrait », et également être étiquetée « voyage » ou « bord de mer ». On a alors recours à la classification multi-étiquettes (Multi‑label Classification) : le modèle part toujours des caractéristiques globales de l'image, mais la couche de sortie n'est plus un Softmax mutuellement exclusif ; elle prédit plutôt la probabilité de présence/absence de chaque étiquette indépendamment (Sigmoid), et utilise une fonction de perte multi-étiquettes pour l'entraînement. Afin de gérer les nombreuses « catégories à longue traîne » (étiquettes peu fréquentes avec très peu d'échantillons) présentes dans les données réelles, les modèles de classification multi-étiquettes intègrent souvent des mécanismes tels que la repondération des classes, l'exploration d'exemples difficiles (hard example mining) ou la modélisation de la structure des étiquettes, afin d'améliorer le rappel sur les catégories de niche.
Au niveau de l'interface homme-machine, la classification d'images est généralement fournie sous forme d'« API de reconnaissance de contenu d'image ». Le service amont n'a qu'à télécharger une image pour obtenir un ensemble d'étiquettes de catégorie avec leurs scores de confiance, utilisées pour les décisions stratégiques ultérieures : par exemple, un système de diffusion publicitaire peut restreindre certaines catégories sensibles en fonction du contenu de l'image, une plateforme e-commerce peut utiliser la classification d'images pour aider à la correction des catégories de produits, et une plateforme de contenu peut enrichir les caractéristiques de recommandation et les signaux de modération. Bien que ces capacités soient relativement matures d'un point de vue technique, elles restent la pierre angulaire de capacités plus complexes telles que la détection d'objets, la segmentation d'instances et la réponse à des questions visuelles (VQA).
2.2.2 Reconnaissance d'images et d'attributs : répondre à « qui est-ce / quelle est cette instance ? »
Contrairement à « de quel type d'image s'agit-il », la reconnaissance d'images s'intéresse davantage à « qui est la personne/cible dans l'image », c'est-à-dire une distinction au niveau de l'identité, de l'instance. Les exemples typiques sont la reconnaissance faciale et la ré-identification de piétons : la première détermine, dans des scénarios de contrôle d'accès, de pointage, de paiement, etc., « à quelle identité de la base de données le visage actuel correspond-il le mieux » ; la seconde recherche, dans les images de surveillance de multiples caméras et sur différentes périodes, la présence d'un même piéton, afin d'aider à la rétrospection d'incidents et à l'analyse de trajectoire. Le cœur de ces tâches n'est plus une simple classification multiple, mais la capacité à apprendre un plongement « compact intra-classe et séparé inter-classes » dans l'espace des caractéristiques, de sorte que les images d'une même identité, prises sous différentes poses, éclairages et caméras, puissent toujours être regroupées.
En termes de conception de modèles, la reconnaissance faciale et la ré-identification de piétons adoptent généralement un paradigme similaire : on utilise d'abord des Backbones comme ResNet, ConvNeXt, ViT, Swin pour extraire des caractéristiques centrées sur le visage ou le piéton, puis on applique des fonctions de perte spécifiquement conçues pour l'apprentissage métrique, telles que ArcFace, CosFace, etc. Contrairement aux pertes de classification ordinaires, ces pertes contraignent directement les frontières inter-classes dans l'espace angulaire ou dans l'espace des caractéristiques, élargissant explicitement l'écart entre les caractéristiques de différentes identités, de sorte que les caractéristiques obtenues après l'entraînement puissent être utilisées pour la recherche vectorielle à grande échelle, sans être limitées aux catégories fixes vues pendant l'entraînement. En service en ligne, le système pré-calcule et indexe d'abord les caractéristiques de chaque identité dans la base d'images, puis effectue une recherche approximative des plus proches voisins (ANN) sur les caractéristiques du visage/piéton de la requête entrante, trouve les quelques candidats les plus similaires, et prend la décision finale en combinant des seuils métier et des informations multimodales.
Par opposition à la « reconnaissance d'identité directe », on trouve la reconnaissance d'attributs, qui ne pointe pas vers une personne spécifique. Dans de nombreux scénarios de sécurité et de vente au détail, le système a seulement besoin de savoir « homme ou femme », « tranche d'âge approximative », « porte-t-il un chapeau/un masque », « couleur et style des vêtements », « porte-t-il un sac à dos/une valise », etc., afin de filtrer rapidement les cibles, sans qu'il soit nécessaire — ni approprié — de produire directement une identité personnelle. Ce type de tâche s'appuie généralement sur des caractéristiques partagées de piétons/personnes, au-dessus desquelles sont ajoutées plusieurs têtes d'attributs parallèles (le terme « tête » désigne l'emplacement produisant la probabilité de sortie ; on peut avoir plusieurs sorties de probabilité pour déterminer la catégorie), chaque tête étant responsable de prédire une ou plusieurs étiquettes d'attributs, formant ainsi un cadre d'apprentissage multi-tâches. D'une part, l'entraînement multi-tâches peut rendre les caractéristiques plus riches et mieux généralisables ; d'autre part, les attributs eux-mêmes peuvent servir de conditions auxiliaires pour la Re-ID ou la recherche, améliorant ainsi l'utilisabilité du système dans des scénarios complexes.
En termes de forme de produit, ce type de capacités est généralement proposé sous forme de « SDK/service cloud de reconnaissance faciale », « plateforme de ré-identification de piétons », « API de reconnaissance d'attributs corporels », etc., et s'intègre dans des portiques de contrôle d'accès, des pointeuses, des plateformes de sécurité et des systèmes de structuration vidéo. Par rapport à la classification d'images générique, ces capacités exigent un niveau plus élevé de sécurité des données et de protection de la vie privée, et sont plus sensibles au compromis entre taux de fausse reconnaissance et taux de rappel. C'est pourquoi, au-delà des algorithmes, elles sont complétées par des mécanismes tels que le contrôle de qualité (vérification qu'il s'agit bien d'une personne réelle, qu'il n'y a pas d'occlusion ni de re-capture), la détection du vivant, la vérification croisée multimodale, etc., constituant ainsi une solution de reconnaissance d'identité plus complète et plus responsable.## 2.3 Détection d'objets (Object Detection)
Dans la classification et la reconnaissance d'images précédentes, nous attribuons une seule étiquette globale à « l'image entière » ou à « la personne entière », en ignorant sa position et sa taille dans l'image. Cependant, la question la plus courante dans les applications réelles est : quels sont les objets présents dans cette image ? Où se trouvent-ils respectivement ? Par exemple, dans une image de rue, nous souhaitons identifier simultanément tous les piétons, véhicules et panneaux de signalisation ; sur une chaîne de production industrielle, il faut repérer toutes les zones de défauts et les positions des pièces dans une même image. La détection d'objets répond précisément à ces besoins : elle prédit simultanément, dans une image unique ou une trame vidéo, la position (bounding box) et la catégorie de chaque objet, et constitue la capacité fondamentale de nombreuses tâches visuelles en aval (suivi, segmentation, analyse comportementale, comptage multi-objets, etc.).
Du point de vue de l'ingénierie, la détection d'objets est la « première étape de structuration » de nombreux systèmes de vision : elle décompose une image brute en plusieurs boîtes rectangulaires étiquetées, chacune pouvant être transmise à d'autres modules pour la reconnaissance, le suivi, l'analyse d'attributs, voire la génération sémantique. La détection de piétons/véhicules dans les caméras de surveillance, la détection de produits sur les étagères de vente au détail sans personnel, la détection de défauts/corps étrangers dans l'inspection qualité industrielle, ainsi que les API de « détection d'objets / Object Detection » proposées par les fournisseurs cloud, reposent toutes fondamentalement sur cette capacité. Nous allons maintenant explorer la détection d'objets sous trois angles : scénarios, principes et modèles, puis développer les directions clés dans les sous-sections suivantes.
- Scénarios
- Surveillance de sécurité et trafic : détection en temps réel dans les flux de caméras des piétons, véhicules, véhicules non motorisés, panneaux de signalisation, objets en contresens ou obstruant la voie, afin de fournir une base pour l'analyse comportementale et les alertes ultérieures.
- Inspection qualité industrielle et fabrication : détection sur les lignes de production des défauts de produits (rayures, cassures, corps étrangers), de la position des pièces, des assemblages manquants, pour permettre le rejet automatique et le positionnement robotisé.
- Vente au détail et logistique : détection et identification des produits sur les étagères intelligentes, lors du paiement ; détection et localisation des colis, palettes et empilements en entrepôt, pour assister l'inventaire et la préhension robotisée.
- Compréhension et modération de contenu : détection de personnes, logos, armes, objets sensibles dans les images/vidéos, fournissant des signaux structurés pour la modération de contenu, la conformité publicitaire et la reconnaissance de marque.
- Principes Le cœur de la détection d'objets consiste à construire un mécanisme de prédiction dense sur l'image :
- L'image d'entrée est transformée par un Backbone en cartes de caractéristiques multi-échelles. Sur ces cartes, pour chaque « position » (ou région candidate), on prédit simultanément « s'il y a un objet », « de quelle catégorie il s'agit » et « les paramètres de la bbox correspondante ».
- Selon l'architecture, on distingue la détection en deux étapes (Two-stage) , qui génère d'abord des boîtes candidates puis les affine, et la détection en une seule étape (One-stage) , qui effectue directement la classification et la régression sur la carte de caractéristiques. Ces deux approches présentent des compromis différents entre précision et vitesse.
- Selon la conception des boîtes candidates, on distingue les méthodes anchor-based qui s'appuient sur des boîtes d'ancrage prédéfinies, et les méthodes anchor-free qui prédisent directement les points centraux/limites, ainsi que la famille DETR basée sur l'appariement d'ensembles.
- Pour faire face aux petits objets, aux objets denses, aux occlusions et aux variations d'échelle dans les données réelles, les détecteurs combinent généralement des caractéristiques multi-échelles (FPN), une résolution d'entrée plus élevée, des fonctions de perte spécifiques et des stratégies de post-traitement (comme les variantes de NMS, les tests multi-échelles).
- Modèles Les modèles de détection sont globalement composés de trois parties : réseau backbone + pyramide de caractéristiques / tête de détection + perte et post-traitement :
- Détecteurs classiques en deux étapes : Faster R-CNN, Mask R-CNN, etc., qui génèrent d'abord des boîtes candidates via le RPN, puis effectuent une classification et une régression fines sur chaque région candidate. Précision élevée, structure claire, adaptés aux scénarios exigeant une très haute précision.
- Détecteurs en une seule étape : SSD, RetinaNet, la série YOLO (YOLOv5/6/7/8, YOLOX, YOLOv10, etc.), qui accomplissent la détection dans un réseau unifié. Structure compacte, faible latence, ils constituent la force principale de la détection en temps réel dans l'industrie.
- Détecteurs Anchor-free / Transformer : FCOS, CenterNet, ATSS, etc., qui prédisent directement les boîtes en se basant sur les pixels comme centres ; DETR / Deformable DETR, etc., qui, via Transformer et l'appariement d'ensembles, traitent la détection comme le problème de « générer un ensemble d'objets à partir d'un ensemble de requêtes », simplifiant ainsi de nombreuses conceptions manuelles.
- Détection et suivi vidéo : en s'appuyant sur les détecteurs d'images, on introduit des informations temporelles et des stratégies d'association (têtes de suivi, flux optique, appariement de trajectoires), formant un cadre unifié de détection + suivi pour l'analyse comportementale multi-objets sur de longues durées.
Dans l'ensemble, la détection d'objets occupe une « position centrale » dans le spectre des capacités visuelles — elle reçoit d'une part les images propres fournies par la vision de bas niveau, et d'autre part, elle décompose l'image en éléments de « niveau objet » exploitables pour la reconnaissance, le suivi, la segmentation et la compréhension multimodale. Ci-dessous, nous développons trois directions : les architectures de détection en une/deux étapes, la détection Anchor-based / Anchor-free / Transformer, ainsi que les petits objets et la détection vidéo.
2.3.1 Détection en une étape et en deux étapes : le compromis structurel entre précision et vitesse
Du point de vue architectural, la distinction la plus classique en détection d'objets est celle entre détection en deux étapes (Two-stage) et détection en une seule étape (One-stage) . La principale différence réside dans le fait de « sélectionner d'abord un ensemble de boîtes candidates, puis de les affiner », ou de « prédire toutes les boîtes et catégories en une seule fois sur la carte de caractéristiques ».
La détection en deux étapes est représentée par Faster R-CNN. Elle génère d'abord, sur la carte de caractéristiques du Backbone, un ensemble de boîtes candidates à « forte probabilité de contenir un objet » via le RPN (Region Proposal Network) — première étape — puis effectue un alignement RoI et une extraction de caractéristiques sur chaque région candidate, avant de procéder à une classification et une régression de boîte plus fines — seconde étape. L'avantage de cette conception est que de nombreux échantillons négatifs sont filtrés dès l'étape RPN, permettant à la seconde étape de se concentrer sur un petit nombre de régions candidates pour un jugement de haute qualité. Elle offre donc souvent un avantage en précision et s'étend plus facilement à des tâches comme la segmentation d'instances (Mask R-CNN) ou la détection de points clés (Keypoint R-CNN). Cependant, la complexité de calcul et d'implémentation introduite par la structure multi-étapes est relativement élevée, ce qui la rend plus adaptée aux scénarios hors ligne ou quasi temps réel où la latence n'est pas critique mais où la précision et l'extensibilité sont primordiales.
La détection en une seule étape cherche à fluidifier l'ensemble du pipeline, en accomplissant simultanément la classification des catégories et la régression des boîtes dans un réseau unifié. Les modèles représentatifs incluent SSD, RetinaNet et la série YOLO : ils prédisent directement, à chaque position des cartes de caractéristiques multi-échelles, « premier plan/arrière-plan + catégorie + bbox » pour plusieurs boîtes candidates, supprimant ainsi l'étape explicite de proposition, ce qui les rend plus adaptés à l'accélération et au déploiement de bout en bout. Les premiers détecteurs en une seule étape accusaient un certain retard en précision par rapport aux détecteurs en deux étapes, mais grâce à leur structure simple et leur rapidité, ils ont rapidement dominé l'industrie. Avec l'introduction du FPN, de la focal loss, de la loss IoU-aware, ainsi que de Backbones et Necks plus puissants, les modèles de nouvelle génération comme RetinaNet, YOLOX, YOLOv7/8/10 ont atteint dans de nombreuses tâches un équilibre précision-vitesse « proche, voire supérieur » à celui des détecteurs en deux étapes.
Au niveau applicatif, l'ingénierie choisit généralement entre ces deux types d'architectures selon les besoins : pour les tâches d'analyse hors ligne par lots dans le cloud nécessitant une haute précision et une forte extensibilité (par exemple, effectuer simultanément détection + segmentation + points clés), la détection en deux étapes reste un choix stable et fiable ; tandis que pour les scénarios sensibles à la latence comme les appareils edge, les applications mobiles ou la détection en temps réel sur caméra, les détecteurs en une seule étape de la série YOLO sont presque le choix par défaut, souvent combinés à des techniques de quantification, d'élagage et de distillation pour compresser davantage le modèle et augmenter le débit.
2.3.2 Anchor-based et Anchor-free : de la conception manuelle à l'apprentissage de bout en bout
Concernant la définition des « boîtes candidates », les méthodes de détection peuvent être divisées en deux grandes catégories : Anchor-based et Anchor-free. Les premières méthodes dominantes (comme Faster R-CNN, SSD, RetinaNet, YOLOv3/v4/v5, etc.) adoptaient l'approche Anchor-based : à chaque position de la carte de caractéristiques, on prédéfinit plusieurs boîtes d'ancrage (anchors) de différentes échelles et ratios d'aspect, puis on apprend la probabilité de premier plan et le décalage de la bbox correspondant à chaque anchor. Cette approche est simple à implémenter et donne de bons résultats, mais elle nécessite un réglage manuel important des tailles et proportions des anchors, et peut entraîner un nombre excessif d'ancres et un déséquilibre extrême entre échantillons positifs et négatifs dans les scénarios de petits objets ou d'objets denses.
Les méthodes Anchor-free tentent de s'affranchir de la dépendance aux anchors prédéfinies. Représentées par FCOS, CenterNet, ATSS, etc., elles prédisent généralement directement, sur chaque pixel de la carte de caractéristiques, « si ce point est le centre d'un objet (ou appartient à celui-ci) » ainsi que les distances aux limites correspondantes, évitant ainsi totalement la complexité des anchors prédéfinies. L'avantage est une structure de modèle plus simple, une stratégie d'attribution des échantillons d'entraînement plus naturelle, et une meilleure généralisation et extensibilité, en particulier face à des scénarios réels avec de fortes variations d'échelle et des formes d'objets complexes. Parallèlement, les détecteurs Anchor-free ont favorisé l'émergence de cadres unifiés basés sur les pixels/points, facilitant la modélisation conjointe de la détection avec les points clés et la segmentation.
Allant plus loin, les détecteurs basés sur Transformer tels que DETR / Deformable DETR repensent le problème de la détection sous un autre angle : au lieu de disposer densément des ancres sur la carte de caractéristiques, ils introduisent un nombre fixe de « vecteurs de requête » (object queries) et, via les mécanismes d'auto-attention et d'attention croisée du Transformer, « génèrent » un ensemble de prédictions d'objets à partir des caractéristiques globales, en réalisant un alignement bijectif par appariement hongrois (Hungarian Matching). Cette approche de prédiction d'ensemble (set prediction) élimine complètement les composants traditionnels comme le NMS et l'attribution manuelle des échantillons. Conceptuellement très élégante, elle souffrait cependant dans ses premières implémentations de problèmes de convergence lente et de performances médiocres sur les petits objets. Les versions ultérieures comme Deformable DETR, en introduisant l'attention déformable et des mécanismes multi-échelles, ont nettement amélioré la vitesse de convergence et les performances, gagnant progressivement en adoption dans les scénarios de détection et multi-tâches.
Pour la pratique de l'ingénierie, les approches Anchor-based, Anchor-free et Transformer ne sont pas des choix mutuellement exclusifs, mais ressemblent davantage à une chaîne d'évolution : de la conception d'ancres fortement artisanale (heavily engineered), à la prédiction par points/centres de bout en bout, puis à un cadre unifié entièrement basé sur la prédiction d'ensembles et l'attention. Dans les déploiements industriels actuels, les modèles Anchor-based matures comme la série YOLO restent la force principale, tandis que les familles Anchor-free et DETR apparaissent davantage dans les systèmes exigeant une grande simplicité structurelle, une unification multi-tâches et une forte extensibilité.
2.3.3 Petits objets et détection vidéo : vers la robustesse en conditions réelles
La détection d'objets sur les jeux de données publics donne souvent l'illusion que « le problème est pratiquement résolu », mais dès que l'on passe aux conditions réelles, deux types de problèmes épineux surgissent immédiatement : les petits objets / objets denses et la détection et le suivi robustes en vidéo.
Dans la détection de petits objets, la cible n'occupe souvent qu'une infime zone de pixels dans l'image originale — par exemple des piétons éloignés, des véhicules distants, des drones aériens, ou des micro-défauts sur des images industrielles haute résolution. Avec le sous-échantillonnage du Backbone et la réduction de la résolution des cartes de caractéristiques, ces petits objets sont facilement « noyés » dans les caractéristiques de haut niveau, entraînant des non-détections. Pour y remédier, les détecteurs adoptent généralement des pyramides de caractéristiques multi-échelles (FPN/PAFPN, etc.), augmentent la résolution d'entrée, ajoutent des têtes de détection sur les cartes de caractéristiques peu profondes, voire conçoivent des branches et des stratégies de pondération de perte spécifiquement dédiées aux petits objets. Parallèlement, au niveau des données, il est nécessaire d'améliorer la perception et la mémorisation des objets de petite échelle par le modèle via le recadrage, l'agrandissement et le rééchantillonnage des petits objets.
Les objets denses (comme les foules compactes, les parkings saturés, les produits/pièces étroitement disposés) exposent quant à eux des problèmes de chevauchement d'ancres, de suppression abusive par le NMS et d'occlusions sévères. Les stratégies d'amélioration incluent une attribution plus fine des étiquettes (comme les méthodes adaptatives telles qu'ATSS), le soft NMS ou des stratégies de dédoublonnage basées sur l'apprentissage, ainsi que la modélisation par points centraux/cartes de densité pour atténuer la compétition entre boîtes. Dans l'inspection qualité industrielle, de nombreux systèmes combinent également la détection avec la segmentation au niveau du pixel pour obtenir une localisation plus précise des défauts, facilitant le traitement automatique ultérieur.
Lorsque la détection passe de l'image unique à la vidéo, un autre défi apparaît : la continuité temporelle et la stabilité des objets. Un détecteur monocanal effectue des prédictions indépendantes sur chaque trame, ce qui rend difficile d'éviter les pertes brèves de détection, les fluctuations d'ID et les fausses alertes. Or, les applications réelles d'alerte, de comptage et d'analyse de trajectoire nécessitent généralement des trajectoires d'objets cohérentes entre les trames. Pour cela, la détection d'objets vidéo superpose généralement un module de suivi (Tracking), reliant « détection + suivi d'objets » : l'approche classique utilise un détecteur d'images comme front-end et, en back-end, exploite le filtrage de Kalman, l'appariement hongrois et la similarité des caractéristiques d'apparence pour réaliser le suivi multi-objets (comme SORT, DeepSORT, etc.) ; une approche plus avancée intègre directement la tête de suivi dans le réseau de détection, en apprenant conjointement la détection et l'association inter-trames, afin d'améliorer la robustesse dans les scénarios d'occlusion brève et de mouvement rapide.
Dans les systèmes réels, les petits objets, les objets denses et la détection vidéo ne sont souvent pas des problèmes isolés, mais apparaissent simultanément : par exemple, les piétons/véhicules éloignés dans la surveillance du trafic urbain, les foules denses sur les places de gare, ou les pièces en mouvement rapide sur les vidéos de lignes de production. Cela signifie qu'un module de détection d'objets de haute qualité, au-delà d'indicateurs impressionnants sur les benchmarks standards, doit résister à l'épreuve de divers facteurs complexes en conditions réelles — multi-échelles, multi-densités, vidéos longues durées — pour véritablement soutenir l'analyse comportementale, les alertes intelligentes et la compréhension multimodale en amont.## 2.4 Segmentation d'images (Image Segmentation)
Avec la détection d'objets, nous savons déjà « quels objets se trouvent dans une image et où ils se situent approximativement », mais de nombreuses tâches nécessitent une compréhension structurelle plus fine : déterminer précisément, pour chaque pixel, à quelle classe et à quelle instance il appartient. Par exemple, en conduite autonome, il faut savoir quels pixels correspondent à la route, aux personnes et aux voitures ; les outils de détourage doivent séparer proprement les cheveux de l'arrière-plan ; en imagerie médicale, il faut délimiter avec précision les contours des tumeurs et des organes. Ces tâches sont regroupées sous le terme de segmentation d'images, qui produit des labels sémantiques ou d'instance directement au niveau du pixel, offrant ainsi une information spatiale plus granulaire que la détection.
Du point de vue produit, la segmentation d'images est la capacité centrale de « structuration au niveau du pixel » : les outils de détourage et de remplacement d'arrière-plan s'appuient sur elle pour décider quels pixels conserver ; le module de perception de la conduite autonome l'utilise pour construire une carte fine des « zones praticables + obstacles » ; les logiciels d'imagerie médicale l'exploitent pour mesurer la taille, la forme et le volume des lésions ; les plateformes de télédétection s'en servent pour distinguer les terres agricoles, les plans d'eau, les bâtiments, les routes et autres entités géographiques. Nous allons ci-dessous aborder la segmentation d'images sous trois angles — scénarios, principes et modèles — puis détaillerons dans les sous-sections suivantes les directions telles que la segmentation sémantique/d'instance/panoptique et les grands modèles de segmentation.
- Scénarios
- Édition de contenu et détourage : détourage de portraits, remplacement d'arrière-plan au niveau du cheveu, extraction et édition par calques d'objets, utilisés pour l'embellissement de photos, les effets spéciaux pour vidéos courtes et la création publicitaire.
- Conduite autonome et robotique : annotation de chaque pixel en route, ligne de voie, piéton, véhicule, barrière, bâtiment, ciel, etc., pour la planification de trajectoire, l'alerte de collision et la modélisation de l'environnement.
- Analyse d'imagerie médicale : segmentation précise des organes, tumeurs et zones lésionnelles dans les images CT, IRM, échographie, etc., pour aider au diagnostic, à la planification chirurgicale et à l'évaluation des traitements.
- Télédétection et information géographique : segmentation des terres agricoles, plans d'eau, routes, bâtiments, forêts et autres entités dans les images satellites/aériennes, pour la planification territoriale, la surveillance de l'occupation des sols et l'évaluation des catastrophes.
- Principes La segmentation d'images est fondamentalement une « prédiction dense » : les caractéristiques multi-échelles sont extraites de l'image d'entrée via un encodeur (backbone), puis progressivement ramenées à une carte de segmentation de même taille que l'entrée via un décodeur ou des modules d'upsampling, en produisant un label sémantique ou d'instance pour chaque position de pixel.
- Segmentation sémantique (Semantic Segmentation) : attribue une classe sémantique à chaque pixel (par ex. route, personne, voiture, ciel), sans distinguer les différents individus d'une même classe, ce qui est adapté pour décrire la « composition de la scène ».
- Segmentation d'instance (Instance Segmentation) : va au-delà de l'information sémantique en distinguant les différentes instances d'une même classe, générant un masque indépendant pour « chaque voiture, chaque personne » — c'est une combinaison de détection et de segmentation.
- Segmentation panoptique (Panoptic Segmentation) : traite de façon unifiée les « objets comptables (thing, comme les personnes, les voitures) » et les « fonds non comptables (stuff, comme la route, le ciel) », en attribuant simultanément à chaque pixel un label sémantique et un ID d'instance. Comparée à la détection, la segmentation est plus sensible aux détails spatiaux et à la qualité des contours, nécessitant une information contextuelle multi-échelle plus riche et des stratégies d'upsampling/fusion plus fines.
- Modèles L'évolution des modèles de segmentation, du classique au plus récent, suit globalement la trajectoire : « FCN → encodeur–décodeur → contexte multi-échelle → détection + segmentation unifiée → segmentation par grands modèles » :
- Segmentation sémantique : FCN, U‑Net et ses variantes, la série DeepLab (DeepLabv3/v3+), PSPNet, etc., qui exploitent la convolution dilatée, le pooling pyramidal, les connexions skip et d'autres techniques pour obtenir un contexte multi-échelle et des contours fins.
- Segmentation d'instance/panoptique : Mask R‑CNN, Panoptic FPN, Mask2Former, etc., qui combinent des têtes de détection et de segmentation pour réaliser une segmentation au niveau des objets et une segmentation panoptique.
- Grands modèles et segmentation universelle : des modèles fondamentaux de segmentation comme le Segment Anything Model (SAM) élèvent la segmentation d'un « entraînement séparé par tâche » à « un modèle unique adapté à la plupart des scénarios de segmentation », en prenant en charge la segmentation interactive et pilotée par des prompts (prompt‑based).
Dans l'ensemble, la segmentation d'images offre une représentation spatiale plus fine que la détection d'objets, et constitue un maillon indispensable pour construire des systèmes de perception fiables et des outils d'édition avancés. Nous allons maintenant détailler trois axes : segmentation sémantique et segmentation d'instance, segmentation panoptique et unification détection-segmentation, ainsi que segmentation universelle, grands modèles et segmentation non supervisée.
2.4.1 Segmentation sémantique et segmentation d'instance : de la « classe de pixel » à « l'instance de pixel »
L'objectif de la segmentation sémantique (Semantic Segmentation) est d'attribuer une classe sémantique à chaque pixel de l'image, de sorte que le réseau apprenne que « cette région est la route, cette autre région est une voiture, ici c'est une personne, là c'est le ciel et des bâtiments ». L'approche classique adopte généralement une architecture encodeur–décodeur : l'encodeur (comme ResNet, EfficientNet, Swin Transformer, etc.) extrait des caractéristiques de haut niveau progressivement sous-échantillonnées, tandis que le décodeur, via l'upsampling, les connexions skip et la fusion multi-échelle, combine les caractéristiques sémantiques grossières de haut niveau avec les détails de bas niveau pour revenir à la résolution d'origine. FCN a été le premier à formaliser systématiquement cette forme de prédiction dense ; U‑Net, avec sa structure symétrique en U et ses nombreuses connexions skip, a connu un immense succès en imagerie médicale ; la série DeepLab, grâce à la convolution dilatée (dilated convolution) et à l'ASPP (Atrous Spatial Pyramid Pooling), élargit le champ réceptif sans réduire la résolution ; PSPNet exploite quant à lui le pooling pyramidal pour capturer l'information contextuelle globale. Ces modèles ont collectivement favorisé le déploiement à grande échelle dans les domaines des scènes routières, de la télédétection, de la médecine, etc.
La segmentation d'instance (Instance Segmentation) va plus loin en distinguant les différents individus d'une même classe au-delà des labels sémantiques des pixels : il ne s'agit pas seulement de savoir quels pixels sont des « voitures », mais aussi à quelle voiture précise ces pixels appartiennent. Le modèle le plus représentatif est Mask R‑CNN, qui ajoute une branche de segmentation parallèle au cadre de détection de Faster R‑CNN : il prédit d'abord la classe et la position de chaque boîte candidate via la tête de détection, puis génère un masque binaire à l'intérieur de chaque boîte, obtenant ainsi un résultat de segmentation au niveau de l'objet sous forme de « boîte + masque ». Comparée à la segmentation purement sémantique, cette approche gère bien mieux les superpositions et les occlusions d'objets, et constitue la base de tâches telles que le détourage de portraits/produits, le comptage multi-objets et l'édition fine. Les méthodes de segmentation d'instance ultérieures n'ont cessé de s'améliorer en termes de qualité de masque, de multi-échelle et de vitesse, avec l'émergence de nouvelles architectures basées sur l'anchor‑free et les Transformers, mais le paradigme « détection + segmentation locale » reste très largement dominant.
Au niveau produit, la segmentation sémantique apparaît généralement dans les applications « au niveau de la scène », comme la segmentation de route en conduite autonome, la reconnaissance d'entités géographiques en télédétection, la segmentation d'organes en médecine, etc. ; la segmentation d'instance est davantage utilisée pour le détourage, le comptage et l'édition « au niveau de l'objet », comme la sélection et la séparation en un clic de chaque voiture, chaque personne, chaque produit. Combinées, elles fournissent aux tâches de niveau supérieur une information spatiale à la fois fine et structurée.
Se limiter à la segmentation sémantique mélange les objets d'une même classe (tous les pixels « voiture » appartiennent à la même classe) ; se limiter à la segmentation d'instance néglige souvent les grands fonds « non comptables » (stuff, comme la route, l'herbe, le ciel) pour ne se concentrer que sur les « choses » comptables (things, comme les personnes, les voitures, les animaux). Dans de nombreux scénarios, nous avons besoin à la fois de connaître le masque au niveau de l'instance de chaque objet et de comprendre la composition globale de la scène. C'est ce qui a donné naissance à la segmentation panoptique (Panoptic Segmentation) : attribuer simultanément à chaque pixel une classe sémantique et un ID d'instance, réalisant ainsi une modélisation unifiée des things + stuff.
Les premiers systèmes de segmentation panoptique étaient généralement réalisés par l'approche « modèle de segmentation sémantique + modèle de segmentation d'instance + post-traitement de fusion » : un réseau prédit d'abord la classe sémantique de chaque pixel, un autre réseau produit les masques et classes de chaque instance, puis un ensemble de règles (priorité, gestion des superpositions) fusionne les deux en un résultat de segmentation panoptique cohérent. Panoptic FPN représente une voie plus élégante sur le plan technique : sur un backbone et une pyramide de caractéristiques (FPN) partagés, une tête de segmentation sémantique et une tête de segmentation d'instance sont montées séparément ; grâce à un entraînement conjoint et au partage de caractéristiques, les deux sorties sont obtenues simultanément, puis fusionnées par un post-traitement léger. Cela améliore non seulement l'efficacité, mais renforce également la cohérence entre la sémantique et les instances.
Au niveau des modèles, avec le développement de l'unification détection/segmentation et des architectures Transformer, des cadres unifiés de segmentation panoptique tels que Mask2Former ont émergé : ils tendent à utiliser une structure générique de « query + mask decoder », prédisant simultanément dans un même réseau les masques pour la sémantique, les instances et d'autres tâches aval, simplifiant ainsi considérablement l'architecture et facilitant l'extension multi-tâches. Pour des tâches complexes comme la conduite autonome, la navigation robotique ou la compréhension de scènes en RA, la segmentation panoptique offre une description complète de la scène plus proche de la « perception subjective humaine », permettant aux décisions et à la planification de niveau supérieur de s'appuyer sur une sémantique spatiale plus précise.
En termes de forme produit, la segmentation panoptique est souvent intégrée dans les systèmes de conduite autonome, de robotique et les plateformes d'analyse visuelle haut de gamme ; l'utilisateur ne perçoit pas nécessairement le concept de « segmentation panoptique », mais bénéficie concrètement d'une compréhension de scène plus robuste et d'une expérience d'interaction plus naturelle.
2.4.2 Segmentation universelle et segmentation non supervisée : des tâches sur mesure au « Segment Anything »
Les modèles de segmentation traditionnels sont généralement entraînés pour des jeux de données et des tâches spécifiques : par exemple, « segmentation sémantique de scènes routières en 19 classes », « segmentation d'un type de tumeur particulier », « segmentation de quelques catégories de produits », etc. — chaque changement de tâche nécessite de réannoter et de réentraîner. Dans un contexte métier réel, cette forte dépendance aux données finement annotées est extrêmement coûteuse et peine à couvrir les catégories de longue traîne et les nouveaux scénarios qui émergent constamment. Ces dernières années, avec le développement des modèles visuels pré-entraînés à grande échelle et du paradigme piloté par des prompts (prompt‑based), des modèles de segmentation universels représentés par le Segment Anything Model (SAM) ont vu le jour, visant à faire passer la capacité de segmentation d'un « sur mesure par tâche » à une « infrastructure ».
Prenons SAM comme exemple : il apprend des caractéristiques universelles sur l'image entière via un encodeur d'image puissant (généralement un ViT pré-entraîné à grande échelle), puis convertit les prompts fournis par l'utilisateur (points, boîtes, texte, etc.) en résultats de segmentation via un encodeur de prompt léger et un décodeur de masque. Pendant la phase d'entraînement, SAM exploite des annotations de masques massives, multi-sources et multi-tâches, de sorte que le modèle apprend une « capacité de segmentation généralisée » plutôt qu'une mémorisation par cœur des labels d'un jeu de données spécifique ; pendant la phase d'utilisation, l'utilisateur n'a besoin de fournir que très peu de prompts (un point ou une boîte grossière) pour obtenir des masques de bonne qualité sur des types d'images et des catégories d'objets jamais vus auparavant. Ce paradigme abaisse considérablement le seuil de création de nouvelles applications de segmentation et fournit un outil puissant pour les scénarios non supervisés/faiblement supervisés.
Dans cette mouvance, la direction plus large de la segmentation non supervisée / auto-supervisée vise à diviser automatiquement l'image en régions significatives sans dépendre (ou très peu) de masques annotés manuellement, en s'appuyant sur des signaux tels que la similarité intra-image, la cohérence temporelle ou les contraintes multi-vues. Les premiers travaux se concentraient davantage sur le « clustering visuel » et la génération de propositions de régions (proposal generation), tandis qu'aujourd'hui, ces approches sont de plus en plus intégrées dans les grands modèles comme une forme d'apprentissage de représentations, fournissant une bonne initialisation pour les tâches de segmentation en aval. En combinaison avec des modèles d'apprentissage contrastif texte–image comme CLIP, de plus en plus de méthodes parviennent à réaliser une segmentation zero-shot ou few-shot en ne fournissant que des noms de classes textuels sans aucune annotation de masque, ouvrant de nouvelles solutions pour les scénarios de démarrage à froid et les catégories de longue traîne.
Dans les produits réels, les grands modèles de segmentation universelle se manifestent souvent sous forme d'« outil de détourage interactif », de « sélection intelligente », de « suppression d'arrière-plan en un clic », et sont progressivement intégrés dans les logiciels professionnels des domaines médical, de la télédétection, de l'industrie, etc., comme accélérateurs pour l'annotation semi-automatique et la segmentation assistée. Comparés aux modèles sur mesure traditionnels, ils n'atteignent pas nécessairement l'excellence sur une tâche spécifique donnée, mais offrent un avantage significatif en termes de « capacité à tout faire un peu et à se déployer rapidement dans de multiples scénarios », posant ainsi les bases des futurs modèles de vision fondamentaux véritablement multimodaux.## 2.5 Détection de points clés et reconnaissance d’actions (Keypoint Detection & Action Recognition)
Après la classification, la détection et la segmentation, nous savons déjà « ce qu’il y a dans l’image, où cela se trouve et à quoi appartient chaque pixel ». Mais dans de nombreuses tâches réelles, ce qui intéresse l’activité n’est pas seulement « la présence et la position des objets », mais aussi la posture et l’action : une personne marche-t-elle ou court-elle ? Cette main est-elle levée, fait-elle un geste particulier ? L’ouvrier porte-t-il correctement son équipement de sécurité et exécute-t-il les gestes réglementaires ? La gestuelle technique d’un sportif est-elle correcte ? Ces questions exigent que nous allions plus loin dans la compréhension de la structure interne des objets et de leurs variations temporelles.
La détection de points clés et la reconnaissance d’actions sont les deux niveaux de capacité qui répondent à ce besoin :
- Détection de points clés (Keypoint Detection) : sur une image ou une frame vidéo, prédire plusieurs « points squelettiques » (comme les articulations, le bout des doigts, les traits du visage) d’une cible (généralement un corps humain, une main, un visage ou une structure mécanique spécifique), afin d’obtenir une représentation fine et structurée de la posture (pose).
- Reconnaissance d’actions (Action Recognition) : analyser dans le temps l’évolution de ces points clés ou des caractéristiques d’apparence au fil des frames, afin de déterminer « quelle action ou quel comportement cette personne / ce groupe de personnes est en train d’effectuer ».
Du point de vue produit, cette capacité est largement utilisée dans : l’interaction homme-machine (contrôle gestuel), l’analyse sportive (évaluation de la gestuelle technique), la sécurité (détection de chute, reconnaissance de comportements anormaux comme les bagarres ou les courses), la sécurité industrielle (détection de gestes non conformes), le pilotage d’avatars virtuels (pilotage de squelettes et d’animations 3D à partir des points clés du corps et du visage), et bien d’autres scénarios. Ci-dessous, nous organisons cette capacité selon trois angles — scénarios, principes et modèles — et nous détaillons séparément la détection de points clés et la reconnaissance d’actions dans les sous-sections.
- Scénarios
- Interaction homme-machine et AR/VR : grâce à la reconnaissance gestuelle et à la détection de la posture corporelle, permettre une interaction naturelle « il suffit de faire un geste pour contrôler », ou piloter en temps réel un avatar virtuel en AR/VR.
- Entraînement sportif et analyse du mouvement : suivre les points clés et analyser les angles pour des actions comme la course, le saut en hauteur, le tir au basket, l’haltérophilie, afin de fournir une évaluation de la gestuelle technique et des conseils de correction.
- Sécurité et sûreté publique : détecter des comportements anormaux comme les chutes, les bagarres, les courses brusques, le franchissement de barrières, pour déclencher des alertes ; reconnaître si les gestes sont conformes aux normes sur les chantiers et dans les usines.
- Industrie et collaboration homme-robot : détecter si l’ouvrier adopte la posture réglementaire, surveiller la distance de sécurité lors de la collaboration avec un robot, et repérer les gestes dangereux.
- Pilotage facial / expressif et avatars virtuels : capturer les détails expressifs via les points clés du visage, pour le transfert d’expressions, le pilotage de personnages numériques, les avatars de visioconférence, etc.
- Principes Ces deux types de tâches se concentrent respectivement sur la structure spatiale et les variations temporelles, mais toutes deux réalisent essentiellement une prédiction structurée dans un espace de caractéristiques de haute dimension :
- Détection de points clés : localiser dans l’image un ensemble de points clés prédéfinis (par exemple 17/25 articulations du corps, 21 articulations de la main, 68/106 points clés du visage). La méthode courante consiste à prédire une carte de chaleur (heatmap) pour chaque point clé sur la carte de caractéristiques, puis à déduire les coordonnées par la position du pic ; dans un scénario multi-personnes, il faut en plus « assembler les articulations par personne ».
- Reconnaissance d’actions sur une seule frame ou à court terme : à partir d’une seule image ou d’une courte fenêtre temporelle, en utilisant la posture du corps (points clés) et les caractéristiques d’apparence, déterminer la classe d’action présente dans cette frame ou ce segment (marcher, courir, lever la main, faire un signe, s’asseoir, etc.).
- Reconnaissance d’actions temporelle : sur une échelle de temps plus longue, analyser la séquence de caractéristiques (caractéristiques d’image, séquence de points clés ou flux optique, etc.), modéliser le début, la durée et la fin de l’action, et reconnaître des comportements complexes comme « être en train de téléphoner », « faire des pompes », « deux personnes en train de se bousculer ».
- Représentation structurée : la séquence de points clés fournit une représentation structurée plus compacte et plus stable que les pixels bruts, ce qui facilite la gestion des changements de point de vue, des interférences d’arrière-plan et des variations d’apparence dans la reconnaissance d’actions.
- Modèles Les modèles courants évoluent globalement selon le paradigme unifié « extraction de caractéristiques par convolution/Transformer + tête de points clés / tête temporelle » :
- Détection de points clés : la série OpenPose, le Hourglass Network, HRNet, avec deux grandes branches — l’approche descendante (top-down, détecter d’abord la personne puis estimer sa posture) et l’approche ascendante (bottom-up, détecter d’abord les articulations puis les assembler) ; ces dernières années, on trouve également des estimateurs de posture basés sur Transformer.
- Reconnaissance d’actions vidéo : modèles vidéo basés sur des CNN 2D/3D (I3D, SlowFast, etc.), modèles GCN basés sur le squelette (ST‑GCN, etc., qui modélisent directement les relations spatio-temporelles sur le graphe de points clés), ainsi que des solutions de bout en bout basées sur des Transformers vidéo (Video Swin, TimeSformer, etc.).
- Modèles multitâches unifiés et grands modèles : sur un backbone visuel universel, produire simultanément des étiquettes de détection, de segmentation, de points clés et d’actions, ou utiliser des grands modèles multimodaux pour comprendre directement, via une consigne textuelle, « quelle action cette personne est-elle en train d’effectuer », reliant ainsi la prédiction structurée à la compréhension sémantique.
Nous développons ci-dessous les deux directions que sont la détection de points clés et l’estimation de posture d’une part, et la reconnaissance d’actions et la compréhension comportementale d’autre part.
2.5.1 Détection de points clés et estimation de posture : dessiner le « squelette » des personnes et des objets
La détection de points clés (souvent appelée estimation de posture, Pose Estimation) s’intéresse à la structure spatiale dans une seule frame ou une seule image : trouver dans une image 2D un ensemble de points clés sémantiquement significatifs et les relier pour former un squelette. Par exemple, en estimation de posture humaine, nous devons généralement détecter la tête, les épaules, les coudes, les poignets, les hanches, les genoux, les chevilles et d’autres articulations ; pour la posture du visage, il s’agit des coins des yeux, des coins de la bouche, du bout du nez, du contour du visage, etc. ; pour la posture de la main, il s’agit de la base des doigts, des articulations et du bout des doigts. Pour des objets non humains comme un bras robotique ou des pièces structurelles articulées, on peut également définir un système de points clés de manière analogue.
Dans la conception des modèles, la détection de points clés utilise couramment le paradigme « extraction de caractéristiques + prédiction de cartes de chaleur » :
- D’abord, un CNN ou un Transformer visuel (comme ResNet, HRNet, Swin, etc.) extrait des caractéristiques multi-échelles de l’image d’entrée.
- Ensuite, une tête de décodage ou plusieurs couches de convolution produisent, pour chaque type de point clé, une carte de chaleur (heatmap) où chaque valeur de pixel représente « la probabilité que cette position soit ce point clé ».
- Lors de l’inférence, on prend généralement la position du pic de chaque carte de chaleur comme coordonnée du point clé, et on procède à un raffinement subpixel par interpolation bilinéaire, ajustement local, etc.
Pour les scénarios multi-personnes, les méthodes d’estimation de posture se divisent en deux grandes approches :
- Approche descendante (Top‑down) : utiliser d’abord un détecteur de personnes pour trouver la boîte englobante de chaque personne dans l’image, puis effectuer une estimation de posture individuelle sur l’image contenue dans chaque boîte. Cette approche offre une grande précision par personne et un cadre simple, mais dans les scènes à forte densité de personnes, elle est coûteuse en calcul et sensible à la qualité de la détection. Les systèmes représentatifs incluent de nombreuses combinaisons Faster R‑CNN/YOLO + Hourglass/HRNet.
- Approche ascendante (Bottom‑up) : ne pas distinguer chaque personne au préalable, mais prédire directement tous les points clés potentiels (et leur type) sur l’image entière, tout en prédisant les relations de connexion ou les champs d’affinité entre points clés (comme les PAF d’OpenPose). Ensuite, par un algorithme de couplage de graphes / clustering, les points clés sont assemblés en plusieurs squelettes humains indépendants. Ce type de méthode est plus efficace dans les scènes denses et plus robuste au nombre de personnes, mais le processus d’assemblage est complexe et sensible à la qualité des connexions.
Ces dernières années, des modèles d’estimation de posture basés sur Transformer ont également fait leur apparition, traitant la détection de points clés comme un ensemble de tâches « requête–réponse », de manière similaire à DETR, ce qui permet d’unifier architecturalement la détection d’objets et l’estimation de posture. Dans les applications d’ingénierie, la capacité de détection de points clés est généralement encapsulée sous forme de « SDK ou API de points clés corps/main/visage » ; l’application amont n’a qu’à transmettre une image ou une frame vidéo pour obtenir les coordonnées structurées du squelette, qui serviront ensuite à la reconnaissance d’actions, au contrôle interactif ou au pilotage d’animations.
2.5.2 Reconnaissance d’actions et compréhension comportementale : faire bouger le « squelette »
Une fois les points clés ou les caractéristiques visuelles de haut niveau obtenus, l’étape suivante consiste à comprendre les variations dans la dimension temporelle — c’est-à-dire la reconnaissance d’actions (Action Recognition) et l’analyse comportementale (Behavior Understanding). Contrairement à la détection de points clés, la reconnaissance d’actions ne se limite plus à une seule frame ; elle s’intéresse au motif d’évolution des caractéristiques sur une période : de « lever la main » à « faire un signe », de « marcher » à « courir », de « se tenir debout » à « tomber ».
Pour la représentation des entrées, il existe trois grandes voies :
- Basée sur les frames vidéo brutes / le flux optique : modéliser directement la séquence de frames vidéo, ou introduire en complément le flux optique (un champ décrivant la vitesse de mouvement locale) comme entrée, afin que le modèle apprenne conjointement à partir des informations d’apparence et de mouvement.
- Basée sur la séquence de squelette / points clés : utiliser d’abord l’estimation de posture pour obtenir une séquence de coordonnées des points clés du corps, puis modéliser sur un « graphe squelette spatio-temporel », ce qui atténue les interférences de l’arrière-plan et de l’éclairage et se concentre davantage sur la structure du corps et les motifs de mouvement.
- Fusion multimodale : intégrer ensemble les caractéristiques vidéo, la séquence de points clés, voire l’audio, le texte et d’autres modalités, pour traiter des scénarios comportementaux complexes (comme les interactions multi-personnes, les actions de niveau événement).
En correspondance, les structures de modèles présentent également un développement diversifié :
- Les premiers travaux en reconnaissance d’actions reposaient principalement sur des CNN 2D + pooling temporel ou des CNN 3D (comme I3D, C3D) : les premiers extraient des caractéristiques pour chaque frame puis appliquent un pooling ou un RNN sur la dimension temporelle ; les seconds effectuent directement une convolution tridimensionnelle dans l’espace et le temps pour capturer des motifs de mouvement à court terme.
- Pour les séquences de squelette, la méthode typique est le réseau de convolution sur graphe spatio-temporel (ST‑GCN) : les points clés du corps sont considérés comme des nœuds d’une structure de graphe, les connexions entre articulations sont les arêtes, et des arêtes sont également créées dans la dimension temporelle ; l’information est propagée sur le graphe spatio-temporel par convolution sur graphe, afin d’apprendre les motifs d’action. Ce type de méthode est léger, robuste à l’arrière-plan, et adapté au déploiement sur des appareils aux ressources limitées.
- Ces dernières années, les Transformers vidéo (comme TimeSformer, Video Swin) se sont illustrés en reconnaissance d’actions : ils découpent la vidéo en patches spatio-temporels et modélisent les dépendances à long terme via des mécanismes d’auto-attention, ce qui permet de mieux capturer les actions complexes et les interactions multi-objets.
Côté métier, la reconnaissance d’actions est souvent combinée avec la détection, le suivi et la détection de points clés pour former un système d’analyse comportementale de bout en bout :
- En sécurité : d’abord détecter et suivre les personnes, puis classifier les actions sur la séquence de points clés de chaque trajectoire, pour réaliser la détection de chutes, la reconnaissance de bagarres/courses, etc. ;
- Dans les applications sportives et de fitness : analyser via la séquence de points clés si le geste est correct, si l’amplitude est appropriée, et fournir des conseils de correction ;
- Dans les scénarios d’interaction homme-machine : effectuer une classification légère des actions sur le flux de posture en temps réel, pour réaliser des interactions comme faire un signe de la main, former un cœur avec les doigts, des commandes gestuelles, etc. ;
- En sécurité industrielle : surveiller en continu les gestes de l’ouvrier, identifier les postures dangereuses (comme se pencher dans une zone dangereuse, franchir une ligne de sécurité, etc.).
Tournés vers l’avenir, les grands modèles multimodaux sont en train d’élever la « reconnaissance d’actions » à un niveau supérieur de « compréhension d’événements et d’intentions » : le modèle peut non seulement étiqueter « marcher, courir, téléphoner », mais aussi répondre à des descriptions plus proches du langage naturel comme « cette personne semble faire signe à quelqu’un pour l’appeler » ou « ces deux personnes sont en train de se disputer ». Dans ce cadre, la détection de points clés et la reconnaissance d’actions constituent d’importants indices de mouvement structurés qui, avec les caractéristiques d’apparence et les consignes textuelles, soutiennent ensemble des capacités de compréhension spatio-temporelle plus complexes.## 2.6 Détection à vocabulaire ouvert / monde ouvert / domaine ouvert
(Open‑Vocabulary / Open‑World / Open‑Domain Detection)
Les capacités de détection et de segmentation précédentes reposent presque toutes sur un postulat : l'ensemble des catégories est fixe entre l'entraînement et l'inférence. Autrement dit, le modèle a vu pendant l'entraînement l'intégralité des « catégories à reconnaître », et il ne lui reste plus qu'à choisir parmi ces étiquettes fermées au moment de l'inférence. Mais le monde réel est bien plus complexe que les jeux de données : de nouveaux produits, marques, panneaux de signalisation, espèces, et scénarios apparaissent en permanence, et il est impossible de préparer des données annotées suffisantes pour chaque nouvelle classe et de réentraîner le détecteur. C'est ce qui a donné naissance à la détection à vocabulaire ouvert / monde ouvert / domaine ouvert : lorsque les données d'entraînement ne couvrent qu'un nombre limité de « classes connues », permettre au modèle de percevoir, localiser et reconnaître à l'inférence des nouvelles classes jamais vues, tout en restant robuste face aux variations de style visuel et de domaine de capture.
On peut voir cette couche comme l'ajout, au-dessus de la détection classique, d'une « capacité d'alignement et de généralisation avec l'espace linguistique et le monde ouvert ». Le modèle ne se contente plus de dire « ceci est l'une des 80 classes COCO », il peut comprendre et rechercher des cibles dans l'espace de n'importe quelle description textuelle, par exemple « détecte toutes les “baskets rouges” dans l'image » ou « repère tous les “objets volants suspects” », même si ces catégories fines n'ont jamais été explicitement présentes dans l'ensemble d'entraînement. Nous abordons ci-dessous cette couche sous trois angles — scénarios, principes et modèles — et détaillons respectivement dans les sous-sections la détection à vocabulaire ouvert, la détection en monde ouvert et la généralisation inter-domaines.
- Scénarios
- API de compréhension universelle de scènes : l'utilisateur fournit une description en langage naturel (mot-clé ou courte phrase), et le système renvoie les boîtes de détection ou masques de segmentation correspondants dans des images de tout style, par exemple « tous les casques de sécurité dans l'image », « tous les logos de marque suspects », « tous les objets à roues ».
- Reconnaissance massive de produits / espèces : dans le e-commerce, les produits de longue traîne se renouvellent sans cesse, et dans la nature, les espèces animales et végétales sont extrêmement nombreuses ; les données d'entraînement ne couvrent qu'une partie des classes connues, mais le système doit localiser et effectuer une reconnaissance grossière pour un très grand nombre de nouvelles classes, avec prise en charge de la recherche par texte ou par image.
- Sécurité inter-domaines / perception pour la conduite autonome : les données d'entraînement proviennent majoritairement de routes urbaines de jour ou de quelques angles de caméra, mais le déploiement réel fait face à des villes, campagnes, autoroutes, conditions météorologiques extrêmes, caméras infrarouge/fisheye différents, etc. — autant de « nouveaux domaines » où apparaissent des cibles inédites jamais annotées dans l'ensemble d'entraînement (nouveaux modèles de véhicules, nouveaux équipements routiers, nouveaux types d'obstacles).
- Principes L'idée centrale de ces méthodes est de remplacer la traditionnelle « tête de classification one-hot fixe » par un espace d'embedding aligné vision–langage, et de traiter les « classes non vues » et les « nouveaux domaines » via plusieurs mécanismes :
- Détection à vocabulaire ouvert (Open‑Vocabulary Detection) : pendant l'entraînement, on exploite des paires image–texte à grande échelle pour pré-entraîner un espace aligné similaire à CLIP, de sorte que les embeddings de régions d'image et de texte puissent être directement comparés par similarité dans le même espace sémantique ; la tête de détection ne produit plus de logit de classe fixe, mais un vecteur de caractéristiques de région, comparé à n'importe quel vecteur de description textuelle, ce qui permet de « ne voir qu'une partie des classes à l'entraînement, tout en spécifiant n'importe quelle classe textuelle à l'inférence ».
- Détection en monde ouvert (Open‑World Detection) : va plus loin en traitant les « nouvelles classes totalement absentes des annotations d'entraînement », en exigeant que le modèle puisse détecter ces cibles comme « classe inconnue (unknown) », puis les intégrer progressivement dans l'ensemble des classes connues via annotation interactive ou apprentissage continu, formant ainsi un système d'apprentissage en ligne capable d'élargir continuellement son catalogue de classes.
- Détection inter-domaines / domaine ouvert (Open‑Domain Detection) : face aux changements importants de style d'image, de dispositif de capture, de conditions environnementales (domain shift), on utilise des techniques d'adaptation de domaine (Domain Adaptation) et de généralisation de domaine (Domain Generalization) pour que le détecteur maintienne des performances stables dans de nouveaux domaines jamais vus ; les approches courantes incluent l'alignement adversarial de domaine, l'entraînement multi-domaines, la randomisation de style, le méta-apprentissage, etc.
- Segmentation et détection unifiées à vocabulaire ouvert : on étend les idées ci-dessus au niveau pixel, en générant des masques de segmentation pour toute description textuelle (open‑vocabulary segmentation), via des pertes d'alignement Region–Word ou Mask–Word, pour réaliser « décrire une région ou un objet en langage naturel, et obtenir le masque ou la boîte correspondante ».
- Modèles Les principales approches actuelles de détection à vocabulaire ouvert / monde ouvert / domaine ouvert s'articulent essentiellement autour du « pré-entraînement vision–langage à grande échelle + adaptation de la tête de détection + mécanismes de généralisation inter-domaines » :
- Détecteurs basés sur CLIP : s'appuient sur des encodeurs d'image et de texte de type CLIP, et appliquent un apprentissage contrastif et une perte d'alignement Region–Word entre les caractéristiques au niveau région (ROI, patchs de carte de caractéristiques, régions de masque) et les embeddings textuels ; les implémentations typiques remplacent ou étendent la tête de classification sur des architectures comme Faster R‑CNN / RetinaNet / YOLO / DETR, pour produire des scores de classe via « similarité cosinus + embedding textuel ».
- Détection pilotée par légende / prompt (Caption‑driven / Prompt‑based Detection) : exploite des données de légendes image–texte à grande échelle pour générer automatiquement des descriptions textuelles des régions ou masques d'une image, puis aligne ces textes générés automatiquement avec les régions de détection/segmentation pour l'entraînement, réduisant ainsi la dépendance aux étiquettes de classe manuelles ; à l'inférence, la détection/segmentation est pilotée par des prompts en langage naturel (ex. « toutes les personnes en rouge », « toutes les voitures électriques »).
- Travaux sur la détection en monde ouvert (Open‑World Detection) : introduisent explicitement dans les frameworks de détection classiques une modélisation de « classe inconnue (unknown) », une extension incrémentale des catégories et des mécanismes d'apprentissage continu ; certaines méthodes utilisent la distance dans l'espace métrique et l'estimation d'incertitude pour déterminer « s'il s'agit d'une classe inconnue », d'autres introduisent une mémoire tampon et un réentraînement en ligne pour que le système accumule progressivement la connaissance de nouvelles classes.
- Détection avec adaptation / généralisation de domaine : ajoutent au niveau du backbone et de la tête de détection des modules comme des discriminateurs de domaine, des pertes adversariales, des batch normalizations multi-domaines, des augmentations par randomisation de style, etc., pour que le détecteur apprenne des représentations plus invariantes au domaine ; certains travaux introduisent également un entraînement multi-sources et des stratégies de méta-apprentissage sur des frameworks de détection Transformer (comme Deformable DETR) pour améliorer la capacité de généralisation inter-domaines.
- Modèles de détection universels / Foundation : élèvent le problème de la détection au niveau des « modèles de fondation », en pré-entraînant un Detection Foundation Model aussi général que possible en termes de classes et de domaines, puis en l'adaptant à des scénarios spécifiques par fine-tuning léger ou prompt textuel ; ces modèles combinent généralement des annotations de détection à grande échelle, des paires image–texte multi-sources, voire des données vidéo, avec pour objectif de rendre possible la compréhension universelle « n'importe quel texte + n'importe quel style d'image ».
En termes de produit concret, la détection à vocabulaire ouvert / monde ouvert / domaine ouvert se traduit souvent par une interface visuelle « plus naturelle, avec moins de contraintes » : l'utilisateur n'a pas besoin de convenir à l'avance d'un petit ensemble d'étiquettes fixes, mais peut décrire en langage naturel ce qu'il cherche ; le système n'a pas non plus besoin de réentraîner un détecteur à partir de zéro pour chaque scénario métier, mais s'appuie sur un modèle général unifié, rapidement adaptable par prompt ou par few-shot. Pour la reconnaissance massive de produits / espèces, les systèmes de sécurité et de perception pour la conduite autonome déployés à l'échelle mondiale, cette couche de capacités est en train de devenir le tremplin clé pour passer de la « performance sur jeux de données fermés » à « l'utilisabilité dans le monde ouvert réel ».
2.6.1 Détection à vocabulaire ouvert : de la tête de classes fixes à l'espace de classes piloté par le texte
Le point de départ de la détection à vocabulaire ouvert (Open‑Vocabulary Detection) est de dépasser la limite de la « tête de classes fixes » de la détection classique. Les détecteurs traditionnels ajoutent au sommet une couche de classification de taille fixe (correspondant aux N classes de l'ensemble d'entraînement) ; une fois l'entraînement terminé, ils ne peuvent choisir que parmi ces N classes. La détection à vocabulaire ouvert, elle, introduit un encodeur de texte et un espace d'embedding sémantique partagé, de sorte que les caractéristiques de région produites par la tête de détection puissent être comparées par similarité avec n'importe quelle description textuelle, acceptant ainsi à l'inférence de nouvelles classes jamais vues.
L'approche typique consiste à utiliser un modèle de pré-entraînement vision–langage de type CLIP :
- Côté texte : encoder les noms de classes ou les descriptions en langage naturel (ex. « person », « red sports car », « yellow construction helmet ») pour obtenir des vecteurs textuels.
- Côté vision : dans un framework de détection (Faster R‑CNN, RetinaNet, YOLO, DETR, etc.), extraire un vecteur de caractéristiques pour chaque région candidate ou point de caractéristique.
- Entraînement par alignement : via des pertes contrastives et des pertes d'alignement Region–Word, rapprocher dans l'espace d'embedding les caractéristiques textuelles et de région partageant la même sémantique, et éloigner les vecteurs de sémantiques différentes. Même si seules quelques classes disposent d'annotations explicites de boîtes à l'entraînement, on peut étendre la couverture sémantique en exploitant des paires image–texte ou des légendes d'images.
En phase d'inférence, le système ne dépend plus d'un ensemble fixe de noms de classes défini à l'entraînement, mais permet à l'utilisateur de fournir en ligne n'importe quel mot-clé ou description en langage naturel, qui est converti en embedding via l'encodeur de texte, puis comparé par similarité avec les caractéristiques de région. Cela permet au détecteur de prendre en charge, sans réentraînement, des besoins flexibles comme « détecter tous les skateboards », « détecter toutes les plantes vertes », « détecter tous les équipements de sécurité », même si certaines catégories spécifiques n'ont jamais eu d'annotation complète dans l'ensemble d'entraînement — dès lors qu'il existe un recouvrement sémantique avec l'espace image–texte pré-entraîné, elles peuvent être reconnues et localisées dans une certaine mesure.
En pratique, la détection à vocabulaire ouvert doit trouver un équilibre entre performance et efficacité : d'un côté, maintenir l'alignement sémantique avec le backbone vision–langage pré-entraîné à grande échelle ; de l'autre, supporter les exigences de la détection en termes de multi-échelle et de temps réel. Les détecteurs basés sur CLIP adoptent généralement une approche de « pré-calcul des embeddings textuels + calcul efficace de similarité vectorielle » pour éviter d'encoder le texte de façon répétée en service en ligne, tout en quantifiant ou distillant les caractéristiques de région, afin de concilier précision et vitesse d'inférence.
2.6.2 Détection en monde ouvert : des « classes non vues » à « l'inconnu apprenable »
La détection en monde ouvert (Open‑World Detection) va au-delà du vocabulaire ouvert, en exigeant que le modèle traite explicitement les « classes inconnues » : dans les données d'entraînement, seules certaines classes sont annotées, les autres objets étant soit non annotés, soit regroupés en arrière-plan ; à l'inférence, ces « objets réels non annotés » ne doivent ni être simplement considérés comme de l'arrière-plan, ni être incorrectement attribués à une classe connue, mais doivent être détectés en tant que « classe inconnue (unknown) », avec la possibilité d'être convertis ultérieurement en « nouvelle classe connue ».
Sur le plan de la modélisation, la détection en monde ouvert doit généralement résoudre trois problèmes :
- Perception des classes inconnues : comment éviter, pendant l'entraînement, d'apprendre à traiter toutes les cibles non annotées comme de l'« arrière-plan » ? Les approches courantes incluent : l'introduction d'un slot explicite de « classe inconnue », en utilisant l'extraction d'exemples négatifs et la modélisation de l'incertitude pour que le modèle apprenne à produire « unknown » dans les régions de faible confiance ; ou l'exploitation de données non annotées et de mécanismes auto-supervisés pour effectuer un clustering et une génération de pseudo-étiquettes sur les régions candidates à forte confiance.
- Contrôle des erreurs de classification : le modèle doit arbitrer entre « mieux vaut juger unknown que classer incorrectement dans une mauvaise classe connue », ce qui implique la conception de la fonction de perte (marge, discrimination open-set), le seuil de décision et les stratégies de post-traitement.
- Extension incrémentale des catégories : lorsqu'un lot de cibles « unknown » est annoté manuellement par l'équipe métier avec de nouvelles classes, le modèle doit pouvoir intégrer ces nouvelles classes dans l'ensemble des « classes connues » par apprentissage incrémental, sans oublier significativement les anciennes classes. Pour cela, de nombreux travaux introduisent une mémoire tampon, une perte de distillation, une isolation des paramètres ou des mécanismes de rejeu, afin d'assimiler les nouvelles classes de façon stable.
Du point de vue produit, la détection en monde ouvert est particulièrement adaptée aux scénarios où le catalogue de classes ne cesse de croître et la longue traîne est extrêmement sévère, comme la reconnaissance d'espèces naturelles, la reconnaissance de produits pour les nouveaux articles rapidement mis en ligne, ou la détection de cibles anormales dans des scénarios de sécurité complexes. Le système peut d'abord utiliser la détection en monde ouvert pour marquer « toute cible suspecte non-arrière-plan », puis, progressivement, par annotation manuelle ou semi-automatique, promouvoir les clusters pertinents en catégories officielles, construisant ainsi un système de détection « à catalogue de classes extensible durablement », plutôt que contraint par un jeu de données fixe.
2.6.3 Détection en domaine ouvert / distribution ouverte : robustesse inter-styles, inter-dispositifs, inter-scénarios
Même si l'ensemble des catégories reste inchangé, le détecteur subit en déploiement réel un sérieux décalage de domaine (Domain Shift) : les données d'entraînement peuvent provenir de caméras haute définition de jour de quelques villes, alors que l'environnement de déploiement inclut différents pays, campagnes, autoroutes, tunnels, nuit, pluie/neige, caméras basse résolution, objectifs fisheye, voire imagerie infrarouge ; il existe aussi des différences considérables entre les photos de produits en studio et les photos prises par les utilisateurs, ou entre les styles publicitaires, illustrations et anime. La détection en domaine ouvert (Open‑Domain Detection) s'intéresse précisément à maintenir des performances de détection stables et fiables lorsque la distribution des images change de manière significative.
Les approches techniques typiques incluent :
- Adaptation de domaine (Domain Adaptation) : en disposant de données non annotées ou de quelques données annotées du domaine cible, on utilise l'alignement adversarial de domaine (confondre les domaines source/cible dans l'espace des caractéristiques), l'alignement multi-niveaux (style d'image, caractéristiques, sortie de la tête de détection), le transfert de style (ex. transférer le style des images du domaine source vers le domaine cible), pour que le modèle apprenne des caractéristiques insensibles au domaine.
- Généralisation de domaine (Domain Generalization) : en disposant uniquement de données de plusieurs domaines sources, sans données du domaine cible, on exploite l'entraînement multi-domaines, la randomisation de style, la perturbation de caractéristiques, le méta-apprentissage, etc., pour exposer le modèle dès l'entraînement à une diversité de distributions aussi large que possible, améliorant ainsi sa capacité de généralisation à de nouveaux domaines inconnus.
- Modèles de détection universels / Foundation : en pré-entraînant le backbone et la tête de détection sur des données à très grande échelle, multi-sources et multi-styles (incluant images naturelles, trames vidéo, données synthétiques, données intermodales, etc.), puis en effectuant un fine-tuning léger sur le scénario métier spécifique, on obtient une robustesse inter-domaines supérieure à celle d'un « entraînement mono-domaine ».
Ces mécanismes de domaine ouvert se combinent souvent avec les capacités de vocabulaire ouvert / monde ouvert : un système de détection universel tourné vers le monde réel doit à la fois comprendre les descriptions de catégories en langage naturel fournies par l'utilisateur (vocabulaire ouvert), donner un jugement « inconnu » raisonnable sur les cibles nouvellement apparues et les assimiler progressivement (monde ouvert), et maintenir ses performances à travers différents pays, dispositifs, conditions météorologiques et styles (domaine ouvert). En ingénierie de mise en production, ces trois aspects ne sont pas des directions de recherche isolées, mais constituent ensemble la combinaison de capacités clés pour passer du « benchmark fermé » à l'« utilisabilité en monde ouvert ».## 2.7 Vision–Language Tasks
Les sections précédentes étaient principalement centrées sur la « vision unimodale » : l'entrée est une image, la sortie est une boîte de détection, un masque de segmentation, une étiquette de classe ou un score de qualité. Or, dans de nombreuses applications réelles, l'information visuelle n'est pas isolée — une image est souvent accompagnée d'un titre, d'une légende, d'un dialogue ou d'une requête de recherche ; l'utilisateur souhaite savoir « ce que raconte l'image » ou « si cette image correspond à cette phrase ». Les tâches vision–langage répondent précisément à ce type de problème : elles prennent une image + du texte en entrée ou en sortie, et grâce à un alignement intermodal et une modélisation conjointe, permettent au système de « décrire une image en langage naturel », « répondre à des questions sur une image », « trouver une image par le texte / trouver du texte par l'image ».
Du point de vue produit, les modèles vision–langage (VLM) constituent la capacité centrale des systèmes multimodaux : les moteurs de recherche s'appuient sur eux pour la « recherche d'images par texte / recherche de texte par image » ; les plateformes de contenu les utilisent pour l'illustration intelligente, la vérification publicitaire et le contrôle de cohérence texte–image ; les assistants multimodaux en font leur capacité fondamentale pour « dialoguer à propos d'une image » ou « poser des questions sur un document / une capture d'écran ». Nous abordons ci-dessous cette couche sous trois angles — scénarios, principes et modèles — puis nous détaillerons dans les sous-sections suivantes la description d'images, la réponse visuelle aux questions et la recherche texte–image.
- Scénarios
- Description d'images (Image Captioning) : générer automatiquement une ou deux phrases en langage naturel pour décrire une image, utilisée pour l'accessibilité (lecture d'écran), les légendes intelligentes d'albums photo et l'enrichissement des index de recherche.
- Réponse visuelle aux questions (VQA) : l'utilisateur pose une question en langage naturel à propos d'une image (« Que tient cette personne ? », « Quel est le numéro de plaque d'immatriculation ? »), et le système fournit une réponse précise, utile pour l'éducation, l'aide à la décision et les assistants multimodaux.
- Recherche cross-modale (Cross‑modal Retrieval) : rechercher des images pertinentes à partir d'un texte (Text‑to‑Image), rechercher du texte pertinent à partir d'une image (Image‑to‑Text), pour alimenter la recherche « par texte / par image », la sélection créative d'images et la vérification des publicités.
- Cohérence et vérification texte–image : déterminer si une image correspond à son titre / slogan publicitaire, s'il existe des risques de « discordance texte–image » ou de « description trompeuse », utilisé pour la modération de contenu et la sécurité de marque.
- Principes La question centrale est : comment projeter l'image et le texte dans un même espace sémantique et y réaliser l'alignement et le raisonnement :
- Alignement intermodal : grâce à des encodeurs d'image et de texte entraînés conjointement, les paires « image–texte » correspondantes sont rapprochées dans l'espace de représentation, tandis que les paires non pertinentes sont éloignées (exemple typique : CLIP) ; cela fournit la base pour la recherche et la correspondance.
- Compréhension et génération conjointes : en s'appuyant sur les représentations alignées, l'attention intermodale est introduite pour permettre au modèle de langage de générer du texte (description d'images), de raisonner et de répondre à des questions (VQA) tout en « regardant » les caractéristiques de l'image.
- Prompting et instruction : utiliser des instructions en langage naturel pour décrire de manière unifiée diverses tâches vision–langage (« rédige une légende pour cette image », « réponds à la question sur cette image », « détermine si ce texte décrit l'image »), permettant à un seul modèle d'accomplir plusieurs tâches via différents prompts.
- Modèles Les modèles vision–langage dominants se répartissent globalement en deux catégories : les VLM par apprentissage contrastif et les grands modèles multimodaux génératifs :
- Apprentissage contrastif : CLIP, ALIGN, etc., encodent séparément l'image et le texte en vecteurs, et grâce à un entraînement à grande échelle sur des paires image–texte, excellent dans les tâches de recherche et de correspondance ; ils constituent la base de la « recherche d'images par texte / de texte par image ».
- Modèles vision–langage génératifs : BLIP / BLIP‑2, Flamingo, Kosmos, LLaVA, etc., connectent un encodeur visuel à un grand modèle de langage (LLM) et, grâce à l'attention intermodale et au fine-tuning par instructions, prennent en charge des tâches complexes telles que la description d'images, le VQA et le dialogue multi-tours.
- Grands modèles multimodaux généralistes : tels que GPT‑4.1 with Vision, Gemini 1.5, etc., unifient davantage la vision avec d'autres modalités (voix, code, etc.) au sein d'un seul grand modèle, offrant via une interface unifiée des capacités de recherche, de réponse aux questions, de raisonnement et de génération.
Dans l'ensemble, les tâches vision–langage marquent le moment où « la vision cesse d'être un canal perceptif isolé » pour participer, avec le langage, à un niveau supérieur de représentation des connaissances et de raisonnement. Ci-dessous, nous développons deux axes — description d'images et réponse visuelle aux questions d'une part, recherche texte–image et alignement intermodal d'autre part (regroupés ici en deux sous-sections pour des raisons de contenu).
2.7.1 Description d'images et réponse visuelle aux questions : de « décrire une image » à « raisonner sur une image »
L'objectif de la description d'images (Image Captioning) est de prendre une image en entrée et de produire une description en langage naturel, par exemple « une petite fille fait voler un cerf-volant sur une pelouse ». L'approche traditionnelle utilise généralement une structure « CNN + RNN » : un réseau convolutif extrait les caractéristiques globales de l'image, puis un LSTM/GRU génère la description mot par mot ; avec l'émergence des Transformers et des VLM pré-entraînés, le paradigme dominant s'oriente progressivement vers une structure « encodeur d'image + décodeur de texte », comme BLIP / BLIP‑2, ViT + GPT, etc. Pour l'entraînement, les modèles sont généralement entraînés en auto-régression sur de grands volumes de paires image–texte, parfois avec de l'apprentissage par renforcement ou une perte contrastive pour optimiser la diversité et la justesse des descriptions. Au niveau produit, la description d'images est largement utilisée pour l'accessibilité (génération de texte alternatif pour les lecteurs d'écran destinés aux malvoyants), la légende automatique dans les albums intelligents, et l'enrichissement des index textuels pour les systèmes de recherche.
La réponse visuelle aux questions (VQA) introduit quant à elle l'interaction humaine : l'entrée du modèle n'est plus « image + prompt vide », mais « image + question », et la sortie est une réponse courte ou une explication en langage naturel. Comparée à la description d'images, la VQA met davantage l'accent sur la contrôlabilité et la capacité de raisonnement : la question peut porter sur un détail local (« De quelle couleur est le chapeau de l'homme ? »), une relation (« Quelle voiture est la plus proche du carrefour ? »), un comptage (« Combien de chiens y a-t-il ? »), voire nécessiter des connaissances externes (« À quelle cuisine appartient ce plat ? »). Les premiers modèles de VQA utilisaient généralement un encodeur d'image + un encodeur de question + un module de fusion (comme le bilinear pooling, l'attention) + une tête de classification, produisant une réponse dans un vocabulaire limité ; les grands modèles multimodaux modernes utilisent directement un encodeur d'image + un LLM, générant du texte en langage naturel tout en « regardant » l'image, avec un avantage net sur les réponses ouvertes et le dialogue multi-tours.
Dans un cadre VLM unifié, les deux tâches peuvent être considérées comme des « modèles de prompt » différents :
- Captioning :
<image> + "Describe this image in one sentence."→ texte ; - VQA :
<image> + "Q: ... A:"→ texte.
Grâce au fine-tuning par instructions (Instruction Tuning), un même grand modèle multimodal peut prendre en charge à la fois la description, la réponse aux questions, l'explication, l'étiquetage et bien d'autres tâches — c'est aussi l'approche d'ingénierie fondamentale des produits VLM modernes (assistants multimodaux, robots de questions-réponses sur images, etc.).
2.7.2 Recherche texte–image et alignement intermodal : recherche d'images par texte et recherche de texte par image
La recherche cross-modale (Cross‑modal Retrieval) répond à un autre besoin fréquent : étant donné un texte, trouver les images correspondantes (Text‑to‑Image Retrieval) ; ou étant donné une image, trouver les descriptions textuelles, fiches produits, articles d'actualité, etc., associés (Image‑to‑Text Retrieval). Ces capacités constituent le cœur de produits tels que la « recherche d'images par texte / de texte par image », la « recherche de produits par image » ou l'« illustration d'articles par image ».
La technologie centrale est l'alignement intermodal : des modèles comme CLIP utilisent des encodeurs distincts pour l'image et le texte (par exemple ViT et un encodeur de texte Transformer), entraînés par apprentissage contrastif sur des données massives de paires image–texte :
- Pour une même paire (image, texte), leurs vecteurs sont rapprochés dans l'espace de représentation (embedding) ;
- Pour les paires image–texte non correspondantes, leurs vecteurs sont éloignés.
Une fois l'entraînement terminé, il suffit d'encoder toutes les images et tous les textes en vecteurs pour effectuer une correspondance rapide dans l'espace partagé via la recherche vectorielle (recherche des plus proches voisins) :
- Text‑to‑Image : texte → vecteur de texte → vecteurs d'image les plus proches ;
- Image‑to‑Text : image → vecteur d'image → vecteurs de texte les plus proches.
En pratique ingénierie, ces modèles adoptent généralement une structure en deux étapes :
- Première étape : un double encodeur (Bi‑Encoder) léger et rapide, comme CLIP, effectue une recherche grossière pour filtrer rapidement un petit sous-ensemble de candidats dans une bibliothèque de centaines de millions d'images ;
- Deuxième étape : un encodeur croisé (Cross‑Encoder) plus puissant ou un grand modèle multimodal peut être utilisé pour un réordonnancement et un reclassement fins des candidats, afin d'améliorer la pertinence et la robustesse.
Côté produit, la recherche texte–image et l'alignement intermodal sont largement utilisés pour : la recherche d'images, la recherche publicitaire (trouver l'image appropriée à partir du texte d'une annonce), la vérification de conformité (contrôler la cohérence entre le texte et l'image d'une publicité), la recommandation de contenu (recommander des images / vidéos pertinentes à un utilisateur en fonction de son historique de lecture de textes), etc. Avec l'essor des grands modèles multimodaux, ces capacités de recherche sont progressivement intégrées dans des cadres multimodaux plus larges, offrant une interface unifiée sous la forme « instruction en langage naturel + mémoire / base vectorielle multimodale ».## 2.8 Reconnaissance optique de caractères (OCR)
Dans de nombreux secteurs d’activité, les informations les plus importantes ne se trouvent ni dans les « objets et scènes » d’une image, ni dans une description en langage naturel de celle-ci, mais directement dans le texte inscrit sur l’image : clauses contractuelles, montants de factures, noms de panneaux de signalisation, relevés de compteurs, messages d’erreur dans des captures d’écran, etc. La reconnaissance optique de caractères (OCR) englobe les tâches de compréhension structurée autour du couple « image + mise en page documentaire » : détecter et reconnaître automatiquement le contenu textuel à partir d’entrées visuelles complexes, comprendre la disposition et la structure du document, afin de permettre la recherche, l’analyse statistique, la saisie automatisée et le questionnement intelligent.
Du point de vue produit, l’OCR est le pont essentiel qui « transforme l’information papier/image en texte exploitable par la machine », et constitue l’infrastructure de la bureautique électronique, automatisée et intelligente : la revue de contrats, la comptabilisation des factures, la numérisation des archives administratives et d’entreprise, la conversion PDF vers Word dans les suites bureautiques, les assistants de questions-réponses sur documents, etc., reposent tous sur les capacités OCR. Nous organisons ci-dessous le système OCR selon trois axes — scénarios, principes et modèles — et détaillerons les directions clés dans les sous-sections suivantes.
- Scénarios
- Reconnaissance de texte dans la scène : enseignes de magasins dans les rues, panneaux de signalisation, panneaux publicitaires, textes d’emballage, etc., pour la navigation, la recherche, l’analyse retail et la vérification de conformité.
- OCR documentaire : reconnaissance et structuration de documents numérisés, fax, PDF, photos de contrats/factures/rapports, etc., afin de les restituer sous forme de texte éditable.
- Scénarios spécialisés : reconnaissance de plaques d’immatriculation, lecture de compteurs (électriques, d’eau, de gaz), extraction de texte de captures d’écran, reconnaissance de copies d’examen/formulaires, etc.
- Compréhension de documents : dans des documents longs à la mise en page complexe, extraction de titres, paragraphes, tableaux, annotations et autres structures, posant les bases pour la recherche, le résumé et les questions-réponses.
- Principes Le pipeline OCR se décompose généralement en plusieurs étapes clés :
- Détection de texte : détecter toutes les zones de texte (lignes ou blocs de texte) dans l’image, en produisant des boîtes englobantes (horizontales ou polygones à quatre points), servant d’entrée à l’étape de reconnaissance.
- Reconnaissance de texte : effectuer une reconnaissance séquentielle sur chaque zone de texte détectée, en convertissant la séquence de pixels en une séquence de caractères (caractères chinois, anglais, chiffres, symboles, etc.).
- Analyse de mise en page (Layout Analysis) : dans les scénarios documentaires, identifier le rôle de chaque région (titre, corps de texte, image, tableau, en-tête/pied de page, etc.) et reconstituer l’ordre de lecture ainsi que la structure hiérarchique.
- Reconnaissance de la structure des tableaux : effectuer le partitionnement en lignes et colonnes, l’analyse des bordures de cellules, la récupération des cellules fusionnées, et reconstruire la structure logique du tableau.
- Questions-réponses sur documents (DocVQA) : en s’appuyant sur l’OCR et la compréhension de la mise en page, permettre au modèle de répondre à des questions telles que « Quelle est la date de paiement de ce contrat ? » ou « Quel est le montant de cette facture ? », qui exigent un raisonnement multi-régions et multi-étapes.
- Modèles En ingénierie, on combine couramment des « modules OCR spécialisés + modèles de compréhension documentaire + grands modèles multimodaux » :
- Détection et reconnaissance de texte :
- Détection : EAST, DBNet/DBNet++, etc., méthodes basées sur la segmentation ou l’apprentissage de contours, capables de traiter les textes courbes et les arrière-plans complexes ;
- Reconnaissance : CRNN, RARE, SAR, etc., modèles séquentiels (CNN + RNN/Attention + CTC ou décodage autorégressif), prenant en charge plusieurs langues et polices de caractères.
- Compréhension de la mise en page et de la structure documentaire :
- LayoutLM / LayoutLMv2/v3, DocFormer, etc., qui encodent conjointement le contenu textuel (tokens), l’information de position (boîtes englobantes) et les caractéristiques visuelles ;
- Donut, etc., modèles de « compréhension documentaire de bout en bout », produisant directement une sortie structurée (JSON / Markdown) à partir de l’image, estompant les frontières de l’OCR traditionnel.
- Questions-réponses sur documents et compréhension multimodale :
- Au-dessus des modèles de mise en page, ajout de têtes de tâche pour le DocVQA ;
- Ou utilisation directe de grands modèles multimodaux (VLM) pour lire les images de documents, répondre aux questions et résumer en langage naturel, tout en exploitant implicitement les capacités OCR.
- Détection et reconnaissance de texte :
Dans l’ensemble, l’OCR est passé d’une simple « reconnaissance de caractères » à un système complet de compréhension documentaire couvrant texte + mise en page + structure + questions-réponses, et constitue un pilier essentiel de la numérisation des entreprises, de la gestion des archives administratives et de la bureautique intelligente. Ci-dessous, nous développons trois directions : détection et reconnaissance de texte, analyse de la mise en page documentaire et de la structure des tableaux, et questions-réponses sur documents et DocVQA multimodal.
2.8.1 Détection et reconnaissance de texte : des pixels au texte exploitable
La première étape de l’OCR est la détection de texte : trouver toutes les zones contenant du texte dans l’image d’entrée. Le texte de scène/street view est confronté à des défis tels que la diversité des polices, l’inclinaison et la distorsion, l’éclairage complexe et les interférences importantes de l’arrière-plan ; le scénario documentaire met quant à lui l’accent sur la robustesse face aux textes denses et aux mises en page multi-colonnes. Les méthodes comme EAST et DBNet transforment le problème de détection en une « segmentation pixel + apprentissage de contours », prédisant la probabilité de texte et les paramètres géométriques sur la carte de caractéristiques, puis obtenant par post-traitement des boîtes de texte précises (rectangles horizontaux ou polygones/quadrilatères arbitraires), alliant précision et rapidité.
La reconnaissance de texte consiste à découper chaque zone de texte détectée et à la convertir en une séquence de caractères. L’approche classique est représentée par CRNN : extraction de caractéristiques par CNN, modélisation séquentielle par RNN ou Transformer, puis décodage en séquence de caractères par CTC ou par attention. Pour les textes de longueur variable, les textes courbes et les langues complexes (mélange chinois-anglais, multilinguisme), le modèle de reconnaissance doit progresser à la fois sur la modélisation des caractéristiques visuelles et sur la modélisation linguistique des caractères. Des méthodes comme RARE et SAR introduisent des réseaux de transformation spatiale (STN) ou des mécanismes d’alignement par attention afin de corriger les distorsions géométriques et d’améliorer l’adaptation aux mises en page complexes.
Dans les systèmes d’ingénierie, la détection et la reconnaissance forment généralement deux services découplés constituant un pipeline OCR : la détection en amont divise l’image en plusieurs lignes/blocs de texte, et la reconnaissance en aval effectue la reconnaissance de caractères sur chaque bloc, avec possibilité d’ajouter un modèle de langage pour la correction d’erreurs (correction orthographique, vérification des chiffres/montants). Pour les scénarios spécifiques comme les plaques d’immatriculation ou la lecture de compteurs, des modèles de détection/reconnaissance spécialement affinés sont utilisés, tirant parti des a priori du domaine (police fixe, jeu de caractères limité) pour obtenir une précision supérieure et une latence réduite.
2.8.2 Analyse de la mise en page documentaire et de la structure des tableaux : restituer « la forme du document »
Reconnaître simplement le texte ne suffit pas, en particulier dans les scénarios de documents longs, rapports, contrats et reçus, où la structure de mise en page détermine souvent le sens et l’importance de l’information : la hiérarchie entre titres et corps de texte, la position des figures et de leurs légendes, le rôle des en-têtes et pieds de page, l’ordre logique des segments textuels à l’intérieur et à l’extérieur des tableaux, etc. L’objectif de l’analyse de mise en page documentaire (Document Layout Analysis) est d’identifier sur une page bidimensionnelle le rôle et les frontières des différentes régions, et de reconstituer un ordre de lecture et une structure hiérarchique cohérents.
Les modèles comme LayoutLM / LayoutLMv2/v3, DocFormer, etc., encodent conjointement le contenu de chaque token textuel (embedding textuel), sa position spatiale (coordonnées de la boîte englobante) et les caractéristiques visuelles locales (issues de CNN/ViT), en modélisant les relations sémantico-spatiales entre tokens via un Transformer. Entraînés sur des jeux de données annotés en mise en page, ces modèles apprennent à distinguer différents types de régions — « titre / paragraphe / liste / tableau / légende / en-tête / pied de page » — et produisent les étiquettes et niveaux hiérarchiques correspondants. Ces modèles servent généralement de « couche intermédiaire », fournissant un squelette documentaire structuré pour les systèmes de revue de contrats, d’analyse de rapports et les plateformes de numérisation d’archives.
La reconnaissance de la structure des tableaux (Table Structure Recognition) est une branche particulièrement cruciale de l’analyse de mise en page : elle doit non seulement détecter la zone du tableau, mais aussi analyser plus finement les bordures de lignes et colonnes, les coordonnées des cellules et les cellules fusionnées, pour finalement reconstruire un tableau logique (généralement représenté en HTML, en tableau Markdown, ou en JSON structuré avec coordonnées). Les méthodes incluent :
- Approche par règles/vision : utiliser la détection de lignes, les réseaux de segmentation, la détection d’objets, etc., pour extraire les lignes du tableau et les régions de cellules, puis construire une topologie ;
- Approche par Transformer : encoder les blocs de texte et les informations géométriques de la zone du tableau en une séquence, et prédire directement la structure des cellules et leurs relations.
Côté produit, ces capacités soutiennent des scénarios à haute valeur tels que « PDF vers Word/Excel », « saisie structurée de reçus/factures », « analyse de rapports et extraction d’indicateurs », et constituent des composants clés de l’automatisation bureautique pour les administrations et les entreprises.
2.8.3 Questions-réponses sur documents et DocVQA : de la « lecture de documents » à « l’interrogation de documents »
Lorsque les capacités d’OCR et d’analyse de mise en page sont suffisamment performantes, l’étape suivante naturelle est de ne plus demander aux utilisateurs de parcourir eux-mêmes les documents, mais de pouvoir directement « interroger le document ». C’est ce qu’on appelle le questions-réponses sur documents (DocVQA) : le modèle répond à des questions sur des documents complexes tels que contrats, rapports, reçus, manuels, par exemple « Quelle est la date d’entrée en vigueur de ce contrat ? », « Quel est le bénéfice net du T4 2023 dans ce rapport ? », « Quel est le nom de l’acheteur sur cette facture ? ».
Les systèmes DocVQA traditionnels sont généralement construits selon le schéma « OCR + modèle de mise en page + tête de QA » :
- D’abord, extraire le texte et les coordonnées via l’OCR ;
- Ensuite, modéliser les relations trimodales texte–mise en page–visuel avec LayoutLM / DocFormer, etc. ;
- Enfin, superposer une tête de tâche (classification / extraction / prédiction de span) sur cette représentation, pour localiser la réponse ou les passages pertinents dans le document en fonction de la question.
Avec le développement des grands modèles multimodaux, de plus en plus de systèmes utilisent directement une « image de document + question » comme entrée, en laissant un VLM ou un LLM multimodal générer directement la réponse ou une explication avec citations. Dans cette architecture, les capacités d’OCR, de mise en page, de compréhension sémantique et de raisonnement collaborent de bout en bout au sein du modèle : celui-ci peut à la fois percevoir la mise en page originale et les indices visuels, tout en exploitant la connaissance du monde en langage naturel et les schémas de raisonnement pour répondre à des questions complexes.
En termes de forme produit, le DocVQA apparaît généralement sous la forme d’« assistants de revue de contrats », de « questions-réponses sur factures/rapports », de « questions-réponses intelligentes sur documents longs », aidant les utilisateurs à localiser rapidement des informations clés dans de grands volumes de documents, à générer automatiquement des résumés, à comparer des clauses, etc., réduisant ainsi considérablement la charge de la revue manuelle et de la recherche d’information.## 2.9 Génération et édition d’images (Image Generation & Editing)
Les capacités visuelles présentées précédemment sont pour la plupart « discriminatives » : une image en entrée produit une étiquette, une boîte englobante, un masque ou un texte en sortie. Cependant, une autre branche s’est rapidement développée ces dernières années : la vision générative. Le modèle ne se contente plus de comprendre l’image, il la crée ou la modifie, en produisant un contenu visuel de haute qualité dans des styles variés à partir de conditions textuelles ou imagées. La génération et l’édition d’images constitue la capacité centrale de cette orientation, qui alimente un grand nombre de produits, des plateformes de dessin AIGC aux outils intelligents de retouche et d’effets spéciaux.
Du point de vue métier, la vision générative est passée de la « démonstration technique » à un véritable outil de productivité : les designers l’utilisent pour des esquisses d’inspiration et des ébauches détaillées ; les équipes marketing pour produire en masse des affiches et des éléments publicitaires ; les utilisateurs ordinaires pour créer des avatars, des illustrations, des fonds d’écran ; les créateurs vidéo pour le détourage, le remplacement d’arrière-plan et les effets spéciaux. Nous organisons ci-dessous cette couche selon trois axes — scénarios, principes et modèles — et détaillerons dans les sous-sections suivantes la génération d’images à partir de texte, l’édition image-à-image et les capacités d’édition.
- Scénarios
- Génération d’image à partir de texte : l’utilisateur saisit une description (« une ville nocturne de style cyberpunk ») et le système génère automatiquement plusieurs images conformes à la description, avec possibilité de sélection et de modifications itératives.
- Transfert de style et traduction d’image : transformation d’une photo réelle en style anime / croquis / peinture à l’huile / aquarelle, ou mappage entre différents domaines (jour ↔ nuit, été ↔ hiver).
- Retouche conditionnelle et extension : repeindre une zone locale de l’image d’origine (Inpainting), étendre le cadre au-delà de l’image (Outpainting), pour corriger des défauts, supprimer/ajouter des objets, élargir la composition.
- Édition pilotée par texte : modifier l’image par des instructions en langage naturel (« transforme le ciel en coucher de soleil », « fais de cette voiture une voiture de sport rouge »), sans que l’utilisateur ait besoin de maîtriser des logiciels complexes de retouche d’image.
- Principes Les modèles de vision générative réalisent la génération et l’édition principalement en apprenant la « distribution des images » et le « contrôle conditionnel » :
- Modélisation de distribution : les GAN, les modèles de diffusion (Diffusion), le Flow Matching, etc. apprennent une distribution de haute dimension à partir d’un grand nombre d’images, permettant au modèle d’« échantillonner » progressivement une image réaliste à partir d’un bruit aléatoire.
- Génération conditionnelle : en plus de la modélisation pure de la distribution des images, on introduit des conditions telles que texte / croquis / carte de segmentation / points clés / carte de profondeur, de sorte que le processus de génération soit contraint par des signaux externes (Text‑to‑Image, Image‑to‑Image, ControlNet, etc.).
- Édition contrôlable : dans l’espace latent d’une image existante, on guide et modifie des caractéristiques locales via du texte ou des masques locaux, afin de réaliser des retouches locales, des changements de style, des ajustements de composition, etc.
- Modèles Les modèles actuels de génération et d’édition d’images sont majoritairement basés sur le paradigme modèle de diffusion + contrôle conditionnel :
- Série GAN : StyleGAN et autres excellent dans le contrôle des visages haute résolution et du style, mais leur entraînement est instable et ils peinent à couvrir des distributions multimodales complexes.
- Modèles de diffusion : Stable Diffusion, Imagen, série DALL·E, etc., qui échantillonnent via un processus d’« ajout de bruit direct + débruitage inverse », alliant qualité et diversité ; c’est l’approche dominante actuelle en Text‑to‑Image.
- Génération et édition contrôlables : ControlNet, T2I‑Adapter, etc., qui superposent des canaux de condition (contours, posture, segmentation, etc.) sur le modèle de diffusion de base pour un contrôle précis ; combinés au guidage textuel, l’Inpainting/Outpainting permet l’édition locale et l’extension d’image.
- Flow Matching et modèles génératifs de nouvelle génération : ils transforment la distribution de bruit en distribution d’image en apprenant un champ de flux continu, explorant un nouvel équilibre entre efficacité, contrôlabilité et stabilité.
Au niveau produit, ces technologies se présentent aux utilisateurs sous des formes telles que Jimeng, les modèles d’image Alibaba Qwen, FLUX, OpenAI ou Gemini NanoBanana, l’écosystème Stable Diffusion, le Remplissage génératif de Photoshop, Canva AI, le détourage intelligent et les effets spéciaux de Jianying/CapCut, passant progressivement du statut de « jouet » à celui de maillon officiel de la chaîne de production de contenu. Nous développons ci-dessous trois axes : la génération d’image à partir de texte, l’édition image-à-image et l’édition pilotée par texte.
2.9.1 Génération d’image à partir de texte (Text‑to‑Image) : d’une phrase à une image
La tâche centrale de la génération d’image à partir de texte (Text‑to‑Image) consiste à produire, à partir d’une description en langage naturel, une image dont la sémantique et le style correspondent le plus possible à cette description. Les modèles modernes de Text‑to‑Image reposent principalement sur une architecture de diffusion :
- D’abord, un encodeur de texte (comme CLIP Text Encoder ou T5/LLM) encode le texte d’entrée en un vecteur de condition ;
- Ensuite, dans l’espace latent de l’image, en partant d’un état de bruit élevé, on procède à un échantillonnage par débruitage inverse en plusieurs étapes, en utilisant à chaque étape la condition textuelle pour guider la direction de la génération ;
- On obtient finalement une image haute résolution conforme à la description, qui peut être ultérieurement agrandie ou post‑traitée.
Des méthodes comme Stable Diffusion, Imagen et la série DALL·E sont entraînées sur des paires image‑texte à grande échelle, ce qui permet au modèle de maîtriser à la fois le spectre visuel (formes, textures, composition, éclairage) et d’acquérir un certain degré d’alignement langage‑vision (compréhension de descriptions complexes comme le « style », le « matériau », la « composition »). Au niveau produit, cette capacité permet à « ceux qui ne savent pas dessiner de créer des images » : l’utilisateur décrit simplement son idée en langage naturel, et le système propose plusieurs réalisations visuelles, avec possibilité d’exploration itérative et de raffinement.
Les modèles Text‑to‑Image prennent généralement en charge des sorties multi‑styles et multi‑résolutions : en ajoutant des tokens de style, des conditions de taille, etc. lors de l’entraînement ou de l’inférence, un même modèle peut basculer entre des styles tels que « photo réaliste », « illustration vectorielle plane », « rendu 3D ». Les techniques couramment utilisées en ingénierie incluent :
- L’ingénierie de prompt (Prompt Engineering), pour affiner et stabiliser le style de sortie ;
- Les techniques de fine‑tuning léger comme LoRA / DreamBooth, pour adapter rapidement un modèle générique à un personnage, une IP ou un style de marque spécifique.
2.9.2 Image‑à‑image (Image‑to‑Image) : traduction, transfert de style et retouche locale
La tâche d’Image‑to‑Image consiste à produire, à partir d’une image d’entrée, une autre version « contrainte par celle‑ci » : elle conserve la structure ou le contenu global de l’image d’origine tout en réalisant une transformation ou une amélioration. Les formes typiques incluent :
- Traduction d’image / transfert de style : mappage entre différents domaines visuels, par exemple « photo → anime », « été → hiver », « jour → nuit », « croquis → image couleur ». Les premières approches reposaient surtout sur les GAN (CycleGAN, Pix2Pix, etc.), mais les modèles de diffusion peuvent désormais accomplir ces tâches sous contrôle conditionnel.
- Génération conditionnelle : en utilisant des croquis, des cartes de segmentation, des cartes de profondeur, des cartes de contours, etc. comme conditions, des modules tels que ControlNet, T2I‑Adapter guident le processus de diffusion, de sorte que l’image générée respecte strictement les contraintes géométriques/de disposition tout en laissant libre cours à la texture, à l’éclairage et au style.
- Inpainting / Outpainting : délimiter une zone de l’image d’origine à repeindre (inpainting), ou étendre le contenu au‑delà du cadre (outpainting), pour réaliser des opérations de « remplissage de trous » ou d’« extension d’image ».
L’enjeu clé de ce type de tâches est de créer du nouveau contenu tout en respectant les contraintes. Les modèles de diffusion excellent sur ce point : en inpainting, le modèle n’échantillonne que la zone masquée tout en préservant l’image d’origine dans les zones non masquées ; grâce à la compréhension sémantique et aux informations contextuelles, le nouveau contenu se fond naturellement avec la zone environnante en termes de style et d’éclairage. Pour le transfert de style, le modèle préserve la structure d’entrée tout en échantillonnant les textures et les couleurs de la distribution du style cible, réalisant ainsi un « changement d’apparence sans changement de structure ».
Dans les produits, la capacité Image‑to‑Image alimente un grand nombre d’outils créatifs : filtres de style, transformation en bande dessinée, remplacement de ciel en un clic, embellissement automatique, restauration de photos anciennes, retouche locale, etc., généralement présentés aux utilisateurs via des interfaces hautement visuelles.
2.9.3 Édition d’image pilotée par texte : le langage naturel comme « pinceau »
Dans les logiciels de retouche d’image traditionnels, l’utilisateur doit maîtriser tout un ensemble de concepts professionnels tels que les calques, les masques, les sélections, les filtres ; l’édition d’image pilotée par texte (Text‑guided Editing) tente de remplacer la plupart de ces opérations spécialisées par le langage naturel :
- « Remplace l’arrière‑plan par la ligne d’horizon d’une ville nocturne » ;
- « Fais porter à cette personne un costume noir » ;
- « Transforme cette voiture en voiture de sport bleue, avec un effet de flou de mouvement ».
Techniquement, l’édition pilotée par texte s’appuie généralement sur les modèles de diffusion Text‑to‑Image, et se réalise de plusieurs manières :
- Recherche ou échantillonnage dans l’espace latent proche de l’image d’origine, de sorte que l’image éditée conserve une forte similarité avec l’original et que seules les zones concernées par le texte soient modifiées localement ;
- Utilisation d’un masque explicite (zone délimitée par l’utilisateur) pour restreindre la portée de l’édition à une région spécifique (c’est ce que font de nombreux outils avec la fonction « sélectionner une zone puis saisir une instruction textuelle ») ;
- Introduction de modules de « contrôle d’instruction » (comme ControlNet, des tokens de contrôle apprenables) pour renforcer la contrôlabilité et la stabilité de la réponse du modèle aux demandes d’édition.
Des produits comme Jimeng, FLUX, les modèles d’image Alibaba Qwen, l’écosystème Stable Diffusion et Canva AI proposent des capacités similaires : l’utilisateur peut réaliser des montages complexes avec un simple texte et peu d’interactions. Pour les utilisateurs professionnels, cela devient un « assistant intelligent » qui accélère le flux créatif ; pour les utilisateurs ordinaires, cela abaisse considérablement le seuil de la retouche d’image.## 2.10 Évaluation de la Qualité d'Image (Image Quality Assessment, IQA)
Dans les tâches de rehaussement visuel bas niveau, de codage par compression, de génération et d'édition d'images, nous avons souvent besoin de répondre à une question en apparence subjective : « Cette image est-elle de bonne qualité ? » . L'inspection manuelle n'est clairement pas extensible à grande échelle, et les métriques traditionnelles comme le PSNR sont souvent en décalage avec la perception subjective humaine. L'objectif de l'évaluation de la qualité d'image (Image Quality Assessment, IQA) est de mettre en place un mécanisme automatisé qui attribue un score ou un classement à la qualité subjective/objective d'une image, devenant ainsi un maillon clé entre la « sortie des algorithmes bas niveau » et « l'expérience utilisateur réelle ».
Du point de vue système, l'IQA joue le rôle de « gardien » et de « référence de réglage » dans de nombreux pipelines : les plateformes e-commerce et de contenu l'utilisent pour filtrer les images téléchargées floues, bruyantes ou excessivement compressées ; les appareils photo et galeries de smartphones s'en servent pour sélectionner la « meilleure photo » parmi une rafale ; les services cloud de rehaussement et de compression l'emploient pour comparer les résultats avant/après traitement afin d'orienter l'itération des modèles. Nous abordons ci-dessous l'IQA sous trois dimensions : scénarios, principes et modèles, puis nous détaillons les types d'évaluation, les métriques et les paradigmes d'apprentissage dans les sous-sections suivantes.
- Scénarios
- Contrôle qualité et modération des téléchargements : attribuer un score de qualité aux images/vidéos téléchargées par les utilisateurs, filtrant les contenus gravement flous, anormalement exposés, manifestement bruyants ou présentant des artefacts de compression sévères.
- Sélection intelligente et dédoublonnage : dans les galeries de smartphones et applications photo, choisir parmi plusieurs photos similaires la version offrant la meilleure netteté, expression et composition, tout en identifiant les images de mauvaise qualité ou redondantes à nettoyer.
- Évaluation des algorithmes de rehaussement et de compression : lors de tests A/B d'algorithmes de rehaussement, de débruitage, de super-résolution ou de codage/décodage, utiliser les métriques IQA pour mesurer objectivement « quelle stratégie est la meilleure », afin d'aider à la recherche de paramètres et à la sélection de modèles.
- Sélection automatique d'affiches et de vignettes : choisir automatiquement les trames ayant la meilleure qualité visuelle et le plus fort attrait dans une vidéo ou une collection d'images comme couverture ou candidat pour une affiche.
- Principes Le cœur de l'IQA consiste à caractériser la qualité d'une image selon deux dimensions : le degré de distorsion par rapport à une image de référence et la qualité perçue subjectivement par l'œil humain :
- IQA avec référence complète (FR‑IQA) : en supposant l'existence d'une image de référence de haute qualité, on compare l'image à évaluer avec la référence pixel par pixel ou au niveau des caractéristiques pour mesurer le degré de distorsion ; utilisé en recherche algorithmique et en évaluation expérimentale.
- IQA sans référence (NR‑IQA / Blind IQA) : plus courant en pratique, il n'y a pas d'image de référence ; la qualité doit être inférée uniquement à partir des caractéristiques statistiques ou profondes d'une seule image, ce qui nécessite que le modèle apprenne à partir d'un grand nombre d'images et de scores subjectifs « quel type d'image l'œil humain préfère ».
- Pseudo-référence / référence sous-échantillonnée : dans certains scénarios, on peut utiliser la version basse résolution avant compression, ou « l'image idéale » prédite par un modèle comme référence approximative, offrant un compromis entre faisabilité et précision d'évaluation.
- Modèles Les modèles IQA se divisent globalement en deux grandes catégories : les métriques traditionnelles à caractéristiques artisanales et la prédiction de qualité par apprentissage profond :
- Métriques traditionnelles :
- FR‑IQA : PSNR, SSIM, MS‑SSIM, FSIM, etc., axées sur la structure, le contraste et l'information de phase, sensibles aux dégradations simples (bruit, flou).
- Métriques perceptuelles : LPIPS, DISTS, etc., mesurent la différence perceptuelle entre images dans l'espace des caractéristiques profondes, offrant une corrélation plus élevée avec la perception subjective humaine.
- IQA sans référence / par apprentissage :
- Méthodes précoces : BRISQUE, NIQE, famille BLIINDS, etc., partant des statistiques de scènes naturelles (NSS) et de caractéristiques artisanales, entraînent des modèles peu profonds pour prédire le score de qualité.
- NR‑IQA profond : RankIQA, DBCNN, HyperIQA, MUSIQ, etc., utilisent directement des CNN / ViT pour extraire des caractéristiques des images et sont entraînés de manière supervisée sur des données MOS (Mean Opinion Score, moyenne des scores subjectifs), de sorte que le score de qualité produit corresponde aussi fidèlement que possible à l'évaluation humaine.
- Représentations pré-entraînées : exploitent les caractéristiques de grands modèles tels que CLIP, ViT comme entrée ou backbone d'un réseau de prédiction de qualité, avec un fine-tuning sur des données MOS limitées, améliorant la capacité de généralisation à des types de distorsion complexes.
- Métriques traditionnelles :
Dans l'ensemble, l'IQA n'est pas une métrique unique où « plus c'est élevé, mieux c'est », mais un système d'évaluation lié à des objectifs métier spécifiques : dans certains scénarios (comme le rehaussement pour la vidéosurveillance), la préservation des détails et l'identifiabilité priment sur le naturel visuel ; sur les plateformes de création de contenu, la perception subjective et les critères esthétiques dominent. Par conséquent, une pratique courante dans l'industrie consiste à partir d'un modèle IQA générique, puis à l'affiner par fine-tuning ou pondération apprise avec un petit volume de données métier, afin de construire un évaluateur de qualité « sensible à la tâche ».
2.10.1 Types d'évaluation : avec référence, sans référence et pseudo-référence
Selon l'existence ou non d'une image de référence de haute qualité, l'IQA se divise en trois catégories : avec référence complète (FR‑IQA), sans référence (NR‑IQA) et pseudo-référence.
En IQA avec référence complète, on suppose l'existence d'une image de référence idéale de haute qualité, l'image à évaluer en étant une version dégradée après compression, transmission ou traitement. Le modèle quantifie le degré de distorsion en comparant les deux images pixel par pixel ou au niveau des caractéristiques. Le PSNR est la mesure la plus simple (basée sur l'erreur quadratique moyenne) ; SSIM, MS‑SSIM, FSIM, etc., prennent également en compte la luminance, le contraste, la structure ou l'information de phase, se rapprochant davantage de la perception humaine dans une certaine mesure. Ces métriques sont très adaptées à l'évaluation des méthodes de codage/décodage, super-résolution, débruitage, etc., durant la phase de développement algorithmique, mais en pratique réelle, l'image de référence fait souvent défaut, ce qui limite les scénarios d'application.
L'IQA sans référence (Blind IQA) est la configuration la plus courante dans les systèmes réels : seule l'image à évaluer est disponible, sans aucune référence. Les premières méthodes sans référence (telles que BRISQUE, NIQE, BLIINDS, etc.) reposent principalement sur les statistiques de scènes naturelles : elles partent de l'hypothèse que les images naturelles de haute qualité présentent une forme stable dans certaines distributions statistiques, et que les distorsions entraînent des changements dans ces caractéristiques statistiques, permettant ainsi d'entraîner un modèle à prédire le score de qualité à partir de ces caractéristiques. À l'ère de l'apprentissage profond, les modèles NR‑IQA utilisent généralement directement des CNN / ViT pour extraire des caractéristiques, puis régressent un score de qualité ou apprennent une relation de classement sur des jeux de données annotés avec des scores subjectifs humains (MOS), leur permettant de couvrir de multiples types de distorsion tels que le bruit, le flou, les artefacts de compression, l'exposition anormale, etc.
L'IQA à pseudo-référence / référence sous-échantillonnée se situe entre les deux : en l'absence de véritable référence de haute qualité, on utilise une version approximative disponible (comme l'image basse résolution avant compression, ou « l'image propre » prédite par un modèle) comme référence pour estimer le degré de dégradation. Cette approche est courante dans la surveillance de la qualité vidéo en ligne et les tâches d'optimisation de codage/décodage, offrant un compromis entre coût et précision.
2.10.2 Métriques et paradigmes d'apprentissage : du PSNR à la prédiction de qualité perceptuelle
Au niveau de la mise en œuvre, l'IQA utilise une variété de métriques et de paradigmes d'apprentissage pour se rapprocher de la perception subjective humaine.
Du côté des métriques traditionnelles :
- Le PSNR est directement basé sur l'erreur au niveau pixel, simple et efficace, mais il pénalise fortement même des changements imperceptibles pour l'œil humain (comme une légère translation ou un filtrage préservant la structure) ;
- SSIM, MS‑SSIM, FSIM, etc., modélisent la similarité des images selon plusieurs dimensions telles que la luminance, le contraste, la structure et la phase, étant plus sensibles aux distorsions structurelles et reflétant dans une certaine mesure la préférence de l'œil humain pour l'information structurelle.
Du côté des métriques perceptuelles : LPIPS, DISTS, etc., calculent les différences vectorielles dans les couches de caractéristiques internes de réseaux profonds pré-entraînés (VGG, AlexNet, ViT, etc.) et les pondèrent selon l'importance des différentes couches, obtenant ainsi une « distance dans l'espace des caractéristiques » qui présente une corrélation plus élevée avec la similarité perceptuelle subjective. Elles sont particulièrement adaptées comme objectif d'entraînement ou métrique d'évaluation pour les tâches génératives (super-résolution, génération, édition), afin de mesurer « à quel point ça ressemble ».
Du côté de la prédiction de qualité par apprentissage, les modèles profonds de NR‑IQA (tels que RankIQA, DBCNN, HyperIQA, MUSIQ, etc.) attribuent directement un score ou un classement aux images :
- Dans les données d'entraînement, chaque image est accompagnée d'un ensemble de scores subjectifs (MOS), servant de supervision pour entraîner un réseau de régression ou de classement de qualité ;
- Du point de vue de la structure des modèles, on utilise principalement CNN/ViT + pooling global + MLP pour produire un score de qualité, ou bien une distribution de qualité dont on prend l'espérance ;
- Certaines méthodes exploitent également l'apprentissage contrastif ou l'apprentissage de classement (pairwise ranking), amenant le modèle à se concentrer davantage sur la relation « relativement meilleur/moins bon » plutôt que sur le score absolu.
Avec la généralisation des modèles visuels pré-entraînés à grande échelle, de plus en plus de méthodes d'IQA adoptent le paradigme « Backbone pré-entraîné + tête légère » : elles exploitent les riches représentations visuelles de modèles comme CLIP ou ViT, et effectuent un fine-tuning sur un volume limité de données MOS, maintenant ainsi une bonne généralisation à travers différents types de distorsion et différents scénarios.
Dans la mise en œuvre industrielle, on combine généralement plusieurs des métriques ci-dessus : par exemple, les métriques FR‑IQA sont utilisées en phase expérimentale pour évaluer les améliorations algorithmiques ; les modèles profonds NR‑IQA sont déployés pour le contrôle qualité en ligne en temps réel ; les métriques perceptuelles servent à l'optimisation interne des tâches génératives. En alignant ces métriques automatiques avec les données utilisateur réelles (taux de clic, taux de complétion, taux de plainte, etc.) via des tests A/B, on construit progressivement un « système de mesure de la qualité perceptuelle » fortement corrélé aux objectifs métier.# 3. Modalité 3D / Spatiale (3D / Spatial / XR)
À mesure que les applications passent des « images/vidéos 2D » à des scénarios tels que la conduite autonome, la robotique, la RA/RV/XR, les systèmes ne se contentent plus de regarder des « pixels 2D », mais doivent comprendre la structure tridimensionnelle du monde réel, ses échelles et ses relations de pose. Ce type de tâches est collectivement appelé modalité 3D / spatiale : il englobe à la fois la modélisation précise de la géométrie et de la topologie, ainsi que la compréhension sémantique, la localisation, la navigation et la génération de contenu dans l'espace 3D. D'un côté, il se connecte à divers capteurs tels que LiDAR, RGB‑D, IMU ; de l'autre, il alimente les modules de perception de conduite autonome, les systèmes de navigation robotique, les modèles d'environnement ARKit/ARCore, les applications de numérisation 3D sur mobile, ainsi que les plateformes de jumeaux numériques.## 3.1 Perception et reconstruction 3D (3D Perception & Reconstruction)
En vision 2D, nous ne voyons que « le monde tel qu'il apparaît sur une photo » ; mais dans des scénarios tels que la conduite autonome, la robotique, la RA/RV, ce qui compte le plus est : la position, la forme et la structure du monde réel dans l'espace 3D. La perception et la reconstruction 3D consistent à récupérer les informations géométriques tridimensionnelles de l'environnement à partir de divers capteurs (caméras, LiDAR, caméras de profondeur, etc.) et à les exprimer sous forme de nuages de points, de voxels, de maillages (Mesh), de champs implicites, etc., fournissant ainsi une base pour la planification de trajectoire, la simulation physique, les jumeaux numériques et la génération de contenu 3D.
Dans la pratique d'ingénierie, cette couche couvre plusieurs directions techniques allant du traitement de nuages de points à la reconstruction géométrique multi-vues, en passant par les champs de radiance neuronaux / rendu par champs neuronaux, correspondant aux modules de perception 3D pour la conduite autonome, à la modélisation d'environnement ARKit/ARCore, aux applications de scan/modélisation 3D sur mobile, ainsi qu'aux plateformes de modélisation de jumeaux numériques urbains/de campus. Nous développons ci-dessous selon trois angles — scénarios, principes et modèles — puis détaillons plusieurs sous-directions clés.
- Scénarios
- Conduite autonome et aide à la conduite : perception des structures 3D des véhicules, piétons, bordures de trottoir, lignes de voie, équipements de circulation, etc., à partir de nuages de points LiDAR embarqués et d'images multi-caméras, pour la planification de trajectoire et les décisions de sécurité.
- Scan d'environnement intérieur/extérieur : utilisation de smartphones/tablettes (lumière structurée / ToF / stéréo) ou de scanners portables pour collecter des données multi-vues et reconstruire en temps réel des modèles 3D de pièces, bâtiments, quartiers, destinés à la modélisation RA, au design d'intérieur et aux jumeaux numériques.
- Jumeaux numériques et BIM : reconstruction d'usines, de campus, de villes réels en modèles 3D haute précision à partir d'images multi-vues et de nuages de points, pour la gestion d'exploitation, la simulation et la visualisation.
- Scan 3D grand public : applications de scan 3D sur mobile, outils « une photo → modèle 3D » en un clic, fournissant la géométrie brute pour l'impression 3D, l'essayage virtuel et la création d'assets pour le jeu/le cinéma.
- Principes
- Traitement de nuages de points : les ensembles de points épars/denses obtenus par LiDAR ou reconstruction multi-vues sont considérés comme des ensembles de points d'échantillonnage 3D, sur lesquels on applique filtrage, recalage, sous-échantillonnage et apprentissage de caractéristiques, puis classification, segmentation sémantique/d'instance ou détection d'objets 3D.
- Géométrie multi-vues et reconstruction 3D : estimation des poses de caméra et du nuage de points épars 3D entre plusieurs images via SfM (Structure-from-Motion), puis génération d'un nuage de points dense via MVS (Multi-View Stereo), suivie de la reconstruction de maillage et du plaquage de texture.
- Champs de radiance neuronaux / champs implicites neuronaux : utilisation de méthodes telles que NeRF, Instant-NGP, Gaussian Splatting pour représenter la scène 3D comme un champ continu de densité volumique/couleur ou un ensemble de particules gaussiennes, générant des images par rendu volumique ou rastérisation, et apprenant à partir d'une supervision multi-vues ; une fois entraîné, le modèle permet le rendu de nouvelles vues et l'extraction géométrique.
- Modèles
- Réseaux pour nuages de points : PointNet / PointNet++, PointCNN, DGCNN, MinkowskiNet, etc., apprennent directement des caractéristiques sur les points ou les voxels épars pour la classification, la segmentation et la détection 3D de nuages de points. En conduite autonome, des frameworks de détection 3D comme VoxelNet, SECOND, CenterPoint sont couramment utilisés, convertissant les nuages de points en voxels ou en caractéristiques BEV (vue d'oiseau) avant la détection.
- Chaîne d'outils de reconstruction géométrique : COLMAP, OpenMVG / OpenMVS et autres systèmes SfM/MVS traditionnels permettent de récupérer les poses de caméra et les nuages de points denses à partir de photos multi-vues, et de construire des maillages de haute qualité.
- Reconstruction et rendu par champs neuronaux : NeRF / Instant-NGP, Gaussian Splatting et de nombreux modèles améliorés encodent la scène dans un réseau de neurones ou un nuage gaussien, réalisant une synthèse de nouvelles vues haute fidélité et une reconstruction de scène 3D, et évoluant progressivement vers des produits industrialisés. Des services 3D IA destinés aux développeurs et à la production de contenu ont également vu le jour, tels que « Hunyuan 3D » et « Tripo », qui encapsulent les technologies NeRF/gaussiennes en API cloud ou outils interactifs.
À partir de cette couche, la géométrie traditionnelle et l'apprentissage profond, les représentations implicites et les maillages explicites s'entrelacent étroitement, devant résoudre à la fois le problème de « comment restituer fidèlement le monde réel » et les exigences de temps réel et d'utilisabilité, au service des couches supérieures de compréhension, de génération et d'édition de scènes 3D.
3.1.1 Traitement de nuages de points et détection d'objets 3D
Pour la conduite autonome, la robotique et la cartographie de haute précision, le nuage de points LiDAR est l'une des informations de détection 3D les plus critiques. Un nuage de points est un ensemble épars de points constitué de coordonnées tridimensionnelles (parfois accompagnées de l'intensité de réflexion, d'horodatages, etc.), sans structure de grille régulière, ce qui pose un défi pour les convolutions traditionnelles. L'objectif du traitement de nuages de points est d'extraire de ces points non structurés des informations géométriques et sémantiques utiles, telles que « ici c'est une voiture », « ici c'est une bordure de trottoir/sol », « ici c'est un bâtiment ».
Dans les tâches de classification et segmentation de nuages de points, on s'intéresse souvent à : à quelle catégorie de structure appartient un point (ou un groupe de points), comme voiture, piéton, sol, bordure, bâtiment, végétation, etc., ou à effectuer une segmentation sémantique/d'instance de la scène. Du point de vue de la modélisation, on peut distinguer grossièrement trois catégories :
- Réseaux directs sur nuages de points : PointNet / PointNet++, PointCNN, DGCNN, etc., définissent directement sur l'ensemble de points des opérations « insensibles à la permutation des points », construisant des caractéristiques hiérarchiques par agrégation de voisinage local, adaptées à la classification et à la segmentation de nuages de points de petite à moyenne échelle.
- Voxels et convolution éparse : rastérisation du nuage de points en voxels 3D, puis convolution avec des CNN 3D épars (comme VoxelNet, MinkowskiNet), conciliant régularité structurelle et éparsité spatiale, largement utilisée dans la détection 3D pour la conduite autonome.
- Projection et multi-vues : projection du nuage de points en BEV (vue d'oiseau), carte de profondeur frontale ou vues multiples, puis extraction de caractéristiques par CNN 2D, relativement facile à combiner avec les réseaux de détection 2D matures.
En détection d'objets 3D, l'objectif n'est plus simplement d'étiqueter des points, mais de prédire des boîtes englobantes 3D (position, taille, orientation) et leur catégorie, ce qui est au cœur de la perception de l'environnement pour la conduite autonome. Les méthodes typiques comme VoxelNet, SECOND, PointPillars et CenterPoint convertissent généralement le nuage de points en représentation voxélisée ou en piliers, et effectuent la régression de détection dans l'espace BEV ou 3D. Des méthodes comme CenterPoint, via le paradigme de « détection par point central », détectent directement le centre des objets ainsi que leur taille/orientation sur la BEV, alliant précision et rapidité. Avec l'évolution de l'apprentissage profond et du matériel de capteurs, la détection 3D permet désormais une inférence en temps réel sur des puces de qualité automobile, devenant l'un des modules fondamentaux de la pile de perception pour la conduite autonome.
3.1.2 Géométrie multi-vues et reconstruction 3D : de la photo au maillage
Sans LiDAR, est-il encore possible de « comprendre » la 3D ? La réponse est oui — la géométrie multi-vues et la reconstruction 3D reposent sur « plusieurs photos + le mouvement de la caméra ». En photographiant la même scène sous différents angles, on peut exploiter les contraintes géométriques pour récupérer les poses de caméra et la structure spatiale, ce qui constitue le pipeline classique SfM/MVS.
SfM (Structure-from-Motion) résout principalement deux problèmes :
- À partir de plusieurs images appariées ou multi-vues, estimer les paramètres extrinsèques (position et orientation) de chaque image ;
- Récupérer un ensemble de points caractéristiques 3D épars dans un système de coordonnées unifié.
Des outils typiques comme COLMAP, OpenMVG, via l'extraction et la mise en correspondance de caractéristiques (SIFT/ORB, etc.) et l'ajustement de faisceaux (Bundle Adjustment) incrémental ou global, peuvent automatiquement récupérer un nuage de points épars et les poses de caméra à partir d'un ensemble d'images non calibrées. Sur cette base, MVS (Multi-View Stereo) exploite la cohérence photométrique multi-vues pour générer un nuage de points dense : estimation de la profondeur pour chaque pixel/ligne de visée, remplissant progressivement les détails géométriques de la scène.
Une fois le nuage de points dense obtenu, l'étape suivante est la reconstruction de maillage (Mesh Reconstruction) :
- Via la reconstruction de surface de Poisson, les Marching Cubes ou des méthodes par apprentissage, les points épars sont « enveloppés » en une surface continue, formant un maillage doté d'une structure topologique.
- Ensuite, on procède généralement au remplissage des trous, au lissage, à l'optimisation des bords, et au plaquage de texture (Texture Mapping), pour obtenir un modèle 3D directement utilisable pour le rendu et l'édition.
En termes de produit, l'ensemble de ce pipeline a été diffusé sous forme de logiciels de bureau, de services cloud et de SDK. Par exemple : les applications de scan 3D sur mobile exécutent en arrière-plan un processus similaire à SfM/MVS, offrant à l'utilisateur, après avoir « fait le tour en photographiant » ou « scanné une vidéo en tournant », un modèle maillé importable dans un moteur de jeu ; les plateformes de jumeaux numériques réalisent des reconstructions à grande échelle à l'échelle urbaine/de campus à partir d'images aériennes + données de street view, générant des scènes 3D interactives.
3.1.3 Champs de radiance neuronaux et rendu volumique : NeRF, Gaussian et la nouvelle génération de reconstruction 3D
Les méthodes traditionnelles SfM/MVS/reconstruction de maillage peuvent produire une géométrie explicite bien structurée, mais présentent des limites en termes de qualité de rendu, de continuité de point de vue et de détails ; les champs de radiance neuronaux (NeRF) et leurs travaux ultérieurs redéfinissent la reconstruction 3D et la synthèse de nouvelles vues par l'approche champ implicite + rendu volumique.
Dans NeRF, la scène 3D entière est modélisée comme une fonction continue :
où représente la position d'un point dans l'espace tridimensionnel, la direction d'observation, la densité volumique, la couleur, et les paramètres du réseau.
Étant donnés une position x et une direction d'observation d dans l'espace 3D, le réseau produit la densité volumique σ et la couleur c correspondantes. En effectuant une intégration de rendu volumique le long de la direction du rayon de la caméra sur cette fonction de mapping, on obtient la couleur du pixel pour cette pose de caméra ; inversement, il suffit de disposer d'un ensemble de photos multi-vues avec leurs paramètres de caméra pour résoudre les paramètres θ du modèle en minimisant l'erreur entre le résultat du rendu et l'image réelle. Une fois le modèle entraîné, il suffit de changer la pose de la caméra pour synthétiser des images de nouvelles vues qui n'ont « jamais été réellement photographiées » (Novel View Synthesis).
Le NeRF traditionnel souffre de lenteur à l'entraînement comme au rendu ; des travaux ultérieurs comme Instant-NGP ont considérablement accéléré la convergence et l'inférence grâce à des techniques telles que l'encodage par grille de hachage multi-résolution ; Gaussian Splatting remplace la représentation de la scène par des particules gaussiennes 3D, réalisant un rendu de nouvelles vues de haute qualité en temps réel via une stratégie de rastérisation efficace. Parallèlement, de nombreux travaux ont étendu NeRF/gaussiennes avec des capacités d'édition, de multimodalité, de composition, etc., les faisant évoluer progressivement du prototype de recherche vers un système d'ingénierie.
Au niveau de la mise en produit, les technologies de type NeRF/gaussiennes ont déjà été intégrées dans divers produits 3D IA :
- Les outils « vidéo multi-vues → scène 3D » sur mobile/PC s'appuient souvent en sous-couche sur les champs neuronaux ou les particules gaussiennes pour la reconstruction et le rendu ;
- Dans les pipelines d'assets pour le jeu/le cinéma, les champs neuronaux sont utilisés pour la capture rapide de scènes et la restitution d'éclairage, puis exportés en maillage + textures pour les outils DCC traditionnels ;
- Les services 3D IA lancés par les grands fournisseurs cloud et plateformes de contenu, tels que « Hunyuan 3D » de Tencent, Tripo, etc., prennent généralement en charge « photos multi-vues/vidéos courtes → modèles/scènes 3D éditables », combinant en interne des champs de radiance neuronaux, des représentations SDF/gaussiennes et une reconstruction explicite ultérieure, pour livrer des résultats 3D de haute qualité sous forme d'API conviviales pour les développeurs ou de produits interactifs.## 3.2 Compréhension et localisation de scènes 3D (3D Scene Understanding & SLAM)
Si la perception et la reconstruction 3D répondent à la question « à quoi ressemble le monde ? », la compréhension et la localisation de scènes 3D répondent à une question plus avancée : « Où suis-je dans ce monde ? Quelles zones sont praticables et quels sont les obstacles ? » Pour les robots aspirateurs, les robots AGV, les drones, la navigation AR et les systèmes de positionnement intérieur, la capacité à se localiser, à cartographier et à planifier des trajets de manière autonome dans un environnement 3D est une condition de survie.
Ce domaine s'articule principalement autour de la compréhension sémantique 3D et du SLAM (Simultaneous Localization and Mapping) : la première effectue une segmentation sémantique et identifie les zones praticables dans la scène 3D reconstruite, tandis que le second utilise des capteurs visuels, IMU, LiDAR, etc., pour estimer la pose de la caméra ou du robot et construire une carte. En ingénierie, cette couche est généralement intégrée sous forme de SDK ou de module algorithmique dans les contrôleurs de châssis de robots, les contrôleurs de vol de drones ou les moteurs AR mobiles.
- Scénarios
- Robots domestiques et de service : les robots aspirateurs, robots de livraison et d'inspection construisent des cartes en intérieur, identifient les types de pièces et les obstacles, et planifient automatiquement des trajets de nettoyage ou de patrouille.
- Entrepôts et logistique : les robots AGV/AMR naviguent de manière autonome dans les entrepôts, identifient les étagères, les allées et les zones interdites, et accomplissent des tâches de manutention et d'inventaire.
- Drones et robots d'extérieur : ils construisent des cartes 3D en environnement extérieur, évitent les bâtiments, les arbres, les câbles électriques et autres obstacles, et exécutent des missions d'inspection, de cartographie et de sécurité.
- Navigation AR et positionnement intérieur : les téléphones et lunettes AR obtiennent la pose de la caméra via le SLAM, superposent des flèches de navigation, des informations sur les pièces et des POI sur la carte sémantique, offrant ainsi une navigation et un guidage immersifs.
- Principes
- Segmentation sémantique 3D et compréhension de scène : effectuer une segmentation sémantique sur des représentations en nuages de points ou en voxels pour différencier les murs, sols, tables, chaises, étagères, portes, fenêtres et autres structures, tout en identifiant les zones praticables et les obstacles, afin de fournir une couche d'information sémantique pour la navigation et la prise de décision comportementale.
- Estimation de pose et SLAM : via le Visual SLAM (monoculaire, stéréo ou RGB-D) ou le LiDAR-SLAM, estimer la pose 6D de la caméra ou du robot à partir de données sensorielles continues, gérer la détection de fermeture de boucle et l'optimisation de carte, et si nécessaire fusionner les informations provenant de l'IMU, des odomètres de roue, du GNSS, etc., pour améliorer la robustesse.
- Construction de carte et navigation : superposer des informations géométriques et sémantiques sur des cartes locales/globales pour former des cartes 2D, 3D, topologiques ou sémantiques, puis effectuer la planification de trajet, l'évitement d'obstacles et l'attribution de tâches sur cette base.
- Modèles
- Systèmes SLAM : les méthodes classiques basées sur les points caractéristiques comme la série ORB-SLAM, la méthode directe DSO, ainsi que les systèmes à fusion inertielle comme VINS-Mono / VINS-Fusion, réalisent une estimation précise de la pose et des cartes denses/semi-denses grâce au suivi de caractéristiques en front-end et à l'optimisation en back-end. Dans la fusion LiDAR/visuel-LiDAR, des frameworks comme LIO-SAM sont courants.
- Réseaux de segmentation sémantique 3D : 3D U-Net, MinkowskiNet et autres CNN 3D, ainsi que les séries PointNet++ / KPConv / SparseConv basées sur les nuages de points, utilisés pour la segmentation sémantique et d'instance sur nuages de points ou voxels.
- Localisation par fusion multi-capteurs : méthodes basées sur l'optimisation de graphe ou le filtrage (EKF/UKF), fusionnant les informations visuelles, IMU, LiDAR, odométrie et autres sources dans un espace d'état unifié, améliorant la stabilité de la localisation dans des conditions d'éclairage difficiles, de texture manquante ou d'environnements dynamiques.
Dans l'ensemble, la compréhension et la localisation de scènes 3D constituent la base qui permet aux robots de « se mettre en mouvement » : il s'agit à la fois de construire un cadre d'auto-localisation fiable dans un monde tridimensionnel complexe et de rendre la carte « significative », afin de soutenir la planification de tâches de haut niveau et l'interaction homme-machine.
3.2.1 Segmentation sémantique 3D et compréhension des zones praticables
Dans une carte purement géométrique, toutes les structures ne sont que des points ou des voxels indifférenciés ; dans les applications réelles, ce qui nous intéresse est : où se trouve le sol, où sont les murs, où se trouvent les tables ou les étagères, où peut-on passer. La segmentation sémantique 3D consiste à attribuer une étiquette sémantique à chaque point ou voxel, transformant le « purement géométrique » en « géométrique + sémantique ».
Dans les scénarios intérieurs et extérieurs, les cibles typiques incluent :
- Structures fixes : murs, sols, plafonds, escaliers, piliers, routes, bordures de trottoir, etc. ;
- Mobilier et équipements : tables, chaises, armoires, étagères, portes, fenêtres, rampes, etc. ;
- Zones praticables/non praticables : zones où le robot peut se déplacer, obstacles à contourner, zones interdites, etc.
En termes de modélisation, la segmentation sémantique 3D utilise couramment :
- Approche par voxels et convolution sparse : après voxelisation du nuage de points, des CNN sparse comme 3D U-Net ou MinkowskiNet apprennent des caractéristiques au niveau des voxels, en tenant compte à la fois des détails locaux et de la structure globale.
- Approche directe sur nuage de points : des réseaux pour nuages de points comme PointNet++ et KPConv agrègent les caractéristiques du voisinage local pour réaliser une prédiction sémantique au niveau du point.
Dans les applications comme les robots aspirateurs et les robots AGV, les résultats de la segmentation sémantique sont ensuite abstraits en cartes sémantiques : par exemple, diviser les pièces en chambre/salon/cuisine, ou diviser l'espace d'un entrepôt en zones d'étagères, allées et zones interdites. Le robot sait non seulement « où il peut aller », mais peut aussi adapter ses stratégies en fonction du type de pièce (par exemple, éviter les zones de tapis dans une chambre, prioriser certaines zones d'étagères dans un entrepôt).
3.2.2 Estimation de pose, SLAM et localisation par fusion multi-capteurs
L'objectif du SLAM (Simultaneous Localization and Mapping) est de se déplacer dans un environnement inconnu tout en estimant sa propre trajectoire et en construisant simultanément une carte de l'environnement. Pour les environnements intérieurs sans support de positionnement externe de haute précision (comme le RTK-GNSS), le SLAM est la solution privilégiée pour la grande majorité des robots et des moteurs AR.
En Visual SLAM, les méthodes représentées par ORB-SLAM, DSO, VINS-Mono/VINS-Fusion se divisent généralement en plusieurs modules clés :
- Front-end : extraire et suivre les points clés ou patches d'image à partir d'images consécutives, et estimer la pose relative entre les trames adjacentes.
- Back-end : effectuer un ajustement de faisceaux (BA) ou une optimisation de graphe dans une fenêtre glissante ou un graphe global, gérer la dérive, la détection de fermeture de boucle et la relocalisation.
- Carte : construire une carte dense ou semi-dense à partir de la pose et des informations de profondeur, fournissant la base pour la navigation ou le rendu ultérieurs.
Le système purement visuel tend à échouer en cas de manque de texture ou de changement brusque d'éclairage, c'est pourquoi on adopte généralement en pratique une localisation par fusion multi-capteurs :
- Visuel + IMU : des frameworks comme VINS-Mono/VINS-Fusion combinent la précision haute fréquence et court terme de l'IMU avec les contraintes d'échelle et géométriques de la vision, améliorant considérablement la stabilité dans les scénarios de court terme et de virages serrés.
- LiDAR + IMU + visuel : des frameworks d'odométrie comme LIO-SAM introduisent la navigation inertielle et des informations visuelles optionnelles dans le LiDAR-SLAM, exploitant la complémentarité des trois pour une localisation robuste, largement utilisée en conduite autonome et en cartographie de haute précision.
Au niveau produit, ces méthodes sont généralement encapsulées dans des contrôleurs de châssis de robots, des contrôleurs de vol de drones, des moteurs AR (comme le Visual-Inertial SLAM dans ARKit/ARCore) ou des SDK de positionnement intérieur, masquant la logique complexe d'estimation d'état et d'optimisation de graphe pour les applications de niveau supérieur, permettant aux développeurs d'obtenir directement « pose en temps réel + carte ».
3.2.3 Cartes sémantiques, navigation et évitement d'obstacles
Avec une estimation de pose stable et des cartes géométriques/sémantiques, l'étape suivante consiste à permettre au robot de « se déplacer intelligemment ». Cette partie concerne principalement la construction de cartes sémantiques, la planification de trajet et l'évitement d'obstacles.
- Construction de cartes sémantiques : superposer des informations sémantiques (types de pièces, POI, étiquettes de zones) sur des cartes géométriques pour former une représentation cartographique adaptée à la prise de décision de haut niveau. Par exemple :
- Dans un scénario domestique, diviser la carte en zones telles que chambre, salon, cuisine, salle de bain, etc. ;
- Dans un scénario d'entrepôt, annoter les emplacements des étagères, les zones de chargement/déchargement, les zones dangereuses, etc. ;
- Dans les grands centres commerciaux ou halls d'exposition, annoter les boutiques, les comptoirs d'accueil, les toilettes et autres POI pour la navigation AR et le guidage.
- Planification de trajet et évitement d'obstacles : construire une grille d'occupation ou un graphe topologique sur la carte, utiliser des algorithmes de planification comme A*, D* Lite, RRT pour trouver un trajet praticable du point de départ au point d'arrivée ; en parallèle, effectuer une replanification locale et un évitement d'obstacles en fonction de la perception en temps réel (obstacles devant, piétons ou véhicules dynamiques), garantissant la sécurité et l'efficacité du déplacement.
- Comportement de navigation et ordonnancement des tâches : dans les robots AGV et les drones, des modules d'ordonnancement des tâches et de coordination multi-robots sont superposés à la navigation : attribution des tâches, évitement des congestions, optimisation globale des trajets et de la consommation d'énergie.
Les systèmes de navigation AR et de positionnement intérieur reposent essentiellement sur des cartes sémantiques et une planification de trajet similaires, à la différence que l'« exécutant » passe du robot à l'humain : le système obtient la pose de l'appareil de l'utilisateur via le SLAM, planifie un trajet de marche sur la carte sémantique, puis superpose visuellement le trajet à la vue du monde réel sous forme de réalité augmentée.## 3.3 Génération et édition 3D (3D Generation & Editing)
Si la perception 3D et le SLAM consistent à « capturer et comprendre » la géométrie du monde réel, la génération et l'édition 3D se placent du point de vue de la production de contenu : comment utiliser l'IA pour produire et transformer automatiquement des assets 3D. Cela répond directement aux immenses besoins en contenu des jeux vidéo, du cinéma, des humains numériques, des espaces virtuels, de la présentation e-commerce, de l'impression 3D, etc.
Au cours des deux ou trois dernières années, avec les percées technologiques comme NeRF/Gaussian, la représentation SDF et les modèles de diffusion multimodaux, la génération 3D est entrée dans une phase de développement rapide : générer des modèles ou des scènes 3D en un clic à partir de texte, d'images ou de vidéos est devenu une réalité. Les grands fournisseurs cloud et les startups ont lancé des méthodes comme « Hunyuan 3D », Tripo, DreamFusion / Magic3D, déployées sous forme d'outils en ligne, faisant évoluer la production 3D vers une accessibilité grand public. La génération et l'édition 3D peuvent être décomposées en quatre catégories de capacités : Text-to-3D, Image/Vidéo-to-3D, optimisation et édition de modèles, ainsi que rigging et animation.
- Scénarios
- Production d'assets pour jeux / cinéma : générer rapidement des modèles 3D utilisables pour les personnages, accessoires, bâtiments et scènes, réduisant considérablement la charge de travail artistique.
- E-commerce et présentation de produits : générer automatiquement des modèles 3D d'exposition à partir de descriptions ou de photos de produits, pour la visualisation 3D, l'essai en RA et la publicité interactive.
- Humains numériques et contenu virtuel : générer rapidement des assets 3D tels que des humains virtuels, des mannequins d'essayage virtuels, des décors de streaming virtuel, pour le live streaming, les vidéos courtes et les applications interactives.
- Impression 3D et modélisation personnalisée : générer des modèles imprimables à partir de croquis/photos/texte, pour des cadeaux personnalisés, le prototypage et des applications éducatives.
- Principes
- Text-to-3D : encoder la description textuelle en vecteur sémantique, puis générer une représentation 3D (NeRF/SDF/Gaussian/Mesh) via une optimisation multi-étapes ou un processus de diffusion, en s'appuyant généralement sur de puissants modèles Text-to-Image 2D comme « évaluateur » ou a priori.
- Image/Vidéo-to-3D : utiliser une ou plusieurs images, ou des vidéos multi-vues comme supervision, combinées à NeRF, SDF ou des représentations hybrides implicites/explicites, pour reconstruire un modèle 3D avec géométrie et textures.
- Optimisation et édition de modèles 3D : effectuer la retopologie, la simplification, l'amélioration des détails, la génération de LOD, le dépliage UV et la génération de textures sur des modèles existants, ainsi que la déformation et la stylisation basées sur le langage ou les images.
- Rigging et animation : déduire automatiquement la structure squelettique des personnages 3D et effectuer le Rigging, prendre en charge l'animation squelettique et la simulation physique (tissus, corps mous, corps rigides), pour produire des assets dynamiques pilotables.
- Modèles
- Représentations fondamentales de la génération 3D : NeRF / Instant‑NGP, SDF (surfaces implicites), Gaussian Splatting et réseaux de génération basés sur les maillages (Mesh‑based), constituant l'espace de représentation des données 3D.
- Méthodes Text‑to‑3D : DreamFusion, Magic3D, Fantasia3D et autres approches typiques, réalisant une génération de bout en bout du texte vers la 3D via « modèle Text-to-Image 2D + optimisation 3D » ou « modèle de diffusion 3D », posant les bases techniques des produits ultérieurs comme Hunyuan 3D et Tripo.
- Modèles Image/Vidéo-to-3D : frameworks de reconstruction et d'optimisation basés sur NeRF/SDF/Gaussian, récupérant une géométrie et des textures 3D stables à partir de la cohérence multi-vues et des a priori mono-vue.
- Algorithmes de rigging et d'animation : extraction automatique de squelette, prédiction des poids squelettiques, retargeting basé sur l'apprentissage profond et génération de mouvement, fournissant des outils en un clic pour l'animation de personnages virtuels.
À ce niveau, les outils DCC 3D traditionnels (Maya/Blender/3ds Max, etc.) et la chaîne d'outils IA convergent progressivement : de nombreux services d'IA 3D s'intègrent aux flux de production existants sous forme de plugins ou d'interfaces cloud, permettant aux modeleurs et artistes d'itérer rapidement sur les assets dans une collaboration homme-machine.
3.3.1 Text-to-3D et maquettes de scène
L'objectif du Text‑to‑3D est le suivant : étant donné une description en langage naturel, par exemple « un petit canard jaune en style cartoon, avec une écharpe bleue, adapté à l'exposition de jouets pour enfants », le système génère automatiquement un modèle 3D éditable (Mesh/NeRF/SDF/Gaussian, etc.). C'est une application typique combinant les grands modèles de langage / modèles multimodaux avec la représentation 3D.
Les approches techniques typiques incluent :
- Optimisation basée sur des modèles Text-to-Image 2D (comme DreamFusion, Magic3D) :
- Utiliser un puissant modèle Text‑to‑Image (comme un modèle de diffusion) comme « évaluateur », en évaluant dans quelle mesure l'image rendue depuis une certaine vue de la représentation 3D correspond à la description textuelle.
- Ajuster itérativement la représentation 3D (NeRF/SDF/Mesh) via l'optimisation par gradient ou un processus de diffusion, de sorte que les images rendues depuis plusieurs points de vue correspondent toutes à la sémantique du texte.
- Modèle de diffusion 3D / génération directe :
- Prendre les données 3D (nuages de points, voxels, paramètres de champs implicites, particules gaussiennes, etc.) comme cible de génération du modèle de diffusion, pré-entraîné sur des ensembles de données 3D à grande échelle ;
- Réaliser un échantillonnage Text‑to‑3D de bout en bout via un conditionnement textuel.
Au niveau de la scène, la capacité de maquette de scène permet à l'utilisateur de décrire l'agencement spatial en langage naturel ou par un croquis approximatif, par exemple « un salon avec une baie vitrée, un canapé en L à gauche, une table basse au centre, une bibliothèque et un meuble TV à droite », et le système construit automatiquement une maquette 3D géométriquement et sémantiquement cohérente. Le modèle et les matériaux peuvent ensuite être affinés dans les outils DCC, ou bien un prototype de scène utilisable peut être rapidement produit via les capacités de « génération de scène » d'outils comme Hunyuan 3D ou Tripo.
Actuellement, plusieurs plateformes proposent des produits Text‑to‑3D destinés aux designers et développeurs :
- « Hunyuan 3D » et similaires intègrent les capacités de Text-to-3D, de génération multi-vues et de reconstruction dans une interface unifiée, permettant de générer rapidement des personnages, accessoires et scènes à partir de texte, puis de les exporter vers les moteurs de jeu ;
- Les produits comme Tripo mettent l'accent sur « l'entrée multimodale + sortie 3D en un clic », prenant en charge le mélange de texte simple et d'images de référence pour guider la génération d'assets 3D répondant aux exigences de style et de structure.
3.3.2 Image/Vidéo-to-3D et optimisation/édition de modèles
Comparé au texte pur, la génération de modèles 3D à partir d'images ou de vidéos impose des contraintes géométriques plus fortes et offre une meilleure cohérence visuelle. Par conséquent, de nombreux produits d'IA 3D prennent en charge l'Image-to-3D / Vidéo-to-3D :
- Photo unique → 3D approximatif : utiliser des a priori mono-vue (comme les a priori de forme pour les visages, les corps humains, les catégories d'objets courants) pour déduire une géométrie 3D approximative, générant un modèle 3D utilisable pour la prévisualisation ou l'interaction simple.
- Photos multiples / courte vidéo → 3D haute qualité : combiner la reconstruction NeRF/SDF/Gaussian, la géométrie multi-vues et le post-traitement pour convertir des dizaines de photos ou quelques secondes de vidéo en modèles 3D haute fidélité, adaptés aux assets de jeux/cinéma ou à l'exposition e-commerce de qualité.
La génération de la géométrie 3D n'est que la première étape ; un travail important d'optimisation et d'édition de modèles est ensuite nécessaire :
- Retopologie et simplification : convertir les champs implicites ou les maillages à haute densité de polygones en une topologie structurée avec un nombre de faces contrôlable, pour faciliter le rigging, l'animation et le rendu en temps réel.
- Génération de LOD : générer automatiquement des modèles à plusieurs niveaux de détail (Level of Detail), en utilisant un modèle basse résolution à distance et un modèle haute résolution de près, pour équilibrer qualité visuelle et performances.
- Dépliage UV et génération de textures : déplier automatiquement les UV du modèle, générer ou optimiser les normal maps, displacement maps, roughness/metalness maps et autres matériaux PBR ; certains modèles prennent également en charge la génération automatique de textures stylisées à partir de texte ou d'images de référence.
- Édition géométrique et stylistique : effectuer des modifications locales basées sur le langage ou des images d'exemple, comme « raccourcir les pieds de cette chaise » ou « transformer ce bâtiment en style cyberpunk », généralement réalisé via des opérations dans l'espace latent de forme ou l'édition de champs neuronaux.
Des produits comme Hunyuan 3D et Tripo intègrent souvent l'ensemble du flux ci-dessus : l'utilisateur part d'une photo/vidéo ou d'un texte simple, et le système effectue en interne la reconstruction, la retopologie, le texturing et l'export, permettant même aux utilisateurs non professionnels d'obtenir des modèles 3D « prêts à l'emploi » en quelques minutes, réduisant considérablement le délai du concept à l'asset.
3.3.3 Rigging, animation et assets 3D dynamiques
Un modèle statique ne représente que la moitié du contenu ; les assets 3D « capables de bouger » sont bien plus cruciaux dans les jeux, le cinéma, les humains virtuels et les applications interactives. Cela implique le rigging (squelettage), la peinture des poids, l'animation et la simulation physique, des tâches traditionnellement réservées aux experts, aujourd'hui progressivement assistées voire semi-automatisées par les outils d'IA.
- Rigging automatique : étant donné un maillage de personnage, le système déduit automatiquement la structure hiérarchique du squelette (colonne vertébrale, membres, doigts, etc.) et la position des os dans le modèle, puis prédit les poids de chaque sommet par rapport à chaque os. Les méthodes récentes d'apprentissage profond peuvent apprendre cette correspondance sur des ensembles de données de personnages annotés avec des squelettes à grande échelle, réalisant un rigging en un clic.
- Animation et génération de mouvement : superposer des données de mouvement (Mocap ou générées par IA) sur un squelette existant pour réaliser des animations de marche, course, expressions faciales, gestes, etc. ; la génération de mouvement et le retargeting basés sur l'apprentissage profond peuvent transférer les mouvements humains capturés en vidéo ou les mouvements d'autres personnages vers un nouveau personnage.
- Simulation physique : simuler physiquement les tissus, corps mous, corps rigides, etc., pour rendre plus naturels les mouvements des cheveux, vêtements, drapeaux et objets souples. Certains systèmes utilisent des réseaux de neurones pour accélérer ou approximer la physique, rendant les effets physiques plus réalistes dans les moteurs temps réel.
En termes de produits et d'écosystème, ces capacités sont souvent intégrées dans :
- La chaîne d'outils d'assets pour jeux / cinéma : fournir aux modeleurs un rigging en un clic, une attribution automatique des poids et une bibliothèque de mouvements de base, réduisant considérablement le travail répétitif ;
- Les plateformes de création d'humains virtuels / d'assets numériques : à partir de photos ou de scans de personnes, en passant par la reconstruction 3D + le rigging automatique + le pilotage par le mouvement, produire des humains virtuels exploitables en live streaming, vidéos courtes et applications interactives ;
- Les plateformes d'IA 3D (comme Hunyuan 3D, Tripo et produits similaires) : après la génération 3D, ajouter des fonctionnalités de rigging et d'animation simple, permettant aux utilisateurs de « faire bouger immédiatement le personnage généré », sans nécessiter d'opérations complexes dans les outils DCC.
Avec la maturation des technologies de génération et d'édition 3D, l'ensemble du flux de production de contenu 3D évolue d'un modèle « centré sur les outils DCC professionnels » vers une « collaboration homme-machine pilotée par l'IA » : l'IA se charge de la génération et de la majeure partie du travail de base, tandis que les humains prennent davantage de décisions sur la définition du style, le contrôle qualité et les nœuds de conception clés. Les produits d'IA 3D de nouvelle génération comme Hunyuan 3D et Tripo sont l'incarnation même de cette tendance, fournissant une infrastructure 3D plus rapide et plus accessible pour les applications en amont telles que les jeux, le cinéma, la RA/RV, les jumeaux numériques et les humains virtuels.# 4. Audio (Audio / Speech)
Dans la pile technologique globale, « l'audio » correspond à la perception et à la génération de signaux acoustiques : cela inclut à la fois le traitement des formes d'onde brutes et des spectres, la conversion de la parole en texte, la compréhension de « qui parle » et de « ce qui est dit », ainsi que la création et la synthèse de sons et de musique. Tout comme la vision, l'audio peut être décomposé en plusieurs couches : au niveau le plus bas, le traitement des formes d'onde et des spectres permet de « bien entendre » ; au niveau intermédiaire, la reconnaissance vocale et les technologies liées au locuteur permettent de « comprendre qui dit quoi » ; au-dessus, on trouve des couches plus abstraites comme la compréhension audio/musicale et la génération de parole et de musique. Cet ensemble de capacités soutient des produits tels que le sous-titrage en temps réel pour les réunions, les assistants vocaux, la post-production audio pour les podcasts, les enceintes connectées, la surveillance acoustique, la recommandation et la génération musicale.## 4.1 Traitement audio au niveau de la forme d'onde : commencer par « entendre clairement »
Au niveau le plus fondamental de la technologie audio, notre première préoccupation n'est pas « ce qui est dit », « qui parle » ou « quel est le style de musique », mais plutôt si le son lui-même est propre et audible. Cette couche travaille principalement au niveau de la forme d'onde et du spectre, en utilisant des opérations telles que le rééchantillonnage, l'amélioration, la réduction de bruit et la séparation pour transformer un son brut bruité, déformé et mélangé en un « signal propre » mieux adapté à la reconnaissance, l'analyse et la génération ultérieures. On peut l'assimiler à « l'amélioration d'image + débruitage + séparation premier plan/arrière-plan » dans le domaine visuel, où l'on effectue davantage un nettoyage au niveau acoustique sans traiter directement la sémantique.
Du point de vue produit, cette couche est presque « invisible » derrière tous les produits audio : la réduction de bruit en temps réel dans les logiciels de visioconférence, la post-production audio des podcasts et courtes vidéos, le « mode d'amélioration vocale » des enregistreurs vocaux et des téléphones, le commutateur « embellissement vocal » des plateformes de streaming, ainsi que le prétraitement frontal pour les modèles ASR/reconnaissance du locuteur — tout cela relève directement du traitement audio au niveau de la forme d'onde. Nous allons ci-dessous organiser le sujet selon trois angles : scénarios, principes et modèles, puis détailler dans les sous-sections suivantes les trois directions clés que sont le prétraitement et l'extraction de caractéristiques, l'amélioration et la réduction de bruit, et la séparation de sources audio.
- Scénarios
- Communication en ligne et visioconférence : Zoom, Tencent Meeting, etc., suppriment en temps réel les bruits de clavier, de frappe, de rue et d'écho dans les bureaux ouverts, les postes de travail partagés ou à domicile, pour rendre la voix plus claire.
- Création de contenu et post-production audio : dans la post-production de podcasts, courtes vidéos et streaming, élimination automatique du bruit de fond, des bourdonnements électriques et de la réverbération de la pièce, réparation des pops d'enregistrement et des lacunes de bande de fréquence, pour améliorer la qualité d'écoute globale.
- Front-end d'enregistrement et de transcription : les enregistreurs vocaux, les sous-titres intelligents et les services de transcription de réunion appliquent un traitement VAD, une réduction de bruit et une normalisation du volume avant d'entrer dans l'ASR, afin d'améliorer la robustesse de la reconnaissance en aval.
- Terminaux et IoT : la « capture en champ lointain » et le « mode de réduction de bruit » sur les enceintes connectées, les systèmes embarqués, les caméras et autres appareils capturent au mieux le locuteur principal ou les sources sonores clés dans des champs acoustiques complexes.
- Principes Le traitement au niveau de la forme d'onde ne comprend généralement pas directement la sémantique, mais optimise le signal en fonction de la structure spectrale et des propriétés statistiques :
- Transformation aller-retour entre le domaine temporel et le domaine fréquentiel (par exemple STFT → spectre/spectre de Mel → iSTFT), pour supprimer ou modéliser les bandes de bruit, les caractéristiques de réverbération ou les sons de fond.
- Utilisation de la VAD et des caractéristiques d'énergie/spectre pour distinguer les « segments avec parole » des « segments de silence/bruit », réduisant ainsi l'impact des segments inutiles sur l'aval.
- Utilisation de l'apprentissage profond ou de méthodes de filtrage classiques pour estimer les masques ou fonctions de gain entre le « spectre de parole propre » et le « spectre de bruit », puis pondération du spectre pour obtenir l'amélioration et la réduction de bruit.
- Dans les scénarios de mélange multi-sources, séparation des différents locuteurs, de la voix et de l'accompagnement, du premier plan et de l'arrière-plan sur des pistes indépendantes via des réseaux de séparation de bout en bout ou des représentations parcimonieuses.
- Modèles Les modèles au niveau forme d'onde/spectre se divisent en deux grandes catégories : les modèles dans le domaine spectral et les modèles de bout en bout dans le domaine temporel :
- Série U-Net sur spectre/spectre de Mel : U-Net basé sur spectrogramme, DCCRN, etc., effectuant une convolution et un codage-décodage de type « image » sur le plan temps-fréquence, constituant une solution courante pour les tâches d'amélioration de la parole, de séparation voix chantée, etc.
- Modèles de bout en bout sur forme d'onde : Wave-U-Net, Conv-TasNet, Demucs, etc., modélisant directement sur la forme d'onde temporelle, évitant les STFT/ISTFT explicites, et donnant souvent de meilleurs résultats en qualité d'écoute subjective et en fidélité temporelle.
- Méthodes classiques de traitement du signal : soustraction spectrale, filtrage de Wiener et autres méthodes fréquentielles traditionnelles, encore largement présentes dans les appareils légers ou les scénarios très sensibles à la latence, souvent combinées avec des réseaux d'amélioration profonds pour former des « solutions hybrides ».
4.1.1 Prétraitement et extraction de caractéristiques : « préparer le terrain » pour l'aval
Tout modèle ultérieur d'ASR, de reconnaissance du locuteur, de détection d'événements, de TTS, etc., nécessite une entrée audio aussi uniforme, propre et structurée que possible — c'est la responsabilité de la couche de prétraitement et d'extraction de caractéristiques. Elle effectue le « déblayage » et « l'unification de format » les plus fondamentaux mais extrêmement critiques, préparant ainsi la scène pour les modèles audio en amont.
Durant la phase de prétraitement, on effectue d'abord une conversion du taux d'échantillonnage et des canaux sur l'audio collecté : par exemple, convertir un son stéréo 48 kHz en mono 16 kHz pour répondre aux spécifications d'entrée du modèle aval et réduire le coût de calcul. Ensuite, on applique une normalisation du volume, une suppression de la composante continue, un filtrage simple, etc., afin que les sons enregistrés depuis différents appareils et environnements soient plus cohérents en échelle d'énergie.
La détection d'activité vocale (VAD) est un autre maillon clé du prétraitement. Elle tente de segmenter automatiquement le flux audio en « segments avec parole » et « segments de silence/bruit pur », souvent en s'appuyant sur l'énergie de trame, l'entropie spectrale, le taux de passage par zéro ou un petit réseau neuronal discriminant. L'avantage de la VAD est de réduire significativement les données inutiles envoyées aux modèles ASR/reconnaissance du locuteur, diminuant ainsi la charge de calcul tout en évitant que les segments de silence n'interfèrent avec la reconnaissance (par exemple, en étant reconnus à tort comme de longues chaînes d'espaces ou des caractères étranges). Dans les communications en temps réel, la VAD peut également piloter « l'indicateur d'activité vocale » et la logique de mise en sourdine automatique.
Au niveau de l'extraction de caractéristiques, l'approche la plus courante consiste à convertir la forme d'onde temporelle en spectre ou spectre de Mel. Par la transformée de Fourier à court terme (STFT), l'audio est décomposé en une distribution fréquentielle variant dans le temps ; puis, via un banc de filtres de Mel, on obtient un spectre de Mel ou des caractéristiques cepstrales de Mel (comme le log Mel-spectrogram, les MFCC) mieux adaptés à la perception auditive humaine. Ces caractéristiques temps-fréquence fournissent une « représentation bidimensionnelle » pour la reconnaissance, la séparation et la génération ultérieures, analogue aux images en niveaux de gris ou aux cartes de caractéristiques multi-canaux dans le domaine visuel, facilitant le traitement par convolution, attention et autres structures. Avec le développement de la modélisation de bout en bout, de plus en plus de modèles apprennent directement les caractéristiques sur la forme d'onde (comme Wav2Vec 2.0), mais en pratique, la combinaison STFT + caractéristiques de Mel reste le front-end le plus répandu et le plus fiable.
4.1.2 Amélioration et réduction de bruit : transformer un son « brouillé » en « son sec »
Dans un environnement réel, le son se propage presque toujours dans le bruit et la réverbération : bruit de climatisation, frappe de clavier, bruit de rue, brouhaha de foule, écho de la pièce — tout cela dégrade à divers degrés l'intelligibilité et la qualité subjective de la parole et de la musique. L'objectif de l'amélioration et de la réduction de bruit de la parole est de supprimer ces interférences de fond tout en préservant autant que possible le naturel et l'intégrité de la voix, en transformant un son « brouillé » en un son aussi « propre » que possible.
Dans les méthodes traditionnelles, cette tâche est principalement réalisée par des techniques fréquentielles comme la soustraction spectrale et le filtrage de Wiener : on estime d'abord le spectre de bruit, puis on « soustrait » le bruit sur le spectre selon certaines règles ou on ajuste le gain par bande de fréquence. Bien que simples à implémenter et performantes en temps réel, ces méthodes produisent facilement un « bruit musical » et des artéfacts notables dans les scénarios de bruit fort, de bruit non stationnaire et de réverbération complexe.
Les méthodes d'apprentissage profond, quant à elles, apprennent une correspondance sur le spectre ou la forme d'onde : étant donné une parole bruitée, on prédit un masque temps-fréquence ou directement une forme d'onde propre. Les solutions courantes incluent l'utilisation de structures codeur-décodeur comme le U-Net basé sur spectrogramme, DCCRN sur spectre de Mel/linéaire, pour réparer finement le spectre de chaque trame ; il existe aussi des modèles comme Conv-TasNet, Demucs, Wave-U-Net qui effectuent une amélioration de bout en bout directement sur la forme d'onde temporelle. Ces méthodes améliorent significativement la clarté de la parole et la qualité d'écoute subjective dans les scénarios de téléphonie vocale, de visioconférence et de restauration d'enregistrement.
Dans la création de contenu et la post-production, la « restauration d'enregistrement » implique souvent aussi des opérations plus typiques du métier d'ingénieur du son, comme la réduction des plosives, l'atténuation des sibilances, la compensation des lacunes de bande de fréquence, ainsi que l'égalisation (EQ) et le traitement dynamique (compresseur/limiteur). De plus en plus d'outils combinent ces traitements traditionnels avec des modèles profonds pour offrir des capacités de « correction audio » et « d'embellissement audio » en un clic, au service des podcasteurs, créateurs vidéo et plateformes de streaming.
4.1.3 Séparation de sources audio : décomposer le « mixage »
Si l'amélioration et la réduction de bruit consistent à « rendre le son principal plus proéminent et l'arrière-plan plus silencieux », la séparation de sources audio va plus loin en tentant de décomposer complètement plusieurs sources sonores mélangées en pistes indépendantes. Par exemple : plusieurs locuteurs parlant simultanément dans un enregistrement de réunion ; la voix et l'accompagnement mélangés dans une musique ; l'événement principal (alarme, cri) noyé dans le bruit de fond d'un enregistrement environnemental. L'objectif de la séparation de sources est de récupérer, à partir d'un ou plusieurs signaux mixtes, la forme d'onde ou le spectre de chaque source indépendante.
Dans le domaine de la parole, la séparation multi-locuteurs est une application centrale : le modèle doit, sans disposer de pistes séparées par microphone, répartir plusieurs voix qui se chevauchent dans différents canaux en se basant sur l'empreinte vocale, la structure temps-fréquence et les caractéristiques du locuteur. Ce type de capacité améliore non seulement les performances de l'ASR multi-locuteurs, mais fournit également une entrée plus propre pour la séparation et l'étiquetage des locuteurs (Diarization). Dans le domaine musical, la séparation voix/accompagnement (séparation de la voix chantée) permet d'extraire d'une chanson mixée une piste vocale claire et une piste d'accompagnement pure, utilisables pour les reprises, les remix, le karaoké, l'analyse musicale, etc. De même, la séparation son ambiant/son principal peut être utilisée dans les scénarios de sécurité et d'IoT pour extraire les sons d'événements critiques (comme un bris de verre, un conflit) d'un arrière-plan complexe.
Au niveau des modèles, la séparation de sources nécessite généralement une capacité de modélisation plus forte et des architectures plus complexes que l'amélioration ordinaire. Conv-TasNet, Demucs, Wave-U-Net et d'autres réseaux de bout en bout peuvent effectuer directement une décomposition multi-sources dans le domaine temporel ; dans le domaine spectral, on trouve couramment des structures telles que des U-Net multi-branches, des mécanismes d'attention et d'estimation de masques, qui prédisent des masques ou spectres spécialisés pour différentes sources. Avec la croissance des données d'entraînement et des ressources de calcul, les modèles modernes de séparation de sources sont désormais capables de produire, dans des environnements de réverbération et de bruit assez complexes, des pistes séparées de haute qualité utilisables pour la création et l'analyse réelles, offrant ainsi une base solide pour l'embellissement vocal en streaming, les réunions multi-locuteurs, la production musicale et la recherche audio.## 4.2 Reconnaissance vocale et technologies du locuteur (ASR & Speaker)
Après avoir réalisé le prétraitement, l'amélioration et la séparation au niveau de la forme d'onde, nous pouvons enfin poser des questions de plus haut niveau : « Que dit l'audio ? » « Qui parle ? » « Quand et qui parle ? » Cette couche se concentre sur diverses tâches de « compréhension et d'annotation » autour de la parole elle-même : la reconnaissance automatique de la parole (ASR), l'identification et la vérification du locuteur, la segmentation et l'étiquetage du locuteur (Diarization), ainsi que la détection de mots d'activation et de mots-clés (KWS) orientée vers l'interaction.
Du point de vue des produits, cette couche est le cœur de la plupart des « produits vocaux » : la saisie vocale, la transcription de réunions, l'analyse des enregistrements du service client, le contrôle qualité intelligent du service client, les enceintes connectées et l'interaction vocale automobile, les robots téléphoniques, la vérification par empreinte vocale dans le domaine financier, etc., dépendent presque tous directement de ces technologies. Elles transforment le « son propre » de la couche précédente en séquences de texte, en étiquettes de locuteur ou en événements de mots-clés, constituant ainsi l'un des ponts les plus importants entre le monde audio et le monde sémantique.
- Scénarios
- Reconnaissance automatique de la parole (ASR) : sous-titrage en temps réel, saisie vocale, enregistrement de réunions et de cours, transcription des appels du service client, offrant aux utilisateurs un canal instantané « de l'auditif au texte ».
- Identification et vérification du locuteur : « déverrouillage par empreinte vocale » et « vérification par empreinte vocale » dans les téléphones, les banques et les centres d'appels, ainsi que la recherche d'un locuteur spécifique dans des enregistrements volumineux.
- Segmentation et étiquetage du locuteur (Diarization) : dans les réunions, les entretiens et les tables rondes, répondre automatiquement à « qui parle et quand », pour réaliser une « transcription par locuteur ».
- Détection de mots d'activation et de mots-clés (KWS) : détection du mot d'activation dans les enceintes connectées et les systèmes automobiles (« Hey Siri », « OK Google »), ainsi que la capture de phrases clés dans les enregistrements du service client et le contrôle qualité (comme « réclamation », « remboursement », « demande d'escalade », etc.).
- Principes La plupart des tâches de cette couche peuvent être considérées uniformément comme un alignement temporel et un étiquetage de séquence sur la séquence audio :
- ASR : étant donné un segment de parole, apprendre la correspondance entre les caractéristiques acoustiques et la séquence de texte, en utilisant souvent CTC, RNN-Transducer (RNN-T) ou des architectures de bout en bout basées sur l'attention ; les modèles modernes utilisent généralement un pré-entraînement à grande échelle (comme Wav2Vec 2.0, Whisper, etc.) suivi d'un fine-tuning.
- Identification du locuteur : extraire de l'audio un plongement de locuteur (speaker embedding) de dimension fixe (comme x-vector, ECAPA-TDNN). Dans cet espace de plongement, les voix d'une même personne sont proches les unes des autres, tandis que celles de personnes différentes sont éloignées, puis un modèle de métrique ou de classification permet de réaliser l'identification et la vérification.
- Segmentation et étiquetage du locuteur (Diarization) : en exploitant de manière combinée les plongements d'empreinte vocale, la VAD, le clustering par segments ou les réseaux de bout en bout (EEND), attribuer une étiquette de locuteur à chaque tranche temporelle, reconstituant ainsi une « chronologie multi-locuteurs sur l'axe temporel ».
- KWS : effectuer une détection à faible latence avec un petit modèle sur un flux audio continu, en réalisant une correspondance de motifs locaux et une évaluation de confiance pour des mots d'activation ou des mots-clés prédéfinis, en conciliant faible puissance de calcul et rappel élevé.
- Modèles Le spectre de modèles pour l'ASR et les technologies du locuteur comprend à la fois des architectures de bout en bout et des modèles de plongement spécialisés ainsi que des méthodes de clustering :
- ASR : Wav2Vec 2.0, Conformer, Whisper, RNN-T, Citrinet, etc., utilisant majoritairement des structures convolution + auto-attention ou purement auto-attentives, prenant en charge le multilinguisme, les grands vocabulaires et les longs contextes.
- Plongement de locuteur : ECAPA-TDNN, x-vector, i-vector, etc., obtenus par entraînement de classification ou apprentissage métrique sur de grandes quantités de données de locuteurs, afin d'obtenir un espace de caractéristiques de locuteur robuste.
- Diarization : du pipeline traditionnel VAD + segmentation + clustering, aux méthodes de bout en bout comme l'End-to-End Diarization (EEND) qui produisent directement une matrice « instant × locuteur ».
- Détection de mots d'activation/mots-clés : frontaux légers CNN/RNN/Transformer combinés à CTC ou à des mécanismes de porte, intégrés localement sur l'appareil, pour une écoute toujours active avec une puissance de calcul et une latence ultra-faibles.
4.2.1 Reconnaissance automatique de la parole (ASR) : transformer le « son » en « texte »
La reconnaissance automatique de la parole (ASR) est le canal principal « audio → texte » : que ce soit pour la saisie vocale, la transcription de réunions, le sous-titrage intelligent ou l'analyse des enregistrements du service client, la première étape consiste toujours à convertir avec précision ce que dit l'utilisateur en texte. Les systèmes ASR modernes adoptent majoritairement une architecture de bout en bout : à partir des caractéristiques acoustiques (comme le spectre de Mel ou directement la forme d'onde), en passant par une série de réseaux profonds (comme Conformer, Citrinet, des Encodeurs basés sur Transformer), ils produisent directement une séquence de texte ou une séquence de tokens correspondante.
En termes de modélisation, les principales difficultés de l'ASR incluent les dépendances à long terme, le multilinguisme et les dialectes, les variations d'accent, les paroles superposées, le bruit de fond et les noms propres spécifiques au domaine. Pour y faire face, la direction dominante actuelle consiste à utiliser le pré-entraînement auto-supervisé sur de grandes quantités d'audio non étiqueté (comme Wav2Vec 2.0, HuBERT), ou à effectuer un entraînement supervisé à grande échelle sur des données multilingues et multi-tâches (comme Whisper), puis à affiner avec une quantité relativement faible de données spécifiques au domaine, afin d'atteindre une meilleure robustesse à travers différentes langues, accents et scénarios.
Au niveau produit, l'ASR est généralement fournie sous forme de « SDK de saisie vocale », « API de reconnaissance vocale dans le cloud », « service de transcription de réunions », etc. : le front-end peut être une reconnaissance en continu en temps réel (RNN-T, Transformer en continu, etc.), tandis que le back-end peut renforcer la reconnaissance de noms de personnes, de lieux, de marques et de termes métier spécifiques via l'injection de mots d'activation, des vocabulaires personnalisés et des contraintes contextuelles. Ces résultats de reconnaissance constituent souvent la base du NLP, des systèmes de dialogue et de l'analyse de données en aval.
4.2.2 Identification du locuteur et segmentation avec étiquetage : répondre à « qui » et « quand parle-t-on »
Par rapport à « ce qui est dit », « qui parle » est tout aussi important dans de nombreuses applications : les scénarios financiers, gouvernementaux, de service client et de sécurité nécessitent la reconnaissance par empreinte vocale pour vérifier l'identité ou détecter les risques ; tandis que les scénarios de réunions et d'entretiens nécessitent de savoir « qui a dit chaque phrase », afin de permettre la transcription par locuteur, les statistiques de prise de parole et l'analyse comportementale.
Dans la tâche d'identification/vérification du locuteur (Speaker Recognition), l'objectif du système est le suivant : étant donné un segment de parole, déterminer qui est le locuteur, ou s'il s'agit de la même personne qu'un locuteur enregistré. Les systèmes modernes utilisent généralement des modèles comme ECAPA-TDNN, x-vector, pour extraire un vecteur de plongement de locuteur de dimension fixe à partir d'un segment de parole. Pendant la phase d'entraînement, une combinaison de classification de locuteurs et d'apprentissage métrique garantit que les plongements d'une même personne sont plus regroupés et que la distance entre les plongements de personnes différentes est plus grande ; pendant la phase d'inférence, on utilise le plus proche voisin ou un discriminateur en aval (comme PLDA, Cosine scoring with margin) pour la vérification et l'identification. Ainsi, le système peut répondre avec un certain degré de confiance « s'il s'agit de la même personne », même en environnement téléphonique, microphonique ou bruité.
La segmentation et l'étiquetage du locuteur (Diarization) répondent ensuite à « qui parle et quand ». Les approches traditionnelles comprennent généralement trois étapes : d'abord utiliser la VAD pour identifier les segments contenant de la parole, puis découper l'audio long en courts segments, extraire un plongement de locuteur pour chaque segment, et enfin effectuer un clustering dans l'espace de plongement et une concaténation temporelle pour obtenir une chronologie multi-locuteurs. Les méthodes plus avancées de type End-to-End Diarization (EEND) tentent de produire directement une matrice booléenne « temps × locuteur » à partir des caractéristiques audio, en apprenant de bout en bout les motifs complexes tels que les paroles superposées et les changements de locuteur. La Diarization est extrêmement précieuse dans les scénarios de réunions, d'émissions d'entretien, de transcriptions judiciaires et de service client téléphonique, et est souvent combinée à l'ASR pour former des « transcriptions textuelles avec étiquettes de locuteur ».
4.2.3 Détection de mots d'activation et de mots-clés : l'« oreille » orientée vers l'interaction et la surveillance
Dans un flux audio continu, chaque seconde ne mérite pas d'être entièrement reconnue et stockée. Le rôle de la détection de mots d'activation et de mots-clés (KWS) est celui d'un « gardien » toujours actif :
- Dans les enceintes connectées, les systèmes automobiles et les assistants de smartphone, le module KWS est chargé de détecter le mot d'activation (comme « Hey Siri », « OK Google », « Xiao Ai Tong Xue »). Une fois le mot d'activation détecté, le flux audio est transmis aux systèmes ASR et de dialogue, plus coûteux en calcul.
- Dans les scénarios de service client intelligent, de contrôle qualité et de conformité, le KWS marque et alerte sur les phrases clés apparaissant dans les enregistrements ou les appels en temps réel (comme « réclamation », « retour », « défense des droits », « fraude »), fournissant des points de déclenchement pour l'analyse en aval et les stratégies de contrôle qualité.
Sur le plan technique, le KWS doit généralement fonctionner sous des contraintes de puissance de calcul et de latence extrêmement faibles, en particulier pour la détection de mots d'activation sur les appareils locaux : le modèle est souvent un petit frontal CNN/RNN/Transformer, suivi d'une tête de discrimination CTC ou à porte, détectant les motifs acoustiques de mots spécifiques, et utilisant des fenêtres glissantes et un lissage de confiance pour éviter les faux déclenchements. Pour les scénarios de contrôle qualité par mots-clés, on peut adopter une approche ASR plus performante + correspondance de mots-clés/regex + analyse statistique, ou entraîner directement un modèle de tagging de mots-clés de bout en bout. Quelle que soit la forme, le KWS ajoute essentiellement une couche de filtrage sémantique au « niveau événementiel » sur le flux vocal, constituant une interface importante reliant le monde audio à la logique d'interaction.## 4.3 Compréhension audio et musicale (Audio Event & Music Understanding)
Tous les contenus audio ne sont pas centrés sur la « parole ». Dans la réalité, de nombreux scénarios impliquent des sons environnementaux, des événements sonores et de la musique, qui se concentrent davantage sur les questions suivantes : « Quel événement sonore s'est produit ? » « Quel est le paysage sonore ambiant ? » « Quel est le style de cette chanson, quels instruments sont utilisés, quel est le tempo et la tonalité ? » Cet ensemble de capacités est regroupé sous le terme de compréhension audio et musicale, et s'articule principalement autour de la détection d'événements sonores, de la classification environnementale/scénique et de la compréhension des attributs musicaux.
Du point de vue produit, les technologies de compréhension audio soutiennent un large éventail d'applications telles que la surveillance acoustique de sécurité, les capteurs acoustiques IoT, l'adaptation environnementale des appareils intelligents, la recommandation et la classification musicale, la reconnaissance des droits d'auteur musicaux, la recherche musicale et l'assistance à la création. À l'instar de la « classification d'images + classification fine » dans le domaine visuel, cette couche structure l'espace sonore continu et complexe en étiquettes d'événements discrètes, en vecteurs d'attributs multidimensionnels et en descriptions stylistiques.
- Scénarios
- Détection d'événements sonores : détecter les alarmes, les bris de verre, les pleurs de bébé, les impacts, etc., pour la surveillance de sécurité, les bâtiments intelligents, les systèmes de sécurité automobile et les alertes industrielles.
- Classification environnementale/scénique : identifier des paysages sonores tels que « intérieur/extérieur », « bureau/voiture/rue/métro », afin de fournir des bases pour les stratégies de réduction de bruit, le gain adaptatif et le changement de mode des appareils intelligents.
- Compréhension musicale et recherche d'information musicale (MIR) : classification de genres, identification d'instruments, analyse du tempo et de la tonalité, soutenant la recommandation musicale, la génération de playlists, la recherche musicale, la reconnaissance des droits d'auteur et les assistants de création.
- Principes La compréhension audio et musicale repose principalement sur des caractéristiques temps-fréquence + réseaux de neurones profonds pour la classification ou l'étiquetage multi-labels :
- Utilisation de caractéristiques telles que le log Mel-spectrogramme pour convertir l'audio en « images acoustiques », puis exploitation de structures CNN, CRNN ou Transformer pour la reconnaissance de motifs temps-fréquence.
- Pour la détection d'événements sonores, on adopte souvent une sortie multi-labels et multi-temporelle, en prédisant la présence de chaque événement le long de l'axe temporel, parfois combinée avec des étiquettes faiblement supervisées et l'apprentissage multi-instances.
- Pour la classification environnementale/scénique, l'accent est mis sur les caractéristiques statistiques à long terme et les motifs de fond, nécessitant généralement une modélisation sur des fenêtres plus longues.
- Les tâches de compréhension musicale intègrent des connaissances en théorie musicale pour modéliser le tempo (BPM), les temps, la tonalité, les accords et la structure ; certaines tâches utilisent l'apprentissage auto-supervisé ou contrastif pour pré-entraîner des embeddings musicaux, puis effectuer un fine-tuning en aval.
- Modèles Les modèles courants de compréhension audio sont généralement pré-entraînés sur des jeux de données publics (tels qu'AudioSet), puis transférés vers des tâches spécifiques :
- VGGish, YAMNet, PANNs et d'autres modèles CNN/CRNN, pré-entraînés sur des données audio à grande échelle, peuvent être utilisés pour diverses tâches d'événements audio et de paysages sonores.
- AST (Audio Spectrogram Transformer) et d'autres modèles basés sur Transformer appliquent directement l'auto-attention sur les spectrogrammes, offrant une capacité de modélisation temps-fréquence globale plus puissante.
- Les modèles MusicTagging / MIR spécifiques à la musique sont pré-entraînés sur des millions de chansons pour l'étiquetage ou l'embedding, utilisés pour les étiquettes de style/émotion/instrument, la recherche musicale et la recommandation.
4.3.1 Événements sonores et paysages sonores environnementaux : permettre aux appareils de « comprendre l'environnement »
Dans les domaines de la sécurité, de l'IoT, des villes intelligentes et des systèmes embarqués, les caméras seules ne suffisent pas à appréhender pleinement l'état de l'environnement. L'objectif de la détection d'événements sonores est de permettre au système de « comprendre » les événements critiques : lorsqu'un bris de verre, une alarme, des pleurs de bébé, une collision, un cri, une bagarre ou un acte de vandalisme se produit, le système peut l'identifier dans le signal audio et émettre une alerte. Contrairement à la reconnaissance vocale, ces événements sont souvent brefs, non verbaux, avec des plages de fréquences et des formes d'énergie variées, et peuvent fortement se superposer au bruit de fond.
La classification environnementale/scénique se concentre quant à elle sur les paysages sonores (acoustic scene) persistants : s'agit-il d'un bureau calme, d'une rue animée, d'une voiture, d'une gare TGV ou d'un café ? Le système peut ajuster automatiquement l'intensité de la réduction de bruit, les paramètres d'annulation d'écho, l'orientation du faisceau du réseau de microphones, et même modifier la stratégie d'interaction (par exemple, en utilisant des retours plus courts en voiture, ou en augmentant le volume de sortie dans une rue bruyante). Dans les scénarios IoT, un « réseau acoustique » composé de plusieurs capteurs sonores peut être utilisé pour la surveillance à long terme et l'analyse statistique de l'état environnemental.
Sur le plan technique, ces deux types de tâches adoptent majoritairement une approche de classification multi-labels + modélisation temporelle : l'audio est converti en spectrogramme de Mel, des modèles tels que VGGish, PANNs, AST ou similaires sont utilisés pour l'extraction de caractéristiques, puis un pooling temporel ou un modèle séquentiel produit l'activation de chaque étiquette le long de l'axe temporel. Comme de nombreux jeux de données ne fournissent que des « étiquettes au niveau du segment » (weak labels), les modèles doivent souvent recourir à l'apprentissage multi-instances, au pooling par auto-attention et à d'autres techniques pour apprendre la localisation temporelle des événements en supervision faible.
4.3.2 Compréhension et étiquetage musical : des « tags de playlist » à « l'analyse structurelle »
Dans le domaine musical, l'objectif de la compréhension audio n'est pas seulement de savoir « quelle est cette chanson », mais aussi de répondre aux questions suivantes : « Quel est le style de cette chanson ? Quels instruments sont utilisés ? Quel est le tempo ? Quelle est la tonalité et la structure harmonique générale ? » Ces informations soutiennent d'une part la recommandation musicale et la curation de playlists, et d'autre part fournissent des « métadonnées musicales » structurées pour les créateurs et les modèles génératifs.
La tâche de classification de genres attribue une chanson à différents styles tels que pop, rock, classique, hip-hop, électronique, Lo-Fi, en fonction de ses caractéristiques acoustiques et structurelles globales ; l'identification d'instruments distingue les empreintes acoustiques de différents instruments comme la batterie, la basse, la guitare, le piano, les cordes dans les caractéristiques temps-fréquence, et peut être utilisée pour les statistiques d'instruments, la recherche musicale et l'analyse de mixage. L'analyse du tempo et de la tonalité estime le BPM, la position des temps, la signature rythmique et la tonalité principale (Key), fournissant une base pour la correspondance rythmique, l'harmonisation automatique, le mixage DJ et la synchronisation des pistes audio de jeux.
En termes de modèles, la compréhension musicale s'appuie largement sur les modèles audio génériques (tels que PANNs, AST), mais il existe également de nombreux modèles et embeddings pré-entraînés spécifiquement dédiés à la recherche d'information musicale (MIR). L'approche typique consiste à effectuer un apprentissage multi-labels de tags musicaux (genre, humeur, instrument, époque, etc.) sur des jeux de données musicaux à grande échelle, afin d'obtenir un espace d'embedding musical, puis de fine-tuner ou d'effectuer une inférence zero-shot sur les tâches spécifiques mentionnées ci-dessus. Grâce à ces modèles, les plateformes musicales peuvent réaliser une classification et une recommandation musicale plus intelligentes, les plateformes de droits d'auteur peuvent renforcer les empreintes musicales et la recherche de similarité, et les outils de création peuvent exploiter ces capacités de compréhension pour recommander des accompagnements appropriés aux utilisateurs, étendre des styles similaires ou générer automatiquement des structures musicales.## 4.4 Génération vocale et audio (TTS / VC / Music Generation)
Après avoir « nettoyé », « reconnu » et « compris » l'audio, la question naturelle suivante est : « Pouvons-nous faire en sorte que les machines "parlent", "chantent" ou même "composent" directement ? » C'est le monde de la génération vocale et audio : de la synthèse vocale (TTS), de la conversion d'une voix à une autre (VC / Voice Cloning), à la génération musicale et d'effets sonores à plus grande échelle, jusqu'à la synthèse de chant capable d'interpréter des paroles et des mélodies. Comme pour la génération d'images, cette couche ne se contente plus d'étiqueter ou d'extraire des structures à partir de données existantes, mais « crée » activement de nouveaux contenus sonores.
Au niveau produit, ces capacités ont déjà pénétré de nombreuses applications : les gammes de produits vocaux comme OpenAI TTS, ElevenLabs, Volcano Engine et Minimax fournissent des voix synthétiques de haute qualité aux applications ; les plateformes de génération musicale comme Suno et Udio offrent aux créateurs et même aux utilisateurs ordinaires la possibilité de passer d'un texte à une musique complète ; les jeux, vidéos, VTubers et humains numériques s'appuient sur ces modèles pour le doublage et le chant, réduisant considérablement le seuil de production de contenu.
- Scénarios
- Synthèse vocale (TTS) : diffusion d'actualités, annonces de navigation, réponses vocales de service client intelligent, lecture de contenu dans les applications éducatives, lecture d'écran accessible, etc., nécessitant la conversion de texte arbitraire en une voix naturelle, claire et contrôlable.
- Conversion vocale / Clonage vocal (VC / Voice Cloning) : modifier le timbre du locuteur tout en préservant le sens et la prosodie, pour réaliser un « changement de voix » ou un « clonage d'empreinte vocale en few-shot » (dans des conditions strictes de conformité).
- Génération musicale et d'effets sonores : générer des musiques de fond et des effets sonores adaptés (sons d'ambiance, effets sonores d'interface, sons de transition) pour les courtes vidéos, les jeux, la publicité, les podcasts, etc.
- Synthèse de chant et reprises : étant donné une mélodie et des paroles, faire chanter un chanteur virtuel, ou générer une reprise dans un style/timbre spécifique dans des conditions de conformité.
- Principe La génération vocale et audio adopte généralement une approche de modélisation hiérarchique « représentation de haut niveau → forme d'onde de bas niveau » :
- En TTS, le texte est d'abord converti en une séquence de phonèmes/syllabes/caractères, puis passé à travers des modèles de séquence vers caractéristiques acoustiques (comme le mel-spectrogramme) tels que Tacotron, FastSpeech, VITS, etc., et enfin un vocodeur neuronal (WaveNet, WaveRNN, HiFi‑GAN, etc.) génère une forme d'onde haute fidélité à partir des caractéristiques.
- En Voice Conversion, en découplant « ce qui est dit (contenu) » et « qui le dit (timbre) », la représentation du contenu est extraite de la voix source, puis combinée avec l'embedding du locuteur cible ou les conditions du codec pour générer une nouvelle forme d'onde vocale.
- La génération musicale et d'effets sonores peut s'appuyer sur des représentations tokenisées (comme les notes, le MIDI, les spectres/codec tokens encodés), en utilisant des modèles génératifs autorégressifs, de diffusion (Diffusion) ou de codec neuronal pour échantillonner de nouveaux audios à partir de texte, d'audio de référence ou de paramètres structurels.
- La synthèse de chant introduit, sur la base du TTS, un contrôle plus fin de la prosodie, de la trajectoire de hauteur et du chant, avec généralement une modélisation explicite ou implicite de la hauteur, de la durée, des liaisons, du vibrato, etc.
- Modèles Les principales approches techniques actuelles pour la génération vocale et audio incluent :
- TTS : Tacotron / Tacotron2, la famille FastSpeech (TTS non autorégressif), VITS, etc. pour la conversion du texte en mel-spectrogramme ou codec tokens ; WaveNet, WaveRNN, HiFi‑GAN, WaveGlow, etc. comme vocodeurs ou décodeurs pour la conversion des caractéristiques en forme d'onde. Les récents modèles TTS basés sur la diffusion (Diffusion-based TTS) et les modèles de codec neuronal améliorent encore le naturel et la diversité.
- Voice Conversion / Cloning : frameworks VC basés sur le speaker embedding + encodeur de contenu, ainsi que modèles de conversion vocale utilisant des codecs neuronaux, prenant en charge le clonage de timbre en few-shot et le transfert de locuteur跨语言. Ces technologies sont désormais déployées commercialement par de nombreuses plateformes, offrant des services de clonage vocal pratiques. En Chine, les plateformes courantes incluent Volcano Engine, Minimax, la plateforme ouverte iFlytek, la plateforme de modèle Qianfan de Baidu AI Cloud, la plateforme d'interaction vocale intelligente d'Alibaba Cloud, etc. ; à l'international, on trouve des plateformes majeures comme ElevenLabs, Resemble.ai, Play.ht, etc. Parmi elles, la capacité de clonage vocal de Volcano Engine prend en charge l'entraînement rapide avec peu d'échantillons audio, adaptée au déploiement commercial dans des scénarios comme le service client intelligent et les livres audio ; Minimax, grâce à ses avantages en matière de grands modèles, réalise une adaptation naturelle entre le timbre cloné et le contenu textuel, tout en prenant en charge le transfert de timbre跨语言 ; la plateforme ouverte iFlytek excelle en clarté de prononciation chinoise et en expressivité émotionnelle, servant largement les secteurs de l'éducation et de la radiodiffusion.
- Génération musicale et d'effets sonores : MusicLM, MusicGen, ainsi que les modèles de type Suno / Udio, généralement basés sur des conditions textuelles et/ou audio de référence, utilisant des architectures autorégressives ou de diffusion sur des codec tokens discrets pour générer de l'audio longue durée.
4.4.1 Synthèse vocale (TTS) : faire « parler naturellement » les machines
La synthèse vocale (TTS) est la tâche de génération vocale la plus intuitive : saisir un texte et produire une parole naturelle et fluide, idéalement presque indiscernable de la voix humaine. Les systèmes TTS modernes se divisent généralement en deux étapes principales : du texte aux caractéristiques acoustiques (comme le mel-spectrogramme), puis des caractéristiques acoustiques à la forme d'onde.
Dans la première étape, le modèle doit traiter la tokenisation, la phonétisation, la désambiguïsation des polyphones, la ponctuation et les pauses, la prédiction prosodique, etc. Les modèles typiques incluent la famille Tacotron basée sur l'attention et la famille FastSpeech basée sur la prédiction de durée, cette dernière accélérant significativement la synthèse et améliorant la stabilité grâce à une architecture non autorégressive. Ces dernières années, les modèles de bout en bout comme VITS ont fusionné la modélisation acoustique et le vocodeur dans un cadre unifié, simplifiant davantage le système.
Dans la deuxième étape, les vocodeurs neuronaux (Neural Vocoder) tels que WaveNet, WaveRNN, HiFi‑GAN, WaveGlow, etc. sont responsables de la conversion du mel-spectrogramme ou d'autres représentations intermédiaires en une forme d'onde haute fidélité. Un vocodeur bien entraîné peut non seulement générer une voix naturellement claire, mais aussi restituer fidèlement différents timbres, émotions et styles. Les systèmes TTS modernes prennent également en charge la modélisation multi-locuteurs (via le speaker embedding), le contrôle du timbre/débit/émotion (comme « excité », « calme », « voix de broadcast »), ainsi que le TTS跨语言, offrant des capacités vocales hautement personnalisables pour diverses applications.
4.4.2 Conversion vocale et clonage d'empreinte vocale : changer « qui parle »
Dans de nombreux scénarios de création et d'assistance, nous souhaitons modifier le timbre ou le style du locuteur sans changer le contenu ni la prosodie : c'est la tâche de la conversion vocale (VC) et du clonage vocal (Voice Cloning). La première vise principalement à « transformer la voix de A en celle de B » ; la seconde met davantage l'accent sur la capacité à « apprendre un nouveau timbre avec seulement quelques échantillons, voire quelques phrases ».
Techniquement, la VC adopte généralement une approche de « découplage contenu–timbre » : un encodeur de contenu extrait les informations de discours et de prosodie (qui peuvent être des unités discrètes basées sur l'ASR ou des représentations continues auto-supervisées), puis un générateur conditionnel combine l'embedding du locuteur cible ou les conditions du codec pour générer une nouvelle voix avec le timbre cible mais un sens et un rythme essentiellement inchangés. L'introduction de codecs neuronaux permet d'éditer directement la voix dans l'espace d'encodage/décodage, réalisant une conversion haute fidélité.
Le clonage vocal met l'accent, sur la base de la VC, sur la capacité few-shot et la généralisation : le modèle doit extraire une représentation stable du locuteur à partir de quelques échantillons, voire de quelques secondes d'audio, et générer une voix synthétique cohérente en style et proche en timbre. Cette capacité est très utile pour les personnages virtuels, les assistants personnalisés, la personnalisation de personnages de jeux, l'accélération du doublage, etc., mais elle doit également respecter strictement les normes légales et éthiques, en garantissant une utilisation uniquement dans le cadre d'une autorisation conforme, d'un consentement éclairé et d'un contrôle de sécurité, afin d'éviter les abus ou les risques d'usurpation d'identité.
4.4.3 Génération musicale et d'effets sonores : du prompt à un paysage sonore complet
Par rapport à la génération vocale, la génération musicale et d'effets sonores est plus complexe en termes de structure et d'échelle temporelle : la musique dure souvent plus longtemps, avec une structure interne plus riche (sections, mélodie, harmonie, rythme) ; les effets sonores sont très variés, allant des environnements naturels (pluie, vent, vagues) aux sons synthétiques (clics d'interface, sons de notification, effets sonores de compétences de jeu), chacun ayant ses propres motifs. Ces dernières années, les modèles basés sur les codecs neuronaux, la modélisation de séquences et la diffusion ont rendu possible la « génération de musique/effets sonores complets à partir de texte ».
Dans la génération musicale, des modèles comme MusicLM, MusicGen, Suno, Udio encodent généralement l'audio en séquences discrètes de codec tokens, puis entraînent des modèles génératifs conditionnés par le texte ou multimodaux dans cet espace discret. L'utilisateur n'a qu'à fournir une description textuelle (comme « musique de fond Lo‑Fi au rythme modéré, chaleureuse et apaisante, adaptée à la concentration pour étudier », « musique orchestrale électronique tendue, adaptée à une bande-annonce de science-fiction »), ou télécharger un extrait musical de référence, et le modèle peut générer une musique de haute qualité d'une durée de plusieurs dizaines de secondes, voire de plusieurs minutes. Pour les créateurs, c'est à la fois une source d'inspiration et un outil puissant pour le prototypage rapide et la génération de musique de fond.
Pour la génération d'effets sonores, des techniques similaires permettent de générer des effets sonores d'interface, des sons de notification, des sons d'ambiance de jeu, etc. à partir de prompts textuels, aidant les équipes produit et jeu à itérer rapidement sur le design sonore. Combinées aux capacités de compréhension audio de la couche précédente, elles permettent également l'alignement de style et l'adaptation au contexte, par exemple en faisant correspondre automatiquement le style des effets sonores en fonction de l'image ou du niveau de jeu.
Qu'il s'agisse de génération vocale, musicale ou d'effets sonores, les capacités de cette couche évoluent rapidement : des premiers sons mécaniques fortement synthétiques aux contenus haute fidélité aujourd'hui presque indiscernables de la voix humaine et de la musique professionnelle. Parallèlement, les questions de droits d'auteur, de conformité, de traçabilité et de contrôlabilité deviennent de plus en plus cruciales — comment fournir des outils de création puissants tout en protégeant les droits légitimes des créateurs et des utilisateurs restera un enjeu clé auquel cette couche technologique devra continuellement faire face.# 5. Vidéo (Video)
Dans le système d'IA multimodale, la modalité vidéo est responsable de la compréhension et de la génération de « signaux visuels évoluant dans le temps ». Comparée à une image unique, la vidéo contient non seulement des informations de texture, de forme et de disposition dans la dimension spatiale, mais aussi de riches indices dans la dimension temporelle : le début et la fin des actions, les trajectoires de mouvement des objets, le rythme des transitions de plans, etc. Qu'il s'agisse de la reconnaissance de comportements dans la vidéosurveillance, de l'analyse de mouvements dans l'entraînement sportif, du montage en un clic sur les plateformes de courtes vidéos ou de l'analyse intelligente de vidéos longues, tout repose fondamentalement sur un ensemble de capacités de compréhension et de génération articulées autour de « séquences d'images ».
D'un point de vue technique, les capacités vidéo peuvent être globalement divisées en plusieurs couches : l'amélioration et la restauration vidéo de bas niveau garantissent que l'on « voit clairement » ; la compréhension vidéo et l'analyse structurelle répondent à la question « que s'est-il passé » ; sur cette base, les tâches multimodales vidéo + langage transforment le contenu vidéo en descriptions structurées et en interfaces de recherche exploitables par du texte ; ensuite, la génération et l'édition vidéo partent inversement de textes ou de vidéos d'exemple pour générer ou réorganiser du contenu vidéo de manière contrôlable ; enfin, une catégorie d'applications représentée par les humains numériques / avatars virtuels combine la parole, le langage, le mouvement et le rendu vidéo pour constituer une nouvelle forme orientée vers l'interaction et la production de contenu.
Dans la suite, nous organisons également les capacités liées à la vidéo en partant des capacités par couches.## 5.1 Traitement vidéo traditionnel : de « lisible » à « agréable et utilisable »
Au niveau le plus fondamental de la technologie vidéo, ce qui nous préoccupe en premier lieu n'est pas « qui est dans l'image » ou « quel événement se produit », mais plutôt si la vidéo elle-même est stable, nette et confortable : l'image tremble-t-elle, est-elle floue, y a-t-il beaucoup de bruit, le format est-il adapté à l'affichage sur le terminal cible. La couche de traitement vidéo traditionnel travaille principalement au niveau des séquences de trames et des pixels spatio-temporels. Grâce à des opérations d'amélioration, de restauration, de super-résolution, d'interpolation de trames et de réajustement de trames, elle transforme une vidéo brute bruitée, tremblante, de résolution insuffisante ou de format inadapté en un « signal temporel de haute qualité », plus adapté au visionnage et à l'analyse ultérieure. On peut la comparer à la « restauration et amélioration d'image + correction géométrique » dans le domaine de l'image, à la différence près qu'ici, une dimension temporelle de lissage et de cohérence est introduite.
Du point de vue produit, cette couche de capacités est presque « invisible » mais sous-tend tous les produits vidéo : l'amélioration de qualité en un clic dans les logiciels de montage, l'amélioration automatique de qualité sur les plateformes de courtes vidéos, la super-résolution intelligente et l'interpolation de trames des boîtiers TV et lecteurs, les services de restauration de films anciens, ainsi que le prétraitement multi-trames pour les modèles de détection/reconnaissance en amont, sont autant de manifestations concrètes du traitement vidéo traditionnel. Nous allons maintenant l'examiner sous les angles du scénario, du principe et du modèle, puis développer dans les sous-sections suivantes les directions clés que sont l'amélioration et la restauration vidéo, ainsi que la super-résolution et l'interpolation de trames.
- Scénarios Sur les plateformes de vidéo en ligne, les outils de montage, les systèmes de surveillance et les appareils terminaux, le traitement vidéo traditionnel intervient principalement dans les scénarios typiques suivants :
- Plateformes de contenu et outils de montage : lors du téléchargement ou de l'édition de courtes ou longues vidéos, l'amélioration de qualité en un clic, la stabilisation d'image, l'anti-tremblement et la réduction de bruit permettent à l'utilisateur de « filmer avec son téléphone et d'utiliser immédiatement le résultat » ; lors de l'importation de vidéos anciennes dans un projet de montage, la restauration et l'interpolation de trames les rendent visuellement plus cohérentes avec les nouvelles séquences.
- Cinéma et restauration de films anciens : la restauration numérique de films historiques, d'anciennes émissions de télévision et de contenus en définition standard permet d'éliminer les rayures, le bruit et les tremblements, de restaurer les couleurs et les détails, afin de fournir des versions de meilleure qualité pour la rediffusion, la réédition et la conservation d'archives numériques.
- Vidéosurveillance et dashcams : la réduction de bruit, le débrouillage, l'amélioration du contraste et la stabilisation d'image sur des images de surveillance en faible luminosité, sous pluie ou brouillard, ou fortement compressées, améliorent la robustesse des modules de détection et de reconnaissance en aval, facilitant ainsi la collecte de preuves et la traçabilité.
- Lecture sur terminal et amélioration côté appareil : les téléviseurs, décodeurs et lecteurs mobiles intègrent localement des fonctions de super-résolution et d'interpolation de trames, pour « mettre à niveau » le contenu existant en 720p/1080p et 24/30fps vers un rendu visuel proche de la 4K et du 60/120fps.
- Adaptation multi-terminal et distribution : pour couvrir à la fois les écrans verticaux des mobiles, les écrans horizontaux des tablettes et les grands écrans TV, l'adaptation portrait/paysage, le recadrage intelligent et le réajustement multi-format d'une même vidéo réduisent les coûts de montage manuel et de maintenance multi-versions.
- Principes Le traitement vidéo traditionnel ne comprend généralement pas directement les catégories sémantiques, mais modélise et optimise au niveau du signal spatio-temporel autour de la qualité d'image, de la stabilité et de la cohérence temporelle :
- Modélisation spatio-temporelle conjointe : en s'appuyant sur l'amélioration d'image par trame unique, on introduit l'information de la dimension temporelle. Grâce à l'estimation du flux optique, à la modélisation du mouvement de la caméra ou aux convolutions spatio-temporelles, les trames précédentes et suivantes servent d'« observations » supplémentaires pour réaliser une fusion multi-trames et une suppression du bruit le long de l'axe temporel.
- Stabilisation d'image et anti-tremblement : le tremblement de la caméra est modélisé comme une séquence de transformations géométriques (translation, rotation, zoom, etc.) sur une période donnée. En estimant la trajectoire du mouvement global ou local, on la lisse puis on reprojette dans la vidéo de sortie, afin d'obtenir un effet de stabilisation et d'élimination des secousses.
- Super-résolution vidéo et interpolation de trames : la super-résolution vidéo améliore la résolution spatiale par alignement multi-trames et reconstruction des détails tout en maintenant la cohérence temporelle ; l'interpolation de trames, via l'estimation du flux optique ou des réseaux de génération spatio-temporelle, synthétise des trames intermédiaires entre deux trames existantes, présentant le mouvement à une fréquence d'images plus élevée pour une fluidité accrue.
- Réajustement de trames et cadrage automatique : en détectant et en suivant le sujet dans la vidéo (personne, objet), on estime sa trajectoire sur l'axe temporel, puis on sélectionne une fenêtre de recadrage adaptée à chaque trame en fonction du rapport hauteur/largeur de la résolution cible, tout en lissant temporellement le mouvement de la fenêtre de recadrage pour garantir un rendu naturel.
- Compromis entre qualité et efficacité : le traitement hors ligne dans le cloud permet de viser une qualité d'image optimale avec des modèles complexes, tandis que sur mobile, lecteur et en temps réel, il faut maîtriser la taille du modèle, la complexité de calcul et la latence, en faisant des compromis fins sur la structure algorithmique et le framework d'inférence.
- Modèles Dans la mise en œuvre concrète, le traitement vidéo traditionnel combine des méthodes classiques de traitement du signal vidéo et des modèles d'apprentissage profond, en trouvant un équilibre entre qualité, efficacité et forme de déploiement :
- Méthodes classiques de traitement vidéo : la stabilisation et l'interpolation basées sur le flux optique, le filtrage temporel et la fusion multi-trames, le débruitage par correspondance de blocs et la suppression des artefacts de compression, etc., restent largement utilisés dans les scénarios à puissance de calcul limitée ou exigeant une certaine explicabilité.
- Modèles profonds de restauration et d'amélioration vidéo : les réseaux de super-résolution et d'amélioration multi-trames tels que EDVR, BasicVSR / BasicVSR++, la version vidéo de Real‑ESRGAN, etc., grâce à l'alignement et à l'agrégation de caractéristiques spatio-temporelles, surpassent significativement les méthodes traditionnelles en débruitage, défloutage, restauration des détails et suppression des artefacts de compression.
- Modèles profonds d'interpolation de trames : les réseaux d'interpolation comme DAIN, RIFE, FILM, etc., génèrent des trames intermédiaires par estimation explicite ou implicite du flux optique et fusion des caractéristiques intermédiaires. Comparés aux méthodes traditionnelles de flux optique + rééchantillonnage, ils sont plus stables dans les scénarios de mouvements complexes et d'occlusions.
- Restauration vidéo basée sur Transformer : l'utilisation de l'attention spatio-temporelle pour traiter de manière unifiée les textures spatiales et les dépendances temporelles offre une capacité de modélisation supérieure dans les scénarios de mouvements de caméra complexes et de multiples objets, tout en maîtrisant la charge de calcul à l'inférence via des mécanismes d'attention creuse (sparse attention) et de fenêtre glissante.
- Produits et systèmes réels : l'amélioration intelligente de CapCut, les logiciels d'amélioration commerciaux comme Topaz Video Enhance, les pipelines d'amélioration de qualité de Bilibili et d'autres plateformes de courtes vidéos, les services SaaS de restauration de films anciens, etc., cascadent généralement plusieurs modèles et stratégies, en sélectionnant dynamiquement le chemin de traitement optimal selon le type de contenu et les conditions du terminal.
Dans l'ensemble, cette couche pose davantage les bases physiques et perceptuelles de la vidéo « en amont de la sémantique » : elle aide les utilisateurs à obtenir un confort visuel accru, tout en fournissant une entrée plus propre et plus stable aux modèles de détection, de reconnaissance et de génération situés en amont. Nous allons maintenant détailler les sous-directions que sont l'amélioration et la restauration vidéo, ainsi que la super-résolution et l'interpolation de trames.
5.1.1 Amélioration et restauration vidéo : du « regardable » au « beau à regarder »
Dans les conditions réelles de prise de vue, la vidéo est rarement « propre » : les secousses violentes dues à un appareil tenu à la main, le bruit élevé et l'aspect flou en basse luminosité, les artefacts de bloc et les bandes de couleur causés par la compression réseau, la décoloration et les rayures des anciens équipements d'enregistrement, tout cela rend la qualité vidéo nettement inférieure à l'idéal. L'objectif de l'amélioration et de la restauration vidéo est de restaurer au maximum une apparence stable, nette et naturelle, sans modifier le contenu sémantique de la vidéo, en transformant un contenu « à peine regardable » en quelque chose de « visuellement agréable, voire beau ».
Sur le plan temporel, l'amélioration et la restauration doivent d'abord résoudre le problème de stabilité. En effectuant une correspondance de caractéristiques ou une estimation du flux optique entre trames consécutives, on peut séparer le mouvement global de la caméra du mouvement local des objets, puis utiliser la trajectoire de caméra lissée pour re-projeter les trames de sortie, supprimant ainsi les secousses rapides et les micro-tremblements, et évitant la sensation de vertige chez le spectateur. Sur cette base, le débruitage, le défloutage et la suppression d'artefacts au niveau de l'image se concentrent davantage sur la modélisation conjointe spatio-temporelle : le débruitage multi-trames exploite la redondance entre trames adjacentes pour effectuer un traitement similaire à une « fusion multi-exposition » dans la direction temporelle, supprimant efficacement le bruit ISO élevé et le bruit de compression tout en préservant les textures de détail ; pour le flou de mouvement léger, on estime le noyau de flou ou on utilise un réseau profond de bout en bout pour effectuer un traitement de type déconvolution sur la séquence de trames, rendant à la fois l'arrière-plan statique et les sujets en mouvement plus nets.
Pour les films anciens et les contenus de faible qualité, la restauration implique également une « reconstruction » au niveau de la couleur et de la structure. Le vieillissement de la pellicule entraîne un jaunissement de l'image, une baisse de contraste, des rayures et des taches locales prononcées, tandis que les premières vidéos numériques souffrent souvent d'une faible résolution, d'une forte compression et d'effets de crénelage. Les pipelines de restauration modernes adoptent généralement une approche collaborative en plusieurs étapes : d'abord, des modèles de détection et de segmentation localisent les zones endommagées comme les rayures et les taches ; ensuite, des réseaux de complétion spatio-temporelle « empruntent » des pixels dans les trames voisines et l'espace environnant pour combler les lacunes ; parallèlement, une restauration des couleurs et un remodelage du contraste rapprochent la tonalité globale de la référence stylistique de la prise de vue originale ou souhaitée. Pour les vidéos fortement compressées, des réseaux spécialisés de suppression d'artefacts ciblant les effets de bloc et les artefacts de Gibbs (ringing) sont également introduits, améliorant les contours et les détails sans lissage excessif.
Ces capacités d'amélioration et de restauration se manifestent souvent dans les produits sous forme de « one-click » : l'utilisateur n'a qu'à cocher « stabilisation », « amélioration de qualité » ou « restauration de vieille vidéo », et le système sélectionne automatiquement en arrière-plan le modèle et la combinaison de paramètres appropriés pour traiter la séquence vidéo en plusieurs passes. Pour l'activité, cette couche détermine directement l'évaluation subjective de la qualité d'image par le spectateur, et influence indirectement les performances des modèles d'analyse en amont : une entrée vidéo plus propre et plus stable se traduit généralement par une reconnaissance faciale/de plaques d'immatriculation plus fiable, une détection de comportement plus précise et moins de fausses alertes.
5.1.2 Super-résolution et interpolation de trames : du « discernable » au « plus fluide »
Dans un contexte de mise à niveau continue des appareils d'affichage et d'exigences croissantes des utilisateurs en matière de détails et de fluidité, une grande quantité de contenu vidéo existant semble « structurellement limitée » en résolution et en fréquence d'images : le 1080p paraît moins net sur un écran 4K, et le 24/30fps tend à produire des effets de traînée ou de saccade sur les grands écrans et dans les scènes de mouvement rapide. Les technologies de super-résolution et d'interpolation de trames visent précisément à résoudre ces deux problèmes : la première « complète les détails » dans la dimension spatiale, la seconde « complète le processus » dans la dimension temporelle, élevant ensemble une vidéo « à peine discernable » à un rendu « riche en détails et à la lecture fluide ».
La super-résolution vidéo possède une dimension clé supplémentaire par rapport à la super-résolution d'image par trame unique : le temps. Une simple mise à l'échelle trame par trame conduit facilement à des incohérences de détails entre trames adjacentes, provoquant des scintillements et des tremblements de texture. C'est pourquoi les méthodes dominantes exploitent toutes l'information de plusieurs trames adjacentes : par estimation du flux optique ou alignement au niveau des caractéristiques, les détails des trames voisines sont alignés sur la trame cible, puis la reconstruction des détails est effectuée après alignement. Des modèles comme EDVR, BasicVSR / BasicVSR++, la version vidéo de Real‑ESRGAN, etc., commencent par aligner et agréger plusieurs trames dans l'espace des caractéristiques, puis utilisent un réseau profond pour inférer les détails de haute résolution, évitant ainsi l'aspect « flou » et « plastique » des interpolations simples. Dans ce processus, l'équilibre entre le « physiquement correct » et le « visuellement agréable » est au cœur de la conception de la fonction de perte et de la stratégie d'entraînement : il faut à la fois améliorer les métriques objectives (comme le PSNR et le SSIM) et garantir un rendu subjectif naturel, sans accentuation excessive ni pseudo-détails.
L'interpolation de trames se concentre sur le « complément de trames » le long de l'axe temporel. Les méthodes traditionnelles s'appuient sur l'estimation du flux optique, en prédisant d'abord le mouvement de chaque pixel entre deux trames adjacentes, puis en interpolant une nouvelle trame à une position intermédiaire selon certaines règles. Cependant, dans les zones de mouvement rapide, d'occlusions multiples ou de textures complexes, le flux optique est souvent imprécis, ce qui produit facilement des traînées, des images fantômes ou des déformations locales. Les modèles profonds d'interpolation comme DAIN, RIFE, FILM, etc., apprennent simultanément de bout en bout le flux optique, la profondeur ou la stratégie de fusion des caractéristiques intermédiaires, et produisent directement la trame interpolée, avec une stabilité et une qualité visuelle nettement améliorées dans les scènes complexes. Pour les retransmissions sportives, les enregistrements de jeux d'action et la création de ralentis, l'interpolation de trames permet d'élever en douceur une vidéo originale de 24/30fps à 60/120fps, en préservant les détails de mouvement tout en réduisant les saccades et les images rémanentes.
Dans la pratique d'ingénierie, la super-résolution et l'interpolation de trames sont souvent combinées : pour le contenu existant à basse résolution et basse fréquence d'images, on effectue d'abord l'interpolation temporelle, puis la super-résolution spatiale, ou les deux sont réalisées de manière intégrée dans un réseau spatio-temporel unifié. En termes de déploiement, le traitement hors ligne dans le cloud convient aux restaurations cinématographiques exigeant une qualité d'image extrême et aux services de « mise à niveau de qualité » à l'échelle de la plateforme, tandis que l'inférence en temps réel côté terminal se retrouve davantage dans les décodeurs TV, les applications de lecture et les caméras de jeu/sport, où il est nécessaire de garantir une faible latence par compression de modèle et accélération matérielle. Quelle que soit la forme de présentation, la super-résolution et l'interpolation de trames sont devenues une infrastructure essentielle de l'expérience « HD/UHD », redonnant une « seconde jeunesse » aux anciens contenus sur les nouveaux terminaux.## 5.2 Compréhension vidéo et analyse structurelle (Video Understanding)
Si le traitement vidéo traditionnel se limite souvent à la « qualité d'image et à la stabilité », la compréhension vidéo et l'analyse structurelle commencent à répondre à des questions sémantiques du type « que se passe-t-il dans la vidéo » : qui fait quoi, où, pendant combien de temps, y a-t-il des comportements anormaux, etc. L'objectif ici est de décomposer structurellement la vidéo sur l'axe temporel : reconnaître les actions et les comportements, détecter et suivre les cibles, segmenter le premier plan et l'arrière-plan, diviser les scènes et les plans, et extraire des signaux sémantiques de haut niveau utilisables pour la prise de décision, la recherche et les alertes en aval.
Du point de vue produit, cette couche de capacités est déjà profondément intégrée dans diverses plateformes de vidéosurveillance intelligente, les systèmes d'analyse d'entraînement sportif, les dashcams intelligentes et les systèmes d'analyse vidéo pour l'inspection qualité industrielle : identifier les bagarres, les chutes, les flâneries et autres anomalies dans la surveillance ; analyser la conformité des mouvements et les détails techniques dans les scénarios sportifs et de fitness ; suivre les trajectoires des véhicules et des personnes dans les environnements de transport et industriels, et surveiller la normalité des processus de production. Nous allons ci-dessous organiser ces capacités sous les angles scénario, principe et modèle, puis développer plusieurs directions représentatives dans les sous-sections suivantes.
- Scénarios
- Sécurité et sûreté publique : dans la surveillance urbaine, les parcs et les bâtiments, identifier des comportements tels que les bagarres, les chutes, les rassemblements, les courses, le franchissement de clôtures, et alerter de manière préventive sur les schémas anormaux comme le flânage ou la présence prolongée tard dans la nuit.
- Transport et mobilité : détecter et suivre les trajectoires des piétons, des véhicules et des vélos aux intersections, dans les tunnels et sur les autoroutes, analyser les comportements tels que le franchissement de feux rouges, la circulation à contresens, l'occupation illicite de voie, les excès de vitesse, afin de fournir des éléments pour la gestion du trafic et la traçabilité des accidents.
- Sport et entraînement : analyser les phases clés et la qualité posturale de mouvements comme le tir au basketball, le service au tennis ou les postures de yoga, afin de fournir aux athlètes et au grand public des analyses techniques et des conseils de correction.
- Production industrielle et inspection qualité : surveiller la conformité des étapes opérationnelles sur les lignes de production, détecter les omissions de montage, les erreurs d'assemblage ou les mouvements anormaux, et fournir des données de base pour la sécurité de la production et l'amélioration du rendement.
- Structuration de contenu et recherche : découper les vidéos longues en plans, classifier les scènes et marquer les segments importants, afin de fournir un index structuré pour la recherche, la recommandation et le montage ultérieurs.
- Principes La clé de la compréhension vidéo et de l'analyse structurelle réside dans la modélisation conjointe des cibles spatiales et de la sémantique dans la dimension temporelle :
- Reconnaissance d'actions et analyse comportementale : basée sur la convolution 2D/3D, le pooling temporel ou les Transformers, encoder globalement un segment vidéo pour identifier la catégorie d'action qui s'y déroule ; les méthodes avancées combinent des séquences de points clés du corps humain et la topologie du squelette pour analyser de manière plus fine la qualité et les schémas des mouvements.
- Détection et suivi de cibles : tout en effectuant la détection sur chaque image, introduire des mécanismes d'association inter-images (caractéristiques d'apparence, trajectoires de mouvement, etc.) pour relier les boîtes de détection d'une même cible à différents instants en une trajectoire continue, obtenant ainsi des résultats de suivi multi-objets.
- Segmentation sémantique vidéo et analyse de scène : effectuer une segmentation sémantique ou une segmentation d'instance au niveau du pixel sur chaque image de la vidéo, et utiliser la continuité temporelle pour lisser les prédictions ; simultanément, détecter les changements de plan et les frontières de scène pour réaliser la décomposition structurelle des vidéos longues.
- Détection d'événements de haut niveau et d'anomalies : en s'appuyant sur les caractéristiques fondamentales d'action et de trajectoire, utiliser des méthodes de modélisation temporelle et de reconnaissance de motifs pour détecter les événements rares et les schémas anormaux, souvent en combinant l'apprentissage non supervisé ou faiblement supervisé pour pallier la rareté des annotations.
- Modèles Dans le choix des modèles, la compréhension vidéo et l'analyse structurelle adoptent généralement une architecture combinant « caractéristiques spatiales + modélisation temporelle » :
- Les modèles classiques basés sur la convolution 3D et Two-Stream, tels qu'I3D, etc., effectuent une reconnaissance d'actions de bout en bout sur de courts extraits vidéo en convoluant simultanément dans les dimensions spatiale et temporelle.
- Les modèles de la famille SlowFast, basés sur des chemins multiples et des échelles temporelles multiples, capturent la sémantique via un chemin lent et les détails de mouvement via un chemin rapide, obtenant un meilleur équilibre entre coût de calcul et précision.
- Les modèles vidéo basés sur Transformer, tels que TimeSformer, Video Swin Transformer, etc., utilisent des mécanismes d'attention spatio-temporelle pour modéliser des vidéos sur de longues plages temporelles, mieux adaptés à la capture d'événements complexes et d'interactions multi-agents.
- Les détecteurs tube-based et les modèles de convolution spatio-temporelle / Transformer, qui étendent les boîtes de détection en « tubes » dans le temps, pour effectuer la détection de comportements et la segmentation spatio-temporelle sur des caractéristiques conjointes espace-temps.
- Les méthodes de suivi multi-objets (MOT), telles que DeepSORT, etc., qui combinent les résultats de détection au niveau de l'image avec des embeddings d'apparence et des prédictions de mouvement, pour associer de manière stable l'identité des cibles dans la vidéo.
Dans l'ensemble, cette couche de capacités fait passer la vidéo d'un « flux de pixels de haute qualité » à un « flux de comportements et d'événements », posant ainsi les bases structurelles pour la compréhension multimodale, la recherche et la prise de décision en amont. Ci-dessous, nous développons trois directions : reconnaissance d'actions et analyse comportementale, détection et suivi de cibles, et détection d'événements et d'anomalies.
5.2.1 Reconnaissance d'actions et analyse comportementale : de la séquence d'images à « qui fait quoi »
La reconnaissance d'actions et l'analyse comportementale s'intéressent à « ce que fait un sujet dans une fenêtre temporelle donnée ». Dans les scénarios de sécurité, cela signifie identifier à partir de la vidéo des comportements tels que « marcher, courir, tomber, se battre » ; dans le sport et le fitness, cela correspond à des mouvements plus fins comme « le tir, le service, le squat est-il correct », « la posture de yoga est-elle bien exécutée ». Techniquement, les premières méthodes reposaient principalement sur la convolution 2D + flux optique ou des caractéristiques artisanales, en empilant plusieurs images pour une classification globale ; les méthodes modernes adoptent davantage la convolution 3D (I3D, une série de variantes 3D ResNet), les structures multi-échelles temporelles comme SlowFast, ou les modèles basés sur l'attention spatio-temporelle comme TimeSformer et Video Swin Transformer, pour modéliser conjointement les textures spatiales et les variations temporelles.
Dans de nombreux scénarios nécessitant une analyse de posture de haute précision, la simple classification de segments RGB n'est pas suffisante ; on combine également l'estimation de posture humaine et la modélisation de séquences squelettiques : on extrait d'abord les points clés 2D/3D de chaque image, puis on envoie la séquence de points clés dans des réseaux RNN, de convolution temporelle ou GCN/Transformer, pour analyser la structure temporelle et la coordination spatiale du mouvement. Cette approche « prior postural + modélisation temporelle » est plus robuste face aux variations d'arrière-plan, d'éclairage et de vêtements, et convient aux applications exigeant une grande précision dans les détails de mouvement, comme le yoga, le fitness et l'évaluation de la conformité des opérations industrielles.
5.2.2 Détection et suivi de cibles : de « où se trouve-t-elle dans cette image » à « la trajectoire complète »
La détection de cibles sur une seule image peut nous dire « quelles cibles sont présentes dans cette image et où elles se trouvent », mais de nombreuses tâches réelles nécessitent de savoir « d'où vient ce véhicule / cette personne, où va-t-il/elle, et ce qu'il/elle a fait entre-temps ». Le module de détection et de suivi de cibles sert précisément à relier les détections au niveau de l'image en trajectoires continues dans le temps : d'une part, exécuter un détecteur sur chaque image pour produire des boîtes candidates ; d'autre part, sur la base d'indices tels que les caractéristiques d'apparence (embeddings ReID), la prédiction de mouvement (filtre de Kalman) et le chevauchement spatial, associer et relier les boîtes des images adjacentes pour obtenir des résultats de suivi multi-objets (MOT).
Dans la pratique industrielle, un pipeline typique est : « détection robuste de piétons/véhicules + algorithme d'association de type DeepSORT », déployé sur des caméras de surveillance ou des dashcams, produisant en temps réel les trajectoires de mouvement de chaque ID. Dans des systèmes plus complexes, ces trajectoires sont également combinées avec la sémantique des zones (voies, divisions zonales) et des règles métier, pour déduire davantage des schémas comportementaux de haut niveau tels que la circulation à contresens, les stationnements prolongés, les entrées et sorties fréquentes, fournissant ainsi des signaux temporels continus pour la sécurité, l'analyse des flux de trafic et la surveillance des processus industriels en amont.
5.2.3 Détection d'événements et d'anomalies : repérer « ce qui cloche » parmi les « schémas normaux »
Dans la plupart des scénarios métier, ce qui nécessite réellement une attention particulière est souvent constitué des « quelques anomalies » et des « événements clés » : par exemple, les bagarres, les chutes, les rassemblements dans la sécurité, les arrêts anormaux ou les opérations non conformes dans la production industrielle, les comportements de conduite dangereuse dans les transports, etc. Ces types d'événements sont relativement rares, avec un coût d'annotation élevé et des échantillons extrêmement déséquilibrés, ce qui pose des défis supplémentaires pour la construction des modèles.
L'approche courante consiste à construire un module de détection d'anomalies temporelles au-dessus de la reconnaissance d'actions, du suivi de cibles et de la segmentation de scène de base : soit en apprenant directement de manière supervisée un petit nombre d'échantillons anormaux déjà annotés ; soit en adoptant des méthodes non supervisées / faiblement supervisées, en modélisant la distribution des mouvements et des comportements en « mode normal », et en émettant une alerte dès qu'une nouvelle observation s'écarte significativement de la distribution historique. Au niveau du modèle, on combine des auto-encodeurs temporels, l'apprentissage contrastif, les réseaux de neurones sur graphes ou les Transformers temporels, pour encoder de manière unifiée les relations spatiales et les dépendances temporelles, capturant ainsi des schémas comportementaux de groupe plus complexes et des dépendances à longue portée.## 5.3 Tâches multimodales vidéo + langage (Video‑Language)
Si la compréhension vidéo consiste à « bien comprendre la vidéo elle-même », les tâches multimodales vidéo + langage visent à « décrire, répondre à des questions et rechercher du contenu vidéo en langage naturel », ainsi qu'à « localiser rapidement des informations clés sur la timeline d'une longue vidéo en fonction d'un besoin textuel ». Ces tâches nécessitent de traiter simultanément les signaux visuels, vocaux et textuels : d'une part, extraire les caractéristiques visuelles et sonores de la vidéo ; d'autre part, exploiter les capacités de raisonnement et de génération d'un modèle de langage pour condenser le contenu spatio-temporel en résumés textuels, résultats de questions-réponses et index sémantiques adaptés à la consommation humaine comme à l'appel par des machines.
Du point de vue produit, cette couche de capacités s'intègre dans des scénarios tels que la génération automatique de sous-titres et de timelines pour les longues vidéos, le « balisage intelligent / extraction de segments clés » des plateformes de montage vidéo court, ou encore les assistants de questions-réponses pour les vidéos de formation en entreprise et de réunions : l'utilisateur n'a plus besoin de « tout regarder du début à la fin », mais peut directement rechercher, interroger et recomposer le contenu vidéo en langage naturel. Nous abordons ce sujet sous les trois angles suivants : scénarios, principes et modèles.
- Scénarios
- Génération de sous-titres et de résumés : génération automatique de sous-titres multilingues pour les cours, présentations, réunions et contenus vidéo longs, puis production de résumés par chapitre, de listes de points saillants et de timelines.
- Questions-réponses et accès aux connaissances vidéo : construction d'« assistants de questions-réponses vidéo » pour les vidéos éducatives, les démonstrations pratiques et les contenus de formation en entreprise, permettant aux utilisateurs de poser des questions en langage naturel telles que « comment réaliser cette étape » ou « où cette personne a-t-elle finalement posé son téléphone ».
- Recherche de contenu vidéo et localisation de segments : prise en charge de la recherche précise « texte → segment vidéo » dans de grandes vidéothèques, par exemple « trouver la partie qui mentionne le prix » ou « trouver le passage qui explique telle formule » ; balisage automatique des segments intéressants et des informations clés au sein d'une même vidéo longue.
- Aide à la production et au montage de contenu : en combinant la compréhension du contenu vidéo et la génération de langage, production automatique de titres, de textes d'accroche et de scripts de storyboard pour aider les créateurs à monter et recomposer rapidement leurs sources.
- Principes Le cœur d'un système multimodal vidéo–langage consiste à aligner les caractéristiques visuelles temporelles et les représentations textuelles dans un espace d'embedding unifié, puis à effectuer recherche, génération et raisonnement sur cette base :
- Extraction et alignement des caractéristiques multimodales : extraction des caractéristiques spatio-temporelles des images/segments vidéo (CNN/ViT/Video Transformer), extraction des embeddings linguistiques du texte (LLM pré-entraîné ou encodeur de texte), puis alignement des deux modalités par apprentissage contrastif ou pré-entraînement multimodal.
- Pipeline vocal et textuel : pour les contenus contenant de la voix, on utilise généralement d'abord un ASR pour générer une transcription alignée temporellement, puis on modélise conjointement avec les caractéristiques visuelles, ce qui permet à la fois de piloter la recherche directement par le texte et d'effectuer des correspondances et corrections intermodales.
- Modélisation temporelle et localisation de segments : pour les longues vidéos, il est nécessaire d'apprendre des représentations au « niveau segment » sur la timeline, en alternant dynamiquement entre les segments locaux et le contexte global via des mécanismes d'attention ou de RAG temporel, afin de localiser précisément l'intervalle pertinent pour une question donnée.
- Génération et raisonnement : sur les représentations multimodales alignées, on connecte un grand modèle de langage pour effectuer de la génération en langage naturel (sous-titres, résumés, explications) ou du questions-réponses multi-tours et du raisonnement logique.
- Modèles Sur le plan de l'architecture des modèles, les tâches multimodales vidéo–langage ont évolué de « l'encodeur spécialisé + tête simple » vers des « grands modèles multimodaux unifiés » :
- Premiers modèles vidéo–langage : comme VideoBERT, qui modélisent conjointement les tokens visuels et textuels lors du pré-entraînement, obtenant des représentations vidéo–langage transférables par prédiction masquée et apprentissage contrastif.
- Modèles vidéo–langage All‑in‑One : intégration unifiée de la vidéo, du texte (et de la voix) dans un Transformer multimodal unique, avec partage total ou partiel des paramètres, permettant de traiter de manière unifiée plusieurs tâches comme la génération de descriptions, la recherche et le QA.
- Modèles multimodaux pour longues vidéos : tels que Gemini, Claude, GPT avec capacités vidéo, qui exploitent un contexte long et une modélisation temporelle hiérarchique pour comprendre globalement des vidéos de plusieurs dizaines de minutes voire de plusieurs heures, avec des résumés et du QA au niveau de la timeline.
- RAG temporel + VLM : construction d'un « index vectoriel temporel » sur la vidéo, en encodant d'abord les segments vidéo avec un VLM pour créer une base de données, puis en recherchant les segments pertinents lors d'une requête, et en synthétisant la réponse avec un raisonnement explicable via un LLM.
Dans l'ensemble, cette couche fait passer la vidéo de la « compréhension par la machine » au niveau du « dialogue et de la collaboration homme–machine » : l'utilisateur peut interroger une vidéo comme il interrogerait une personne, tandis que le système effectue en arrière-plan l'alignement et le raisonnement complexes entre vision, voix et langage.
5.3.1 Sous-titres, résumés et timelines : condenser une longue vidéo en texte navigable
Pour les cours, les conférences, les réunions et les contenus vidéo longs, le besoin le plus pressant est souvent de « savoir rapidement ce qui a été dit et où se trouvent les points importants », plutôt que de tout regarder du début à la fin. Les systèmes automatiques de sous-titrage et de résumé combinent « ASR + traitement de texte + assistance visuelle » pour transcrire le contenu audio en texte aligné temporellement, puis génèrent à partir de là des plans structurés et des résumés concis, réalisant une compression de l'information depuis des « heures de vidéo » vers des « minutes de lecture ».
Côté implémentation, le module ASR est responsable de fournir une transcription multilingue stable et de qualité avec un alignement temporel ; côté texte, un grand modèle de langage est utilisé pour corriger, segmenter et restructurer sémantiquement la transcription brute, en extrayant les titres de chapitres, les informations clés et les paires question–réponse. Dans certains scénarios, des indices visuels (comme les changements de diapositives PPT ou les transitions de scène) sont également exploités pour aider à délimiter les chapitres et les segments importants, garantissant que la structure du résumé corresponde mieux au rythme réel du contenu.
5.3.2 Questions-réponses vidéo et recherche sémantique : « manipuler » la vidéo en langage naturel
Au-delà des sous-titres et des résumés, le besoin suivant consiste à pouvoir poser des questions et effectuer des recherches sur un contenu vidéo spécifique : par exemple « où cette personne a-t-elle finalement posé son téléphone », « quel passage parle de la stratégie de prix » ou « à quelle minute cette étape est-elle démontrée ». Ces tâches nécessitent une localisation sémantique de la question sur la timeline : il faut à la fois comprendre les personnes, objets et actions impliqués dans la question, et retrouver le segment correspondant dans la représentation temporelle de la vidéo.
Concrètement, on construit d'abord hors ligne un index multi-granularité pour la vidéo : on extrait des représentations multimodales (image + texte/voix) pour des segments de longueur fixe, et l'on construit un index vectoriel ou une structure de graphe. Lors de l'interaction en ligne, la question de l'utilisateur est encodée en vecteur textuel, puis mise en correspondance avec les représentations des segments dans l'index afin de trouver les intervalles temporels les plus pertinents ; ensuite, le contenu de ces segments (description des images clés, texte transcrit, etc.) est envoyé avec la question à un LLM, qui génère une réponse en langage naturel ou retourne le point temporel correspondant. Pour les grandes vidéothèques, le même mécanisme permet la « recherche inter-vidéos », par exemple pour retrouver des segments pertinents à travers une base de connaissances de formation en entreprise ou des vidéos de produits e-commerce.
5.3.3 Assistance au montage multimodal : de la compréhension à « vous aider à monter »
Lorsque le système est capable de comprendre de manière fiable le contenu et la structure sémantique d'une vidéo, l'étape suivante naturelle consiste à exploiter ces résultats de compréhension en sens inverse pour assister la création et le montage. Les modèles multimodaux vidéo–langage peuvent, à partir d'un script ou d'une consigne fournie par le créateur, sélectionner automatiquement dans les rushs existants les segments sémantiquement appropriés et générer une timeline de montage grossier ; ils peuvent aussi générer automatiquement des titres, des textes de couverture, des étiquettes de chapitres, et même suggérer des rythmes de plan ou des musiques d'accompagnement.
Dans le flux de travail, ces capacités se présentent généralement sous forme de « recommandation intelligente » et de « montage grossier automatique » : après que le créateur a importé ses rushs, le système analyse, découpe et balise automatiquement le contenu, puis propose plusieurs versions candidates (par exemple des plans de montage avec différents rythmes ou différentes durées) ; le créateur peut ensuite les ajuster finement sans avoir à trier image par image depuis zéro. Pour les applications d'entreprise, le système peut également s'appuyer sur des bases de connaissances et des chartes de marque pour garantir que les textes, sous-titres et styles de montage générés respectent les exigences métier et les normes de conformité établies.## 5.4 Génération et édition vidéo (Video Generation & Editing)
Une fois acquises des capacités stables de compréhension et d'analyse structurelle, la génération et l'édition vidéo passent à l'étape de la « création active de contenu » : il ne s'agit plus seulement d'améliorer la qualité d'image ou de faire de l'analyse structurée, mais de générer des plans entièrement nouveaux à partir de scripts textuels, d'images de référence ou de vidéos existantes, ou d'éditer et de réorganiser structurellement des vidéos sources. Cela englobe aussi bien la génération texte-vers-vidéo (Text-to-Video) à partir de zéro, que le transfert de style, l'extension et le réarrangement à partir d'images ou de vidéos existantes, ainsi que l'édition et le remplacement fins au niveau des objets.
Côté produit, cette couche de capacités est déjà entrée dans le courant dominant de la création de contenu à travers une série de produits tels que Jimeng Video, Minimax Video, Sora, Runway Gen-2, Pika, Kling : les films publicitaires, les films conceptuels, les animations et les storyboards peuvent être générés rapidement sans dépendre d'importantes équipes de tournage ni de post-production complexe ; les créateurs peuvent piloter les plans et le style via des scripts en langage naturel ; les flux de montage vidéo traditionnels commencent à s'intégrer profondément avec les outils de génération structurée. Ci-dessous, nous poursuivons l'analyse sous les angles des scénarios, des principes et des modèles.
- Scénarios
- Du texte ou du scénario à la vidéo courte : publicités de marque, mini-drames, extraits narratifs et animations conceptuelles, génération automatique ou semi-automatique de brouillons vidéo lisibles à partir d'un script.
- Image / vidéo vers vidéo : génération de versions animées pour des illustrations ou des designs de personnages, transfert de style pour des séquences filmées réelles (réel → anime / illustration), ou extension/réorganisation temporelle et spatiale de vidéos existantes.
- Édition structurée et post-production : réaliser des opérations fines telles que le remplacement de visage, la synchronisation labiale, l'effacement et le remplacement d'objets, le réarrangement de clips piloté par le texte, sans altérer la sémantique globale du contenu.
- Principes Les méthodes actuelles dominantes de génération et d'édition vidéo reposent principalement sur les modèles de diffusion (Diffusion) ou leurs variantes, qui génèrent la vidéo en « débruitant » progressivement dans un espace latent spatio-temporel de haute dimension :
- Modélisation conditionnée par le texte : un encodeur de texte (tel que T5, la tour textuelle de CLIP ou un modèle de langage spécialisé) mappe le script en un vecteur de condition, guidant le décodeur vidéo pour aligner le style, le contenu et les motifs de mouvement avec la description textuelle.
- Cohérence spatio-temporelle et contrôle du mouvement : des convolutions spatio-temporelles, une attention temporelle ou des représentations 4D (NeRF/GS, etc.) sont intégrées dans le processus de diffusion ou l'optimisation a posteriori, afin de garantir la continuité et la vraisemblance physique de la vidéo sur l'axe temporel.
- Génération conditionnée par image/vidéo : le processus de diffusion est lancé dans l'espace des caractéristiques de l'image ou de la vidéo d'entrée, en contrôlant l'injection de bruit, les zones de masque et les canaux de condition, pour réaliser une édition ou une extension contrôlée qui « préserve les parties données + génère du nouveau contenu ».
- Signaux de contrôle structurés : combinaison d'informations structurelles telles que les squelettes de pose, les masques de segmentation, les cartes de profondeur, les trajectoires de caméra, pour rendre la vidéo générée plus contrôlable en termes de mouvement des sujets et de changement de point de vue.
- Modèles Les modèles et directions représentatifs incluent :
- Modèles de Text-to-Video basés sur la diffusion (Sora, Runway Gen-2, Pika, Kling, etc.), pré-entraînés sur des paires vidéo-texte à grande échelle, offrant de fortes capacités de génération dans des scènes complexes, des mouvements multi-plans et des styles variés.
- Modèles de diffusion Image-to-Video : conditionnés par une image unique, ils prédisent l'évolution dynamique des trames suivantes, réalisant le passage « image unique → animation / effet dynamique » ; ou effectuent des opérations telles que la continuation, l'extension, la rotation de point de vue sur de courtes vidéos.
- Méthodes NeRF / représentation 4D et images clés + interpolation : elles exploitent la représentation de scène 3D ou les images clés avec interpolation temporelle, combinant génération, géométrie et modélisation de la cohérence, pour obtenir une navigation de point de vue plus stable et des mouvements complexes.
Ces capacités n'existent pas de manière isolée, mais s'infiltrent progressivement dans les pipelines de montage et de post-production : du texte au storyboard, du storyboard au montage brut, du montage brut à la stylisation et à l'édition locale, de plus en plus d'étapes sont pilotées par « texte + contrôle structuré ».
5.4.1 Text-to-Video : du script à une séquence de plans « regardable »
Le Text-to-Video vise à réaliser ceci : l'utilisateur décrit une scène, un plan ou un extrait narratif en langage naturel, et le système génère automatiquement une vidéo cohérente. Comparé à la génération d'images, le Text-to-Video ajoute la difficulté de la dimension temporelle : il ne s'agit pas seulement de maintenir la qualité d'image et la cohérence du style au niveau de chaque trame, mais aussi d'assurer la continuité de l'identité des sujets, de l'éclairage, de l'arrière-plan et des trajectoires de mouvement entre les trames.
Un modèle de diffusion Text-to-Video typique est d'abord pré-entraîné sur des données massives de paires vidéo-texte : l'encodeur de texte extrait les conditions sémantiques, et le décodeur vidéo débruite itérativement une « vidéo bruitée » dans l'espace latent, convergeant progressivement vers un signal spatio-temporel aligné avec le texte. Au cours de ce processus, la dépendance temporelle est explicitement intégrée au réseau via des mécanismes d'attention temporelle, des convolutions 3D ou des représentations 4D, afin d'éviter des problèmes tels que les « sauts entre trames » ou la « réinitialisation des personnages ». Certains systèmes prennent également en charge le contrôle des mouvements de caméra (zoom, panoramique, travelling) et du rythme de composition, rendant le résultat généré plus proche du langage cinématographique réel.
5.4.2 Image / Vidéo vers vidéo : « faire croître » et « transformer » à partir d'un contenu existant
Une autre voie importante consiste à générer et éditer à partir d'images ou de vidéos existantes : par exemple, « animer » une illustration ou un art conceptuel, styliser une vidéo réelle en anime, ou changer l'arrière-plan, ajuster la météo et l'heure tout en préservant la structure. Techniquement, ces méthodes ajoutent souvent un « canal de référence » au processus de diffusion : l'image ou la vidéo d'entrée est encodée en caractéristiques, qui participent au débruitage comme condition ou état initial, tandis que des mécanismes tels que les masques et les contraintes géométriques explicites contrôlent « quelles zones peuvent être modifiées et lesquelles doivent être préservées ».
Pour les scénarios de transfert de style, le modèle redessine les textures et l'éclairage tout en préservant le mouvement et la composition d'origine, afin de les faire correspondre au style cible ; pour l'extension et la réorganisation vidéo, il « continue » de nouvelles trames aux extrémités ou au milieu de la timeline, réalisant l'expansion horizontale/verticale de la scène, la navigation autour du point de vue ou le complément narratif. Ces capacités se prêtent particulièrement bien à l'intégration avec les flux de montage traditionnels : le monteur fournit d'abord les plans clés et le rythme, puis le modèle génère automatiquement les transitions et les variations entre ces « points d'ancrage ».
5.4.3 Édition vidéo structurée : contrôle fin au niveau des objets
Dans de nombreux scénarios métier, régénérer entièrement une vidéo n'est pas le besoin principal ; ce qui est plus crucial, c'est de réaliser une édition structurée, fine et contrôlable des images existantes : par exemple, remplacer un visage, modifier le mouvement des lèvres, effacer des objets indésirables, remplacer le contenu d'un espace publicitaire, ou réorganiser l'ordre des plans selon un script textuel. L'édition vidéo structurée se développe précisément dans cette direction : en s'appuyant sur la compréhension vidéo, elle introduit la segmentation au niveau des objets, le suivi et la représentation paramétrique, permettant aux opérations d'édition d'être liées de manière stable à des cibles et des intervalles temporels spécifiques.
Le remplacement de visage et la synchronisation labiale (Lip-sync) sont les applications les plus typiques de cette direction : le modèle doit projeter l'identité de la personne cible sur la performance de la vidéo originale, tout en garantissant la continuité naturelle de la posture de la tête et des expressions faciales globales, et contrôler précisément le mouvement des lèvres en fonction du nouveau signal vocal. L'effacement / le remplacement d'objets reposent sur une segmentation de haute qualité et un complètement spatio-temporel : d'abord segmenter et supprimer l'objet cible dans chaque trame, puis combler les vides en utilisant les trames voisines et les textures contextuelles, afin d'éviter les traces apparentes de « rapiéçage ». Le montage piloté par le texte aligne la « structure du script » avec la timeline vidéo, en sélectionnant et assemblant automatiquement les extraits correspondant à la sémantique du script, pour réaliser une édition automatisée de plus haut niveau.## 5.5 Humain numérique / Avatar (Digital Human / Avatar)
L'humain numérique / avatar (Digital Human / Avatar) peut être considéré comme une « intégration système » de la génération vidéo, de la synthèse vocale, de la compréhension multimodale et du rendu graphique : il ne s'agit pas simplement de générer une vidéo, mais de piloter de manière continue et contrôlable un personnage virtuel qui « parle, exprime des émotions et effectue des gestes » à partir de texte ou de la voix, avec des interactions quasi temps réel, voire en temps réel dans un nombre croissant de scénarios. Par rapport à la génération vidéo classique, l'humain numérique met l'accent sur trois aspects : la cohérence à long terme de l'identité et de l'apparence, l'alignement fin entre la voix, les expressions et les mouvements, ainsi que la réactivité en temps réel et la stabilité du système de bout en bout.
Du point de vue produit, les humains numériques sont déjà largement présents dans des scénarios tels que les plateformes de production de contenu, le service client virtuel / l'accueil intelligent / les visites guidées virtuelles, l'éducation et la formation en ligne, les IP virtuelles de marque / idols virtuelles, les outils de streamer virtuel / avatar numérique pour les créateurs : les entreprises peuvent produire en masse des contenus vidéo avec une apparence et un style fixes, les services gouvernementaux et d'entreprise peuvent utiliser un accueil virtuel pour recevoir les utilisateurs 24h/24 et 7j/7, et les créateurs individuels peuvent produire en continu des vidéos « avec une personne à l'écran » sans jamais montrer leur visage. Nous allons maintenant structurer cette section selon trois dimensions — scénarios, principes et modèles — puis développer dans les sous-sections suivantes trois axes : pilotage et expression, apparence et génération vidéo, interaction en temps réel et intégration système.
- Scénarios
- Production de contenu et diffusion en ligne : vidéos corporate, explications de fonctionnalités produits, enregistrement de cours, bulletins d'information — remplacer les personnes réelles par des humains numériques réduit considérablement les coûts liés aux lieux de tournage, à l'éclairage et aux ressources humaines.
- Service client virtuel et visites guidées : dans les agences bancaires, les halls administratifs, les sites touristiques, les musées, etc., utiliser des humains numériques pour l'accueil, les demandes d'information, le conseil métier et l'orientation, alliant une image cohérente à un service 24h/24 et 7j/7.
- IP virtuelle de marque / idole virtuelle : exploiter durablement une image virtuelle à travers des vidéos courtes, du live streaming et du contenu e-commerce, en maintenant une personnalité et un style visuel cohérents sur les différentes plateformes.
- Streamer virtuel et avatar numérique : pour les créateurs qui ne souhaitent pas apparaître à l'écran ou qui ont besoin de gérer plusieurs identités, proposer un streamer virtuel / avatar numérique configurable, lié à une voix réelle ou synthétique, permettant de « simplement parler ou taper pour apparaître de manière stable à l'écran ».
- Principes Un système d'humain numérique est essentiellement un pipeline multimodal « pilotage vocal/textuel + modélisation de l'apparence + sortie vidéo/rendu », avec de légères différences entre les scénarios hors ligne et en temps réel, mais des composants centraux similaires :
- Pilotage vocal et langagier : synthétiser la voix directement via TTS à partir du script, ou connecter ASR + LLM pour générer un texte de réponse à partir de la voix/du texte de l'utilisateur, puis produire la voix via TTS ; les caractéristiques vocales (comme le spectre mel) servent de signal de pilotage pour contrôler la timeline des mouvements des lèvres et des expressions.
- Modélisation de l'apparence et de l'espace gestuel : construire une représentation géométrique et d'apparence contrôlable pour le personnage virtuel, par exemple un portrait/illustration 2D, un Avatar 3D basé sur un squelette et des Blendshapes, ou une représentation volumétrique rendable basée sur NeRF / Gaussian 4D ; et définir un ensemble de « paramètres de pilotage » (tels que points clés, squelette de pose, coefficients Blendshape) pour encoder les expressions et la posture.
- Mapping voix → expressions / mouvements : via un modèle spécialisé de « pilotage vocal », mapper les caractéristiques vocales en paramètres de pilotage du visage et du haut du corps, réalisant la synchronisation labiale (Lip‑sync), les détails expressifs et les mouvements de la tête et des épaules ; les humains numériques temps réel exigent que ce mapping soit de bout en bout, à faible latence et stable.
- Rendu et composition : en fonction des paramètres de pilotage de l'image courante, effectuer un rendu image ou 3D du personnage virtuel, produisant un flux vidéo continu ou une image en temps réel ; possibilité de superposer des arrière-plans, des accessoires, des sous-titres et d'autres éléments, en s'intégrant aux workflows de montage vidéo traditionnels.
- Modèles En termes de modèles concrets, les systèmes d'humain numérique utilisent souvent une combinaison de plusieurs modèles spécialisés et de modèles multimodaux génériques :
- Modèles de Talking Head pilotés par l'audio (Audio‑driven Talking Head) : comme Wav2Lip, un modèle de synchronisation labiale qui apprend l'alignement entre la voix et les pixels/géométrie de la région buccale, générant des mouvements de bouche naturels tout en maintenant la cohérence identitaire.
- Modèles d'humain numérique temps réel / légers : comme Ultralight‑Digital‑Human, les modèles de Talking Head légers, etc., qui compressent considérablement les paramètres et la charge de calcul au niveau structurel, permettant un pilotage et un rendu quasi temps réel même sur CPU, mobile ou WebGPU.
- Modèles d'expression NeRF / 4D : comme ER‑NeRF (schéma NeRF pour humain numérique orienté Explicite / Efficient / Éditable), qui modélisent l'apparence du personnage et les changements d'expression dans l'espace 3D, rendant les angles de vue, l'éclairage et les mouvements plus naturels et fluides, adaptés aux scénarios haute fidélité et multi-caméras.
- Modèles de pilotage vocal et d'alignement multimodal : comme MuseTalk, une catégorie de modèles « voix → expressions faciales / tête parlante », qui alignent les caractéristiques audio et visuelles pour produire des expressions de parole et des mouvements de tête réalistes sans dépendre d'annotations 3D massives.
- Modèles vocaux et de dialogue : TTS multi-locuteurs à haute naturalité, modèles de dialogue vocal de bout en bout (ASR + LLM + TTS intégrés), offrant aux humains numériques des capacités vocales et conversationnelles multi-styles et multilingues.
Dans l'ensemble, l'humain numérique est à la fois un ensemble de modèles et un système complet : il intègre la compréhension du langage, la voix, la génération visuelle et l'inférence en temps réel pour présenter un personnage virtuel interactif « devant l'écran ». Nous allons maintenant développer selon trois axes : pilotage et expression, apparence et génération vidéo, et interaction en temps réel et intégration système.
5.5.1 Pilotage et expression : du script / de la voix à une personne « qui parle et qui exprime »
Dans le pipeline de l'humain numérique, le pilotage et l'expression répondent à une question centrale : étant donné un script ou une voix, quelle forme de bouche, quelle expression et quels mouvements de la tête et des épaules le personnage virtuel doit-il présenter à chaque image. Cela couvre aussi bien les scénarios de production par lots hors ligne que la réponse en dialogue temps réel.
Dans la production de contenu hors ligne, la chaîne courante est « script texte → TTS → pilotage vocal » : le métier fournit le texte à diffuser, le module TTS génère la voix dans le timbre cible (par exemple celui du porte-parole virtuel de la marque), puis les caractéristiques vocales sont injectées dans le modèle « voix → mouvement ». Les modèles de type Wav2Lip sont des représentants importants de cette étape :
- Ils prennent en entrée une image de référence du portrait et le segment vocal correspondant, et via un réseau convolutionnel / d'attention, prédisent une région buccale finement alignée avec la voix, qui est ensuite fusionnée avec le portrait original, modifiant ainsi précisément la forme des lèvres tout en préservant l'identité et la plupart des expressions.
- Pendant l'entraînement, les données d'alignement voix–vidéo supervisent le réseau pour qu'il apprenne les formes buccales correspondant aux différents phonèmes, en maintenant une continuité temporelle pour éviter les sauts ou les décalages dans le mouvement des lèvres.
Par rapport aux premières solutions de synchronisation labiale pure, la nouvelle génération de modèles de pilotage vocal (comme les méthodes de type MuseTalk) s'étend davantage aux expressions faciales complètes et à la posture de la tête :
- Ces modèles mappent généralement les caractéristiques vocales vers un espace latent « émotion / expression » de basse dimension, puis via un décodeur génèrent des points clés, des coefficients Blendshape ou directement des caractéristiques d'image, animant les changements subtils dans les zones des sourcils, des yeux, des joues, etc., rendant « l'expression de parole » plus vivante.
- Certains modèles encodent également l'information sémantique du contenu vocal (comme l'interrogation, l'emphase, l'exclamation), et combinés aux signaux syntaxiques/pragmatiques analysés par le LLM, ajoutent des hochements de tête, des froncements de sourcils, des gestes aux moments de changement d'intonation, améliorant le naturel et la force d'expression.
À un niveau supérieur, le pilotage et l'expression peuvent également intégrer des signaux de contrôle externes : par exemple, utiliser le squelette de posture, la trajectoire des gestes, la direction du regard comme entrées supplémentaires, permettant à l'humain numérique d'imiter le style d'un orateur spécifique, ou d'exécuter des modèles de gestes prédéfinis selon les « actions indiquées » dans le script (comme « pointer vers l'écran », « ouvrir les bras »). Qu'il s'agisse du pilotage labial local comme Wav2Lip ou d'une modélisation plus globale de l'expression comme MuseTalk / le pilotage par squelette en temps réel, ils réalisent ensemble le mapping continu de la voix/du texte vers les mouvements du visage et du haut du corps, un maillon clé pour que l'humain numérique « ait l'air de vraiment parler ».
5.5.2 Apparence et génération vidéo : d'« un modèle » à « un personnage façonnable »
La chaîne de pilotage résout « comment bouger », tandis que l'apparence et la génération vidéo déterminent « qui bouge, où il bouge, avec quel style ». Cela englobe aussi bien les humains numériques photoréalistes haute fidélité que les avatars stylisés de type anime, cartoon et low-poly, ainsi que les différents choix technologiques pour le rendu temps réel et hors ligne.
Dans les scénarios de portrait 2D et d'illustration, l'approche typique consiste à entraîner un modèle de génération de Talking Head à partir d'un petit nombre d'images de référence et de courtes vidéos :
- Le modèle encode l'information d'identité du personnage dans un « vecteur d'apparence » ou une caractéristique de style, et utilise les paramètres de pilotage (comme le vecteur latent vocal, les points clés, l'encodage d'expression) comme entrées conditionnelles pour synthétiser de nouvelles images dans l'espace image.
- Contrairement au Wav2Lip pur qui ne modifie que la bouche, ce type de modèle peut produire de légers balancements de posture et superposer des changements émotionnels aux expressions, rendant l'humain numérique moins « rigide ».
Dans les scénarios visant un réalisme accru, des angles de vue plus libres et une commutation multi-caméras, de plus en plus de solutions adoptent une modélisation d'humain numérique basée sur NeRF / expression 4D (comme les méthodes de type ER‑NeRF) :
- Via une capture multi-angle ou des vidéos, on reconstruit d'abord le volume 3D ou le champ gaussien de la tête / du haut du corps du personnage, en encodant les états correspondant aux différentes expressions et formes de bouche dans un espace latent interpolable ;
- Lors du pilotage, les paramètres voix/expression sont mappés dans cet espace latent, et un rendu volumétrique ou gaussien est effectué en 3D avant d'être projeté à l'écran.
- L'avantage de cette approche est que les angles de vue, l'éclairage et l'arrière-plan sont plus naturels, permettant des mouvements de « vue panoramique » et de « caméra virtuelle », particulièrement adaptés à la VR/AR, aux studios de live streaming virtuels et à la production publicitaire haut de gamme.
Dans les activités qui exigent un déploiement multiplateforme et une réactivité en temps réel, on adopte également des solutions légères comme Ultralight‑Digital‑Human :
- Par élagage structurel, reconstruction d'opérateurs et distillation de modèles, le réseau de rendu du Talking Head ou de l'Avatar est compressé à une échelle exécutable sur mobile / WebGPU ;
- La génération d'une image à partir des paramètres de pilotage s'effectue en quelques millisecondes, alignée sur le flux vocal temps réel ou les signaux de contrôle, réalisant un « humain numérique à faible latence », adapté aux terminaux interactifs, bornes libre-service et applications web frontales.
Au niveau de la production vidéo complète, l'apparence et la génération vidéo doivent également s'intégrer avec l'arrière-plan, les accessoires et le langage cinématographique : un workflow courant est le suivant :
- D'abord personnaliser une apparence d'humain numérique (2D ou 3D) pour une marque ou un individu ;
- Préconfigurer plusieurs scènes virtuelles (studio, bureau, salle de classe, hall d'exposition, etc.) ;
- Lors de la production de contenu, le système sélectionne automatiquement la scène et l'angle de caméra appropriés selon le script, génère l'image de l'humain numérique, et l'agence avec le PPT, la vidéo de démonstration, l'image produit dans une composition multi-écrans. Cela fait de l'humain numérique non plus seulement une « tête parlante », mais un « personnage » qui peut s'intégrer naturellement dans divers formats de programmes et de contenus.
5.5.3 Humain numérique temps réel et intégration système : de la vidéo hors ligne au « collègue à l'écran »
Avec la maturité de l'ASR, du TTS, des LLM et des modèles légers de génération vidéo, de plus en plus de systèmes d'humain numérique passent de la production vidéo par lots hors ligne à l'interaction en temps réel : l'utilisateur parle ou saisit du texte sur le terminal, et l'humain numérique à l'écran « écoute — réfléchit — répond — parle » en quelques centaines de millisecondes à quelques secondes, créant une expérience similaire à celle d'un véritable conseiller / guide / animateur. L'enjeu clé ici n'est pas seulement le modèle lui-même, mais aussi la manière de comprimer la chaîne multimodale à une latence de bout en bout acceptable.
Dans une boucle d'humain numérique temps réel typique :
- Entrée frontale : le module ASR convertit la voix de l'utilisateur en texte en temps réel, ou reçoit directement la saisie texte de l'utilisateur.
- Compréhension sémantique et décision : le LLM, combiné à la base de connaissances métier et aux outils (RAG, requêtes de base de données, orchestration de processus), génère le texte de réponse ainsi que les instructions structurées nécessaires (par exemple quelle diapositive afficher, quel extrait vidéo jouer).
- Voix et pilotage : le TTS convertit le texte de réponse en voix dans le timbre cible ; le flux vocal est généré et consommé simultanément par les modèles Wav2Lip / MuseTalk / pilotage par squelette temps réel, produisant segment par segment les paramètres de forme de bouche et d'expression correspondants.
- Sortie de rendu : le réseau de rendu léger de type Ultralight‑Digital‑Human ou le moteur de rendu NeRF / Avatar basé GPU convertit les paramètres de pilotage en images vidéo en temps réel, et les diffuse directement à l'écran via WebRTC, RTMP ou rendu local.
Pour offrir une expérience cohérente sur plusieurs terminaux, le système doit également trouver un équilibre délicat entre latence, bande passante et puissance de calcul :
- Dans le schéma de rendu cloud, l'essentiel du calcul (LLM, TTS, pilotage et rendu) est effectué sur le serveur, le terminal ne faisant que lire le flux vidéo — adapté aux applications Web / App à puissance de calcul limitée et aux grands écrans hors ligne, mais dépendant de la stabilité du réseau ;
- Dans le schéma hybride « cloud + local », l'ASR et une partie de l'inférence LLM sont réalisés dans le cloud, tandis que le pilotage et le rendu légers sont effectués localement, réduisant significativement la latence d'interaction audio-vidéo — adapté aux appareils mobiles et bornes libre-service ;
- Sur les terminaux à forte puissance de calcul (comme les PC haute performance, les stations de travail dédiées), il est également possible de déporter la majeure partie de la chaîne en local, permettant une interaction stable même en environnement réseau dégradé.
Côté modèle, l'humain numérique temps réel impose également des exigences supplémentaires en matière de conception structurelle :
- Le modèle de pilotage vocal doit posséder une capacité d'inférence en streaming, capable de fournir une prédiction de forme de bouche et d'expression après avoir reçu un court segment vocal, plutôt que d'attendre la fin de la phrase entière ;
- Le réseau de rendu doit réduire autant que possible la dépendance aux grands noyaux de convolution et à l'attention globale, en adoptant des structures comme la convolution locale, l'auto-attention légère, les pyramides de résolution pour maîtriser la charge de calcul ;
- Pour les solutions haute fidélité basées sur NeRF / 4D, il est nécessaire de contrôler le rendu de chaque image en quelques millisecondes à quelques dizaines de millisecondes via des techniques telles que le cache de maillage, le frustum culling, les volumes épars et l'optimisation GPU.
Au niveau de l'intégration système, l'humain numérique temps réel doit souvent être étroitement lié aux connaissances métier, à la configuration de personnalité et à la stratégie de dialogue :
- Via une base de connaissances et le RAG, gérer les connaissances sectorielles, les processus métier et la FAQ, pour garantir de « dire ce qu'il faut, le dire complètement » ;
- Via la configuration du persona et les modèles de discours, contrôler le style d'élocution et les limites d'expression, pour garantir de « parler comme cette personne (ou cette marque) » ;
- Via la stratégie de dialogue multi-tours et la gestion de l'état de la conversation, permettre à l'humain numérique de mémoriser le contexte utilisateur, de confirmer et de poser des questions de suivi au moment opportun, créant une sensation d'interaction « comme un vrai collègue / guide / formateur ».
Dans l'ensemble, avec l'ajout de modèles comme Wav2Lip, MuseTalk, ER‑NeRF, Ultralight‑Digital‑Human spécialement conçus pour la synchronisation labiale, le pilotage expressif et le rendu temps réel, l'humain numérique évolue rapidement d'un « outil de modèle vidéo hors ligne » vers une entité virtuelle capable de répondre en temps réel, dotée d'une personnalité stable et de connaissances professionnelles, devenant le maillon le plus complet et au plus fort potentiel applicatif de l'écosystème des technologies vidéo.# 6. Séries temporelles et décision séquentielle (Time Series & Sequential Decision)
Dans les modélisations visuelles et structurées précédentes, nous raisonnions principalement dans un espace « statique » : une image, un enregistrement, un texte. Or, dans le monde réel des affaires, une grande partie des indicateurs clés évoluent dans le temps : les ventes et le trafic fluctuent chaque jour, la charge des serveurs et les relevés de capteurs changent chaque seconde, tandis que les prix financiers et les indicateurs macroéconomiques s'ajustent en permanence sous l'effet des politiques et des événements. Le domaine des séries temporelles et de la décision séquentielle s'intéresse précisément à ceci : prédire l'avenir sur l'axe temporel, identifier les anomalies, caractériser les ruptures structurelles et, sur cette base, prendre des décisions et des actions de contrôle prospectives.
Du point de vue produit, ces capacités traversent des maillons essentiels tels que l'exploitation, la planification, le contrôle des risques et l'ordonnancement : les modules de prévision d'indicateurs intégrés aux outils de BI et de reporting traditionnels, la prévision de la demande et les recommandations de stock de sécurité dans les outils de planification financière et de supply chain, l'analyse de corrélation macroéconomique et la découverte de causalité dans les logiciels d'analyse quantitative, la prévision du trafic et des capacités sur les plateformes d'e-commerce et de VTC, ainsi que la détection d'anomalies et les alertes sur les indicateurs dans l'AIOps. Tous constituent des formes concrètes d'application de cette couche. Nous allons à présent explorer quatre axes : les méthodes statistiques classiques, la modélisation de séries temporelles par deep learning, la détection d'anomalies et de points de rupture et la modélisation spatio-temporelle.## 6.1 Modélisation statistique classique des séries temporelles (Statistical TS Modeling)
Dans de nombreux secteurs d'activité, le « temps » constitue un fil conducteur naturel : les ventes varient quotidiennement ou hebdomadairement, le trafic d'un site web fluctue au gré des campagnes, la charge des équipements suit le comportement des utilisateurs, et les relevés de capteurs reflètent les nuances de l'état d'un système. La modélisation statistique classique des séries temporelles exploite cette structure temporelle en s'appuyant sur des modèles statistiques relativement interprétables et analysables pour répondre à trois questions fondamentales : Que va-t-il se passer à l'avenir ? Comment les variables sont-elles liées entre elles ? Quel est l'état actuel du système ? Bien que le deep learning ait gagné en popularité dans de nombreux scénarios, les méthodes traditionnelles telles que ARIMA, l'analyse de cointégration et le filtre de Kalman restent largement utilisées en finance, supply chain, opérations et gestion des risques, servant souvent de référence de base (baseline) et d'outil d'interprétation pour des systèmes plus complexes.
D'un point de vue applicatif, les modèles classiques de séries temporelles sont largement présents dans les modules de prévision d'indicateurs des systèmes BI et de reporting traditionnels, les outils de planification financière et logistique, ainsi que les logiciels de recherche quantitative. Ils permettent de fournir des intervalles de prévision futurs pour une ou plusieurs séries temporelles, d'analyser les variations conjointes et les relations d'équilibre à long terme entre indicateurs macroéconomiques, et d'estimer les trajectoires et états cachés via la modélisation par espace d'états. Nous allons ci-dessous organiser les usages typiques de ces méthodes selon trois dimensions — scénarios, principes et modèles — avant de détailler chaque axe spécifique.
- Scénarios
- Prévision d'indicateurs : prévoir à court ou moyen terme des grandeurs évoluant dans le temps telles que les ventes, le trafic web, la charge CPU ou les relevés de capteurs, pour éclairer des décisions telles que la constitution de stocks, la planification de capacité ou l'ordonnancement opérationnel.
- Analyse macroéconomique et financière : étudier les liens à long terme et la dynamique à court terme entre indicateurs macroéconomiques et de marché (PIB, taux d'inflation, taux d'intérêt, taux de change, prix des actifs, etc.), pour soutenir la recherche en politiques publiques et le développement de stratégies quantitatives.
- Estimation de processus et de trajectoires : estimer et lisser des trajectoires, vitesses et états évoluant dans le temps dans des contextes de localisation, navigation, suivi de cibles et surveillance d'équipements, et restituer au mieux le « processus réel » dans un environnement bruité.
- Principes Les méthodes classiques de séries temporelles reposent généralement sur une approche combinant hypothèses statistiques et structure paramétrique :
- On suppose que la série temporelle satisfait certaines conditions de stationnarité ou de stationnarité faible, et l'on caractérise « dans quelle mesure la valeur actuelle est déterminée par les valeurs passées » à travers la structure d'autocorrélation (fonction d'autocorrélation ACF, fonction d'autocorrélation partielle PACF).
- Dans le cas multivarié, les modèles de cointégration et de vecteur autorégressif (VAR) décrivent les relations d'équilibre à long terme et les corrections des écarts à court terme entre plusieurs séries temporelles.
- Pour les systèmes fortement bruités où l'état n'est pas directement observable, on introduit des états latents (latent state) et des équations d'observation pour former un modèle d'espace d'états, puis on effectue l'estimation et la prévision en ligne par inférence bayésienne ou filtrage récursif (comme le filtre de Kalman).
- Modèles La famille de modèles de ce type est relativement bien définie et structurée, ce qui facilite l'interprétation et le réglage des paramètres :
- Les séries AR/MA/ARIMA/SARIMA univariées et multivariées, utilisées pour la modélisation de séries temporelles stationnaires/saisonnières, sont les « résidents permanents » des systèmes BI et des modules de prévision traditionnels.
- Les modèles VAR et de cointégration, utilisés pour la modélisation conjointe et les tests de causalité de séries temporelles macroéconomiques et financières multidimensionnelles, sont adaptés à l'analyse des corrélations au niveau stratégique et politique.
- Les modèles d'espace d'états avec filtre de Kalman, les modèles de Markov cachés (HMM), etc., utilisés pour l'estimation de trajectoires, l'estimation d'état d'équipements et l'inférence d'états cachés, sont des outils fondamentaux en contrôle industriel et traitement du signal.
Globalement, la modélisation statistique classique des séries temporelles se distingue par son interprétabilité, sa diagnosticabilité et sa maîtrise en ingénierie : le processus de modélisation, les tests d'hypothèses et l'analyse des résidus suivent des normes éprouvées, ce qui facilite leur intégration dans les systèmes BI et de planification existants. Nous allons maintenant détailler les trois axes suivants : prévision univariée/multivariée, cointégration et causalité, et espace d'états.
6.1.1 Prévision de séries temporelles univariées et multivariées : d'ARIMA à VAR
Dans les scénarios métier les plus typiques, nous sommes d'abord confrontés à une ou plusieurs courbes d'indicateurs ordonnées dans le temps : par exemple les ventes quotidiennes d'un produit, les pages vues horaires d'un site, l'utilisation CPU par minute d'une machine ou les relevés de capteurs par seconde. L'objectif est de fournir une prévision à court ou moyen terme basée sur l'historique, accompagnée d'intervalles de confiance raisonnables. Les modèles de la famille AR/MA/ARMA/ARIMA/SARIMA sont les outils standard conçus à cet effet.
Pour une série univariée, les modèles de type ARIMA supposent que « la valeur actuelle est déterminée linéairement par les valeurs historiques des périodes précédentes et des perturbations aléatoires », en appliquant une différenciation et une différenciation saisonnière pour éliminer la tendance et la saisonnalité et rendre la série stationnaire :
- La partie AR (autorégressive) décrit « l'influence des retards propres de la série sur la valeur actuelle » ;
- La partie MA (moyenne mobile) capture « l'influence des termes d'erreur passés sur la valeur actuelle » ;
- La partie I (intégrée/différenciée) élimine la tendance ;
- L'ajout d'une composante saisonnière donne SARIMA, qui peut décrire explicitement les structures périodiques hebdomadaires, mensuelles, etc.
En pratique, on effectue généralement d'abord un test de stationnarité (par exemple ADF), on observe les graphiques ACF/PACF, puis on sélectionne les ordres appropriés via des critères d'information (AIC/BIC) et le diagnostic des résidus. Pour les indicateurs présentant une saisonnalité marquée (comme les ventes quotidiennes en e-commerce ou le trafic pendant les périodes de fêtes), la modélisation SARIMA est particulièrement adaptée, et l'ajout de variables indicatrices de jours fériés ou de variables exogènes peut encore améliorer les performances de prévision.
Lorsque l'on souhaite modéliser simultanément plusieurs séries temporelles liées, on peut introduire les modèles de séries temporelles multivariées. La méthode représentative est le VAR (vecteur autorégressif) et ses variantes. Le VAR traite plusieurs séries comme un vecteur conjoint et explique la valeur actuelle par les termes de retard de toutes les séries, capturant ainsi les influences mutuelles entre différents indicateurs. Par exemple, en analyse macroéconomique, on peut intégrer la croissance du PIB, le taux d'inflation, les taux d'intérêt et les taux de change dans un même modèle VAR pour étudier les réponses aux chocs et les canaux de transmission ; en exploitation opérationnelle, le VAR peut également décrire « comment la variation du trafic d'un canal affecte les autres canaux » ou « la relation dynamique entre l'intensité promotionnelle et les ventes », fournissant ainsi des éléments pour l'allocation des ressources.
En termes de produit, ces capacités de prévision univariée et multivariée sont généralement intégrées dans les fonctions de prévision des systèmes BI et de reporting traditionnels, ainsi que les outils de planification financière et logistique : l'utilisateur sélectionne une ou plusieurs séries temporelles, et le système effectue automatiquement la modélisation et la prévision, en fournissant des intervalles de prévision, une analyse des résidus et un rapport de diagnostic du modèle pour éclairer la prise de décision, sans avoir à comprendre en profondeur tous les détails mathématiques sous-jacents.
6.1.2 Cointégration et causalité : l'équilibre à long terme entre indicateurs macroéconomiques
Dans les domaines économique et financier, de nombreuses séries temporelles semblent être des marches aléatoires en apparence, mais présentent en réalité une relation d'équilibre stable à long terme sur des échelles de temps plus longues. Les exemples typiques incluent le taux de change et l'écart de taux d'intérêt, l'indice boursier et les bénéfices macroéconomiques, ou encore le prix des matières premières et les indices de coûts. Prises individuellement, chaque série peut être non stationnaire ; mais une certaine combinaison linéaire oscille autour d'un niveau stable à long terme. Ce phénomène est appelé cointégration (cointegration) et fournit des indices précieux pour comprendre les relations structurelles entre indicateurs macroéconomiques.
En pratique, l'analyse de cointégration comprend généralement plusieurs étapes :
- Effectuer un test de racine unitaire sur chaque série temporelle pour confirmer qu'elles sont intégrées du même ordre (par exemple toutes I(1)) ;
- Effectuer un test de cointégration (comme la méthode en deux étapes d'Engle-Granger, le test de Johansen, etc.) pour déterminer s'il existe une combinaison linéaire non triviale rendant cette combinaison stationnaire ;
- Si une relation de cointégration est détectée, on peut construire un modèle à correction d'erreur (ECM) qui décrit « comment le système se corrige progressivement pour revenir à l'équilibre lorsque l'écart à court terme par rapport à l'équilibre à long terme se produit ».
Lié à la cointégration, le test de causalité de Granger ne constitue pas une « causalité » au sens philosophique strict, mais une définition statistique fondée sur la capacité prédictive : si l'information historique de la variable X peut améliorer significativement la précision de la prévision de la variable Y, on dit que « X cause Y au sens de Granger ». En comparant l'erreur de prévision avec et sans les termes de retard d'une variable dans un cadre VAR ou de régression, on peut évaluer l'influence directionnelle entre différents indicateurs macroéconomiques ou de marché. Dans la recherche quantitative et l'analyse macroéconomique, ce type de test est souvent utilisé pour identifier des indicateurs avancés potentiels, construire des facteurs ou valider des hypothèses de stratégie.
Du point de vue produit, l'analyse de cointégration et de causalité apparaît davantage dans les logiciels de recherche quantitative, les plateformes d'analyse macroéconomique et les outils de recherche financière. Ils aident les chercheurs à extraire des relations structurelles relativement robustes d'un grand nombre de séries temporelles et à projeter ces relations vers des concepts métier de plus haut niveau (comme « la contrainte à long terme des taux d'intérêt sur le taux de change » ou « le retour à la moyenne des spreads entre différents actifs »), constituant ainsi un fondement important pour la conception de stratégies et la gestion des risques.
6.1.3 Modèles d'espace d'états et estimation d'états latents : filtre de Kalman et HMM
Dans de nombreux systèmes réels, les séries temporelles que nous observons ne sont que des manifestations bruitées d'une réalité sous-jacente, et ce qui nous intéresse véritablement, c'est « l'état du système » qui évolue dans le temps : par exemple la position et la vitesse réelles d'un véhicule, l'état de santé d'un équipement, les schémas comportementaux latents d'un utilisateur, etc. Dans ce cas, se contenter de modéliser la série observée avec une approche de type ARIMA ne permet pas d'exploiter pleinement la connaissance que l'on a de la structure du système. Les modèles d'espace d'états (State Space Models) ont été précisément conçus pour ce type de problème « état latent + observation bruitée ».
Les modèles d'espace d'états se composent généralement de deux parties :
- L'équation de transition d'état : elle décrit comment l'état caché évolue dans le temps, de manière linéaire ou non linéaire ;
- L'équation d'observation : elle décrit comment l'état caché génère les observations bruitées.
Dans le cadre des hypothèses linéaires gaussiennes, ce cadre permet une estimation et une prévision récursives de l'état grâce au filtre de Kalman (Kalman Filter) et au lisseur (Smoother) : chaque étape se divise en deux grandes phases, « prédiction » et « mise à jour », en combinant la distribution d'état du pas de temps précédent avec l'observation actuelle pour obtenir une nouvelle estimation de l'état. Ceci est extrêmement courant en navigation et localisation (estimation de trajectoire, suivi de cibles), en séries temporelles financières (estimation de la volatilité) et en estimation d'état d'équipements (surveillance de l'état de santé, estimation de la durée de vie restante).
À côté des modèles d'espace d'états continus se trouvent les modèles de Markov cachés (HMM). Le HMM suppose que le système transite dans le temps entre un nombre fini d'états latents discrets, chaque état caché générant des données observées selon une distribution de probabilité différente. Grâce à l'algorithme forward-backward et à l'algorithme de Viterbi, le HMM peut estimer la séquence d'états cachés, calculer la probabilité de la séquence d'observations et prédire le prochain état et la prochaine observation. Le HMM a été largement utilisé historiquement en reconnaissance vocale et en annotation de texte, et reste employé pour la reconnaissance simple de schémas comportementaux et la modélisation de séquences d'événements. Dans certains scénarios industriels et financiers, il conserve ses atouts : structure interprétable, apprentissage stable et intégration aisée avec l'expertise métier.
Au niveau système, la modélisation par espace d'états, le filtre de Kalman et les HMM servent souvent de modules de base pour l'estimation de trajectoires, l'estimation d'état d'équipements et les systèmes de contrôle financier et industriel, encapsulés dans des chaînes d'outils plus larges. Ils ne sont pas nécessairement exposés directement à l'utilisateur final, mais jouent depuis longtemps le rôle de « moteur invisible » derrière des produits tels que la navigation, le suivi de cibles, le contrôle industriel et la mesure des risques.## 6.2 Modélisation de séries temporelles par deep learning (Deep TS Forecasting)
Avec l'augmentation continue de l'échelle des données et de la complexité des scénarios, les modèles classiques reposant uniquement sur des hypothèses de linéarité et de stationnarité commencent à montrer leurs limites dans de nombreuses applications : une multitude de motifs non linéaires, des dépendances à longue portée, des interactions multivariées complexes, des comportements soudains superposés à des cycles, etc., nécessitent des structures de modèles plus flexibles et de plus grande capacité. La modélisation de séries temporelles par deep learning s'est développée précisément dans ce contexte : des RNN/LSTM/GRU aux Temporal CNN/TCN, en passant par les Transformers spécialisés pour les séries temporelles et les modèles hybrides et hiérarchiques, ils constituent ensemble la boîte à outils principale de la prévision et de la modélisation modernes des séries temporelles.
Du point de vue applicatif, les modèles de séries temporelles profonds sont déjà largement déployés dans les plateformes de prévision du trafic et des ventes e-commerce, les systèmes de prévision offre-demande/capacité/planification, les outils de prévision de charge des ressources cloud et de planification de capacité, afin de fournir des solutions de prévision unifiées et flexibles dans des structures complexes multi-catégories, multi-magasins, multi-villes, voire multi-lignes métier. Par rapport aux modèles classiques, ils mettent davantage l'accent sur l'« apprentissage de représentations de bout en bout » et la « modélisation de motifs globaux », et sont plus aptes à traiter des scénarios à séquences longues, haute dimension et multivariés. Ci-dessous, nous développons selon les trois dimensions scénario, principe et modèle.
- Scénarios
- Prévision massive multi-séquences : des milliers de séquences de ventes/trafic par produit, magasin, ville, nécessitant une modélisation unifiée dans un seul modèle, avec prise en charge du démarrage à froid et des séquences à longue traîne.
- Opérations et planification complexes : dans les systèmes d'approvisionnement en électricité/eau, de capacité, de planification, etc., la demande est influencée par des caractéristiques multidimensionnelles (météo, jours fériés, prix, événements) et présente une structure hiérarchique (magasin/ville/national), nécessitant de prendre en compte à la fois les motifs globaux et les variations locales.
- Ressources cloud et infrastructure : les charges des grands clusters de serveurs, plateformes de conteneurs, réseaux et stockage présentent des structures hautement non linéaires et multimodales, nécessitant des prévisions haute fréquence et une planification de capacité pour respecter les SLO.
- Principes Le cœur des modèles de séries temporelles profonds réside dans l'apprentissage automatique de motifs multi-échelles et de dépendances à long terme à partir des séquences historiques et des covariables :
- Les RNN/LSTM/GRU transmettent explicitement une « mémoire » le long de la dimension temporelle via leur structure récurrente, adaptée à la capture des dépendances séquentielles et des structures temporelles locales.
- Les Temporal CNN / TCN utilisent des convolutions 1D et des convolutions dilatées pour élargir le champ récepteur tout en garantissant la causalité, permettant un entraînement parallèle et une propagation stable des gradients.
- Les Transformers pour séries temporelles et leurs variantes spécialisées (Informer, Autoformer, TimesNet, etc.) exploitent les mécanismes d'auto-attention pour modéliser des dépendances complexes et des motifs périodiques dans des configurations à séquences longues et multivariées.
- Les modèles hybrides et hiérarchiques introduisent en outre des hypothèses structurelles « global + local » et « séries temporelles multi-niveaux », apprenant simultanément les motifs globaux et les caractéristiques individuelles dans un cadre unifié.
- Modèles En termes d'implémentation concrète, la modélisation profonde des séries temporelles a donné naissance à une série d'architectures représentatives :
- Modèles séquentiels profonds classiques : RNN/LSTM/GRU et leurs modèles de prévision probabiliste autorégressive dérivés comme DeepAR.
- Modèles intégrés de décomposition et de prévision : N‑BEATS et similaires, qui améliorent l'interprétabilité grâce à des modules explicites de décomposition tendance/saisonnalité.
- Modèles de séries temporelles basés sur l'attention : Temporal Fusion Transformer (TFT) et similaires, combinant attention, portes et sélection de variables, adaptés aux scénarios métier multivariés avec de riches covariables.
- Modèles Transformer pour séquences longues : Informer, Autoformer, TimesNet, PatchTST, etc., conçus spécifiquement pour l'efficacité sur séquences longues et la modélisation multi-échelle.
Nous développons ci-dessous selon trois directions : modèles séquentiels profonds, convolutions et Transformers, puis modélisation hybride et hiérarchique.
6.2.1 RNN/LSTM/GRU profonds : de la séquence unique à DeepAR
Aux débuts de l'introduction du deep learning dans le domaine des séries temporelles, les RNN/LSTM/GRU étaient le choix le plus naturel. Comme pour la modélisation de texte et de parole, ils « mémorisent » l'information historique en transmettant un état caché entre les pas de temps, permettant de capturer des non-linéarités et des dépendances à long terme plus complexes que les modèles linéaires traditionnels. Pour une ou quelques séries temporelles, un simple LSTM/GRU peut déjà produire de bons résultats de prévision avec suffisamment de données ; dans les scénarios massifs multi-séquences, on peut adopter des modèles RNN/LSTM/GRU à paramètres partagés, entraînés conjointement sur toutes les séquences afin d'apprendre des motifs temporels universels.
Sur cette base, des modèles probabilistes autorégressifs comme DeepAR fournissent un cadre standard pour la modélisation profonde des séries temporelles : ils alimentent un réseau RNN/LSTM/GRU partagé avec les observations historiques et les covariables, produisent à chaque pas de temps les paramètres de distribution conditionnelle des valeurs de la série (par exemple, gaussienne, binomiale négative, etc.), et réalisent une prévision probabiliste de bout en bout par entraînement au maximum de vraisemblance. Cette conception permet au modèle de générer naturellement des intervalles de prévision, de gérer des échelles irrégulières et des mélanges multi-séquences, ce qui facilite son déploiement dans des scénarios comme les ventes e-commerce ou la prévision de la demande.
Cependant, les modèles de type RNN présentent des problèmes typiques : l'atténuation du gradient sur les séquences longues, et l'impossibilité de paralléliser complètement la phase d'entraînement. Bien que les mécanismes de portes (LSTM/GRU) atténuent partiellement ces problèmes, pour des horizons temporels très longs et des données haute fréquence, l'efficacité de l'entraînement et de l'inférence reste un facteur nécessitant des compromis. Cela a également poussé l'industrie et le monde académique à explorer des structures plus adaptées à la parallélisation, comme les TCN et les Transformers.
6.2.2 Temporal CNN et Transformer : des convolutions locales à l'attention sur séquences longues
Pour résoudre les problèmes d'efficacité et de stabilité des RNN sur les séquences longues, les Temporal CNN / TCN introduisent des convolutions 1D et des convolutions dilatées pour modéliser les dépendances temporelles : en empilant plusieurs couches de convolutions causales et en élargissant progressivement le champ récepteur couche par couche, ils réalisent une modélisation de l'historique distant sans violer la causalité temporelle. Comparés aux RNN, les TCN peuvent être hautement parallélisés à l'entraînement, avec des chemins de propagation du gradient plus courts, ce qui les rend particulièrement performants en termes de stabilité et d'efficacité d'entraînement, adaptés aux scénarios industriels de prévision de séries temporelles avec des données haute fréquence et nécessitant un grand champ récepteur.
À un niveau de complexité supérieur, les Transformers et les structures spécialisées pour les séries temporelles sont devenus les acteurs principaux de la modélisation des séries temporelles longues et multivariées ces dernières années. L'utilisation directe d'un Transformer standard se heurte au problème de la complexité de calcul quadratique par rapport à la longueur de la séquence, d'où l'émergence d'une série de solutions adaptées aux séries temporelles :
- Informer réduit la charge de calcul sur les séquences longues grâce à des mécanismes tels que l'auto-attention probabiliste sparse, et optimise la structure pour les tâches de prévision.
- Autoformer intègre la décomposition tendance/saisonnalité dans le cadre d'auto-attention, cherchant à améliorer l'interprétabilité et la stabilité tout en conservant la capacité de modélisation des séquences longues.
- TimesNet améliore la perception des cycles et des motifs en opérant dans le domaine temps-fréquence ou par déploiement multi-échelle, pour mieux traiter les séquences longues complexes et multi-périodiques.
- PatchTST s'inspire de l'idée de « patch » des Vision Transformers, en traitant les sous-séquences continues comme des patchs, afin d'améliorer l'efficacité de modélisation et la capacité de généralisation sur les séquences longues.
Ces modèles sont souvent particulièrement adaptés aux scénarios de séries temporelles complexes à séquences longues, multivariées et à covariables de haute dimension, tels que la charge massive des ressources cloud, la demande énergétique multi-régionale, la prévision de trafic multi-canal, etc. Ils peuvent modéliser simultanément des entrées multidimensionnelles, des caractéristiques statiques et des variables temporelles dans une architecture unifiée, et fournir des indices pour l'explication et le diagnostic ultérieurs via les poids d'attention.
6.2.3 Modèles hybrides et hiérarchiques : global + local, séries temporelles multi-niveaux
Dans les applications métier réelles, les séries temporelles sont rarement « isolées » : elles présentent souvent une structure hiérarchique et des motifs partagés évidents — par exemple, la hiérarchie de ventes magasin/ville/région/national, la hiérarchie de produits SKU/catégorie/marque, ou la structure organisationnelle ligne métier/produit/canal. Si l'on modélise simplement chaque série séparément, il est difficile d'exploiter cette structure hiérarchique ; et si l'on mélange directement toutes les séries, on ignore leurs différences individuelles. Les modèles hybrides et hiérarchiques sont précisément conçus pour résoudre ce type de problème.
Une approche courante est celle du modèle global + local : un « modèle global » partagé apprend les motifs communs à toutes les séries (comme la tendance générale, les effets des jours fériés, la saisonnalité), tandis que des paramètres locaux ou des vecteurs d'embedding sont introduits pour chaque série ou sous-groupe afin de capturer les caractéristiques individuelles. Cette structure évite le problème de rareté des données lié à l'entraînement séparé de modèles pour les séquences à longue traîne, tout en conservant la capacité de modélisation fine sur les séquences populaires.
Une autre approche est la modélisation de séries temporelles hiérarchiques (hierarchical TS) : les contraintes hiérarchiques sont explicitement prises en compte dans le processus de prévision (par exemple, la somme des sous-niveaux doit correspondre à la prévision du niveau supérieur), et via une optimisation conjointe descendante, ascendante ou de niveau intermédiaire, les prévisions de chaque niveau restent cohérentes en valeur et en structure. Dans le cadre des séries temporelles profondes, cela se traduit généralement par l'intégration de caractéristiques hiérarchiques dans l'encodage d'entrée, la conception de sorties multi-têtes pour différents niveaux, ou l'utilisation de fonctions de perte hiérarchiques pendant l'entraînement.
Du point de vue produit, ce type de modélisation hybride et hiérarchique est largement appliqué dans les plateformes de prévision des ventes e-commerce, les systèmes de prévision offre-demande/capacité/planification et d'autres scénarios : le système doit fournir simultanément des prévisions à différentes granularités telles que « article par magasin », « niveau ville », « total national », et maintenir la cohérence entre les niveaux supérieurs et inférieurs lors de la planification des ressources et de la décomposition des KPI. La structure flexible des modèles profonds permet d'intégrer ces contraintes de manière bout en bout dans le processus de modélisation, sans dépendre entièrement de corrections a posteriori.## 6.3 Détection d'anomalies et détection de points de changement (Anomaly & Change Point Detection)
Dans les scénarios de séries temporelles, « prédire l'avenir » n'est qu'une partie du problème ; une autre partie tout aussi cruciale est la détection en temps réel des anomalies et des changements structurels. Qu'il s'agisse du fonctionnement des équipements, des indicateurs métier, des comportements transactionnels ou de la supervision opérationnelle, la détection d'anomalies et de points de changement constitue une capacité essentielle pour garantir la stabilité des systèmes et identifier les risques et les opportunités. Traditionnellement, des méthodes telles que les seuils statistiques, EWMA et CUSUM sont largement utilisées ; avec l'augmentation de la dimensionnalité et de la complexité des données, diverses méthodes d'apprentissage automatique et d'apprentissage profond (Isolation Forest, One‑Class SVM, AutoEncoder/VAE, GAN temporel, GNN + modèles de séries temporelles) jouent également un rôle de plus en plus important.
Du point de vue de la forme du produit, ces capacités sont souvent intégrées dans des systèmes d'alerte précoce de défaillance d'équipement, des plateformes d'alerte sur les anomalies des indicateurs métier (comme une chute brutale du taux de conversion), des systèmes de détection d'attaques de sécurité et de fraude, des moteurs d'alerte AIOps pour l'exploitation : en surveillant en temps réel des signaux temporels multidimensionnels, elles marquent automatiquement les points suspects et les changements structurels, et s'intègrent aux règles, aux bases de connaissances et aux processus de décision humaine. Nous allons maintenant développer selon trois angles : scénarios, principes et modèles.
- Scénarios
- Équipements et systèmes industriels : surveiller les données des capteurs telles que la température, les vibrations, le courant et la pression pour détecter précocement les tendances de défaillance et de dégradation, réduisant ainsi les temps d'arrêt et les pertes.
- Indicateurs métier et opérationnels : surveiller des indicateurs clés tels que les PV/UV, le taux de conversion, le volume de commandes, la latence et le taux d'erreur pour identifier rapidement les baisses soudaines, les pics et les fluctuations anormales, et fournir des alertes aux équipes opérationnelles et techniques.
- Sécurité et contrôle des risques : analyser les séries temporelles de comportements de connexion, de séquences de transactions et de schémas d'accès pour identifier les attaques potentielles, la triche et les comportements frauduleux.
- Principes La détection d'anomalies et de points de changement consiste essentiellement à rechercher des écarts significatifs et des ruptures structurelles par rapport au « modèle normal » :
- Pour les anomalies ponctuelles et les anomalies de séquence, on peut utiliser l'ajustement de distributions statistiques, l'estimation de densité ou l'apprentissage de frontières pour déterminer si l'observation actuelle se situe en dehors de la « région normale ».
- Pour les points de changement, on s'intéresse aux ruptures dans les caractéristiques statistiques de la série temporelle (moyenne, variance, structure de corrélation, distribution, etc.) le long de l'axe temporel, et on tente de localiser la position temporelle où le changement se produit.
- Dans les réseaux à haute dimension et multi-points, il est nécessaire d'intégrer la structure de dépendance entre plusieurs séries temporelles (comme la topologie et la corrélation) dans la modélisation, afin d'éviter de confondre les anomalies locales avec les tendances globales.
- Modèles Du point de vue des familles de méthodes, on peut les classer approximativement en méthodes statistiques, méthodes d'apprentissage à classe unique/isolation, modèles profonds de reconstruction et modèles combinant graphes et séries temporelles :
- Détection statistique d'anomalies : seuils, EWMA, CUSUM, etc., extrêmement efficaces pour les scénarios univariés ou simples, et qui constituent la base des systèmes de supervision traditionnels.
- Méthodes d'apprentissage automatique : Isolation Forest, One‑Class SVM, etc., utilisées pour caractériser la « région normale » dans un espace de caractéristiques multidimensionnel et isoler les échantillons anormaux.
- Modèles profonds de reconstruction : AutoEncoder / VAE / GAN temporel, qui apprennent à reconstruire les séquences normales et marquent une anomalie lorsque l'erreur de reconstruction est importante.
- Réseaux de neurones sur graphes + modèles de séries temporelles : dans les scénarios de réseaux de capteurs et d'indicateurs de microservices, l'introduction conjointe de la structure de graphe et des modèles de séries temporelles permet d'apprendre les schémas normaux et de renforcer l'identification des anomalies liées à la topologie.
Nous allons maintenant développer selon trois directions : anomalies ponctuelles/de séquence, détection de points de changement, et séries temporelles multidimensionnelles avec structure de graphe.
6.3.1 Anomalies ponctuelles et anomalies de séquence : des seuils statistiques aux modèles de reconstruction
La forme la plus intuitive de détection d'anomalies est l'anomalie ponctuelle : la valeur observée à un instant donné s'écarte largement de la plage normale historique (par exemple, l'utilisation du CPU grimpe soudainement à 100 %, un montant de transaction anormalement élevé, un saut instantané de la lecture d'un capteur). Dans les méthodes traditionnelles, l'approche la plus courante consiste à ajuster une distribution statistique ou des statistiques glissantes (moyenne, variance, quantiles) sur les données normales historiques, puis à définir des seuils ou des cartes de contrôle (comme EWMA, CUSUM) : lorsque l'observation actuelle dépasse l'intervalle acceptable, une alerte est déclenchée. L'avantage est une implémentation simple, un faible coût de calcul et une bonne interprétabilité, ce qui explique leur utilisation encore répandue dans de nombreux systèmes de supervision opérationnelle et industriels.
Lorsque la dimensionnalité augmente ou que les schémas deviennent plus complexes, on peut introduire des méthodes d'apprentissage à classe unique/isolation telles qu'Isolation Forest et One‑Class SVM : elles apprennent une région agrégée (ou une frontière) sur les « échantillons normaux » et considèrent les points situés en dehors de cette région comme des anomalies. En extrayant des caractéristiques statistiques sur une fenêtre glissante de la séquence (comme la moyenne, la variance et les caractéristiques du domaine fréquentiel de la fenêtre), ces méthodes peuvent également être utilisées pour identifier des « anomalies de séquence » locales (c'est-à-dire un comportement qui s'écarte du schéma normal sur une période donnée), ce qui les rend adaptées aux scénarios avec des indicateurs multidimensionnels et des formes de distribution difficiles à définir précisément.
Dans le cadre de l'apprentissage profond, les méthodes basées sur l'erreur de reconstruction comme AutoEncoder / VAE / GAN temporel offrent des choix plus flexibles :
- Utiliser un AutoEncoder ou un VAE entraîné sur un grand nombre de séquences normales pour apprendre un modèle de « compression–reconstruction » capable de reconstruire les schémas normaux ;
- En phase de surveillance en ligne, soumettre une nouvelle fenêtre temporelle au modèle : si l'erreur de reconstruction augmente significativement, on considère qu'il existe une anomalie dans cet intervalle ;
- Les méthodes de type GAN temporel apprennent à générer des séquences normales et recherchent des signaux d'anomalie dans les résultats du discriminateur ou dans l'erreur de génération.
Ces méthodes peuvent s'adapter à des schémas hautement non linéaires et à des structures de covariables complexes, ce qui les rend particulièrement adaptées à la construction de moteurs unifiés de détection d'anomalies sur des indicateurs métier multidimensionnels et des données complexes de capteurs d'équipement.
6.3.2 Détection de points de changement : ruptures structurelles et effets des événements
Contrairement aux anomalies ponctuelles et locales, la détection de points de changement (Change Point Detection) s'intéresse aux ruptures structurelles dans les séries temporelles : par exemple, un saut de la moyenne d'un niveau à un autre, un changement de volatilité, ou une modification des structures périodiques et de corrélation. Ces changements correspondent souvent à un événement ou à un changement d'état dans le monde réel, tel qu'un changement de configuration, l'application d'une nouvelle stratégie, un ajustement de politique, une modification du processus de production ou un changement de régime de marché, et sont essentiels pour le diagnostic métier et l'analyse causale.
Parmi les méthodes statistiques traditionnelles, la détection de points de changement s'appuie souvent sur des techniques telles que le test du rapport de vraisemblance, CUSUM et la Bayesian Online Change Point Detection (BOCPD) :
- En ajustant des modèles avec différents paramètres (comme différentes moyennes/variances) avant et après différents instants, on compare la qualité d'ajustement entre l'hypothèse « sans point de changement » et l'hypothèse « avec point de changement » ;
- Dans un scénario en ligne, on met à jour récursivement à chaque instant la probabilité a posteriori qu'un point de changement soit apparu jusqu'au segment actuel, et une alerte est déclenchée dès que le seuil défini est dépassé.
Dans des configurations plus complexes, on peut combiner l'apprentissage profond de représentations avec des modèles de segmentation, en considérant la détection de points de changement comme un problème de segmentation de séquence : utiliser un réseau de neurones pour extraire des caractéristiques, puis rechercher les frontières de segments dans l'espace des caractéristiques, ou entraîner directement un modèle à prédire la probabilité qu'un instant donné appartienne à un « point de changement ». Cela est particulièrement utile pour les indicateurs métier présentant des formes de changement multiples (pas seulement des changements de moyenne/variance) et difficiles à caractériser par des hypothèses statistiques simples.
Dans les systèmes produits, la détection de points de changement est généralement intégrée dans les plateformes d'analyse d'indicateurs métier, les systèmes d'analyse d'expérimentation A/B, les outils de surveillance des changements de configuration et de stratégie : lorsqu'un indicateur clé présente un changement structurel, le système peut automatiquement marquer les points de changement potentiels et les associer aux événements de changement correspondants (comme une publication de version, un ajustement de paramètre ou la mise en œuvre d'une politique), fournissant ainsi des pistes pour l'analyse des causes racines ultérieure.
6.3.3 Séries temporelles multidimensionnelles et structure de graphe : modélisation conjointe GNN + modèles de séries temporelles
Dans les systèmes distribués modernes et les scénarios IoT, nous sommes souvent confrontés à des séries temporelles multi-points, multidimensionnelles et dotées d'une topologie de connexion : par exemple, les multiples points de mesure dans un réseau de capteurs, les différents indicateurs de service dans une architecture microservices, ou les multiples nœuds et arêtes dans un réseau de distribution électrique ou un réseau de transport. Dans ce contexte, effectuer une détection d'anomalies séparément et individuellement sur chaque série temporelle risque de conduire à des erreurs d'interprétation des fluctuations locales ou à l'ignorance des schémas globaux — la véritable anomalie est souvent une manifestation d'« incohérence local–global » ou un « désaccord dans la structure topologique ».
C'est pourquoi sont apparues ces dernières années de nombreuses méthodes combinant réseaux de neurones sur graphes (GNN) et modèles de séries temporelles :
- D'abord, construire une structure de graphe représentant les relations entre plusieurs points, en se basant sur la topologie réelle (connexions physiques, topologie réseau) ou sur un graphe de corrélation estimé à partir des données ;
- À chaque pas de temps, utiliser un GNN pour effectuer un passage de messages sur les caractéristiques des nœuds (les valeurs temporelles de chaque point et leur contexte local), afin d'apprendre des caractéristiques de corrélation spatiale ;
- Ensuite, injecter les représentations encodées par le graphe dans des modèles de séries temporelles tels que RNN, TCN ou Transformer, pour capturer les schémas dynamiques dans la dimension temporelle ;
- Enfin, effectuer un scoring d'anomalie ou une détection de points de changement sur la représentation conjointe, réalisant ainsi une identification d'anomalies spatio-temporelle conjointe.
Ce cadre est particulièrement adapté aux scénarios de supervision de réseaux de capteurs, de détection d'anomalies sur les indicateurs de microservices, et de détection d'anomalies spatio-temporelles dans le calcul urbain : il permet de distinguer les « changements globaux » (comme une augmentation de la charge de l'ensemble du système) des « anomalies locales » (comme la congestion anormale d'un nœud particulier), et d'identifier plus efficacement les schémas d'anomalie liés à la structure topologique (comme les problèmes au niveau des liaisons ou les pannes réseau régionales).
Au niveau de l'ingénierie, ces méthodes apparaissent généralement comme des capacités avancées des systèmes d'alerte AIOps pour l'exploitation, des plateformes de sécurité et de contrôle des risques, et des systèmes de supervision de flottes d'équipements : en les combinant avec la surveillance statistique de base, les systèmes de règles et les connaissances expertes, elles offrent aux systèmes complexes un mécanisme de découverte d'anomalies plus intelligent et plus conscient du contexte.## 6.4 Modélisation spatio-temporelle (Spatio-Temporal Modeling)
Dans de nombreux scénarios métier critiques, modéliser uniquement le « temps » ne suffit pas : le « quand » et le « où » coexistent et sont fortement couplés. Le flux de trafic urbain est influencé conjointement par la structure du réseau routier et les régularités temporelles ; la météorologie et la qualité de l'air dépendent à la fois de l'évolution temporelle, de la proximité géographique et des champs de circulation atmosphérique ; la logistique, les vélos en libre-service et la répartition des VTC nécessitent de prendre en compte simultanément la distribution spatio-temporelle de la demande et la structure des routes/zones. La modélisation spatio-temporelle (Spatio‑Temporal Modeling) est précisément l'approche systématique qui traite ce type de problème de modélisation conjointe « temps + espace ».
Comparés aux modèles de séries purement temporelles, les modèles spatio-temporels doivent intégrer explicitement la structure de dépendance spatiale : le flux de trafic sur des segments de route adjacents, la qualité de l'air à des stations de surveillance voisines, la charge et l'état de nœuds connectés sont généralement plus corrélés qu'entre des points éloignés. À cette fin, les réseaux de neurones sur graphes (GNN), les LSTM convolutifs (ConvLSTM) et d'autres architectures sont largement utilisés pour combiner l'apprentissage de caractéristiques sur les deux dimensions spatiale et temporelle. Au niveau produit, ces capacités soutiennent de nombreuses applications critiques telles que les plateformes de calcul urbain (prédiction de trafic/flux de personnes), les systèmes de prévision météorologique/environnementale, la planification d'itinéraires logistiques et les plateformes de répartition de vélos en libre-service/VTC.
- Scénarios
- Prédiction du trafic et des flux de personnes : sur la structure du réseau routier ou du métro, prédire le flux de véhicules et de personnes à différentes périodes, afin d'aider à l'optimisation des feux de signalisation, à la gestion de la congestion et aux décisions de répartition.
- Surveillance météorologique et environnementale : sur une grille géographique ou un réseau de stations de surveillance, prédire la distribution spatio-temporelle future de la température, des précipitations, du vent, de la qualité de l'air, etc., fournissant ainsi un support pour les prévisions et la prise de décision.
- Répartition logistique et de mobilité : sur la structure des zones urbaines ou du réseau routier, prédire la demande de commandes, la distribution des véhicules, la charge des entrepôts/stations, fournissant ainsi une base pour la planification d'itinéraires, la répartition des véhicules et l'allocation des capacités.
- Principes Le cœur de la modélisation spatio-temporelle est d'apprendre simultanément la corrélation spatiale et la dynamique temporelle dans un cadre unifié :
- Sur la dimension spatiale, décrire « qui est lié à qui » via des structures de graphes ou de convolution, et effectuer le passage de messages et l'agrégation de caractéristiques sur cette base ;
- Sur la dimension temporelle, utiliser des RNN, TCN, Transformer ou des structures temporelles spécialisées pour capturer les changements dynamiques ;
- Les deux peuvent être enchaînés (d'abord l'espace, puis le temps), ou bien entrelacés ou agir simultanément (comme la convolution spatio-temporelle, l'attention spatio-temporelle).
- Modèles Les modèles spatio-temporels typiques adoptent principalement des combinaisons de type « GNN + modèle temporel » ou « convolution + LSTM » :
- Réseaux de neurones sur graphes + modèle temporel : ST‑GCN, DCRNN, Graph WaveNet, ST‑Transformer, etc., qui capturent les dépendances spatiales via la convolution sur graphes ou l'attention sur graphes, puis capturent la dynamique temporelle via des structures temporelles.
- Modèles de type LSTM convolutif : ConvLSTM, Conv‑TT‑LSTM, etc., qui intègrent un mécanisme de porte spatial convolutif dans la récurrence temporelle, réalisant ainsi une modélisation conjointe des caractéristiques locales spatio-temporelles.
Ci-dessous, nous développons trois directions : les tâches spatio-temporelles et la représentation des données, les modèles GNN + temporels, et les LSTM convolutifs avec la convolution spatio-temporelle.
6.5.1 Tâches spatio-temporelles et représentation des données : des réseaux routiers aux grilles géographiques
Avant d'aborder les modèles concrets, la modélisation spatio-temporelle doit d'abord résoudre comment représenter la structure spatiale. Contrairement à l'axe temporel unidimensionnel, la structure spatiale peut être une grille régulière (grid), un graphe irrégulier (graph) ou une forme hybride.
- Dans les scénarios de trafic, les routes et intersections forment naturellement un graphe orienté ou non orienté : les nœuds représentent des segments de route ou des carrefours, les arêtes représentent les connexions routières et les directions de circulation ; chaque nœud possède à chaque pas de temps un ensemble de caractéristiques, telles que le flux de véhicules, la vitesse moyenne, l'indice de congestion, etc.
- Dans la prédiction météorologique et de la qualité de l'air, on peut utiliser une grille géographique régulière (comme une grille latitude-longitude), ou construire une structure de graphe à partir des relations d'adjacence entre stations de surveillance, en définissant les poids des arêtes selon la distance géographique, la direction du vent ou la corrélation.
- Dans les scénarios de logistique et de mobilité partagée, on peut diviser la ville en grilles ou unités de zone, chaque unité ayant des caractéristiques temporelles telles que le volume de commandes, le nombre de véhicules actifs, tout en étant reliée spatialement par des relations d'adjacence ou des distances routières réelles.
Cette représentation unifiée « structure spatiale + série temporelle » permet de modéliser de nombreux scénarios différents comme des problèmes similaires : étant donné une séquence spatio-temporelle historique, prédire l'état de chaque nœud ou cellule de la grille sur plusieurs pas de temps futurs. La conception ultérieure des modèles (qu'il s'agisse de GNN + modèle temporel ou de ConvLSTM) s'articule autour de cette perspective unifiée.
Au niveau produit, cette couche d'abstraction est souvent encapsulée dans les couches de données et de modélisation des plateformes de calcul urbain, des systèmes de prévision météorologique/environnementale, des plateformes de planification d'itinéraires et de répartition : les équipes métier ont seulement besoin de savoir « comment prédire le trafic/la demande future sur le réseau/la grille », tandis que la représentation des données sous-jacente et la fusion spatio-temporelle sont traitées de manière unifiée par le cadre de modélisation.
6.5.2 Réseaux de neurones sur graphes + modèles temporels : ST‑GCN, DCRNN, Graph WaveNet, etc.
Pour modéliser des séries spatio-temporelles sur des structures de graphes, l'approche actuellement la plus répandue est la combinaison « réseau de neurones sur graphes (GNN) + modèle temporel ». Les modèles représentatifs incluent ST‑GCN, DCRNN, Graph WaveNet, ST‑Transformer, et leurs caractéristiques communes sont les suivantes :
- Sur la dimension spatiale, utiliser la convolution sur graphes (GCN), l'attention sur graphes (GAT) ou les méthodes de convolution spectrale pour effectuer une « agrégation de voisinage » sur les caractéristiques des nœuds à chaque pas de temps, capturant ainsi les dépendances spatiales et l'influence de la structure topologique ;
- Sur la dimension temporelle, utiliser des RNN (comme GRU/LSTM), des TCN ou des Transformer pour modéliser les séquences de caractéristiques au niveau des nœuds, capturant les tendances temporelles et la périodicité ;
- Grâce à un empilement alterné ou une conception conjointe, le modèle peut apprendre des motifs locaux et globaux à plusieurs échelles spatio-temporelles.
Par exemple, DCRNN (Diffusion Convolutional RNN) combine la convolution sur graphes avec des unités récurrentes à portes, en utilisant la convolution de diffusion pour simuler la propagation de l'information sur le réseau routier, puis en capturant la dynamique temporelle via un RNN, ce qui le rend particulièrement adapté aux tâches de prédiction du trafic. Graph WaveNet, quant à lui, introduit un apprentissage adaptatif de la structure du graphe et une modélisation multi-échelle sur la base de la convolution sur graphes et de la convolution temporelle, améliorant l'adaptabilité aux réseaux routiers complexes et aux topologies irrégulières. Des modèles comme ST‑Transformer introduisent le mécanisme d'auto-attention dans la modélisation spatio-temporelle, en considérant simultanément les corrélations entre différentes positions temporelles et spatiales via des modules d'attention spatio-temporelle.
Dans les systèmes réels, cette classe de modèles GNN + temporels est largement déployée dans des produits tels que les plateformes de prédiction du trafic urbain et des flux de personnes, les systèmes de répartition de mobilité partagée, la surveillance de réseaux IoT complexes. Ils servent généralement de moteur de prédiction central, formant avec les systèmes à base de règles, les modèles de simulation et les stratégies métier une boucle fermée, permettant à la répartition et à la planification de prendre en compte à la fois la structure globale et de répondre aux changements locaux.
6.5.3 LSTM convolutifs et convolution spatio-temporelle : ConvLSTM, Conv‑TT‑LSTM, etc.
Une autre direction importante est la modélisation spatio-temporelle basée sur les LSTM convolutifs (ConvLSTM) et leurs variantes. Contrairement au LSTM standard qui transmet des vecteurs unidimensionnels entre les pas de temps, le ConvLSTM utilise des opérateurs de convolution dans sa structure de portes, de sorte que l'état caché et l'entrée restent des tenseurs multidimensionnels (comme des cartes de caractéristiques sur une grille spatiale). Ainsi, à chaque mise à jour d'état à un pas de temps, la récurrence temporelle est intégrée tout en effectuant une agrégation locale par convolution spatiale, réalisant une modélisation naturelle des motifs locaux spatio-temporels.
Sur cette base, des modèles améliorés comme Conv‑TT‑LSTM tentent d'améliorer la capacité d'expression et l'efficacité du modèle via des mécanismes tels que la décomposition tensorielle, le partage de paramètres et la convolution multi-échelle, pour s'adapter à des données spatio-temporelles plus vastes et plus complexes. Par exemple, en prédiction météorologique, on peut empiler plusieurs couches de ConvLSTM pour effectuer une récurrence spatio-temporelle sur des cartes multi-canaux d'éléments météorologiques (température, humidité, direction du vent, etc.), et prédire la distribution spatiale sur plusieurs heures ou jours à partir de plusieurs trames historiques ; dans la surveillance du trafic et de l'environnement, on peut également mapper les réseaux routiers ou les points de surveillance sur une grille régulière et utiliser des modèles comme ConvLSTM pour la prédiction.
Comparés aux modèles GNN + temporels, les modèles de la famille ConvLSTM sont davantage utilisés dans les scénarios avec une structure de grille régulière et une lissage spatial local prononcé, comme la prédiction d'échos radar météorologiques, la prévision de la qualité de l'air sur grille, la prédiction image par image en vidéo, etc. Leur avantage réside dans une implémentation relativement directe, une facilité à exploiter l'infrastructure existante de réseaux convolutifs pour l'accélération et le déploiement, et une bonne capacité à collaborer avec des modèles de vision comme CNN/ViT, par exemple en combinant caractéristiques convolutives et récurrence temporelle dans la modélisation spatio-temporelle d'images de télédétection.
En termes de forme produit, les modèles de cette direction sont principalement utilisés dans les systèmes de prévision météorologique/environnementale, les plateformes d'analyse spatio-temporelle de télédétection, la prédiction spatio-temporelle vidéo et d'images, exposant souvent leurs capacités en amont sous la forme de « cartes de prédiction de scénarios spatio-temporels futurs », devenant ainsi une entrée importante pour la prise de décision métier et l'analyse visuelle.# 7. Couche Agents & Utilisation d'outils (Agents & Tool Use)
Dans les couches précédentes (vision, langage, etc.), les modèles adoptaient majoritairement une posture de « réponse passive » — ils reçoivent une entrée et produisent une sortie. Mais dans de nombreux cas d'usage métier réels, ce dont nous avons besoin, c'est d'un agent intelligent (Agent) capable de planifier activement, d'appeler des outils externes et d'orchestrer des workflows : il ne se contente pas de voir/lire/comprendre, il peut aussi « décider de la prochaine action à entreprendre », par exemple rechercher des informations, exécuter du code, lire/écrire des fichiers, appeler des systèmes internes, puis consolider les résultats, les interpréter et les restituer à l'utilisateur.
Cette couche peut être comprise comme la couche de liaison clé qui « transforme un modèle fondation en système actionnable » : à travers des interfaces d'appel d'outils structurées, l'orchestration de workflows, la collaboration multi-agents et les mécanismes d'humain dans la boucle (human-in-the-loop), elle étend le LLM, d'un puissant « noyau cognitif » à un véritable « collaborateur numérique » capable d'accomplir des tâches de bout en bout.## 7.1 Appel d'outils et exécution (Tool Calling / Function Calling)
À l'ère du texte pur, où les modèles ne faisaient que lire et parler sans agir, les LLM ressemblaient à des « super-conversationalistes » : ils pouvaient comprendre des questions, donner des conseils, écrire du code, proposer des plans, mais tout travail d'exécution réelle — interroger une base de données, lancer un script, générer un fichier, appeler un service cloud — devait encore être pris en charge manuellement par un humain. L'émergence du Tool Calling / Function Calling a permis pour la première fois au modèle d'« agir » à l'intérieur d'un périmètre de sécurité : générer automatiquement des paramètres structurés à partir du langage naturel pour appeler des moteurs de recherche, des bases de données, des moteurs de calcul, des services de génération d'images/audio/vidéo et d'autres capacités externes, puis restituer les résultats d'exécution de manière organisée, formant ainsi une boucle fermée « comprendre → décider → exécuter ».
D'un point de vue produit, l'appel d'outils constitue la capacité fondamentale de la plupart des systèmes Agent : les API OpenAI Assistants, LangChain, LlamaIndex, AutoGen et les plateformes Agent des différents fournisseurs cloud sont essentiellement une couche d'exécution construite au-dessus des LLM, autour des problématiques de comment définir les outils, comment permettre au modèle de choisir le bon outil, et comment gérer les erreurs et les nouvelles tentatives. Nous abordons ci-dessous cette couche de capacité sous les angles des scénarios, des principes et des modèles, puis nous développerons dans les sous-sections suivantes les trois directions que sont la « conception d'interfaces d'appel d'outils », la « sélection et stratégie d'outils » et les « types d'outils typiques ».
- Scénarios
- Questions-réponses intelligentes et recherche augmentée : le modèle décide automatiquement, en fonction de la question de l'utilisateur, s'il doit appeler un outil de recherche (vectorielle / par mots-clés), interroger une base de connaissances interne à l'entreprise ou effectuer une recherche sur le web public, puis intègre les documents et FAQ trouvés dans la réponse finale.
- Automatisation des données et des rapports : face à des demandes telles que « consulte le chiffre d'affaires de cette période et fais-en un graphique » ou « calcule-moi les indicateurs de risque de ce portefeuille », le modèle génère automatiquement du SQL ou des paramètres d'analyse, appelle la base de données et le moteur de calcul, et renvoie des graphiques et des conclusions.
- Opérations sur les documents et fichiers : lire automatiquement des PDF/Word/Excel/tables de base de données, extraire et résumer les informations clés, ou générer de nouveaux fichiers (rapports, contrats, propositions) selon les instructions, puis les téléverser/stocker à l'emplacement spécifié via des outils.
- Génération et traitement de médias : appeler des services de génération d'images/audio/vidéo/3D selon des instructions textuelles, ou effectuer des opérations de montage, compression, transcodage, filigrane sur des médias existants, pour former un pipeline de contenu « rédaction + conception + export » en un clic.
- Principes Le cœur de l'appel d'outils est : piloter des appels de fonctions structurés par le langage naturel.
- Tout d'abord, le nom, la description et la structure des paramètres (types, champs obligatoires, valeurs d'énumération, etc.) des outils externes sont exposés au LLM sous forme de JSON Schema ou de signatures de fonctions.
- Lorsqu'un utilisateur formule une demande, le LLM doit non seulement comprendre la sémantique, mais aussi juger « s'il est nécessaire d'appeler un outil », « quel(s) outil(s) utiliser » et « comment remplir les paramètres de ces outils ».
- Une fois que le modèle décide d'appeler un outil, il génère des paramètres structurés (généralement du JSON), que le runtime exécute effectivement via l'API / le programme externe, puis renvoie le résultat d'exécution au modèle sous forme structurée, afin que le modèle poursuive son raisonnement ou génère la réponse finale sur cette base.
- Pour garantir la sécurité et la robustesse, le système doit gérer dans ce processus la validation des paramètres, les timeouts, les retours d'erreur, les nouvelles tentatives et les solutions de repli, et appliquer un contrôle des permissions et un audit pour les appels pouvant impliquer des enjeux de sécurité ou de confidentialité.
- Modèles Les modèles et frameworks qui soutiennent cette capacité appartiennent principalement à trois catégories :
- LLM prenant en charge le Function Calling : tels que GPT‑4.1 / série o, qui comprennent nativement au niveau du décodage la « signature d'outil + JSON Schema » et peuvent produire de manière proactive ou réactive des paramètres d'appel structurés au moment opportun.
- Paradigmes de raisonnement augmentés par les outils : comme ReAct, Toolformer, qui intègrent « réflexion + appel d'outil » dans une même chaîne de raisonnement, traitant l'utilisation d'outils comme une partie des étapes intermédiaires plutôt que comme un simple pré/post-traitement.
- Frameworks d'ingénierie et runtimes : API OpenAI Assistants, LangChain, LlamaIndex, AutoGen, plateformes Agent des fournisseurs cloud, etc., qui fournissent l'infrastructure pour la définition des outils, le routage des appels, la gestion d'état, la gestion des erreurs et l'audit de journalisation, permettant aux développeurs de se concentrer sur « quels outils exposer » et « quelle API métier abstraire » sans avoir à construire un runtime à partir de zéro.
7.1.1 Interface d'appel d'outils : du langage naturel aux appels de fonctions structurés
Un système d'appel d'outils fonctionnel nécessite d'abord une « couche d'interface outil » claire, normalisée et adaptée aux LLM. Celle-ci a pour mission d'encapsuler les API, scripts et services du monde extérieur sous forme de « fonctions » que le modèle peut comprendre et appeler en toute sécurité, permettant au modèle d'« exprimer » comme en pseudo-code l'outil qu'il souhaite appeler et ses paramètres.
- Définition des outils et schéma de paramètres Au niveau de la couche d'interface, chaque outil est généralement défini à l'aide d'une structure de type JSON Schema ou signature de fonction : incluant le nom (name), la description (description), les champs de paramètres (properties), les types (string / number / boolean / array / object), le caractère obligatoire (required), les plages de valeurs ou énumérations, etc. Ces informations sont utilisées d'une part pour piloter la vérification de type côté frontend/SDK, et d'autre part fournies directement au LLM pour aider le modèle à « apprendre » comment remplir correctement les paramètres. Plus la description est claire et les contraintes raisonnables, plus les appels générés par le modèle sont normalisés et moins le taux d'erreur est élevé.
- Génération de paramètres structurés par le LLM Lorsqu'un utilisateur formule une demande comme « cherche le chiffre d'affaires du T3 2024 et fais un histogramme ventilé par région », le modèle doit d'abord raisonner qu'il faut au moins un « outil de requête de rapports » (pour accéder aux données) et probablement un « outil de génération de graphiques » (pour tracer). Pour chaque outil, il doit extraire et mapper des paramètres structurés à partir du langage naturel, tels que la plage temporelle (start_date/end_date), la dimension (region), l'indicateur (revenue), le type de graphique (bar), le format de sortie, etc., puis produire le résultat en JSON à destination du runtime. Dans ce processus, le modèle effectue essentiellement un raisonnement intégré « langage naturel → planification de tâche → extraction/remplissage de paramètres », c'est pourquoi les invites en langage naturel dans la description des outils, les exemples de paramètres et les échantillons few-shot sont tous très importants.
- Exécution des outils et retour des résultats Lorsque le runtime reçoit l'appel JSON produit par le modèle, il effectue d'abord une validation des paramètres et une vérification de sécurité, avant d'appeler effectivement l'API ou le programme backend. Une fois l'exécution terminée, il encapsule le résultat sous forme d'objet structuré (tableau de résultats de requête, URL de fichier, ID de ressource média, etc.) et le renvoie au modèle. Ensuite, le modèle transforme ces résultats bruts en explications lisibles par l'utilisateur ou les retraite, par exemple en résumant un rapport, en générant une analyse en langage naturel, en intégrant des annotations dans les graphiques, etc. Pour le modèle, le résultat de l'outil n'est qu'une partie de l'information intermédiaire : il doit toujours « comprendre le résultat + expliquer le résultat ».
7.1.2 Sélection et stratégie d'outils : prendre des décisions dans un monde multi-outils
Lorsque le système ne dispose que d'un seul outil, « faut-il utiliser un outil » est la seule question. Mais dans les applications Agent réelles, on trouve souvent des dizaines, voire des centaines d'outils : recherche dans différentes sources de données, API métier de différents départements, capacités de génération/analyse de différents domaines techniques. Cela soulève un nouveau défi : comment le modèle peut-il effectuer une sélection et une orchestration raisonnables dans un environnement multi-outils.
- Sélection et routage d'outils Tout d'abord, le modèle doit juger « si la demande actuelle nécessite l'appel d'un outil » et « quel outil (ou quels outils) appeler ». Cela se fait généralement en listant les descriptions des outils disponibles dans l'invite système et en fournissant des exemples typiques, afin que le modèle apprenne à choisir l'outil approprié en fonction de l'intention de l'utilisateur. Pour les scénarios où le nombre d'outils est élevé et les descriptions très similaires, de nombreux frameworks introduisent un « routeur d'outils » (par exemple, un filtrage préalable basé sur la recherche vectorielle ou des règles), qui filtre d'abord quelques outils candidats parmi la grande liste, puis les expose au LLM pour sélection, réduisant ainsi la charge du modèle et la probabilité d'erreur de sélection.
- Séquençage et combinaison multi-outils Les tâches complexes nécessitent souvent la collaboration de plusieurs outils. Par exemple, « étudier les principales sociétés cotées d'un secteur et générer un rapport contenant des graphiques comparatifs financiers » peut impliquer un moteur de recherche, une base de données de rapports financiers, un moteur de calcul, un outil de génération de graphiques, un outil d'export de documents, etc. Dans ce cas, le modèle doit effectuer une planification de tâche légère : d'abord utiliser quel outil pour obtenir la liste, puis interroger les détails un par un sur les éléments de la liste, ensuite fusionner les données, faire des calculs et des visualisations, et enfin appeler l'outil d'export pour générer le rapport. Les pratiques typiques incluent l'approche ReAct/Planner‑Executor, qui permet au modèle d'effectuer progressivement des appels d'outils combinés dans une boucle de « réflexion (Plan) — appel (Act) — réflexion (Reflect) ».
7.1.3 Types d'outils typiques : un puzzle de capacités, de la recherche à la génération de médias
Différents types d'outils fournissent au système Agent des « cerveaux externes » dans différentes dimensions. Du point de vue de la pratique d'ingénierie, les catégories d'outils suivantes sont presque la configuration standard de toutes les applications complexes.
- Outils de recherche : recherche vectorielle et par mots-clés Les outils de recherche permettent d'étendre la « mémoire » vers le monde extérieur :
- La recherche par mots-clés convient aux documents traditionnels et aux bases de données métier bien structurés avec des champs clairs.
- La recherche vectorielle, quant à elle, construit via l'embedding des index sémantiques pour les textes non structurés, le code, les historiques de conversation et même les données multimodales, prenant en charge la recherche « floue mais sémantiquement pertinente ». Dans les scénarios RAG, le LLM extrait via les outils de recherche le contexte pertinent par rapport à la question de l'utilisateur, puis raisonne et génère sur cette base, améliorant considérablement l'actualité et la précision des réponses.
- Exécution de code et moteurs de calcul Les outils d'exécution de code (tels que les sandboxes Python/JS, les exécuteurs de Notebook) permettent au LLM « d'écrire un morceau de code et de l'exécuter immédiatement », résolvant ainsi des problèmes de calcul complexe, de traitement de données, de simulation numérique, de visualisation, etc. Le modèle est responsable de produire le code et les paramètres d'entrée, l'environnement d'exécution étant responsable de l'isolation de sécurité, de la limitation des ressources et de la collecte des résultats. Ce type d'outils est essentiel dans les scénarios d'analyse de données, de recherche quantitative, de rapports automatisés, de calcul scientifique et d'auto-vérification par l'Agent (le modèle génère une réponse puis la vérifie avec du code).
- Accès aux fichiers et aux sources de données Les outils de lecture/écriture de fichiers permettent d'introduire les systèmes de fichiers externes et les sources de données dans le champ de vision de l'Agent : lire des PDF/Word/Excel, accéder à des tables de base de données, appeler des API métier internes, etc. Le modèle obtient via ces outils des données métier réelles, puis effectue des synthèses, des comparaisons et génère des rapports. Des outils de gestion et d'écriture de fichiers les accompagnent : stocker de manière persistante les rapports, graphiques, PPT, code générés, et renvoyer des liens ou des ID pour faciliter l'accès et l'intégration ultérieurs par l'utilisateur.
- Outils de génération et de traitement de médias Les outils de génération de médias ajoutent à l'Agent des bras de « création » et de « conception » :
- Génération et édition d'images/vidéos : générer automatiquement des illustrations, affiches, storyboards à partir de textes, ou effectuer des recadrages, sous-titrages, filigranages sur des médias existants.
- Génération et traitement audio : TTS, doublage, génération de musique, amélioration audio et montage.
- Outils 3D / ingénierie : générer des scènes 3D simples, des esquisses CAO, des prototypes d'interface utilisateur, etc. Dans la production de contenu, la conception marketing, l'éducation et la formation, les jeux et les applications multimédias, ce type d'outils rapproche le parcours « de l'idée au produit fini » d'une chaîne automatisée.
Dans l'ensemble, l'appel d'outils et l'exécution étendent le LLM d'un « modèle de langage » à un « contrôleur universel doté d'interfaces d'action » : le modèle comprend les besoins et l'environnement par le langage, exécute des opérations réelles via des outils, et ajuste continuellement sa stratégie grâce au retour d'information. Associé à une orchestration de workflows appropriée et à une collaboration multi-Agent (voir 7.2), cela constitue l'architecture fondamentale de la nouvelle génération d'applications intelligentes.## 7.2 Orchestration des workflows et collaboration multi-agent (Workflow & Orchestration)
Avec la capacité d'appel d'outils, le LLM n'est plus seulement un « répondeur de questions », mais peut devenir une « unité d'exécution » orientée vers des tâches concrètes. Cependant, les activités métier réelles sont souvent bien plus complexes qu'un simple dialogue : une analyse juridique complète, une étude de marché, une configuration de test A/B, ou un processus de bout en bout de gestion opérationnelle impliquent généralement plusieurs étapes, plusieurs outils, voire la participation prolongée de multiples intervenants. Dans ces situations, le modèle unique LLM + outils atteint ses limites et nécessite une orchestration des workflows et une collaboration multi-agent plus avancées.
Du point de vue système, la responsabilité de cette couche est la suivante : abstraire un processus métier complexe, multi-étapes et multi-parties en un graphe de workflow compréhensible et pilotable par le LLM, puis ordonnancer un ou plusieurs agents sur ce graphe, en coordination avec l'intervention humaine, pour accomplir la tâche ensemble. Les implémentations typiques incluent les architectures d'agents de type Planner‑Executor, les agents dotés de capacités de réflexion/auto-correction, ainsi que les orchestrateurs de workflow basés sur des graphes. Les formes de produit correspondantes sont les plateformes de génération automatique de rapports et d'automatisation opérationnelle, l'intégration de workflows low-code avec les LLM, les robots de processus métier complexes et les systèmes d'exploitation automatisée.
- Scénarios
- Pipelines de rapports et de contenu : de « réception du besoin → recherche et extraction de données → analyse et visualisation → rédaction du rapport → révision et modification → export et distribution », automatiser ou semi-automatiser les processus de production de contenu en plusieurs étapes.
- Automatisation des processus métier : par exemple, dans l'e-commerce, « analyse produit → veille concurrentielle → génération de stratégie promotionnelle → mise en œuvre de la configuration » ; dans l'exploitation, « alerte de surveillance → analyse des causes racines → exécution des mesures d'atténuation → rapport de rétrospective », etc.
- Collaboration inter-rôles : faire collaborer des agents de différents domaines (juridique, financier, technique, opérationnel) autour d'un projet complexe, comme la due diligence de fusion-acquisition, la préparation de dossiers d'investissement, ou la rédaction d'appels d'offres pour de grands projets.
- Principes Le cœur de l'orchestration des workflows et de la collaboration multi-agent consiste à ajouter une couche de contrôle structuré et de gestion d'état au-dessus du LLM :
- Décomposer les tâches complexes en plusieurs sous-tâches avec des dépendances, représentées sous forme de DAG, de machine à états ou de graphe orienté, et configurer pour chaque nœud les conditions de déclenchement, les entrées/sorties et l'agent/outil requis.
- L'agent de type Planner ou l'orchestrateur de niveau supérieur décide quand déclencher quel nœud, avec quel agent ou outil, et ajuste dynamiquement le chemin ultérieur en fonction des résultats d'exécution (branchements conditionnels, boucles, retours arrière en cas d'erreur).
- Introduire l'humain dans la boucle (Human‑in‑the‑loop) aux étapes critiques, pour une confirmation et une édition manuelles des décisions à haut risque et des sorties clés, et réinjecter les retours humains dans le système pour mettre à jour les stratégies ou affiner les modèles.
- Modèles Les principales directions techniques soutenant cette couche incluent :
- Architecture d'agent Planner‑Executor : un « agent planificateur » responsable de la décomposition des tâches et de la conception du parcours, un ou plusieurs « agents exécuteurs » responsables de la mise en œuvre concrète des étapes spécifiques.
- Agent réflexif / auto-correctif : pendant l'exécution, l'agent examine continuellement ses propres performances, réfléchit et corrige les résultats intermédiaires inappropriés, réduisant ainsi la propagation silencieuse des « erreurs confiantes ».
- Orchestrateur de workflow basé sur des graphes (Graph‑based Workflow Orchestrator) : modéliser l'ensemble du flux de tâches sous forme de graphe, en introduisant des mécanismes d'état des nœuds, de conditions sur les arêtes, de contrôle parallèle/séquentiel, de sorte que l'appel au LLM devienne un ou plusieurs nœuds dans le graphe, plutôt que le centre de contrôle unique.
7.2.1 Décomposition et planification des tâches : d'un « besoin en une phrase » à un flux exécutable
Ce que l'utilisateur donne à l'agent est généralement une demande en langage naturel très condensée, comme « fais-moi une étude de marché sur l'industrie des véhicules à énergie nouvelle et produis un PPT ». Derrière cette phrase se cachent en réalité de nombreuses étapes : recherche, filtrage, analyse, visualisation, mise en page, multiples cycles de modification, etc. Partir de cette phrase pour construire automatiquement un workflow clair et exécutable constitue la première étape de l'orchestration des workflows.
- Du langage naturel au graphe de sous-tâches L'agent de type Planner doit d'abord « déplier » la demande : en combinant des modèles intégrés, des cas historiques et un inventaire d'outils, il identifie les phases clés (comme la collecte d'informations, l'analyse de données, la conception de la structure, la rédaction du contenu, la révision et l'export), puis les affine en sous-tâches exécutables (comme « rechercher 5 rapports sectoriels faisant autorité de l'année écoulée », « extraire les données de ventes des 3 dernières années et les ventiler par modèle de véhicule », « générer 3 graphiques comparatifs », etc.). Les dépendances et la logique d'ordonnancement entre ces sous-tâches sont explicitement représentées sous forme de graphe ou de machine à états : lesquelles peuvent être parallélisées, lesquelles doivent être exécutées séquentiellement, à quels nœuds une confirmation humaine est nécessaire, et dans quelles conditions un retour arrière ou une nouvelle tentative est requis.
- Branchements conditionnels, boucles et chemins d'exception Les processus réels ne sont souvent pas des pipelines linéaires, mais contiennent des branchements conditionnels (par exemple, « si on ne trouve pas suffisamment de rapports de haute qualité, changer les mots-clés ou la source de données »), des boucles (par exemple, « continuer à essayer de réécrire et de condenser jusqu'à ce que la longueur du rapport respecte la limite ») et des chemins d'exception (par exemple, « si une source de données est inaccessible, basculer vers une source alternative ou utiliser une méthode d'estimation »). Cela exige que la couche d'orchestration des workflows puisse exprimer des sémantiques de flux de contrôle comme if/else, while/for, try/catch sur la structure du graphe, et permettre à l'agent Planner ou à l'orchestrateur de niveau supérieur de prendre des décisions en cours d'exécution en fonction des résultats en temps réel, plutôt que de planifier toutes les étapes une seule fois au départ.
- Articulation avec l'appel d'outils La décomposition et la planification des tâches sont étroitement liées à l'appel d'outils de la section 7.1 : lorsqu'il génère des sous-tâches, le Planner spécifie souvent simultanément « quels outils/agents cette tâche doit utiliser » et « le format d'entrée/sortie de ce nœud », jetant ainsi les bases du remplissage automatique ultérieur des paramètres et de l'exécution des outils. Certains systèmes adoptent une approche explicite en deux phases « Plan + Execute » : le Planner produit d'abord un plan lisible par machine (comme une description de workflow en JSON), puis l'Executor appelle strictement les outils et agents selon le plan. D'autres systèmes adoptent un style ReAct, entrelaçant « réflexion–appel d'outil–observation–re-réflexion » dans le même dialogue, pour obtenir une exécution adaptative plus flexible.
7.2.2 Collaboration multi-agent : faire en sorte que l'« équipe virtuelle » joue son rôle
Un seul grand modèle est certes puissant, mais dans les scénarios métier complexes, différents domaines nécessitent souvent des structures de connaissances, des préférences stylistiques et des politiques de sécurité différentes. L'idée de la collaboration multi-agent consiste à décomposer une intelligence « universelle » en plusieurs rôles « spécialisés et compétents » : quelqu'un est responsable de la planification, quelqu'un de l'exécution, quelqu'un de la révision, quelqu'un du jugement expert dans le domaine, formant ainsi une équipe virtuelle composée d'agents, d'outils et d'humains.
- Répartition des rôles : planification, exécution et révision Dans un processus multi-agent typique, les rôles courants incluent :
- Agent planificateur : responsable de la compréhension des besoins de l'utilisateur, de la conception du plan d'ensemble, de la décomposition des sous-tâches, et de l'ajustement dynamique du parcours en fonction des résultats pendant l'exécution.
- Agent exécuteur : optimisé en profondeur autour de certains outils ou sous-domaines (comme l'agent de recherche, l'agent d'analyse de données, l'agent de rédaction de contenu), il accomplit les étapes spécifiques conformément au plan.
- Agent réviseur : du point de vue de la structure, de la logique, de la cohérence stylistique et du contrôle des risques, il vérifie et corrige les productions intermédiaires et finales, à la manière d'un « éditeur/reviewer virtuel ».
- Collaboration d'agents experts du domaine Pour des domaines hautement spécialisés comme le droit, la finance, la technologie, ou l'exploitation, on peut subdiviser davantage en agents experts du domaine : comme « l'agent conseiller juridique », « l'agent analyste en investissement », « l'agent DevOps cloud-native », « l'agent d'optimisation publicitaire », etc. Ils peuvent s'appuyer sur des bases de connaissances, des outils et même des modèles spécialement affinés pour le domaine, et participer à des collaborations de type projet : par exemple, dans un dossier d'investissement, l'agent technique est responsable de la partie faisabilité technique, l'agent financier du modèle financier et de l'évaluation, l'agent juridique de la conformité et de la divulgation des risques, l'agent opérationnel du marché et de la stratégie de croissance, puis l'agent coordinateur consolide et unifie le style.
- Protocoles de collaboration et routage des messages La clé de la collaboration multi-agent réside aussi dans « qui parle à qui et quand ». Le système a besoin d'un mécanisme de routage et de coordination des messages :
- Déterminer quel agent doit traiter une requête utilisateur ou un résultat intermédiaire donné.
- Maintenir un contexte partagé et des mémoires privées respectives.
- Contrôler l'exécution parallèle et séquentielle, ainsi que la résolution des conflits (par exemple, comment arbitrer lorsque différents agents proposent des suggestions contradictoires). Ces capacités sont généralement fournies par un orchestrateur de niveau supérieur ou un « agent gestionnaire », tandis que des frameworks comme LangChain et AutoGen fournissent au niveau de l'ingénierie des infrastructures de routage de dialogue, de sessions multi-agents et de définition de rôles.
7.2.3 Humain dans la boucle (Human‑in‑the‑loop) : garder les points de risque sous contrôle
Même si l'orchestration des workflows et la collaboration multi-agent sont aussi intelligentes que possible, les activités métier réelles ne peuvent pas totalement se passer du jugement humain, en particulier dans les scénarios à haut risque, coût élevé ou haute sensibilité, comme la conformité juridique, les décisions financières, les conseils médicaux, les changements de production à grande échelle ou la réponse aux crises de réputation. La conception de l'humain dans la boucle (Human‑in‑the‑loop) vise précisément à trouver un équilibre entre automatisation et contrôlabilité : automatiser ce qui peut l'être, et s'arrêter obligatoirement pour qu'un humain vérifie ce qui doit être confirmé manuellement.
- Confirmation manuelle aux étapes clés Dans le graphe de workflow, on marque généralement de manière explicite plusieurs « nœuds d'approbation/confirmation humaine » :
- Par exemple, lors de la génération automatique de contrats, une double confirmation par le service juridique et le responsable métier est nécessaire avant la signature.
- Dans les systèmes d'exploitation automatisée, les opérations impliquant des changements d'environnement de production, des redémarrages groupés ou des modifications de configuration doivent être confirmées par l'ingénieur de permanence.
- Dans les scénarios de génération de contenu, pour les contenus destinés à une large publication ou sensibles à la marque, une relecture humaine est nécessaire. L'orchestrateur suspend l'exécution automatique à ces nœuds, envoie les résultats intermédiaires au rôle humain correspondant, et reprend le processus ultérieur après réception du retour.
- Mise à jour des stratégies pilotée par le retour humain L'humain ne se contente pas « d'appuyer sur approuver ou rejeter » à un moment donné ; plus important encore, le contenu du retour peut être absorbé par le système :
- Comparer la version modifiée manuellement avec la sortie originale, et l'enregistrer comme « exemple positif/négatif » pour l'optimisation ultérieure des prompts ou l'affinage du modèle.
- Sur la base d'analyses statistiques, identifier les types de tâches/étapes les plus fréquemment modifiés manuellement, afin d'optimiser les prompts, les combinaisons d'outils ou la conception du workflow de l'agent correspondant.
- Dans les cas extrêmes ou anormaux, l'humain peut ajouter des « listes noires / listes blanches / règles spéciales », influençant directement le choix stratégique du système dans des situations similaires.
- Classification des risques et observabilité Enfin, l'humain dans la boucle nécessite également un mécanisme clair de classification des risques et d'observabilité :
- Selon des dimensions telles que le type de tâche, l'étendue de l'impact, le montant financier, les informations sensibles impliquées, classer les processus en différents niveaux de risque, correspondant à différents degrés d'intervention humaine (comme la revue en lecture seule, l'approbation obligatoire, l'approbation multi-niveaux).
- Via des journaux, des audits, des tableaux de bord visuels, permettre aux responsables opérationnels et de gestion de suivre à tout moment quelles tâches sont en cours, à quelle étape elles se trouvent, où une intervention humaine a été déclenchée, et quels échecs et corrections manuelles sont survenus dans l'historique. Ces capacités augmentent non seulement l'acceptabilité du système au sein de l'entreprise, mais fournissent également une base pour les audits de conformité ultérieurs et la répartition des responsabilités.
Dans l'ensemble, l'appel d'outils et l'exécution (7.1) résolvent le problème de « l'action en une seule étape », tandis que l'orchestration des workflows et la collaboration multi-agent (7.2) tentent de répondre à la question « comment enchaîner de nombreuses étapes, pour que différents rôles collaborent à long terme et s'exécutent de manière contrôlable ». La superposition de ces deux aspects, combinée à l'humain dans la boucle et à de bonnes pratiques d'ingénierie, constitue la base d'une nouvelle génération d'applications intelligentes pour les scénarios métier réels.# 8. Couche de récupération et de connaissances (Retrieval & Knowledge)
Dans la couche de vision et de compréhension précédente, le modèle s'appuie principalement sur les « connaissances apprises dans ses propres paramètres » pour comprendre et générer du contenu. Mais dans un contexte métier réel, de nombreux problèmes ne peuvent pas être résolus uniquement par la « mémoire » : les politiques internes d'une entreprise évoluent chaque jour, les réglementations et les normes sectorielles sont constamment mises à jour, l'historique d'un client spécifique n'existe que dans une base de données interne. Dans ces cas-là, se fier uniquement aux connaissances « mémorisées » par le modèle est loin d'être suffisant — ce qui compte vraiment, c'est la capacité à effectuer une recherche et un raisonnement efficaces sur des bases de connaissances externes, des données structurées et des graphes de connaissances.
On peut voir cette couche comme l'ajout, au-dessus des capacités du modèle, d'un « cerveau externe capable de consulter des documents et d'interroger des bases de données ». Lorsqu'un utilisateur pose une question, le système ne génère plus directement une réponse, mais va d'abord « fouiller » dans les sources de données appropriées : bibliothèques de documents, bases de données, moteurs de recherche, graphes de connaissances, journaux et systèmes métier… Ensuite, le modèle s'appuie sur le contenu réellement récupéré pour fournir une réponse et prendre une décision. Cela permet non seulement d'améliorer considérablement la précision et l'actualité des réponses, mais aussi de renforcer dans une large mesure l'explicabilité et la conformité (par exemple, pouvoir citer des sources, conserver les traces des requêtes SQL exécutées, etc.).
Autour de cette couche, les capacités courantes se répartissent grosso modo en deux directions : d'une part, la génération augmentée par récupération (RAG), principalement orientée vers les « questions-réponses en langage naturel + recherche dans des documents/bases de connaissances » ; d'autre part, les données structurées et graphes de connaissances (Structured Data & KG), qui permettent un accès et un raisonnement plus précis et contrôlable sur les bases de données, les bases de données graphes et les plateformes de connaissances métier. Ces deux axes sont détaillés ci-dessous.## 8.1 Génération augmentée par récupération (RAG)
Le RAG (Retrieval‑Augmented Generation) peut être considéré comme un « LLM qui sait consulter des documents ». Contrairement à une dépendance exclusive aux paramètres internes du modèle, le RAG interroge d'abord une base de connaissances externe avant de répondre à chaque question : il récupère les segments de documents (chunks) les plus pertinents, puis les fournit comme « contexte » au LLM, afin que celui-ci génère une réponse fondée sur des sources consultées. Le RAG est devenu le paradigme par défaut pour les scénarios tels que les questions-réponses sur des bases de connaissances d'entreprise, la recherche de rapports sectoriels, les questions-réponses professionnelles en droit/santé/finance, ou encore les robots de recherche dans la documentation interne.
Sur le plan architectural, un RAG typique se décompose en trois couches : la couche de construction d'index, la couche de récupération et la couche de génération. Les deux premières visent à « trouver précisément », tandis que la dernière vise à « expliquer clairement ». Nous allons détailler ces trois couches ci-dessous, puis approfondir les choix de conception et les pratiques clés dans les sous-sections suivantes.
- Scénarios
- Questions-réponses internes en entreprise : les collaborateurs posent des questions en langage naturel sur des procédures, des documents techniques ou des ressources de projet ; le système recherche le contenu pertinent dans la documentation interne et les wikis, puis le LLM génère une réponse claire accompagnée de citations.
- Rapports sectoriels et recherche documentaire : rechercher dans de nombreux PDF, rapports et articles des informations sur une problématique sectorielle donnée (par exemple, « évolution des politiques de subvention pour les véhicules électriques »), puis synthétiser, comparer et citer automatiquement les sources.
- Questions-réponses en droit / santé / finance : s'appuyer sur des documents faisant autorité tels que des textes réglementaires, des décisions de justice, des directives cliniques ou des brochures produits pour renforcer la récupération et réduire le risque d'informations fabriquées.
- Robots de recherche dans la documentation interne / les tickets : aider les équipes d'exploitation, de support client et de R&D à localiser rapidement des réponses dans les bases de connaissances, les tickets et les journaux de modifications, puis à synthétiser les résultats en langage naturel.
- Principe L'idée centrale du RAG est de « stocker les connaissances à l'extérieur et confier le raisonnement au modèle » :
- Découper les documents non structurés (PDF, pages web, Word, documentation technique, etc.) en blocs de document (chunks) adaptés à la récupération, les projeter dans un espace vectoriel à l'aide d'un modèle d'embedding, puis construire un index vectoriel (FAISS, Milvus, PGVector, etc.).
- Au moment de la requête utilisateur, exploiter simultanément la recherche vectorielle sémantique et la recherche par mots-clés (Hybrid Search) pour trouver les blocs de document les plus pertinents, puis les réordonner (Re‑ranking) selon leur pertinence et leur couverture.
- Fournir au LLM le contexte récupéré, la question de l'utilisateur, ainsi que les éventuelles instructions système ou contraintes de format ; le modèle répond alors dans les limites des « preuves visibles » et cite ses sources (source citation), ce qui améliore l'interprétabilité et la traçabilité.
- Modèles Un système RAG typique repose souvent sur une architecture combinant plusieurs modèles :
- Modèle d'embedding : utilisé pour encoder les requêtes et les blocs de document dans un même espace sémantique ; il est déterminant pour la qualité de la recherche vectorielle (embeddings génériques ou spécialisés par domaine).
- Modèles de récupération et de réordonnancement : le Hybrid Search (BM25 + Vector) assure le premier rappel, tandis qu'un Cross‑Encoder Re‑ranker ou le LLM lui-même est utilisé pour un réordonnancement plus fin des résultats rappelés.
- Modèle de génération : le LLM répond en s'appuyant sur le contexte récupéré ; dans des configurations plus complexes comme RAG / HyDE / ReAct + RAG, le LLM participe également à des processus tels que la « génération de pseudo-documents », les « appels d'outils en plusieurs tours » ou l'alternance « réflexion + récupération », afin d'améliorer le rappel, de réduire les oublis et de renforcer la capacité de raisonnement.### 8.1.1 Construction d'index et organisation des actifs de connaissances
Dans tout système RAG, la construction d'index est fondamentale. Sans un index de haute qualité, même le LLM le plus puissant ne pourra rien faire — comme le dit le proverbe, « on ne fait pas de briques sans paille ». L'objectif de la construction d'index est de transformer des ressources documentaires désordonnées en « actifs de connaissances consultables, maintenables et évolutifs ».
Du point de vue du processus, une construction d'index typique comprend les étapes clés suivantes :
- Segmentation des documents et prétraitement Les documents sont souvent de longs PDF, PPT, Word ou pages web. Si on vectorise directement un document entier, cela risque de provoquer une « dilution » (un document couvrant plusieurs sujets) et n'est pas propice à une recherche efficace. Il est donc nécessaire de :
- Segmenter par paragraphes, titres, numéros de page et structure de chapitre, en équilibrant « complétude sémantique » et « taille des segments » ;
- Traiter les problèmes de format (tableaux, formules, OCR du texte dans les images), débruiter (en-têtes et pieds de page, tables des matières, informations de copyright, etc.) ;
- Générer des « étiquettes contextuelles » pour chaque segment (document source, titre du chapitre, numéro de page) afin de préparer l'interprétation et les citations ultérieures.
- Embedding et index vectoriel Sur la base des segments, générer des vecteurs sémantiques pour chaque bloc de document :
- Choisir un modèle d'embedding approprié (tel qu'un embedding sémantique généraliste ou un modèle fine-tuné sur le domaine), en s'assurant qu'il possède une bonne capacité d'expression pour la langue cible et la terminologie du domaine ;
- Utiliser FAISS, Milvus, PGVector, etc. pour construire un index vectoriel haute dimension, prenant en charge la recherche approximative des plus proches voisins à grande échelle ;
- Gérer les versions multiples et les mises à jour incrémentales : lorsque les documents sont mis à jour, il faut prendre en charge la reconstruction incrémentale de l'index, l'enregistrement des versions et les stratégies de nettoyage des anciennes versions.
- Indexation des méta-informations et filtrage La sémantique vectorielle seule ne suffit pas à répondre aux besoins de filtrage complexes, il est généralement nécessaire de construire également un index de méta-informations :
- Ajouter à chaque bloc de document des métadonnées telles que la date, l'auteur, la source, le type de document, la ligne métier, le niveau de sensibilité, etc. ;
- Prendre en charge le pré-filtrage basé sur les méta-informations lors de la recherche (par exemple, plage de dates, département, niveau d'autorisation), afin de réduire les résultats non pertinents ;
- Poser les bases du contrôle d'accès et de l'audit, afin d'éviter que le RAG ne divulgue dans ses réponses du contenu auquel l'utilisateur n'a pas le droit d'accéder.### 8.1.2 Recherche et reclassement : du « rappel de documents pertinents » à « trouver les preuves les plus adaptées »
Une fois l'index construit, lorsqu'un utilisateur soumet une requête, on entre dans la phase de recherche et de reclassement. L'enjeu clé ici n'est pas seulement de « trouver quelques documents pertinents », mais de constituer un ensemble de preuves à la fois pertinent, suffisamment couvrant et capable de soutenir le raisonnement.
- Recherche hybride : la complémentarité vectorielle + mots-clés La recherche purement vectorielle excelle à capturer la similarité sémantique, mais pour les termes précis, les noms de code, les champs de tableaux, etc., la recherche par mots-clés (comme BM25) est souvent plus robuste. C'est pourquoi la pratique industrielle adopte largement la recherche hybride (Hybrid Search) :
- On effectue d'abord une recherche vectorielle et une recherche par mots-clés sur la requête, ce qui donne deux ensembles de blocs de documents candidats ;
- On fusionne les deux listes de candidats à l'aide d'un score pondéré ou d'une stratégie de fusion apprise ;
- Dans certains scénarios, on peut ajuster dynamiquement le poids entre la recherche vectorielle et la recherche par mots-clés selon le type de requête (questions FAQ vs. localisation d'articles de loi).
- Reclassement (Re‑ranking) : sélectionner plus finement « l'ensemble de preuves » Les résultats de recherche initiaux contiennent souvent de nombreux blocs « marginalement pertinents » ou redondants, d'où la nécessité d'un reclassement pour améliorer la qualité du Top‑K final :
- Utiliser un Cross‑Encoder pour encoder de manière bidirectionnelle les paires « requête–bloc de document » et attribuer un score de pertinence. Comparé aux modèles d'Embedding bi-encodeur, il est plus précis mais plus coûteux, ce qui le rend adapté comme reclassement de deuxième phase ;
- Lorsque les performances le permettent, introduire un LLM pour un reclassement léger, afin que le modèle juge quels blocs sont réellement « utiles » en s'appuyant sur une sémantique et un contexte plus riches ;
- Prendre simultanément en compte la couverture et la diversité, afin d'éviter que tous les blocs récupérés ne se concentrent sur le même document ou le même paragraphe, ce qui rétrécirait excessivement le champ de la réponse.
- Optimisation en boucle fermée recherche–génération Dans les pratiques plus avancées, la recherche et la génération ne constituent plus un flux unidirectionnel, mais forment une boucle fermée :
- Exploiter l'analyse par le LLM de « l'utilisation » des résultats de recherche (quels blocs sont cités, lesquels sont systématiquement ignorés) pour guider en retour l'optimisation de la stratégie d'indexation et de segmentation ;
- Utiliser les signaux de « relance/correction » présents dans les journaux de conversation pour annoter et ré-entraîner les échantillons d'échecs de rappel ou de rappels erronés, améliorant ainsi la robustesse du système face aux requêtes ambiguës et aux questions longue traîne.### 8.1.3 Generation et citations : repondre sous contrainte de preuves
Le dernier maillon est la couche de generation, qui determine directement l'experience utilisateur. L'objectif n'est pas de laisser le modele "improviser librement", mais de lui faire produire, sous la contrainte des preuves recuperees, des reponses claires, delimitees et citees.
- Generation controlee a partir du contexte recupere Dans une architecture RAG, le LLM ne recoit pas seulement la question de l'utilisateur ; il recoit aussi plusieurs fragments de documents recuperes ainsi que des instructions systeme. En general, le systeme :
- contraint le modele par Prompt a "repondre uniquement a partir des documents fournis" et a "indiquer clairement si la reponse est absente des documents" ;
- organise le contexte recupere de maniere structuree (paragraphes, numerotation, marques de source), afin que le modele puisse le comprendre et le citer plus facilement ;
- controle le format de sortie (listes, tableaux, explications par points, etc.) pour l'adapter aux systemes en aval ou a l'affichage frontend.
- Citations et explicabilite (Source Citation) Pour faciliter l'audit et la tracabilite, surtout dans les domaines a haut risque comme le droit, la medecine, la finance et les regles internes d'entreprise, les reponses doivent souvent comporter des citations explicites :
- indiquer les sources dans la sortie, par exemple "[Document A, chapitre 3, section 2]" ou "[Reglement X, article 12]" ;
- permettre dans l'interface frontend d'acceder en un clic a l'emplacement original, afin que l'utilisateur puisse verifier et poursuivre la lecture ;
- conserver cote backend la chaine complete "question - resultats recuperes - blocs cites - reponse finale", pour fournir des donnees a la gestion des risques et a l'amelioration du modele.
- Variantes RAG avancees : HyDE / ReAct + RAG, etc. Pour ameliorer les resultats dans les scenarios difficiles, on utilise aussi en pratique des variantes RAG plus complexes :
- HyDE : le LLM genere d'abord, a partir de la question, un "document de reponse hypothetique", puis utilise le vecteur de ce document pour rechercher des documents reels, ce qui ameliore la qualite du rappel ;
- ReAct + RAG : le LLM alterne "raisonnement (Reasoning) + action (Action)" et appelle plusieurs fois des outils de recherche pendant le raisonnement, afin de preciser progressivement la question et de completer les preuves, comme s'il "reflechissait tout en consultant des sources" ;
- RAG multi-tours : au fil de la conversation, les resultats de recherche et les reponses precedentes sont conserves, formant une conversation de connaissance de long terme consciente du contexte, et non un simple schema "une question, une recherche".
8.2 Données structurées et graphes de connaissances (Structured Data & KG)
Si le RAG répond principalement à la question « comment rechercher des informations dans des documents non structurés à grande échelle », la couche des données structurées et des graphes de connaissances s’intéresse davantage à « comment exploiter efficacement les connaissances structurées présentes dans les bases de données, les systèmes de reporting et les bases de données graphes ».
Dans un environnement d’entreprise, les données métier véritablement critiques — commandes, clients, contrats, stocks, journaux de comportement — résident généralement dans des bases de données relationnelles, des entrepôts de données, des moteurs OLAP ou des bases de données graphes. Ces systèmes sont très matures en termes de capacité de requête, d’efficacité de calcul et d’auditabilité, mais pour les utilisateurs métier, écrire directement du SQL ou du DSL reste un obstacle important. Text‑to‑SQL / Text‑to‑DSL et question-réponse et raisonnement sur graphes de connaissances visent à intégrer les LLM comme une « interface en langage naturel » et un « partenaire de raisonnement collaboratif », sans compromettre la stabilité de ces systèmes.
- Scénarios
- Questions-réponses intelligentes en BI et analyse en libre-service : les utilisateurs métier posent des questions en langage naturel (par exemple « montre-moi la tendance du taux de réachat des nouveaux clients en Chine de l’Est au cours des trois derniers mois »), le système génère automatiquement le SQL, interroge l’entrepôt de données, puis restitue les résultats en langage naturel avec des graphiques de visualisation.
- Assistant d’analyse opérationnelle et commerciale : les équipes opérationnelles peuvent explorer les données de manière conversationnelle (« pourquoi le taux de conversion de cette campagne a-t-il baissé », « quels canaux ont contribué le plus d’utilisateurs à forte valeur »), en affinant progressivement les critères et les dimensions au fil d’un dialogue multi-tours.
- Plateforme centrale de connaissances métier : organiser les entités, concepts, règles et cas sous forme de graphe de connaissances, permettant d’explorer les relations amont/aval autour d’une entité donnée et de réaliser des vérifications de conformité.
- Système de questions-réponses et de raisonnement sur base de données graphe : dans des scénarios comme le contrôle des risques, la lutte contre le blanchiment d’argent ou l’analyse de la chaîne d’approvisionnement, répondre et expliquer des questions impliquant des « chaînes de relations » et des « raisonnements multi-sauts » en combinant base de données graphe et LLM.
- Principe Le cœur de cette couche consiste à transformer le LLM, de « celui qui donne directement la réponse » en « un assistant capable d’interroger les bases de données et les bases de données graphes » :
- Dans le question-réponse sur base de données, le modèle doit comprendre l’intention de l’utilisateur en langage naturel, la combiner avec le schéma de la base de données (structure des tables, signification des champs, contraintes, etc.), générer le SQL / GraphQL / DSL interne correct, puis expliquer et visualiser les résultats de l’exécution.
- Dans le scénario des graphes de connaissances, le système doit d’abord extraire les entités et les relations à partir des documents et des journaux pour construire un graphe structuré ; ensuite, lors du question-réponse, le LLM est chargé de traduire la question en langage naturel en une requête de graphe (par exemple en Cypher), et d’effectuer un raisonnement multi-sauts avec explication à partir des résultats de la requête.
- Contrairement au RAG, l’accent est mis ici sur l’accès précis aux données structurées et aux structures de graphe : il faut d’une part garantir l’exactitude sémantique et la rigueur syntaxique, et d’autre part contrôler les attaques par inférence, l’exposition de données sensibles et les requêtes trop coûteuses.
- Modèles L’approche typique est généralement une architecture multi-modules « LLM + composants spécialisés » :
- Modèles Text‑to‑SQL : des modèles pré-entraînés ou fine-tunés sur un large corpus SQL (comme PICARD, DIN‑SQL, etc.), axés sur la correction syntaxique et l’alignement avec le schéma, parfois accompagnés d’un retour d’exécution pour auto-correction.
- Pipeline d’extraction d’information et de construction de graphe : à travers des modules de reconnaissance d’entités nommées (NER), d’extraction de relations, d’extraction d’événements, etc., construire et mettre à jour le graphe de connaissances à partir de textes et de journaux ; le LLM peut intervenir en assistance pour les cas difficiles d’extraction ou le jugement auxiliaire de relations aux frontières floues.
- Question-réponse conjointe LLM + base de données graphe : le LLM prend en charge l’analyse des questions, la génération des requêtes et l’explication des résultats, tandis que la base de données graphe (comme Neo4j, etc.) assure l’exécution efficace et la recherche de relations multi-sauts, les deux étant connectés via un protocole d’appel d’outils ou un DSL intermédiaire.
8.2.1 Pratique du question-réponse sur base de données (Text‑to‑SQL / DSL)
L’objectif du question-réponse sur base de données est de permettre aux utilisateurs métier d’« interroger les données en langage naturel », tandis que le système génère, exécute et explique automatiquement les requêtes en arrière-plan. Pour bien faire cela, la clé réside dans la prise en compte simultanée de l’exactitude sémantique, de la correction syntaxique et de la sécurité d’exécution.
- Conversion du langage naturel en SQL / DSL Dans le pipeline le plus basique, le système doit :
- Analyser l’intention de l’utilisateur : identifier l’objet de la requête (par exemple « nouveaux clients en Chine de l’Est »), les critères de filtrage (période, région, canal), le mode d’agrégation (total, moyenne, comparaison annuelle/mensuelle) et les besoins de présentation (tendance, classement, Top‑N) ;
- Combiner avec le schéma de la base de données : comprendre quelles tables et quels champs peuvent exprimer les concepts ci-dessus, comment effectuer les jointures (join), les regroupements (group by) et les tris ;
- Générer un SQL / GraphQL / DSL interne exécutable, et garantir sa validité structurelle via un validateur syntaxique ou un modèle Text2SQL dédié (PICARD, DIN‑SQL, etc.).
- Explication en langage naturel et visualisation des résultats d’exécution Une fois la requête exécutée, le système doit encore transformer « l’ensemble de résultats brut » en « insights compréhensibles » :
- Fournir une explication textuelle pour les résultats simples, par exemple « au cours des trois derniers mois, le taux de réachat des nouveaux clients en Chine de l’Est affiche une tendance globale à la hausse, passant de 15 % à 21 % » ;
- Choisir une forme de visualisation appropriée pour les résultats complexes (courbes, histogrammes, diagrammes circulaires, diagrammes de distribution, etc.) et fournir une brève analyse ;
- Permettre à l’utilisateur de poser des questions complémentaires à partir des résultats actuels (par exemple « cette croissance provient principalement de quels canaux ? »), en construisant automatiquement de nouvelles requêtes sur la base de l’historique SQL et du contexte.
- Sécurité et contrôle : empêcher les « requêtes sauvages » et les « dépassements de droits » Le SQL généré par le LLM étant très flexible, une couche de sécurité et de gouvernance est indispensable :
- Restreindre strictement les bases, tables, champs et plages temporelles interrogeables en fonction du rôle et des permissions de l’utilisateur ;
- Mettre en place des règles de revue statique/dynamique pour le SQL généré par le modèle, afin de filtrer les opérations dangereuses (balayages à grande échelle, jointures trop coûteuses, requêtes inter-locataires, etc.) ;
- Enregistrer intégralement la chaîne « question en langage naturel – SQL généré – résultat d’exécution – réponse finale » à des fins d’audit et d’analyse des anomalies.
8.2.2 Construction et interrogation de graphes de connaissances
Les graphes de connaissances visent à organiser les connaissances dispersées dans les textes, les tableaux et les journaux en un réseau structuré d’« entités – relations – attributs – événements », afin de mieux prendre en charge l’exploration des relations, le raisonnement multi-sauts et les questions-réponses complexes. Dans cette direction, les LLM forment une complémentarité efficace avec l’extraction d’information traditionnelle et les bases de données graphes.
- Extraire des entités et des relations à partir de documents pour construire un graphe La construction d’un graphe de connaissances adopte généralement un pipeline en plusieurs étapes :
- Extraction d’information : utiliser des modèles de NER, d’extraction de relations, d’extraction d’événements, etc., pour identifier à partir du texte les entités (personnes, organisations, produits, noms de lieux, concepts, etc.), les relations entre elles (subordination, coopération, dépendance, causalité) ainsi que les événements clés (transactions, risques, changements) ;
- Normalisation et alignement : normaliser les différentes formulations d’une même entité (abréviations, alias, variantes orthographiques) et les aligner vers un identifiant unifié ;
- Mise à jour et gestion de versions du graphe : prendre en charge les mises à jour incrémentales, la résolution de conflits et la correction d’erreurs, afin de garantir que le graphe conserve sa qualité et sa cohérence au fil de son évolution. Le LLM peut assister les algorithmes traditionnels dans des tâches comme la résolution d’ambiguïtés, le raffinement des types de relations ou l’induction de règles.
- Interrogation et raisonnement LLM + base de données graphe (Neo4j, etc.) Une fois le graphe construit, la base de données graphe assure le stockage et la recherche efficaces, tandis que le LLM joue le rôle d’« interface en langage naturel + contrôleur de raisonnement » :
- Analyse des questions et génération de requêtes de graphe : traduire les questions en langage naturel en requêtes de graphe (comme le Cypher de Neo4j), y compris la détermination de l’entité de départ, du type de relation, de la longueur du chemin et des conditions de filtrage ;
- Raisonnement multi-sauts : à partir des chemins et des sous-graphes locaux obtenus par la requête de graphe, le LLM effectue l’explication et la synthèse, par exemple « le client A est indirectement relié à l’entité à haut risque B via trois sociétés intermédiaires » ;
- Visualisation des résultats et explicabilité : présenter les résultats de la requête de graphe sous forme de réseau visualisé, accompagné d’une explication verbale fournie par le LLM pour aider l’utilisateur à comprendre les structures relationnelles complexes.
- Plateforme centrale de connaissances métier et service unifié Dans les applications à plus grande échelle, au niveau de l’entreprise ou du secteur, le graphe de connaissances joue souvent le rôle de « plateforme centrale de connaissances métier » :
- Fournir une vue unifiée des entités et des relations pour les systèmes métier de niveau supérieur (contrôle des risques, conformité, vue client 360°, analyse de la chaîne d’approvisionnement, etc.) ;
- Constituer, avec le RAG et le question-réponse sur base de données, une couche de services de connaissances unifiée, où la logique d’orchestration unifiée du LLM détermine si la question courante doit accéder à l’index documentaire, à la base de données relationnelle ou à la base de données graphe ;
- Dans le respect des exigences de sécurité et de conformité, réduire davantage le risque de fuite d’informations sensibles grâce à des stratégies de contrôle d’accès et de masquage au niveau du graphe.
L’objectif commun de cette couche est de faire évoluer « le modèle sait parler » vers « le modèle sait parler tout en étant réellement connecté aux données et aux actifs de connaissances réels de l’entreprise ». Lorsque le RAG, le Text‑to‑SQL, les graphes de connaissances et l’infrastructure de données traditionnelle sont efficacement combinés, le système d’IA peut alors, dans des environnements métier complexes, conserver à la fois intelligence et flexibilité, tout en offrant contrôlabilité, explicabilité et capacité d’évolution à long terme.# 9. Sécurité, alignement et évaluation (Safety / Alignment / Evaluation)
Dans les chapitres précédents, nous avons principalement abordé ce que les modèles peuvent faire : analyser des images, écrire du code, dialoguer avec les utilisateurs. Mais dans un système réel de grands modèles, la simple capacité ne suffit pas : comment prouver que ces capacités sont stables, fiables et contrôlables ? Comment garantir que les résultats respectent les valeurs et les exigences de conformité ? Comment surveiller, itérer et régresser en continu sur un long cycle d'exploitation ? Cette couche se concentre précisément sur : l'évaluation des capacités et les benchmarks, l'alignement des valeurs et l'entraînement, la sécurité du contenu et la conformité, ainsi que la robustesse et le contrôle des hallucinations, qui constituent ensemble une « couche d'infrastructure » indispensable à l'exploitation durable des grands modèles.
Du point de vue produit, ces capacités traversent tout le cycle de vie du modèle : en phase de laboratoire, le modèle nécessite des benchmarks standard et des évaluations professionnelles ; avant la mise en ligne, il doit passer par un entraînement d'alignement et un audit de sécurité ; après la mise en ligne, il s'appuie sur des passerelles de sécurité de contenu, des audits de logs et des tests A/B pour une surveillance continue ; face à de nouveaux scénarios et de nouvelles menaces, il faut revenir aux phases d'évaluation et d'alignement pour réentraîner et valider à nouveau. Nous allons maintenant détailler les quatre axes suivants : l'évaluation des capacités et les benchmarks, l'alignement des valeurs et l'entraînement, la sécurité du contenu et la conformité, ainsi que la robustesse et le contrôle des hallucinations.## 9.1 Évaluation des capacités et benchmarks (Capability Evaluation & Benchmarks)
Dans le développement et le déploiement des grands modèles de langage (LLM), l'évaluation des capacités et les benchmarks constituent un maillon essentiel pour transformer la « capacité du modèle » en « signaux observables » : il s'agit à la fois de répondre à la question « quel est le niveau global de ce modèle ? » et « comment se comporte-t-il dans un domaine spécifique ou un scénario métier réel ? ». D'un côté, nous utilisons des ensembles de benchmarks standardisés et des systèmes d'évaluation automatisée pour mesurer les performances du modèle sur des dimensions générales telles que la compréhension et la génération de langage, le raisonnement et les mathématiques, les connaissances et la factualité ; d'un autre côté, il est nécessaire de construire des évaluations spécialisées pour des domaines comme la médecine, le droit, la finance, l'éducation, et de continuellement valider et ajuster à travers des conversations utilisateur réelles, des tests AB et des indicateurs métier (Task Success Rate, CSAT, taux de clôture des tickets, etc.). Dans l'ensemble, cette couche se cristallise finalement en une plateforme interne d'évaluation des capacités et un « document de spécification des capacités » destiné à l'externe, fournissant une base de décision unifiée pour la sélection de modèles multi-versions, multi-locataires et multi-scénarios. Nous développons ci-dessous selon trois axes : scénarios, principes et modèles.
- Scénarios
- Scénarios d'évaluation des capacités générales : lors de la sortie d'un modèle fondamental ou d'une mise à jour majeure, il est nécessaire d'évaluer systématiquement ses performances sur les tâches de compréhension et de génération de langage telles que la compréhension de lecture, le résumé, la traduction et la qualité du dialogue, ainsi que ses capacités en raisonnement et mathématiques dans des tâches comme l'arithmétique, le raisonnement multi-étapes et les exercices de code/logique, tout en mesurant son niveau de connaissances et de factualité à travers des questions-réponses factuelles, des QA en domaine ouvert et des tâches de couverture de connaissances, afin de déterminer si « le nouveau modèle élève le niveau global ».
- Scénarios d'évaluation en domaine spécialisé : pour des secteurs comme la médecine, le droit, la finance et l'éducation, il est nécessaire de concevoir des questions-réponses spécialisées et des simulations de décision, telles que le diagnostic de maladies avec recommandations de triage, la compréhension de textes juridiques avec classification de cas, l'analyse d'investissement avec jugement de risque, le tutorat pédagogique et l'aide aux devoirs, tout en testant la cohérence et la stabilité du modèle dans des environnements multilingues et multiculturels, afin de confirmer qu'il peut « dire ce qu'il faut et de manière appropriée » dans des contextes à haut risque.
- Scénarios d'évaluation en conditions réelles et indicateurs métier : lors de la mise en ligne du produit et de son exploitation continue, via la relecture de journaux de conversations utilisateur et les tests AB en ligne, la performance du modèle est mise en correspondance avec des indicateurs métier tels que le taux de réussite des tâches (Task Success Rate), la satisfaction utilisateur (CSAT) et le taux de clôture des tickets ; l'objet évalué est alors en réalité le système global « modèle + stratégie + processus produit », utilisé pour guider les retours de version, l'optimisation des stratégies et le déploiement progressif des nouvelles fonctionnalités.
- Principes Le système d'évaluation des capacités peut être vu comme un « système de mesure » en couches, dont les principes fondamentaux incluent :
- Ensembles de benchmarks standardisés : échelle commune et expériences reproductibles
- Langage / Raisonnement : utilisation de tâches complètes comme MMLU et BIG-Bench, combinées à des exercices de mathématiques et de logique tels que GSM8K et MATH, pour construire une échelle unifiée de compréhension du langage, de maîtrise des connaissances et de raisonnement multi-étapes.
- Programmation : via HumanEval, MBPP, les problèmes Codeforces, etc., pour quantifier la génération de code, la réparation de programmes et la résolution de problèmes.
- Multimodal : utilisation de benchmarks comme VQA, MMBench, ScienceQA, MathVista pour tester la compréhension texte-image, les questions-réponses visuelles et le raisonnement mathématique dans les images. Ces benchmarks mettent l'accent sur la standardisation, la reproductibilité et la comparabilité, facilitant les comparaisons transversales entre modèles et institutions ainsi que la communication externe.
- Évaluation automatisée : scalabilité et régression continue
- LLM-as-a-Judge : utilisation d'un modèle plus puissant ou spécialement entraîné pour noter/classer les réponses, en évaluant la justesse, l'exhaustivité, le style et la sécurité, permettant une évaluation subjective automatisée à grande échelle.
- Métriques basées sur des règles : telles que BLEU / ROUGE / BERTScore pour mesurer la similarité textuelle, Pass@k pour mesurer le taux de réussite des exercices de code, etc., permettant de comparer rapidement les différences entre versions sur des jeux de données fixes. La clé de l'évaluation automatisée réside dans sa stabilité et sa cohérence : même imparfaite, tant que le « biais est cohérent », elle peut refléter de manière fiable les changements relatifs du modèle dans un pipeline d'intégration continue (CI).
- Évaluation humaine : alignement avec la perception humaine et les objectifs métier
- Comparaison pairwise et annotation avec notation : des annotateurs effectuent des choix pairwise ou des notations multi-dimensionnelles (helpful / honest / harmless, etc.) sur les réponses de deux modèles A/B, constituant une source de données importante pour l'entraînement des modèles de récompense RLHF / RLAIF.
- Expérimentation utilisateur en ligne : réalisation de tests AB dans des scénarios réels comme les assistants conversationnels, la recherche/recommandation, pour observer directement l'impact des différents modèles/stratégies sur la satisfaction utilisateur, le taux de conversion, etc. L'évaluation humaine sert à la fois à calibrer l'évaluation automatisée et constitue une référence importante pour « expliquer le comportement du modèle » en externe.
- Ensembles de benchmarks standardisés : échelle commune et expériences reproductibles
- Modèles Dans la pratique d'ingénierie, l'évaluation des capacités se cristallise en un ensemble relativement complet de « plateforme + processus + système d'indicateurs » :
- Plateforme interne d'évaluation des capacités et pipeline CI : gestion unifiée de tous les ensembles de benchmarks, scripts d'évaluation, configurations LLM-as-a-Judge et outils d'annotation humaine, permettant de déclencher une régression de benchmarks en un clic après la soumission d'un nouveau modèle ou d'une nouvelle stratégie ; agrégation automatique des changements d'indicateurs sur différentes tâches et dimensions, avec tableau de bord visuel et alertes de régression.
- « Document de spécification des capacités » externe et profil du modèle : consolidation des résultats d'évaluation internes en un « document de spécification des capacités » exploitable en externe, incluant les scores représentatifs aux benchmarks, les scénarios d'utilisation recommandés (dialogue général, assistance au code, compréhension multimodale, etc.), les limitations connues et les scénarios inappropriés, aidant les clients à former des attentes correctes et fournissant une base pour la conformité et la répartition des responsabilités.
- Outil unifié d'évaluation et de sélection de modèles multi-locataires / multi-versions : dans le même cadre d'évaluation, comparaison unifiée de modèles de différentes tailles, stratégies d'alignement ou architectures, avec possibilité de configurer des pondérations par secteur, région et exigences SLA, générant automatiquement un score composite « performance – coût – latence » pour aider les équipes produit et métier dans la sélection de modèles et les décisions de déploiement progressif.
9.1.1 Évaluation des capacités générales et spécialisées : des benchmarks à la validation en scénario
L'évaluation des capacités générales et spécialisées constitue le « premier socle » de l'ensemble du système d'évaluation, l'accent étant mis sur : d'abord mesurer les capacités fondamentales du modèle avec une échelle unifiée, puis valider son utilisabilité et ses risques dans des scénarios spécialisés.
Dans l'évaluation des capacités générales, les tâches sont généralement décomposées en trois dimensions : compréhension et génération de langage, raisonnement et mathématiques, connaissances et factualité. La première vérifie, à travers des tâches de compréhension de lecture, de résumé, de traduction et de qualité du dialogue, si le modèle peut comprendre précisément le contexte, contrôler le style et produire un texte cohérent ; la deuxième évalue, via l'arithmétique, le raisonnement multi-étapes et les exercices de code/logique, la capacité du modèle sur des chaînes de raisonnement complexes et des structures de programme ; la troisième mesure la couverture de connaissances et le niveau de factualité à travers des questions-réponses factuelles et des QA en domaine ouvert. Dans l'évaluation en domaine spécialisé, il est nécessaire d'inviter des experts sectoriels à participer à la conception des données : par exemple, pour les questions médicales, définir des contextes incluant l'historique médical et les résultats d'analyses, en exigeant que le modèle fournisse des avertissements de risque et des limites de conseil médical dans ses réponses ; pour les tâches juridiques, concevoir la recherche de dispositions, la comparaison de cas et l'analyse d'applicabilité du droit ; en finance et éducation, se concentrer sur la divulgation conforme et le guidage pédagogique. Cette couche d'évaluation combine souvent des ensembles de benchmarks standardisés et des jeux de données internes, visant à la fois la comparabilité et la pertinence métier.
9.1.2 Évaluation automatisée et LLM-as-a-Judge : rendre l'évaluation scalable
Lorsque l'échelle des tâches et le nombre de versions de modèles croissent rapidement, l'évaluation humaine seule ne suffit plus ; il est alors nécessaire de mettre en place un système d'évaluation automatisée pour atteindre scalabilité et régression à haute fréquence.
Une approche consiste à utiliser des métriques traditionnelles basées sur des règles : pour les tâches de traduction et de résumé, utiliser BLEU / ROUGE / BERTScore pour comparer avec des réponses de référence ; pour les tâches de code, utiliser Pass@k pour tester si au moins un échantillon parmi plusieurs générations passe les tests unitaires. Ces métriques sont simples à implémenter et hautement automatisables, mais peu sensibles à la diversité des réponses et aux nuances stylistiques. Une autre approche, plus représentative, est le LLM-as-a-Judge : utiliser un modèle plus puissant ou spécialement entraîné comme « juge évaluateur » qui, selon une grille d'évaluation prédéfinie, attribue des scores dimensionnels ou effectue un classement pairwise des sorties du modèle testé. Cela permet une évaluation automatisée efficace même sur des tâches de QA ouvertes et de dialogue sans réponse standard. En pratique, les critères de notation et les prompts du LLM-as-a-Judge doivent être calibrés et itérés à l'aide de données annotées humainement, afin d'assurer leur cohérence avec les juges humains.
9.1.3 Évaluation humaine et indicateurs métier : boucler vers l'expérience utilisateur réelle
Aussi complets que soient les indicateurs hors ligne, ils ne peuvent qu'approcher l'expérience utilisateur réelle. Pour boucler l'évaluation des capacités vers le métier, il est nécessaire d'introduire à la fois l'évaluation humaine et l'expérimentation en ligne.
Côté évaluation humaine, la méthode courante est la comparaison pairwise : des annotateurs, sans connaître l'identité du modèle, effectuent un choix de préférence ou une notation entre deux réponses A/B selon des dimensions telles que helpful / honest / harmless, produisant ainsi des données de préférence de haute qualité. Celles-ci servent d'une part à l'évaluation directe, et d'autre part à fournir des données pour l'entraînement des modèles de récompense RLHF / RLAIF. Côté métier, les tests AB en ligne comparent l'impact de différents modèles, prompts et configurations de stratégies sur des indicateurs clés tels que le taux de réussite des tâches, la satisfaction utilisateur (CSAT) et le taux de clôture des tickets, complétés par la relecture de journaux de conversations utilisateur et des contrôles humains par échantillonnage, pour surveiller en continu la performance réelle du modèle après sa mise en ligne. Les résultats de cette couche d'évaluation viennent en retour orienter les priorités et les ajustements de pondération de la plateforme d'évaluation des capacités, formant ainsi une boucle fermée « indicateurs hors ligne — évaluation humaine — indicateurs en ligne ».## 9.2 Alignement des valeurs et entraînement (Value Alignment & Training)
Une fois doté de capacités fondamentales solides, un grand modèle de langage doit encore passer par l'alignement des valeurs et l'entraînement pour devenir un produit « sûr, fiable et contrôlable ». Cette couche ne se préoccupe plus de savoir si le modèle « peut répondre », mais plutôt de « si ses réponses sont utiles, honnêtes et inoffensives » ainsi que de « la manière dont il doit s'exprimer selon les rôles et les secteurs d'activité ». D'un point de vue technique, le processus d'alignement comprend généralement trois étapes : d'abord, définir clairement les objectifs d'alignement (What to Align) à travers des documents et des spécifications, en décomposant les principes d'utilité (Helpful), d'honnêteté (Honest) et d'innocuité (Harmless) en standards annotables et entraînables ; ensuite, construire des données d'instruction et de sécurité couvrant un large spectre, incluant des tâches normales, des cas limites et des réponses inappropriées ; enfin, inscrire ces préférences et règles dans le comportement du modèle via des méthodes telles que SFT, RLHF / RLAIF, et la modélisation de stratégies de refus / redirection, complétées par une gestion des dialogues en amont et un moteur de politiques pour réaliser un alignement de sécurité de bout en bout. Nous allons maintenant développer ce sujet sous les angles du scénario, du principe et du modèle.
- Scénarios
- Scénario d'assistant grand public (C-end) : les assistants de chat et de recherche d'information destinés au grand public doivent rester « amicaux, utiles et sans dépassement » sur un large éventail de sujets : répondre de manière professionnelle et ciblée, tout en reconnaissant honnêtement leurs limites en cas d'incertitude, et en refusant ou en redirigeant avec tact les demandes manifestement inappropriées.
- Scénario d'assistant professionnel sectoriel : dans les domaines médical, juridique, financier, éducatif, etc., il faut superposer des normes sectorielles à la sécurité de base : par exemple, un assistant médical doit rappeler systématiquement son « caractère non diagnostique + avertissements de risque + recommandation de consulter un médecin », un assistant juridique doit éviter de suggérer des moyens de contourner la loi, un assistant financier doit respecter les exigences de conformité en matière de conseil en investissement, et un assistant éducatif doit prendre en compte la protection des mineurs et l'adéquation des contenus à l'âge.
- Scénario de couche d'alignement configurable pour les entreprises (B-end) : les entreprises souhaitent souvent intégrer, au-delà de la base de sécurité générale, leurs propres exigences sectorielles, leur ton de marque et leurs politiques internes. D'où le besoin d'une couche d'alignement configurable, permettant aux clients de paramétrer eux-mêmes les seuils de sécurité, les catégories sensibles et le style de langage, sans avoir à ré-entraîner le modèle de base sous-jacent.
- Principes L'alignement des valeurs peut être compris comme « la contrainte de l'espace comportemental du modèle par les valeurs humaines et organisationnelles ». Ses principes fondamentaux incluent :
- Définition des objectifs d'alignement (What to Align)
- Utile (Helpful) : les réponses doivent être de haute qualité, professionnelles, bien structurées, centrées sur l'objectif de la tâche, sans divergence excessive ni bavardage inutile.
- Honnête (Honest) : éviter autant que possible d'inventer des informations ; en cas de connaissance manquante ou de compréhension insuffisante, reconnaître activement l'incertitude, fournir une estimation ou suggérer des canaux de vérification.
- Inoffensif (Harmless) : respecter la loi et les politiques de la plateforme, éviter de générer des contenus haineux, discriminatoires, incitant à l'automutilation, guidant vers des activités criminelles, etc., et respecter la dignité et les limites des utilisateurs. Ces objectifs sont consignés dans des guides d'annotation et des documents de stratégie, servant de standard unifié pour la construction ultérieure des données, la modélisation de récompense et l'évaluation.
- Construction des données d'entraînement pour l'alignement
- Données d'instruction (Instruction) : concevoir un large éventail de tâches d'instruction et de réponses idéales, couvrant des scénarios tels que les questions-réponses, la rédaction, le résumé, le code, la planification, etc., afin d'enseigner au modèle le comportement optimal face à des « requêtes normales ».
- Données de sécurité (Safety) : construire des échantillons contrastés « bonne réponse vs réponse inappropriée », en portant une attention particulière aux zones grises (gray zone), comme information scientifique vs instructions opérationnelles concrètes, soutien émotionnel vs incitation à l'automutilation, débat légal vs incitation à la haine, etc., afin de fournir au modèle des exemples de limites à granularité fine.
- Méthodes d'entraînement pour l'alignement
- SFT (Supervised Fine-Tuning) : effectuer un fine-tuning supervisé sur des données de dialogue / instruction de haute qualité, constituant la première étape pour façonner le comportement de référence et le ton du modèle.
- RLHF / RLAIF : construire des données de préférence via des évaluations humaines ou par le modèle lui-même, entraîner un modèle de récompense, puis optimiser la politique pour que le modèle tende à générer des réponses « préférées » (plus utiles, plus sûres, plus honnêtes).
- Modélisation des stratégies de refus / redirection : pour les requêtes à haut risque ou inappropriées, entraîner le modèle non seulement à refuser, mais aussi à fournir une explication raisonnable et à orienter l'utilisateur vers des alternatives sûres (par exemple, proposer des ressources d'aide, encourager la consultation de professionnels, etc.).
- Définition des objectifs d'alignement (What to Align)
- Modèles Sur le plan de la conception système, l'alignement des valeurs se manifeste généralement par une combinaison « entraînement d'alignement en base + garde-fous stratégiques en surface » :
- Modèle d'alignement SFT + RLHF / RLAIF : la phase SFT permet au modèle d'apprendre les schémas de base des réponses idéales ; la phase RLHF / RLAIF resserre davantage le comportement par apprentissage des préférences, le rapprochant des préférences humaines et des standards de sécurité. Sur le plan de la sécurité, une tête de récompense ou un classifieur dédié à la nocivité peut être construit séparément pour appliquer des pénalités lors de l'optimisation de la politique.
- Constitutional AI / Policy-based Alignment : en rédigeant d'abord un ensemble de règles « constitutionnelles (Constitution) » ou un document de politique (Policy), puis en faisant en sorte que le modèle s'autocritique et se réécrive selon ces règles, on génère une grande quantité de « données auto-supervisées de correction », renforçant l'intériorisation des règles par le modèle tout en réduisant les coûts humains.
- Gestion des dialogues et détection d'intention en synergie : dans le pipeline produit, la logique de sécurité / alignement est partiellement remontée au niveau de la gestion des dialogues, où la reconnaissance d'intention, le remplissage de slots et le routage des tâches déterminent si la requête doit être transmise au grand modèle, si elle nécessite un filtrage de sécurité supplémentaire ou une réponse modélisée. Cela permet de former une double protection « alignement du modèle + garde-fous stratégiques ».
- Plateforme interne d'alignement et configuration des rôles : construire une plateforme interne d'alignement fournissant des outils d'annotation / notation, une gestion des versions de politiques et des pipelines d'entraînement ; tout en permettant de configurer des objectifs d'alignement et des styles de langage différenciés selon les rôles (service client, conseil médical, tutorat éducatif, etc.), de sorte qu'un même modèle de base affiche des personnalités nettement distinctes mais contrôlées et cohérentes selon les produits.
9.2.1 Objectifs d'alignement et données d'entraînement : transformer les valeurs en signaux apprenables
La première étape de l'alignement des valeurs consiste à traduire les « valeurs abstraites » en signaux que le modèle peut apprendre, ce qui passe indispensablement par la définition des objectifs d'alignement et la construction des données d'entraînement.
Au niveau des objectifs d'alignement, les équipes produisent généralement un ensemble détaillé de documents de spécifications comportementales, décomposant les principes Helpful / Honest / Harmless en clauses concrètes, telles que : interdiction de fournir des étapes opérationnelles détaillées pour certains types d'opérations à haut risque, obligation d'inclure des avertissements et des clauses de non-responsabilité pour les conseils médicaux / juridiques, maintien de la neutralité et présentation de multiples perspectives sur les sujets controversés, etc. Ensuite, durant la phase des données d'instruction, des tâches diversifiées et des réponses idéales sont construites autour de ces indicateurs, couvrant des scénarios de chat, de rédaction, de code, de questions-réponses, etc., en intégrant des contextes multilingues et multiculturels ; durant la phase des données de sécurité, des paires d'exemples « bonne / mauvaise réponse » sont construites pour les contenus nuisibles, les domaines à haut risque et les zones grises, fournissant ainsi le matériel d'entraînement pour l'apprentissage des préférences et les classifieurs de sécurité ultérieurs. De cette manière, les objectifs de valeur sont « traduits » en distributions de données réelles, devenant des signaux directement perceptibles par l'entraînement du modèle.
9.2.2 SFT, RLHF / RLAIF et stratégies de refus : façonner le comportement du modèle
Une fois les objectifs d'alignement et les données définis, l'étape suivante consiste à inscrire ces objectifs dans le comportement du modèle via un processus d'entraînement en plusieurs phases.
Lors de la phase SFT, le modèle est soumis à un fine-tuning supervisé sur des données de démonstration humaine de haute qualité, ce qui s'apparente à un « apprentissage par l'exemple » : cela détermine le ton, la structure et le paradigme standard de résolution de problèmes du modèle pour la grande majorité des requêtes normales. Ensuite, l'optimisation des préférences est réalisée via RLHF / RLAIF : on utilise d'abord des annotations humaines ou des labels de préférence produits par un LLM plus grand pour entraîner un modèle de récompense, puis on ajuste le modèle à l'aide d'algorithmes d'optimisation de politique (comme PPO, etc.) afin qu'il tende à obtenir des récompenses plus élevées lors de la génération. Ainsi, le modèle ne sait pas seulement « à quoi ressemble une réponse correcte », mais aussi « quel type de réponse correspond le mieux aux préférences humaines et aux exigences de sécurité ». Sur cette base, diverses stratégies de refus et de redirection sont modélisées spécifiquement : pour les questions manifestement illégales, à risque extrêmement élevé ou inappropriées pour une réponse par IA, le modèle doit apprendre à formuler un refus clair accompagné d'une explication, et à proposer des alternatives sûres (comme des lignes d'assistance, des consultations professionnelles, etc.), plutôt que de simplement rester silencieux ou de donner une réponse évasive.
9.2.3 Couche de politiques et plateforme d'alignement : rendre l'alignement configurable et évolutif
Même lorsque le modèle sous-jacent a été suffisamment entraîné pour l'alignement, une couche de politiques et une plateforme d'alignement restent nécessaires dans le système réel pour atteindre un niveau plus fin de contrôlabilité et d'évolutivité.
La couche de politiques comprend généralement la reconnaissance d'intention, l'évaluation des risques et la logique de routage : lorsque la saisie utilisateur arrive dans le système, un modèle léger évalue d'abord son intention, son domaine et son niveau de risque, puis décide s'il faut invoquer directement le grand modèle, si un filtrage de sécurité supplémentaire est nécessaire, ou si la requête doit être redirigée vers une réponse modélisée ou un canal humain. Pour différents secteurs et clients, la couche de politiques peut charger différentes configurations de Policy, permettant de personnaliser les catégories sensibles, le style de refus et le ton de marque. Parallèlement, une plateforme interne d'alignement gère tous les actifs liés à l'alignement : outils d'annotation / notation, versions des modèles de récompense, historique des modifications de politiques, résultats de tests A/B en ligne, etc., permettant à l'équipe d'itérer rapidement sur les stratégies d'alignement et de procéder à des déploiements graduels (canary releases) sans avoir à ré-entraîner fréquemment le modèle de base, maintenant ainsi un contrôle continu sur le comportement du modèle.## 9.3 Sécurité du contenu et conformité (Content Safety & Compliance)
Avec l'intégration des grands modèles de langage dans les moteurs de recherche, les dialogues, la création de contenu, les plateformes sociales et même les systèmes internes des entreprises, la sécurité du contenu et la conformité sont passées d'une « fonctionnalité complémentaire » à une « condition préalable d'entrée ». Cette couche s'intéresse aux questions suivantes : le modèle génère-t-il du contenu illégal ou nuisible lors de la production de texte, d'images, de fichiers audio ou vidéo ? Le système traite-t-il les données des utilisateurs conformément aux lois et règlements du pays/de la région et du secteur concerné ? Et face à un audit ou une inspection réglementaire, peut-il fournir une chaîne de preuves claire et traçable ? Pour cela, nous devons construire un système technique et de gouvernance complet couvrant la modération de contenu multimodal, la conformité régionale et sectorielle, ainsi que la protection locale de la vie privée et des données, et le mettre en œuvre sous forme de produits tels que des services SaaS de sécurité du contenu, des plateformes de conformité d'entreprise et des passerelles de sécurité sectorielles. Nous l'abordons ci-dessous sous les angles du scénario, du principe et du modèle.
- Scénarios
- Scénario de modération et de filtrage de contenu multimodal : dans les produits de dialogue, les plateformes UGC, les communautés et les applications sociales, les grands modèles génèrent ou reçoivent un grand volume de texte, d'images et de contenu audio/vidéo. Il est nécessaire de disposer d'une capacité de modération multimodale unifiée pour identifier et bloquer en temps réel les sorties à haut risque impliquant des données personnelles, des instructions criminelles, des incitations à la haine, la violence extrême, la pornographie et les contenus inappropriés impliquant des mineurs.
- Scénario de contraintes de conformité et de localisation : les lois et règlements des différents pays/régions imposent des exigences variées en matière de protection des données, de protection des mineurs et de régulation du contenu ; différents secteurs (santé, finance, éducation, publicité, etc.) disposent également de normes de conformité détaillées. Par conséquent, le système doit prendre en charge le chargement de différents modèles de politiques en fonction de la région et du secteur, afin de se conformer aux exigences réglementaires locales.
- Scénario de protection de la vie privée et des données des utilisateurs : lors de l'entraînement des modèles et des services en ligne, un grand volume de conversations utilisateur et de données métier doit être traité. La manière d'anonymiser, de dépersonnaliser et de minimiser la collecte des données, tout en protégeant la vie privée par des moyens techniques et institutionnels durant les phases d'entraînement et d'inférence, constitue un autre pilier du système de sécurité du contenu et de conformité, en particulier dans les secteurs à haute sensibilité comme la finance et la santé.
- Principes Les principes sous-jacents de la sécurité du contenu et de la conformité peuvent être divisés en trois niveaux : politique, filtrage et confidentialité :
- Système de politiques de sécurité (Policy Engine)
- Formalise les lois, règlements, règles de plateforme et normes sectorielles en politiques exécutables et, via un moteur de règles combiné à la notation du modèle, classifie le risque du contenu (sûr / zone grise / risque élevé).
- Prend en charge la sélection de différents modèles de politiques selon le scénario et le client, par exemple en configurant des catégories sensibles et des seuils distincts pour les produits destinés aux adolescents, les communautés professionnelles ou les entreprises multinationales.
- Filtrage de contenu à plusieurs niveaux : préalable – pendant – a posteriori
- Préalable : interception et réécriture des prompts utilisateur (Prompt Shielding), en bloquant les intentions manifestement illégales ou hautement sensibles avant qu'elles n'atteignent le grand modèle, ou en les orientant vers des formulations plus sûres.
- Pendant : lors de la génération de la sortie par le modèle, utilisation de modèles de classification de sécurité et de règles pour un examen en temps réel (Real-time Safety Filter), en tronquant, remplaçant, masquant ou déclenchant un refus de réponse pour les contenus à haut risque.
- A posteriori : échantillonnage des journaux de dialogues et de génération pour audit et revue humaine, analyse des causes des problèmes identifiés, puis mise à jour des politiques et des modèles, et fourniture d'enregistrements traçables pour la supervision externe.
- Technologies de protection de la vie privée et gouvernance des données
- Avant le stockage et l'entraînement, anonymisation et dépersonnalisation des données de conversation utilisateur, suppression ou remplacement des champs sensibles tels que les noms, numéros de carte d'identité, numéros de téléphone, adresses, etc., en respectant le principe de collecte minimale pour ne conserver que les informations nécessaires.
- Dans certains scénarios, utilisation de la confidentialité différentielle (DP) pour limiter l'influence d'un échantillon individuel sur les paramètres du modèle, ou de l'apprentissage fédéré (FL) pour conserver l'entraînement dans le domaine de données local, évitant ainsi le transfert des données brutes vers le cloud.
- Utilisation de mécanismes de contrôle d'accès tels que RBAC / ABAC pour restreindre strictement qui peut accéder à quel niveau de journaux et de données sensibles, avec des journaux d'audit garantissant la traçabilité des chemins d'accès.
- Système de politiques de sécurité (Policy Engine)
- Modèle Du point de vue de la conception produit et système, la sécurité du contenu et la conformité évoluent finalement vers une série de « services et plateformes de sécurité » réutilisables :
- Service SaaS de sécurité du contenu : encapsule les capacités de modération de texte / image / audio / vidéo dans une API unifiée, interfacée avec les applications en amont ; reçoit le contenu en entrée, produit le type de risque, le niveau de classification et les recommandations de traitement (autoriser, bloquer, revue humaine), aidant les développeurs à intégrer rapidement le module de sécurité.
- Plateforme interne de conformité d'entreprise : fournit aux grandes entreprises une gestion centralisée de la configuration des politiques de conformité, des rapports d'audit et des capacités d'alerte sur les risques, en s'interfaçant avec les systèmes métier internes et les équipes de revue humaine, permettant à chaque ligne métier d'exécuter des règles personnalisées sous une politique unifiée et de répondre aux exigences de reporting réglementaire externe.
- Passerelle de sécurité dédiée et système d'audit des journaux pour les secteurs à haut risque : dans les secteurs à haut risque comme la finance et la santé, une passerelle de sécurité dédiée proxyfie tous les appels aux grands modèles, inspecte et dépersonnalise le trafic en temps réel, conserve les journaux critiques localement ou dans une zone de conformité, et fournit des capacités détaillées d'audit d'accès et de traçabilité des événements, répondant aux exigences réglementaires strictes.
9.3.1 Modération multimodale et moteur de politiques : transformer les règles en « code exécutable »
Un système de sécurité du contenu concret doit d'abord être capable de « comprendre » le contenu provenant de différents canaux et modalités, avant de pouvoir appliquer les politiques à chaque requête et réponse.
En matière de modération multimodale, le système construit généralement plusieurs modèles de détection pour le texte, les images, la vidéo, etc. : côté texte, les modèles identifient les mots-clés sensibles, le contexte et les expressions implicites ; côté image et vidéo, ils détectent la violence, la pornographie, les contenus impliquant des mineurs, les symboles de haine et les objets illégaux, en combinant si nécessaire l'OCR, l'ASR et les caractéristiques visuelles pour un jugement conjoint. Le moteur de politiques relie ensuite ces sorties de modèles aux exigences réglementaires : par exemple, si une région impose des restrictions plus strictes sur les contenus liés aux jeux d'argent ou à la politique, le modèle de politique correspondant peut augmenter la sensibilité des catégories de détection concernées, ou imposer une revue humaine obligatoire pour les contenus correspondant à ces classifications. En transformant les règles abstraites en chaînes de règles, seuils et actions (autoriser / bloquer / revue humaine / masquer), le Policy Engine fait véritablement « tourner » les exigences de conformité.
9.3.2 Filtrage à plusieurs niveaux et audit des journaux : construire une boucle de sécurité de bout en bout
Un blocage à un seul niveau peut difficilement couvrir tous les risques, c'est pourquoi les systèmes de sécurité du contenu adoptent généralement une conception à trois lignes de défense : préalable – pendant – a posteriori.
Au stade préalable, le système effectue une détection rapide des entrées utilisateur, rejette ou réécrit directement les prompts manifestement illicites ou hautement sensibles, et oriente l'utilisateur vers un questionnement sûr ; pour les tentatives limites et les requêtes ambiguës, il peut également ajouter proactivement des déclarations et des avertissements sur les risques. Au stade pendant, la sortie du modèle passe par un composant de filtrage de sécurité en temps réel : ce composant utilise la classification de texte et la correspondance de règles pour tronquer, remplacer ou déclencher un refus de réponse pour les sorties potentiellement à haut risque, garantissant que le contenu finalement présenté à l'utilisateur reste dans des limites acceptables. Au stade a posteriori, via l'audit des journaux et des mécanismes d'échantillonnage, l'équipe de sécurité ou un système automatisé fiable rejoue et examine périodiquement les sessions, analyse les faux positifs, les faux négatifs et les nouveaux types de risques, et met à jour en conséquence les politiques, les données d'entraînement et les modèles de détection. Cela forme une boucle de sécurité en amélioration continue, plutôt qu'une « configuration unique ».
9.3.3 Protection de la vie privée et passerelle de sécurité sectorielle : rendre la sécurité des données « démontrable »
Dans les secteurs à haute sensibilité, il ne suffit pas de « ne pas produire de contenu nuisible », il faut également démontrer que « l'utilisation interne des données des utilisateurs est tout aussi sûre, conforme et traçable ».
La protection de la vie privée commence dès l'entrée des données dans le système : dès les phases de collecte et de stockage, l'anonymisation et la dépersonnalisation sont appliquées autant que possible, garantissant que même en cas de fuite des journaux, il est difficile de les relier directement à une personne spécifique ; lors de la phase d'entraînement, la confidentialité différentielle, les stratégies d'échantillonnage ou l'apprentissage fédéré réduisent l'influence des données d'un utilisateur individuel sur le modèle final et le risque de fuite. Pour le trafic d'inférence des modèles, un contrôle d'accès unifié est mis en place via une passerelle de sécurité : toutes les requêtes et réponses doivent passer par l'inspection du contenu, la vérification des permissions et l'enregistrement d'audit de la passerelle, avec si nécessaire l'application de politiques d'accès et de vues de données différentes selon la ligne métier et le rôle de l'utilisateur. Enfin, ces journaux et enregistrements de modifications de politiques se consolident en une « chaîne de preuves » consultable par l'audit interne et la supervision externe, permettant à l'entreprise non seulement d'être conforme dans les faits, mais aussi de « prouver formellement sa conformité ».# 10. AI for Science (AI4Science)
Lorsque le deep learning et les grands modèles passent des « recommandations publicitaires et de la compréhension du langage naturel » aux problèmes scientifiques eux-mêmes, l'objectif n'est plus seulement de prédire un indicateur ou d'effectuer une classification, mais de participer réellement à la découverte de lois, à la conception d'expériences, à l'accélération des simulations et du raisonnement. L'AI4Science cherche à combiner la « reconnaissance statistique de motifs » avec les « lois physiques / régularités biochimiques / structures mathématiques », afin que les modèles agissent comme des « assistants scientifiques programmables » dans la conception moléculaire, l'ingénierie des protéines, la découverte de matériaux, la simulation physique, le raisonnement mathématique, etc.
En pratique d'ingénierie, cette couche connecte d'un côté les « infrastructures scientifiques traditionnelles » telles que les logiciels de chimie quantique, la dynamique moléculaire (MD), les simulateurs CFD/FEA, les prouveurs automatiques de théorèmes, les bases de données documentaires et les laboratoires automatisés (Robotic Lab), et de l'autre côté les flux de travail réels des entreprises pharmaceutiques, des sociétés de matériaux, des entreprises énergétiques et des institutions de recherche. Nous développons ci-dessous selon trois angles — scénarios, principes, modèles — et subdivisons davantage sur plusieurs directions clés.
- Scénarios
- Conception moléculaire et de médicaments : à partir de vastes bibliothèques de petites molécules / fragments, prédire les propriétés et l'ADMET, concevoir des candidats médicaments ciblant des cibles spécifiques, et réduire l'espace expérimental par criblage virtuel et optimisation multi-objectifs.
- Modélisation des protéines et des structures biologiques : prédire les structures tridimensionnelles des protéines et des complexes, assister la conception d'anticorps, d'enzymes et de médicaments protéiques, évaluer l'impact des mutations sur la fonction et la stabilité.
- Simulation physique et conception technique : utiliser des modèles de substitution profonds pour accélérer les simulations coûteuses telles que CFD / FEA / dynamique moléculaire, fournissant des outils d'évaluation et d'optimisation rapides pour l'aérospatiale, l'automobile, l'énergie, etc.
- Découverte de matériaux et conception cristalline : effectuer un criblage virtuel et une conception inverse dans le vaste espace chimique / des matériaux, accélérant la R&D de matériaux clés tels que les batteries, le photovoltaïque, les catalyseurs et les alliages.
- Mathématiques et raisonnement symbolique : réaliser la démonstration automatique de théorèmes, le calcul symbolique et la résolution d'équations dans des systèmes formels, renforçant la capacité de raisonnement rigoureux des grands modèles dans les problèmes mathématiques et les dérivations d'ingénierie.
- Flux de travail scientifiques et expérimentation automatisée : connecter la littérature, les bases de données et les plateformes d'expérimentation automatisée pour construire des « laboratoires auto-pilotés (Self-Driving Lab) », permettant aux modèles de participer à la conception, l'exécution et l'analyse des résultats expérimentaux.
- Principes
- Représentation structurée et modélisation par graphes : utiliser des structures telles que les graphes (Graph), les graphes cristallins (Crystal Graph) et les graphes moléculaires pour représenter des objets complexes, en modélisant les relations géométriques et topologiques sur des réseaux de neurones graphiques ou des réseaux équivariants E(3).
- Biais inductifs physiques / chimiques : intégrer les connaissances physiques a priori dans la structure du modèle et la fonction de perte via les lois de conservation, les symétries (translation / rotation / réflexion), les contraintes EDP (PINN), les fonctions d'énergie potentielle, etc.
- Génération et conception inverse : utiliser des méthodes de modélisation générative telles que VAE, GAN, Diffusion, RL pour inférer la structure à partir de « propriétés cibles / contraintes », réalisant la conception inverse de molécules / matériaux / structures.
- Modèles de substitution et couplage multi-échelle : approximer les simulations coûteuses de chimie quantique / milieux continus / mécanique des structures avec des modèles de substitution profonds, et assembler les modèles microscopiques–mésoscopiques–macroscopiques pour réaliser une modélisation multi-échelle.
- Augmentation par outils et flux de travail Agent : combiner les LLM avec des simulateurs, des calculateurs symboliques, des prouveurs automatiques de théorèmes, des systèmes de recherche documentaire et des robots expérimentaux pour construire des Agents capables de planifier et d'exécuter automatiquement des tâches scientifiques.
- Modèles
- Modèles de représentation moléculaire et des matériaux : SchNet, DimeNet, PhysNet, CGCNN, MEGNet, ALIGNN et autres réseaux équivariants E(3) et réseaux graphiques, ChemBERTa, MolBERT, MoleculeSTM et autres modèles de langage moléculaire.
- Modèles de biologie structurale : AlphaFold / AlphaFold2 / AlphaFold3, RoseTTAFold, OpenFold, ProteinMPNN, ESM‑IF, la série ESM de modèles de langage protéique et de modèles de génération de structures.
- Simulation physique et apprentissage d'opérateurs : PINN, DeepONet, Fourier Neural Operator (FNO) et la famille Neural Operator, DeepMD, NequIP et autres modèles de surfaces d'énergie potentielle et d'apprentissage d'opérateurs.
- Modèles de mathématiques et de raisonnement symbolique : Minerva, Gödel, GPT‑f, Lean‑Dojo et autres modèles spécialisés en mathématiques / preuves, ainsi que des systèmes augmentés par outils combinant LLM + SymPy/Mathematica/Lean/Coq.
- Agents scientifiques et systèmes de flux de travail : combinant recherche documentaire, génération de code, appel de simulateurs et interfaces de contrôle expérimental, des « assistants scientifiques IA » et des plateformes d'expérimentation auto-pilotées conçues pour les domaines pharmaceutique, des matériaux, de la physique, de la chimie, etc.
À partir de cette couche, le calcul scientifique traditionnel s'entrelace profondément avec le deep learning et les grands modèles : il faut à la fois respecter les contraintes strictes de la physique / chimie / biologie / mathématiques, et exploiter la puissante capacité d'ajustement pilotée par les données pour améliorer l'efficacité, l'objectif ultime étant de faire de l'IA un « collaborateur » dans la recherche scientifique, et non une simple boîte noire de prédiction.
---## 10.1 Conception moléculaire et modélisation de médicaments (Molecular Modeling & Drug Discovery)
Dans la R&D pharmaceutique traditionnelle, le parcours allant de la découverte d'une cible aux essais cliniques nécessite souvent plus de 10 ans et des milliards de dollars, dont une grande partie du temps et des fonds est consacrée aux premières étapes de conception moléculaire, de prédiction des propriétés et de criblage virtuel. La modélisation moléculaire et la conception de médicaments assistées par IA visent à accélérer ce processus grâce à une approche data-driven + modélisation générative : à partir de descriptions structurelles ou textuelles, prédire les propriétés moléculaires et l'ADMET, concevoir des composés candidats ciblant des protéines spécifiques, et réduire significativement la charge des expériences en laboratoire humide grâce à l'optimisation multi-objectifs et au criblage virtuel.
Ce domaine relie d'un côté les logiciels de chimie quantique (DFT, ab initio), les expériences d'activité biologique, le HTS (High‑Throughput Screening) et autres sources de données, et de l'autre côté les plateformes internes de Small Molecule Design des entreprises pharmaceutiques, les SaaS de prédiction de propriétés, ainsi que les outils de conception de matériaux et de produits chimiques. Nous allons l'aborder sous trois angles : scénarios, principes et modèles.
- Scénarios
- Criblage virtuel précoce et découverte de Hits : face à des bibliothèques virtuelles de molécules comptant des millions à des milliards de composés, utiliser l'IA pour prédire rapidement l'activité / l'ADMET, classer les molécules candidates et sélectionner un petit nombre de Hits à forte valeur ajoutée à faire passer en phase expérimentale.
- Évaluation des propriétés moléculaires et de l'ADMET : lors de la phase d'optimisation des composés tête de série (Lead Optimization), prédire en continu des indicateurs tels que la solubilité, la toxicité, la stabilité métabolique et la biodisponibilité orale, afin d'éclairer les évaluations pharmacocinétiques et de sécurité.
- Génération de molécules orientée cible : à partir d'informations sur une cible protéique (caractéristiques de la poche, ligands connus) ou de contraintes sur les propriétés souhaitées, générer automatiquement des petites molécules candidates structurellement diverses, à haute activité et synthétisables.
- Conception moléculaire pour les matériaux et produits chimiques : pour des scénarios non pharmaceutiques tels que les revêtements, solvants, électrolytes, tensioactifs, etc., concevoir des molécules de formulation répondant à des propriétés physiques spécifiques (viscosité, polarité, énergie interfaciale, etc.).
- Principes
- Représentation moléculaire et prédiction des propriétés :
- Représentation structurelle : les formes courantes incluent les séquences SMILES, les graphes moléculaires (atomes comme nœuds, liaisons comme arêtes), les coordonnées 3D et les caractéristiques quantiques ; le modèle doit extraire de ces représentations des informations sémantiques et géométriques généralisables.
- Prédiction des propriétés : via des GNN (GCN, GAT, MPNN) ou des réseaux équivariants 3D (SchNet, DimeNet, PhysNet, etc.), apprendre à partir de graphes moléculaires ou de structures 3D des propriétés quantiques telles que l'énergie, le moment dipolaire, les niveaux d'orbitales, ainsi que des propriétés ADMET comme la solubilité, le LogP, la toxicité et la stabilité métabolique.
- Apprentissage de représentations et pré-entraînement : sur de grandes bibliothèques moléculaires (telles que ZINC, ChEMBL, PubChem), effectuer des tâches de prédiction masquée, d'apprentissage contrastif ou de pré-entraînement autorégressif, afin d'obtenir des représentations moléculaires universelles transférables servant de caractéristiques pour les tâches QSAR / ADMET en aval.
- Génération de structures et optimisation moléculaire :
- Modélisation générative : utiliser des modèles génératifs tels que VAE, GAN, Flow, Diffusion pour échantillonner de nouvelles molécules dans l'espace SMILES ou des graphes moléculaires, en garantissant la validité chimique des structures (valence, structures cycliques, etc.) et leur diversité.
- Génération conditionnelle : introduire des vecteurs de condition (activité cible, propriétés physico-chimiques, fragments structuraux, description de la poche de la cible, etc.) pour générer des molécules candidates sous contraintes données, réalisant ainsi une conception orientée par les propriétés ou par complétion de fragments.
- Optimisation multi-objectifs et RL : via l'apprentissage par renforcement (comme MolDQN, etc.), effectuer des opérations d'« édition » dans l'espace moléculaire (ajout d'atomes, modification de liaisons, remplacement de fragments), afin de trouver un équilibre entre de multiples objectifs tels que l'activité, la toxicité, la faisabilité de synthèse et le contournement de brevets.
- Modélisation des interactions protéine – petite molécule :
- Sites de liaison et fonctions de scoring : via des réseaux de convolution 3D / réseaux de graphes / modélisation par graphes d'interaction, modéliser la relation spatiale entre la poche protéique et le ligand, afin de prédire les sites de liaison et l'affinité de liaison (Binding Affinity).
- Docking et prédiction de la pose de liaison (Binding Pose) : combiner la recherche conformationnelle du Docking avec des modèles profonds, en utilisant des fonctions de scoring profondes ou une génération de type Diffusion pour prédire des conformations stables, améliorant ainsi la précision du docking tout en réduisant le coût de calcul.
- Représentation moléculaire et prédiction des propriétés :
- Modèles
- Modèles de représentation moléculaire :
- GNN et réseaux 3D : DimeNet / DimeNet++, SchNet, PhysNet et autres modèles équivariants 3D prenant en compte les angles / distances ; GCN/GAT/MPNN et autres réseaux de neurones sur graphes génériques, adaptés à la prédiction de propriétés et au QSAR.
- Transformers basés sur SMILES : traiter les molécules comme des « phrases en langage chimique », utiliser des Transformers pour la modélisation de langage autorégressive ou masquée, fournissant des représentations séquentielles pour la génération et la prédiction de propriétés.
- Modèles de génération et d'optimisation :
- Modèles de génération de graphes : GraphVAE, Junction Tree VAE, GraphAF, etc., générant des molécules dans l'espace des graphes ou des fragments, en mettant l'accent sur la validité structurelle et l'interprétabilité (construction au niveau des fragments).
- Modèles de diffusion : Diffusion for Molecules génère de nouvelles molécules ou conformations en ajoutant / supprimant du bruit dans l'espace des graphes ou des structures 3D, et peut être combiné avec des vecteurs de condition pour une génération personnalisée.
- Optimisation par apprentissage par renforcement : des méthodes basées sur le RL comme MolDQN traitent l'optimisation moléculaire comme un problème de décision séquentielle dans un espace d'états d'« édition moléculaire », en encodant des indicateurs multi-objectifs via une fonction de récompense.
- Grands modèles moléculaires et directions multimodales :
- Modèles de langage moléculaire : ChemBERTa, MolBERT, etc., pré-entraînés sur de vastes corpus SMILES, permettant un transfert zero-shot ou few-shot vers des tâches en aval.
- Modèles moléculaires multimodaux : MoleculeSTM, etc., intégrant la structure (graphe / 3D), les descriptions textuelles (voies de synthèse, résumés de littérature) et les propriétés moléculaires, pour permettre la recherche intermodale et la prédiction conjointe.
- Formes de produits et d'applications :
- Plateformes de criblage précoce de médicaments destinées aux entreprises pharmaceutiques et plateformes internes de Small Molecule Design, offrant des capacités intégrées de criblage virtuel, de génération moléculaire, de prédiction ADMET, etc.
- SaaS de prédiction de propriétés destinés aux chercheurs : interrogation rapide via le Web ou une API des propriétés moléculaires, de l'ADMET, de la similarité moléculaire, etc.
- Outils de conception au niveau moléculaire pour les matériaux et produits chimiques, destinés au développement sur mesure de systèmes moléculaires tels que les revêtements, solvants, électrolytes, etc.
- Modèles de représentation moléculaire :
À partir de cette sous-direction, le processus de conception de médicaments évolue d'un paradigme « expert + expérimentation haut débit » vers une boucle fermée « expert + modèle + expérimentation automatisée », où l'IA ne se contente plus de fournir un score, mais participe progressivement à l'ensemble du cycle allant de la « proposition d'idées » à la « génération de candidats », puis au « criblage et à l'optimisation ».
10.1.1 Représentation moléculaire et prédiction des propriétés / ADMET
Dans la R&D pharmaceutique et des matériaux, une capacité fondamentale est la suivante : étant donnée une molécule, prédire rapidement et précisément ses propriétés et son comportement, y compris les propriétés de chimie quantique (énergie, orbitales, moment dipolaire), les propriétés physico-chimiques (solubilité, LogP), ainsi que les indicateurs ADMET liés à la pharmacocinétique et à la toxicité. L'essence de ce problème est d'apprendre, à partir de différentes formes de représentation moléculaire, une représentation qui soit à la fois conforme aux lois chimiques et dotée de capacités de généralisation.
- Au niveau de la représentation moléculaire, les formes courantes incluent :
- Chaînes de caractères SMILES / SELFIES : traiter la molécule comme une séquence, ce qui se prête naturellement à la modélisation de langage par RNN / Transformer.
- Représentation par graphe moléculaire : atomes comme nœuds, liaisons comme arêtes, les nœuds et les arêtes portant des caractéristiques telles que le type, la valence, l'aromaticité ; adaptée à la modélisation du voisinage et de la topologie par GNN, MPNN, etc.
- Représentation géométrique 3D : basée sur les coordonnées 3D, les angles de liaison, les angles dièdres, etc., obtenus par chimie quantique ou optimisation par champ de force, fournissant une base aux réseaux E(3)-équivariants pour capturer la structure spatiale.
- Au niveau de la prédiction des propriétés et de l'ADMET, les tâches cibles incluent :
- Prédiction des propriétés quantiques des petites molécules : énergie, moment dipolaire, niveaux HOMO/LUMO, etc., pour remplacer les calculs DFT / ab initio coûteux.
- QSAR / prédiction d'activité : fournir l'activité d'un composé sur une cible spécifique (IC50, Ki), la sélectivité, etc., pour le criblage de candidats potentiels.
- Indicateurs liés à l'ADMET : solubilité, perméabilité, toxicité, stabilité métabolique, inhibition du CYP, etc., qui sont des critères clés pour l'évaluation de la drugabilité.
Le parcours typique d'un modèle est le suivant : utiliser DimeNet / SchNet / PhysNet / GNN, etc., pour extraire des représentations de haute dimension à partir des structures moléculaires, puis prédire simultanément plusieurs propriétés via un apprentissage multi-tâches ; effectuer un pré-entraînement sur de grandes données publiques ou internes à l'entreprise pour améliorer la capacité de modélisation dans les scénarios à faible volume de données. En externe, ces capacités sont fournies sous forme de SaaS de prédiction ADMET ou d'API de plateforme interne, offrant aux équipes projet une capacité rapide d'« expérimentation virtuelle ».
10.1.2 Génération de structures et optimisation moléculaire : des SMILES / Graphes aux médicaments candidats
Une fois que l'on dispose de modèles fiables de représentation moléculaire et de prédiction des propriétés, l'objectif suivant est de générer activement de « meilleures » molécules : il ne s'agit plus seulement d'évaluer des composés donnés, mais de concevoir directement de nouvelles molécules candidates autour d'une cible et de contraintes sur les propriétés. Ce domaine est généralement appelé génération et optimisation moléculaire.
En ce qui concerne la génération de structures, la recherche et la pratique d'ingénierie s'articulent principalement autour de trois approches :
- Génération de séquences basée sur SMILES Traiter les molécules comme des chaînes de caractères, en utilisant des VAE, des GAN ou des Transformers autorégressifs pour échantillonner de nouvelles structures dans l'espace SMILES ; garantir la validité chimique par des contraintes syntaxiques (comme SELFIES) ou par post-traitement.
- Génération basée sur les graphes / fragments Des modèles tels que GraphVAE, Junction Tree VAE, GraphAF construisent directement des structures au niveau des graphes moléculaires ou des fragments élémentaires (Fragment / Motif), ce qui est plus proche de la pensée de la synthèse chimique et facilite le contrôle des cycles, des groupes fonctionnels et des structures de squelette.
- Génération basée sur la diffusion et la 3D Des méthodes comme Diffusion for Molecules effectuent une diffusion et un débruitage dans l'espace des graphes ou des coordonnées 3D, pouvant prendre en compte simultanément la conformation spatiale, ce qui convient à la génération de ligands ou d'unités de matériaux sensibles à la forme 3D.
En ce qui concerne l'optimisation moléculaire, l'élément clé est d'introduire des objectifs et des contraintes :
- Génération conditionnelle : injecter l'activité cible, les propriétés physico-chimiques ou des fragments d'ancrage comme vecteurs de condition dans le modèle, afin que la génération soit orientée vers la satisfaction de ces conditions.
- Apprentissage par renforcement et optimisation multi-objectifs : utiliser le modèle de prédiction des propriétés comme « environnement », et le RL pour prendre des décisions séquentielles dans l'espace moléculaire (comme MolDQN), en définissant des récompenses et des pénalités sur des indicateurs multidimensionnels tels que l'activité, la toxicité, la faisabilité de synthèse et le risque de brevet, pour réaliser un compromis multi-objectifs.
- Faisabilité de synthèse et a priori chimiques : intégrer dans le processus de génération et d'optimisation des modèles de prédiction de voies de synthèse et des indicateurs de complexité de synthèse (comme le SA score), afin d'éviter de produire des structures difficiles à synthétiser ou instables.
En termes de mise en produit, ce type de modèles est souvent intégré dans les « plateformes de conception de médicaments par IA » internes aux entreprises pharmaceutiques : étant donnés une cible, une structure tête de série connue et une direction d'optimisation, la plateforme propose automatiquement plusieurs lots de molécules candidates, puis les équipes projet procèdent à un criblage et à une itération progressifs en tenant compte des considérations expérimentales, des brevets et des aspects commerciaux, réalisant ainsi une optimisation en boucle fermée « modèle – expérience – modèle ».## 10.2 Modélisation des protéines et de la structure biologique (Protein & Structural Biology)
Dans les sciences de la vie, la structure détermine la fonction est un principe quasi dogmatique : la manière dont une protéine se replie en une structure tridimensionnelle et s'assemble avec d'autres molécules en complexes détermine directement son comportement fonctionnel dans la cellule. L'analyse structurale traditionnelle repose sur des méthodes expérimentales telles que la cristallographie aux rayons X, la RMN et la cryo-microscopie électronique, qui présentent des cycles longs, des coûts élevés et d'importants angles morts liés à la difficulté de cristallisation et d'analyse. Les modèles d'apprentissage profond, représentés par AlphaFold, ont considérablement repoussé la capacité de passer « directement de la séquence à la structure », rendant possible l'obtention de structures de haute qualité à l'échelle du génome entier.
Cette direction relie d'un côté les bases de données de séquences et de structures telles qu'UniProt / PDB, les expériences omiques et les projets de génomique structurale, et de l'autre côté les plateformes de conception et d'analyse structurelle des secteurs biopharmaceutique, de la biologie synthétique et de l'ingénierie enzymatique. Nous développons ci-dessous selon trois angles — scénarios, principes et modèles — puis détaillons les sous-directions clés.
- Scénarios
- Annotation et criblage de structures de cibles : prédire les structures d'un grand nombre de protéines à l'échelle du génome pour assister la découverte de cibles, l'annotation fonctionnelle et l'analyse des voies de signalisation ; évaluer les mécanismes pathogènes potentiels en intégrant les informations sur les variants.
- Conception d'anticorps et de médicaments protéiques : modéliser et concevoir finement les régions clés telles que les régions variables des anticorps (CDR) et les domaines de liaison aux récepteurs, afin d'optimiser l'affinité, la spécificité et l'immunogénicité.
- Conception d'enzymes et de biocatalyseurs : à partir de la structure tridimensionnelle de l'enzyme et de l'environnement du site actif, concevoir des bibliothèques de mutations et de variants pour améliorer l'efficacité catalytique, la gamme de substrats et la stabilité.
- Étude des complexes et des interactions : prédire les structures des complexes protéine-protéine, protéine-acide nucléique et protéine-petite molécule, analyser les modes d'interaction aux interfaces, fournissant une base pour la conception de médicaments et la modélisation des voies de signalisation.
- Effets des mutations et analyse de la résistance aux médicaments : évaluer l'impact des variants naturels ou des mutations artificielles sur la stabilité structurale, la fonction et la liaison au ligand, et analyser les bases structurales des mutations de résistance.
- Principes
- Prédiction de la structure des protéines :
- Séquence → Structure : à partir de la séquence d'acides aminés (séquence unique ou alignement multiple de séquences MSA), modéliser les contraintes géométriques par paires de résidus (distances, angles, cartes de contacts), puis générer la structure 3D tout-atome via un module de reconstruction géométrique.
- Signaux co-évolutifs : exploiter les motifs de mutations corrélées (co-évolution) entre séquences homologues pour inférer les relations de contact potentielles entre résidus, fournissant un a priori fort pour les contraintes de repliement.
- Raffinement structural et estimation de l'incertitude : effectuer un raffinement local (relax, repack) de la structure prédite et produire des scores de confiance (tels que pLDDT, PAE) pour guider la sélection des « régions fiables » dans les applications ultérieures.
- Modélisation des complexes et de l'assemblage moléculaire :
- Modélisation conjointe multi-chaînes : prendre en entrée plusieurs chaînes protéiques ou séquences protéine + acide nucléique, introduire l'identification des chaînes et les contraintes d'interface, et produire directement la structure complète du complexe.
- Prédiction d'interfaces et assemblage : à partir de structures monomériques connues, prédire les configurations d'interface et les modes d'assemblage les plus probables via des modèles de graphes ou des modèles de diffusion.
- Conception de protéines et prédiction des effets mutationnels :
- Repliement inverse (Inverse Folding) : étant donné un squelette tridimensionnel ou des contraintes topologiques, générer une séquence d'acides aminés capable de se replier stablement dans cette structure, permettant la conception de protéines de novo.
- Modélisation des effets mutationnels : combiner les modèles de langage protéique et les modèles structuraux pour prédire l'impact de mutations spécifiques sur la stabilité (ΔΔG), l'activité ou l'affinité de liaison, assistant l'évolution dirigée et le criblage de variants.
- Prédiction de la structure des protéines :
- Modèles
- Prédiction structurale :
- AlphaFold / AlphaFold2 / AlphaFold3 : centrés sur les mécanismes d'attention et les modules géométriques, ils prédisent des structures protéiques de haute précision à partir des MSA, des structures modèles et des caractéristiques de séquence, et fournissent des estimations d'incertitude.
- RoseTTAFold, OpenFold : utilisent des représentations multi-pistes (sequence / pair / structure) et des mécanismes d'attention multi-échelles, offrant des implémentations fondamentales pour l'open source et le déploiement industriel.
- Modélisation des complexes et des interfaces :
- AlphaFold‑Multimer : modélise directement les structures de complexes protéine-protéine dans des scénarios multi-chaînes, en tenant compte à la fois du repliement des monomères et des interactions aux interfaces.
- RFdiffusion : génère ou optimise des squelettes protéiques et des interfaces de complexes dans l'espace 3D à l'aide de modèles de diffusion, permettant la conception d'assemblages complexes et de structures symétriques.
- DiffDock et méthodes similaires : dans les systèmes protéine-petite molécule, prédisent les poses de liaison et les modes d'interaction à l'aide de fonctions de scoring par diffusion ou profondes.
- Modèles de conception et de mutation :
- ProteinMPNN : génère des séquences compatibles étant donné une structure, utilisé pour la stabilisation des squelettes et la conception d'interfaces.
- Série ESM‑IF, ESMFold / ESM‑2 : modèles de langage pré-entraînés sur des séquences protéiques à grande échelle, capables d'inférer la structure, la fonction et les effets mutationnels à partir des séquences.
- Produits et applications :
- Services de prédiction de structures protéiques et bases de données sur cloud public (comme AlphaFold DB), fournissant des annotations structurales à grande échelle et des interfaces de téléchargement pour la recherche.
- Plateformes internes de conception structurale dans les entreprises biopharmaceutiques : intégrant des modules de prédiction de structures protéiques, de conception d'anticorps, d'ingénierie enzymatique et de docking protéine-ligand.
- SaaS pour les biotechnologies : fournissant des outils de prédiction de sites de liaison, d'évaluation thermodynamique des interfaces, d'évaluation de l'affinité et de l'immunogénicité, au service du développement d'anticorps thérapeutiques et de produits biologiques.
- Prédiction structurale :
À partir de cette sous-direction, l'IA ne se contente plus d'« interpréter » les structures protéiques existantes, mais elle « crée » de nouvelles architectures de protéines et de complexes, faisant passer la biologie structurale de l'« ère de la mesure passive » à l'« ère de la conception active ».
10.2.1 Prédiction de la structure des protéines et assemblage de complexes
La prédiction de la structure des protéines est l'une des avancées les plus emblématiques de la rencontre entre la biologie structurale et l'IA. La question centrale est la suivante : peut-on, à partir de la séquence et sans dépendre (ou presque) des données expérimentales, prédire une structure 3D proche de la résolution expérimentale ? Dans les applications réelles, la structure monomérique n'est souvent qu'un point de départ ; le plus important est de comprendre comment les protéines s'assemblent avec d'autres molécules en complexes.
Dans la prédiction de structures monomériques, le pipeline typique comprend :
- Encodage séquence / MSA : extraction des caractéristiques de séquence et exploitation des signaux co-évolutifs par alignement multiple de séquences.
- Inférence des contraintes géométriques : prédiction des distributions de distances entre paires de résidus, des probabilités de contact et des orientations relatives, formant un champ géométrique de « pseudo-mesures ».
- Construction structurale et raffinement itératif : construction de la structure 3D sous contraintes géométriques à l'aide de modules structuraux (tels que les blocs invariants par rotation-translation, les mises à jour en coordonnées internes), avec plusieurs itérations de raffinement pour réduire les violations géométriques.
- Évaluation de l'incertitude et de la qualité : production d'indicateurs tels que la confiance par résidu (pLDDT) et l'estimation de l'erreur par paire de résidus (PAE), fournissant une référence pour la modélisation et le criblage ultérieurs.
Dans la prédiction de complexes et d'assemblages, le problème s'étend à « comment plusieurs chaînes s'organisent et interagissent dans l'espace » :
- Pour les complexes protéine-protéine, on utilise généralement des stratégies de modélisation multi-chaînes spécialisées (comme AlphaFold‑Multimer) qui produisent directement la structure assemblée à partir d'entrées multi-chaînes.
- Pour les systèmes protéine-acide nucléique / protéine-petite molécule, une approche consiste à prédire d'abord chaque structure individuellement, puis à prédire le mode d'assemblage par docking et fonctions de scoring d'interface ; une autre approche utilise des modèles de diffusion ou une modélisation conjointe pour générer directement les conformations du complexe dans l'espace 3D.
- Dans les scénarios d'assemblages multi-sous-unités et de grands complexes, il est également nécessaire d'intégrer des contraintes de symétrie, des cartes de densité EM à basse résolution et d'autres informations pour réaliser un assemblage hiérarchique et multi-échelle.
Dans la pratique industrielle, la prédiction structurale et l'assemblage sont souvent encapsulés sous forme de services cloud ou de chaînes d'outils locales, fournissant des informations structurales fondamentales pour l'annotation fonctionnelle des protéines, la modélisation des réseaux d'interactions et la validation des cibles médicamenteuses.
10.2.2 Conception de protéines et prédiction des effets mutationnels : du contrôle structural au contrôle fonctionnel
Après avoir maîtrisé la cartographie « séquence → structure », l'étape suivante est le problème inverse : comment, étant donné une structure ou des exigences fonctionnelles, concevoir des séquences protéiques et des schémas de mutation appropriés ? C'est le cœur de la conception de protéines et de la prédiction des effets mutationnels.
Dans la conception de protéines, les tâches clés incluent :
- Repliement inverse (Inverse Folding) : étant donné un squelette cible (backbone) ou une topologie globale, générer une séquence d'acides aminés capable de se replier stablement dans cette structure. Ce processus peut être réalisé par des modèles de génération conditionnés par la structure tels que ProteinMPNN et ESM‑IF.
- Conception orientée fonction : tout en maintenant la stabilité structurale globale, effectuer une conception ciblée sur les sites actifs, les poches de liaison et les régions d'interface pour optimiser l'affinité, la spécificité et l'efficacité catalytique.
- Contraintes de fabricabilité et d'immunogénicité : introduire, lors de la conception des séquences, des contraintes telles que la faisabilité d'expression, les modifications post-traductionnelles et le risque immunogène, afin de garantir la faisabilité des séquences candidates dans le développement de produits biologiques.
Dans la prédiction des effets mutationnels, on s'intéresse à :
- Changement de stabilité (ΔΔG) : étant donné une structure sauvage et un site de mutation, prédire l'impact des mutations ponctuelles ou multiples sur la stabilité du repliement, utilisé pour l'évolution dirigée et l'analyse des mutations de résistance.
- Changements d'activité et d'affinité : combiner les modèles structuraux et les modèles de langage protéique pour évaluer l'impact des mutations sur l'activité enzymatique, l'affinité pour le ligand et la régulation des voies de signalisation.
- Conception de bibliothèques de variants à grande échelle : avant les expériences de criblage in vivo / in vitro, utiliser les modèles pour pré-cribler le vaste espace mutationnel, en conservant les variants à haut potentiel et en réduisant les coûts expérimentaux.
Au niveau de l'ingénierie et du produit, la conception de protéines et la prédiction des effets mutationnels sont souvent intégrées comme un « module de conception et d'optimisation structurale » au sein des entreprises biopharmaceutiques et de biologie synthétique : à partir d'une structure squelette candidate, des propositions automatiques de plusieurs cycles de mutations et de conceptions de bibliothèques de variants sont générées, formant une boucle fermée pilotée par les données avec les expériences de criblage à haut débit.## 10.3 Simulation physique et calcul accéléré (Physics Simulation & Surrogate Modeling)
Dans les domaines de l'aérospatiale, de l'automobile, du génie civil, de l'énergie et de la chimie, la simulation haute-fidélité est au cœur de la conception et de la validation. Cependant, la CFD (mécanique des fluides numérique), la FEA (analyse par éléments finis), la dynamique moléculaire (MD) et les divers solveurs d'EDP sont souvent très coûteux en calcul, ce qui rend difficile la prise en charge de balayages de paramètres à grande échelle, du contrôle en temps réel ou de l'optimisation en ligne. La simulation physique et la modélisation de substitution pilotées par l'IA cherchent à utiliser des réseaux profonds pour approximer les solveurs numériques ou les opérateurs eux-mêmes, réalisant une accélération de plusieurs ordres de grandeur tout en garantissant la cohérence physique et l'interprétabilité.
Cette direction relie, d'un côté, les logiciels de simulation traditionnels (ANSYS, Fluent, COMSOL, solveurs propriétaires), les mesures expérimentales et les données de capteurs, et de l'autre, les plateformes de conception technique, la conception aérodynamique pour la conduite autonome et l'aérospatiale, ainsi que les systèmes de simulation et d'optimisation des procédés chimiques. Nous développons ci-dessous sous trois angles : scénarios, principes et modèles.
- Scénarios
- Accélération de la simulation technique : dans des conditions géométriques et opératoires données, utiliser des modèles de substitution profonds pour prédire rapidement les champs de pression, de vitesse, de température, les distributions de contrainte/déformation, etc., afin de soutenir les itérations de conception et l'optimisation multi-tours.
- Simulation de processus complexes et optimisation des procédés : dans les industries de process telles que la chimie et l'énergie, approximer les modèles mécanistiques ou les modèles boîte noire par ML pour permettre une évaluation rapide et un contrôle en temps réel.
- Simulation à l'échelle moléculaire/matériau : utiliser des surfaces d'énergie potentielle ML (Neural Network Potential) pour remplacer les calculs coûteux d'énergie potentielle et de force ab initio, afin d'accélérer la dynamique moléculaire et la simulation du comportement de phase des matériaux.
- Couplage multi-échelle et interdisciplinaire : assembler les modèles micro–méso–macro via des modèles de substitution profonds pour construire une chaîne de simulation et d'optimisation multi-échelle de bout en bout.
- Principes
- Modèles de substitution / modèles de substitution (Surrogate Models) :
- Apprendre à partir de simulations numériques ou de données expérimentales la correspondance « paramètres d'entrée → champ/sortie » comme approximation d'un solveur haute-fidélité.
- Dans un espace paramétrique de grande dimension, combiner l'apprentissage actif et l'optimisation bayésienne pour sélectionner automatiquement les points d'échantillonnage les plus informatifs pour la simulation ou l'expérimentation haute-fidélité, améliorant continuellement la qualité du modèle de substitution.
- Réseaux de neurones informés par la physique (PINN) :
- Intégrer les EDP, les conditions initiales/aux limites et les lois de conservation physique dans la fonction de perte, en utilisant la différentiation automatique pour résoudre les champs physiques dans l'espace continu.
- Prend en charge les problèmes directs (résolution du champ d'état) et les problèmes inverses (déduction des termes sources, paramètres matériau, etc. à partir d'observations éparses), particulièrement adapté aux géométries et conditions aux limites complexes difficiles à traiter avec les méthodes numériques traditionnelles.
- Apprentissage d'opérateurs et Neural Operator :
- Ne pas simplement ajuster « la solution sous des conditions spécifiques », mais apprendre la correspondance de fonction à fonction (opérateur), comme « conditions aux limites/terme source → champ de solution complet ».
- Les méthodes représentatives incluent Fourier Neural Operator (FNO), DeepONet, etc., qui, via des transformations dans le domaine fréquentiel ou des architectures réseau spécifiques, améliorent la capacité de généralisation à différentes densités de maillage et formes géométriques.
- Modélisation multi-échelle :
- Entraîner les paramètres effectifs ou les relations constitutives aux niveaux méso/macro sur des données de simulation microscopique, le modèle de substitution profond jouant le rôle de « couche de pontage d'échelle ».
- Pour les problèmes de matériaux complexes, de couplage fluide-structure et d'écoulements multiphasiques, utiliser des modèles profonds pour transférer l'information entre différentes échelles et modules physiques.
- Modèles de substitution / modèles de substitution (Surrogate Models) :
- Modèles
- Réseaux de neurones physiques génériques :
- Famille PINN : résout en minimisant les résidus EDP sur des points d'échantillonnage dans le domaine spatio-temporel, applicable aux équations de Navier‑Stokes, Maxwell, élasticité, etc.
- Famille DeepONet, FNO, Neural Operator : apprend directement l'approximation au « niveau opérateur » des solveurs EDP, pour une inférence rapide sous multiples conditions opératoires et géométries.
- Modèles de potentiel à l'échelle moléculaire/matériau :
- DeepMD, SchNet, NequIP, SpookyNet, etc. : construisent des surfaces d'énergie potentielle ML de haute précision, accélérant considérablement le calcul des forces et de l'énergie tout en maintenant une précision proche de l'ab initio.
- Couplés aux moteurs MD traditionnels, ils permettent une dynamique moléculaire de haute précision pour des systèmes de grande taille et sur de longues échelles de temps.
- Modèles de substitution CFD / mécanique des structures :
- Réseaux encodeur-décodeur tels que U‑Net / UNet++ : prédisent les champs d'écoulement ou de température à partir de la géométrie/des conditions aux limites sur des grilles régulières.
- Réseaux de neurones sur graphe appliqués aux maillages (Graph Neural Networks on Mesh) : effectuent le passage de messages et la mise à jour nœud/élément sur des maillages non structurés, adaptés aux géométries complexes et aux scénarios de couplage multi-physique.
- Neural Operator pour la CFD : généralise la prédiction des champs d'écoulement sous différents nombres de Reynolds, conditions d'écoulement incident et paramètres géométriques.
- Produits et applications :
- Modules d'accélération IA dans les logiciels de simulation industrielle : fournissent des fonctions d'estimation rapide et d'analyse de sensibilité en surcouche des solveurs traditionnels.
- Plateformes de simulation et d'optimisation des procédés chimiques/énergétiques : combinent modèles mécanistiques + modèles de substitution + algorithmes d'optimisation en un outil intégré d'optimisation des procédés.
- Conception aérodynamique pour la conduite autonome / l'aérospatiale : réalise des balayages de variables de conception à grande échelle et l'optimisation automatique de forme dans la conception de profils aérodynamiques.
- Réseaux de neurones physiques génériques :
10.3.1 Modèles de substitution et réseaux de neurones informés par la physique (PINN)
Les modèles de substitution (Surrogate Models) et les réseaux de neurones informés par la physique (PINN) constituent deux voies complémentaires pour l'IA-isation de la simulation physique : les premiers approximent la correspondance de simulation à partir des données, les seconds construisent l'objectif d'apprentissage à partir de la physique.
Dans le scénario des modèles de substitution, le flux typique est le suivant :
- Collecter un lot de données d'échantillonnage via des simulations numériques haute-fidélité ou des expériences (paramètres d'entrée, conditions aux limites, géométrie → grandeurs physiques de sortie).
- Entraîner un réseau profond (tel que MLP, réseau convolutif, GNN, Neural Operator) pour approximer cette fonction de correspondance.
- Dans l'optimisation de conception, le balayage de paramètres ou le contrôle en temps réel, utiliser le modèle de substitution à la place du solveur coûteux pour une évaluation rapide.
Dans le scénario PINN, le modèle ne repose plus principalement sur un grand nombre d'étiquettes supervisées, mais construit la fonction de perte en minimisant les résidus EDP et les violations des conditions aux limites :
- Aux points d'échantillonnage spatiaux/temporels, le réseau de neurones produit les grandeurs physiques (telles que la vitesse, la pression, le champ de déplacement, etc.), et la différentiation automatique fournit les gradients et les dérivées.
- Ces dérivées sont substituées dans l'EDP pour former le résidu, qui, avec les erreurs des conditions aux limites et initiales, constitue la perte totale.
- L'optimisation vise à rendre le résidu EDP et l'erreur aux limites aussi proches de 0 que possible, obtenant ainsi une solution approchée satisfaisant les équations physiques.
Les deux approches peuvent être combinées : lorsqu'on dispose de données haute-fidélité partielles, l'erreur sur les données + le résidu physique contraignent conjointement l'entraînement, améliorant la précision et la capacité de généralisation. Dans les applications industrielles, les PINN sont particulièrement adaptés au traitement des problèmes inverses et à la modélisation pilotée par les données, comme la déduction des paramètres matériau, des termes sources ou de la position des défauts à partir d'observations de capteurs.
10.3.2 Neural Operator et modélisation physique multi-échelle
Le Neural Operator élève la modélisation physique du niveau de la correspondance « point à point / paramètre à solution » au niveau « fonction à fonction » : il apprend une approximation d'opérateur unifiée pour « résoudre le champ de solution d'une classe donnée d'EDP avec conditions aux limites », plutôt qu'une solution spécifique sous une seule condition opératoire. Cela ouvre de nouvelles possibilités de généralisation à travers différentes conditions opératoires, géométries et résolutions de maillage.
Dans l'apprentissage d'opérateurs, l'approche typique consiste à :
- Prendre des fonctions (telles que les termes sources, les conditions aux limites, les champs de paramètres matériau, etc.) comme entrée, et utiliser un réseau (tel que FNO, DeepONet) pour produire la fonction du champ de solution complet.
- Entraîner le modèle sur des échantillons provenant de différents maillages, paramètres et géométries, afin qu'il apprenne le « motif commun » des solveurs EDP.
- Au déploiement, il suffit de fournir une nouvelle fonction d'entrée (par exemple, de nouvelles conditions aux limites, une nouvelle géométrie) pour inférer rapidement un champ de solution approché.
Dans le scénario de modélisation multi-échelle :
- Entraîner un Neural Operator sur de grandes quantités de données produites à l'échelle microscopique (comme la dynamique moléculaire, la plasticité cristalline) pour apprendre la correspondance entre la microstructure et la réponse macroscopique.
- Dans les modèles continus macroscopiques, utiliser cette correspondance comme module de calcul de relation constitutive ou de paramètres effectifs, réalisant le couplage micro–macro.
- Pour les systèmes complexes tels que le couplage fluide-structure, les écoulements multiphasiques, les écoulements réactifs, différents champs physiques peuvent être modélisés séparément et couplés via des variables d'interface partagées (telles que les flux, les forces d'interface, etc.).
Dans la pratique industrielle, le Neural Operator passe progressivement du prototype de recherche à l'application, devenant une direction technique importante pour « l'accélération des solveurs + le pontage multi-échelle » dans des scénarios tels que la CFD, la géophysique et la modélisation climatique.## 10.4 Découverte de matériaux et conception de cristaux (Materials Science & Crystal Design)
En science des matériaux, une contradiction fondamentale existe : l'espace de conception est quasi infini, tandis que les expériences et les calculs haute fidélité sont extrêmement coûteux. Trouver efficacement, dans cet immense espace de combinaisons chimiques et structurales, des matériaux candidats répondant à des exigences de performance spécifiques est un enjeu clé dans les domaines des nouvelles énergies, de l'électronique, des matériaux structurels et fonctionnels. La découverte de matériaux et la conception de cristaux assistées par l'IA, grâce aux réseaux de neurones sur graphes, aux modèles génératifs et au criblage virtuel à haut débit, font progressivement évoluer la R&D d'une approche par « essais-erreurs » vers une approche « data-driven + conception inverse ».
D'un côté, cette direction s'appuie sur des bases de données de matériaux comme Materials Project, OQMD, AFLOW et les résultats de calculs DFT / MD ; de l'autre, elle se connecte aux plateformes de R&D matériaux pour les batteries, le photovoltaïque, la catalyse, les semi-conducteurs, les alliages et d'autres scénarios applicatifs. Nous développons ci-dessous selon trois axes : scénarios, principes et modèles.
- Scénarios
- Criblage de matériaux orienté performance : étant donné une structure cristalline ou une formule chimique, prédire la structure de bande, la bande interdite, la mobilité des porteurs de charge, les propriétés thermiques / électriques / magnétiques, etc., afin d'éclairer le criblage et l'optimisation combinatoire des matériaux.
- R&D de matériaux pour les nouvelles énergies : pour les électrolytes de batterie, les matériaux d'électrode, les conducteurs ioniques solides, les couches absorbantes photovoltaïques et les catalyseurs, prédire la conductivité ionique, la stabilité, la fenêtre électrochimique et l'activité, etc.
- Criblage virtuel à haut débit (HTVS) : dans une vaste bibliothèque de candidats construite en amont, évaluer rapidement via des modèles ML, filtrer les matériaux prometteurs, puis valider et calibrer avec un nombre réduit de calculs DFT / expériences.
- Conception inverse de structures cristallines et de compositions : à partir de propriétés cibles, rechercher de manière inverse les combinaisons structure cristalline / composition satisfaisant les contraintes de performance et de procédé.
- Principes
- Représentation des matériaux et des cristaux :
- Représenter la structure cristalline périodique sous forme de graphe cristallin (Crystal Graph) : les nœuds sont les atomes, les arêtes sont les relations de voisinage interatomique, combinées aux paramètres de maille et aux informations de groupe d'espace.
- Pour les matériaux amorphes ou multiphasiques complexes, on peut représenter leur microstructure via des descripteurs d'environnement local (comme SOAP), des caractéristiques de Voronoï ou des structures de graphes multi-échelles.
- Prédiction de propriétés :
- Sur des modèles GNN tels que CGCNN, MEGNet, ALIGNN, effectuer des convolutions / passage de messages sur le graphe cristallin pour prédire l'énergie, la bande interdite, le module d'élasticité, la conductivité thermique, etc.
- Utiliser des embeddings basés sur la littérature et les formules chimiques comme Mat2Vec pour réaliser du transfer learning et de l'estimation zero-shot dans des scénarios à faible volume de données.
- Criblage virtuel à haut débit :
- Construire une bibliothèque de candidats (par énumération combinatoire, génération de structures, règles empiriques, etc.) → prédire rapidement les propriétés avec des modèles ML → sélectionner un petit nombre de Top candidats pour calibration DFT ou expérimentale → mettre à jour le modèle et la stratégie de criblage, formant une boucle d'apprentissage actif.
- Génération et conception inverse :
- Utiliser des modèles de diffusion, des VAE ou des modèles génératifs GNN pour échantillonner de nouvelles structures dans l'espace des structures cristallines, avec possibilité d'imposer des contraintes de composition, de groupe d'espace, de densité, etc.
- Combiner modèles de substitution et optimisation bayésienne pour rechercher les combinaisons structure / composition appropriées à partir des propriétés cibles, réalisant ainsi l'inverse design.
- Représentation des matériaux et des cristaux :
- Modèles
- Représentation et prédiction :
- CGCNN (Crystal Graph Convolutional Neural Network) : effectue des convolutions sur le graphe cristallin, utilisé pour la prédiction de propriétés des matériaux inorganiques telles que l'énergie et la bande interdite.
- MEGNet, ALIGNN : intègrent la structure du graphe et les informations d'arêtes / angles, offrant une meilleure généralisation et précision sur diverses familles de matériaux.
- Mat2Vec + ML léger : vectorisation des formules chimiques et des informations élémentaires pour entraîner rapidement de petits modèles de prédiction de propriétés spécifiques.
- Génération et conception inverse :
- Diffusion for Crystals : diffusion / débruitage dans l'espace de haute dimension composé des paramètres de maille et des positions atomiques, générant des structures cristallines satisfaisant certaines contraintes.
- GNN‑based Generative Models : ajout / modification progressif d'atomes et de liaisons, ou manipulation de la maille, pour réaliser une recherche de structures allant d'une initialisation aléatoire jusqu'au voisinage des propriétés cibles.
- Surrogate + Bayesian Optimization : utiliser un modèle ML comme boîte noire approximant « structure → propriété », sur laquelle effectuer une optimisation bayésienne pour trouver la structure ou composition optimale.
- Plateformes de données et chaîne d'outils :
- Materials Project, OQMD, AFLOW : fournissent une grande quantité de données de structures et de calculs DFT, constituant la base pour l'entraînement et l'évaluation des modèles ML pour les matériaux.
- Bases de données et modèles matériaux internes aux entreprises : combiner les données expérimentales et les informations de procédé de l'entreprise pour construire des plateformes de conception IA de matériaux spécifiques au domaine.
- Produits et applications :
- Plateforme d'accélération de R&D pour les nouveaux matériaux énergétiques : fournir aux équipes batteries, électrocatalyse, photovoltaïque, etc. des capacités intégrées de prédiction de propriétés, HTVS et inverse design.
- Logiciels de criblage virtuel et SaaS : fournir des outils de criblage numérique pour les alliages, semi-conducteurs, céramiques fonctionnelles, etc., réduisant les coûts d'essais-erreurs précoces.
- Outils de conception IA internes aux entreprises de matériaux : interfacés avec les systèmes de gestion d'informations de laboratoire (LIMS) et les données de ligne de production, formant une boucle fermée « modèle → expérience → production ».
- Représentation et prédiction :
10.4.1 Prédiction de propriétés des matériaux et criblage virtuel à haut débit (HTVS)
Dans le processus de R&D des matériaux, une prédiction rapide et fiable des propriétés est une capacité fondamentale : étant donné une structure ou composition candidate, peut-on estimer sommairement si elle mérite d'être explorée plus en profondeur, sans effectuer de coûteux calculs DFT ou expériences ? Les modèles de prédiction de propriétés basés sur les GNN et les bases de données de matériaux rendent possible le criblage virtuel à haut débit.
Au niveau de la prédiction de propriétés :
- Utiliser la représentation en graphe cristallin des structures périodiques, et apprendre les interactions entre atomes et leur voisinage via des modèles comme CGCNN, MEGNet, ALIGNN.
- Effectuer un entraînement mono-tâche ou multi-tâches pour différentes tâches (énergie, bande interdite, constante élastique, conductivité thermique, conductivité électrique, magnétisme, etc.), atteignant sur des jeux de données comme Materials Project des performances de prédiction proches de la précision DFT.
- Dans les scénarios industriels, on combine souvent les données expérimentales internes pour un réentraînement ou une adaptation de domaine, afin d'améliorer l'adéquation à des familles de matériaux et des conditions de procédé spécifiques.
Dans le scénario de criblage virtuel à haut débit (HTVS), le flux typique est le suivant :
- Construire une vaste bibliothèque de candidats (énumération combinatoire, génération de structures ou extension à partir de bases de données existantes).
- Utiliser des modèles ML pour prédire rapidement les propriétés cibles et les propriétés auxiliaires de chaque candidat (indicateurs de stabilité, sécurité, coût, etc.).
- Classer et filtrer selon les propriétés cibles et les contraintes multiples, sélectionner les Top‑K candidats pour des calculs DFT haute fidélité ou une validation expérimentale.
- Réinjecter les résultats de validation dans le modèle, mettre à jour les paramètres et l'estimation d'incertitude, formant une boucle d'apprentissage actif « criblage–validation–re-criblage ».
Ce flux de travail est déjà entré en phase pratique dans de nombreux domaines tels que les matériaux de batterie, les couches absorbantes photovoltaïques, les catalyseurs et les matériaux structurels, devenant le « moteur de pré-criblage » des équipes de R&D matériaux.
10.4.2 Génération de cristaux et conception inverse : des propriétés cibles aux structures candidates
Après avoir acquis des capacités fiables de prédiction de propriétés et de HTVS, l'objectif suivant est de proposer directement de nouvelles structures cristallines et compositions candidates à partir des propriétés cibles et des contraintes, c'est-à-dire la conception inverse et la génération de matériaux.
Dans la génération de cristaux, les questions clés incluent :
- Comment générer des arrangements atomiques et des mailles physiquement plausibles sous contrainte de périodicité ?
- Comment imposer explicitement ou implicitement des contraintes de composition, de symétrie et de densité durant le processus de génération ?
- Comment garantir que la structure générée reste stable après une relaxation simple ?
Pour cela, la recherche et la pratique industrielle adoptent couramment :
- Diffusion for Crystals : ajout / suppression de bruit dans l'espace conjoint paramètres de maille + positions atomiques, réalisant une génération progressive depuis une initialisation aléatoire jusqu'à des échantillons de structures, avec possibilité d'incorporer les propriétés cibles et les contraintes de composition dans le processus de bruit ou les vecteurs de condition.
- GNN‑based Generative Models : ajout progressif d'atomes et de relations de connexion sur la structure du graphe, ou édition de structures existantes, pour générer des structures candidates satisfaisant les contraintes.
Dans la conception inverse, on combine généralement avec des modèles de substitution et des méthodes d'optimisation :
- Considérer le modèle de prédiction de propriétés comme une fonction boîte noire « structure → propriété ».
- Explorer l'espace des structures par optimisation bayésienne, algorithmes évolutionnaires ou RL, afin que les propriétés prédites se rapprochent progressivement des valeurs cibles, tout en satisfaisant les contraintes de stabilité, sécurité, coût, etc.
- Valider les structures candidates trouvées par DFT / expérience, et utiliser les résultats pour mettre à jour le modèle de substitution et la stratégie de recherche.
Dans les applications industrielles, le module de conception inverse est souvent intégré aux plateformes IA de matériaux, offrant aux chercheurs une interface interactive « définir les propriétés cibles → le système propose automatiquement des structures candidates », améliorant significativement l'efficacité de l'exploration de nouveaux matériaux.## 10.5 Raisonnement mathématique et symbolique (Mathematics & Symbolic Reasoning)
Les mathématiques sont un langage hautement formalisé et vérifiable avec précision, ce qui leur confère, à l'ère de l'IA, la double propriété d'être « extrêmement difficiles » et « potentiellement très rémunératrices ». D'une part, la démonstration de théorèmes complexes et le raisonnement de haut niveau imposent des exigences très élevées aux capacités des modèles ; d'autre part, les résultats du raisonnement mathématique et du calcul symbolique peuvent être rigoureusement vérifiés, ce qui les rend naturellement adaptés à une collaboration avec des outils programmatiques. L'objectif de l'IA dans le domaine du raisonnement mathématique et symbolique est de construire des modèles capables de raisonner et de calculer de manière fiable au sein de systèmes formels, et de les intégrer dans l'éducation, la recherche scientifique et les applications d'ingénierie.
D'un côté, cette direction est reliée aux assistants de preuve interactifs tels que Lean / Coq / Isabelle, aux systèmes de calcul formel (CAS) comme SymPy / Mathematica / Maple, ainsi qu'aux grandes bases de données de problèmes mathématiques et à la littérature spécialisée ; de l'autre, elle répond aux besoins des produits éducatifs en mathématiques, des outils d'aide à la recherche et de la dérivation de formules et de l'analyse de risques dans des domaines tels que l'ingénierie et la finance. Nous allons maintenant l'aborder sous trois angles : les scénarios, les principes et les modèles.
- Scénarios
- Démonstration automatique de théorèmes et preuve assistée : produire automatiquement des démonstrations de théorèmes dans des systèmes formels, ou générer des ébauches de preuves lisibles, qui seront ensuite examinées et perfectionnées par des humains.
- Manipulation d'expressions et calcul symbolique : simplifier automatiquement des expressions, effectuer des dérivations, des intégrations, des développements en série, des transformations et des résolutions d'équations, fournissant ainsi des outils symboliques pour la modélisation technique et l'analyse des risques financiers.
- Compréhension de problèmes mathématiques et génération d'étapes de résolution : extraire une représentation structurée à partir de problèmes formulés en langage naturel ou présentés sous forme d'images, puis fournir des étapes de résolution rigoureuses et vérifiables, au service de l'éducation et de l'entraînement.
- Amélioration des capacités de raisonnement mathématique : grâce à un ajustement fin spécialisé en mathématiques et à l'augmentation par outils, améliorer le raisonnement multi-étapes et la rigueur des grands modèles dans des domaines tels que l'arithmétique, l'algèbre, la géométrie et la combinatoire.
- Principes
- Systèmes formels et recherche :
- Dans des systèmes comme Lean / Coq / Isabelle, les objets et les théorèmes mathématiques sont formalisés sous forme de termes et de types, et le processus de démonstration correspond à la construction d'un arbre de preuve sous des contraintes de règles.
- La recherche de preuve peut être considérée comme « la recherche d'un chemin satisfaisant des contraintes dans un espace d'états extrêmement vaste », ce qui se prête bien à des méthodes telles que l'apprentissage par renforcement, MCTS (recherche arborescente de Monte-Carlo) et les réseaux de politique / de valeur.
- Synergie neuro-symbolique :
- Le LLM est chargé d'extraire la structure du problème et les idées de résolution à partir d'entrées en langage naturel ou non structurées, puis de les traduire en expressions symboliques (comme du code SymPy ou des scripts de preuve Lean).
- Les systèmes de calcul formel et les assistants de preuve sont chargés d'exécuter des calculs symboliques rigoureux et des vérifications formelles, en validant et en corrigeant les sorties du LLM.
- Amélioration des capacités de raisonnement mathématique :
- Grâce à un pré-entraînement ou un ajustement fin spécialisé sur des corpus massifs de textes et de problèmes mathématiques (par exemple Minerva, Gödel), améliorer la compréhension du langage mathématique et la maîtrise des styles de raisonnement par le modèle.
- Adopter un cadre LLM augmenté par des outils (Tool-Augmented LLM), en utilisant des solveurs symboliques, des bibliothèques de calcul numérique, des outils de traçage et des assistants de preuve comme outils externes, afin que le modèle apprenne à « appeler des outils » plutôt qu'à « mémoriser des résultats » dans les raisonnements complexes.
- Systèmes formels et recherche :
- Modèles
- Démonstration automatique de théorèmes :
- Assistants de preuve de type AlphaZero : considèrent le processus de démonstration comme un jeu, en utilisant des réseaux de politique et de valeur pour guider la recherche et construire progressivement des preuves formelles.
- GPT‑f, Lean‑Dojo, etc. : entraînés sur de grands corpus de théorèmes et de preuves formalisés, utilisés pour générer automatiquement des preuves dans des systèmes comme Lean.
- Grands modèles mathématiques et augmentation par outils :
- Minerva, Gödel, etc. : grands modèles ajustés sur des corpus de manuels, d'articles et de problèmes mathématiques, offrant de meilleures performances sur les exercices de démonstration, les problèmes de concours et les tâches de raisonnement de haut niveau.
- LLM + SymPy / Mathematica / Lean / Coq : le LLM effectue l'analyse du problème et la planification stratégique, tandis que les outils de calcul symbolique et de preuve sont appelés pour des opérations précises et des vérifications.
- Produits et applications :
- « Assistants mathématiques / aides à la résolution de problèmes » dans les produits éducatifs, offrant des explications personnalisées et plusieurs chemins de résolution.
- Outils d'aide à la recherche : aider les chercheurs à formuler des conjectures, à générer des ébauches de preuves, à rechercher des théorèmes et des lemmes pertinents, accélérant ainsi l'exploration théorique.
- Dérivation de formules et analyse de modèles de risque dans les domaines de l'ingénierie et de la finance : formaliser des modèles complexes, effectuer des analyses de sensibilité symbolique et des audits de conformité.
- Démonstration automatique de théorèmes :
10.5.1 Démonstration automatique de théorèmes et raisonnement formel
La démonstration automatique de théorèmes (ATP) et la démonstration interactive de théorèmes (ITP) constituent une direction importante à l'intersection des mathématiques et de l'informatique. La tâche centrale de l'IA dans ce domaine est de construire ou d'assister automatiquement la construction de preuves dans des systèmes formels, réduisant ainsi la charge des humains sur les détails de bas niveau et leur permettant de se concentrer davantage sur les idées de haut niveau.
Dans un système formel :
- Les théorèmes sont encodés comme des types cibles (goal) à construire, et la preuve correspond à la construction d'un terme dont le type est ce type cible.
- Le processus de preuve est composé d'une série de tactiques (tactics) ou d'étapes de raisonnement, chacune progressant sous des règles logiques strictes.
L'IA peut y jouer plusieurs rôles :
- Sélection de tactiques et recommandation de paramètres : dans l'état actuel de la preuve, prédire la tactique à utiliser à l'étape suivante ainsi que ses paramètres, réduisant ainsi les essais manuels et les retours en arrière.
- Recherche de lemmes et de théorèmes : rechercher dans une vaste bibliothèque les lemmes / théorèmes les plus pertinents par rapport à l'objectif actuel, afin de réduire l'espace de recherche.
- Génération de preuves de bout en bout : étant donné un théorème et son contexte, générer directement un script de preuve complet ou partiel, qui est ensuite vérifié par l'assistant de preuve.
Les travaux tels que les assistants de preuve de type AlphaZero, GPT‑f et Lean‑Dojo, en entraînant des réseaux de politique et de valeur ou des modèles de langage sur de grands corpus formalisés, ont permis de démontrer automatiquement une proportion significative de théorèmes dans des systèmes comme Lean / Coq. En termes de produits, ces capacités pourraient évoluer vers des « assistants de vérification formelle », utilisés pour la vérification de logiciels / matériel, l'analyse de protocoles cryptographiques et la conception de systèmes à haute fiabilité.
10.5.2 Calcul symbolique et résolution de problèmes mathématiques : LLM + CAS
Comparé à la démonstration de théorèmes, le calcul symbolique et la résolution de problèmes mathématiques sont plus proches des scénarios d'ingénierie et d'éducation. Leur objectif est de : partir d'un problème en langage naturel, construire automatiquement des expressions symboliques, exécuter les calculs et fournir des étapes de résolution explicables.
Dans cette direction, le flux de travail neuro-symbolique typique est le suivant :
- Compréhension et abstraction du problème : le LLM analyse le problème présenté en langage naturel ou en image pour en extraire une représentation mathématique structurée (équations, contraintes, fonctions objectif, etc.).
- Génération d'expressions symboliques : traduction du résultat abstrait en code CAS (par exemple des expressions SymPy, des commandes Mathematica).
- Appel et exécution par le CAS : utilisation du CAS pour effectuer des opérations algébriques exactes, des dérivations, des intégrations, des résolutions de systèmes d'équations, des calculs de limites, etc.
- Interprétation des résultats et génération des étapes : le LLM, à partir des résultats de calcul du CAS, génère des étapes de résolution et des explications conformes aux habitudes humaines.
Ce modèle présente plusieurs avantages clés :
- Garantir l'exactitude des calculs grâce au CAS, en évitant les « erreurs de décalage » et les erreurs cumulatives du LLM sur les longues expressions.
- Fournir une compréhension et une expression en langage naturel via le LLM, abaissant ainsi la barrière d'utilisation du CAS et permettant aux utilisateurs non spécialistes d'accéder à des outils symboliques puissants.
- Dans les scénarios éducatifs, permettre de contrôler le niveau de détail et le style de la résolution, en générant des explications adaptées à différents niveaux d'apprentissage.
Dans les scénarios d'ingénierie et de finance, cette capacité peut être étendue à la formalisation et à l'analyse de modèles complexes : extraire automatiquement la structure du modèle à partir de documents et de code, construire des représentations symboliques, puis effectuer des analyses de sensibilité, des analyses de cas limites et l'identification des risques.## 10.6 Workflow scientifique et automatisation de laboratoire (Scientific Workflow & Lab Automation)
Les sous-directions précédentes se concentrent principalement sur des « capacités ponctuelles » : prédire une propriété, générer une structure, démontrer un théorème. Cependant, dans la recherche et le développement industriel réels, l’enjeu le plus critique est de savoir comment enchaîner ces capacités en un workflow complet et les connecter aux bases de données bibliographiques, aux plateformes de simulation et aux équipements de laboratoire automatisés. La direction du workflow scientifique et de l’automatisation de laboratoire vise à construire un système intégré Agent + Outils + Robot orienté vers les scénarios scientifiques, faisant évoluer l’IA du simple « savoir calculer » vers « savoir faire des expériences et mener des recherches ».
Cette direction relie d’un côté les bases de données d’articles et de brevets (comme PubMed, arXiv), les entrepôts de données scientifiques, les graphes de connaissances disciplinaires et les plateformes de simulation, et de l’autre côté les laboratoires automatisés (Robotic Lab), les équipements de criblage à haut débit et les systèmes de gestion de processus de recherche. Nous l’abordons ci-dessous sous trois angles : scénarios, principes et modèles.
- Scénarios
- Fouille de littérature scientifique et construction de bases de connaissances : extraire automatiquement des informations sur les composés, protéines, matériaux, conditions de réaction, résultats expérimentaux, etc., à partir d’un grand volume d’articles, afin de construire des bases de connaissances structurées et des graphes de connaissances.
- Conception expérimentale et Self‑Driving Lab : guidée par le plan expérimental proposé par l’IA, la plateforme robotisée exécute automatiquement la formulation, la réaction, la mesure et l’acquisition de données, réalisant ainsi une optimisation « en boucle fermée ».
- Gestion des données scientifiques et garantie de reproductibilité : organiser automatiquement les données de simulation et d’expérimentation, les métadonnées et les scripts de code, générer des enregistrements et des rapports d’expérience standardisés, améliorant ainsi la traçabilité et la reproductibilité.
- « Assistant IA de laboratoire » disciplinaire : fournir aux entreprises pharmaceutiques, aux sociétés de matériaux et aux institutions de recherche un support intégré pour la recherche documentaire, la conception de protocoles, la planification d’expériences et l’analyse des résultats.
- Principes
- Fouille de littérature et LLM disciplinaires :
- Utilisation de modèles pré-entraînés disciplinaires tels que SciBERT, BioBERT, PubMedBERT pour la reconnaissance d’entités nommées, l’extraction de relations, l’analyse d’équations de réaction et l’extraction de conditions expérimentales.
- Sur cette base, entraînement de LLM disciplinaires tels que Bio‑LM, Chem‑LM, Materials‑LM, afin d’améliorer la compréhension et le raisonnement sur la terminologie spécialisée, les phrases expérimentales et les hypothèses implicites.
- Conception expérimentale et Self‑Driving Lab :
- Considération de l’espace expérimental (formulation, température, durée, ordre d’ajout, etc.) comme des variables d’optimisation, le LLM + RL ou des stratégies d’optimisation bayésienne proposant le prochain ensemble de conditions expérimentales.
- Les robots de laboratoire et les instruments exécutent le plan, collectent les données et les renvoient en temps réel, le modèle mettant à jour les paramètres et les estimations d’incertitude, formant ainsi une boucle fermée d’apprentissage actif.
- Orchestration de workflows et Agent :
- Dans le cadre Agent & Tool Use, intégration unifiée des outils de recherche documentaire, de génération de code, d’appel de simulation, d’analyse de données, de visualisation et de génération de rapports.
- L’Agent, en fonction de l’objectif de la tâche (par exemple « trouver une formulation d’électrolyte à haute conductivité »), planifie automatiquement la décomposition des tâches, l’ordre d’appel des outils et la synthèse des résultats.
- Fouille de littérature et LLM disciplinaires :
- Modèles
- Modèles de fouille de littérature et de connaissances :
- SciBERT, BioBERT, PubMedBERT, etc. : modèles pré-entraînés sur la littérature scientifique et biomédicale, utilisés pour l’extraction d’entités/relations, la classification et la réponse aux questions.
- Galactica, LLM spécialisés par domaine : entraînés principalement sur des corpus scientifiques, prennent en charge la génération de revues, les ébauches de code, les suggestions de conception expérimentale, etc.
- Modèles de planification et de contrôle expérimental :
- LLM + RL / Optimisation bayésienne : combinant les connaissances a priori du domaine, l’incertitude du modèle et le coût expérimental, pour une exploration et une exploitation efficaces de l’espace expérimental.
- Agent intégré aux interfaces de contrôle du Robotic Lab : conversion des descriptions d’expériences en langage naturel en étapes expérimentales structurées et en commandes de contrôle d’instruments.
- Agent scientifique et systèmes de workflow :
- Sur la base des capacités Agent & Tool Use du chapitre 7, construction d’un « Agent multi-outils » orienté vers les scénarios scientifiques : capable de rechercher des documents, générer du code, appeler des simulations, traiter des données, créer des graphiques et rédiger des ébauches de rapports.
- Produits et applications :
- « Assistant IA de laboratoire » et postes de travail automatisés au sein des entreprises pharmaceutiques et des sociétés de matériaux : utilisés pour accélérer le développement de formulations, l’optimisation de procédés et le criblage de candidats.
- Moteurs de recherche scientifique disciplinaires et graphes de connaissances (Bio / Chem / Materials / Physics Knowledge Graph) : prennent en charge la recherche sémantique, l’exploration interactive et le raisonnement sur les connaissances.
- Plateformes de gestion de processus de recherche : intégrant la planification d’expériences, l’enregistrement des données, la gestion de versions, la visualisation et la génération automatique de rapports, afin d’améliorer l’efficacité des équipes de recherche et la reproductibilité des résultats.
- Modèles de fouille de littérature et de connaissances :
10.6.1 Fouille de littérature scientifique et construction de bases de connaissances disciplinaires
La grande majorité des connaissances scientifiques apparaît d’abord sous forme d’articles et de rapports. Pour que l’IA participe véritablement à la recherche, elle doit être capable de « lire et comprendre les articles, et d’en extraire des connaissances structurées ». La fouille de littérature scientifique et la construction de bases de connaissances consistent précisément à partir de textes non structurés pour construire une infrastructure de connaissances interrogeable et exploitable pour le raisonnement.
Dans cette direction, les tâches principales incluent :
- Reconnaissance d’entités et normalisation : identifier dans la littérature les composés, protéines, matériaux, réactifs, produits, équipements et conditions expérimentales, et les aligner avec les bases de données standard (comme ChEMBL, Uniprot, Materials Project).
- Extraction de relations et d’événements : extraire du texte des relations et des événements du type « qui interagit avec quoi et comment », « quelles conditions produisent quels résultats », par exemple les équations de réaction, les correspondances formulation–performance, etc.
- Construction de graphes de connaissances : organiser les entités et les relations sous forme de structure en graphe, permettant des requêtes complexes (comme « toutes les méthodes rapportées améliorant une certaine performance dans une condition donnée ») et le raisonnement par chemins.
Pour atteindre ces objectifs, on utilise couramment :
- Des modèles pré-entraînés tels que SciBERT, BioBERT, PubMedBERT pour la NER (reconnaissance d’entités nommées), la RE (extraction de relations) et l’extraction d’événements au niveau document.
- Sur cette base, la construction de LLM spécialisés par domaine (Bio‑LM, Chem‑LM, Materials‑LM) pour traiter des questions plus complexes, la génération de revues et la complétion de connaissances.
Les bases de connaissances et les graphes de connaissances disciplinaires ainsi construits peuvent non seulement fournir aux chercheurs des services de recherche et de recommandation plus intelligents, mais aussi servir de support de données et de connaissances a priori pour la conception expérimentale ultérieure et la conception inverse de matériaux/médicaments.
10.6.2 Self‑Driving Lab et Agent de workflow scientifique : de la « lecture d’articles » à la « réalisation d’expériences »
Une fois les capacités de fouille de littérature, de modélisation et d’optimisation acquises, l’étape suivante consiste à les combiner avec des plateformes de laboratoire automatisées pour construire un véritable Self‑Driving Lab (laboratoire auto-piloté) et un Agent de workflow scientifique.
Dans un Self‑Driving Lab, la boucle fermée opérationnelle typique est la suivante :
- Définition de l’objectif : le chercheur définit un objectif macro (par exemple « améliorer la conductivité d’un matériau dans des conditions spécifiques ») et les contraintes (coût, sécurité, limitations de procédé, etc.).
- Recherche documentaire et de connaissances : l’Agent interroge les bases de données bibliographiques et les graphes de connaissances pour comprendre les travaux existants et les régularités empiriques, formant ainsi des hypothèses initiales et un espace de conception expérimentale.
- Planification expérimentale et stratégie d’optimisation : sur la base des stratégies LLM + RL / optimisation bayésienne, proposition d’un premier ensemble de conditions expérimentales (formulation, température, durée, environnement, etc.).
- Exécution robotisée et acquisition de données : la plateforme de laboratoire automatisée (Robotic Lab) exécute les expériences, collecte les résultats en temps réel et les renvoie.
- Mise à jour du modèle et conception du cycle suivant : le modèle de substitution met à jour ses paramètres et ses estimations d’incertitude à partir des nouvelles données, puis propose le prochain ensemble de conditions expérimentales plus informatives ou plus prometteuses.
Dans un Agent de workflow scientifique plus général, cette boucle fermée s’étend aux étapes de simulation, d’analyse de données et de génération de rapports :
- L’Agent peut générer automatiquement du code de simulation ou appeler des outils de simulation existants pour évaluer en amont certaines conditions expérimentales ;
- Lors de la phase d’analyse de données, il effectue automatiquement le nettoyage des données, la visualisation et les tests statistiques ;
- Lors de la synthèse de projet, il génère des enregistrements d’expérience structurés et des ébauches de rapports, accompagnés de graphiques et de références bibliographiques.
Sur le plan du produit, ces systèmes se concrétisent souvent sous forme de plateforme : une interface unifiée et des API qui connectent les bases documentaires, les moteurs de simulation et les équipements de laboratoire, permettant aux scientifiques et ingénieurs de définir leurs objectifs à haut niveau en langage naturel et via des interfaces visuelles, le reste étant orchestré et exécuté automatiquement par l’Agent et la chaîne d’outils.
À partir de cette sous-direction, le rôle de l’IA dans la science passe véritablement d’un « outil d’analyse hors ligne » à un « collaborateur de recherche en ligne » : non seulement capable de lire des articles, d’écrire du code et de calculer des modèles, mais aussi de réaliser, aux côtés des robots, des expériences et des découvertes bien réelles.# 11. Plateforme et capacités d’ingénierie (MLOps / Infra)
Le passage des grands modèles de langage du laboratoire à la production en entreprise ne repose pas uniquement sur le fait que « le modèle soit suffisamment bon », mais sur un système de plateforme et d’ingénierie complet, stable, évolutif et opérationnel. Ce système doit couvrir l’ensemble du cycle : entraînement et fine-tuning, déploiement et optimisation de l’inférence, gestion des données et des modèles, supervision et maîtrise des coûts, sécurité et conformité, ainsi que les capacités de plateforme centrale et de support applicatif, afin de transformer des points techniques disparates en une boucle opérationnelle durable.
Du point de vue métier, les capacités de plateforme et d’ingénierie déterminent souvent si une organisation peut utiliser les grands modèles de langage « à grande échelle, de manière sûre et à moindre coût » : avec le même modèle sous-jacent, l’absence d’un bon système MLOps limite généralement l’usage au stade de la démonstration ou du pilote ; tandis qu’une plateforme complète permet aux entreprises de répliquer et de faire évoluer rapidement des applications de qualité dans plusieurs BU, plusieurs pays/régions et plusieurs contextes sectoriels. Nous allons détailler ci-dessous six axes : plateforme d’entraînement et de fine-tuning des modèles, déploiement et optimisation de l’inférence, gestion des données et des modèles, supervision, coûts et fiabilité, infrastructure de sécurité et de conformité, ainsi que capacités applicatives et de plateforme centrale.## 11.1 Entraînement et fine-tuning des modèles (Training & Fine-tuning)
Au niveau des modèles de fondation, la plupart des organisations ne partent pas de zéro pour entraîner des modèles à des centaines de milliards de paramètres, mais s'appuient sur des bases open source ou commerciales pour effectuer un pré-entraînement continu + fine-tuning. La question centrale à ce niveau est : comment utiliser efficacement la puissance de calcul et les données pour « rapprocher » un grand modèle généraliste d'un secteur, d'une entreprise ou d'une tâche spécifique, tout en garantissant la gestion opérationnelle de multiples modèles et versions.
D'un point de vue ingénierie, ce niveau comprend généralement trois volets : le pré-entraînement et pré-entraînement continu, les paradigmes et chaînes d'outils de fine-tuning, ainsi que l'infrastructure d'entraînement distribué à grande échelle.
- Scénarios
- Développement de modèles de fondation généralistes : les fournisseurs cloud / grandes entreprises développent leurs propres modèles de fondation linguistiques / multimodaux généralistes, destinés aux API externes et au partage interne entre plusieurs activités.
- Modèles sectoriels et modèles propriétaires : construction de modèles de fondation sectoriels ou de « grands modèles d'entreprise » autour de domaines spécifiques tels que la finance, la santé, le droit, la manufacture, l'énergie ou le jeu vidéo.
- Personnalisation de modèles pour l'entreprise : pour un client unique (banque, assurance, gouvernement, groupe industriel, etc.), création de modèles fine-tunés exclusifs ou de poids LoRA basés sur ses données internes.
- Marché de modèles multi-tenant : les plateformes SaaS / cloud offrent à de nombreux clients PME une capacité de fine-tuning et d'hébergement « un client, un modèle », chaque tenant disposant de ses propres poids ou couches d'adaptation.
- Plateforme de fine-tuning en un clic : produit entièrement géré ouvert aux équipes non-algorithmiques, avec un parcours « télécharger les données → choisir le modèle de base → fine-tuning automatique → déploiement en un clic ».
- Principes
- Pré-entraînement et pré-entraînement continu :
- Pré-entraînement à grande échelle sur des volumes massifs de texte généraliste, de code et de données multimodales, permettant au modèle d'acquérir une compréhension linguistique générale, des connaissances du monde et des capacités de raisonnement de base.
- Pour des secteurs spécifiques, le Domain-adaptive Pretraining (DAPT) poursuit le pré-entraînement sur le modèle généraliste en introduisant la terminologie, les styles d'écriture et la distribution des connaissances propres au domaine.
- Le pré-entraînement multilingue / multimodal, via un espace sémantique partagé et un entraînement conjoint, dote le modèle de capacités de transfert interlangue et de fusion texte/image/audio/données structurées.
- Paradigmes de fine-tuning :
- Fine-tuning complet (Full Fine-tuning) : lorsque la distribution de la tâche cible diffère fortement de celle du pré-entraînement et que la puissance de calcul et les données sont suffisantes, on met à jour tous les paramètres pour atteindre la performance maximale.
- Fine-tuning efficace en paramètres (PEFT) : via des méthodes comme Adapter, LoRA / QLoRA, Prefix / P-Tuning, on n'entraîne qu'un très petit nombre de « paramètres incrémentaux », ce qui convient aux scénarios multi-tâches, multi-clients et aux mises à jour fréquentes.
- Fine-tuning par instruction et par tâche : on apprend au modèle à comprendre des descriptions de tâches en langage naturel sous forme « instruction + exemple » ; cela peut cibler une tâche verticale unique ou prendre en charge plusieurs tâches sur un modèle unifié.
- RLHF / RLAIF : on entraîne un modèle de récompense via des retours humains ou IA, puis on utilise l'apprentissage par renforcement pour aligner le comportement du modèle (politesse, sécurité, politique de refus, valeurs).
- Entraînement distribué et système d'ingénierie :
- Utilisation de stratégies comme le parallélisme de données, le parallélisme de modèle, le parallélisme pipeline et le parallélisme de tenseurs pour répartir l'entraînement de très grands modèles et de données massives sur plusieurs nœuds et GPU d'un cluster.
- Réduction de l'occupation mémoire GPU et augmentation du débit d'entraînement grâce à des techniques comme ZeRO / FSDP, combinées à un ordonnancement efficace (Kubernetes + Slurm / Ray) pour réaliser un entraînement en cluster à grande échelle.
- S'appuyer sur des pipelines de données standardisés (chargement, nettoyage, déduplication, partitionnement, cache des datasets) et des frameworks de fine-tuning (Transformers Trainer, DeepSpeed, Lightning, etc.) pour éviter de réinventer la roue.
- Pré-entraînement et pré-entraînement continu :
- Modèles
- Chaîne d'outils de pré-entraînement et pré-entraînement continu :
- Frameworks d'entraînement : PyTorch, TensorFlow, JAX.
- Accélération de l'entraînement à grande échelle : DeepSpeed, Megatron-LM, Colossal-AI, Fairscale.
- Stratégies d'entraînement distribué : parallélisme de données (DP), parallélisme de modèle (MP), parallélisme pipeline (PP), parallélisme de tenseurs ; ZeRO / FSDP, Megatron (TP+PP), DeepSpeed ZeRO.
- Ordonnancement et gestion de cluster : Kubernetes + Slurm / Ray / Horovod / TorchElastic.
- Pipeline de données : Hugging Face Datasets, WebDataset, Petastorm, tf.data, Arrow ; stockage objet (S3 / OSS / GCS) + cache local ; outils de nettoyage et déduplication des données.
- Outils de fine-tuning et PEFT :
- Frameworks de fine-tuning : Hugging Face Transformers + Trainer / Accelerate, PyTorch Lightning, DeepSpeed, Colossal-AI.
- Kits d'outils PEFT : PEFT (LoRA / QLoRA / Prefix Tuning / Prompt Tuning, etc.), LLaMA-Adapter et diverses chaînes d'outils LoRA.
- Construction d'instructions et de données : pipelines de style Self-Instruct, Alpaca / Dolly, divers outils d'augmentation de données et de réécriture de dialogues.
- Chaîne d'outils RLHF / RLAIF :
- TRL (Transformers Reinforcement Learning), trlx, DeepSpeed-RLHF, pipelines RLHF maison.
- Entraînement de modèles de récompense, modèles de classement / notation, politiques de refus et modèles de stratégie d'alignement.
- Chaîne d'outils de pré-entraînement et pré-entraînement continu :
En termes de forme de produit, ce niveau se traduit généralement par : plateforme de développement de modèles de fondation, service de « formation externalisée + personnalisation » pour l'entreprise, plateforme de fine-tuning en un clic et marché de modèles (Model Hub / Model Store), soutenant le parcours de production allant du « modèle généraliste » au « mille modèles pour mille entreprises ».
11.1.1 Pré-entraînement et pré-entraînement continu : de la capacité généraliste au socle sectoriel
Le pré-entraînement est le « travail de fondation » des grands modèles modernes : grâce à l'apprentissage auto-supervisé sur des volumes massifs de texte non annoté, de code et de données multimodales, le modèle acquiert progressivement des capacités de modélisation du langage, de connaissance du monde, de raisonnement de base et d'apprentissage de représentations. Sur cette base, le pré-entraînement continu (en particulier le Domain-adaptive Pretraining, DAPT) prend en charge la mission de « tirer le modèle vers un domaine vertical spécifique ».
Lors de la phase de pré-entraînement généraliste, les préoccupations centrales incluent :
- Volume et diversité du corpus : mélanger textes web, livres, code, dialogues, contenus multilingues ainsi que des paires image-texte et autres données multimodales, pour couvrir aussi largement que possible les connaissances et formes d'expression.
- Objectifs d'entraînement et mélange multi-tâches : au-delà de la modélisation classique du langage autorégressive, on ajoute parfois des objectifs de type remplissage de blancs, prédiction de phrase suivante, apprentissage contrastif, alignement image-texte, etc., pour améliorer l'alignement sémantique et la compréhension multimodale du modèle.
- Multilinguisme et alignement : via un vocabulaire partagé ou un encodage en sous-mots, ainsi que des corpus parallèles interlangues ou des tâches d'alignement, le modèle apprend à modéliser différentes langues dans un espace vectoriel unifié, réalisant ainsi le transfert interlangue et la traduction.
Lors de la phase de pré-entraînement continu sectoriel (DAPT), l'accent se déplace vers :
- Construction du corpus sectoriel : constituer un corpus propriétaire à partir de dossiers médicaux et guides cliniques, de jugements et textes juridiques, de rapports financiers et données de trading, de documents de conception en manufacture / énergie / jeu vidéo, etc.
- Adaptation au style et à la terminologie : par le pré-entraînement continu sur un grand volume de textes du domaine, le modèle maîtrise naturellement la terminologie sectorielle, les expressions figées, les styles d'écriture professionnels et les connaissances implicites (comme les habitudes d'expression clinique ou les formulations juridiques).
- Injection de connaissances propriétaires d'entreprise : pour les grandes entreprises ou institutions, on peut ajouter, au-delà du corpus généraliste et sectoriel, des documents internes, des bases de connaissances et des enregistrements de tickets, afin d'entraîner un « grand modèle d'entreprise » servant de socle intelligent unifié.
Dans la pratique de l'ingénierie, le pré-entraînement et le pré-entraînement continu s'exécutent avec des frameworks distribués à grande échelle (Megatron-LM, DeepSpeed ZeRO, etc.) et des pipelines de données efficaces (WebDataset / HF Datasets + stockage objet), formant un pipeline d'entraînement stable et réutilisable. Pour les fournisseurs cloud ou les grandes entreprises, ce pipeline est souvent encapsulé dans une plateforme interne, prenant en charge le pré-entraînement incrémental périodique et l'itération parallèle de plusieurs socles sectoriels.
11.1.2 Paradigmes de fine-tuning et RLHF : de « savoir parler » à « comprendre le métier et respecter les limites »
Une fois qu'un socle pré-entraîné puissant est disponible, la clé pour rendre le modèle « utile pour le métier » et « au comportement contrôlable » réside dans les phases de fine-tuning et d'alignement. Cela inclut à la fois le fine-tuning supervisé (SFT) au sens classique, le fine-tuning par instruction, le fine-tuning multi-tâches et l'apprentissage par renforcement basé sur le feedback (RLHF / RLAIF).
Au niveau des paradigmes de fine-tuning, on peut distinguer :
- Fine-tuning complet (Full Fine-tuning) Lorsque la distribution de la tâche diffère fortement du pré-entraînement, ou lorsque la performance maximale est impérative avec une puissance de calcul suffisante (par exemple, modèle de langage de programmation spécifique, modèle de dialogue pour une langue ou un secteur donné), la mise à jour de tous les paramètres permet d'atteindre le plafond de performance le plus élevé. Cependant, son coût est élevé et la gestion des versions complexe, ce qui limite généralement son usage à un petit nombre de modèles essentiels.
- Fine-tuning efficace en paramètres (PEFT) Via des méthodes comme Adapter, LoRA / QLoRA, Prefix / P-Tuning, seuls les « petits blocs de paramètres incrémentaux » insérés ou les incréments de faible rang des poids sont entraînés, les poids du grand modèle original restant gelés. Cela apporte trois avantages d'ingénierie :
- Multi-tâches / multi-clients peuvent partager le même socle, en ne commutant que les poids Adapter / LoRA.
- Réduction significative des besoins en mémoire GPU et en puissance de calcul, permettant le fine-tuning sur des clusters GPU de taille moyenne ou même sur une seule machine.
- Mises à jour fréquentes et retours arrière simples, facilitant l'itération rapide et les expérimentations A/B.
- Fine-tuning par instruction et par tâche
- Fine-tuning par instruction (Instruction Tuning) : via des échantillons « instruction en langage naturel + entrée + sortie attendue », le modèle apprend à comprendre des formulations d'instruction humaines comme « aide-moi à… », « explique… », s'affranchissant ainsi des modèles spécifiques à chaque tâche.
- Fine-tuning mono-tâche : fine-tuning ciblant uniquement une tâche verticale comme le service client, la complétion de code ou la consultation juridique, afin de maximiser la performance sur cette tâche.
- Fine-tuning multi-tâches : prise en charge simultanée de plusieurs tâches sur un modèle unifié (questions-réponses, résumé, traduction, code, génération de recommandations, etc.), améliorant la polyvalence du modèle et l'utilisation des ressources.
Au niveau de l'alignement comportemental et de la sécurité, le RLHF / RLAIF joue un rôle crucial :
- Entraînement du modèle de récompense (Reward Model) : collecte des préférences humaines ou IA parmi plusieurs réponses candidates du modèle (classement / notation), pour entraîner un modèle de récompense capable d'évaluer la « qualité d'une réponse ».
- Optimisation du modèle de base par apprentissage par renforcement (type PPO) : sous la guidance du modèle de récompense, les paramètres du modèle sont ajustés par apprentissage par renforcement pour mieux correspondre aux préférences humaines et aux valeurs de la plateforme, par exemple :
- Plus poli, neutre et professionnel ;
- Refus ou reformulation sécurisée des requêtes dangereuses, illégales ou liées à la vie privée ;
- Expression d'incertitude en cas de doute, plutôt que de fabriquer des faits.
- RLAIF et alignement auto-supervisé : dans certains scénarios, un modèle de base puissant sert de donneur de feedback, ou des règles et évaluations automatisées sont combinées pour un alignement semi-automatique du processus de fine-tuning, réduisant les coûts d'annotation humaine.
Côté chaîne d'outils, les frameworks comme Hugging Face Transformers + PEFT, TRL / trlx, DeepSpeed-RLHF constituent déjà un workflow industriel standard allant du SFT à l'entraînement du RM puis au RLHF. En termes de définition produit, ce niveau se concrétise typiquement par : des services de personnalisation / formation externalisée de modèles, des plateformes de fine-tuning en un clic, des marchés de modèles multi-tenant et des plateformes d'ingénierie de grands modèles sectoriels ou d'entreprise.## 11.2 Déploiement et inférence de modèles (Serving & Optimization)
Après l'entraînement d'un grand modèle, fournir un service d'inférence avec une haute disponibilité, une faible latence, une extensibilité et des coûts réduits constitue le deuxième pilier du système d'ingénierie IA. La couche de déploiement et d'inférence connecte d'un côté les clusters de calcul GPU / NPU, et de l'autre les passerelles API, les applications d'entreprise et les plateformes ouvertes au public. Ses principales responsabilités incluent : la conception de l'architecture de déploiement, les stratégies de routage des modèles, l'optimisation des performances d'inférence et l'utilisation du matériel.
Dans l'ensemble, cette couche doit résoudre trois problèmes : quelle architecture utiliser pour le service externe, comment rendre l'inférence plus rapide et moins coûteuse, et comment maintenir une haute disponibilité et une bonne gouvernance dans un environnement multi-modèles, multi-régions et multi-locataires.
- Scénarios
- Plateforme IA interne d'entreprise / Bus de services de modèles : fournir de manière unifiée des API de grands modèles aux différentes lignes métier, en masquant les différences de modèles sous-jacents et de matériel.
- API cloud ouvertes au public : offrir des interfaces d'inférence standardisées aux développeurs externes et aux partenaires de l'écosystème, avec prise en charge du choix multi-modèles et de la gestion des versions.
- Services en ligne à fort QPS : assistance client, recherche, recommandation, assistant bureautique et autres scénarios exigeant une latence et une stabilité très élevées.
- Génération hors ligne à bas coût : rédaction publicitaire / de jeux, génération de bases de connaissances, refactoring de code par lots et autres tâches de traitement par lots où le débit et le coût priment sur la latence.
- Déploiement multi-régions et multi-clusters : fournir un accès de proximité aux utilisateurs mondiaux ou multi-régionaux, tout en prenant en charge les formes multi-cloud ou cloud hybride.
- Principes
- Architecture de déploiement et routage des modèles :
- Service mono-modèle : dans les scénarios précoces ou simples, un modèle principal unique sert de service unifié externe — architecture simple, mais difficile de concilier latence et coût.
- Service multi-modèles et routage : en fonction des dimensions telles que le type de tâche, les exigences de latence, les contraintes de coût et le niveau d'utilisateur, configurer des modèles de tailles ou de spécialités différentes, et effectuer le routage des requêtes via des règles ou un Meta‑model (y compris les tests A/B, les stratégies Bandit / bandits à plusieurs bras, etc.).
- Isolation multi-locataires et gestion des SLA : dans les scénarios multi-clients, garantir l'isolation des performances et de la sécurité entre les différents locataires grâce aux quotas de ressources, aux limites de QPS, à l'authentification d'accès et à la classification SLA.
- Élasticité et haute disponibilité : à l'aide d'infrastructures comme Kubernetes / Service Mesh, réaliser la mise à l'échelle automatique, le déploiement multi-réplicas, les déploiements canary, les déploiements blue-green et la reprise après sinistre inter-régionale.
- Optimisation des performances d'inférence :
- Compression et accélération de modèles : réduire la charge de calcul et l'occupation de la mémoire vidéo par quantification (INT8 / INT4 / NF4 / GPTQ / AWQ), élagage / sparsification, distillation de connaissances et autres méthodes.
- Optimisations système : utiliser le KV Cache pour mettre en cache les clés-valeurs d'attention, accélérant les longues conversations et les inférences continues ; équilibrer le débit et la latence par le batching, la génération parallèle de tokens et la sortie en streaming ; réduire les accès mémoire et les frais de lancement de kernels par fusion d'opérateurs et optimisation de graphe.
- Utilisation de matériel hétérogène : construire des Runtimes et des stratégies d'ordonnancement adaptés aux différents matériels tels que GPU, CPU, NPU, FPGA, ASIC, et améliorer l'efficacité globale dans les scénarios mono-machine multi-cartes et multi-machines multi-cartes via des interconnexions haut débit comme NVLink / RDMA.
- Ingénierie et opérations :
- Utiliser des frameworks d'inférence dédiés comme vLLM, TGI, Triton pour réduire significativement les coûts de développement interne.
- Effectuer le déploiement multiplateforme et l'optimisation au niveau des opérateurs via des compilateurs et Runtimes comme ONNX Runtime, TensorRT, TVM, OpenVINO.
- Construire une couche unifiée de cluster d'inférence en ligne et d'ordonnancement du trafic à l'aide de Kubernetes, Ray, Service Mesh et de passerelles API.
- Architecture de déploiement et routage des modèles :
- Modèles
- Frameworks de Serving et services d'inférence :
- vLLM, TGI (Text Generation Inference), Triton Inference Server.
- Ray Serve, KServe, TorchServe, SageMaker Endpoint, Vertex AI Endpoint, etc.
- Clusters et ordonnancement :
- Kubernetes (K8s), Kubeflow, Ray, Slurm.
- Service Mesh : Istio / Linkerd (prise en charge de la gouvernance du trafic : canary, limitation de débit, disjoncteur, fallback, etc.).
- Passerelles API et authentification :
- Kong, NGINX / APISIX / Envoy.
- IAM / Keycloak / Auth0, API Gateway des fournisseurs cloud, OAuth2 / OIDC, etc.
- Compression de modèles et bibliothèques de performance :
- Quantification : NVIDIA TensorRT‑LLM / TensorRT, Intel Neural Compressor, OpenVINO (PTQ / QAT), BitsAndBytes, GPTQ, AWQ, AutoGPTQ.
- Élagage / Sparsité : PyTorch Sparse, TensorFlow Model Optimization Toolkit, SparseML, Neural Magic.
- Distillation : schémas de référence comme DistilBERT / TinyBERT, ou pipeline de distillation basé sur Hugging Face Trainer + loss de distillation personnalisée.
- Moteurs d'inférence / Runtimes et optimisation de graphe :
- ONNX Runtime, TensorRT, OpenVINO Runtime, TVM, MNN, NCNN.
- Moteurs d'inférence dédiés aux grands modèles : Sglang, vLLM, FasterTransformer, TGI, LMDeploy, DeepSpeed‑Inference.
- Compilation et optimisation de graphe : TVM, XLA (JAX/TF), TensorRT Graph Optimizer, TorchDynamo / TorchInductor, MLIR, Glow, ONNX Graph Optimizer, Intel NNCF, etc.
- Matériel et support hétérogène :
- GPU : CUDA / cuDNN / cuBLAS, ROCm (AMD).
- CPU : oneDNN (MKL‑DNN), OpenBLAS, Eigen.
- NPU / Accélérateurs dédiés : SDK Ascend CANN, Habana Gaudi, Graphcore IPU, etc.
- Frameworks de Serving et services d'inférence :
Côté produit, cette couche apparaît souvent sous la forme de plateforme IA interne d'entreprise / bus de services de modèles, API cloud publiques, passerelle d'inférence unifiée, cluster d'inférence en ligne à fort QPS , plateforme de traitement par lots à bas coût et solutions d'optimisation du taux d'utilisation de la puissance de calcul. Elle constitue le « système d'exploitation » d'exécution qui soutient le déploiement à grande échelle des capacités des grands modèles.
11.2.1 Architecture de déploiement et routage des modèles : du modèle unique à la grille de services multi-modèles
Dans les premières phases d'expérimentation, de nombreuses équipes choisissent un modèle unique « large et complet » comme point d'entrée unique pour fournir le service : toutes les requêtes sont traitées par le même modèle. Ce mode offre une architecture simple et un faible coût de maintenance, adapté aux POC et aux scénarios à faible trafic. Mais à mesure que l'activité s'étend et que la pression sur les coûts augmente, les lacunes de l'architecture mono-modèle apparaissent rapidement :
- Les exigences en matière de latence / coût / qualité varient selon les tâches — utiliser le même grand modèle pour toutes les requêtes entraîne un gaspillage de puissance de calcul.
- Différents secteurs et clients nécessitent des capacités différenciées, par exemple des modèles sectoriels spécifiques, des pondérations de fine-tuning exclusives au client — difficiles à gérer de manière unifiée en mode « modèle unique ».
- Les scénarios de déploiement canary, de tests A/B, de reprise après sinistre inter-régionale exigent une flexibilité d'ordonnancement entre plusieurs versions de modèles.
Par conséquent, un système de service de grands modèles mature évolue généralement vers une architecture de service multi-modèles avec routage intelligent :
- Pool multi-modèles et catalogue de modèles : maintenir simultanément des modèles de tailles variées (small / base / large / ultra), de spécialités diverses (généraliste / code / multimodal / sectoriel) et de versions multiples (v1 / v1.1 / personnalisé client, etc.), avec enregistrement et gestion unifiés dans la couche de service.
- Stratégies de routage :
- Routage par règles : sélection explicite basée sur les paramètres de la requête (type de tâche, niveau d'utilisateur, préférence latence / coût, etc.) et les règles métier (utilisation obligatoire d'un modèle spécifique pour un secteur ou une région donnée).
- Sélecteur de modèle ( Meta ‑model) : utiliser un modèle léger pour choisir automatiquement le modèle optimal (par exemple, petit modèle rapide vs. grand modèle lent) en fonction du contenu d'entrée, de l'historique des performances et des indicateurs en temps réel.
- Routage A/B / Bandit : mener des expériences en ligne entre anciens et nouveaux modèles ou différentes configurations, et converger automatiquement vers la meilleure solution selon le CTR, la satisfaction utilisateur, le taux de réussite des tâches, etc.
- Isolation multi-locataires et gestion des quotas :
- Superposer au routage des modèles un contrôle des quotas par locataire, des limites de QPS, une authentification d'accès et une classification SLA, pour garantir l'isolation des ressources et des données entre les différents clients.
- Utiliser l'isolation logique + l'isolation physique (cluster dédié ou nœuds dédiés) pour les scénarios de haute conformité comme la finance, la santé ou l'administration publique.
- Élasticité et haute disponibilité :
- Mise à l'échelle automatique selon le trafic via Kubernetes HPA / VPA, Cluster Autoscaler.
- Garantir la stabilité du service par le déploiement multi-réplicas, l'équilibrage de charge, les déploiements canary, les déploiements blue-green et la reprise après sinistre multi-régionale.
Techniquement, on adopte généralement une combinaison de Kubernetes + Service Mesh (Istio / Linkerd) + passerelle API (Kong / APISIX / Envoy ) + frameworks de service de modèles (vLLM / TGI / Triton / Ray Serve / KServe) , formant ainsi une plateforme d'inférence en grille de services prenant en charge à la fois les modèles multiples, les locataires multiples, la gouvernance du trafic et les déploiements canary.
11.2.2 Optimisation des performances d'inférence et accélération matérielle : réduire au minimum le « coût par inférence »
Dans les scénarios de commercialisation à grande échelle des grands modèles, le coût d'inférence est souvent l'une des dépenses continues les plus importantes. Comment compresser le coût unitaire par requête (Cost per Request / per Token) et la latence de bout en bout dans une fourchette acceptable tout en garantissant l'expérience utilisateur constitue le défi technique central de la couche de déploiement.
Du côté modèle, les méthodes courantes incluent :
- Quantification (Quantization) En compressant les poids et les activations de FP16 / BF16 vers des formats basse précision comme INT8 / INT4 / NF4, on réduit significativement l'occupation de la mémoire vidéo et les frais de bande passante.
- Quantification post-entraînement (PTQ) : comme GPTQ, AWQ, BitsAndBytes, etc., pour quantifier hors ligne un modèle existant.
- Quantification consciente de l'entraînement (QAT) : prendre en compte l'erreur de quantification pendant la phase d'entraînement / fine-tuning pour améliorer la précision après quantification.
- Élagage et sparsification ( Pruning & Sparsity) Supprimer les poids ou canaux non importants par élagage structuré / non structuré pour rendre le modèle sparse, et combiner avec des opérateurs sparses adaptés au matériel (comme l'accélération matricielle sparse NVIDIA) pour améliorer la vitesse d'inférence.
- Distillation (Distillation) Utiliser un grand modèle comme enseignant pour distiller les connaissances vers un modèle étudiant plus petit ou un modèle spécifique à une tâche, réduisant considérablement le nombre de paramètres tout en maintenant des performances proches — adapté aux services en ligne extrêmement sensibles à la latence ou au déploiement en périphérie.
Du côté système et Runtime, les points d'optimisation clés incluent :
- KV Cache et optimisation des longs contextes : Mettre en cache les clés-valeurs d'attention des tokens historiques pendant la génération autorégressive pour éviter les calculs redondants, améliorant ainsi l'efficacité des longues conversations et des requêtes multi-tours ; combiner avec le calcul par blocs et les stratégies d'élagage dynamique pour contrôler l'occupation de la mémoire vidéo.
- Batching et génération parallèle : Améliorer le débit global sans augmenter significativement la latence P95 grâce au batching dynamique des requêtes, à l'ordonnancement par groupes et à la génération parallèle de tokens ; combiner avec la sortie en streaming (Streaming) pour améliorer l'expérience interactive frontale.
- Optimisation des opérateurs et des graphes : Utiliser des compilateurs et Runtimes (comme TensorRT, TVM, ONNX Runtime, TorchInductor) pour la fusion d'opérateurs, l'optimisation de la disposition mémoire, la compilation de graphes statiques, afin de réduire les frais de lancement de kernels et d'accès mémoire.
- Ordonnancement sur matériel hétérogène : Répartir raisonnablement les tâches entre les ressources hétérogènes GPU, CPU, NPU, FPGA selon leurs caractéristiques de calcul et exigences de latence :
- Les requêtes de dialogue / recherche extrêmement sensibles à la latence et à forte concurrence sont prioritairement ordonnancées sur GPU / NPU.
- Les tâches de génération par lots, d'évaluation hors ligne, de rejeu de logs peuvent être ordonnancées sur CPU ou GPU / NPU à bas coût.
En termes d'outils et de frameworks, TensorRT‑LLM, SgLang, vLLM, FasterTransformer, LMDeploy, DeepSpeed‑Inference et d'autres ont déjà formé un écosystème d'accélération d'inférence pour grands modèles relativement mature. Côté métier, ces optimisations se traduisent finalement par : des clusters d'inférence en ligne à fort QPS et faible latence , des plateformes de génération par lots à bas coût, des solutions d'optimisation du taux d'utilisation de la puissance de calcul et des systèmes de facturation et de comptabilité MaaS / API.## 11.3 Opérations de données et de modèles (Data / Model Ops)
Une fois qu’un grand modèle entre en production, il n’est plus un actif statique « livré une fois pour toutes », mais un système dynamique qui doit être itéré en continu sur cinq dimensions : données, modèle, configuration, version et expérimentation. La couche Data / Model Ops est le paradigme d’ingénierie construit autour de cette réalité : de la boucle de rétroaction des données (data flywheel) à la gestion du cycle de vie des modèles, en passant par l’expérimentation en ligne et le déploiement automatisé, elle fournit les fondations pour une amélioration durable et une évolution maîtrisée des capacités des modèles.
Cette couche connecte d’un côté les lacs de données / entrepôts de données, les systèmes de journalisation et de collecte, et de l’autre les plateformes d’entraînement, les systèmes d’évaluation et les passerelles de services en ligne. Elle constitue le pivot qui boucle la chaîne « données – modèle – retours métier ».
- Scénarios
- Plateforme intégrée de données d’entreprise (Data Middle Platform) + entraînement de modèles : connecte l’ensemble du pipeline, de la collecte, du nettoyage, de l’annotation et de la gestion des données jusqu’à l’entraînement et au fine-tuning, afin de soutenir l’itération continue de multiples modèles.
- Mécanisme d’amélioration continue des performances pour les applications IA B2C / B2B : s’appuie sur les retours utilisateurs et les données d’usage pour alimenter la boucle de rétroaction (data flywheel).
- Plateforme de gestion et d’annotation des données partagée entre les équipes d’annotation et les équipes algorithmiques : prend en charge l’attribution des tâches, le contrôle qualité et le versionnement des données.
- Plateforme ModelOps au niveau du groupe : enregistre et gère de manière unifiée toutes les versions de modèles, les résultats d’évaluation et les statuts de déploiement.
- Système d’expérimentation en ligne et de déploiement progressif (canary release) : prend en charge les tests A/B, les essais à faible trafic de plusieurs modèles et l’augmentation automatique du trafic vers la meilleure variante.
- Service d’hébergement de modèles : offre aux partenaires / clients une capacité de gestion de modèles de type « upload unique, déploiement multi-environnement, gestion multi-versions ».
- Principes
- Gestion des données et data flywheel :
- Collecte et gouvernance des données : collecte d’échantillons à partir des logs métier, des conversations utilisateurs, des données publiques et des données partenaires, avec déduplication, réduction du bruit, anonymisation, normalisation des formats et évaluation de la qualité.
- Annotation et boucle de rétroaction : constitution de données d’annotation de haute qualité en combinant annotation experte et crowdsourcing, avec des mécanismes de contrôle qualité ; réinjection dans le corpus d’entraînement des retours utilisateurs tels que les likes / dislikes, les corrections et les revues manuelles.
- Data Flywheel (boucle de rétroaction des données) : après la mise en ligne du modèle, collecte continue des données d’utilisation réelles → sélection des échantillons à haute valeur ajoutée (ex. : erreurs du modèle, faible confiance, tâches à fort rendement) → réentraînement ou fine-tuning → amélioration des performances du modèle → nouveau cycle d’utilisation, formant ainsi une boucle de rétroaction positive.
- Cycle de vie et déploiement des modèles :
- Gestion des versions de modèles : maintenance pour chaque modèle d’un numéro de version clair (versions majeure/mineure), de la version des données d’entraînement, des paramètres de configuration, des résultats d’évaluation, des rapports de sécurité et de l’historique des modifications.
- CI/CD et pipelines automatisés : après l’entraînement, déclenchement automatique de l’évaluation et des contrôles de sécurité ; le déploiement progressif (canary) et le déploiement complet ne sont autorisés que si les indicateurs clés ne se dégradent pas excessivement, après validation par des tests de régression et des seuils de qualité.
- Expérimentation et répartition du trafic : utilisation de méthodes d’expérimentation en ligne telles que les tests A/B et les bandits multi-bras pour comparer plusieurs versions de modèles, et sélection automatique de la meilleure variante selon les indicateurs métier en temps réel (ex. : taux de réussite des tâches, taux de résolution des tickets, satisfaction utilisateur).
- Gestion des données et data flywheel :
- Modèles
- Lacs de données et entrepôts de données :
- Delta Lake, Apache Hudi, Iceberg, Hive, BigQuery, Snowflake, etc., pour le stockage et la gestion unifiés de données structurées et non structurées à grande échelle.
- Traitement de données en streaming :
- Kafka, Pulsar, Flink, Spark Streaming, etc., pour l’ingestion en temps réel des logs, des conversations utilisateurs et des flux d’événements.
- Gestion des features et des échantillons :
- Feature Store comme Feast, entrepôts d’échantillons maison, ML Metadata Store, pour l’enregistrement des échantillons, des features et des métadonnées d’entraînement.
- Plateformes d’annotation et de contrôle qualité :
- Label Studio, plateformes de type Scale, systèmes d’annotation maison, prenant en charge l’annotation multi-tâches, le contrôle qualité et la gestion des annotateurs.
- Plateformes MLOps / ModelOps :
- MLflow, Kubeflow, SageMaker, Vertex AI, Azure ML, Weights & Biases, etc., pour la gestion des expériences d’entraînement, des paramètres, des métriques et des artefacts de modèles.
- Registres et gestion des versions de modèles :
- MLflow Model Registry, SageMaker Model Registry, W&B Artifacts, etc.
- Outils CI/CD :
- GitHub Actions, GitLab CI, Jenkins, Argo CD, Flux, etc., pour la construction de pipelines de livraison continue des modèles.
- Lacs de données et entrepôts de données :
11.3.1 Data flywheel et boucle d’entraînement fermée : rendre le modèle « de plus en plus intelligent à l’usage »
Dans le développement logiciel traditionnel, les montées de version sont souvent pilotées par les plans de développement ; à l’ère des grands modèles, ce sont les données et les retours qui deviennent le principal moteur de l’itération. L’objectif du data flywheel est de transformer « utilisation du modèle → accumulation de données → réentraînement → mise à niveau du modèle » en une boucle fermée automatique, afin que le modèle devienne de plus en plus performant à mesure qu’il est utilisé dans un contexte métier réel.
Les maillons clés incluent :
- Collecte et filtrage des données en ligne Dans les applications telles que les chatbots, les Copilot, la recherche question-réponse, les assistants de code, etc., chaque interaction utilisateur est un échantillon d’entraînement potentiellement à haute valeur ajoutée. Grâce aux systèmes de journalisation et au suivi des événements, les requêtes, les réponses du modèle et les comportements utilisateurs (clics, adoption ou non) sont collectés de manière structurée, avec une anonymisation et un élagage des champs effectués dès la collecte, afin de ne pas introduire de risques de conformité supplémentaires.
- Extraction d’échantillons à haute valeur ajoutée Parmi la masse de logs, on sélectionne une petite fraction d’échantillons les plus précieux pour l’entraînement, par exemple :
- Les réponses manifestement erronées ou ayant reçu un dislike de l’utilisateur, destinées à un réentraînement de type « correctif ».
- Les échantillons de questions longues et difficiles ou de tâches à flux de travail complexe, pour améliorer la capacité du modèle en « raisonnement longue chaîne / appels d’outils multi-étapes ».
- Les cas métier typiques et les tickets à haute valeur, pour construire des capacités spécifiques à un secteur ou à une entreprise.
- Annotation et contrôle qualité Annotation manuelle ou semi-automatique des échantillons candidats (incluant la réponse attendue, le classement par qualité, les étiquettes de sécurité, etc.), avec plusieurs cycles de contrôle qualité, de revérification et d’échantillonnage pour garantir la qualité des annotations, fournissant ainsi des données fiables pour les étapes ultérieures de SFT ou RLHF.
- Réentraînement continu et mise en ligne après évaluation Ajout périodique de nouveaux échantillons au corpus d’entraînement, réalisation d’opérations de réentraînement telles que SFT / DAPT / RLHF, et évaluation simultanée des « métriques hors ligne + performances en ligne » via des benchmarks standard et des expérimentations A/B en ligne, afin de garantir que la nouvelle version est globalement supérieure à l’ancienne et éviter que le data flywheel ne « dévie dans la mauvaise direction ».
Dans une forme mature, la grande majorité des opérations du data flywheel est encapsulée de manière automatisée dans la plateforme Data / Model Ops : de la collecte des données, la sélection des échantillons, la distribution des tâches d’annotation, jusqu’au déclenchement du réentraînement, la collecte des résultats d’évaluation et la décision de mise en ligne, en réduisant au maximum les opérations manuelles, afin de faire de l’itération des modèles un processus d’ingénierie stable et maîtrisable.
11.3.2 Cycle de vie des modèles et ModelOps : du modèle expérimental à l’actif de production
Avec la croissance exponentielle du nombre de modèles et de versions, l’absence d’une gestion rigoureuse du cycle de vie conduit facilement à des problèmes tels que « des modèles dispersés partout, des versions confuses, des retours arrière difficiles ». L’objectif du ModelOps est de gérer les modèles comme des actifs d’ingénierie de premier ordre, entièrement traçables, comparables et réversibles.
Les points clés incluent :
- Versionnement et gestion des métadonnées Attribution à chaque modèle d’un numéro de version explicite (ex. :
industry-legal-base-v1.2.3), avec l’enregistrement :- de la version et de la plage temporelle des données d’entraînement ;
- de la configuration d’entraînement (hyperparamètres, version du script d’entraînement, commit de code utilisé) ;
- des métriques d’évaluation (benchmarks généraux + benchmarks spécifiques au métier) ;
- de l’évaluation de sécurité et de la stratégie d’alignement (ex. : version de la politique de réponse aux sujets sensibles) ;
- de l’historique des mises en ligne / retraits / retours arrière.
- Pipeline automatisé de bout en bout (CI/CD pour les modèles) Encapsulation du flux « entraînement terminé → évaluation automatique → contrôle de sécurité et de biais → déploiement progressif (canary) → déploiement complet » dans un pipeline CI/CD.
- Si les métriques d’évaluation hors ligne n’atteignent pas le seuil prédéfini, la mise en ligne est automatiquement bloquée.
- Si les performances de l’expérimentation A/B en ligne sont insatisfaisantes, le trafic est automatiquement réduit ou un retour à la version précédente est effectué.
- Coexistence multi-versions et répartition du trafic En production, plusieurs versions de modèles coexistent souvent simultanément (ex. :
stable/canary/experimental), et sont comparées en ligne via des stratégies de répartition du trafic (proportion fixe, dimension utilisateur, dimension de caractéristiques).- Les tests A/B se concentrent davantage sur l’obtention de conclusions statistiques stables ;
- Les bandits multi-bras (Multi-armed Bandit) réalisent automatiquement un compromis entre exploration et exploitation, convergeant plus rapidement vers la version la plus performante.
- Support de la conformité et de l’audit Pour les secteurs tels que la finance, la santé et l’administration publique, il est nécessaire de conserver un enregistrement traçable de chaque changement de version de modèle : qui, quand, sur la base de quelles données, est passé de quelle version à quelle version, et quelle a été l’évaluation d’impact après la mise à niveau. Cette partie est généralement reliée à l’infrastructure de sécurité et de conformité décrite dans la section 11.5.
En termes d’implémentation technique, des outils comme MLflow / SageMaker / Vertex AI / W&B offrent déjà des capacités ModelOps relativement matures. La plupart des entreprises construisent par-dessus ces outils une encapsulation secondaire adaptée à leurs propres processus, afin de bâtir un centre d’enregistrement et une plateforme de déploiement de modèles internes unifiés.## 11.4 Surveillance, coûts et fiabilité (Monitoring, Cost & Reliability)
Lorsque les grands modèles de langage deviennent une infrastructure centrale de l'activité, garantir leur observabilité, leur capacité d'alerte, leur élasticité et la maîtrise de leurs coûts devient la responsabilité principale des équipes SRE et plateforme. La couche de surveillance, de coûts et de fiabilité combine les systèmes d'observabilité traditionnels avec les indicateurs spécifiques aux LLM, afin de construire une vue multidimensionnelle destinée aux opérations, aux algorithmes et à la direction.
Cette couche relie d'un côté les systèmes de collecte de métriques, de logs et de tracing distribué, et de l'autre les KPI métier et les plateformes d'analyse des coûts. Elle constitue le pilier essentiel pour garantir que les services de modèles soient « stables, rapides et économiques ».
- Scénarios
- Tableaux de bord de supervision opérationnelle pour les équipes Ops / SRE : affichage unifié de l'utilisation CPU / GPU, QPS, latence, taux d'erreur, alertes, etc.
- Plateforme de surveillance de la qualité des données et des modèles pour les équipes algorithmiques : surveillance de la distribution des données d'entrée, de la dérive des modèles, de l'efficacité du prompt engineering et du taux de réussite RAG.
- Tableau de bord de santé des services pour la direction : affichage conjoint des KPI métier (taux de conversion, satisfaction, taux de complétion des tâches) et des indicateurs des modèles.
- Plateforme d'analyse et d'optimisation des coûts IA : décomposition des coûts de calcul par modèle, projet et ligne de métier, avec gestion budgétaire et stratégies d'optimisation des coûts.
- Système de planification intelligente et d'élasticité : mise à l'échelle automatique ou basculement entre spécifications de modèles en fonction de la charge et du budget.
- Système de facturation et de comptabilité analytique pour les services MaaS / API externes : prise en charge de la facturation par volume d'appels, nombre de tokens, utilisation de calcul, etc.
- Principes
- Surveillance et observabilité :
- Surveillance multi-niveaux : de la couche infrastructure (CPU / GPU / mémoire / réseau / stockage) à la couche service (QPS, latence P50 / P95 / P99, taux d'erreur, ratio de timeouts et de retries), puis à la couche modèle (consommation de tokens, distribution de la longueur du contexte, longueur des réponses, types d'erreurs fréquents).
- Logs et tracing distribué : enregistrement structuré des requêtes / réponses (après désensibilisation), avec version du modèle, décision de routage et informations du locataire ; utilisation d'outils de tracing distribué pour tracer le chemin complet d'une requête depuis la passerelle API → service de modèle → systèmes aval.
- Alerte et analyse : mise en place d'alertes par seuil, de détection d'anomalies et d'analyses de tendances, reliées aux indicateurs métier, aux coûts et aux événements de sécurité pour une localisation et une récupération rapides.
- Contrôle des coûts et planification élastique :
- Analyse des coûts : décomposition des coûts GPU / CPU / stockage / bande passante par modèle, projet et ligne de métier, avec calcul du coût moyen par requête et du coût marginal par tâche / client.
- Planification élastique : stratégie de répartition heures pleines / heures creuses, avec mise à l'échelle automatique en période de pointe et réduction automatique en période creuse ; décalage des tâches batch hors ligne vers la nuit ou les périodes de faible charge.
- Dégradation stratégique et accélération à la demande : basculement automatique vers des modèles plus petits, des contextes plus courts ou des configurations d'inférence plus conservatrices en cas de tension sur les ressources ; utilisation automatique de modèles plus grands ou de contextes plus longs pour les requêtes à forte valeur.
- Surveillance et observabilité :
- Modèles
- Surveillance et visualisation :
- Prometheus + Grafana, VictoriaMetrics, Thanos et autres solutions de collecte et de visualisation de métriques.
- Systèmes de logs :
- ELK (Elasticsearch + Logstash + Kibana), EFK (Fluentd / Fluent Bit), OpenSearch, etc.
- Tracing distribué :
- OpenTelemetry, Jaeger, Zipkin, etc.
- Surveillance spécifique aux modèles :
- WhyLabs, Arize AI, Fiddler, Evidently AI, etc., pour la surveillance de la dérive des données / modèles et l'évaluation de la qualité des sorties.
- Statistiques et répartition des coûts :
- K8s Metrics / Cost Exporter, Kubecost, ainsi que les outils de gestion des coûts des fournisseurs cloud (AWS Cost Explorer / GCP Billing / Azure Cost Management).
- Planification des ressources et élasticité :
- K8s HPA / VPA, Cluster Autoscaler, Volcano, Ray Cluster Autoscaler.
- Orchestration des tâches :
- Argo Workflows, Airflow, Prefect, Dagster, etc.
- Surveillance et visualisation :
11.4.1 Surveillance et observabilité : de l'infrastructure au comportement du modèle
Dans les systèmes à base de grands modèles de langage, les indicateurs traditionnels de CPU / mémoire / QPS ne suffisent plus. Il est nécessaire d'ajouter une couche de surveillance « orientée modèle » pour avoir une vision claire de l'état de santé du système. Un système d'observabilité complet comprend généralement :
- Surveillance de l'infrastructure et de la couche service Via Prometheus / Grafana, VictoriaMetrics, etc., pour collecter et visualiser :
- Utilisation CPU, GPU, mémoire, disque et réseau au niveau nœud / Pod ;
- QPS, latence P50 / P95 / P99, taux d'erreur, ratio de timeouts et de retries, nombre de connexions au niveau service ;
- Taux d'utilisation des ressources et alertes de capacité au niveau cluster.
- Surveillance des indicateurs de la couche modèle Pour les services de LLM, en plus des indicateurs de performance classiques, une surveillance dédiée est nécessaire :
- Consommation de tokens par requête (entrée / sortie), distribution de la longueur du contexte ;
- Longueur des réponses et proportion de troncatures, afin d'identifier les problèmes de qualité liés aux limites de contexte ou de longueur de sortie ;
- Statistiques des types d'erreurs fréquents (entrée trop longue, timeout du modèle, échec d'appel d'outil, etc.).
- Logs et tracing distribué
- Utilisation de logs structurés pour enregistrer les paramètres de requête (après désensibilisation), la version du modèle, la décision de routage, l'identifiant du locataire, le code de retour, etc.
- Utilisation d'OpenTelemetry, Jaeger, Zipkin, etc., pour tracer le parcours complet d'une requête à travers la passerelle API → service de modèle → systèmes aval → chaîne de rappels, afin de localiser les goulots d'étranglement de latence et les points de défaillance.
- Détection d'anomalies et alertes intelligentes Au-delà des alertes par seuil traditionnelles, il est possible d'introduire une surveillance statistique simple ou des modèles de machine learning pour détecter les anomalies sur le QPS, la latence, le taux d'erreur, la distribution des tokens, etc. En cas de changement brusque, une alerte est automatiquement déclenchée, couplée à des stratégies d'auto-réparation (mise à l'échelle automatique, basculement de trafic, dégradation de service).
Pour les équipes algorithmiques, il est également possible d'intégrer à cette couche des outils comme WhyLabs, Arize, Evidently AI, etc., afin de suivre à long terme la distribution des entrées, les caractéristiques des sorties du modèle et les phénomènes de dérive, fournissant ainsi des signaux pour le data flywheel et le réentraînement ultérieur.
11.4.2 Analyse des coûts et planification élastique : trouver l'équilibre entre « expérience » et « budget »
L'un des défis opérationnels les plus marquants des services de LLM est le coût élevé et sa forte volatilité. Sans une analyse fine des coûts et une planification élastique, il est facile de ne pas voir « où l'argent brûle » lorsque l'activité croît, et difficile de réagir rapidement. Un système mature de gestion des coûts et de planification des ressources comprend généralement :
- Attribution et répartition des coûts À l'aide de Kubecost, des outils de facturation des fournisseurs cloud et de registres internes, décomposer les coûts GPU / CPU / stockage / bande passante par modèle, projet, ligne de métier, locataire, etc., afin que chaque équipe et chaque client puisse voir sa consommation réelle de ressources et les frais correspondants.
- Analyse du coût unitaire par requête et du coût marginal
- Calculer le coût moyen par requête pour chaque modèle / tâche (coût par millier de tokens / par requête), et comparer le rapport qualité-prix entre différents modèles et configurations.
- Analyser le coût marginal pour différents clients et scénarios métier, afin d'éclairer la stratégie de tarification (facturation API), la classification des SLA et le packaging des produits.
- Élasticité et utilisation heures pleines / heures creuses
- Utiliser des mécanismes comme K8s HPA / VPA, Cluster Autoscaler, Ray Autoscaler pour réaliser une mise à l'échelle automatique, garantissant l'absence de saturation en période de pointe et l'absence de ressources inutilisées en période creuse.
- Planifier les tâches hors ligne (génération de contenu par lots, rejeu de logs, évaluation hors ligne) pendant la nuit ou les heures creuses, afin d'améliorer l'utilisation globale du GPU et de lisser la courbe des coûts.
- Dégradation stratégique et accélération à la demande
- Déclencher automatiquement des stratégies de dégradation en cas de tension sur les ressources ou de dépassement budgétaire : utiliser un modèle plus petit, raccourcir le contexte ou la sortie, réduire le parallélisme.
- Pour les requêtes à forte valeur (utilisateurs payants de niveau supérieur, processus métier critiques), utiliser automatiquement un modèle plus grand, un contexte plus long ou des capacités d'appel d'outils plus riches, afin de réaliser une « allocation de calcul basée sur la valeur ».
Dans les scénarios d'API externes, cette couche est également étroitement intégrée au système de facturation, formant une plateforme de facturation et de comptabilité analytique MaaS / API : facturation basée sur la consommation de tokens, le nombre d'appels, la spécification du modèle et le type de requête, avec une analyse des coûts et des marges pour les équipes opérationnelles et commerciales.## 11.5 Infrastructure de sécurité, de contrôle d'accès et de conformité (Security, Access Control & Compliance Infra)
Lorsque les capacités des grands modèles de langage pénètrent des secteurs hautement sensibles tels que la finance, la santé et les services gouvernementaux, la sécurité et la conformité ne sont plus une « valeur ajoutée », mais un prérequis indispensable pour entrer dans ces scénarios. La couche d'infrastructure de sécurité, de contrôle d'accès et de conformité est chargée de construire des lignes de défense au niveau système, couvrant le contrôle d'accès, la sécurité des données, la protection de la vie privée et l'audit de conformité, afin de garantir que les services de modèles fonctionnent de manière fiable dans le cadre légal et réglementaire.
Cette couche relie d'un côté les systèmes d'authentification, de gestion des permissions, de clés et de chiffrement, et de l'autre côté les services de modèles ainsi que les plateformes de journalisation et d'audit. C'est l'élément clé qui transforme un « modèle utilisable » en un « modèle utilisable en toute confiance ».
- Scénarios
- Plateformes de grands modèles localisées pour les secteurs à haute conformité (finance / santé / services gouvernementaux) : exigent que les données restent dans le domaine, soient auditables et traçables.
- Passerelle unifiée de contrôle d'accès et d'audit IA pour l'entreprise : authentification unifiée, gestion des permissions et enregistrement d'audit pour tous les appels de modèles.
- Plateformes SaaS / cloud multi-locataires : nécessitent une isolation de sécurité stricte et un support de conformité pour différents clients, tant au niveau logique que physique.
- Interfaces ouvertes orientées partenaires / écosystème : exigent un contrôle fin des permissions et des limites de quota sur les appels API, tout en satisfaisant aux exigences de conformité (comme le RGPD).
- Principes
- Contrôle d'accès et isolation des locataires :
- Utilisation d'API Key / Token / OAuth / SSO pour l'authentification.
- Gestion fine des permissions via RBAC (contrôle d'accès basé sur les rôles) et ABAC (contrôle d'accès basé sur les attributs) dans des dimensions telles que le modèle, la fonctionnalité, la fréquence d'appel et la portée des données.
- Dans les environnements multi-locataires, mise en œuvre de l'isolation des données, journaux, configurations et poids de modèles pour empêcher les accès inter-locataires et les fuites d'informations.
- Sécurité des données et protection de la vie privée :
- Utilisation du chiffrement TLS pour le transport, du chiffrement au repos et de la gestion centralisée des clés (KMS) pour sécuriser les données pendant le transport et le stockage.
- Mise en œuvre de stratégies de masquage des journaux et de minimisation des données, en ne conservant que les informations nécessaires au fonctionnement et à l'optimisation, avec audit des comportements d'accès.
- Dans les scénarios nécessaires, introduction de techniques d'amélioration de la confidentialité (telles que l'anonymisation des données, la confidentialité différentielle, l'apprentissage fédéré) pour réduire davantage les risques liés à la vie privée.
- Conformité et audit :
- Traçabilité complète et approbation pour les opérations critiques telles que la publication de modèles, les changements de configuration, les modifications de permissions et les ajustements de stratégie de routage.
- Enregistrement de métadonnées traçables pour chaque requête : source de la requête, version du modèle, base de décision (par exemple, base de connaissances utilisée / appels d'outils).
- Garantie que la conception et le fonctionnement du système sont conformes aux exigences réglementaires des secteurs de la finance, de la santé et des services gouvernementaux, ainsi qu'aux normes de conformité des données locales et transfrontalières.
- Contrôle d'accès et isolation des locataires :
- Modèles
- Authentification et gestion des permissions :
- Keycloak, Auth0, Okta, IAM des fournisseurs cloud (AWS IAM / GCP IAM / Azure AD).
- Moteurs de politiques comme OPA (Open Policy Agent) + Rego Policy, pour la gestion et l'exécution unifiées des politiques.
- Passerelle de sécurité API :
- Kong, Apigee, Envoy, API Gateway des fournisseurs cloud, etc.
- Sécurité des données et des clés :
- KMS (Key Management Service), HashiCorp Vault.
- Terminaison TLS, informatique confidentielle (Confidential Computing), etc.
- Authentification et gestion des permissions :
11.5.1 Contrôle d'accès et isolation des locataires : garantir « qui peut utiliser, ce qu'il peut utiliser, combien il peut utiliser »
Dans une plateforme de grands modèles partagée entre plusieurs lignes métier, clients et rôles, l'absence de contrôle d'accès granulaire et d'isolation des locataires peut facilement entraîner des abus de permissions, des fuites de données et des conflits de ressources. Un système d'accès et d'isolation complet doit fonctionner en coordination sur les dimensions suivantes :
- Authentification et** authentification unique (SSO)** Via API Key / Token, OAuth2 / OIDC, SSO d'entreprise, etc., mettre en place une authentification unifiée pour les employés internes, les partenaires externes et les applications tierces. Pour les utilisateurs d'entreprise, s'intégrer aux systèmes d'identité existants (comme AD / LDAP / IAM d'entreprise) pour éviter la duplication des systèmes de comptes.
- Contrôle fin des permissions ( RBAC** / ** ABAC )
- RBAC : configurer pour les administrateurs, ingénieurs algorithmiques, opérateurs métier, utilisateurs ordinaires, partenaires, etc., les modèles accessibles, les environnements (test / production), les opérations (appel / configuration / publication) et les quotas correspondant à chaque rôle.
- ABAC : sur la base des rôles, introduire des attributs tels que l'ID de locataire, l'ID de projet, le domaine de données, la plage horaire, pour réaliser des politiques plus flexibles (par exemple, « autoriser uniquement le locataire gouvernemental A à appeler le cluster de modèles localisés dans sa région »).
- Isolation multi-locataire et gestion des quotas
- Au niveau logique, isoler les appels, données et journaux des différents clients par l'ID de locataire ;
- Au niveau physique, fournir des clusters ou nœuds dédiés pour les clients à haute conformité (comme les banques / gouvernements), afin d'atteindre un niveau d'isolation supérieur ;
- Configurer les limites de QPS, le nombre de connexions simultanées et les quotas de tokens pour différents locataires, afin d'empêcher qu'« un locataire en surcharge ne paralyse l'ensemble ».
- Audit d'accès et évaluation des politiques
- Enregistrer les audits pour les opérations critiques (comme la création / suppression d'API Key, l'ajustement des permissions, la modification des quotas) ;
- Utiliser des moteurs de politiques comme OPA / Rego pour évaluer et interpréter de manière unifiée les politiques d'accès complexes avant leur exécution, réduisant ainsi le risque de « politiques dispersées dans le code ».
Grâce à ce mécanisme, la plateforme peut ouvrir les capacités des grands modèles aux utilisateurs internes et externes tout en garantissant la sécurité des ressources et des données, et fournir les données de base pour les audits de conformité et la traçabilité des responsabilités.
11.5.2 Sécurité des données, confidentialité et audit de conformité : rendre le modèle « à la fois performant et conforme »
Les grands modèles sont souvent exposés à une grande quantité de données sensibles (conversations utilisateurs, documents métier, enregistrements de transactions, etc.). En cas de problème de sécurité ou de conformité, les conséquences peuvent être extrêmement graves. Il est donc nécessaire de mettre en place une « défense multicouche » sur l'ensemble du cycle de vie des données et de la chaîne d'appel des modèles.
- Sécurité du transport et du stockage des données
- Activer uniformément le chiffrement TLS sur toutes les interfaces externes et internes pour empêcher l'écoute clandestine ou la falsification pendant le transport ;
- Utiliser le chiffrement au repos pour les données sensibles, en s'appuyant sur le KMS du fournisseur cloud ou auto-hébergé pour gérer le cycle de vie des clés ;
- Utiliser des outils comme Vault pour gérer de manière centralisée les clés et identifiants nécessaires à l'accès aux bases de données, au stockage objet et aux API tierces.
- Principe de minimisation et masquage
- Ne collecter que les champs de données nécessaires au fonctionnement métier, et supprimer autant que possible les informations personnelles identifiables (PII) et les champs sensibles des journaux et des échantillons d'entraînement ;
- Hacher ou anonymiser les identifiants qui doivent inévitablement être conservés, afin de réduire le risque de fuite ;
- Dans les scénarios RAG / base de connaissances, appliquer une hiérarchisation des permissions d'accès aux documents, pour garantir que le modèle ne récupère pas d'informations à partir de « documents qu'il ne devrait pas voir ».
- Techniques d'amélioration de la confidentialité et contraintes périphériques
- Dans les scénarios où il est nécessaire de partager le modèle sans partager les données brutes, introduire la confidentialité différentielle ou l'apprentissage fédéré, en conciliant confidentialité et performance ;
- Pour les scénarios gouvernementaux, financiers et médicaux, adopter le mode « les données ne sortent pas du domaine, le modèle descend ou est déployé localement », en déployant les capacités d'entraînement / inférence dans le domaine de conformité.
- Mécanismes de conformité et d'audit
- Mettre en place des flux d'approbation et de traçabilité pour les opérations telles que la publication de modèles, les changements de configuration et les ajustements de permissions, afin de faciliter la traçabilité a posteriori ;
- Enregistrer pour chaque requête les méta-informations telles que la version du modèle, l'appelant, la décision de routage et la portée d'accès aux données, permettant une relecture en cas de litige ou de besoin d'enquête ;
- Produire périodiquement des rapports de conformité (tels que les audits d'accès aux données, les enregistrements d'utilisation des permissions, les rapports d'événements anormaux), à interfacer avec les exigences de contrôle interne et de supervision externe.
Cette partie des capacités fonctionne en coordination avec les plateformes Data / Model Ops et de surveillance des sections 11.3 et 11.4, constituant ensemble un environnement d'exécution de modèles qui « permet à la fois l'itération continue et la sécurité et la conformité ».## 11.6 Applications de niveau supérieur et capacités de plateforme (Application Enablers)
Une fois l'infrastructure complète en place — de l'entraînement à l'inférence, en passant par la sécurité et l'exploitation —, il faut encore une « couche de capacités » orientée métier et développeurs, qui abstrait les grands modèles sous-jacents en composants et services plus faciles à utiliser et plus proches de la sémantique métier. Cette couche est souvent appelée plateforme IA (AI Middle Platform), couche d'activation applicative ou plateforme Copilot. Sa mission est de : encapsuler les LLM + RAG + Agent + Workflow en capacités standardisées, afin que les équipes métier et les partenaires de l'écosystème puissent rapidement construire des applications IA.
Cette couche relie d'un côté les API de modèles, les moteurs RAG et les orchestrateurs d'agents, et de l'autre les systèmes métier tels que CRM / ERP / OA / systèmes de tickets. Elle constitue le pont essentiel entre « les capacités des modèles » et « les scénarios métier ».
- Scénarios
- Plateforme IA d'entreprise / Copilot : fournir de manière unifiée des capacités intelligentes (dialogue, RAG, Agent, etc.) aux systèmes internes tels que CRM, ERP, OA, service client, marketing, R&D.
- Plateforme de développement d'applications pour développeurs et partenaires : permettre à des tiers de construire et déployer rapidement des applications IA via des SDK, des projets modèles et des outils d'orchestration visuelle.
- Backend IA pour produits SaaS sectoriels : comme les clouds de service client intelligent, de marketing, de collaboration bureautique, de gestion R&D, etc., en intégrant les capacités IA dans les gammes de produits existantes.
- Assistants pour scénarios verticaux : Copilot de code, assistant commercial, assistant opérationnel, assistant juridique, assistant médical, etc., en combinant rapidement des solutions scénarisées grâce aux capacités de la plateforme.
- Principes
- Capacités de dialogue et d'Agent :
- Gestion de session et mémoire : maintenir l'état des dialogues multi-tours et la mémoire à long terme, prendre en charge le changement de sujet, la compression de contexte et les profils personnalisés.
- Appel d'outils (Tool Use) et orchestration de workflows : connecter le modèle à des systèmes externes (bases de données, recherche, API métier, services tiers) via des appels de fonctions ou des mécanismes de plugins ; pour les tâches complexes, enchaîner les opérations multi-étapes à l'aide de Workflow / Orchestrator.
- Collaboration multi-Agent : décomposer les tâches complexes en différents rôles (par exemple, planificateur, exécutant, réviseur) pour réaliser la décomposition des tâches et l'agrégation des résultats de manière collaborative.
- RAG et base de connaissances :
- Analyse et prétraitement de documents : analyser, découper et structurer des documents PDF, Word, pages web, documents scannés, etc.
- Vectorisation et recherche : utiliser des modèles d'Embedding pour vectoriser le texte / les tableaux / le code, etc., et construire des index vectoriels ; combiner recherche par mots-clés et recherche vectorielle pour obtenir un rappel élevé.
- Recherche + Génération (RAG) et chaîne de preuves : lors de l'inférence, d'abord rechercher le contenu pertinent dans la base de connaissances, puis le LLM génère une réponse basée sur les résultats de recherche, et produit des citations et une chaîne de preuves, améliorant ainsi l'exactitude et l'explicabilité.
- Graphe de connaissances et fusion de connaissances structurées : combiner les graphes de connaissances de domaine, les tables de données métier, les systèmes de règles avec les LLM, pour améliorer la capacité à traiter les requêtes structurées et les contraintes complexes.
- Accès développeur et développement secondaire :
- SDK multilingues et conception d'API : fournir des SDK en Python / JS / Java / Go, etc., encapsulant les patterns d'appel, les tentatives de reprise et le traitement idempotent.
- Modèles et construction low-code / no-code : via des projets modèles prêts à l'emploi et des outils visuels de type « blocs de construction », permettre même aux développeurs non spécialistes de construire des RAG / Agent / Workflow.
- Plugins et middleware : fournir des plugins ou middlewares pour les systèmes métier courants (CRM / ERP / OA / systèmes de tickets, etc.), réduisant ainsi le coût d'intégration système.
- Capacités de dialogue et d'Agent :
- Modèles
- Frameworks de dialogue / Agent :
- LangChain, LlamaIndex, Haystack, Semantic Kernel, etc.
- Couche d'orchestration maison : inclut généralement un moteur de workflow, un routeur d'outils, un module de gestion de mémoire.
- RAG et recherche vectorielle :
- Bases de données vectorielles : FAISS, Milvus, Qdrant, Weaviate, Pinecone, etc.
- Analyse de documents : unstructured, Textract, pdfplumber, Apache Tika, etc.
- SDK / Couche d'accès :
- SDK officiels ou maison, bibliothèques de composants frontend (composants de chat, gestion de templates de prompts, vue d'historique de conversations).
- Middleware / plugins pour les systèmes métier (CRM / ERP / OA / tickets, etc.).
- Frameworks de dialogue / Agent :
11.6.1 Orchestration de dialogue et d'Agent : du « robot Q&A » au « collaborateur de tâches »
Comparés aux premiers robots de FAQ, les applications modernes pilotées par les grands modèles ressemblent davantage à des « collaborateurs intelligents sachant utiliser des outils ». L'objectif de l'orchestration de dialogue et d'Agent est de faire évoluer le LLM d'un « générateur de langage » vers un agent intelligent capable d'appeler des outils, d'exécuter des plans et de coordonner plusieurs rôles.
- Gestion de dialogue et mécanismes de mémoire
- Maintenir le contexte de dialogue, le profil utilisateur et la mémoire à long terme, afin de garantir la cohérence et la continuité à travers les échanges multi-tours ;
- Pour les dialogues très longs, utiliser des techniques de résumé ou de mémoire par recherche pour compresser, afin d'éviter le dépassement de la fenêtre de contexte ;
- Dans les applications d'entreprise, injecter les informations d'identité et de permissions dans le contexte de dialogue, afin que les réponses et les actions respectent les droits de l'utilisateur dans le système métier.
- Appel d'outils (Tool Use) et orchestration de workflows
- Fournir au modèle une liste structurée d'outils (par exemple « rechercher une commande », « créer un ticket », « interroger le stock », « appeler un moteur de recherche », etc.) et permettre au modèle de les invoquer activement via des interfaces d'appel de fonctions lorsque nécessaire ;
- Utiliser un Orchestrator pour coordonner la séquence, le flux de données et la gestion des erreurs des multiples appels d'outils, selon le plan proposé par le modèle ;
- Modéliser les processus métier complexes (tels que les flux d'approbation, les notes de frais, le traitement après-vente) sous forme de workflows, permettant à l'Agent de jouer le rôle de « coordinateur de processus ».
- Mode de collaboration multi-Agent
- Décomposer les tâches complexes en plusieurs rôles : par exemple « Agent planificateur de tâches », « Agent de recherche d'information », « Agent d'exécution », « Agent de contrôle qualité / audit » ;
- Réaliser la collaboration entre agents via des canaux de messages ou une mémoire partagée, améliorant ainsi la robustesse et l'explicabilité des tâches complexes ;
- Dans un environnement d'entreprise, intégrer également des rôles humains dans la boucle de collaboration, par exemple « Rédaction IA – Révision humaine – Modification IA – Exécution système ».
Cette couche s'appuie généralement sur des frameworks existants tels que LangChain, Semantic Kernel, LlamaIndex, combinés à un service d'orchestration maison, pour unifier le dialogue, les outils, les workflows, les permissions et l'audit au sein d'une même « plateforme d'Agent ».
11.6.2 RAG, base de connaissances et plateforme développeur : « brancher le savoir de l'entreprise au cerveau du modèle »
Aussi puissant soit-il, un LLM ne peut pas naturellement maîtriser les connaissances privées de chaque entreprise, ni connaître en temps réel les dernières politiques, produits et règles métier. RAG + base de connaissances + plateforme développeur constitue précisément le chemin clé pour intégrer ces connaissances d'entreprise, connaissances sectorielles et données en temps réel aux capacités du modèle de manière industrialisée.
- Analyse de documents et ingestion de connaissances
- Via des composants tels que unstructured, Textract, pdfplumber, Tika, analyser les PDF, documents Office, pages web et documents scannés en texte structuré ;
- Découper par chapitres, titres, blocs sémantiques, etc., pour fournir une granularité adaptée à la vectorisation et à la recherche ultérieures ;
- Pour les données tabulaires, bases de données métier, documents d'API et autres informations structurées, construire les mappings de schéma et les interfaces d'accès correspondants.
- Vectorisation, indexation et re-classement (reranking)
- Utiliser des modèles d'Embedding pour convertir le texte / code / contenu multimodal en vecteurs, et les stocker dans des bases vectorielles telles que FAISS, Milvus, Qdrant, Weaviate, Pinecone, etc. ;
- Conserver simultanément les index par mots-clés et les capacités de filtrage par métadonnées (par exemple, filtrer par tenant, département, type de document), pour composer un pipeline de haute précision « filtrage avant recherche + recherche sémantique + re-classement » ;
- Au moment de la requête, fournir les résultats de recherche avec la question originale au LLM, réalisant ainsi la « génération augmentée par recherche (RAG) », et retourner les citations et la chaîne de preuves.
- Templates d'application RAG et construction low-code
- Fournir des templates RAG prêts à l'emploi pour les scénarios courants (Q&A de connaissances, interprétation de politiques, documentation produit, assistant documentaire interne, etc.) ;
- Via une interface de configuration visuelle (sélection de la source de connaissances, définition des règles de découpage, choix du modèle de vecteurs et du LLM), construire rapidement un assistant de connaissances dédié ;
- Exposer ces capacités aux développeurs sous forme de SDK, permettant une intégration rapide dans le Web, le mobile, le desktop ou les plugins de systèmes métier.
- Plateforme développeur et intégration dans l'écosystème
- Fournir des SDK en Python / JS / Java / Go, ainsi que des composants frontend (bulles de chat, zone de citation de documents, boutons de feedback, etc.), pour abaisser la barrière d'intégration ;
- Fournir des plugins ou middlewares pour les principaux systèmes métier (CRM / ERP / OA / tickets), leur permettant d'accéder aux capacités IA en « cochant quelques options de configuration » ;
- Ouvrir la plateforme de développement d'applications à l'externe, pour que les partenaires de l'écosystème puissent construire leurs propres applications sectorielles sur la base des modèles fondamentaux, du RAG et des capacités d'Agent, créant ainsi un cercle vertueux « plateforme – écosystème – clients finaux ».
Cette couche encapsule finalement les capacités complexes des modèles et de l'infrastructure en « composants métier réutilisables et assemblables », aidant ainsi les entreprises à transformer réellement les LLM en outils de productivité qui stimulent l'innovation métier, avec une sécurité, une conformité et des coûts maîtrisés, à un seuil d'entrée plus bas et à une vitesse plus élevée.