Principes de synthèse et reconnaissance vocale

💡 Guide d'apprentissage : Ce chapitre vous plonge dans les principes fondamentaux de l'audio par IA. Nous n'explorerons pas seulement les termes acoustiques « ardus » (comme STFT, Flow Matching, embeddings de timbre), mais aussi, à travers des analogies accessibles et des démonstrations interactives intuitives, vous comprendrez parfaitement comment l'IA « comprend le langage humain » et « prend la parole ». Même si vous êtes un lecteur sans aucune base, vous pourrez facilement maîtriser ces concepts !

🎵

Choose a scenario to experience AI audio

💡TTS: text to speech, letting AI read any text aloud

🎯ASR: speech recognition, converting speech into text

🎭Voice cloning: copy a voice from only a few seconds of audio

0. Introduction : la « traduction numérique » des ondes sonores physiques

La voix humaine et les divers sons du monde sont essentiellement des ondes sonores physiques continues produites par la vibration de l'air. Mais le cerveau de l'ordinateur ne contient que des 0 et des 1, il n'entend pas le son. Ainsi, la première étape pour permettre à l'IA de traiter le son est de franchir le fossé entre le « monde physique » et le « monde numérique ».

Ce processus s'appelle la conversion analogique-numérique (conversion A/N), dont le résultat central est la forme d'onde PCM (Pulse Code Modulation), c'est-à-dire les données audio que nous connaissons. Elle est déterminée par deux indicateurs fondamentaux :

La fréquence d'échantillonnage (Sample Rate) : combien de « photos » de l'onde sonore sont prises en une seconde. Par exemple, 16 kHz signifie 16 000 valeurs d'amplitude enregistrées par seconde.
La profondeur de bits (Bit Depth) : la finesse de la « règle » de chaque photo. 16 bits signifie que l'amplitude est distinguée sur 65 536 niveaux.

Mais cela soulève un problème : 16 000 nombres par seconde, des centaines de milliers de nombres pour une phrase, une quantité d'informations énorme et redondante. Si l'on donnait directement cette longue forme d'onde unidimensionnelle à un réseau neuronal, ce serait comme demander à quelqu'un d'examiner la structure de chaque fil de laine d'un pull pour juger si le motif est beau — c'est évidemment un défi computationnel extrêmement difficile.

1. Ingénierie des caractéristiques : donner à l'IA des « oreilles humaines »

Puisque regarder directement la « forme d'onde unidimensionnelle (domaine temporel) » ne fonctionne pas, les scientifiques ont imaginé une approche par réduction dimensionnelle : transformer le son unidimensionnel en un spectre de fréquences bidimensionnel (domaine fréquentiel).

1.1 D'une ligne à une image : la transformée de Fourier à court terme (STFT)

Imaginez, en écoutant une symphonie, nous nous soucions rarement de la quantité totale de déplacement de l'air à un instant donné, nous nous intéressons davantage à quels instruments (différentes fréquences) et quelle est leur intensité (énergie) pendant cette période.

Grâce à la magie mathématique de la transformée de Fourier à court terme (STFT), nous pouvons décomposer l'onde sonore linéaire en une image matricielle bidimensionnelle contenant « temps, fréquence, énergie (intensité de couleur) », appelée spectrogramme (Spectrogram). Ainsi, le problème du traitement du son est astucieusement transformé en un problème de « vision » que l'IA maîtrise mieux.

1.2 S'adapter à la perception auditive : l'échelle de Mel (Mel Scale)

La distribution des fréquences en physique est linéaire (l'écart entre 0-100 Hz est le même qu'entre 10000-10100 Hz). Mais l'oreille humaine est très « partiale » : nous sommes extrêmement sensibles aux variations des sons graves (basses fréquences), mais insensibles aux nuances subtiles des sons aigus haute fidélité (hautes fréquences).

Pour que l'IA puisse, comme l'humain, « concentrer son attention limitée sur ce qui est le plus important », les chercheurs ont introduit les bancs de filtres de Mel (Mel Filterbanks) non linéaires. Ils divisent très finement la région des basses fréquences et regroupent grossièrement celle des hautes fréquences. Après une transformation logarithmique, nous obtenons la pierre angulaire de l'audio IA contemporain — le spectre de Mel (Mel-Spectrogram).

👇 Essayez par vous-même : Observez ci-dessous comment la forme d'onde unidimensionnelle de la machine est transformée en un spectre coloré bidimensionnel conforme à la perception humaine.

FFT window1024

Mel filters80

🔊 Waveform (time domain)Raw audio amplitude over time

STFT transform⬇

📈 Linear spectrumLow high-frequency resolution

🎯 Mel spectrogramMatches human hearing

🎧 Why use the Mel scale?

Human hearing
100Hz→200Hz and 10000Hz→10100Hz can feel similarly different

Linear scale
Equal frequency intervals do not match human perception

💡

Mel spectrogram principle: The Mel scale models the nonlinear way humans perceive frequency. We are more sensitive to low-frequency changes and less sensitive to high-frequency changes. Mel spectrograms map frequency to this scale so AI focuses on perceptually important regions.

2. Apprendre une « langue étrangère » au grand modèle : deux paradigmes de génération dominants

Une fois les caractéristiques extraites, comment apprendre à l'IA à générer du son ? Actuellement, le monde académique et l'industrie suivent deux grands « cercles magiques » parallèles.

2.1 Paradigme 1 : traiter le son comme du texte (Audio Tokenization)

Avec l'explosion de ChatGPT, les scientifiques se sont demandé : si l'on transformait le son en une succession de « caractères (Tokens) », le grand modèle de langage (LLM) pourrait-il directement chanter et parler ?

Compression et quantification : grâce au puissant codec neuronal (Neural Codec, comme EnCodec) et à l'architecture VQ-VAE, un fichier audio de plusieurs mégaoctets est compressé à l'extrême pour devenir une séquence de codes discrets dans un dictionnaire (par exemple la séquence : [82, 105, 33...]).
Génération par prédiction : le modèle IA n'a plus qu'à prédire le prochain token audio, comme un jeu de suite de mots. Cela unifie considérablement l'architecture sous-jacente de l'apprentissage multimodal !

🔽 Encoder

Raw waveform

24kHz, 16-bit

Conv 1

Conv 2

Conv 3

Conv 4

CNN downsampling

320x dimension reduction

VQ quantization

Discrete token

Compressed: ~1.5 kbps

🔼 Decoder

4212872553391

Discrete token

Codebook index

ConvT 4

ConvT 3

ConvT 2

ConvT 1

Transposed convolution

Upsampling

Reconstructed waveform

24kHz

📊 Bitrate comparison

1.5 kbps

EnCodec-24k

Sample rate:24 kHz

Frame rate:75 Hz

Codebook size:1024

3.0 kbps

EnCodec-48k

Sample rate:48 kHz

Frame rate:75 Hz

Codebook size:1024

6.0 kbps

SoundStream

Sample rate:16 kHz

Frame rate:50 Hz

Codebook size:1024

4.5

0.98 kbps

SNAC

Sample rate:24 kHz

Frame rate:43 Hz

Codebook size:4096

🔢 Token sequence visualization

0.1s0.2s0.30000000000000004s0.4s0.5s0.6000000000000001s0.7000000000000001s0.8s0.9s1s1.1s1.2000000000000002s1.3s1.4000000000000001s1.5s1.6s1.7000000000000002s1.8s1.9000000000000001s2s

Low-frequency components Mid-frequency components High-frequency components

🎯 Why audio tokenization?

🚀

Efficient transfer

Compress audio to ~1.5 kbps, about 256x smaller than raw audio, making it suitable for network transfer.

🧠

Language-model friendly

Discrete tokens can be processed directly by LLMs, enabling unified text-to-audio modeling.

🎵

Music generation

Models such as MusicGen and AudioLDM use audio tokens to generate music and sound effects.

🗣️

Speech synthesis

TTS models such as VALL-E and SoundStorm can generate audio tokens directly.

💡Neural audio codecs: Models such as EnCodec (Meta), SoundStream (Google), and SNAC use VQ-VAE style architectures to compress audio into discrete tokens. These tokens can be handled by language models for high-quality audio generation and compression.

2.2 Paradigme 2 : traiter le son comme une peinture (Spectrogram Generation)

C'est actuellement la solution fondamentale de nombreux logiciels vocaux matures, avec une excellente contrôlabilité.

Génération de spectrogramme : le modèle IA ne produit pas la forme d'onde audio finale, mais apprend directement la correspondance du « texte » vers le « spectre de Mel bidimensionnel », comme un peintre qui dessine une carte de caractéristiques acoustiques.
Restitution de la forme d'onde (Vocoder) : comme le spectrogramme a perdu les informations de phase et d'autres détails et ne peut pas être lu directement, nous avons besoin d'un vocodeur (Vocoder, comme HiFi-GAN) qui agit comme un traducteur, restituant fidèlement cette image en une forme d'onde unidimensionnelle capable de faire vibrer le haut-parleur.

3. Double extrémité inverse : la traduction collaborative ASR et TTS

Donner à la machine des « oreilles » et une « bouche », c'est en réalité faire deux traductions diamétralement opposées :

Reconnaissance automatique de la parole (ASR) : traduire le son en texte. C'est un choix convergent de plusieurs à un. Le modèle (comme Whisper) doit, parmi un océan de données audio remplies de bruits ambiants, de variations d'accent et d'interférences homophoniques, extraire et verrouiller le seul texte sémantique correct.
Synthèse vocale (TTS) : traduire le texte en son. C'est une création divergente d'un à plusieurs. La même phrase sèche « Bonjour » peut être prononcée avec dix mille variations de débit, d'émotion, de pause et de timbre. Le modèle doit avoir la capacité de déduire ces paramètres manquants.

🎙️

ASR Speech Recognition

Audio → Text

🔊

TTS Speech Synthesis

Text → Audio

Choose voice:

📊 ASR vs TTS

🎙️

ASR

Input:Audio waveform

Output:Text sequence

Challenge:Noise, accents, homophones

🔊

TTS

Input:Text sequence

Output:Audio waveform

Challenge:Prosody, emotion, naturalness

🔀 Architecture comparison

ASR Pipeline

Audio

→

Features

→

Encoder

→

Decoder

→

Text

TTS Pipeline

Text

→

Encoder

→

Decoder

→

Vocoder

→

Audio

💡

Inverse relationship: ASR and TTS are two core directions in speech technology and inverse processes of each other. ASR converts continuous audio signals into discrete text, while TTS converts discrete text into continuous audio signals. Both rely on acoustic models and language models.

4. Du « compte-gouttes » au « train direct » : le renouvellement générationnel de l'architecture TTS

Après avoir compris le flux de base, voyons comment le moteur TTS poursuit une vitesse et une fluidité extrêmes.

Méthode séquentielle naïve (autorégressive AR) : les anciens modèles devaient suivre l'ordre temporel, générer la milliseconde précédente pour pouvoir prédire la suivante sur cette base. Cette méthode, bien que stable, se bloque facilement et est très lente.
Prédiction divine (non autorégressive NAR) : les modèles ultérieurs ont introduit un prédicteur de durée (Duration Predictor), ne générant plus en file d'attente, mais « devinant » d'un coup la durée de chaque phonème, puis produisant instantanément en parallèle toute la phrase audio.
Voie rapide par équation différentielle ordinaire (Flow Matching) : c'est la solution de pointe ultime actuelle (comme F5-TTS). Elle utilise les principes mathématiques complexes des flux normalisants continus et des équations différentielles ordinaires (ODE), abandonnant l'assemblage rigide traditionnel. Le modèle apprend une trajectoire de mouvement optimale directe (flux de probabilité) du « bruit blanc pur » au « spectre parfait ». Non seulement l'efficacité computationnelle augmente exponentiellement, mais la fluidité et le naturel du son atteignent également leur apogée.

📝

Text processing

Tokenize & phonemes

→

🔢

Text embedding

Feature extraction

→

🌊

Flow matching

Optimal transport

→

🔊

Vocoder

Spectrum to waveform

📝

Text processing

Convert input text into a phoneme sequence

Input:Raw text

Output:Phoneme sequence

Tech:G2P

📊 Architecture comparison

Feature

Autoregressive

Non-autoregressive

Flow matching

Generation speed

Slow

Fast

Very fast

Audio quality

High

Medium-high

High

Stability

Medium

High

Controllability

Medium

High

🏆 Representative models

Tacotron 2

Classic AR model with excellent audio quality

FastSpeech 2

NAR

Parallel generation with high speed

F5-TTS

Flow

Recent SOTA, generated in 10 steps

CosyVoice

Flow

Alibaba open-source model with multilingual support

💡

TTS evolution trend: TTS has moved from early autoregressive models such as Tacotron, to non-autoregressive models such as FastSpeech, and now to flow matching models such as F5-TTS. The direction is faster, more stable, and higher-quality synthesis.

5. Clonage vocal zero-shot (Zero-Shot Voice Cloning)

Il y a seulement quelques années, pour imiter la voix de quelqu'un avec l'IA, il fallait lui faire enregistrer des dizaines de milliers de phrases dans un studio d'enregistrement extrêmement silencieux et passer des jours à entraîner le modèle. Aujourd'hui, avec seulement 3 secondes d'échantillon vocal, l'IA peut imiter à s'y méprendre.

Cela repose sur une technologie centrale : l'encodeur de caractéristiques du locuteur (Speaker Encoder) et l'apprentissage métrique.

Ce n'est pas seulement un écouteur, c'est un « extracteur d'empreinte génétique ». Sa mission est d'éliminer le bruit de fond et le contenu spécifique du discours (Texte), pour capturer de force et exclusivement vos caractéristiques physiologiques constantes : quelle est la largeur de vos cordes vocales ? Quel est le volume de votre cavité de résonance ? Quelles sont vos habitudes d'articulation ?
Ces caractéristiques sont finalement compressées en un vecteur d'embedding du locuteur (Speaker Embeddings, comme x-vector) de quelques centaines de dimensions. Cette chaîne de chiffres, semblable à un code-barres, représente complètement votre identité vocale. Ensuite, le modèle TTS n'a qu'à « emporter ce vecteur » pour une génération conditionnelle, et tout langage produit portera les caractéristiques de votre voix.

1 Provide reference audio

👨

Male voice A

Low and magnetic

👩

Female voice B

Gentle and sweet

🧒

Child voice

Lively and cute

👴

Elder voice

Weathered and steady

2 AI learns voice features

📂

Load audio

→

🔢

Encode features

→

🎨

Extract timbre

→

💎

Build embedding

3 Enter text to generate speech

💡 Voice cloning tips

⏱️

Reference duration

3-10 seconds is enough; quality matters more than length.

🔇

Environment

Use a quiet environment and avoid background noise.

🗣️

Content choice

Audio with varied pitch and speaking speed works better.

🔬

Technical principle: Voice cloning extracts timbre, intonation, and speaking style from reference audio to build a speaker embedding. During generation, the TTS model combines text content with this speaker embedding to synthesize speech similar to the reference voice.

6. Donner une âme : rythme émotionnel et contrôle stylistique à grain fin

Un simple « Vraiment ? » peut exprimer la surprise ou le doute colérique. L'IA commerciale de haut niveau doit non seulement « lire correctement les mots », mais aussi « transmettre l'émotion ».

Le monde académique a proposé les tokens de style globaux (GST) et les mécanismes de goulot d'étranglement de caractéristiques. Le grand modèle peut, à partir d'enregistrements massifs d'interprétations humaines, extraire par clustering des vecteurs souples abstraits correspondant à « triste », « excité », « langoureux », etc. Dans la mise en œuvre industrielle, nous avons également introduit des paramètres d'adaptation intuitifs comme la fréquence fondamentale (F0, contrôle de la hauteur tonale), l'énergie (Energy, contrôle du volume et des plosives), donnant aux créateurs la capacité de sculpter finement « l'émotion vocale » comme on sculpte le visage d'un personnage de jeu vidéo.

Choose emotion style

😐

Neutral

Steady and natural

😊

Happy

Light and cheerful

😢

Sad

Low and slow

😠

Angry

Forceful and intense

🤩

Excited

Warm and energetic

😌

Calm

Relaxed and soothing

Emotion Embedding Space

Neutral Happy Sad Angry Excited Calm

🎚️ Fine-grained controls

Speed1x

SlowNormalFast

Pitch0

LowNormalHigh

Energy dynamics100%

SoftModerateIntense

Pause control150ms

CompactNaturalRelaxed

🎙️ Preview synthesis

💡Emotion control: Modern TTS systems can synthesize natural speech and precisely control emotion, speed, pitch, and other style features. This lets AI voiceover adapt to different scenarios, from calm customer-service dialogs to energetic speeches.

7. Conclusion

De la conversion de signal numérique de base (PCM), à la réduction dimensionnelle et la purification (Mel-Spectrogram), jusqu'aux grands modèles multimodaux actuels basés sur les « algorithmes de Flow Matching » et les « codecs neuronaux (Neural Codec) », l'audio IA est en train de passer d'une simulation mécanique à une compréhension native.

Les futurs agents d'intelligence artificielle (AI Agent) relieront complètement les chaînes haute dimension de la vision, de l'audition et de la parole humaines, répondant à chaque échange avec une intuition quasi humaine !

8. Glossaire des termes essentiels

Terme	Nom complet en anglais	Définition
PCM	Pulse-Code Modulation	Modulation par impulsions et codage, la méthode d'enregistrement de forme d'onde audio unidimensionnelle la plus brute et la plus volumineuse.
STFT	Short-Time Fourier Transform	Transformée de Fourier à court terme, méthode d'analyse mathématique qui transforme le son d'une amplitude unique variant dans le temps en une représentation combinant fréquence et énergie.
Spectre de Mel	Mel-Spectrogram	Caractéristique fondamentale pour le traitement du son par les grands modèles : un spectre audio bidimensionnel de haute valeur, ajusté par logarithmique et par les préférences auditives non linéaires humaines.
Codec neuronal	Neural Codec	Composant IA qui, grâce à la technique extrêmement avancée des résidus d'autoencodeurs variationnels, compresse hautement des ondes sonores continues de grande taille en étiquettes discrètes (Tokens).
Vocoder	Vocodeur	« Traducteur inverse » : responsable de la restitution physique du spectre de Mel bidimensionnel en une forme d'onde audio unidimensionnelle capable de faire vibrer les haut-parleurs.
Speaker Embeddings	Vecteur de caractéristiques du locuteur	Identifiant mathématique de haute dimension et immuable (comme x-vector) qui fixe le timbre vocal exclusif d'une personne spécifique.
Flow Matching	Appariement de flux	Processus d'inférence IA de pointe qui transforme une distribution normale en une distribution de données empiriques, non pas par un calcul stochastique différentiel coûteux, mais en établissant un chemin de génération lisse et quasi linéaire le long d'une équation différentielle ordinaire.

Principes de synthèse et reconnaissance vocale

0. Introduction : la « traduction numérique » des ondes sonores physiques

1. Ingénierie des caractéristiques : donner à l'IA des « oreilles humaines »

1.1 D'une ligne à une image : la transformée de Fourier à court terme (STFT)

1.2 S'adapter à la perception auditive : l'échelle de Mel (Mel Scale)

2. Apprendre une « langue étrangère » au grand modèle : deux paradigmes de génération dominants

2.1 Paradigme 1 : traiter le son comme du texte (Audio Tokenization)

2.2 Paradigme 2 : traiter le son comme une peinture (Spectrogram Generation)

3. Double extrémité inverse : la traduction collaborative ASR et TTS

4. Du « compte-gouttes » au « train direct » : le renouvellement générationnel de l'architecture TTS

5. Clonage vocal zero-shot (Zero-Shot Voice Cloning)

6. Donner une âme : rythme émotionnel et contrôle stylistique à grain fin

Global Style Token

Reference audio encoding

Fine-grained control

7. Conclusion

8. Glossaire des termes essentiels

Principes de synthèse et reconnaissance vocale ​

0. Introduction : la « traduction numérique » des ondes sonores physiques ​

1. Ingénierie des caractéristiques : donner à l'IA des « oreilles humaines » ​

1.1 D'une ligne à une image : la transformée de Fourier à court terme (STFT) ​

1.2 S'adapter à la perception auditive : l'échelle de Mel (Mel Scale) ​

2. Apprendre une « langue étrangère » au grand modèle : deux paradigmes de génération dominants ​

2.1 Paradigme 1 : traiter le son comme du texte (Audio Tokenization) ​

2.2 Paradigme 2 : traiter le son comme une peinture (Spectrogram Generation) ​

3. Double extrémité inverse : la traduction collaborative ASR et TTS ​

4. Du « compte-gouttes » au « train direct » : le renouvellement générationnel de l'architecture TTS ​

5. Clonage vocal zero-shot (Zero-Shot Voice Cloning) ​

6. Donner une âme : rythme émotionnel et contrôle stylistique à grain fin ​

7. Conclusion ​

8. Glossaire des termes essentiels ​

Principes de synthèse et reconnaissance vocale

0. Introduction : la « traduction numérique » des ondes sonores physiques

1. Ingénierie des caractéristiques : donner à l'IA des « oreilles humaines »

1.1 D'une ligne à une image : la transformée de Fourier à court terme (STFT)

1.2 S'adapter à la perception auditive : l'échelle de Mel (Mel Scale)

2. Apprendre une « langue étrangère » au grand modèle : deux paradigmes de génération dominants

2.1 Paradigme 1 : traiter le son comme du texte (Audio Tokenization)

2.2 Paradigme 2 : traiter le son comme une peinture (Spectrogram Generation)

3. Double extrémité inverse : la traduction collaborative ASR et TTS

4. Du « compte-gouttes » au « train direct » : le renouvellement générationnel de l'architecture TTS

5. Clonage vocal zero-shot (Zero-Shot Voice Cloning)

6. Donner une âme : rythme émotionnel et contrôle stylistique à grain fin

7. Conclusion

8. Glossaire des termes essentiels