Skip to content

Nguyên lý Tổng hợp và Nhận dạng Giọng nói

💡 Hướng dẫn học tập: Chương này sẽ giúp bạn hiểu sâu về nguyên lý cơ bản của AI xử lý âm thanh. Chúng ta không chỉ khám phá các thuật ngữ âm học "khô khan" (như STFT, Flow Matching, speaker embedding), mà còn thông qua các phép so sánh trực quan và minh họa tương tác, giúp bạn hiểu rõ cách AI "nghe hiểu lời người" và "cất tiếng nói". Ngay cả khi bạn là người mới bắt đầu, bạn cũng có thể dễ dàng nắm bắt!

🎙️ First AI Audio Experience: Let Machines Speak
From speech synthesis to voice cloning, explore how AI gives machines a voice.
🎵

Choose a scenario to experience AI audio

💡TTS: text to speech, letting AI read any text aloud
🎯ASR: speech recognition, converting speech into text
🎭Voice cloning: copy a voice from only a few seconds of audio

0. Lời mở đầu: "Phiên dịch số hóa" của sóng âm vật lý

Giọng nói con người và mọi âm thanh trong thế giới, về bản chất đều là sóng âm vật lý liên tục được tạo ra bởi sự rung động của không khí. Nhưng máy tính chỉ có 01, nó không thể "nghe" thấy âm thanh. Vì vậy, bước đầu tiên để AI xử lý âm thanh là vượt qua khoảng cách giữa "thế giới vật lý" và "thế giới số".

Quá trình này được gọi là chuyển đổi A/D (Analog-to-Digital), với đầu ra cốt lõi là Điều chế Mã Xung (PCM) - dạng dữ liệu âm thanh phổ biến nhất. Nó được xác định bởi hai chỉ số cốt lõi:

  1. Tần suất lấy mẫu (Sample Rate): Số lần "chụp ảnh" sóng âm trong một giây. Ví dụ: 16kHz có nghĩa là ghi lại 16.000 giá trị biên độ mỗi giây.
  2. Độ sâu bit (Bit Depth): Độ tinh của "thước đo" cho mỗi lần chụp. 16-bit nghĩa là biên độ có 65.536 mức phân biệt.

Nhưng điều này dẫn đến một vấn đề: 16.000 con số mỗi giây, một câu nói có thể lên đến hàng trăm nghìn con số, lượng thông tin lớn và phức tạp. Nếu đưa trực tiếp chuỗi sóng một chiều dài ngoằng này vào mạng nơ-ron để xử lý, điều đó giống như bắt một người nhìn cận cảnh từng sợi len trên chiếc áo len để đánh giá họa tiết chiếc áo có đẹp hay không - rõ ràng đây là một thách thức tính toán cực kỳ khó khăn.


1. Kỹ thuật đặc trưng: Đeo cho AI "đôi tai của con người"

Vì việc trực tiếp nhìn vào "dạng sóng một chiều (Time-Domain)" là không khả thi, các nhà khoa học đã nghĩ ra một phương pháp giảm chiều: chuyển âm thanh một chiều thành phổ tần số hai chiều (Frequency-Domain).

1.1 Từ một đường thẳng đến một bức tranh: Biến đổi Fourier thời gian ngắn (STFT)

Hãy tưởng tượng, khi nghe một bản giao hưởng, chúng ta hiếm khi quan tâm đến tổng độ dịch chuyển của không khí tại một khoảnh khắc nào đó. Điều chúng ta quan tâm hơn là có những nhạc cụ nào (các tần số khác nhau), âm lượng ra sao (năng lượng).

Thông qua phép biến đổi toán học kỳ diệu Biến đổi Fourier thời gian ngắn (STFT), chúng ta có thể phân tách sóng âm phẳng lặng thành một bức tranh ma trận hai chiều chứa "thời gian, tần số, năng lượng (độ đậm nhạt của màu sắc)", được gọi là Phổ đồ (Spectrogram). Đến đây, bài toán xử lý âm thanh đã được chuyển hóa một cách khéo léo thành bài toán "xem ảnh" mà AI xử lý tốt hơn nhiều.

1.2 Thích ứng với thói quen nghe: Thang Mel (Mel Scale)

Phân bố tần số trong vật lý là tuyến tính (khoảng cách 0-100Hz cũng dài như 10000-10100Hz). Nhưng tai con người rất "thiên vị": chúng ta cực kỳ nhạy cảm với sự thay đổi của âm trầm (tần số thấp), nhưng lại kém nhạy với những khác biệt nhỏ trong âm thanh cao vút (tần số cao).

Để AI có thể giống con người, "tập trung sự chú ý hạn chế vào những nơi quan trọng hơn", các nhà nghiên cứu đã giới thiệu Bộ lọc Mel (Mel Filterbanks) phi tuyến tính. Nó phân chia cực kỳ mịn ở vùng tần số thấp, và thô hơn ở vùng tần số cao. Sau khi biến đổi logarit, chúng ta có được nền tảng linh hồn của AI âm thanh đương đại - Phổ Mel (Mel-Spectrogram).

👇 Chạm để khám phá: Quan sát bên dưới cách dạng sóng máy một chiều được chuyển đổi thành phổ màu hai chiều phù hợp với cảm nhận của con người.

📊 Mel Spectrogram: How AI “Sees” Sound
Sound is a wave, but AI sees a spectrogram. See how waveforms become images that AI can understand.
1024
80
🔊 Waveform (time domain)Raw audio amplitude over time
STFT transform
📈 Linear spectrumLow high-frequency resolution
VS
🎯 Mel spectrogramMatches human hearing
🎧 Why use the Mel scale?
Human hearing
100Hz→200Hz and 10000Hz→10100Hz can feel similarly different
Linear scale
Equal frequency intervals do not match human perception
💡

Mel spectrogram principle: The Mel scale models the nonlinear way humans perceive frequency. We are more sensitive to low-frequency changes and less sensitive to high-frequency changes. Mel spectrograms map frequency to this scale so AI focuses on perceptually important regions.


2. Dạy mô hình lớn học "ngoại ngữ": Hai mô hình sinh chủ đạo

Sau khi trích xuất xong đặc trưng, làm thế nào để dạy AI tạo ra âm thanh? Hiện nay, giới học thuật và công nghiệp có hai "vòng tròn ma thuật" song song.

2.1 Mô hình 1: Coi âm thanh như văn bản (Audio Tokenization)

Cùng với sự bùng nổ của ChatGPT, các nhà khoa học đã suy nghĩ: nếu biến âm thanh thành từng "chữ Hán (Token)" nối tiếp nhau, liệu Mô hình Ngôn ngữ Lớn (LLM) có thể trực tiếp hát và nói chuyện không?

  • Nén và lượng tử hóa: Dựa vào Bộ mã hóa-giải mã thần kinh (Neural Codec, như EnCodec) mạnh mẽ và kiến trúc VQ-VAE, một đoạn âm thanh kích thước vài megabyte sẽ được nén cực hạn, cuối cùng trở thành các mã hiệu rời rạc trong một cuốn từ điển (ví dụ: chuỗi [82, 105, 33...]).
  • Sinh nối tiếp: Mô hình AI chỉ cần như trò chơi nối chữ, dự đoán Token âm thanh tiếp theo là gì. Điều này thống nhất mạnh mẽ kiến trúc cơ bản của học đa phương thức!
🎵 Audio Tokenization: Neural Codecs
🔽 Encoder
Raw waveform
24kHz, 16-bit
Conv 1
Conv 2
Conv 3
Conv 4
CNN downsampling
320x dimension reduction
VQ quantization
Discrete token
Compressed: ~1.5 kbps
🔼 Decoder
4212872553391
Discrete token
Codebook index
ConvT 4
ConvT 3
ConvT 2
ConvT 1
Transposed convolution
Upsampling
Reconstructed waveform
24kHz
📊 Bitrate comparison
1.5 kbps
EnCodec-24k
Sample rate:24 kHz
Frame rate:75 Hz
Codebook size:1024
4
3.0 kbps
EnCodec-48k
Sample rate:48 kHz
Frame rate:75 Hz
Codebook size:1024
5
6.0 kbps
SoundStream
Sample rate:16 kHz
Frame rate:50 Hz
Codebook size:1024
4.5
0.98 kbps
SNAC
Sample rate:24 kHz
Frame rate:43 Hz
Codebook size:4096
4
🔢 Token sequence visualization
0.1s0.2s0.30000000000000004s0.4s0.5s0.6000000000000001s0.7000000000000001s0.8s0.9s1s1.1s1.2000000000000002s1.3s1.4000000000000001s1.5s1.6s1.7000000000000002s1.8s1.9000000000000001s2s
Low-frequency components Mid-frequency components High-frequency components
🎯 Why audio tokenization?
🚀
Efficient transfer
Compress audio to ~1.5 kbps, about 256x smaller than raw audio, making it suitable for network transfer.
🧠
Language-model friendly
Discrete tokens can be processed directly by LLMs, enabling unified text-to-audio modeling.
🎵
Music generation
Models such as MusicGen and AudioLDM use audio tokens to generate music and sound effects.
🗣️
Speech synthesis
TTS models such as VALL-E and SoundStorm can generate audio tokens directly.

💡Neural audio codecs: Models such as EnCodec (Meta), SoundStream (Google), and SNAC use VQ-VAE style architectures to compress audio into discrete tokens. These tokens can be handled by language models for high-quality audio generation and compression.

2.2 Mô hình 2: Coi âm thanh như bức tranh (Spectrogram Generation)

Đây là giải pháp nền tảng của nhiều phần mềm giọng nói trưởng thành hiện nay, với khả năng kiểm soát tuyệt vời.

  • Sinh phổ đồ: Mô hình AI không xuất ra dạng sóng âm thanh cuối cùng, mà trực tiếp học ánh xạ từ "văn bản" sang "phổ Mel hai chiều", như một họa sĩ vẽ ra một bức tranh đặc trưng âm học.
  • Khôi phục dạng sóng (Vocoder): Vì phổ đồ mất đi thông tin chi tiết như pha và không thể phát trực tiếp, chúng ta cần một Bộ mã hóa giọng nói (Vocoder, như HiFi-GAN) đóng vai trò phiên dịch, khôi phục bức tranh này trở lại thành dạng sóng một chiều có thể đẩy loa rung động một cách nguyên vẹn.

3. Thuận nghịch hai chiều: Dịch thuật đồng bộ giữa ASR và TTS

Để máy móc có "tai" và "miệng", thực chất là làm hai công việc dịch thuật ngược chiều nhau:

  • Nhận dạng giọng nói tự động (ASR): Dịch âm thanh thành văn bản. Đây là một bài toán chọn lọc hội tụ nhiều-một. Mô hình (như Whisper) phải tìm ra văn bản ngữ nghĩa chính xác duy nhất giữa môi trường ồn ào, biến đổi giọng nói, và nhiễu từ đồng âm khác nghĩa.
  • Chuyển văn bản thành giọng nói (TTS): Dịch văn bản thành âm thanh. Đây là một bài toán sáng tạo phân kỳ một-nhiều. Cùng một câu "xin chào" khô khan, nó có thể mang theo hàng vạn tốc độ nói, cảm xúc, cách ngắt nghỉ và chất giọng khác nhau. Mô hình phải có khả năng "tưởng tượng" ra những tham số còn thiếu này.
🔄 ASR ↔ TTS: Two-Way Speech Conversion
Explore the inverse processes of speech recognition and speech synthesis.
🎙️
ASR Speech Recognition
Audio → Text
or
🔊
TTS Speech Synthesis
Text → Audio
📊 ASR vs TTS
🎙️
ASR
Input:Audio waveform
Output:Text sequence
Challenge:Noise, accents, homophones
🔊
TTS
Input:Text sequence
Output:Audio waveform
Challenge:Prosody, emotion, naturalness
🔀 Architecture comparison
ASR Pipeline
Audio
Features
Encoder
Decoder
Text
TTS Pipeline
Text
Encoder
Decoder
Vocoder
Audio
💡

Inverse relationship: ASR and TTS are two core directions in speech technology and inverse processes of each other. ASR converts continuous audio signals into discrete text, while TTS converts discrete text into continuous audio signals. Both rely on acoustic models and language models.


4. Từ "ép từng giọt" đến "đường cao tốc": Nâng cấp kiến trúc cốt lõi TTS

Sau khi hiểu quy trình cơ bản, chúng ta hãy xem công cụ TTS theo đuổi tốc độ và tính liên tục tối đa như thế nào.

  • Phương pháp tuần tự cũ (Tự hồi quy AR): Mô hình thế hệ cũ phải tuân theo thứ tự thời gian, tạo xong mili giây trước mới có thể dùng làm cơ sở dự đoán mili giây tiếp theo. Phương pháp này tuy an toàn, nhưng rất dễ bị kẹt và tốc độ chậm.
  • Dự đoán thần thánh (Phi tự hồi quy NAR): Các mô hình sau này giới thiệu Bộ dự đoán thời lượng (Duration Predictor), không còn xếp hàng tạo nữa mà một lần "bói toán" ra thời lượng cho từng âm vị, sau đó xuất ra đồng thời song song toàn bộ câu âm thanh.
  • Đường cao tốc vi phân thường (Flow Matching): Đây là giải pháp tiên phong tối thượng hiện nay (như F5-TTS). Nó sử dụng luồng chuẩn hóa liên tục và các nguyên lý toán học phức tạp như Phương trình Vi phân Thường (ODE), loại bỏ cách xây dựng thô cứng truyền thống. Mô hình học một quỹ đạo trực tiếp tối ưu từ "nhiễu trắng thuần túy" đến "phổ hoàn hảo" (dòng xác suất). Không chỉ hiệu suất tính toán tăng theo cấp số nhân, mà độ mượt mà và tự nhiên của âm thanh cũng đạt đến đỉnh cao.
🔄 TTS Architecture Evolution: From Slow to Fast
Explore how text becomes speech and compare different architectures.
1
📝
Text processing
Tokenize & phonemes
2
🔢
Text embedding
Feature extraction
3
🌊
Flow matching
Optimal transport
4
🔊
Vocoder
Spectrum to waveform
📝
Text processing
Convert input text into a phoneme sequence
Input:Raw text
Output:Phoneme sequence
Tech:G2P
📊 Architecture comparison
Feature
Autoregressive
Non-autoregressive
Flow matching
Generation speed
Slow
Fast
Very fast
Audio quality
High
Medium-high
High
Stability
Medium
High
High
Controllability
Medium
High
High
🏆 Representative models
Tacotron 2
AR
Classic AR model with excellent audio quality
FastSpeech 2
NAR
Parallel generation with high speed
F5-TTS
Flow
Recent SOTA, generated in 10 steps
CosyVoice
Flow
Alibaba open-source model with multilingual support
💡

TTS evolution trend: TTS has moved from early autoregressive models such as Tacotron, to non-autoregressive models such as FastSpeech, and now to flow matching models such as F5-TTS. The direction is faster, more stable, and higher-quality synthesis.


5. Nhân bản giọng nói không mẫu (Zero-Shot Voice Cloning)

Chỉ vài năm trước, để dùng AI bắt chước giọng của ai đó, bạn phải để họ thu âm hàng vạn câu trong phòng thu cực kỳ yên tĩnh và dành nhiều ngày huấn luyện mô hình. Còn ngày nay, chỉ cần 3 giây ghi âm giọng nói, AI đã có thể "làm giả như thật".

Đằng sau điều này là một công nghệ cốt lõi: Bộ mã hóa đặc trưng người nói (Speaker Encoder) và học metric (đo lường).

  • Đây không chỉ là một thiết bị nghe lén, mà còn là một "máy trích xuất gen". Nhiệm vụ của nó là loại bỏ nhiễu nền trong âm thanh và nội dung cụ thể đã nói (Text), cưỡng chế và duy nhất nắm bắt các đặc trưng sinh lý bất biến của bạn: dây thanh rộng bao nhiêu? Khoang cộng hưởng lớn thế nào? Phát âm có thói quen gì?
  • Những đặc trưng này cuối cùng được nén thành một Vector nhúng người nói (Speaker Embeddings, như x-vector) vài trăm chiều. Chuỗi số như mã vạch này biểu diễn đầy đủ danh tính giọng nói của bạn. Sau đó, mô hình TTS chỉ cần "mang theo chuỗi vector này" để sinh có điều kiện, bất kỳ ngôn ngữ nào nó thốt ra cũng sẽ mang đặc trưng giọng nói của bạn.
🎭 Voice Cloning: Let AI Imitate Anyone
With only a few seconds of reference audio, AI can learn a speaker voice.
1 Provide reference audio
👨
Male voice A
Low and magnetic
👩
Female voice B
Gentle and sweet
🧒
Child voice
Lively and cute
👴
Elder voice
Weathered and steady
or
2 AI learns voice features
📂
Load audio
🔢
Encode features
🎨
Extract timbre
💎
Build embedding
3 Enter text to generate speech
💡 Voice cloning tips
⏱️
Reference duration

3-10 seconds is enough; quality matters more than length.

🔇
Environment

Use a quiet environment and avoid background noise.

🗣️
Content choice

Audio with varied pitch and speaking speed works better.

🔬

Technical principle: Voice cloning extracts timbre, intonation, and speaking style from reference audio to build a speaker embedding. During generation, the TTS model combines text content with this speaker embedding to synthesize speech similar to the reference voice.


6. Truyền linh hồn: Điều khiển phong cách cảm xúc và nhịp điệu chi tiết

Một câu "thật à" có thể là ngạc nhiên, cũng có thể là phẫn nộ chất vấn. AI cấp thương mại cao cấp không chỉ phải "đọc đúng chữ", mà còn phải "mang theo cảm xúc".

Giới học thuật đã đề xuất Token Phong cách Toàn cục (GST) và cơ chế nút thắt cổ chai đặc trưng. Mô hình lớn có thể trích xuất phân cụm các vector mềm trừu tượng tương ứng như "buồn", "phấn khích", "lười biếng" từ dữ liệu thu âm biểu diễn khổng lồ của con người. Trong triển khai kỹ thuật, chúng tôi còn giới thiệu các tham số điều chỉnh bộ chuyển đổi trực quan như Tần số Cơ bản (F0, kiểm soát lên xuống âm điệu), Năng lượng (Energy, kiểm soát âm lượng bật nổ) v.v., trao cho người sáng tạo khả năng "nhào nặn cảm xúc giọng nói" tinh tế như nặn khuôn mặt nhân vật game.

🎭 Emotion and Style Control
Choose emotion style
😐
Neutral
Steady and natural
😊
Happy
Light and cheerful
😢
Sad
Low and slow
😠
Angry
Forceful and intense
🤩
Excited
Warm and energetic
😌
Calm
Relaxed and soothing
Emotion Embedding Space
Neutral Happy Sad Angry Excited Calm
🎚️ Fine-grained controls
Speed1x
SlowNormalFast
Pitch0
LowNormalHigh
Energy dynamics100%
SoftModerateIntense
Pause control150ms
CompactNaturalRelaxed
🎙️ Preview synthesis

💡Emotion control: Modern TTS systems can synthesize natural speech and precisely control emotion, speed, pitch, and other style features. This lets AI voiceover adapt to different scenarios, from calm customer-service dialogs to energetic speeches.


7. Kết luận

Từ chuyển đổi tín hiệu số cơ bản (PCM), đến giảm chiều và làm giàu (Mel-Spectrogram), cho đến các nền tảng đa phương thức lớn dựa trên "thuật toán Flow Matching" và "Neural Codec" đang thịnh hành hiện nay, AI âm thanh đang trình diễn một bước nhảy vọt từ mô phỏng máy móc đến hiểu biết tự nhiên.

Các Tác nhân Trí tuệ Nhân tạo (AI Agent) trong tương lai sẽ hoàn toàn khai thông các liên kết chiều cao về thị giác, thính giác và lời nói của con người, ứng phó với mỗi cuộc giao tiếp như thể sở hữu trực giác của người thật!


8. Bảng tra cứu nhanh thuật ngữ cốt lõi (Glossary)

Thuật ngữTên đầy đủ tiếng AnhGiải thích
PCMPulse-Code ModulationĐiều chế mã xung, phương pháp ghi dạng sóng âm thanh một chiều nguyên thủy và cồng kềnh nhất.
STFTShort-Time Fourier TransformBiến đổi Fourier thời gian ngắn, phương pháp phân tích toán học chuyển đổi âm thanh từ biên độ đơn biến đổi theo thời gian thành dạng vừa có tần số vừa có năng lượng.
Phổ MelMel-SpectrogramĐặc trưng cơ bản để mô hình lớn xử lý âm thanh: một phổ đồ âm thanh hai chiều giá trị cao được điều chỉnh sau khi biến đổi logarit và ưu tiên thính giác phi tuyến của con người.
Bộ mã hóa-giải mã thần kinhNeural CodecThành phần AI dựa vào kỹ thuật biến phân tự mã hóa phần dư cực kỳ mạnh mẽ, nén và chuyển đổi sóng âm liên tục kích thước lớn thành các nhãn rời rạc (Token).
VocoderVocoder"Phiên dịch viên ngược": chịu trách nhiệm kết xuất vật lý phổ Mel hai chiều trở lại thành dạng sóng âm thanh một chiều có thể điều khiển loa phát ra âm thanh.
Speaking EmbeddingsSpeaker EmbeddingVector đặc trưng người nói, ID toán học bất biến và có số chiều rất cao để cố định âm sắc giọng nói riêng của một người cụ thể (như x-vector).
Flow MatchingFlow MatchingQuá trình suy luận AI tiên phong chuyển đổi phân phối chuẩn thành phân phối dữ liệu thực nghiệm, không cần tính toán ngẫu nhiên vi phân đắt đỏ mà xây dựng một đường sinh mượt mà theo đường thẳng trạng thái thường dọc theo phương trình vi phân thường.