음성 합성 및 인식 원리

💡 학습 가이드: 이 장에서는 AI 오디오의 기반 원리를 깊이 있게 살펴봅니다. "딱딱한" 음향학 전문 용어(STFT, Flow Matching, 음색 임베딩 등)뿐만 아니라, 쉬운 비유와 직관적인 인터랙티브 데모를 통해 AI가 어떻게 "사람 말을 알아듣고" "말을 할 수 있는지" 완전히 이해할 수 있습니다. 기초 지식이 전혀 없는 독자도 쉽게 익힐 수 있습니다!

🎵

Choose a scenario to experience AI audio

💡TTS: text to speech, letting AI read any text aloud

🎯ASR: speech recognition, converting speech into text

🎭Voice cloning: copy a voice from only a few seconds of audio

0. 서론: 물리적 음파의 "디지털 번역"

인간의 음성과 세상의 다양한 소리는 본질적으로 공기 진동이 만들어내는 연속적인 물리적 음파입니다. 하지만 컴퓨터의 머릿속에는 0과 1만 있을 뿐, 소리를 들을 수 없습니다. 따라서 AI가 소리를 처리하기 위한 첫걸음은 "물리 세계"와 "디지털 세계"의 간극을 뛰어넘는 것입니다.

이 과정을 음향-디지털 변환(A/D 변환) 이라고 하며, 그 핵심 출력이 바로 펄스 부호 변조(PCM) 파형, 즉 우리가 흔히 보는 오디오 데이터입니다. 이는 두 가지 핵심 지표로 결정됩니다:

샘플링 레이트(Sample Rate): 1초 동안 음파를 몇 번 "촬영"하는지. 예를 들어 16kHz는 1초에 16,000개의 진폭 숫자를 기록합니다.
비트 심도(Bit Depth): 매번 촬영할 때 "눈금"이 얼마나 정밀한지. 16-bit는 진폭에 65,536개 레벨의 구분도가 있음을 의미합니다.

하지만 이는 문제를 야기합니다: 1초에 16,000개의 숫자, 한 문장에 수십만 개의 숫자, 정보량이 많고 중복됩니다. 이 긴 1차원 파형을 직접 신경망에 던져 처리한다면, 이는 마치 스웨터의 올실 하나하나를 가까이서 들여다보고 그 스웨터의 무늬가 예쁜지 판단하는 것과 같습니다——분명히 극도로 어려운 계산 도전입니다.

1. 특징 공학: AI에게 "인간의 귀"를 달아주기

"1차원 파형(Time-Domain)"을 직접 보는 것이 통하지 않으니, 과학자들은 차원 축소의 방법을 생각해냈습니다: 1차원의 소리를 2차원의 주파수 스펙트럼(Frequency-Domain)으로 변환하는 것.

1.1 한 줄에서 한 장의 그림으로: 단시간 푸리에 변환(STFT)

교향곡을 들을 때, 우리는 특정 순간의 공기 진동 변위 총량에는 거의 신경 쓰지 않습니다. 우리가 더 신경 쓰는 것은 이 시간 동안 어떤 악기(다양한 주파수)가 있고, 소리가 얼마나 큰지(에너지) 입니다.

단시간 푸리에 변환(STFT) 이라는 수학적 마법을 통해, 우리는 평면적인 음파를 "시간, 주파수, 에너지(색상 농담)"를 포함하는 2차원 행렬 이미지로 분해할 수 있으며, 이를 스펙트로그램(Spectrogram) 이라고 합니다. 이로써 소리 처리 문제는 교묘하게 AI가 더 잘 처리하는 "이미지 보기" 문제로 전환됩니다.

1.2 청각 습관에 맞추기: 멜 스케일(Mel Scale)

물리학적 주파수 분포는 선형적입니다(0-100Hz의 폭과 10000-10100Hz의 폭이 동일). 하지만 인간의 귀는 매우 "이중적"입니다: 우리는 낮은 소리(저주파) 변화에 극도로 민감하지만, 날카로운 고음질 소리(고주파)의 미세한 차이에는 둔감합니다.

AI가 인간처럼 "제한된 주의력을 더 중요한 곳에 두도록" 하기 위해, 연구자들은 비선형적인 멜 필터뱅크(Mel Filterbanks) 를 도입했습니다. 이는 저주파 영역을 매우 세밀하게 나누고, 고주파 영역은 대략적으로 감쌉니다. 로그 변환을 거쳐, 우리는 현대 오디오 AI의 정신적 기초인 멜 스펙트로그램(Mel-Spectrogram) 을 얻습니다.

👇 클릭해서 사용해 보세요: 아래에서 1차원 기계 파형이 어떻게 인간의 지각에 부합하는 2차원 색채 스펙트럼으로 변환되는지 관찰하세요.

FFT window1024

Mel filters80

🔊 Waveform (time domain)Raw audio amplitude over time

STFT transform⬇

📈 Linear spectrumLow high-frequency resolution

🎯 Mel spectrogramMatches human hearing

🎧 Why use the Mel scale?

Human hearing
100Hz→200Hz and 10000Hz→10100Hz can feel similarly different

Linear scale
Equal frequency intervals do not match human perception

💡

Mel spectrogram principle: The Mel scale models the nonlinear way humans perceive frequency. We are more sensitive to low-frequency changes and less sensitive to high-frequency changes. Mel spectrograms map frequency to this scale so AI focuses on perceptually important regions.

2. 대형 모델이 "외국어"를 배우게 하기: 두 가지 주류 생성 패러다임

특징을 추출한 후, AI에게 어떻게 소리를 생성하도록 가르칠까? 현재 학계와 산업계에는 두 개의 병행하는 "마법진"이 있습니다.

2.1 패러다임 1: 소리를 문자처럼 (Audio Tokenization)

ChatGPT의 폭발적 인기와 함께, 과학자들은 생각했습니다: 소리도 하나하나의 "한자(Token)"로 만든다면, 대형 언어 모델(LLM)이 바로 노래하고 말할 수 있지 않을까?

압축과 양자화: 강력한 뉴럴 코덱(Neural Codec, EnCodec 등) 과 VQ-VAE 아키텍처를 통해, 몇 메가바이트 크기의 오디오가 극한으로 압축되어 최종적으로 사전 속의 개별 코드(예: 시퀀스 [82, 105, 33...])로 변환됩니다.
생성 이어가기: AI 모델은 문자 이어가기처럼 다음 소리 Token이 무엇일지 예측하기만 하면 됩니다. 이는 멀티모달 학습의 기반 아키텍처를 크게 통일시킵니다!

🔽 Encoder

Raw waveform

24kHz, 16-bit

Conv 1

Conv 2

Conv 3

Conv 4

CNN downsampling

320x dimension reduction

VQ quantization

Discrete token

Compressed: ~1.5 kbps

🔼 Decoder

4212872553391

Discrete token

Codebook index

ConvT 4

ConvT 3

ConvT 2

ConvT 1

Transposed convolution

Upsampling

Reconstructed waveform

24kHz

📊 Bitrate comparison

1.5 kbps

EnCodec-24k

Sample rate:24 kHz

Frame rate:75 Hz

Codebook size:1024

3.0 kbps

EnCodec-48k

Sample rate:48 kHz

Frame rate:75 Hz

Codebook size:1024

6.0 kbps

SoundStream

Sample rate:16 kHz

Frame rate:50 Hz

Codebook size:1024

4.5

0.98 kbps

SNAC

Sample rate:24 kHz

Frame rate:43 Hz

Codebook size:4096

🔢 Token sequence visualization

0.1s0.2s0.30000000000000004s0.4s0.5s0.6000000000000001s0.7000000000000001s0.8s0.9s1s1.1s1.2000000000000002s1.3s1.4000000000000001s1.5s1.6s1.7000000000000002s1.8s1.9000000000000001s2s

Low-frequency components Mid-frequency components High-frequency components

🎯 Why audio tokenization?

🚀

Efficient transfer

Compress audio to ~1.5 kbps, about 256x smaller than raw audio, making it suitable for network transfer.

🧠

Language-model friendly

Discrete tokens can be processed directly by LLMs, enabling unified text-to-audio modeling.

🎵

Music generation

Models such as MusicGen and AudioLDM use audio tokens to generate music and sound effects.

🗣️

Speech synthesis

TTS models such as VALL-E and SoundStorm can generate audio tokens directly.

💡Neural audio codecs: Models such as EnCodec (Meta), SoundStream (Google), and SNAC use VQ-VAE style architectures to compress audio into discrete tokens. These tokens can be handled by language models for high-quality audio generation and compression.

2.2 패러다임 2: 소리를 그림처럼 (Spectrogram Generation)

이는 현재 대량의 성숙한 음성 소프트웨어의 기반 방안으로, 제어성이 매우 뛰어납니다.

스펙트로그램 생성: AI 모델은 최종 오디오 파형을 출력하지 않고, "텍스트"에서 "2차원 멜 스펙트로그램"으로의 매핑을 직접 학습하여 화가처럼 음향 특징 그림을 그립니다.
파형 복원(Vocoder): 스펙트로그램은 위상 등의 세부 정보를 잃어 직접 재생할 수 없으므로, 보코더(Vocoder, HiFi-GAN 등) 라는 번역가가 필요합니다. 이는 이 그림을 손상 없이 스피커 진동을 구동할 수 있는 1차원 파형으로 완벽하게 복원합니다.

3. 양방향 상호 역: ASR과 TTS의 협력적 번역

기계가 "귀"와 "입"을 가지게 하는 것은 사실 두 가지 정반대 방향의 번역을 하는 것입니다:

자동 음성 인식(ASR): 소리를 문자로 번역. 이는 다대일 수렴형 선택 문제입니다. 모델(Whisper 등)은 소음이 가득한 환경, 억양 변화, 동음이의어 간섭("期中"과 "期终")으로 가득한 방대한 오디오 속에서 유일하게 올바른 의미 문장을 추출해 내야 합니다.
텍스트 음성 변환(TTS): 문자를 소리로 번역. 이는 일대다 발산형 창작 문제입니다. 똑같은 메마른 "안녕하세요" 한 마디도 만 가지 다른 말 속도, 감정, 멈춤, 목소리로 표현될 수 있습니다. 모델은 이러한 누락된 파라미터를 상상해 낼 수 있어야 합니다.

🎙️

ASR Speech Recognition

Audio → Text

🔊

TTS Speech Synthesis

Text → Audio

Choose voice:

📊 ASR vs TTS

🎙️

ASR

Input:Audio waveform

Output:Text sequence

Challenge:Noise, accents, homophones

🔊

TTS

Input:Text sequence

Output:Audio waveform

Challenge:Prosody, emotion, naturalness

🔀 Architecture comparison

ASR Pipeline

Audio

→

Features

→

Encoder

→

Decoder

→

Text

TTS Pipeline

Text

→

Encoder

→

Decoder

→

Vocoder

→

Audio

💡

Inverse relationship: ASR and TTS are two core directions in speech technology and inverse processes of each other. ASR converts continuous audio signals into discrete text, while TTS converts discrete text into continuous audio signals. Both rely on acoustic models and language models.

4. "치약 짜기"에서 "직통열차"로: TTS 핵심 아키텍처 세대 교체

기본 흐름을 이해한 후, TTS 엔진이 어떻게 극한의 속도와 일관성을 추구하는지 살펴보겠습니다.

직렬식 둔한 방법(자기회귀 AR): 구세대 모델은 시간 순서를 따라야 하며, 이전 밀리초를 생성 완료해야만 이를 기준으로 다음 밀리초를 예측할 수 있습니다. 이 방법은 안정적이지만 매우 쉽게 막히고 속도가 느립니다.
신급 예측(비자기회귀 NAR): 후속 모델은 지속 시간 예측기(Duration Predictor) 를 도입하여, 더 이상 줄 서서 생성하지 않고 각 음소에 대해 한 번에 "점괘"를 쳐서 그 지속 시간을 정한 후, 병렬로 순간 병렬 출력 전체 문장 오디오를 생성합니다.
상미분방정식 고속도로(Flow Matching): 이는 현재의 궁극적 최전선 방안(F5-TTS 등)입니다. 연속 정규화 흐름과 상미분방정식(ODE) 등 복잡한 수학 원리를 활용하여 전통적인 경직된 조립을 폐기합니다. 모델이 학습하는 것은 "순수 백색 잡음"에서 "완벽한 스펙트로그램"으로의 최적 직행 운동 궤적(확률 흐름)입니다. 계산 효율이 기하급수적으로 상승할 뿐만 아니라, 소리의 부드러움과 자연스러움도 정점에 도달했습니다.

📝

Text processing

Tokenize & phonemes

→

🔢

Text embedding

Feature extraction

→

🌊

Flow matching

Optimal transport

→

🔊

Vocoder

Spectrum to waveform

📝

Text processing

Convert input text into a phoneme sequence

Input:Raw text

Output:Phoneme sequence

Tech:G2P

📊 Architecture comparison

Feature

Autoregressive

Non-autoregressive

Flow matching

Generation speed

Slow

Fast

Very fast

Audio quality

High

Medium-high

High

Stability

Medium

High

Controllability

Medium

High

🏆 Representative models

Tacotron 2

Classic AR model with excellent audio quality

FastSpeech 2

NAR

Parallel generation with high speed

F5-TTS

Flow

Recent SOTA, generated in 10 steps

CosyVoice

Flow

Alibaba open-source model with multilingual support

💡

TTS evolution trend: TTS has moved from early autoregressive models such as Tacotron, to non-autoregressive models such as FastSpeech, and now to flow matching models such as F5-TTS. The direction is faster, more stable, and higher-quality synthesis.

5. 제로샷 음성 복제(Zero-Shot Voice Cloning)

불과 몇 년 전만 해도 AI로 누군가의 목소리를 모방하려면, 극도로 조용한 녹음실에서 수만 문장을 녹음하고 며칠 동안 모델을 학습시켜야 했습니다. 하지만 오늘날에는 단 3초의 음성 클립만으로 AI가 진짜와 구분할 수 없을 정도로 모방할 수 있습니다.

이 뒤에는 핵심 기술이 있습니다: 화자 특징 인코더(Speaker Encoder) 와 메트릭 러닝.

이는 단순한 청취기가 아니라 "유전자 추출기" 입니다. 그 임무는 오디오에서 배경 소음과 구체적으로 무엇을 말했는지(Text)를 분리해 내고, 당신의 생리적 고정 특징만을 강제로 유일하게 포착하는 것입니다: 성대는 얼마나 넓은가? 공명강은 얼마나 큰가? 발음 습관은 어떤가?
이러한 특징은 최종적으로 수백 차원의 화자 임베딩 벡터(Speaker Embeddings, x-vector 등) 로 압축됩니다. 이 바코드와 같은 숫자열은 당신의 음성 정체성을 완전히 표현합니다. 이후 TTS 모델은 이 벡터를 "착용"하고 조건부 생성을 하면, 출력되는 모든 언어에 당신의 목소리 특색이 담기게 됩니다.

1 Provide reference audio

👨

Male voice A

Low and magnetic

👩

Female voice B

Gentle and sweet

🧒

Child voice

Lively and cute

👴

Elder voice

Weathered and steady

2 AI learns voice features

📂

Load audio

→

🔢

Encode features

→

🎨

Extract timbre

→

💎

Build embedding

3 Enter text to generate speech

💡 Voice cloning tips

⏱️

Reference duration

3-10 seconds is enough; quality matters more than length.

🔇

Environment

Use a quiet environment and avoid background noise.

🗣️

Content choice

Audio with varied pitch and speaking speed works better.

🔬

Technical principle: Voice cloning extracts timbre, intonation, and speaking style from reference audio to build a speaker embedding. During generation, the TTS model combines text content with this speaker embedding to synthesize speech similar to the reference voice.

6. 영혼 부여: 감정 리듬과 세밀한 스타일 제어

"정말이야?"라는 한 마디는 놀라움이 될 수도 있고, 분노 어린 의심이 될 수도 있습니다. 상업적 수준의 고급 AI는 "글자를 정확히 읽는 것"뿐만 아니라 "감정을 담아야" 합니다.

학계에서는 전역 스타일 Token(GST) 과 특징 병목 메커니즘을 제안했습니다. 대형 모델은 방대한 인간 연기 녹음에서 "슬픔", "흥분", "나른함" 등 추상적인 소프트 벡터를 클러스터링하여 추출할 수 있습니다. 엔지니어링 실전에서는 기본 주파수(F0, 음높이 조절), 에너지(Energy, 음량 파열음 조절) 등 직관적인 어댑터 조절 파라미터를 도입하여, 게임 캐릭터 얼굴을 조작하듯 "음성 감정"을 정교하게 조절할 수 있는 능력을 창작자에게 부여했습니다.

Choose emotion style

😐

Neutral

Steady and natural

😊

Happy

Light and cheerful

😢

Sad

Low and slow

😠

Angry

Forceful and intense

🤩

Excited

Warm and energetic

😌

Calm

Relaxed and soothing

Emotion Embedding Space

Neutral Happy Sad Angry Excited Calm

🎚️ Fine-grained controls

Speed1x

SlowNormalFast

Pitch0

LowNormalHigh

Energy dynamics100%

SoftModerateIntense

Pause control150ms

CompactNaturalRelaxed

🎙️ Preview synthesis

💡Emotion control: Modern TTS systems can synthesize natural speech and precisely control emotion, speed, pitch, and other style features. This lets AI voiceover adapt to different scenarios, from calm customer-service dialogs to energetic speeches.

7. 결론

기본적인 디지털 신호 변환(PCM)에서 차원 축소 정제(Mel-Spectrogram), 그리고 현재 큰 인기를 끌고 있는 "Flow Matching 알고리즘"과 "Neural Codec" 기반의 멀티모달 대형 기반 모델에 이르기까지, 오디오 AI는 기계적 모방에서 네이티브 이해로의 도약을 펼치고 있습니다.

미래의 AI 에이전트(Agent)는 인간의 시각, 청각, 언어의 고차원적 연결을 완전히 개통하여, 실제 인간의 직관을 가진 것처럼 모든 소통에 응답할 것입니다!

8. 핵심 용어 빠른 참조 (Glossary)

용어	영문 전체 명칭	해석
PCM	Pulse-Code Modulation	펄스 부호 변조, 가장 원시적이고 방대한 1차원 오디오 파형 기록 방식.
STFT	Short-Time Fourier Transform	단시간 푸리에 변환, 소리를 시간에 따른 단일 진폭에서 주파수와 에너지를 겸비한 수학적 분석 방법으로 변환.
멜 스펙트로그램	Mel-Spectrogram	대형 모델이 소리를 처리하는 기초 특징: 로그 및 인간의 비선형 청각 선호도에 맞게 조정된 고가치 2차원 오디오 스펙트럼.
뉴럴 코덱	Neural Codec	극도로 강력한 변분 오토인코더 잔차 기술을 통해 대용량 연속 음파를 고도로 압축하여 이산 기호(Token)로 변환하는 AI 컴포넌트.
Vocoder	보코더	"역방향 번역가": 2차원 멜 스펙트로그램을 다시 물리적으로 렌더링하여 스피커를 구동할 수 있는 1차원 오디오 파형으로 복원.
Speaking Embeddings	화자 특징 벡터	특정 인물의 고유한 음색을 고정하는 매우 높은 차원의 불변 수학적 ID(x-vector 등).
Flow Matching	플로우 매칭	정규 분포를 경험적 데이터 분포로 변환하는, 고비용 확률 미분 계산 없이 상미분방정식을 따라 정상적인 직선 평활 생성 경로를 구축하는 최첨단 AI 추론 과정.

음성 합성 및 인식 원리

0. 서론: 물리적 음파의 "디지털 번역"

1. 특징 공학: AI에게 "인간의 귀"를 달아주기

1.1 한 줄에서 한 장의 그림으로: 단시간 푸리에 변환(STFT)

1.2 청각 습관에 맞추기: 멜 스케일(Mel Scale)

2. 대형 모델이 "외국어"를 배우게 하기: 두 가지 주류 생성 패러다임

2.1 패러다임 1: 소리를 문자처럼 (Audio Tokenization)

2.2 패러다임 2: 소리를 그림처럼 (Spectrogram Generation)

3. 양방향 상호 역: ASR과 TTS의 협력적 번역

4. "치약 짜기"에서 "직통열차"로: TTS 핵심 아키텍처 세대 교체

5. 제로샷 음성 복제(Zero-Shot Voice Cloning)

6. 영혼 부여: 감정 리듬과 세밀한 스타일 제어

Global Style Token

Reference audio encoding

Fine-grained control

7. 결론

8. 핵심 용어 빠른 참조 (Glossary)

음성 합성 및 인식 원리 ​

0. 서론: 물리적 음파의 "디지털 번역" ​

1. 특징 공학: AI에게 "인간의 귀"를 달아주기 ​

1.1 한 줄에서 한 장의 그림으로: 단시간 푸리에 변환(STFT) ​

1.2 청각 습관에 맞추기: 멜 스케일(Mel Scale) ​

2. 대형 모델이 "외국어"를 배우게 하기: 두 가지 주류 생성 패러다임 ​

2.1 패러다임 1: 소리를 문자처럼 (Audio Tokenization) ​

2.2 패러다임 2: 소리를 그림처럼 (Spectrogram Generation) ​

3. 양방향 상호 역: ASR과 TTS의 협력적 번역 ​

4. "치약 짜기"에서 "직통열차"로: TTS 핵심 아키텍처 세대 교체 ​

5. 제로샷 음성 복제(Zero-Shot Voice Cloning) ​

6. 영혼 부여: 감정 리듬과 세밀한 스타일 제어 ​

7. 결론 ​

8. 핵심 용어 빠른 참조 (Glossary) ​

음성 합성 및 인식 원리

0. 서론: 물리적 음파의 "디지털 번역"

1. 특징 공학: AI에게 "인간의 귀"를 달아주기

1.1 한 줄에서 한 장의 그림으로: 단시간 푸리에 변환(STFT)

1.2 청각 습관에 맞추기: 멜 스케일(Mel Scale)

2. 대형 모델이 "외국어"를 배우게 하기: 두 가지 주류 생성 패러다임

2.1 패러다임 1: 소리를 문자처럼 (Audio Tokenization)

2.2 패러다임 2: 소리를 그림처럼 (Spectrogram Generation)

3. 양방향 상호 역: ASR과 TTS의 협력적 번역

4. "치약 짜기"에서 "직통열차"로: TTS 핵심 아키텍처 세대 교체

5. 제로샷 음성 복제(Zero-Shot Voice Cloning)

6. 영혼 부여: 감정 리듬과 세밀한 스타일 제어

7. 결론

8. 핵심 용어 빠른 참조 (Glossary)