Skip to content

신경망과 딥러닝

서문

신경망은 AI 혁명의 엔진입니다. ChatGPT의 언어 이해부터 자율주행의 이미지 인식까지, 그 뒤에는 모두 신경망이 작동하고 있습니다. 이것은 마법이 아니라, 방대한 데이터를 통해 입력과 출력 간의 매핑 관계를 "학습"하는 정교한 수학적 프레임워크입니다. 기본 원리를 이해하면 AI 도구를 더 잘 사용하고 디버깅할 수 있습니다.

이 글에서 무엇을 배울 수 있을까요?

이 장을 마치면 다음을 얻을 수 있습니다:

  • 핵심 개념: 뉴런, 레이어, 순전파, 역전파의 기본 원리 이해
  • 네트워크 유형: CNN, RNN, Transformer 등 주요 아키텍처의 특징과 적용 시나리오
  • 학습 과정: 모델이 데이터에서 어떻게 "학습"하는지 이해
  • 핵심 기법: 과적합, 학습률, 정규화 등 실용적인 개념 습득
  • 발전 과정: 퍼셉트론부터 대규모 언어 모델까지의 진화 과정
내용핵심 개념
제 1 장뉴런에서 네트워크로퍼셉트론, 활성화 함수, 순전파
제 2 장네트워크의 학습 방법손실 함수, 경사 하강법, 역전파
제 3 장주요 네트워크 아키텍처CNN, RNN, Transformer
제 4 장학습의 기술과적합, 정규화, 하이퍼파라미터 튜닝
제 5 장발전 과정과 최전선퍼셉트론에서 GPT까지

1. 뉴런에서 네트워크로

단일 뉴런

신경망의 최소 단위는 뉴런(Neuron)입니다. 이는 생물학적 뉴런의 작동 방식을 모방합니다: 여러 입력 신호를 받아 가중 합을 계산하고, 활성화 함수를 통해 출력을 생성합니다.

입력 x1 ──→ ×w1 ──┐
입력 x2 ──→ ×w2 ──┼──→ Σ(가중 합) + b(편향) ──→ f(활성화 함수) ──→ 출력
입력 x3 ──→ ×w3 ──┘

수학적 표현: y = f(w₁x₁ + w₂x₂ + w₃x₃ + b)

How a Neuron Works
Adjust inputs and weights to see how the neuron output changes
Input × Weight
0.5
×
0.8
=0.40
-0.3
×
1.2
=-0.36
0.7
×
-0.5
=-0.35
Weighted sum + bias (0.1)
-0.21
Activation: Sigmoid
0.4477
0.1

활성화 함수: 비선형성이 필요한 이유

활성화 함수가 없다면, 아무리 많은 뉴런 레이어를 쌓아도 결국 하나의 선형 변환(행렬 곱셈)과 동일합니다. 활성화 함수는 비선형성을 도입하여 네트워크가 복잡한 패턴을 학습할 수 있게 합니다.

활성화 함수공식특징주요 사용처
ReLUmax(0, x)간단하고 효율적, 학습이 빠름은닉층의 기본 선택
Sigmoid1/(1+e⁻ˣ)출력 0~1이진 분류 출력층
Tanh(eˣ-e⁻ˣ)/(eˣ+e⁻ˣ)출력 -1~1RNN에서 자주 사용
Softmaxeˣᵢ/Σeˣⱼ확률 분포 출력다중 분류 출력층

뉴런에서 네트워크로

여러 뉴런을 레이어로 구성하고, 여러 레이어를 직렬로 연결하면 신경망이 됩니다:

입력층           은닉층1         은닉층2         출력층
(특징)         (저수준 특징 추출) (고수준 특징 추출) (예측 결과)

 x1 ──→  [○ ○ ○ ○] ──→ [○ ○ ○] ──→  [○ ○]
 x2 ──→  [○ ○ ○ ○] ──→ [○ ○ ○] ──→  고양이/개
 x3 ──→  [○ ○ ○ ○] ──→ [○ ○ ○]
개념설명
입력층원시 데이터를 받아들임 (이미지 픽셀, 텍스트 벡터 등)
은닉층중간 처리 레이어, 레이어가 많을수록 네트워크가 더 "깊어짐" (딥러닝의 "딥")
출력층최종 예측 생성 (분류 확률, 회귀 값 등)
순전파데이터가 입력층에서 출력층으로 레이어를 따라 흐르는 과정

왜 "딥"러닝이라고 할까요?

전통적인 머신러닝은 보통 1~2개 레이어만 사용합니다. 은닉층 수가 수십에서 수백 개로 늘어나면 "딥"러닝이라고 부릅니다. 더 깊은 네트워크는 더 추상적인 특징을 학습할 수 있습니다: 첫 번째 레이어는 에지를, 두 번째 레이어는 질감을, 세 번째 레이어는 부품을, 더 깊은 레이어는 "이것은 고양이"라는 것을 학습합니다.


2. 네트워크의 학습 방법

신경망의 "학습"은 본질적으로 최적화 문제입니다: 네트워크의 예측이 실제 정답에 최대한 가까워지도록 가중치(w)와 편향(b)의 집합을 찾는 것입니다.

학습 3단계

1. 순전파: 데이터를 입력하여 예측 결과 얻기
2. 손실 계산: 손실 함수로 예측과 실제 값의 차이 측정
3. 역전파: 손실에 기반하여 각 가중치의 기울기를 계산하고 가중치 업데이트

손실이 충분히 작아질 때까지 위 단계 반복

손실 함수: "얼마나 틀렸는지" 측정

손실 함수(Loss Function)는 예측값과 실제값 사이의 차이를 정량화합니다. 학습의 목표는 손실을 최소화하는 것입니다.

손실 함수공식 요약적용 시나리오
MSE (평균 제곱 오차)예측값과 실제값 차이의 제곱 평균회귀 문제
Cross-Entropy (교차 엔트로피)-Σ y·log(ŷ)분류 문제
Binary Cross-Entropy교차 엔트로피의 이진 분류 버전이진 분류 문제

경사 하강법: 가장 낮은 지점 찾기

산 정상에서 눈을 가린 채 가장 낮은 지점으로 걸어간다고 상상해 보세요. 할 수 있는 일은 발밑의 경사를 확인하고, 내리막 방향으로 한 걸음 나아가는 것뿐입니다. 이것이 경사 하강법입니다.

손실값

  │    ╱╲
  │   ╱  ╲      ← 현재 위치
  │  ╱    ╲    ↙ 경사 방향으로 하강
  │ ╱      ╲╱   ← 지역 최소값
  │╱            ╲╱  ← 전역 최소값
  └──────────────→ 가중치 값
개념설명
기울기각 가중치에 대한 손실 함수의 편미분, "어느 방향으로 조정해야 손실이 줄어드는지"를 나타냄
학습률한 걸음에 얼마나 나아갈지. 너무 크면 최저점을 지나치고, 너무 작으면 수렴이 너무 느림
배치 크기매번 몇 개의 샘플로 기울기를 계산할지. 전체는 너무 느리고, 단일 샘플은 너무 불안정하며, 미니 배치가 절충안

역전파: 연쇄 법칙의 승리

역전파(Backpropagation)는 기울기를 효율적으로 계산하는 알고리즘입니다. 미적분의 연쇄 법칙을 활용하여 출력층부터 시작해 각 가중치가 손실에 기여한 정도를 레이어별로 역순으로 계산합니다.

순전파: 입력 → 은닉층1 → 은닉층2 → 출력 → 손실
역전파: 손실 → 출력 → 은닉층2 → 은닉층1 → 모든 가중치 업데이트

역전파 직관적으로 이해하기

신경망을 생산 라인이라고 생각해 보세요. 제품(예측)에 문제(손실이 큼)가 생기면, 마지막 공정부터 거꾸로 추적하여 각 공정(각 레이어의 가중치)이 최종 문제에 얼마나 기여했는지 확인하고, 기여도에 따라 조정합니다. 기여도가 큰 것은 많이, 작은 것은 적게 조정합니다.


3. 주요 네트워크 아키텍처

데이터 유형에 따라 적합한 네트워크 아키텍처가 다릅니다. 올바른 아키텍처를 선택하면 절반의 노력으로 두 배의 효과를 얻을 수 있습니다.

Common Neural Network Layer Types
Click a layer to inspect its role and parameters
Dense layer
Each neuron connects to every neuron in the previous layer. This is the most basic layer type and learns combinations of input features.
units (number of neurons)activation
Output layers for classification or regression, and simple feature extraction
Dense(128, activation="relu")

3.1 CNN (합성곱 신경망)

CNN은 이미지 처리의 제왕입니다. 핵심 아이디어: 작은 합성곱 커널을 이미지 위에서 슬라이딩하며 지역적 특징을 추출합니다.

입력 이미지 → [합성곱층→활성화→풀링] × N → 완전연결층 → 출력
  28×28          에지/질감/형태 추출              분류 결과
특징설명
지역 연결각 뉴런은 전체 이미지가 아닌 작은 영역만 봄
파라미터 공유동일한 합성곱 커널을 전체 이미지에서 재사용하여 파라미터 대폭 감소
이동 불변성고양이가 이미지 왼쪽에 있든 오른쪽에 있든 인식 가능
계층적 특징얕은 층은 에지를, 깊은 층은 의미를 학습

대표 모델: LeNet, AlexNet, VGG, ResNet, EfficientNet

3.2 RNN (순환 신경망)

RNN은 시퀀스 데이터를 위해 설계되었습니다. 은닉 상태가 다음 시간 단계로 전달되어 네트워크에 "기억" 능력을 부여합니다.

시간 단계 t1   시간 단계 t2   시간 단계 t3
  "나"  ──→   "는"  ──→  "고양이를 좋아한다"
   ↓           ↓           ↓
  [h1]  ──→  [h2]   ──→  [h3] ──→ 출력
   ↑           ↑           ↑
  은닉 상태가 시간 단계 간에 전달됨 (기억)
변형해결한 문제핵심 메커니즘
기본 RNN기본 시퀀스 모델링단순 순환 연결
LSTM긴 시퀀스의 기울기 소실망각 게이트, 입력 게이트, 출력 게이트
GRULSTM 파라미터 과다리셋 게이트와 업데이트 게이트로 단순화
양방향 RNN과거만 볼 수 있음순방향과 역방향 동시 처리

LSTM의 게이트 메커니즘

LSTM의 정교함은 세 개의 "게이트"에 있습니다: 망각 게이트는 어떤 오래된 기억을 버릴지 결정하고, 입력 게이트는 어떤 새로운 정보를 저장할지 결정하며, 출력 게이트는 어떤 내용을 출력할지 결정합니다. 마치 책을 읽을 때 중요한 줄거리는 선택적으로 기억하고 관련 없는 세부 사항은 잊는 것과 같습니다.

3.3 Transformer: 어텐션이 전부다

2017년 Google이 발표한 "Attention Is All You Need" 논문은 Transformer를 제안하며 AI 분야를 완전히 바꾸었습니다. 순환 구조 대신 셀프 어텐션 메커니즘을 사용하며, GPT, BERT, Claude 등 대규모 모델의 기반이 되었습니다.

입력 시퀀스 → 임베딩 + 위치 인코딩 → [멀티헤드 어텐션 → 피드포워드 네트워크] × N → 출력

                              각 단어가 다른 모든 단어를 "볼" 수 있음
장점설명
병렬 계산RNN처럼 단계별 처리가 필요 없이 전체 시퀀스를 병렬 처리 가능
장거리 의존성임의의 두 위치 간에 거리 제한 없이 직접 연결 수립
확장성모델이 커지고 데이터가 많을수록 효과가 좋아짐 (Scaling Law)

셀프 어텐션의 직관: "고양이가 매트 위에 앉아 있다, 왜냐하면 그것이 피곤하기 때문이다"라는 문장을 읽을 때, "그것"은 "고양이"에 주목해야 의미를 이해할 수 있습니다. 셀프 어텐션은 모델이 이러한 연관성을 학습하도록 합니다 — 시퀀스의 모든 단어 쌍에 대해 "연관성 점수"를 계산합니다.

Common Neural Network Architectures
Click to inspect each architecture, its characteristics, and applications
Feedforward neural network(FNN)
1958
The most basic neural network structure. Data flows one way from the input layer through hidden layers to the output layer, with no recurrence. Neurons in each layer connect to all neurons in the next layer.
Network structure
Input layer Hidden layers ×N Output layer
Typical applications
ClassificationRegressionFunction approximation
Key idea:Map inputs to outputs through multiple nonlinear transformations. More layers can represent more complex functions.

4. 학습의 기술

좋은 아키텍처만으로는 충분하지 않습니다. 학습 과정에서 피해야 할 많은 "함정"이 있습니다.

4.1 과적합 vs 과소적합

문제증상원인해결책
과적합학습셋 성능은 좋지만 테스트셋 성능은 나쁨모델이 너무 복잡하여 "답을 암기"하고 규칙을 학습하지 못함정규화, Dropout, 데이터 증강, 조기 종료
과소적합학습셋과 테스트셋 모두 성능이 나쁨모델이 너무 단순하여 규칙을 학습하지 못함모델 용량 증가, 더 오래 학습, 더 나은 특성
오차

  │ ╲  학습 오차          테스트 오차  ╱
  │  ╲                                ╱
  │   ╲──────────────────────╱
  │    과소적합 ← 최적점 → 과적합
  └──────────────────────────→ 모델 복잡도

4.2 주요 하이퍼파라미터

하이퍼파라미터는 학습 전에 사람이 설정해야 하는 파라미터입니다(모델이 스스로 학습하는 것이 아님):

하이퍼파라미터역할일반적인 범위튜닝 제안
학습률단계별 업데이트 크기1e-5 ~ 1e-1가장 중요한 하이퍼파라미터, 보통 1e-3부터 시작
배치 크기매번 학습에 사용할 샘플 수16 ~ 512클수록 학습이 안정적이지만 더 많은 메모리 필요
에포크 (Epoch)전체 데이터셋을 순회하는 횟수10 ~ 100+조기 종료와 함께 사용, 검증셋이 더 이상 개선되지 않으면 중단
옵티마이저기울기 업데이트 전략Adam, SGDAdam이 기본 선택, SGD+모멘텀은 정밀 튜닝에 적합

4.3 정규화 기법

과적합을 방지하는 일반적인 방법:

기법원리사용 방법
Dropout학습 시 무작위로 일부 뉴런 비활성화보통 p=0.1~0.5
가중치 감쇠손실 함수에 가중치 크기에 대한 페널티 추가L2 정규화, λ=1e-4
데이터 증강학습 데이터에 무작위 변환 적용 (뒤집기, 자르기, 회전)이미지 작업에 필수
조기 종료검증셋 손실이 더 이상 감소하지 않으면 학습 중단patience=5~10
Batch Normalization각 레이어의 입력 분포 정규화수렴 가속, 경미한 정규화 효과

학습의 경험 법칙

  1. 먼저 작은 데이터셋으로 전체 파이프라인을 실행하여 코드에 버그가 없는지 확인하세요
  2. 처음부터 학습하는 대신 기존 사전 학습 모델에서 미세 조정을 시작하세요
  3. 학습률은 시간을 들여 튜닝할 가치가 가장 높은 하이퍼파라미터입니다
  4. 학습 손실이 감소하지 않는다면, 모델을 의심하기 전에 먼저 데이터와 코드를 확인하세요

5. 발전 과정과 최전선

신경망의 발전은 여러 번의 "겨울"과 "부흥"을 겪었으며, 각각의 돌파구는 핵심적인 기술 혁신에서 비롯되었습니다.

연대이정표핵심 돌파구
1958퍼셉트론 (Perceptron)최초의 신경망 모델, 선형 문제만 처리 가능
1986역전파 알고리즘다층 네트워크 학습을 가능하게 함
1998LeNet (CNN)합성곱 네트워크가 손글씨 숫자 인식에서 대성공
2012AlexNet딥 CNN이 ImageNet에서 전통적 방법을 압도, 딥러닝 폭발적 성장
2014GAN (생성적 적대 신경망)두 네트워크의 적대적 학습으로 사실적 이미지 생성
2017Transformer"Attention Is All You Need", 어텐션 메커니즘이 RNN을 대체
2018BERT사전 학습+미세 조정 패러다임, NLP 전면적 돌파
2020GPT-31750억 파라미터, 대규모 모델의 창발적 능력 입증
2022ChatGPTRLHF 정렬 기술, AI가 대중의 시야에 진입
2023+멀티모달 대규모 모델GPT-4V, Claude 등, 텍스트와 이미지를 동시에 이해

현재 트렌드

방향설명
대규모 언어 모델 (LLM)파라미터 수가 억에서 조 단위로, 추론·프로그래밍 등 능력 창발
멀티모달하나의 모델이 텍스트, 이미지, 오디오, 비디오 처리
효율적 미세 조정LoRA, QLoRA 등 기술로 일반 개발자도 대규모 모델 미세 조정 가능
AI 에이전트대규모 모델이 도구를 사용하고 작업을 계획하며 복잡한 목표를 자율적으로 완수
소형 모델 증류대규모 모델의 지식으로 소형 모델을 학습시켜 엣지 디바이스에 배포

개발자를 위한 시사점

신경망을 처음부터 학습시킬 필요는 없습니다. 현대 AI 개발은 API 호출(OpenAI, Claude API 등)이나 사전 학습 모델 미세 조정(Hugging Face 등)이 더 일반적입니다. 그러나 기본 원리를 이해하면 모델 선택, 프롬프트 설계, 문제 진단을 더 잘할 수 있습니다.


정리

핵심 개념한 줄 요약
뉴런가중 합 + 활성화 함수, 네트워크의 최소 계산 단위
순전파데이터가 입력층에서 출력층으로 레이어를 따라 흐르며 예측 생성
역전파손실에서 출발하여 레이어별로 기울기를 계산하고 가중치 업데이트
CNN합성곱 커널로 지역적 특징 추출, 이미지 처리의 첫 번째 선택
RNN/LSTM순환 연결로 기억 유지, 시퀀스 데이터 처리
Transformer셀프 어텐션으로 병렬 처리, 대규모 모델의 기본 아키텍처
과적합모델이 "답을 암기", 정규화·Dropout 등으로 방지
전이 학습거인의 어깨 위에 서서, 사전 학습 모델을 미세 조정하여 새로운 문제 해결

추가 자료