Skip to content

Mạng Nơ-ron và Học Sâu

Lời mở đầu

Mạng nơ-ron là động cơ của cuộc cách mạng AI. Từ hiểu ngôn ngữ của ChatGPT đến nhận dạng hình ảnh trong xe tự lái, đằng sau tất cả đều có mạng nơ-ron hoạt động. Nó không phải là phép thuật, mà là một khung toán học tinh xảo — "học" ánh xạ từ đầu vào sang đầu ra thông qua lượng lớn dữ liệu. Hiểu nguyên lý cơ bản của nó sẽ giúp bạn sử dụng và gỡ lỗi các công cụ AI tốt hơn.

Bài viết này sẽ giúp bạn học được gì?

Sau khi học xong chương này, bạn sẽ nắm được:

  • Khái niệm cốt lõi:Hiểu nguyên lý cơ bản của nơ-ron, tầng, lan truyền xuôi, lan truyền ngược
  • Các loại mạng:Hiểu đặc điểm và tình huống áp dụng của các kiến trúc chính như CNN, RNN, Transformer
  • Quá trình huấn luyện:Hiểu cách mô hình "học" từ dữ liệu
  • Kỹ thuật then chốt:Nắm vững các khái niệm thực tế như overfitting, learning rate, regularization
  • Mạch phát triển:Hiểu hành trình phát triển từ Perceptron đến các mô hình ngôn ngữ lớn
ChươngNội dungKhái niệm cốt lõi
Chương 1Từ nơ-ron đến mạngPerceptron, hàm kích hoạt, lan truyền xuôi
Chương 2Mạng học như thế nàoHàm mất mát, gradient descent, lan truyền ngược
Chương 3Kiến trúc mạng chínhCNN, RNN, Transformer
Chương 4Nghệ thuật huấn luyệnOverfitting, regularization, tinh chỉnh siêu tham số
Chương 5Lịch sử phát triển và xu hướngTừ Perceptron đến GPT

1. Từ nơ-ron đến mạng

Nơ-ron đơn lẻ

Đơn vị nhỏ nhất của mạng nơ-ron là nơ-ron (Neuron). Nó mô phỏng cách thức hoạt động của nơ-ron sinh học:nhận nhiều tín hiệu đầu vào, tính tổng có trọng số, và tạo ra đầu ra thông qua hàm kích hoạt.

Đầu vào x1 ──→ ×w1 ──┐
Đầu vào x2 ──→ ×w2 ──┼──→ Σ(tổng có trọng số) + b(bias) ──→ f(hàm kích hoạt) ──→ Đầu ra
Đầu vào x3 ──→ ×w3 ──┘

Biểu thức toán học:y = f(w₁x₁ + w₂x₂ + w₃x₃ + b)

How a Neuron Works
Adjust inputs and weights to see how the neuron output changes
Input × Weight
0.5
×
0.8
=0.40
-0.3
×
1.2
=-0.36
0.7
×
-0.5
=-0.35
Weighted sum + bias (0.1)
-0.21
Activation: Sigmoid
0.4477
0.1

Hàm kích hoạt:Tại sao cần phi tuyến?

Nếu không có hàm kích hoạt, dù có bao nhiêu tầng nơ-ron chồng lên nhau, kết quả cuối cùng cũng chỉ tương đương với một phép biến đổi tuyến tính (phép nhân ma trận). Hàm kích hoạt đưa vào tính phi tuyến, cho phép mạng học được các mẫu phức tạp.

Hàm kích hoạtCông thứcĐặc điểmTình huống thường dùng
ReLUmax(0, x)Đơn giản, hiệu quả, huấn luyện nhanhLựa chọn mặc định cho tầng ẩn
Sigmoid1/(1+e⁻ˣ)Đầu ra 0~1Tầng đầu ra cho phân loại nhị phân
Tanh(eˣ-e⁻ˣ)/(eˣ+e⁻ˣ)Đầu ra -1~1Thường dùng trong RNN
Softmaxeˣᵢ/ΣeˣⱼĐầu ra là phân phối xác suấtTầng đầu ra cho phân loại đa lớp

Từ nơ-ron đến mạng

Tổ chức nhiều nơ-ron thành các tầng, nhiều tầng nối tiếp nhau, tạo nên mạng nơ-ron:

Tầng đầu vào      Tầng ẩn 1         Tầng ẩn 2        Tầng đầu ra
(đặc trưng)      (trích xuất        (trích xuất       (dự đoán kết quả)
                  đặc trưng cấp thấp) đặc trưng cấp cao)

 x1 ──→  [○ ○ ○ ○] ──→ [○ ○ ○] ──→  [○ ○]
 x2 ──→  [○ ○ ○ ○] ──→ [○ ○ ○] ──→  mèo/chó
 x3 ──→  [○ ○ ○ ○] ──→ [○ ○ ○]
Khái niệmGiải thích
Tầng đầu vàoNhận dữ liệu thô (điểm ảnh, vector văn bản, v.v.)
Tầng ẩnTầng xử lý trung gian, càng nhiều tầng mạng càng "sâu" (chữ "sâu" trong học sâu)
Tầng đầu raTạo dự đoán cuối cùng (xác suất phân loại, giá trị hồi quy, v.v.)
Lan truyền xuôiQuá trình dữ liệu chảy từ tầng đầu vào qua các tầng đến tầng đầu ra

Tại sao gọi là học "sâu"?

Machine learning truyền thống thường chỉ có 1-2 tầng. Khi số tầng ẩn tăng lên hàng chục thậm chí hàng trăm tầng, người ta gọi đó là học "sâu". Mạng càng sâu có thể học được các đặc trưng trừu tượng hơn:tầng đầu học cạnh viền, tầng thứ hai học kết cấu, tầng thứ ba học bộ phận, các tầng sâu hơn học được "đây là một con mèo".


2. Mạng học như thế nào

"Việc học" của mạng nơ-ron bản chất là một bài toán tối ưu:tìm một tập trọng số (w) và bias (b), sao cho dự đoán của mạng gần với đáp án thật nhất có thể.

Ba bước huấn luyện

1. Lan truyền xuôi:Đưa dữ liệu vào, nhận kết quả dự đoán
2. Tính mất mát:Dùng hàm mất mát đo khoảng cách giữa dự đoán và giá trị thật
3. Lan truyền ngược:Dựa trên mất mát, tính gradient cho từng trọng số, cập nhật trọng số

Lặp lại các bước trên, cho đến khi mất mát đủ nhỏ

Hàm mất mát:Đo lường "sai đến mức nào"

Hàm mất mát (Loss Function) định lượng khoảng cách giữa giá trị dự đoán và giá trị thật. Mục tiêu của huấn luyện là tối thiểu hóa mất mát.

Hàm mất mátTóm tắt công thứcTình huống áp dụng
MSE (Mean Squared Error)Trung bình bình phương sai khác giữa dự đoán và giá trị thậtBài toán hồi quy
Cross-Entropy-Σ y·log(ŷ)Bài toán phân loại
Binary Cross-EntropyPhiên bản nhị phân của cross-entropyBài toán phân loại nhị phân

Gradient Descent:Tìm điểm thấp nhất

Hãy tưởng tượng bạn đứng trên một ngọn núi, bị bịt mắt và phải đi đến điểm thấp nhất. Điều bạn có thể làm là sờ độ dốc dưới chân, rồi bước một bước về hướng xuống dốc. Đây chính là gradient descent.

Giá trị mất mát

  │    ╱╲
  │   ╱  ╲      ← Vị trí hiện tại
  │  ╱    ╲    ↙ Đi xuống theo hướng gradient
  │ ╱      ╲╱   ← Cực tiểu cục bộ
  │╱            ╲╱  ← Cực tiểu toàn cục
  └──────────────→ Giá trị trọng số
Khái niệmGiải thích
GradientĐạo hàm riêng của hàm mất mát đối với từng trọng số, chỉ ra "điều chỉnh theo hướng nào để giảm mất mát"
Learning rateMỗi bước đi bao xa. Quá lớn sẽ nhảy qua điểm thấp nhất, quá nhỏ sẽ hội tụ quá chậm
Batch sizeMỗi lần dùng bao nhiêu mẫu để tính gradient. Toàn bộ quá chậm, một mẫu quá dao động, mini-batch là sự dung hòa

Lan truyền ngược:Chiến thắng của quy tắc dây chuyền

Lan truyền ngược (Backpropagation) là thuật toán hiệu quả để tính gradient. Nó tận dụng quy tắc dây chuyền (chain rule) của giải tích, bắt đầu từ tầng đầu ra, tính toán ngược từng tầng mức đóng góp của mỗi trọng số vào mất mát.

Lan truyền xuôi:Đầu vào → Tầng ẩn 1 → Tầng ẩn 2 → Đầu ra → Mất mát
Lan truyền ngược:Mất mát → Đầu ra → Tầng ẩn 2 → Tầng ẩn 1 → Cập nhật tất cả trọng số

Hiểu lan truyền ngược bằng trực giác

Hãy tưởng tượng mạng nơ-ron như một dây chuyền sản xuất. Sản phẩm (dự đoán) gặp vấn đề (mất mát lớn), bạn cần bắt đầu kiểm tra từ công đoạn cuối cùng trở về trước, xem mỗi công đoạn (mỗi trọng số tầng) đóng góp bao nhiêu vào vấn đề cuối cùng, rồi điều chỉnh theo mức đóng góp. Đóng góp nhiều thì điều chỉnh nhiều, đóng góp ít thì điều chỉnh ít.


3. Kiến trúc mạng chính

Các loại dữ liệu khác nhau cần các kiến trúc mạng khác nhau. Chọn đúng kiến trúc, hiệu quả gấp đôi.

Common Neural Network Layer Types
Click a layer to inspect its role and parameters
Dense layer
Each neuron connects to every neuron in the previous layer. This is the most basic layer type and learns combinations of input features.
units (number of neurons)activation
Output layers for classification or regression, and simple feature extraction
Dense(128, activation="relu")

3.1 CNN (Mạng Nơ-ron Tích Chập)

CNN là vua xử lý ảnh. Ý tưởng cốt lõi:dùng các kernel tích chập nhỏ trượt trên ảnh, trích xuất đặc trưng cục bộ.

Ảnh đầu vào → [Tầng tích chập→Kích hoạt→Pooling] × N → Tầng fully connected → Đầu ra
  28×28        Trích xuất cạnh/kết cấu/hình dạng      Kết quả phân loại
Đặc điểmGiải thích
Kết nối cục bộMỗi nơ-ron chỉ nhìn một vùng nhỏ, không phải toàn bộ ảnh
Chia sẻ tham sốCùng một kernel tích chập được tái sử dụng trên toàn bộ ảnh, giảm đáng kể tham số
Bất biến dịch chuyểnMèo ở bên trái hay bên phải ảnh, đều có thể nhận dạng
Đặc trưng phân cấpTầng nông học cạnh viền, tầng sâu học ngữ nghĩa

Các mô hình tiêu biểu:LeNet、AlexNet、VGG、ResNet、EfficientNet

3.2 RNN (Mạng Nơ-ron Hồi Quy)

RNN được thiết kế riêng cho dữ liệu chuỗi. Trạng thái ẩn của nó được truyền sang bước thời gian tiếp theo, cho phép mạng có khả năng "ghi nhớ".

Bước thời gian t1   Bước thời gian t2   Bước thời gian t3
  "Tôi" ──→         "thích" ──→          "mèo"
    ↓                  ↓                    ↓
  [h1]  ──→         [h2]   ──→          [h3] ──→ Đầu ra
    ↑                  ↑                    ↑
Trạng thái ẩn được truyền giữa các bước thời gian (bộ nhớ)
Biến thểVấn đề giải quyếtCơ chế cốt lõi
RNN gốcMô hình chuỗi cơ bảnKết nối vòng lặp đơn giản
LSTMGradient biến mất với chuỗi dàiCổng quên, cổng đầu vào, cổng đầu ra
GRULSTM có quá nhiều tham sốĐơn giản hóa thành cổng đặt lại và cổng cập nhật
RNN hai chiềuChỉ nhìn thấy quá khứXử lý đồng thời từ đầu đến cuối và từ cuối về đầu

Cơ chế cổng của LSTM

Điểm tinh tế của LSTM nằm ở ba "cổng":cổng quên quyết định loại bỏ những ký ức cũ nào, cổng đầu vào quyết định lưu thông tin mới nào, cổng đầu ra quyết định xuất ra nội dung nào. Giống như khi bạn đọc một cuốn sách, bạn sẽ chọn lọc ghi nhớ những tình tiết quan trọng và quên đi những chi tiết không liên quan.

3.3 Transformer:Chú ý là tất cả

Năm 2017, Google công bố bài báo "Attention Is All You Need" đề xuất Transformer, thay đổi hoàn toàn lĩnh vực AI. Nó thay thế cấu trúc vòng lặp bằng cơ chế tự chú ý (self-attention), là nền tảng của các mô hình lớn như GPT, BERT, Claude.

Chuỗi đầu vào → Embedding + Positional Encoding → [Multi-Head Attention → Feed-Forward] × N → Đầu ra

                                        Mỗi từ đều có thể "nhìn thấy" tất cả các từ khác
Ưu điểmGiải thích
Tính toán song songKhông như RNN phải xử lý tuần tự, Transformer có thể xử lý song song toàn bộ chuỗi
Phụ thuộc khoảng cách xaThiết lập liên kết trực tiếp giữa hai vị trí bất kỳ, không bị giới hạn bởi khoảng cách
Khả năng mở rộngMô hình càng lớn, dữ liệu càng nhiều, hiệu quả càng tốt (Scaling Law)

Trực giác về self-attention:Khi đọc câu "Con mèo nhỏ ngồi trên tấm đệm, vì rất mệt", từ "nó" cần tập trung vào "con mèo" để hiểu ý nghĩa. Self-attention cho phép mô hình học được mối liên kết này — tính một "điểm tương quan" cho mỗi cặp từ trong chuỗi.

Common Neural Network Architectures
Click to inspect each architecture, its characteristics, and applications
Feedforward neural network(FNN)
1958
The most basic neural network structure. Data flows one way from the input layer through hidden layers to the output layer, with no recurrence. Neurons in each layer connect to all neurons in the next layer.
Network structure
Input layer Hidden layers ×N Output layer
Typical applications
ClassificationRegressionFunction approximation
Key idea:Map inputs to outputs through multiple nonlinear transformations. More layers can represent more complex functions.

4. Nghệ thuật huấn luyện

Có kiến trúc tốt thôi chưa đủ, trong quá trình huấn luyện còn nhiều "cạm bẫy" cần tránh.

4.1 Overfitting vs Underfitting

Vấn đềBiểu hiệnNguyên nhânGiải pháp
OverfittingTập huấn luyện tốt, tập kiểm tra kémMô hình quá phức tạp, "học thuộc đáp án" thay vì quy luậtRegularization, Dropout, data augmentation, early stopping
UnderfittingCả tập huấn luyện và tập kiểm tra đều kémMô hình quá đơn giản, không học được quy luậtTăng năng lực mô hình, huấn luyện lâu hơn, đặc trưng tốt hơn
Sai số

  │ ╲  Sai số huấn luyện    Sai số kiểm tra  ╱
  │  ╲                                      ╱
  │   ╲─────────────────╱
  │  Underfitting ← Điểm tối ưu → Overfitting
  └──────────────────────────→ Độ phức tạp mô hình

4.2 Siêu tham số then chốt

Siêu tham số là các tham số cần được thiết lập thủ công trước khi huấn luyện (không phải do mô hình tự học):

Siêu tham sốVai tròPhạm vi phổ biếnGợi ý tinh chỉnh
Learning rateBiên độ cập nhật mỗi bước1e-5 ~ 1e-1Siêu tham số quan trọng nhất, thường bắt đầu từ 1e-3
Batch sizeSố mẫu dùng mỗi lần huấn luyện16 ~ 512Càng lớn huấn luyện càng ổn định, nhưng cần nhiều VRAM hơn
Số epochSố lần duyệt toàn bộ tập dữ liệu10 ~ 100+Kết hợp early stopping, dừng khi tập validation không còn cải thiện
OptimizerChiến lược cập nhật gradientAdam、SGDAdam là lựa chọn mặc định, SGD+momentum phù hợp tinh chỉnh

4.3 Kỹ thuật Regularization

Các biện pháp phổ biến để ngăn overfitting:

Kỹ thuậtNguyên lýCách sử dụng
DropoutNgẫu nhiên tắt một phần nơ-ron trong khi huấn luyệnThường p=0.1~0.5
Weight decayThêm hình phạt độ lớn của trọng số vào hàm mất mátL2 regularization, λ=1e-4
Data augmentationBiến đổi ngẫu nhiên dữ liệu huấn luyện (lật, cắt, xoay)Cần thiết cho tác vụ ảnh
Early stoppingDừng huấn luyện khi mất mát tập validation không còn giảmpatience=5~10
Batch NormalizationChuẩn hóa phân phối đầu vào của mỗi tầngTăng tốc hội tụ, có hiệu ứng regularization nhẹ

Quy tắc kinh nghiệm khi huấn luyện

  1. Trước tiên dùng tập dữ liệu nhỏ chạy thông toàn bộ quy trình, xác nhận code không có bug
  2. Bắt đầu từ mô hình pre-trained có sẵn để fine-tune, thay vì huấn luyện từ đầu
  3. Learning rate là siêu tham số đáng dành thời gian tinh chỉnh nhất
  4. Nếu mất mát huấn luyện không giảm, kiểm tra dữ liệu và code trước, rồi mới nghi ngờ mô hình

5. Lịch sử phát triển và xu hướng

Sự phát triển của mạng nơ-ron đã trải qua vài lần "mùa đông" và "hồi sinh", mỗi bước đột phá đều đến từ những đổi mới công nghệ then chốt.

Thời kỳCột mốcĐột phá then chốt
1958PerceptronMô hình mạng nơ-ron đầu tiên, chỉ xử lý được bài toán tuyến tính
1986Thuật toán lan truyền ngượcGiúp việc huấn luyện mạng nhiều tầng trở nên khả thi
1998LeNet (CNN)Mạng tích chập thành công lớn trong nhận dạng chữ số viết tay
2012AlexNetCNN sâu vượt trội các phương pháp truyền thống trên ImageNet, học sâu bùng nổ
2014GAN (Mạng Đối Kháng Sinh)Hai mạng huấn luyện đối kháng, có thể tạo ảnh chân thực
2017Transformer"Attention Is All You Need", cơ chế chú ý thay thế RNN
2018BERTMô hình pre-training + fine-tuning, NLP đột phá toàn diện
2020GPT-3175 tỷ tham số, thể hiện khả năng trồi sinh (emergence) của mô hình lớn
2022ChatGPTCông nghệ căn chỉnh RLHF, AI bước vào tầm nhìn đại chúng
2023+Mô hình lớn đa phương thứcGPT-4V, Claude, v.v., đồng thời hiểu văn bản và hình ảnh

Xu hướng hiện tại

HướngGiải thích
Mô hình ngôn ngữ lớn (LLM)Số tham số từ trăm triệu đến nghìn tỷ, trồi sinh khả năng suy luận, lập trình
Đa phương thứcCùng một mô hình xử lý văn bản, hình ảnh, âm thanh, video
Fine-tune hiệu quảLoRA, QLoRA và các kỹ thuật cho phép lập trình viên thông thường cũng fine-tune được mô hình lớn
AI AgentCho phép mô hình lớn sử dụng công cụ, lập kế hoạch, tự chủ hoàn thành mục tiêu phức tạp
Distillation mô hình nhỏDùng tri thức của mô hình lớn huấn luyện mô hình nhỏ, triển khai trên thiết bị biên

Gợi ý cho lập trình viên

Bạn không cần huấn luyện mạng nơ-ron từ đầu. Phát triển AI hiện đại chủ yếu là gọi API (như OpenAI, Claude API) hoặc fine-tune mô hình pre-trained (như dùng Hugging Face). Nhưng hiểu nguyên lý bên dưới sẽ giúp bạn chọn mô hình tốt hơn, thiết kế prompt tốt hơn, và chẩn đoán vấn đề tốt hơn.


Tổng kết

Khái niệm cốt lõiTóm tắt một câu
Nơ-ronTổng có trọng số + hàm kích hoạt, đơn vị tính toán nhỏ nhất của mạng
Lan truyền xuôiDữ liệu chảy từ tầng đầu vào qua các tầng đến tầng đầu ra, tạo dự đoán
Lan truyền ngượcTừ mất mát, tính gradient từng tầng, cập nhật trọng số
CNNKernel tích chập trích xuất đặc trưng cục bộ, lựa chọn hàng đầu cho xử lý ảnh
RNN/LSTMKết nối vòng lặp duy trì bộ nhớ, xử lý dữ liệu chuỗi
TransformerSelf-attention xử lý song song, kiến trúc nền tảng của mô hình lớn
OverfittingMô hình "học thuộc đáp án", dùng regularization, Dropout để ngăn chặn
Transfer learningĐứng trên vai người khổng lồ, dùng mô hình pre-trained fine-tune giải quyết bài toán mới

Đọc thêm