负载均衡与网关

🎯 核心问题

当单台服务器扛不住时,如何把流量"聪明地"分配到多个服务器实例? 负载均衡是现代分布式系统的"分发员"。本文通过真实案例(奶茶店收银、快递分拣、交通指挥)深入理解负载均衡的设计哲学和工程实践。

1. 为什么要"负载均衡"?

1.1 从一个真实案例说起:某网站的架构演进

某创业公司在用户量快速增长时遇到了严重的性能问题:

场景还原:

阶段一:单台服务器
用户 → 服务器(1核2G)
       ↓
  日活1000 → 活跃时间:1000人同时访问
       ↓
问题:CPU 100%,响应慢,经常宕机

⚠️ 单台服务器的致命问题

性能瓶颈: CPU 100%,响应时间> 5秒
单点故障: 服务器挂了,整个网站不可用
扩展困难: 只能垂直升级(加CPU、内存),贵且有限

改进后的架构(引入负载均衡):

阶段二:多台服务器 + 负载均衡
用户 → 负载均衡器(Nginx)
       ↓
     ├→ 服务器1 (1核2G)
     ├→ 服务器2 (1核2G)
     └→ 服务器3 (1核2G)

✨ 改进后的效果

性能提升: 3台服务器并行处理,响应时间< 1秒
高可用: 1台服务器挂了,其他服务器继续服务
水平扩展: 需要更多性能?加服务器就行

1.2 负载均衡的生活化比喻

奶茶店收银台

想象你开了一家网红奶茶店:

1个收银台: 顾客排队,后面的人等不及,差评
3个收银台: 员工分配顾客到不同收银台,效率提升3倍

负载均衡就是"收银台分配员":

用户(顾客) → 请求服务
负载均衡器(分配员) → 把请求分配到不同服务器
服务器(收银台) → 处理请求

传统架构单点

🖥️

Web Server

负载: 95% 🔥

→

负载均衡架构分布式

⚖️L4 Load Balancer

🖥️

📦四层负载均衡 (L4)

工作原理

基于传输层信息（IP地址+端口）进行流量分发。不关心应用层内容，只做"快递分拣"，因此性能极高。

典型产品

LVS (Linux Virtual Server)HAProxy (TCP模式)AWS NLBAzure Load Balancer

适用场景

需要极高吞吐量的场景
TCP/UDP流量分发
不需要内容识别的场景
微服务间通信

性能对比一览

类型

处理层

性能

灵活性

成本

硬件负载均衡

L4/L7

$$$$$

四层负载均衡

L4 (传输层)

七层负载均衡

L7 (应用层)

$$$

软件负载均衡

L4/L7

2. 什么是负载均衡?

2.1 四层负载均衡(L4):只看门牌号

工作在传输层(TCP/UDP),就像快递小哥只看你家的门牌号(IP地址+端口号),不关心你家是做什么。

特点:

速度超快: 只做简单的地址转发,不解析数据包内容
适用场景: 数据库连接、Redis缓存、长连接游戏服务器
代表产品: LVS(Linux Virtual Server)、AWS NLB、Azure Load Balancer

工作原理

客户端请求 → L4负载均衡器 → 后端服务器
              ↓
         只看IP + Port
              ↓
         快速转发(不解包内容)

2.2 七层负载均衡(L7):检查包裹内容

工作在应用层(HTTP/HTTPS),就像快递小哥不仅看门牌号,还会打开包裹检查内容,根据内容决定怎么送。

特点:

智能路由: 可以根据URL路径、HTTP头、Cookie等做精细化路由
高级功能: SSL卸载、内容缓存、压缩、安全WAF
适用场景: Web应用、API网关、微服务架构
代表产品: Nginx、HAProxy、AWS ALB、Envoy

工作原理

客户端请求 → L7负载均衡器 → 解析HTTP内容
              ↓
         检查URL、Header、Cookie
              ↓
         智能路由到特定服务器

2.3 L4 vs L7 对比一览

维度	四层负载均衡(L4)	七层负载均衡(L7)
工作层级	传输层(TCP/UDP)	应用层(HTTP/HTTPS)
决策依据	IP地址 + 端口号	URL、Header、Cookie、Body
处理速度	极快(内核态处理)	较快(用户态解析)
功能丰富度	基础转发	SSL卸载、缓存、压缩、WAF
典型场景	数据库、游戏、长连接	Web应用、API网关、微服务
代表产品	LVS、AWS NLB	Nginx、HAProxy、AWS ALB

3. 核心问题一:如何避免"坏掉"的服务器继续接客?

3.1 健康检查:别让"生病"的服务器拖累系统

想象一下,你的某个收银台突然坏了,但分配员不知道,还在源源不断地把顾客分过去。结果队伍越来越长,顾客怨声载道。

健康检查(Health Check)就是防止这种情况发生的"哨兵"。它定期"体检"每台服务器,发现"生病"的立即从队列中移除,等"康复"了再请回来。

3.2 主动健康检查 vs 被动健康检查

主动健康检查(Active Health Check): 负载均衡器主动"敲门"问服务器"你还在吗?"

定期发送探测请求(如 HTTP /health、TCP ping)
响应超时或返回错误码则认为不健康
优点: 检测结果准确可靠
缺点: 产生额外的探测流量

被动健康检查(Passive Health Check): 负载均衡器"观察"真实业务流量的响应情况

统计实际请求的响应时间、错误率
连续多次失败则认为不健康
优点: 不产生额外流量
缺点: 需要足够的流量样本才能判定

阈值设定表

指标	健康阈值	不健康阈值	说明
HTTP状态码	200-399	400+或超时	4xx/5xx都认为失败
TCP连接	成功建立	连接超时	检查端口是否可达
响应时间	< 500ms	> 2000ms	超时时间通常设为2-5秒
连续失败次数	-	3次	避免单次抖动误判
检查间隔	-	5s	太频繁会增加负载

💡 踸见坑:阈值设置太"敏感"

某团队将健康检查的响应时间阈值设为100ms,而他们的应用平均响应时间在80-120ms之间波动。结果是服务器频繁被标记为"不健康",导致流量在健康和不健康之间反复横跳,系统整体可用率反而下降。

正确的做法: 阈值应该设置为P99响应时间的2-3倍,给正常波动留出足够的缓冲空间。

4. 核心问题二:如何保证"老顾客"一直找同一个"收银员"?

4.1 会话保持:让"老顾客"一直找同一个"收银员"

想象你是奶茶店的常客,每次来都由同一个店员接待。她知道你的口味偏好(半糖、去冰),服务起来又快又贴心。但如果每次来都换一个新人,你得一遍遍重复同样的要求,效率大打折扣。

会话保持(Session Persistence/Sticky Session) 就是解决这个问题的方法:确保同一个用户的请求,始终被路由到同一台后端服务器。

应用场景：

👤

用户A

👥

用户B

👨‍💼

用户C

请求

↓

⚖️负载均衡器

🍪

Cookie 插入

通过HTTP Cookie保持会话

会话映射表

sess_abc123→Server 1

sess_def456→Server 2

sess_ghi789→Server 1

↓

🖥️

Server 1

10.0.1.10

✓

选中

🖥️

Server 2

10.0.1.11

✓

🖥️

Server 3

10.0.1.12

✗

↑

三种会话保持机制对比

🍪Cookie 插入

✓不受客户端IP变化影响

✓首次请求即可保持会话

✗客户端需支持Cookie

✗存在Cookie被禁用的风险

#️⃣IP Hash

✓无需客户端支持任何机制

✓无状态，LB重启不影响会话

✗客户端IP变化会丢失会话

✗难以做到真正的负载均衡

📝粘性会话

✓结合Cookie和IP两种方式优势

✓支持会话复制和故障转移

✗实现复杂，需要应用支持

✗会话复制带来性能开销

4.2 三种会话保持机制对比

机制	实现原理	优点	缺点	适用场景
Cookie插入	LB在响应中插入Cookie,后续请求携带此Cookie	不受IP变化影响,首次请求即可保持	客户端需支持Cookie,可能被禁用	电商购物车、登录态保持
IP哈希	对客户端IP做哈希计算,映射到特定服务器	无需客户端支持,无状态	IP变化会丢失会话,难以均匀分布	无Cookie环境、WebSocket
粘性会话表	LB维护会话到服务器的映射表	支持会话复制和故障转移	占用LB内存,需要额外同步	高可用要求严格的场景

💡 使用建议

Cookie插入: 优先推荐,兼容性好
IP哈希: 只用于WebSocket等特殊场景
粘性会话表: 配合Cookie,提供故障转移能力

5. 核心问题三:如何实现零停机部署?

5.1 蓝绿部署:"一键切换"的零停机发布

核心思想: 同时维护两套完全相同的生产环境(蓝环境和绿环境),但只有一个环境对外提供服务。

🔵

蓝环境

v1.0.0

100% 流量

🟢

绿环境

v1.1.0

0% 流量

用户流量

👤

↓

⚖️

负载均衡器

当前指向: 🔵 蓝环境

↓

🔵蓝环境v1.0.0

🖥️B1●

🖥️B2●

🖥️B3●

🟢绿环境v1.1.0

🖥️G1●

🖥️G2●

🖥️G3●

蓝绿部署流程

绿环境部署

在绿环境部署新版本，进行冒烟测试

→

切换流量

将负载均衡器指向绿环境，流量瞬间切换

→

监控观察

观察绿环境运行状态，确认无异常

→

蓝环境升级

在蓝环境部署新版本，为下次切换做准备

蓝绿部署优缺点

✅优点

零停机时间：流量切换在毫秒级完成，用户无感知
快速回滚：发现问题可立即切回原环境，风险可控
完整的预发布测试：新环境可完整测试后再接管流量
数据一致性：无需处理新旧版本同时运行时的兼容问题

❌缺点

资源成本高：需要同时维护两套完整环境，服务器成本翻倍
数据库兼容性挑战：如果涉及数据库Schema变更，需要特别处理兼容性
预热问题：新环境启动后可能需要时间预热缓存、连接池等
不适合有状态服务：对于长连接、会话保持要求高的场景处理复杂

工作流程:

初始状态: 蓝环境运行v1.0(生产),绿环境待命。
部署新版本: 在绿环境部署v1.1,进行内部冒烟测试。
切换流量: 将负载均衡器指向绿环境,流量瞬间切换到v1.1。
监控观察: 观察绿环境运行状态,确认无异常。
保留旧版本: 蓝环境保持v1.0一段时间(如24小时),作为快速回滚的保险。

✨ 优缺点分析

优点	缺点
✅ 零停机时间,切换在毫秒级完成	❌ 资源成本高,需要同时维护两套环境
✅ 快速回滚,发现问题立即切回原环境	❌ 数据库Schema变更时需要特别处理兼容性
✅ 新环境可完整测试后再接管流量	❌ 不适用于有状态服务(如WebSocket长连接)

5.2 金丝雀发布:"小步快跑"的灰度策略

金丝雀发布得名于历史上的"煤矿金丝雀"——矿工带着金丝雀下井,如果金丝雀出现异常,说明有毒气体泄漏,矿工立即撤离。在软件发布中,金丝雀发布就是先让一小部分用户试用新版本,观察没有问题后再逐步扩大范围。

流量分配比例拖动滑块调整新旧版本流量占比

稳定版 v1.0.090%

金丝雀 v1.1.010%

实时流量模拟总请求: 0 | 稳定版: 0 | 金丝雀: 0

用户请求

→

负载均衡器

⚖️

Canary:10%

→

后端服务

稳定版 v1.0.0

📦S1

📦S2

📦S3

金丝雀 v1.1.0

🧪C1

🧪C2

金丝雀发布最佳实践

📊渐进式放量

1% → 5% → 10% → 25% → 50% → 100%
每个阶段观察至少15-30分钟
关键指标：错误率、延迟、吞吐量

🎯精准用户选择

内部员工/测试用户先行
按地域：选择特定区域用户
按用户属性：VIP用户或普通用户
按设备类型：iOS/Android/Web

🛡️自动回滚机制

错误率超过阈值自动回滚
P99延迟异常触发告警
关键业务指标下降自动回滚
一键回滚：30秒内恢复旧版本

📈监控与指标

基础设施：CPU、内存、磁盘、网络
应用指标：QPS、错误率、延迟分布
业务指标：转化率、订单量、收入
用户体验：页面加载时间、交互延迟

核心思想:

小流量先行: 先将1%的流量导入新版本服务器。
观察指标: 持续监控错误率、延迟、业务关键指标。
逐步放量: 如果一切正常,逐步将比例提升到5%、10%、25%、50%、100%。
快速回滚: 一旦发现异常,立即将所有流量切回旧版本。

💡 金丝雀发布的优势

优势	说明
🎯 风险可控	即使新版本有严重Bug,也只影响少量用户
📊 真实验证	在真实生产环境验证,比测试环境更可靠
🚀 快速迭代	团队可以更自信地频繁发布新功能
💰 资源友好	不需要像蓝绿部署那样准备两套完整环境

6. 核心问题四:如何让系统自己"呼吸"?

6.1 自动扩缩容:让系统像餐厅一样"灵活排班"

想象你开了一家餐厅:

午餐高峰期: 需要10个服务员,但下午3点闲时只需要2个
如果一直维持10个**: 人工成本爆炸
如果一直只有2个: 高峰期顾客等不及,全跑了

自动扩缩容(Auto Scaling) 就是让系统像餐厅一样"灵活排班"——忙的时候自动加服务器,闲的时候自动减服务器。

扩容指标：

实时监控实时

💻CPU使用率

45%

扩容阈值: 70%缩容阈值: 30%

🧠内存使用率

60%

扩容阈值: 75%缩容阈值: 40%

⚡QPS

650req/s

扩容阈值: 1000/s目标: 800/s

🖥️运行实例

3个实例

最小: 2最大: 10

扩缩容历史最近 5 次操作

📈

扩容: 2 → 3 实例

CPU使用率超过70%