9.6 容错机制：节点失败了怎么办

核心问题：节点失败了，如何保证系统继续可用？

开场问题：分布式计算任务中断

你正在运行一个分布式计算任务，100台机器协作处理1TB数据。

突然：

节点42正在处理 → 网络故障 → 断开连接
节点42的任务失败 → 需要重新分配
整个任务进度 → 从80%回到0%

困惑：为什么一个节点失败，整个任务失败？

答案：没有容错设计。正确设计是：节点失败 → 只重跑该节点任务。

故障模型

故障类型

类型	定义	特征
崩溃故障	节点停止工作	不响应，不发送错误消息
消息丢失	消息未到达	网络分区、延迟
拜占庭故障	节点任意行为	可能发送错误消息

故障假设

崩溃-停止模型：

节点要么正常工作，要么停止
最常见的假设

崩溃-恢复模型：

节点崩溃后可能恢复
需要持久化状态

拜占庭模型：

节点可能任意行为（包括恶意）
需要BFT共识

容错机制分类

重试机制

场景：请求发送后，响应超时。

重试策略：
1. 发送请求
2. 等待响应（超时T）
3. 如果超时 → 重发请求
4. 最多重试N次
5. 如果仍失败 → 返回错误

关键问题：重试可能导致重复执行 → 需要幂等设计。

补偿机制

场景：操作执行后，发现需要撤销。

补偿策略：
1. 执行操作
2. 如果后续检测失败 → 补偿撤销
3. 补偿操作设计为可逆

例：转账
  执行：扣款A，加款B
  补偿：加款A，扣款B

复制机制

场景：数据复制到多节点，某节点失败不影响。

复制策略：
1. 数据复制到N个节点
2. 读写需要多数节点确认
3. 某节点失败 → 其他节点继续服务

例：Raft共识
  Leader失败 → 选举新Leader
  数据丢失 → 从其他节点恢复

幂等性设计详解

为什么需要幂等？

网络故障场景：
请求1 → 执行成功 → 响应发送
响应传输 → 网络故障 → 响应丢失
客户端 → 超时 → 重发请求1
请求1再次到达 → 再次执行 → 重复执行！

幂等设计方法

方法1：唯一请求ID

python

def process_request(request_id, operation):
    # 检查是否已处理
    if request_cache.get(request_id):
        return request_cache.get(request_id)  # 返回之前的结果
    
    # 处理请求
    result = execute(operation)
    
    # 缓存结果
    request_cache.set(request_id, result)
    return result

方法2：乐观锁

python

def update_with_version(key, value, expected_version):
    # 检查版本号
    current_version = get_version(key)
    if current_version != expected_version:
        raise VersionConflictError()
    
    # 更新值
    set_value(key, value)
    increment_version(key)

方法3：唯一约束

sql

-- 数据库唯一约束防止重复
INSERT INTO orders (order_id, user_id, amount)
VALUES ('order123', 'user1', 100)
-- 如果order123已存在 → 插入失败 → 防止重复

幂等操作类型

操作类型	幂等性	说明
查询	幂等	不改变状态
设置值	幂等	set(x, v)多次执行结果相同
追加值	不幂等	append(x, v)多次执行追加多次
递增	不幂等	increment(x)多次执行递增多次

失败恢复策略

状态持久化

问题：节点崩溃后恢复，状态丢失。

解决：持久化状态到稳定存储。

持久化策略：
1. 每次状态改变 → 写入日志
2. 节点恢复 → 从日志重建状态

例：Raft日志
  Leader每次操作 → 写入日志
  节点崩溃恢复 → 从日志恢复状态

状态机复制

原理：所有节点运行相同状态机，保证一致性。

状态机复制：
1. 所有节点初始化相同状态
2. 每次操作 → 同步到所有节点
3. 所有节点执行相同操作序列
4. 所有节点状态相同

容错：
  某节点失败 → 其他节点继续
  失败节点恢复 → 从其他节点同步状态

Leader选举

场景：Leader失败，需要选举新Leader。

选举流程（Raft）：
1. Follower超时未收到心跳 → 成为Candidate
2. Candidate增加任期号 → 发送投票请求
3. 多数节点投票同意 → Candidate成为Leader
4. 新Leader开始发送心跳

容错：
  Leader失败 → 快速选举新Leader
  系统继续服务

容错设计原则

原则1：无状态优先

无状态设计：不依赖本地状态 → 容错简单。

无状态服务：
- 接收请求 → 处理 → 返回结果
- 不保存中间状态
- 失败重试 → 直接重跑

有状态服务：
- 需要持久化状态
- 失败恢复 → 从状态恢复

原则2：隔离故障

故障隔离：故障不影响其他部分。

隔离策略：
1. 分片：某shard故障 → 其他shard继续
2. 超时：某请求超时 → 不阻塞其他请求
3. 降级：某功能故障 → 其他功能继续

原则3：快速恢复

快速恢复：故障后快速恢复服务。

快速恢复策略：
1. 自动重试：请求自动重试
2. 自动选举：Leader失败自动选举
3. 自动迁移：故障节点任务自动迁移

原则4：优雅降级

优雅降级：故障时降低服务质量，但不完全失败。

降级策略：
1. 读降级：读热点数据失败 → 读缓存/旧数据
2. 写降级：写失败 → 异步写/队列缓冲
3. 功能降级：某功能失败 → 返回简化结果

容错成本分析

复制成本

数据复制到N个节点：
- 存储成本：N倍存储
- 写成本：写N个节点
- 一致性成本：同步N个节点

重试成本

重试N次：
- 延迟成本：N倍延迟（最坏情况）
- 请求成本：N倍请求

权衡

机制	成本	适用场景
重试	延迟增加	网络偶发故障
补偿	设计复杂	需要可逆操作
复制	存储和写成本增加	高可用要求

LLM视角：容错方案审查

LLM容易犯的错误

LLM方案："设计分布式任务系统"
方案：任务分配到节点执行

审查发现：
- 功能正确：能执行任务
- 容错缺失：节点失败 → 任务丢失

改进：
- 重试机制：节点失败重试
- 幂等设计：防止重复执行
- 任务迁移：失败任务自动迁移

审查要点

审查LLM给出的容错方案时，检查：

故障假设：考虑什么故障类型？
重试机制：是否有重试？是否幂等？
恢复机制：节点恢复如何恢复状态？
降级机制：故障时如何降级？
成本分析：容错成本是否可接受？

小结

故障类型

类型	定义	处理难度
崩溃故障	节点停止	简单（重试、复制）
消息丢失	消息未到达	中等（重试）
拜占庭故障	任意行为	困难（BFT）

容错机制

机制	适用场景	成本
重试	网络偶发故障	延迟增加
补偿	需要可逆操作	设计复杂
复制	高可用要求	存储和写成本增加

设计原则

无状态优先
隔离故障
快速恢复
优雅降级

LLM审查要点

是否有故障假设？
是否有重试机制？
是否有幂等设计？
是否有恢复机制？
是否有降级机制？

练习

1. 设计幂等操作

场景：分布式扣款操作。

设计幂等扣款方案，防止网络故障导致的重复扣款。

2. 设计容错方案

场景：分布式任务执行系统。

设计容错方案：

节点失败如何处理？
任务如何恢复？
如何防止重复执行？

3. 分析容错成本

场景：数据复制到3个节点。

分析存储、写、一致性成本。

理解了容错机制后，我们来看LLM时代的分布式挑战：

9.7 LLM分布式视角

9.6 容错机制：节点失败了怎么办 ​

开场问题：分布式计算任务中断 ​

故障模型 ​

故障类型 ​

故障假设 ​

容错机制分类 ​

重试机制 ​

补偿机制 ​

复制机制 ​

幂等性设计详解 ​

为什么需要幂等？ ​

幂等设计方法 ​

幂等操作类型 ​

失败恢复策略 ​

状态持久化 ​

状态机复制 ​

Leader选举 ​

容错设计原则 ​

原则1：无状态优先 ​

原则2：隔离故障 ​

原则3：快速恢复 ​

原则4：优雅降级 ​

容错成本分析 ​

复制成本 ​

重试成本 ​

权衡 ​

LLM视角：容错方案审查 ​

LLM容易犯的错误 ​

审查要点 ​

小结 ​

故障类型 ​

容错机制 ​

设计原则 ​

LLM审查要点 ​

练习 ​

1. 设计幂等操作 ​

2. 设计容错方案 ​

3. 分析容错成本 ​

下一节 ​

9.6 容错机制：节点失败了怎么办

开场问题：分布式计算任务中断

故障模型

故障类型

故障假设

容错机制分类

重试机制

补偿机制

复制机制

幂等性设计详解

为什么需要幂等？

幂等设计方法

幂等操作类型

失败恢复策略

状态持久化

状态机复制

Leader选举

容错设计原则

原则1：无状态优先

原则2：隔离故障

原则3：快速恢复

原则4：优雅降级

容错成本分析

复制成本

重试成本

权衡

LLM视角：容错方案审查

LLM容易犯的错误

审查要点

小结

故障类型

容错机制

设计原则

LLM审查要点

练习

1. 设计幂等操作

2. 设计容错方案

3. 分析容错成本

下一节