Ch11 Transformer:注意力作为算法
章节导览
核心叙事:Transformer 不是"一种神经网络",而是将检索和聚合算法化的范式。
从算法视角看,自注意力是一种可学习的相似度检索,多头注意力是并行检索策略,KV-cache是增量计算的缓存优化,位置编码是结构化约束注入。这些概念都可以脱离深度学习,还原为算法问题:如何高效检索、如何优化缓存、如何压缩表示。
知识递进路径
本章与前序章节形成紧密的算法关联:
Ch2(缓存策略) ──→ 11.2(KV-cache增量计算)
Ch3(查找算法) ──→ 11.1(自注意力=可学习检索)
Ch4(图算法) ──→ 11.4(Token序列=图节点)
Ch10(流式算法) ──→ 11.3(长上下文的内存挑战)
Ch11(Transformer) ──→ 综合视角:检索+缓存+图+流式六节结构
| 节号 | 标题 | 核心问题 | 算法视角 |
|---|---|---|---|
| 11.1 | 自注意力的算法本质 | 如何从每个位置检索相关信息? | 软检索 vs 硬检索(Ch3对照) |
| 11.2 | 计算成本与缓存策略 | O(n²)瓶颈如何优化? | 空间换时间(Ch2对照) |
| 11.3 | 长上下文的算法挑战 | 如何处理超长序列? | 流式约束(Ch10对照) |
| 11.4 | Token与向量表示 | 离散符号如何编码? | 向量空间几何(Ch4对照) |
| 11.5 | LLM时代的算法问题 | 生成、检索、压缩如何协同? | RAG两阶段(Ch3对照) |
| 11.6 | 综合练习 | 理解→应用→诊断→设计 | 全景案例 |
核心概念地图
┌─────────────────────────────────────┐
│ Transformer │
│ "注意力作为检索算法" │
└─────────────────────────────────────┘
│
┌─────────────────────┼─────────────────────┐
│ │ │
┌────▼────┐ ┌────▼────┐ ┌────▼────┐
│ 自注意力 │ │ KV-cache │ │ 稀疏注意力│
│ = 软检索 │ │ = 增量缓存│ │ = 图稀疏 │
└────┬────┘ └────┬────┘ └────┬────┘
│ │ │
┌────▼────┐ ┌────▼────┐ ┌────▼────┐
│ Ch3查找 │ │ Ch2缓存 │ │ Ch4图算法│
│ 对照: │ │ 对照: │ │ 对照: │
│ 哈希→相似│ │ LRU→增量│ │ 全图→稀疏│
└─────────┘ └─────────┘ └─────────┘设计哲学
本章遵循教材的七大特征:
| 特征 | 本章体现 |
|---|---|
| 直觉先行 | 从"图书馆检索"直觉引入注意力,公式前先有类比 |
| 问题驱动 | 每节War Story开场:长文本理解、KV-cache溢出、生成单调 |
| 算法对比 | 对照Ch2/3/4/10,展示Transformer如何泛化传统算法 |
| 可视化教学 | 注意力矩阵热图、KV-cache增长动画、向量空间几何 |
| 人机协作 | 代码示例教学化简化,LLM辅助验证复杂实现 |
| 反对死记背背 | 强调注意力机制的设计选择,而非固定配方 |
| 跨章节连接 | 每节包含对照表,强化知识递进 |
阅读建议
- 前置知识:建议先读Ch2(缓存)、Ch3(查找)、Ch4(图)、Ch10(流式)
- 阅读顺序:按11.1→11.2→11.3→11.4→11.5→11.6顺序阅读
- 练习建议:每节练习独立完成,11.6综合练习需前置理解
- 深度探索:知识卡片可独立阅读,用于巩固单个概念
知识卡片索引
| 编号 | 卡片标题 | 所属节 | 关联章节 |
|---|---|---|---|
| C11-01 | 自注意力=软检索 | 11.1 | Ch3查找 |
| C11-02 | 注意力矩阵热图 | 11.1 | - |
| C11-03 | 多头注意力=并行检索 | 11.1 | Ch4多路径 |
| C11-04 | O(n²)复杂度瓶颈 | 11.2 | Ch2复杂度 |
| C11-05 | KV-cache增量计算 | 11.2 | Ch2缓存 |
| C11-06 | 缓存溢出策略 | 11.2 | Ch10内存约束 |
| C11-07 | 线性注意力原理 | 11.3 | Ch3近似查找 |
| C11-08 | FlashAttention分块 | 11.3 | Ch2内存层次 |
| C11-09 | 稀疏注意力模式 | 11.3 | Ch4稀疏图 |
| C11-10 | Token化算法 | 11.4 | Ch3哈希 |
| C11-11 | 向量空间几何 | 11.4 | Ch4图嵌入 |
| C11-12 | 位置编码设计 | 11.4 | Ch4节点标记 |
| C11-13 | 温度采样权衡 | 11.5 | Ch5贪心 |
| C11-14 | Top-K/Top-P采样 | 11.5 | - |
| C11-15 | 上下文压缩策略 | 11.5 | Ch2缓存淘汰 |
| C11-16 | RAG两阶段流程 | 11.5 | Ch3查找 |
| C11-17 | 向量相似度检索 | 11.4/11.5 | Ch3查找 |
| C11-18 | 注意力Sink现象 | 11.5 | Ch4中心节点 |
| C11-19 | 语义方向向量 | 11.4 | - |
| C11-20 | 采样分布可视化 | 11.5 | - |
本章结构设计:Alex | 撰写:Dana | 评审:Felix