Ch11 Transformer：注意力作为算法

章节导览

核心叙事：Transformer 不是"一种神经网络"，而是将检索和聚合算法化的范式。
从算法视角看，自注意力是一种可学习的相似度检索，多头注意力是并行检索策略，KV-cache是增量计算的缓存优化，位置编码是结构化约束注入。这些概念都可以脱离深度学习，还原为算法问题：如何高效检索、如何优化缓存、如何压缩表示。

知识递进路径

本章与前序章节形成紧密的算法关联：

Ch2（缓存策略） ──→ 11.2（KV-cache增量计算）
Ch3（查找算法） ──→ 11.1（自注意力=可学习检索）
Ch4（图算法） ──→ 11.4（Token序列=图节点）
Ch10（流式算法） ──→ 11.3（长上下文的内存挑战）
Ch11（Transformer） ──→ 综合视角：检索+缓存+图+流式

六节结构

节号	标题	核心问题	算法视角
11.1	自注意力的算法本质	如何从每个位置检索相关信息？	软检索 vs 硬检索（Ch3对照）
11.2	计算成本与缓存策略	O(n²)瓶颈如何优化？	空间换时间（Ch2对照）
11.3	长上下文的算法挑战	如何处理超长序列？	流式约束（Ch10对照）
11.4	Token与向量表示	离散符号如何编码？	向量空间几何（Ch4对照）
11.5	LLM时代的算法问题	生成、检索、压缩如何协同？	RAG两阶段（Ch3对照）
11.6	综合练习	理解→应用→诊断→设计	全景案例

核心概念地图

                    ┌─────────────────────────────────────┐
                    │           Transformer              │
                    │     "注意力作为检索算法"             │
                    └─────────────────────────────────────┘
                               │
         ┌─────────────────────┼─────────────────────┐
         │                     │                     │
    ┌────▼────┐          ┌────▼────┐          ┌────▼────┐
    │ 自注意力 │          │ KV-cache │          │ 稀疏注意力│
    │ = 软检索 │          │ = 增量缓存│          │ = 图稀疏 │
    └────┬────┘          └────┬────┘          └────┬────┘
         │                     │                     │
    ┌────▼────┐          ┌────▼────┐          ┌────▼────┐
    │ Ch3查找 │          │ Ch2缓存 │          │ Ch4图算法│
    │ 对照：  │          │ 对照：  │          │ 对照：  │
    │ 哈希→相似│          │ LRU→增量│          │ 全图→稀疏│
    └─────────┘          └─────────┘          └─────────┘

设计哲学

本章遵循教材的七大特征：

特征	本章体现
直觉先行	从"图书馆检索"直觉引入注意力，公式前先有类比
问题驱动	每节War Story开场：长文本理解、KV-cache溢出、生成单调
算法对比	对照Ch2/3/4/10，展示Transformer如何泛化传统算法
可视化教学	注意力矩阵热图、KV-cache增长动画、向量空间几何
人机协作	代码示例教学化简化，LLM辅助验证复杂实现
反对死记背背	强调注意力机制的设计选择，而非固定配方
跨章节连接	每节包含对照表，强化知识递进

阅读建议

前置知识：建议先读Ch2（缓存）、Ch3（查找）、Ch4（图）、Ch10（流式）
阅读顺序：按11.1→11.2→11.3→11.4→11.5→11.6顺序阅读
练习建议：每节练习独立完成，11.6综合练习需前置理解
深度探索：知识卡片可独立阅读，用于巩固单个概念

知识卡片索引

编号	卡片标题	所属节	关联章节
C11-01	自注意力=软检索	11.1	Ch3查找
C11-02	注意力矩阵热图	11.1	-
C11-03	多头注意力=并行检索	11.1	Ch4多路径
C11-04	O(n²)复杂度瓶颈	11.2	Ch2复杂度
C11-05	KV-cache增量计算	11.2	Ch2缓存
C11-06	缓存溢出策略	11.2	Ch10内存约束
C11-07	线性注意力原理	11.3	Ch3近似查找
C11-08	FlashAttention分块	11.3	Ch2内存层次
C11-09	稀疏注意力模式	11.3	Ch4稀疏图
C11-10	Token化算法	11.4	Ch3哈希
C11-11	向量空间几何	11.4	Ch4图嵌入
C11-12	位置编码设计	11.4	Ch4节点标记
C11-13	温度采样权衡	11.5	Ch5贪心
C11-14	Top-K/Top-P采样	11.5	-
C11-15	上下文压缩策略	11.5	Ch2缓存淘汰
C11-16	RAG两阶段流程	11.5	Ch3查找
C11-17	向量相似度检索	11.4/11.5	Ch3查找
C11-18	注意力Sink现象	11.5	Ch4中心节点
C11-19	语义方向向量	11.4	-
C11-20	采样分布可视化	11.5	-

本章结构设计：Alex | 撰写：Dana | 评审：Felix

Ch11 Transformer：注意力作为算法 ​

章节导览 ​

知识递进路径 ​

六节结构 ​

核心概念地图 ​

设计哲学 ​

阅读建议 ​

知识卡片索引 ​

Ch11 Transformer：注意力作为算法

章节导览

知识递进路径

六节结构

核心概念地图

设计哲学

阅读建议

知识卡片索引