Skip to content

Ch11 Transformer:注意力作为算法

章节导览

核心叙事:Transformer 不是"一种神经网络",而是将检索和聚合算法化的范式。

从算法视角看,自注意力是一种可学习的相似度检索,多头注意力是并行检索策略,KV-cache是增量计算的缓存优化,位置编码是结构化约束注入。这些概念都可以脱离深度学习,还原为算法问题:如何高效检索、如何优化缓存、如何压缩表示。


知识递进路径

本章与前序章节形成紧密的算法关联:

Ch2(缓存策略) ──→ 11.2(KV-cache增量计算)
Ch3(查找算法) ──→ 11.1(自注意力=可学习检索)
Ch4(图算法) ──→ 11.4(Token序列=图节点)
Ch10(流式算法) ──→ 11.3(长上下文的内存挑战)
Ch11(Transformer) ──→ 综合视角:检索+缓存+图+流式

六节结构

节号标题核心问题算法视角
11.1自注意力的算法本质如何从每个位置检索相关信息?软检索 vs 硬检索(Ch3对照)
11.2计算成本与缓存策略O(n²)瓶颈如何优化?空间换时间(Ch2对照)
11.3长上下文的算法挑战如何处理超长序列?流式约束(Ch10对照)
11.4Token与向量表示离散符号如何编码?向量空间几何(Ch4对照)
11.5LLM时代的算法问题生成、检索、压缩如何协同?RAG两阶段(Ch3对照)
11.6综合练习理解→应用→诊断→设计全景案例

核心概念地图

                    ┌─────────────────────────────────────┐
                    │           Transformer              │
                    │     "注意力作为检索算法"             │
                    └─────────────────────────────────────┘

         ┌─────────────────────┼─────────────────────┐
         │                     │                     │
    ┌────▼────┐          ┌────▼────┐          ┌────▼────┐
    │ 自注意力 │          │ KV-cache │          │ 稀疏注意力│
    │ = 软检索 │          │ = 增量缓存│          │ = 图稀疏 │
    └────┬────┘          └────┬────┘          └────┬────┘
         │                     │                     │
    ┌────▼────┐          ┌────▼────┐          ┌────▼────┐
    │ Ch3查找 │          │ Ch2缓存 │          │ Ch4图算法│
    │ 对照:  │          │ 对照:  │          │ 对照:  │
    │ 哈希→相似│          │ LRU→增量│          │ 全图→稀疏│
    └─────────┘          └─────────┘          └─────────┘

设计哲学

本章遵循教材的七大特征:

特征本章体现
直觉先行从"图书馆检索"直觉引入注意力,公式前先有类比
问题驱动每节War Story开场:长文本理解、KV-cache溢出、生成单调
算法对比对照Ch2/3/4/10,展示Transformer如何泛化传统算法
可视化教学注意力矩阵热图、KV-cache增长动画、向量空间几何
人机协作代码示例教学化简化,LLM辅助验证复杂实现
反对死记背背强调注意力机制的设计选择,而非固定配方
跨章节连接每节包含对照表,强化知识递进

阅读建议

  • 前置知识:建议先读Ch2(缓存)、Ch3(查找)、Ch4(图)、Ch10(流式)
  • 阅读顺序:按11.1→11.2→11.3→11.4→11.5→11.6顺序阅读
  • 练习建议:每节练习独立完成,11.6综合练习需前置理解
  • 深度探索:知识卡片可独立阅读,用于巩固单个概念

知识卡片索引

编号卡片标题所属节关联章节
C11-01自注意力=软检索11.1Ch3查找
C11-02注意力矩阵热图11.1-
C11-03多头注意力=并行检索11.1Ch4多路径
C11-04O(n²)复杂度瓶颈11.2Ch2复杂度
C11-05KV-cache增量计算11.2Ch2缓存
C11-06缓存溢出策略11.2Ch10内存约束
C11-07线性注意力原理11.3Ch3近似查找
C11-08FlashAttention分块11.3Ch2内存层次
C11-09稀疏注意力模式11.3Ch4稀疏图
C11-10Token化算法11.4Ch3哈希
C11-11向量空间几何11.4Ch4图嵌入
C11-12位置编码设计11.4Ch4节点标记
C11-13温度采样权衡11.5Ch5贪心
C11-14Top-K/Top-P采样11.5-
C11-15上下文压缩策略11.5Ch2缓存淘汰
C11-16RAG两阶段流程11.5Ch3查找
C11-17向量相似度检索11.4/11.5Ch3查找
C11-18注意力Sink现象11.5Ch4中心节点
C11-19语义方向向量11.4-
C11-20采样分布可视化11.5-

本章结构设计:Alex | 撰写:Dana | 评审:Felix

新时代的算法课程