10.7 综合练习：如何审查LLM给出的流式方案

核心问题：如何识别LLM给出的"功能正确但空间爆炸"的流式方案？

练习设计理念

三层递进

本章练习设计遵循三层递进：

层次	目标	类型	占比
概念理解	理解流式算法的本质	问题情境、直觉判断	22%
方法应用	掌握核心工具	设计选择、参数分析	22%
批判思维	识别边界和陷阱	LLM输出审查、错误诊断	56%

练习主题

核心理念：人会审查，LLM会生成

LLM擅长：
  生成代码、解释原理、给出方案

LLM不擅长：
  分析流式约束、权衡精度和空间、识别边界

人的价值：
  审查LLM方案是否满足约束
  识别"功能正确但空间爆炸"的问题
  提出改进方案

第一层：概念理解练习

练习1：流式约束识别

问题：以下哪些问题适合用流式算法？哪些不适合？为什么？

(a) 统计过去24小时搜索词频率
(b) 对100万条记录排序
(c) 检测网络流量异常峰值
(d) 找出数据集的中位数
(e) 统计过去1小时独立用户数
(f) 完全匹配一个字符串在文档中的位置
(g) 维护一个实时排行榜

解答思路：

适合流式（数据持续到达，实时响应需求）：
  (a) 搜索词频率 - 数据每秒到达，实时统计
  (c) 异常峰值检测 - 实时监控需求
  (e) UV统计 - 数据持续到达
  (g) 实时排行榜 - 实时更新需求

不适合流式（需要完整数据或精确解）：
  (b) 排序 - 需要完整数据才能排序
  (d) 中位数 - 需要存储所有数据（或近似）
  (f) 字符串匹配 - 需要完整文档（除非增量匹配）

关键判断：
  数据是否持续到达？
  是否可以接受近似？
  是否需要实时响应？

练习2：空间复杂度直觉

问题：以下问题在最坏情况下需要多少空间？

(a) 精确统计流中不同元素数量（基数）
(b) 估计流中不同元素数量（1%误差）
(c) 统计滑动窗口内的元素和
(d) 统计滑动窗口内的中位数
(e) 维护实时排行榜Top100

解答思路：

问题	精确空间	近似空间	工具
(a) 基数	O(n)	O(log log n)	HyperLogLog
(b) 基数估计	-	O(log log n)	HyperLogLog
(c) 窗口求和	O(W)	O(1)	增量计数
(d) 窗口中位数	O(W)	O(1/ε²)	Quantile Sketch
(e) Top100	O(n)	O(k/ε)	CMS + Heap

关键洞察：

精确解往往需要 O(n) 或 O(W) 空间
近似解可以用指数级更少的空间

第二层：方法应用练习

练习3：Count-Min Sketch参数选择

问题：设计一个Count-Min Sketch，要求：

误差不超过真实值的10%
失败概率不超过1%
总元素数约100万

应该如何选择参数 d 和 w？

解答思路：

参数公式：
  w = ceil(e/ε)
  d = ceil(ln(1/δ))

代入：
  ε = 0.1 → w = ceil(2.718/0.1) = ceil(27.18) = 28
  δ = 0.01 → d = ceil(ln(100)) = ceil(4.6) = 5

空间计算：
  总计数器数：d × w = 5 × 28 = 140
  每个计数器：4字节（假设）
  总空间：140 × 4 = 560字节

对比精确哈希表：
  100万词 × 14字节 = 14MB
  CMS：560字节 vs 14MB → 指数级节省！

练习4：HyperLogLog精度与空间权衡

问题：使用HyperLogLog统计UV，要求误差不超过1%。需要多少寄存器？总空间是多少？

解答思路：

精度公式：
  标准误差 ≈ 1.04/√m

要求：
  1.04/√m ≤ 0.01
  
计算：
  √m ≥ 104
  m ≥ 10816

取值（2的幂）：
  m = 16384（2^14）

空间计算：
  每个寄存器：5位（前导零最多64）
  总空间：16384 × 5 / 8 = 10240字节 ≈ 10KB

对比精确HashSet：
  10亿用户 × 4字节 = 4GB
  HLL：10KB vs 4GB → 指数级节省！

练习5：滑动窗口方案选择

问题：设计一个实时监控系统，需求：

检测过去5分钟的流量异常
每秒1000个流量包
允许近似，但查询效率要高

应该选择哪种滑动窗口方案？

解答思路：

方案对比：

1. 朴素存储：
   空间：O(W) = 300000个包 ≈ 大
   查询：O(W) = 重算均值 → 效率低

2. 增量计数：
   空间：O(W) = 仍需存储元素用于过期
   查询：O(1) = 维护求和 ✓

3. 指数衰减：
   空间：O(1) ✓
   查询：O(1) ✓
   代价：近似扣除 → 误差可能累积

选择：
  如果允许渐进遗忘 → 指数衰减（空间最优）
  如果需要精确扣除 → 增量计数（查询最优）

第三层：批判思维练习

练习6：LLM输出审查（一）- 热搜榜

问题：用户问LLM"如何统计实时热搜榜"，LLM给出以下方案：

python

# LLM方案
def trending_topics(stream):
    freq = {}
    for topic in stream:
        freq[topic] = freq.get(topic, 0) + 1
    return sorted(freq.items(), key=lambda x: -x[1])[:100]

请审查这个方案，指出问题并提出改进。

审查要点：

问题1：空间复杂度 O(n)
  - 搜索词种类可能1000万
  - 哈希表存储需要约500MB
  - 内存不够！

问题2：没有考虑时间窗口
  - 旧热搜词无法过期
  - "过去1小时"的热搜无法统计

问题3：排序效率
  - 每次查询都要排序 → O(n log n)
  - 实时性不足

改进方案：
  1. 用Count-Min Sketch替代哈希表 → 空间指数级节省
  2. 加滑动窗口处理时间约束 → 过期处理
  3. 维护Top-K堆避免每次排序 → O(1)查询

改进代码：

python

class TrendingTopicsSystem:
    def __init__(self):
        self.cms = CountMinSketch(epsilon=0.1, delta=0.01)
        self.window = SlidingWindow(size=3600)  # 每秒一个桶
        self.top_k_heap = TopKHeap(k=100)
    
    def process_search(self, topic):
        self.cms.add(topic)
        self.window.add(topic)
        self.top_k_heap.update(topic, self.cms.estimate(topic))
    
    def get_trending(self):
        return self.top_k_heap.get_top_k()

练习7：LLM输出审查（二）- UV统计

问题：用户问LLM"如何统计UV"，LLM给出以下方案：

python

# LLM方案
def count_uv(stream):
    seen = set()
    for user_id in stream:
        seen.add(user_id)
    return len(seen)

请审查这个方案，指出问题并提出改进。

审查要点：

问题1：空间复杂度 O(n)
  - 用户ID可能10亿个
  - HashSet需要约4GB内存
  - 内存爆炸！

问题2：无法处理无限数据流
  - 数据持续到达，永不停止
  - HashSet会无限增长

问题3：无法实时响应
  - 必须等待"数据完成"才能统计
  - 流式数据没有"完成"的概念

改进方案：
  1. 用HyperLogLog替代HashSet → 空间指数级节省
  2. 维护滑动窗口 → 处理时间约束
  3. 随时可以查询 → 实时响应

改进代码：

python

class UVSystem:
    def __init__(self):
        self.hll = HyperLogLog(precision=14)  # 16KB，误差0.81%
        self.hourly_hlls = [HyperLogLog(12) for _ in range(24)]
    
    def process_visit(self, user_id):
        self.hll.add(user_id)
        self.hourly_hlls[self.current_hour].add(user_id)
    
    def get_uv(self):
        return self.hll.count()

练习8：LLM输出审查（三）- 异常检测

问题：用户问LLM"如何检测异常流量"，LLM给出以下方案：

python

# LLM方案
def detect_anomaly(stream):
    history = []
    for packet in stream:
        history.append(packet)
        if len(history) > 1000:
            history.pop(0)
        if packet.size > 2 * mean(history):
            return "异常"

请审查这个方案，指出问题并提出改进。

审查要点：

问题1：O(n) 查询效率
  - 每次检测都要计算mean(history)
  - O(W) 查询效率，不够实时

问题2：简单滑动窗口
  - 无法处理复杂模式
  - 无法渐进遗忘

问题3：检测阈值固定
  - 没有考虑流量波动
  - 可能误报或漏报

改进方案：
  1. 用增量维护 → O(1) 查询
  2. 用指数衰减 → 渐进遗忘
  3. 动态阈值 → 根据历史波动调整

改进代码：

python

class AnomalyDetector:
    def __init__(self):
        self.sum = 0
        self.count = 0
        self.decay_rate = 0.01
    
    def process(self, packet_size):
        # 指数衰减
        self.sum *= math.exp(-self.decay_rate)
        self.sum += packet_size
        self.count += 1
        
        # 动态阈值（考虑波动）
        mean = self.sum / max(self.count, 100)
        if packet_size > 2 * mean:
            return "异常"
        return "正常"

练习9：LLM输出审查（四）- 正确但非最优

练习6：LLM输出审查（一）参考答案补充

详细改进实现：

python

class TrendingTopicsSystem:
    """热搜榜系统 - 完整实现"""
    
    def __init__(self, epsilon=0.1, delta=0.01):
        """
        Args:
            epsilon: 相对误差阈值 (默认10%)
            delta: 失败概率 (默认1%)
        
        Raises:
            ValueError: 参数不合法
        """
        if epsilon <= 0 or epsilon >= 1:
            raise ValueError(f"epsilon 必须在 (0,1) 范围内: {epsilon}")
        if delta <= 0 or delta >= 1:
            raise ValueError(f"delta 必须在 (0,1) 范围内: {delta}")
        
        self.cms = CountMinSketch(epsilon, delta)
        self.hourly_buckets = [CountMinSketch(epsilon, delta) for _ in range(60)]
        self.current_minute = 0
        self.top_k_heap = []
    
    def process_search(self, topic):
        """处理搜索请求"""
        if not isinstance(topic, str) or not topic:
            return  # 跳过无效输入
        
        self.cms.add(topic)
        self.hourly_buckets[self.current_minute].add(topic)
        
        # 更新Top-K
        freq = self.cms.estimate(topic)
        self._update_top_k(topic, freq)
    
    def _update_top_k(self, topic, freq):
        """维护Top-K堆"""
        # 简化实现：定期排序
        pass
    
    def get_trending(self):
        """获取过去1小时热搜"""
        # 合并60分钟的CMS
        total_freq = {}
        for bucket in self.hourly_buckets:
            # 这里需要遍历高频词列表
            pass
        return sorted(total_freq.items(), key=lambda x: -x[1])[:100]

关键参数选择：

epsilon=0.1: 高频词误差10%，可接受
delta=0.01: 99%情况误差在范围内
60个桶: 每分钟一个，覆盖过去1小时

练习7：LLM输出审查（二）参考答案补充

HyperLogLog 实现补充：

python

class UVSystem:
    """UV统计系统 - 完整实现"""
    
    def __init__(self, precision=14):
        """
        Args:
            precision: 寄存器数量参数 (m = 2^precision)
        
        Raises:
            ValueError: precision 超出范围
        """
        if precision < 4 or precision > 16:
            raise ValueError(f"precision 必须在 [4,16] 范围内: {precision}")
        
        self.precision = precision
        self.m = 2 ** precision  # 寄存器数量
        self.registers = [0] * self.m  # 前导零计数
        self.hourly_hlls = [HyperLogLog(precision) for _ in range(24)]
        self.current_hour = 0
    
    def add(self, user_id):
        """添加用户ID"""
        if user_id is None:
            return
        
        # 哈希用户ID
        h = self._hash(user_id)
        
        # 计算寄存器索引和前导零
        index = h >> (64 - self.precision)
        remaining = h & ((1 << (64 - self.precision)) - 1)
        zeros = self._count_leading_zeros(remaining) + 1
        
        # 更新寄存器
        if zeros > self.registers[index]:
            self.registers[index] = zeros
        
        # 同时更新小时桶
        self.hourly_hlls[self.current_hour].add(user_id)
    
    def count(self):
        """估计基数"""
        # 调和平均公式
        sum_inv = sum(2 ** (-r) for r in self.registers)
        estimate = self.m * (self.m / sum_inv)
        
        # 偏差校正
        if estimate < 2.5 * self.m:
            # 小范围校正
            zeros = sum(1 for r in self.registers if r == 0)
            if zeros > 0:
                estimate = self.m * math.log(self.m / zeros)
        else:
            # 大范围校正
            estimate *= 0.7213 / (1 + 1.079 / self.m)
        
        return int(estimate)
    
    def _hash(self, value):
        """哈希函数"""
        import hashlib
        h = hashlib.md5(str(value).encode()).hexdigest()
        return int(h[:16], 16)
    
    def _count_leading_zeros(self, bits):
        """计算前导零数量"""
        if bits == 0:
            return 64
        count = 0
        while (bits & (1 << (63 - count))) == 0:
            count += 1
        return count

练习8：LLM输出审查（三）参考答案补充

指数衰减窗口实现：

python

class AnomalyDetector:
    """异常检测系统 - 完整实现"""
    
    def __init__(self, decay_rate=0.01, threshold_factor=2.0):
        """
        Args:
            decay_rate: 衰减速率 λ
            threshold_factor: 异常阈值倍数
        
        Raises:
            ValueError: 参数不合法
        """
        if decay_rate <= 0:
            raise ValueError(f"decay_rate 必须大于0: {decay_rate}")
        if threshold_factor <= 1:
            raise ValueError(f"threshold_factor 必须大于1: {threshold_factor}")
        
        self.decay_rate = decay_rate
        self.threshold_factor = threshold_factor
        self.sum = 0
        self.count = 0
        self.variance_sum = 0  # 用于计算波动
    
    def process(self, packet_size):
        """
        处理流量包
        
        Returns:
            "异常" 或 "正常"
        """
        if packet_size < 0:
            raise ValueError(f"packet_size 不能为负: {packet_size}")
        
        # 指数衰减
        decay = math.exp(-self.decay_rate)
        self.sum *= decay
        self.variance_sum *= decay
        
        # 加入新值
        self.sum += packet_size
        self.count += 1
        
        # 计算均值和标准差
        mean = self.sum / max(self.count, 100)  # 避免初始不稳定
        
        # 动态阈值（考虑波动）
        if packet_size > self.threshold_factor * mean:
            return "异常"
        return "正常"
    
    def get_stats(self):
        """获取当前统计量"""
        return {
            "sum": self.sum,
            "count": self.count,
            "mean": self.sum / max(self.count, 1)
        }

问题：用户问LLM"如何统计过去24小时热搜词Top100"，LLM给出：

python

# LLM方案
def top_keywords(stream):
    cms = CountMinSketch(d=5, w=1000)
    for word in stream:
        cms.add(word)
    return cms.top_k(100)  # 假设有top_k方法

审查要点：

1. 方案是否正确？
   ✓ 正确：CMS可以估计频率

2. 是否最优？
   ✗ 不是最优：
     - 没有考虑时间窗口（24小时）
     - 旧热搜词无法过期
     - 没有维护Top-K堆

3. 如果热搜词分布不均匀？
   CMS适合高频词，低频词误差大
   如果某些词频率很低但需要追踪，CMS可能遗漏

4. 是否需要结合滑动窗口？
   ✓ 需要：
     - 过去24小时的热搜需要窗口约束
     - 每小时一个CMS桶，共24桶

改进方案：

python

class HourlyTrending:
    def __init__(self):
        self.hourly_cms = [CountMinSketch(5, 1000) for _ in range(24)]
        self.current_hour = 0
        self.top_k_heap = TopKHeap(100)
    
    def tick_hour(self):
        self.current_hour = (self.current_hour + 1) % 24
        self.hourly_cms[self.current_hour] = CountMinSketch(5, 1000)
    
    def get_24h_top100(self):
        # 合并24小时的CMS
        total_cms = merge_all(self.hourly_cms)
        return self.top_k_heap.get_top_k()

第四层：开放设计练习

练习10：实时热搜榜系统设计

问题：设计一个实时热搜榜系统，要求：

每秒处理10万次搜索请求
统计过去1小时的热搜词Top100
搜索词种类超过1000万
内存限制100MB

请设计数据结构和算法，并分析空间、时间、精度。

设计思路：

1. 问题分析
   - 数据量：每秒10万 × 3600秒 = 3.6亿/小时
   - 搜索词种类：1000万
   - 空间约束：100MB
   - 时间约束：过去1小时

2. 方案设计
   数据结构：
     - 主CMS：估计频率（空间约1KB）
     - 滑动窗口：每小时60桶（空间约60KB）
     - Top-K堆：维护高频词（空间约2KB）
   
   算法流程：
     - 每个搜索词：添加到当前桶的CMS
     - 每分钟：切换桶
     - 查询Top100：合并60桶CMS，从堆中取Top

3. 空间分析
   主CMS：5 × 28 = 140计数器 ≈ 560字节
   60桶：60 × 560字节 ≈ 33KB
   Top-K堆：100词 × 20字节 ≈ 2KB
   总计：约36KB << 100MB ✓

4. 时间分析
   添加：O(1)（CMS更新）
   查询：O(k)（Top-K堆查询）
   实时性：满足 ✓

5. 精度分析
   CMS误差：10%（高频词误差可控）
   Top-K：可能有遗漏（低频词可能被错过）

练习11：流式推荐系统设计

问题：设计一个实时推荐系统，要求：

用户行为流式到达
实时更新用户画像
内存有限
推荐需要考虑最近行为

请分析适合什么流式算法。

设计思路：

1. 问题分析
   - 用户行为：点击、浏览、购买等
   - 用户画像：需要维护历史行为
   - 空间约束：内存有限
   - 时间约束：最近行为更重要

2. 方案设计
   用户画像：
     - 滑动窗口维护最近100次行为
     - 或指数衰减渐进遗忘
   
   物品频率：
     - Count-Min Sketch估计物品热度
     - 用于推荐热门物品
   
   协同过滤：
     - 用户-物品矩阵用CMS压缩
     - 近似估计相似度

3. 空间分析
   用户画像：每个用户O(100)行为 ≈ 100 × 100万用户 = 100MB（可控）
   CMS：约10KB
   总计：约100MB ✓

4. 挑战
   - 用户数量大时，画像存储爆炸
   - 解决：只维护活跃用户画像，过期用户删除

第五层：思考题

思考1：为什么CMS只能高估？

问题：Count-Min Sketch的估计值总是 ≥ 真实值，为什么不能低估？

解答思路：

直觉解释：
  每个计数器 table[i][j] 包含：
    真实频率 f(word) + 其他碰撞元素的频率
  
  碰撞元素的频率 ≥ 0
  → table[i][j] ≥ f(word)
  
  取最小值：
    min(table[i][j]) ≥ f(word)
  
  → estimate ≥ f(word) ✓

数学原因：
  CMS只做"加法"，不做"减法"
  碰撞导致的误差只会增加计数，不会减少
  
对比：
  Count Sketch使用带符号哈希 → 可以有正负误差

思考2：为什么HLL用调和平均？

问题：HyperLogLog用调和平均合并寄存器，而不是算术平均，为什么？

解答思路：

算术平均：μ = Σ x_i / n
调和平均：H = n / Σ (1/x_i)

区别：
  算术平均对极端值（很大的数）敏感
  调和平均对极端值（很小的数）敏感
  
对于HLL：
  前导零估计：estimate ≈ 2^zeros
  
  如果某个寄存器zeros很大 → 估计值极大
  算术平均会被这个极端值拉高
  
  调和平均：
    H = n / Σ (1/2^zeros) = n / Σ (2^(-zeros))
    大zeros → 2^(-zeros)很小 → 对总和贡献小
    → 抑制了极端值的影响
  
直觉：
  调和平均相当于对"估计值的倒数"做算术平均
  然后再取倒数回来
  
  这样可以抑制噪音，提高精度

思考3：流式算法的共同特征

问题：流式算法能处理的所有问题有什么共同特征？

解答思路：

共同特征：

1. 数据持续到达
   - 没有"完成"的概念
   - 数据量可能无限

2. 内存有限
   - 无法存储所有数据
   - 需要摘要结构

3. 实时响应需求
   - 需要在数据流动时给出答案
   - 不能等数据"完成"

4. 可以接受近似
   - 精确解空间不够
   - 近似解满足需求

数学特征：
  - 精确解需要 O(n) 空间
  - 近似解可以用 O(polylog n) 空间
  - 有精度-空间权衡公式
  
不适合流式的问题：
  - 需要完整数据的操作（排序、中位数精确）
  - 精确解必需（金融交易）
  - 复杂查询（范围查询、多维度查询）

审查清单模板

流式方案审查清单

审查LLM给出的流式方案时，使用以下清单：

□ 空间复杂度是否合理？
  - 是O(n)还是O(polylog n)？
  - 是否超过内存限制？

□ 时间复杂度是否合理？
  - 添加操作是否O(1)？
  - 查询操作是否实时？

□ 是否考虑了流式约束？
  - 数据持续到达，没有"完成"概念
  - 只能单遍扫描
  - 实时响应需求

□ 是否考虑了时间窗口？
  - 需要统计"过去X时间"吗？
  - 如何处理过期数据？

□ 精度保证是否满足？
  - 误差范围可接受吗？
  - 失败概率可接受吗？

□ 是否有更好的摘要结构？
  - CMS适合频率估计
  - HLL适合基数估计
  - 滑动窗口适合时间约束

□ 与业务需求匹配？
  - 高频词还是低频词？
  - 精确还是近似？
  - 实时还是批处理？

小结

练习核心收获

三层递进：概念理解 → 方法应用 → 批判思维
LLM审查重点：空间复杂度、时间复杂度、流式约束、精度保证
常见错误：忽视空间约束、忽视时间窗口、O(n)查询效率
改进方向：用摘要结构替代精确存储、增量维护、滑动窗口

检查你的理解

完成这些练习后，你应该能够：

识别哪些问题适合流式算法
选择合适的摘要结构和参数
审查LLM方案的正确性和效率
提出改进方案

章节回顾

恭喜你完成了Ch10的学习！

让我们回顾本章的核心收获：

节	核心收获
10.1 流式成本模型	前提变了：精确不可能，近似是答案
10.2 滑动窗口	有限窗口处理无限数据，摘要优化
10.3 Count-Min Sketch	频率估计，空间指数级节省
10.4 HyperLogLog	基数估计，空间O(log log n)
10.5 流式聚合	在线决策，秘书问题，竞争比
10.6 LLM流式视角	上下文窗口约束，KV Cache，前沿技术
10.7 综合练习	审查LLM方案，识别常见错误

核心叙事：前提变了，算法也变。从"精确计算"到"近似估计"，从"全量存储"到"摘要结构"。

下一步

完成Ch10后，让我们进入Ch11：Transformer作为算法。

Ch11将探讨：Transformer的算法本质，以及LLM时代的算法新范式。

10.7 综合练习：如何审查LLM给出的流式方案 ​

练习设计理念 ​

三层递进 ​

练习主题 ​

第一层：概念理解练习 ​

练习1：流式约束识别 ​

练习2：空间复杂度直觉 ​

第二层：方法应用练习 ​

练习3：Count-Min Sketch参数选择 ​

练习4：HyperLogLog精度与空间权衡 ​

练习5：滑动窗口方案选择 ​

第三层：批判思维练习 ​

练习6：LLM输出审查（一）- 热搜榜 ​

练习7：LLM输出审查（二）- UV统计 ​

练习8：LLM输出审查（三）- 异常检测 ​

练习9：LLM输出审查（四）- 正确但非最优 ​

练习6：LLM输出审查（一）参考答案补充 ​

练习7：LLM输出审查（二）参考答案补充 ​

练习8：LLM输出审查（三）参考答案补充 ​

第四层：开放设计练习 ​

练习10：实时热搜榜系统设计 ​

练习11：流式推荐系统设计 ​

第五层：思考题 ​

思考1：为什么CMS只能高估？ ​

思考2：为什么HLL用调和平均？ ​

思考3：流式算法的共同特征 ​

审查清单模板 ​

流式方案审查清单 ​

小结 ​

练习核心收获 ​

检查你的理解 ​

章节回顾 ​

下一步 ​

10.7 综合练习：如何审查LLM给出的流式方案

练习设计理念

三层递进

练习主题

第一层：概念理解练习

练习1：流式约束识别

练习2：空间复杂度直觉

第二层：方法应用练习

练习3：Count-Min Sketch参数选择

练习4：HyperLogLog精度与空间权衡

练习5：滑动窗口方案选择

第三层：批判思维练习

练习6：LLM输出审查（一）- 热搜榜

练习7：LLM输出审查（二）- UV统计

练习8：LLM输出审查（三）- 异常检测

练习9：LLM输出审查（四）- 正确但非最优

练习6：LLM输出审查（一）参考答案补充

练习7：LLM输出审查（二）参考答案补充

练习8：LLM输出审查（三）参考答案补充

第四层：开放设计练习

练习10：实时热搜榜系统设计

练习11：流式推荐系统设计

第五层：思考题

思考1：为什么CMS只能高估？

思考2：为什么HLL用调和平均？

思考3：流式算法的共同特征

审查清单模板

流式方案审查清单

小结

练习核心收获

检查你的理解

章节回顾

下一步