揭开 AI “思考”的秘密：谷歌大神 Denny Zhou 斯坦福讲座全解析

你是否曾对 AI 处理复杂问题时那看似严密的逻辑推理步骤感到惊叹，又是否曾因它在另一个相似问题上给出离谱的错误答案而感到困惑？这种巨大的体验反差，直指当前 AI 领域最核心的谜题：大语言模型（LLM）的“推理能力”究竟是真正的智能涌现，还是一种高级的“模式匹配”？

为了拨开这层迷雾，我们必须提到一位关键人物——来自谷歌 DeepMind 的 Denny Zhou。他和他的团队通过提出“思维链（Chain-of-Thought）”和“自洽性（Self-Consistency）”等开创性技术，为我们理解和驾驭大模型的推理能力奠定了基石。

在最近的斯坦福讲座中，Denny Zhou 系统性地梳理了 AI 推理技术的发展脉络。这篇博客将以这场讲座为蓝本，带你从最基础的概念出发，层层递进，彻底搞懂大语言模型“思考”的秘密。

Part 1：重新定义“推理”——从哲学到工程

在探讨如何实现推理之前，我们必须先明确，什么是 LLM 的“推理”？

Denny Zhou 避开了没有明确定义的哲学辩论，给出了一个清晰、可操作的工程定义：

推理，就是模型在处理输入（问题）和生成最终输出（答案）之间，所产生的所有“中间步骤”（intermediate tokens）。

这个定义至关重要，它将一个模糊的“思考”概念，转化为了一个可以被具体优化和实现的目标。

为了说明这一点，他设计了一个巧妙的任务——“末尾字母拼接”。

问题：请拼接 'artificial intelligence' 这两个单词的末尾字母。
直接回答（非推理）：模型可能会凭语言惯性直接猜一个答案，如 "LE"。这只是模式匹配。
生成中间步骤（推理）：
1. 'artificial' 的最后一个字母是 'l'。
2. 'intelligence' 的最后一个字母是 'e'。
3. 将 'l' 和 'e' 拼接起来，得到 'le'。

这才是 Zhou 定义的推理：将复杂任务分解为一系列简单的、可执行的子任务，最终导出正确答案。

为什么中间步骤至关重要？

这不仅仅是为了模仿人类，背后有坚实的理论依据。一项理论研究表明：

对于任何一个可以被大小为 T 的布尔电路解决的问题（可以理解为计算复杂度为 T），一个常数大小的 Transformer 模型，可以通过生成 O(T) 长度的中间步骤来解决它。

简单来说，允许模型“思考”得更久（生成更长的中间步骤），是解锁其解决复杂问题能力的一把“金钥匙”。如果我们强迫模型直接输出答案，就等于要求模型本身的网络深度足以模拟整个复杂计算，这几乎是不可能的。

这一洞察，彻底改变了我们训练和使用 LLM 的范式——从单纯追求“答案”，转向了追求“过程”。

Part 2：唤醒沉睡的推理能力——解码与提示

既然“推理过程”如此重要，我们如何让模型生成它呢？Denny Zhou 提出了一个颠覆性的观点：预训练模型早已具备推理能力，我们需要的仅仅是改变“解码过程”。

贪婪解码 vs. 思维链解码

让我们看一个经典的数学题：

我有3个苹果，我爸爸比我多2个苹果。我们总共有多少个苹果？

如果使用默认的“贪婪解码”（Greedy Decoding），模型在生成每个词时总会选择当前概率最高的那一个。它很可能会看到“3个”和“多2个”，直接联想到“5”，输出一个错误的答案。

但是，模型的输出概率分布中，并非只有这一个选项。如果我们不那么“贪婪”，去探索那些概率稍低的“岔路”，奇迹就会发生。这便是“思维链解码”（Chain-of-Thought Decoding）。

候选路径 1 (贪婪)：5个苹果。（错误）
候选路径 2 (探索)：我爸爸比我多2个，所以他有 3+2=5 个苹果。我们总共有 3+5=8 个苹果。（正确）
候选路径 3 (探索)：你有3个苹果，你爸爸有5个苹果，你们总共有8个苹果。（正确）

正确的推理路径其实一直都存在于模型的输出空间里！这个发现告诉我们，推理能力是模型在学习海量文本后自然“涌现”的，我们的任务从“教会”模型推理，变成了如何“引导”模型把它已经知道的东西以正确的形式表达出来。

那么，如何从众多候选路径中选出最好的那一个呢？答案是观察“答案置信度”。

研究者发现，对于那些包含了正确思维链的回答，模型在生成最终答案那个词（比如数字“8”）时，其内部的置信度（概率）会异常地高。这就像一个人经过深思熟虑后，对自己的结论会非常笃定。

从解码到提示工程

为了让普通用户也能轻松引导模型，一系列提示工程技术应运而生，其核心思想就是用自然语言来“重塑”模型的输出概率分布，让带有思考过程的优秀答案能“自动”排到第一名。

思维链提示 (Chain-of-Thought Prompting)：在提问前，先给模型一两个带有详细解题步骤的例子，模型会“模仿”例子的风格，自动进行一步步分析。
“让我们一步步思考” (Let's think step-by-step)：这个更“神奇”的提示，只需在问题后加上这句简单的话，就能有效激发模型的推理潜能，即便模型在训练数据中从未见过这个“咒语”。

Part 3：内化能力——从 SFT 到自我进化的范式革命

提示工程虽有效，但总感觉像是在使用“外部咒语”。我们需要一种更稳定的方法，让推理成为模型的固有能力。这就引出了微调（Fine-Tuning）。

方法一：监督微调 (SFT) 的陷阱

SFT 的思路很直接：雇佣人类专家，针对大量问题手写高质量的解题步骤，然后用这些“标准答案”去训练模型，让模型输出和人类专家写的一模一样。OpenAI 著名的 GSM8K 数据集就是这一思路的产物。

然而，Denny Zhou 的团队在 2021 年发现了一个严重问题：SFT 训练出的模型泛化能力很差。它能很好地解决与训练数据相似的问题，但一旦遇到新类型的问题就很容易失败。

教训：当你的范式本身是错误的时候，盲目扩大数据规模也无济于事。 SFT 的根本错误在于，它假设人类的思维过程就是模型学习的最优路径，但事实并非如此。

方法二：自我进化——新范式的诞生

这个转折点来自于一个惊人的想法：机器自己生成的训练数据，可能比人类专家写的更好。这个被称为“Self-Improve”或 STaR (Self-Taught Reasoner) 的新范式流程如下：

生成 (Generate)：让一个强大的 LLM 针对一批问题，生成大量、多样的解题步骤。
验证 (Verify)：使用一个“验证器”（Verifier）——比如对于数学题，我们有标准答案，可以直接判断——来检查哪些解题步骤最终得出了正确的答案。
筛选 (Filter)：只保留那些“过程多样，但结果正确”的生成结果，作为新的高质量训练数据。
微调 (Fine-Tune)：用这些由模型自己生成并经过验证的“好数据”，再去微调模型自己。
迭代 (Iterate)：这个过程可以不断重复，形成一个“自我进化”的闭环。

为什么这个新范式更优越？

因为它遵循了机器学习的第一性原理：直接优化你想要的东西。

SFT 的目标：模仿人类的解题步骤。
新范式的目标：最终答案的正确性。

我们不再关心模型的解题过程是否和人类一模一样，我们只用“最终答案是否正确”这个终极指标作为奖励信号来指导模型的学习。通过这种方式，模型会自己去探索什么样的“思考过程”，能够最稳定、最泛化地导向正确答案。

在这个循环中，最关键的环节是那个能自动判断答案好坏的“验证器”。这完美印证了强化学习之父理查德·萨顿（Richard Sutton）二十多年前的洞见：验证是通往人工智能的关键（Verification is the Key to AI）。

Part 4：压榨性能极限——推理时的前沿技术

通过自我进化训练出的模型已经非常强大，但这还不是终点。Denny Zhou 介绍了两种在“推理时”进一步提升结果可靠性的技术。

1. 聚合与自洽性 (Self-Consistency)

用户真正关心的不是推理过程是否最优美，而是哪个“最终答案”本身是正确的。要实现这个目标，最好的方法是“自洽性”：

开启随机采样，让模型针对同一个问题，生成许多个不同的、多样的推理序列。
你会得到多个不同的推理路径和可能不同的答案。
进行“投票”，完全忽略推理过程，只看最终答案。哪个答案出现的次数最多，就认为哪个是最终的正确答案。

背后的直觉是：如果一个答案是正确的，那么通往这个答案的“道路”应该有很多条。正确的答案会在多次尝试中反复、稳定地出现。这个简单的技巧带来的性能提升是惊人的，在 GSM8K 测试集上，它曾将模型的准确率从 58% 直接飙升到 75%。

2. 检索 + 推理 (Retrieval + Reasoning)

模型到底是在“推理”还是在“检索”（从记忆库里找相似答案）？Denny Zhou 的态度非常务实：为什么要在两者之间做选择呢？把它们结合起来效果就是更好！

这便是现在火热的“检索增强生成”（RAG）技术的思想雏形。

类比推理：在解决一个复杂的几何问题前，先提示模型“回忆一个相关的问题”，模型可能会先自己“检索”出两点间的距离公式，然后利用这个知识成功解题。
退一步思考：在解决具体物理问题前，先提示模型“退一步，思考一下解决这类问题所需的基本物理原理是什么”，模型会先总结出相关定律，再用这些原理指导解题。

一个强大的推理系统，必然是一个懂得如何利用外部知识的开放系统。

总结：四条黄金法则与未来挑战

Denny Zhou 将整个技术演进总结为四条经过实践检验的黄金法则：

有推理优于无推理：生成中间步骤是基础。
强化学习微调优于 SFT：让模型在“正确答案”的引导下自我进化，远比单纯模仿人类更有效。
聚合多个答案优于单次生成：利用自洽性汇集模型的“集体智慧”，大幅提升可靠性。
检索+推理优于纯推理：将模型的内部推理与外部知识库相结合是未来方向。

这四条法则清晰地勾勒出了从一个原始的预训练模型，到今天强大的推理系统的完整技术路径。

然而，未来也面临巨大挑战。今天讨论的所有关键技术，都严重依赖于一个前提：任务的答案是可以被自动验证的（如数学题、代码题）。但在现实世界中，大量更有价值的任务，如创意写作、商业战略规划、代码架构设计等，并没有唯一的“正确答案”。

如何为这些充满主观性和复杂权衡的领域构建“验证器”？ 这可能是下一代人工智能需要突破的最大瓶颈。

最后，让我们以物理学家理查德·费曼的名言结束：

真相，最终总是比你想象的要简单。

回顾整个历程，无论是思维链、自洽性还是自我进化微调，其核心思想都惊人地简单，回归了机器学习最本源的原理。这或许就是科研最大的魅力所在。

参考资料