你是否曾对 AI 处理复杂问题时那看似严密的逻辑推理步骤感到惊叹,又是否曾因它在另一个相似问题上给出离谱的错误答案而感到困惑?这种巨大的体验反差,直指当前 AI 领域最核心的谜题:大语言模型(LLM)的“推理能力”究竟是真正的智能涌现,还是一种高级的“模式匹配”?
为了拨开这层迷雾,我们必须提到一位关键人物——来自谷歌 DeepMind 的 Denny Zhou。他和他的团队通过提出“思维链(Chain-of-Thought)”和“自洽性(Self-Consistency)”等开创性技术,为我们理解和驾驭大模型的推理能力奠定了基石。
在最近的斯坦福讲座中,Denny Zhou 系统性地梳理了 AI 推理技术的发展脉络。这篇博客将以这场讲座为蓝本,带你从最基础的概念出发,层层递进,彻底搞懂大语言模型“思考”的秘密。
Part 1:重新定义“推理”——从哲学到工程
在探讨如何实现推理之前,我们必须先明确,什么是 LLM 的“推理”?
Denny Zhou 避开了没有明确定义的哲学辩论,给出了一个清晰、可操作的工程定义:
推理,就是模型在处理输入(问题)和生成最终输出(答案)之间,所产生的所有“中间步骤”(intermediate tokens)。
这个定义至关重要,它将一个模糊的“思考”概念,转化为了一个可以被具体优化和实现的目标。
为了说明这一点,他设计了一个巧妙的任务——“末尾字母拼接”。
- 问题:请拼接 'artificial intelligence' 这两个单词的末尾字母。
- 直接回答(非推理):模型可能会凭语言惯性直接猜一个答案,如 "LE"。这只是模式匹配。
- 生成中间步骤(推理):
- 'artificial' 的最后一个字母是 'l'。
- 'intelligence' 的最后一个字母是 'e'。
- 将 'l' 和 'e' 拼接起来,得到 'le'。
这才是 Zhou 定义的推理:将复杂任务分解为一系列简单的、可执行的子任务,最终导出正确答案。
为什么中间步骤至关重要?
这不仅仅是为了模仿人类,背后有坚实的理论依据。一项理论研究表明:
对于任何一个可以被大小为 T 的布尔电路解决的问题(可以理解为计算复杂度为 T),一个常数大小的 Transformer 模型,可以通过生成 O(T) 长度的中间步骤来解决它。
简单来说,允许模型“思考”得更久(生成更长的中间步骤),是解锁其解决复杂问题能力的一把“金钥匙”。如果我们强迫模型直接输出答案,就等于要求模型本身的网络深度足以模拟整个复杂计算,这几乎是不可能的。
这一洞察,彻底改变了我们训练和使用 LLM 的范式——从单纯追求“答案”,转向了追求“过程”。
Part 2:唤醒沉睡的推理能力——解码与提示
既然“推理过程”如此重要,我们如何让模型生成它呢?Denny Zhou 提出了一个颠覆性的观点:预训练模型早已具备推理能力,我们需要的仅仅是改变“解码过程”。
贪婪解码 vs. 思维链解码
让我们看一个经典的数学题:
我有3个苹果,我爸爸比我多2个苹果。我们总共有多少个苹果?
如果使用默认的“贪婪解码”(Greedy Decoding),模型在生成每个词时总会选择当前概率最高的那一个。它很可能会看到“3个”和“多2个”,直接联想到“5”,输出一个错误的答案。
但是,模型的输出概率分布中,并非只有这一个选项。如果我们不那么“贪婪”,去探索那些概率稍低的“岔路”,奇迹就会发生。这便是“思维链解码”(Chain-of-Thought Decoding)。
- 候选路径 1 (贪婪):5个苹果。(错误)
- 候选路径 2 (探索):我爸爸比我多2个,所以他有 3+2=5 个苹果。我们总共有 3+5=8 个苹果。(正确)
- 候选路径 3 (探索):你有3个苹果,你爸爸有5个苹果,你们总共有8个苹果。(正确)
正确的推理路径其实一直都存在于模型的输出空间里!这个发现告诉我们,推理能力是模型在学习海量文本后自然“涌现”的,我们的任务从“教会”模型推理,变成了如何“引导”模型把它已经知道的东西以正确的形式表达出来。
那么,如何从众多候选路径中选出最好的那一个呢?答案是观察“答案置信度”。
研究者发现,对于那些包含了正确思维链的回答,模型在生成最终答案那个词(比如数字“8”)时,其内部的置信度(概率)会异常地高。这就像一个人经过深思熟虑后,对自己的结论会非常笃定。
从解码到提示工程
为了让普通用户也能轻松引导模型,一系列提示工程技术应运而生,其核心思想就是用自然语言来“重塑”模型的输出概率分布,让带有思考过程的优秀答案能“自动”排到第一名。
- 思维链提示 (Chain-of-Thought Prompting):在提问前,先给模型一两个带有详细解题步骤的例子,模型会“模仿”例子的风格,自动进行一步步分析。
- “让我们一步步思考” (Let's think step-by-step):这个更“神奇”的提示,只需在问题后加上这句简单的话,就能有效激发模型的推理潜能,即便模型在训练数据中从未见过这个“咒语”。
Part 3:内化能力——从 SFT 到自我进化的范式革命
提示工程虽有效,但总感觉像是在使用“外部咒语”。我们需要一种更稳定的方法,让推理成为模型的固有能力。这就引出了微调(Fine-Tuning)。
方法一:监督微调 (SFT) 的陷阱
SFT 的思路很直接:雇佣人类专家,针对大量问题手写高质量的解题步骤,然后用这些“标准答案”去训练模型,让模型输出和人类专家写的一模一样。OpenAI 著名的 GSM8K 数据集就是这一思路的产物。
然而,Denny Zhou 的团队在 2021 年发现了一个严重问题:SFT 训练出的模型泛化能力很差。它能很好地解决与训练数据相似的问题,但一旦遇到新类型的问题就很容易失败。
教训:当你的范式本身是错误的时候,盲目扩大数据规模也无济于事。 SFT 的根本错误在于,它假设人类的思维过程就是模型学习的最优路径,但事实并非如此。
方法二:自我进化——新范式的诞生
这个转折点来自于一个惊人的想法:机器自己生成的训练数据,可能比人类专家写的更好。这个被称为“Self-Improve”或 STaR (Self-Taught Reasoner) 的新范式流程如下:
- 生成 (Generate):让一个强大的 LLM 针对一批问题,生成大量、多样的解题步骤。
- 验证 (Verify):使用一个“验证器”(Verifier)——比如对于数学题,我们有标准答案,可以直接判断——来检查哪些解题步骤最终得出了正确的答案。
- 筛选 (Filter):只保留那些“过程多样,但结果正确”的生成结果,作为新的高质量训练数据。
- 微调 (Fine-Tune):用这些由模型自己生成并经过验证的“好数据”,再去微调模型自己。
- 迭代 (Iterate):这个过程可以不断重复,形成一个“自我进化”的闭环。
为什么这个新范式更优越?
因为它遵循了机器学习的第一性原理:直接优化你想要的东西。
- SFT 的目标:模仿人类的解题步骤。
- 新范式的目标:最终答案的正确性。
我们不再关心模型的解题过程是否和人类一模一样,我们只用“最终答案是否正确”这个终极指标作为奖励信号来指导模型的学习。通过这种方式,模型会自己去探索什么样的“思考过程”,能够最稳定、最泛化地导向正确答案。
在这个循环中,最关键的环节是那个能自动判断答案好坏的“验证器”。这完美印证了强化学习之父理查德·萨顿(Richard Sutton)二十多年前的洞见:验证是通往人工智能的关键(Verification is the Key to AI)。
Part 4:压榨性能极限——推理时的前沿技术
通过自我进化训练出的模型已经非常强大,但这还不是终点。Denny Zhou 介绍了两种在“推理时”进一步提升结果可靠性的技术。
1. 聚合与自洽性 (Self-Consistency)
用户真正关心的不是推理过程是否最优美,而是哪个“最终答案”本身是正确的。要实现这个目标,最好的方法是“自洽性”:
- 开启随机采样,让模型针对同一个问题,生成许多个不同的、多样的推理序列。
- 你会得到多个不同的推理路径和可能不同的答案。
- 进行“投票”,完全忽略推理过程,只看最终答案。哪个答案出现的次数最多,就认为哪个是最终的正确答案。
背后的直觉是:如果一个答案是正确的,那么通往这个答案的“道路”应该有很多条。正确的答案会在多次尝试中反复、稳定地出现。这个简单的技巧带来的性能提升是惊人的,在 GSM8K 测试集上,它曾将模型的准确率从 58% 直接飙升到 75%。
2. 检索 + 推理 (Retrieval + Reasoning)
模型到底是在“推理”还是在“检索”(从记忆库里找相似答案)?Denny Zhou 的态度非常务实:为什么要在两者之间做选择呢?把它们结合起来效果就是更好!
这便是现在火热的“检索增强生成”(RAG)技术的思想雏形。
- 类比推理:在解决一个复杂的几何问题前,先提示模型“回忆一个相关的问题”,模型可能会先自己“检索”出两点间的距离公式,然后利用这个知识成功解题。
- 退一步思考:在解决具体物理问题前,先提示模型“退一步,思考一下解决这类问题所需的基本物理原理是什么”,模型会先总结出相关定律,再用这些原理指导解题。
一个强大的推理系统,必然是一个懂得如何利用外部知识的开放系统。
总结:四条黄金法则与未来挑战
Denny Zhou 将整个技术演进总结为四条经过实践检验的黄金法则:
- 有推理优于无推理:生成中间步骤是基础。
- 强化学习微调优于 SFT:让模型在“正确答案”的引导下自我进化,远比单纯模仿人类更有效。
- 聚合多个答案优于单次生成:利用自洽性汇集模型的“集体智慧”,大幅提升可靠性。
- 检索+推理优于纯推理:将模型的内部推理与外部知识库相结合是未来方向。
这四条法则清晰地勾勒出了从一个原始的预训练模型,到今天强大的推理系统的完整技术路径。
然而,未来也面临巨大挑战。今天讨论的所有关键技术,都严重依赖于一个前提:任务的答案是可以被自动验证的(如数学题、代码题)。但在现实世界中,大量更有价值的任务,如创意写作、商业战略规划、代码架构设计等,并没有唯一的“正确答案”。
如何为这些充满主观性和复杂权衡的领域构建“验证器”? 这可能是下一代人工智能需要突破的最大瓶颈。
最后,让我们以物理学家理查德·费曼的名言结束:
真相,最终总是比你想象的要简单。
回顾整个历程,无论是思维链、自洽性还是自我进化微调,其核心思想都惊人地简单,回归了机器学习最本源的原理。这或许就是科研最大的魅力所在。