深度推理与测试时计算:从 CoT 到 o1、DeepSeek-R1¶
本文介绍测试时计算(Test-Time Compute) 概念、代表性的推理模型家族(如 OpenAI GPT-5 系列、DeepSeek-R1/V4)、API 使用方法,以及何时适合采用深度推理。截至 2026 年 5 月,推理模型已进入「多模态 + 原生工具调用」的新阶段,各大厂商在推理能力、上下文长度和成本效率上持续竞争。
适用读者:已了解 Prompt 工程入门,希望理解「推理阶段加算力」的机制与实际用法。
什么是测试时计算¶
测试时计算(Test-Time Compute,TTC) 指在推理阶段增加算力投入,让模型在给出最终答案前进行更长时间的「思考」。
传统 LLM 对每个 token 做一次前向传播,推理成本主要由「生成长度」决定。而 TTC 允许模型在内部进行多步推理、链式思考,再输出答案。可以类比为:考试时允许草稿纸,学生可以在草稿纸上演算,最后只交最终答案。
| 对比 | 传统 LLM | 深度推理 / TTC |
|---|---|---|
| 推理成本 | 主要由生成长度决定 | 推理步数 × 模型规模 |
| 输出内容 | 直接答案 | 通常为更高质量答案;中间推理是否可见取决于模型与平台 |
| 典型能力 | 知识、简单推理 | 数学、代码、复杂逻辑 |
从 Chain-of-Thought 到 o1 / R1¶
Chain-of-Thought(CoT)¶
CoT 是最早被广泛使用的推理增强方式:在提示词中要求模型「一步步想」,输出中会包含推理步骤。但 CoT 的「思考」仍是可见的、与最终答案混在一起,受限于提示词设计和单次前向传播。
OpenAI GPT-5 系列推理模型¶
OpenAI 在 2026 年持续迭代其推理模型家族:
| 模型 | 发布时间 | 核心特点 |
|---|---|---|
| GPT-5.4 | 2026年3月 | 迄今能力最强、效率最高的专业级模型,提供"Thinking"模式,原生支持电脑操控 |
| GPT-5.5 | 2026年4月 | 与 DeepSeek-V4 同日发布,性能对标,支持复杂推理与代码生成 |
| GPT-Realtime-2 | 2026年5月 | 业界首个搭载 GPT-5 级推理能力的音频大模型,支持实时语音交互与推理 |
这些模型会在内部做更多计算,再输出结果。对开发者来说,重点通常不是"看见完整草稿",而是通过更直接的提示拿到更稳的复杂任务结果。官方最新文档也强调:对这类模型,先用简洁提示,不要默认要求它"step by step"展示思维链。
GPT-Realtime-2 的特别之处: - 首个将 GPT-5 级推理能力应用于语音交互的模型 - 支持实时音频流处理,延迟显著降低 - 可用于语音助手、实时翻译、音频分析等场景
Claude 4 系列推理模型¶
Anthropic 在 2026 年发布 Claude 4 系列,进一步强化推理与编程能力:
| 模型 | 发布时间 | 核心特点 |
|---|---|---|
| Claude Opus 4 | 2026年5月 | 旗舰级模型,重点强化编程能力、高级推理与 AI 代理任务 |
| Claude Sonnet 4 | 2026年5月 | 性价比更高的中档模型,性能持平竞品但价格低 80% |
| Claude Opus 4.7 | 2026年4月 | 在高级软件工程和复杂、长时间运行任务处理能力上显著提升 |
| Claude Mythos | 2026年4月 | 专注于漏洞识别和软件系统安全分析 |
DeepSeek-R1 / V4 / R2¶
DeepSeek-R1 是 DeepSeek 推出的深度推理模型,特点包括:
- 可暴露推理字段:部分接口会返回
reasoning_content与content,便于调试或审计 - 开放与可审计:便于调试、合规与教学
- 成本更低:相比 o1 约便宜 20–30 倍(输入 $0.55/M tokens vs o1 $15/M tokens)
- 架构:671B MoE,约 37B 激活参数;蒸馏版覆盖 1.5B–70B(基于 Qwen 的蒸馏版为 MIT 开源,基于 Llama 的遵循 Llama3.3 License)
- 能力:32B/70B 蒸馏版在部分基准上已超越 o1-mini
R1-Zero 为纯强化学习训练版本,无监督预训练成分,体现「推理能力可由 RL 直接塑造」的思路。
DeepSeek-V4(2026年4月24日发布): - 万亿级参数规模,性能跻身全球第一梯队 - 百万字超长上下文支持 - 开源免费商用,全量开源 - 国产算力全适配
DeepSeek-R2(灰度内测中): - 1.2万亿参数 - 多模态识图功能 - 作为第二代旗舰大模型,从参数规模、技术架构到能力都有显著提升
DeepSeek-R1 API 使用¶
模型标识¶
使用模型名:deepseek-reasoner(或根据官方文档的最新命名)。
响应结构¶
响应中包含两个主要字段:
reasoning_content:模型的「草稿」——内部推理过程content:最终答案
可根据业务需求选择只展示 content,或将 reasoning_content 用于调试、审计或用户可见的「思考过程展示」。
示例(伪代码)¶
1 2 3 4 5 6 7 8 9 10 11 12 13 | |
实际字段名请以 DeepSeek 官方文档为准。
适用场景与注意事项¶
适合用深度推理的场景¶
- 数学与逻辑:证明、计算、多步推导
- 代码:算法设计、调试、重构
- 科学推理:实验设计、因果分析
- 法律/合规:需要可追溯推理过程的任务
- Agent 推理后端:规划、拆解、决策链
- 语音交互:使用 GPT-Realtime-2 进行实时语音推理
不推荐的场景¶
- 简单知识问答:CoT/深度推理可能适得其反,增加延迟和成本
- 创意/自由生成:推理步骤对用户价值有限
- 实时对话(非语音专用模型):多步推理延时长,可能影响体验
成本与延迟¶
- TTC 会显著增加推理时间与 token 消耗
- R1 相对 o1 成本更低,适合在「需要推理」与「预算」之间做折中
- DeepSeek-V4 开源特性使其在私有化部署场景更具成本优势
与本站其他文章的关系¶
- Prompt 工程入门:CoT 等提示技巧是深度推理的早期形态
- RAG:深度推理可与 RAG 结合,先检索再推理
- Agent:R1/o1 可作为 Agent 的「思考引擎」,用于规划与决策
小结¶
- 测试时计算(TTC):推理阶段增加算力,让模型在输出前进行多步思考
- OpenAI GPT-5 系列:GPT-5.⅘.5 提供强大推理能力,GPT-Realtime-2 开创音频推理新场景
- Claude 4 系列:Opus 4 和 Sonnet 4 在编程和推理上持续领先
- DeepSeek-R1/V4/R2:成本更低、可审计、开源免费商用,V4 达到万亿参数规模
- 使用建议:数学、代码、逻辑、Agent 推理、语音交互等优先考虑;知识问答、创意写作可继续用普通模型
延伸阅读:DeepSeek-R1 技术报告、OpenAI Reasoning Best Practices、The Art of Scaling Test-Time Compute for Large Language Models。