本文是揭开 AI 的神秘面纱的一部分,旨在(试图)消除围绕 AI 的术语和神话。
自发布以来,DeepSeek-R1 在整个 AI 行业引发了冲击波,在开源社区引起了兴奋,并在领先的 AI 实验室中引起了恐慌。但是,围绕该模型、它的作用以及它的训练方式也存在很多混淆。以下是您需要了解的有关此里程碑版本的信息的简要概述。
什么是 DeepSeek-R1,它有什么特别之处?
R1 是由中国对冲基金 High-Flyer 拥有的 AI 实验室 DeepSeek 开发的大型推理模型 (LRM)。R1 构建在 DeepSeek-V3 之上,DeepSeek-V3 是一种通用的大型语言模型 (LLM),可与 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet 等先进的模型相媲美。
主要的 R1 模型是一个 6710 亿参数的专家混合 (MoE) 模型,这意味着对于任何给定的任务,它只使用与该任务相关的参数子集。与 MoE 相反的是 “密集模型”,它们在每一代中使用其所有参数。MoE 使LLMs资源效率更高。
R1 与其他模型不同的一点是它的训练方式。对推理任务进行微调LLMs的黄金标准是在大量思维链 (CoT) 轨迹上训练它们。CoT 跟踪是模型在解决问题时所经历的书面过程。在大多数情况下,工程师依靠大量人工生成的 CoT 跟踪来引导训练。这通常被称为监督微调 (SFT)。然后,他们使用强化学习 (RL),其中模型生成自己的 CoT 并评估其质量。
DeepSeek 团队发现他们可以跳过 SFT 步骤,直接跳转到 RL。事实证明,在没有人工指导的情况下,该模型可以变得同样擅长学习 CoT 推理。这是 DeepSeek-R1-Zero 使用的方法,它是与 R1 同时发布的模型的变体。R1 建立在 R1-Zero 之上,但在一小部分高质量的 CoT 示例上使用 SFT,以使推理过程更易于理解。事实证明,R1-Zero 在推理任务上的表现比 R1 更好,尽管它的 CoT 跟踪的可解释性稍差,并且在推理问题时经常在语言之间跳转。
截至今天,R1 和 R1-Zero 都与推理模型竞争,包括 o1 和 o3-mini。根据 DeepSeek 的报告,R1 在关键推理基准上紧随 o1 之后。

但更重要的是,R1 揭示了它的完整推理链,而 o1 只显示了推理过程的高级概述。在我的实验中,我发现这是一个关键的差异化因素。当模型出错时(在实际应用程序中经常发生),能够查看 CoT 对于故障排除和更正提示和数据至关重要。(O3-mini 最近开始展示更详细的推理链版本,但它仍然不是原始代币。
训练 DeepSeek-R1 需要多少钱?
围绕 DeepSeek-R1 的最大争议之一是训练成本。媒体最初报道称,该模型的训练成本不到 600 万美元,而据报道训练的模型需要数十亿美元。
但这个数字只考虑了最终训练运行的成本。训练模型需要在不同规模下进行大量实验,这比最终训练运行的成本高出几倍。此外,该数字不包括研发和数据采集等其他成本。
关于用于训练模型的计算集群也没有太多的明确性。据 DeepSeek 称,该模型是在 2048 个 Nvidia H800 GPU 的集群上训练的。但其他报道暗示,尽管美国有出口限制,DeepSeek 可能已经收购了多达 50,000 个 H100 GPU。
尽管如此,很明显,DeepSeek 以比其他先进的模型低得多的成本训练其模型。由于高带宽加速器的限制和访问受限,研究人员和工程师进行了大量创新,以更有效地使用现有硬件。其中一些包括更好地利用硬件的低级代码,以及更高效的 MoE 架构和注意力机制。
DeepSeek-R1 是否从 OpenAI 窃取了数据?
不同的用户在社交媒体上提出了一些声明,称 DeepSeek-R1 是使用通过其 API 服务从 OpenAI 窃取的数据进行训练的。其中一些声明是基于屏幕截图做出的,这些屏幕截图显示 R1 回应用户它是 GPT-4o 或其他 OpenAI 模型。
值得注意的是,R1(和许多其他模型)是在 Common Crawl 上训练的,这是一个从 Web 上不同来源收集的非常大的文本存储库。这个存储库会定期更新,它包含的一些文本现在是由 LLMs GPT-4o 等生成的,其中包括“我是 GPT-4o”或“我被 OpenAI 训练”等摘录。因此,在 Common Crawl 上训练的模型自然会出现这种行为,除非它经历了一些特殊的训练后过程。
值得一提的另一点是,由于 OpenAI 没有透露其推理模型的 CoT 跟踪,因此 DeepSeek 不可能通过对 API 的原始访问来创建训练数据集。
尽管如此,OpenAI 和 Microsoft 声称有证据表明 DeepSeek 来自 API 端点。因此,陪审团仍然无法了解幕后到底发生了什么。
DeepSeek-R1 是开源的吗?
DeepSeek 适用于 R1 和 R1-Zero,包括完整的 671B 模型,以及较小的蒸馏版本。任何人都可以在他们的服务器上下载和运行模型。该版本还包括可在边缘设备上运行的 1.5-8B 模型,为您提供手机或笔记本电脑上的推理模型。
R1 还附带一个宽松的 MIT 许可证,允许您将其用于商业目的。Perplexity 已经将其集成到其 AI 搜索产品中,Fireworks、Together AI 和 Microsoft Azure 等云提供商已将其添加到其托管模型产品中。Hugging Face 上已经发布了数百种 R1 衍生产品。
但是,开放权重并不意味着开源。DeepSeek 尚未发布 R1 的训练数据和代码。然而,鉴于他们在论文中包含的细节,其他研究人员正试图重现结果。一个值得注意的例子是 Hugging Face 团队,他们计划基于他们的论文开发一个完全开源的 R1 版本。