Stratechery 的这篇《DeepSeek FAQ》万字长文。
总结了所有 DeepSeek 相关的问题。
包括 V3 的意义,R1 的意义,对各家科技公司的影响,对英伟达的影响,是否应该监管等等。
这是一篇尊重事实、客观理性、逻辑清晰的文章。
推荐阅读。
DeepSeek常见问题解答
周一,1月27日。你为什么还没写关于深度求索(DeepSeek)的文章?
我写了!上周二我写了关于R1的文章。
我完全忘了那篇。
责任在我。我坚持那篇文章的观点,包括我强调的两个最大亮点(通过纯强化学习实现的涌现式思维链,以及知识蒸馏的威力),还提到了低成本(我在《Sharp Tech》中进一步展开)和芯片禁令的影响。但这些观察过于局限于当前AI技术的前沿状态。我完全未能预料到的是,这条新闻对更广泛的中美AI竞赛的元讨论会产生何种影响。
深度求索到底发布了什么?
直接引发周末市场震荡的是R1,这是一款类似OpenAI的o1的推理模型。但助推恐慌的许多信息——包括深度求索的训练成本——其实来自圣诞期间V3模型的发布。而支撑V3的多项突破,早在去年1月V2模型发布时已初现端倪。
先从V2说起:它是什么?为何重要?
DeepSeek-V2模型带来了两大突破:DeepSeekMoE和DeepSeekMLA。MoE意为“混合专家”。像GPT-3.5这样的模型会在训练和推理时激活整个网络,但实际应用中并非所有部分都必要。MoE将模型拆分为多个“专家”,仅激活相关部分。GPT-4就是包含约16个专家(每个约1100亿参数)的MoE模型。
V2的DeepSeekMoE对此进行了重要创新:区分更细粒度的专业型专家和通用型共享专家。关键突破在于训练时的负载均衡和路由优化——传统MoE以增加训练通信开销换取高效推理,而深度求索的方法同时提升了训练效率。
DeepSeekMLA则是更大突破。推理的主要瓶颈在于内存需求:既要加载模型,还需存储完整上下文窗口。上下文窗口的内存消耗尤其昂贵(每个token需存储key和value)。MLA(多头潜在注意力)技术压缩了键值存储,大幅降低了推理内存占用。
我听不太懂这些技术细节。
这些突破的真正影响直到V3才显现。V3加入了新的负载均衡方法(进一步减少通信开销)和训练中的多token预测(提升每个训练步骤的密度),最终实现了惊人的低成本:训练V3仅消耗278.8万H800 GPU小时,按每GPU小时2美元计,总成本仅557.6万美元。
这数字低得不可思议。
深度求索明确说明这仅涵盖最终训练阶段的直接成本(不包括前期研发)。从V3论文看:预训练每万亿token仅需18万H800 GPU小时,整个训练周期总耗能278.8万GPU小时。假设使用2048块H800组成的集群,预训练可在两个月内完成。
但Scale AI CEO Alexandr Wang说他们有5万块H100。
Wang的信息来源不明(可能引用分析师Dylan Patel的推文)。实际上,H800(受美国制裁限制带宽的阉割版H100)的硬件条件反而催生了深度求索的创新:他们专门用每块H800芯片的20个处理单元管理跨芯片通信(需绕过CUDA直接使用PTX汇编语言优化)。这种极致优化仅在H800受限环境下才有意义。
这违反芯片禁令了吗?
没有。H100被禁,但H800仍可合法获得。行业原以为先进模型训练必须依赖更高带宽,深度求索却通过对模型结构和基础设施的联合优化突破了这个假设。
V3算顶尖模型吗?
它与OpenAI的4o和Anthropic的Sonnet-3.5竞争,优于Llama的最大模型。V3的成功很可能源于对现有顶尖模型的知识蒸馏(通过API提取其他模型的输出训练自身)。虽然违反服务条款,但这是行业普遍做法,也是众多模型快速逼近GPT-4o水平的原因。
蒸馏对顶尖模型来说不是灾难吗?
确实如此!OpenAI等公司承担着前沿模型的全部训练成本,而其他玩家却在搭便车。这正是微软与OpenAI渐行渐远的根本经济动因:微软更愿提供推理服务,而非资助可能快速商品化的百亿美元级前沿模型训练。
为什么科技股普跌?
短期来看,R1的冲击让市场恐慌。长期而言,模型商品化和更低推理成本其实利好大公司:微软可用更低成本提供服务,亚马逊可托管高质量开源模型,苹果的端侧推理优势(统一内存架构最高支持192GB)将凸显,Meta的AI愿景更易实现。唯有谷歌可能受损:硬件需求下降削弱其TPU优势,零成本推理更可能催生颠覆搜索的产品。
R1到底多厉害?
作为纯强化学习(RL)产物,R1-Zero展示了AI自我演化思维链的能力。研究者观察到“顿悟时刻”:模型在训练中自主发展出重新评估解题策略的能力。后续通过少量思维链示例微调和多阶段训练,最终产出与o1竞争的R1。这印证了"苦涩的教训":无需教AI如何思考,只需提供足够算力和数据,它们能自我进化。
我们接近通用人工智能(AGI)了吗?
征兆显著。这解释了软银等投资者押注OpenAI的逻辑:相信临界点将至,先发优势将产生真实回报。不过R1并未全面领先,OpenAI已展示更强大的o3模型。
芯片禁令影响几何?
禁令反而催生了创新:深度求索的优化方法不仅适用于英伟达阉割芯片,也适用于华为昇腾芯片。最终结果可能是加速美国在半导体领域的优势流失。真正的教训是:试图通过封锁过去的技术来竞争,不如通过未来的创新竞争。
深度求索为何开源?
CEO梁文锋的访谈道破玄机:在颠覆性技术中,闭源护城河是暂时的。开源能吸引人才、建立技术生态,而长期差异化来自成本优势——这正是中国制造业的致胜路径,与美国公司追求高利润率的差异化思路形成对比。
OpenAI要完蛋了吗?
未必。ChatGPT使其意外成为消费级产品公司,可通过订阅和广告在商品化模型上建立可持续业务。真正的输家可能是Anthropic:深度求索登顶App Store,凸显Claude在美国之外缺乏吸引力。
那么这一切听起来都很令人沮丧了?
事物的本质往往比表象更为复杂。在这场人工智能革命浪潮中,DeepSeek犹如数字时代的普罗米修斯之火,为人类文明播撒智慧的火种。真正的主场始终属于普罗大众与商业实体——在不远的未来,近乎零成本的人工智能服务终将成为普惠时代的终极献礼。当历史长河奔涌不息,经济学中的杰文斯定律将绽放真理之光,所有善用智能工具的创新者必将成为数字文明的持炬者。
竞技场另一端,构建完整生态矩阵的科技巨头已占据战略高地。当技术壁垒逐渐消解,产品力与生态优势便成为决胜关键。正如《终结与新生》揭示的演进规律,那些专注用户体验、打造闭环式生态的先行者,注定是智能时代的永恒赢家。
东方巨龙正在悄然蓄积势能。DeepSeek的技术突破不仅是工具革新,更是思维范式的跨越式演进——当中国科技军团见证硅谷神话被本土智慧解构,这种认知觉醒将如同催化反应释放创新动能。这场静默的范式革命,终将在未来技术版图中镌刻下不可磨灭的印记。
站在历史分水岭之上,真正的抉择横亘于太平洋两岸。是构筑更高的技术藩篱,在焦虑中效仿欧洲保守主义?还是以破釜沉舟的勇气重构创新基因?答案蕴藏于果决的改革实践:破除杞人忧天的思维窠臼,挣脱过度监管的镣铐,让企业回归价值创造的本源。在这场自我革命的征程中,我们或将见证最具历史张力的转折——如果我们赢了,我们将感谢一家中国的公司。