Ben Thompson聊DeepSeek，硅谷关于DeepSeek最值得看的一篇

1,699 0 0

文章摘要

Ben Thompson在其博客Stratechery中深入分析了DeepSeek的技术细节及其对科技行业的影响。DeepSeek的V3模型通过技术创新显著降低了AI模型的训练成本，对行业产生深远影响。其R1模型展示了纯强化学习在提升模型推理能力方面的潜力，打破了OpenAI的o1模型在推理领域的领先地位。尽管美国实施了芯片禁令，DeepSeek依然在AI领域取得了重大突破，这引发了对禁令有效性的质疑，也凸显了中国在AI软件方面的实力。

DeepSeek的技术突破对英伟达构成了挑战，同时也为其他科技公司带来了机遇，模型和推理成本的降低将推动AI应用的普及。开源成为DeepSeek吸引人才和建立技术生态的关键策略，这与OpenAI等公司形成了鲜明对比，也预示着AI行业未来可能走向开放与合作。

Thompson指出，DeepSeek的V2模型引入了DeepSeekMoE和DeepSeekMLA两项重要突破，提高了训练效率并降低了推理过程中的内存使用量。V3模型进一步减少了通信开销和训练成本，使其训练成本惊人地低。DeepSeek的这些创新都是在受到美国芯片禁令限制的情况下实现的，显示了中国在AI领域的强大实力和创新能力。

DeepSeek的R1模型与OpenAI的o1相当，但具有开放的权重，意味着用户可以在自己的服务器上运行R1，甚至在本地运行，成本要低得多。R1-Zero模型更是展示了纯强化学习在提升模型推理能力方面的潜力，无需人类反馈即可自行发展推理和思维链。

Thompson认为，尽管DeepSeek的技术突破给英伟达带来了挑战，但从长远来看，模型商品化和更便宜的推理对大型科技公司是好事。苹果、亚马逊和Meta等公司都能从AI的普及中获益。同时，他也指出，芯片禁令背后的心态可能会导致美国在芯片和半导体设备行业的竞争力下降。