太疯狂了。Windsurf另辟蹊径发布了自己的AI模型。

1,125 0 0

文章摘要

Windsurf近期发布了一系列专门为软件工程设计的AI模型，包括SWE-1、SWE-1-lite和SWE-1-mini。这一举措标志着AI编程工具领域正在从依赖第三方大模型转向自研模型，以提升产品和体验的差异化。SWE-1作为其中最大、能力最强的模型，旨在突破现有大模型在软件工程实际需求上的局限，特别是强调对开发流程中多种状态和上下文的感知能力（flow awareness）。这种能力使得模型能够在人机协作、任务未完成等复杂场景下持续推进工作，从而更好地满足开发者的需求。

根据基准测试，SWE-1在“对话式SWE任务基准”和“端到端SWE任务基准”这两项核心指标上，已经接近目前行业最强的前沿模型。特别是在独立的端到端任务中，其表现几乎与Claude系列最新模型相当，而在对话式任务中，其能力则相当于Claude 3.5 Sonnet。Windsurf表示，SWE-1-lite和SWE-1-mini将对所有用户开放，而SWE-1仅对付费用户开放，且其服务成本低于Claude 3.5 Sonnet。

Windsurf在博客中详细解释了自研模型的原因。写代码只是开发者工作的一小部分，真正的软件工程远比代码生成复杂得多。开发者需要在终端、IDE、浏览器等不同界面间切换，处理测试、调试、查找资料、理解用户反馈等各种任务。虽然市面上的大模型在代码生成上进步显著，但它们的训练目标大多围绕“代码能否编译、单元测试能否通过”等战术性问题，距离工程师日常面对的复杂协作和长期维护仍有差距。

软件开发是一个持续推进、状态不断变化的过程，任务往往不是一步到位完成的，而是沿着一系列不完整的状态逐步演进。Windsurf发现，只有让模型具备“flow awareness”，才能真正帮助开发者提升效率。依赖第三方大模型，产品很难做到这种深度的协作和定制，用户体验也容易陷入同质化。自研模型的另一个意义在于，Windsurf拥有大量真实用户和产品数据，这为模型的持续优化提供了坚实的基础。通过不断迭代，模型可以更贴合实际开发场景，形成独特的技术壁垒和产品体验。

Windsurf一直强调Flow Awareness的理念，即让工具和人之间的信息流动变得顺畅自然。无论是AI做了什么，还是用户手动调整了什么，彼此都能第一时间感知到，实现无缝协作。这种对“共享时间线”的把控，是Windsurf强调的“AI flows”体验的核心。现阶段还没有哪个模型能完全独立搞定所有开发任务，Flow Awareness让人和模型之间的协作变得无缝——模型能做的就让它去做，遇到问题人可以随时介入，修正之后模型又能继续跟进。这样一来，开发过程中的每一步，模型到底能走多远、哪里还需要改进，Windsurf都能看得一清二楚。

有了自研的SWE模型，Windsurf的“飞轮”终于可以真正转起来。模型不仅能理解时间线上的各种状态，还能主动参与到更多开发环节中去。通过这种方式，Windsurf希望不仅仅跟上前沿模型的步伐，而是能够在软件工程这个领域实现真正的突破和领先。