中美 AI 创业者的闭门讨论：DeepSeek-R1 之后，AI 创业的变化和新趋势

1,641 0 0

文章摘要

DeepSeek在2025年春节期间成为行业焦点，其R1模型的技术突破和成本优势引发全球AI从业者的深度探讨。作为目前开源领域最强大的推理模型之一，R1通过两步强化学习（RL）和两步监督微调（SFT）构建数据生成教师模型，并创新性地跳过传统微调流程，直接通过RL优化推理能力。该模型采用包含256个专家模块的MoE架构，推理时仅激活37B参数，配合独特的专家并行（Expert Parallelism）训练框架，将推理成本压缩至传统方法的1/256。

在工程实现层面，DeepSeek通过高度集成化的系统设计，将分散的技术方案整合为协同优化的整体。其舍弃Tensor Parallelism的策略有效规避硬件限制，使H800/H100的训推效能趋近。这种激进的技术应用虽可能带来存储开销，但显著降低了集群空转率，为大规模服务场景提供了经济性解决方案。开源模型权重的释放，使得中小团队仅需2-4张H100即可在垂直领域实现模型快速收敛。

垂直场景的AI落地呈现新趋势。在数学计算、物理规则判断等有明确答案的领域，基于规则系统的7B模型经蒸馏后即可达到商用标准。金融量化等数据密集型行业通过RL微调实现模型性能跃升，而电商领域已出现将推理能力从Transformer剥离的创新架构。不过，主观性任务仍依赖未来ORMs或”世界模型”的突破。

国产芯片生态显现突破可能，华为等厂商通过专注AI任务的芯片设计，在特定性能指标上逼近英伟达旗舰产品。DeepSeek选择适配华为芯片的战略布局，旨在应对潜在技术封锁风险，保障供应链稳定性。推理算力需求的结构性变化，为国产芯片提供了差异化竞争空间。

智能体发展进入新阶段，2025年可能成为跨应用调用能力的爆发元年。安卓生态因开源特性更易实现设备级控制，而苹果生态的封闭性要求其必须自主开发底层智能体。垂直领域Agent通过”基础模型+规则模型”的迭代框架，已在特定场景展现超人类智能特征。随着RL技术的迁移应用，结构化输出能力和多智能体系统将成为下一阶段重点，但跨领域泛化能力仍是待解难题。