中美 AI 创业者的闭门讨论:DeepSeek-R1 之后,AI 创业的变化和新趋势
![中美 AI 创业者的闭门讨论:DeepSeek-R1 之后,AI 创业的变化和新趋势](https://www.xuexiaigc.com/wp-content/uploads/article-images/78e931189ab00a6e6e.jpeg)
文章摘要
【关 键 词】 AI创新、模型优化、成本控制、垂直应用、智能体发展
DeepSeek在2025年春节期间成为行业焦点,其R1模型的技术突破和成本优势引发全球AI从业者的深度探讨。作为目前开源领域最强大的推理模型之一,R1通过两步强化学习(RL)和两步监督微调(SFT)构建数据生成教师模型,并创新性地跳过传统微调流程,直接通过RL优化推理能力。该模型采用包含256个专家模块的MoE架构,推理时仅激活37B参数,配合独特的专家并行(Expert Parallelism)训练框架,将推理成本压缩至传统方法的1/256。
在工程实现层面,DeepSeek通过高度集成化的系统设计,将分散的技术方案整合为协同优化的整体。其舍弃Tensor Parallelism的策略有效规避硬件限制,使H800/H100的训推效能趋近。这种激进的技术应用虽可能带来存储开销,但显著降低了集群空转率,为大规模服务场景提供了经济性解决方案。开源模型权重的释放,使得中小团队仅需2-4张H100即可在垂直领域实现模型快速收敛。
垂直场景的AI落地呈现新趋势。在数学计算、物理规则判断等有明确答案的领域,基于规则系统的7B模型经蒸馏后即可达到商用标准。金融量化等数据密集型行业通过RL微调实现模型性能跃升,而电商领域已出现将推理能力从Transformer剥离的创新架构。不过,主观性任务仍依赖未来ORMs或”世界模型”的突破。
国产芯片生态显现突破可能,华为等厂商通过专注AI任务的芯片设计,在特定性能指标上逼近英伟达旗舰产品。DeepSeek选择适配华为芯片的战略布局,旨在应对潜在技术封锁风险,保障供应链稳定性。推理算力需求的结构性变化,为国产芯片提供了差异化竞争空间。
智能体发展进入新阶段,2025年可能成为跨应用调用能力的爆发元年。安卓生态因开源特性更易实现设备级控制,而苹果生态的封闭性要求其必须自主开发底层智能体。垂直领域Agent通过”基础模型+规则模型”的迭代框架,已在特定场景展现超人类智能特征。随着RL技术的迁移应用,结构化输出能力和多智能体系统将成为下一阶段重点,但跨领域泛化能力仍是待解难题。
原文和模型
【原文链接】 阅读原文 [ 4511字 | 19分钟 ]
【原文作者】 Founder Park
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★