中美 AI 创业者的闭门讨论:DeepSeek-R1 之后,AI 创业的变化和新趋势

AI-Agent5小时前发布 Founder Park
43 0 0
中美 AI 创业者的闭门讨论:DeepSeek-R1 之后,AI 创业的变化和新趋势

 

文章摘要


【关 键 词】 AI创新模型优化成本控制垂直应用智能体发展

DeepSeek在2025年春节期间成为行业焦点,其R1模型的技术突破和成本优势引发全球AI从业者的深度探讨。作为目前开源领域最强大的推理模型之一,R1通过两步强化学习(RL)和两步监督微调(SFT)构建数据生成教师模型,并创新性地跳过传统微调流程,直接通过RL优化推理能力。该模型采用包含256个专家模块的MoE架构,推理时仅激活37B参数,配合独特的专家并行(Expert Parallelism)训练框架,将推理成本压缩至传统方法的1/256。

在工程实现层面,DeepSeek通过高度集成化的系统设计,将分散的技术方案整合为协同优化的整体。其舍弃Tensor Parallelism的策略有效规避硬件限制,使H800/H100的训推效能趋近。这种激进的技术应用虽可能带来存储开销,但显著降低了集群空转率,为大规模服务场景提供了经济性解决方案。开源模型权重的释放,使得中小团队仅需2-4张H100即可在垂直领域实现模型快速收敛。

垂直场景的AI落地呈现新趋势。在数学计算、物理规则判断等有明确答案的领域,基于规则系统的7B模型经蒸馏后即可达到商用标准。金融量化等数据密集型行业通过RL微调实现模型性能跃升,而电商领域已出现将推理能力从Transformer剥离的创新架构。不过,主观性任务仍依赖未来ORMs或”世界模型”的突破。

国产芯片生态显现突破可能,华为等厂商通过专注AI任务的芯片设计,在特定性能指标上逼近英伟达旗舰产品。DeepSeek选择适配华为芯片的战略布局,旨在应对潜在技术封锁风险,保障供应链稳定性。推理算力需求的结构性变化,为国产芯片提供了差异化竞争空间。

智能体发展进入新阶段,2025年可能成为跨应用调用能力的爆发元年。安卓生态因开源特性更易实现设备级控制,而苹果生态的封闭性要求其必须自主开发底层智能体。垂直领域Agent通过”基础模型+规则模型”的迭代框架,已在特定场景展现超人类智能特征。随着RL技术的迁移应用,结构化输出能力和多智能体系统将成为下一阶段重点,但跨领域泛化能力仍是待解难题。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4511字 | 19分钟 ]
【原文作者】 Founder Park
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...