标签:模型优化
周五畅聊:大家都用 DeepSeek R1 做了啥?
DeepSeek R1自发布以来,开发者们在实际应用中面临了一系列挑战和调整。与以往的非推理模型如GPT-4o、Claude-3.5相比,R1在思考链、响应时间和幻觉问题上需要...
2025 年,开发者如何抓住 AI 这波「开门红」
春节期间DeepSeek的走红标志着AI行业进入新阶段。模型训练成本下降与用户认知普及,推动行业跨越发展临界点。2025年全球开发者先锋大会的召开,进一步聚焦如...
DeepSeek最新论文解读:NSA,物美价廉的超长上下文方案
DeepSeek最新提出的原生稀疏注意力(NSA)机制解决了传统稀疏注意力技术在训练与推理阶段的割裂问题。传统方法通常只能在推理阶段应用稀疏注意力,导致模型能...
LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞
DeepSeek团队提出的CODEI/O方法通过代码输入/输出预测任务,显著提升了大型语言模型在多种推理任务中的表现。该方法将原始代码文件转换为可执行函数,并构建...
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
上海AI Lab针对大语言模型在数学推理任务中面临的稀疏奖励困境、局部正确陷阱及规模依赖魔咒,提出了基于结果奖励的强化学习新范式OREAL。该框架通过正样本模...
Kimi复现OpenAI o1模型的关键思考过程
近期大模型领域呈现激烈竞争态势,DeepSeek R1与月之暗面Kimi 1.5推理模型相继展现技术突破。尽管Kimi团队通过通俗易懂的技术解析展示了其创新成果,但因未开...
DeepSeek的“服务器繁忙”让所有人抓狂,背后究竟是怎么回事
DeepSeek推出的R1推理模型因性能优异引发全球用户量激增,但持续出现的服务器拥堵问题暴露出其算力储备与用户需求之间的严重失衡。自2024年12月发布V3模型以...
DeepSeek R1 之后,重新理解推理模型
对推理模型的技术发展与行业应用分析显示,这类模型通过多步骤生成和中间思考过程解决复杂任务,其核心优势体现在解谜、数学证明与编码挑战等场景。“推理”被...
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
多机构联合研究发现,通过优化测试时计算扩展(TTS)策略,小型语言模型在复杂数学任务中展现出超越大型模型的潜力。0.5B参数的模型在MATH-500和AIME24基准测...
中美 AI 创业者的闭门讨论:DeepSeek-R1 之后,AI 创业的变化和新趋势
DeepSeek在2025年春节期间成为行业焦点,其R1模型的技术突破和成本优势引发全球AI从业者的深度探讨。作为目前开源领域最强大的推理模型之一,R1通过两步强化...