标签:模型优化
字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露
字节跳动旗下的豆包大模型团队近期在 arXiv 上发布了一篇技术报告,详细介绍了其文生图模型 Seedream 2.0 的技术细节。该模型于去年 12 月上线至豆包 APP 和...
团队“DeepSeek”化!字节 Seed Edge启动不足两月,冲刺AGI再发新作,训练成本再节省40%
字节跳动正式设立了代号为“Seed Edge”的研究项目,旨在探索通用人工智能(AGI)的新方法。该项目团队近期发布了一项名为Comet的关键优化技术,该技术针对MoE...
腾讯元宝连夜修改用户协议!“霸王”条款冲上热榜,你的内容到底谁说了算?
腾讯旗下的AI应用元宝在3月4日登顶苹果中国区应用商店免费App下载排行榜,引发了广泛关注。然而,其用户服务协议中的“知识产权与其他权利”条款也引发了争议。...
DeepSeek推出后,移动端AI风向要变
高通凭借系统级芯片设计构建了技术护城河,其异构计算架构整合了NPU、GPU与低功耗子系统,能在保持设备续航的同时处理复杂推理任务。通过AI软件栈和开发者生...
周五畅聊:大家都用 DeepSeek R1 做了啥?
DeepSeek R1自发布以来,开发者们在实际应用中面临了一系列挑战和调整。与以往的非推理模型如GPT-4o、Claude-3.5相比,R1在思考链、响应时间和幻觉问题上需要...
2025 年,开发者如何抓住 AI 这波「开门红」
春节期间DeepSeek的走红标志着AI行业进入新阶段。模型训练成本下降与用户认知普及,推动行业跨越发展临界点。2025年全球开发者先锋大会的召开,进一步聚焦如...
DeepSeek最新论文解读:NSA,物美价廉的超长上下文方案
DeepSeek最新提出的原生稀疏注意力(NSA)机制解决了传统稀疏注意力技术在训练与推理阶段的割裂问题。传统方法通常只能在推理阶段应用稀疏注意力,导致模型能...
LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞
DeepSeek团队提出的CODEI/O方法通过代码输入/输出预测任务,显著提升了大型语言模型在多种推理任务中的表现。该方法将原始代码文件转换为可执行函数,并构建...
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
上海AI Lab针对大语言模型在数学推理任务中面临的稀疏奖励困境、局部正确陷阱及规模依赖魔咒,提出了基于结果奖励的强化学习新范式OREAL。该框架通过正样本模...
Kimi复现OpenAI o1模型的关键思考过程
近期大模型领域呈现激烈竞争态势,DeepSeek R1与月之暗面Kimi 1.5推理模型相继展现技术突破。尽管Kimi团队通过通俗易懂的技术解析展示了其创新成果,但因未开...