标签:模型优化
对 Kimi 最新 Agent 模式的真实评价
ChatBot的Agent化已成为行业明确趋势,Kimi推出的OK Computer模式标志着其正式进入智能代理领域。该功能面向曾打赏过的用户开放内测,提供三次免费额度后转为...
扒完全网最强 AI 团队的 Context Engineering 攻略,我们总结出了这 5 大方法
检索策略(Retrieve)发展出多元技术路线。传统RAG方案如Windsurf结合向量搜索、grep和知识图谱,而Anthropic的Claude Code则完全依赖生成式检索。Lance Mart...
GPT-5 放弃追求智能上限了?
GPT-5的发布标志着OpenAI从追求基础模型智能突破转向了多任务性能优化的工程实践。尽管在编程、写作、数学等高频任务中实现了显著性能提升(如SWE-bench测试...
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
来自特拉维夫大学的研究团队开发了一种新方法,能够监控和控制大型语言模型(LLM)中的思考路径长度。该方法通过引入“思维进度向量”(Thinking Progress Vect...
干翻 GPT-4V 的面壁 8B「小钢炮」,被Nature 收录了
清华大学与面壁智能团队在边缘设备上成功实现了多模态大模型的落地,推出了MiniCPM-V系列模型,该系列包括MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2...
小米小爱同学:资源受限下,实现端侧大模型的高性能推理
随着大模型能力的持续提升,端侧设备部署成为产业界的重要工程挑战。手机、车载、IoT等设备对模型体积、推理时延、功耗和更新机制提出了极高要求,使得端侧推...
MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
华为团队推出的Pangu Pro MoE 72B模型在昇腾平台上实现了显著的推理性能提升,通过系统级软硬协同优化,推理性能提升6~8倍。该模型采用混合专家(MoE)架构,...
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
复刻DeepSeek - R1的长思维链推理使大模型强化学习新范式RLIF成为热门话题。UC Berkeley团队提出的新方法Intuitor,仅通过优化模型自己的信心,就能让大模型...
博士宿舍激情脑暴,革新了Scaling Law?Qwen和浙大联手推出新定律,直接干掉95.5%推理内存!
阿里巴巴研究团队与浙江大学合作提出了一种新的并行计算缩放定律(ParScale),该定律通过在训练和推理阶段增加并行计算量,显著提升大模型的能力,同时保持...
清华&通院推出”绝对零”训练法,零外部数据大模型自我博弈解锁推理能力
“绝对零”是一种通过自我博弈训练预训练大模型的新方法,旨在提升模型的推理能力。该方法由清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员提出...