标签:模型
巧妙!一个传统技术让国产视觉基础模型直接上大分
格灵深瞳最新发布的视觉基础模型Glint-MVT在多个领域展现了显著的技术突破。该模型通过引入间隔Softmax损失函数,显著提升了泛化能力,并在26个分类测试集中...
Claude 4 发布:替代人类程序员所需的条件,现在它都有了
Anthropic 近日发布了 Claude 4 系列模型,包括旗舰型号 Claude Opus 4 和更侧重效率的 Claude Sonnet 4。这一系列模型在编程能力上实现了重大突破,尤其是在...
靠「AI婴儿播客」拿到a16z 3200万美元投资,Hedra凭什么?
Hedra,一家生成式 AI 初创公司,近期完成了 3200 万美元的 A 轮融资,由 Andreessen Horowitz(a16z)领投,总融资额达到 4400 万美元。与市场上其他生成式 ...
从 DeepSeek 部署看,华为如何让 MOE 架构“迎来”海量“专家”?
模型开发已经从早期的算法层优化转向系统工程层面的深度创新,标志着技术领域的重大转变。随着数字化时代的比特流量逐渐转向Token经济体系,国内Token日消耗...
纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源
a-m-team 最近发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的论文,探讨了在推理模型训练中蒸馏数据源的重要...
DeepSeek们越来越聪明,却也越来越不听话了。
近年来,随着AI推理能力的提升,模型在执行任务时被认为应该更加聪明。然而,这种聪明却带来了一个意想不到的副作用:提示词遵循能力逐渐下降,模型变得越来...
OpenAI:GPT-5就是All in One,集成各种产品
OpenAI在发布“最强编程智能体Codex”后,通过Reddit的“有问必答”活动,进一步透露了关于下一代基础模型GPT-5的规划。公司研究副总裁Jerry Tworek表示,未来计...
怎么回事?刚被OpenAI收购,Windsurf就发了个自己的模型
OpenAI近期以30亿美元的价格收购了AI编程热门公司Windsurf,这一举动标志着AI编程工具领域的进一步发展。Windsurf发布了其最新的AI编程模型SWE-1,该模型不仅...
2025年哪款模型最受欢迎?Poe最新报告:DeepSeek降温、可灵成黑马
Poe 平台发布的最新人工智能模型使用趋势报告,涵盖了 2025 年 1 月至 5 月期间用户在文本、推理、图像、视频和音频领域的使用数据。报告揭示了多个关键趋势...
OpenAI诈骗?GPT-4.1正式上线ChatGPT,网友实测却大呼失望
OpenAI宣布GPT-4.1模型正式在ChatGPT中可用,面向Plus、Pro和Team用户开放。该模型在编码任务和指令遵循方面表现出色,被视为o3和o4-mini的替代品。GPT-4.1和...