标签:优化

当AI基建告别“蛮力生长”:百度百舸如何用“系统思维”为应用铺路

在AI技术飞速发展的背景下,百度创始人李彦宏在Create 2025大会上强调了应用的重要性,认为“应用才是王者”。他指出,尽管大模型不断迭代,但找到合适的场景并...

腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon

在人工智能快速发展的背景下,大模型的推理性能优化已成为应对算力挑战、内存瓶颈与通信压力的关键突破口。当前,优化工作主要围绕模型优化、推理加速与工程...

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

OpenAI最新发布的o3和o4-mini模型在编码能力上取得了显著进步,甚至在全球人类选手中位列TOP 200。然而,这些模型在生成内容时存在严重的幻觉问题,o3的幻觉...

英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练

华为推出的盘古Ultra模型在推理任务中展现出了与DeepSeek-R1等大规模模型竞争的能力。尽管盘古Ultra的参数量仅为135B,但其在数学竞赛、编程等推理任务中的表...

不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

华为盘古团队成功开发了基于昇腾算力训练的千亿级通用语言大模型 Pangu Ultra,该模型在多个领域和评测上超越了之前的稠密模型,如 Llama 405B 和 Mistral La...

Llama 4重测竞技场排名大跳水,网友:社区很难再信任Meta了

Llama 4模型在大模型竞技场中被曝作弊后,重新上架了非特供版模型,但其排名从第2位骤降至第32位。最初提交的“实验版”模型实际上是对人类偏好进行了优化,具...

媲美OpenAI-o3,刚刚开源模型DeepCoder,训练方法、数据集大公开

今天凌晨4点,著名大模型训练平台Together AI和智能体平台Agentica联合开源了新模型DeepCoder-14B-Preview。该模型仅有140亿参数,但在知名代码测试平台LiveC...

LLM「想太多」有救了!高效推理让大模型思考过程更精简

大语言模型(LLM)在复杂推理任务中表现出色,但常常出现「过度思考」的现象,导致推理过程冗长且效率低下。这种「过度思考」不仅增加了计算资源的消耗,还影...

“不用高级GPU”!蚂蚁用国产AI芯片狂降百万训练成本,模型性能还与DeepSeek相当

蚂蚁集团在人工智能领域取得了显著进展,通过使用国产芯片和优化技术,成功降低了人工智能模型的训练成本。具体而言,蚂蚁集团在训练“专家混合”(MoE)模型时...

为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need

普林斯顿大学的研究团队从优化角度探讨了奖励模型在RLHF(基于人类反馈的强化学习)中的有效性,并揭示了仅依赖准确度评估奖励模型的局限性。研究表明,奖励...
1 2 3