标签:优化
Llama 4重测竞技场排名大跳水,网友:社区很难再信任Meta了
Llama 4模型在大模型竞技场中被曝作弊后,重新上架了非特供版模型,但其排名从第2位骤降至第32位。最初提交的“实验版”模型实际上是对人类偏好进行了优化,具...
媲美OpenAI-o3,刚刚开源模型DeepCoder,训练方法、数据集大公开
今天凌晨4点,著名大模型训练平台Together AI和智能体平台Agentica联合开源了新模型DeepCoder-14B-Preview。该模型仅有140亿参数,但在知名代码测试平台LiveC...
LLM「想太多」有救了!高效推理让大模型思考过程更精简
大语言模型(LLM)在复杂推理任务中表现出色,但常常出现「过度思考」的现象,导致推理过程冗长且效率低下。这种「过度思考」不仅增加了计算资源的消耗,还影...
“不用高级GPU”!蚂蚁用国产AI芯片狂降百万训练成本,模型性能还与DeepSeek相当
蚂蚁集团在人工智能领域取得了显著进展,通过使用国产芯片和优化技术,成功降低了人工智能模型的训练成本。具体而言,蚂蚁集团在训练“专家混合”(MoE)模型时...
为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need
普林斯顿大学的研究团队从优化角度探讨了奖励模型在RLHF(基于人类反馈的强化学习)中的有效性,并揭示了仅依赖准确度评估奖励模型的局限性。研究表明,奖励...
轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错
大型语言模型(LLMs)在高等数学测试中表现出色,平均得分达到90.4分(按百分制计算),显示出其在数学问题求解中的强大能力。 研究通过32道测试题,涵盖向量...
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路
GRPO训练作为一种基于PPO算法的改进方法,近年来在强化学习领域引起了广泛关注。GRPO通过采样替代value model的方式,简化了训练过程,提升了稳定性和可维护...
国产 AI Infra 变革进行时:新势力正在崛起
DeepSeek 方法论在 AI 基础设施(AI Infra)领域的创新,推动了 AI Infra 软硬整合架构的突破,驿心科技便是这一趋势的代表之一。DeepSeek 近期开源了多个项...
3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了
这篇文章介绍了马斯克开源的Grok-1,以及Colossal-AI团队为Grok-1提供的方便易用的Python+PyTorch+HuggingFace版本,能将推理时延加速近4倍。Colossal-AI团队...
ChatGPT突然疯了,意外输出震惊网友!OpenAI官方回应:token预测是根源
ChatGPT突发故障,用户遭遇混乱回复近期,ChatGPT用户在社交平台上热议该AI助手的异常行为。用户们发现ChatGPT在回答问题时开始胡言乱语,输出大量重复内容。...