标签:强化学习

比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题

在技术快速发展的背景下,如何利用人工智能发现科学问题的新最优解成为业界关注的焦点。传统的「测试时搜索」方法依赖冻结的大语言模型(LLM)通过多次尝试改...

斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元

斯坦福大学、英伟达等机构的研究团队提出了一种名为TTT-Discover的创新方法,为大模型的持续学习开辟了新路径。该方法基于开源模型gpt-oss-120b,在数学、算...

美团智能体SOTA模型LongCat-Flash-Thinking-2601开源

美团龙猫团队开发的LongCat-Flash-Thinking-2601模型标志着智能体推理能力的重大突破。这个总参数5600亿、激活参数270亿的混合专家模型(MoE),在代理搜索、...

10B超越Gemini-2.5-Pro!阶跃星辰端侧多模态天花板开源

阶跃星辰多模态智能团队最新开源的STEP3-VL-10B模型以100亿参数规模实现了超越千亿参数模型的性能突破。该模型在数学推理、视觉感知及复杂指令遵循等任务中,...

人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练

当大语言模型开始被要求解数学题、写证明、规划任务流程,人们才真正意识到一件事:会生成并不等于会推理。过去几年,行业通过扩大模型规模和采用RLHF等技术...

美团上线首个开源“重思考”模型

美团LongCat团队近日开源了升级版AI模型LongCat-Flash-Thinking-2601,该模型在智能体搜索、工具调用及工具交互推理等核心评测基准上达到开源模型领先水平。...

对话王小川:“语言才是中轴,多模态不是主战场”

百川智能于1月13日正式开源新一代医疗大模型Baichuan-M3,该模型在全球权威医疗AI评测HealthBench中以65.1分的综合成绩位列第一,并在复杂决策能力测试Health...

2026年,大模型训练的下半场属于「强化学习云」

2024年底,硅谷和北京的科技圈开始担忧Scaling Law的瓶颈,新一代旗舰模型如GPT-5(Orion)在单纯增加参数和数据规模后未能实现预期效益提升,甚至有研究预测...

让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局

在视频理解领域,多模态大语言模型(MLLM)面临的核心挑战在于如何突破静态图像处理的局限,实现对动态视频内容的深度推理。当前主流方法普遍存在对外部工具...

千人千面的真人级AI名师,劈开教育「不可能三角」

教育行业长期面临规模、质量与成本难以兼顾的困境,而「与爱为舞」公司开发的AI导师系统通过技术创新实现了突破。该系统已服务百万级用户,其核心在于将通用...
1 2 3 25