标签:大模型

AI 下半场,LLM Benchmark 要补全什么?

当前大语言模型评测领域,通用榜单与常用基准陆续暴露出区分度下降、评审口径波动、数据污染等诸多问题,推动业界愈发重视评测体系的有效性,对大语言模型评...

胡渊鸣 | 真正好玩的 AI 原生游戏

当前AI与游戏结合已衍生出多个方向,包括世界模型风景生成、AI NPC对话、AI生成素材UGC、AI一键生成游戏、AI动态NPC小镇、AI生成剧情等,这些方向虽取得了一...

打败GPT-5.2,嵌入真实工业生产,这个大模型什么来头?

一批国际顶尖通用大模型参与三场特殊的工业执业考试,结果显示,即便是GPT-5.2 Thinking (high)、Gemini-3.1-Pro这类通用AI,面对真实工业工程语境也表现不佳...

3B打32B?海外病毒式传播的小模型,竟然来自BOSS直聘

当前全球大模型行业陷入参数量军备竞赛,不论开源还是闭源阵营都在疯狂扩张模型参数规模,2026年初发布的开放权重模型中,已有多个万亿参数产品,小模型十分...

哪个模型最适合“养虾”?国产MiniMax-M2.1和Kimi-K2.5杀疯了

针对OpenClaw场景下大模型能力评估的基准PinchBench已经诞生,获得OpenClaw创始人转发点赞。该评测系统通过真实的成功率、执行速度和运行成本数据,评测各家...

独家丨直指2000 Tokens/s,北大系「流式推理芯片」公司完成数千万元融资

国内专注超快流式推理芯片的创业公司寒序科技,宣布完成数千万元融资,投资方为启高资本、赛意产业基金,源合资本担任本轮独家财务顾问。创立以来寒序科技一...

模型大脑可实时更新!用文本一键重塑模型记忆,低延迟按需即时更新

当前大型语言模型在长效记忆和持续适配方面存在核心发展瓶颈,缺乏长效记忆会引发交互摩擦与信息断层,增加系统响应时间,缺乏持续适配能力则会让模型无法从...

自动研究真的是未来!Karpathy放大招,将自我迭代智能体放进单个GPU

AI领域预言家Andrej Karpathy曾提出,早期前沿AI研究由人类利用碎片化时间开展,通过组会交谈同步研究信息的时代已经结束,如今前沿AI研究已经成为巨型计算集...

腾讯HY- WU要捅模型天花板:让模型每次任务都生成个新大脑

当前大模型领域存在普遍痛点:不少模型公开测评表现优异,但实际落地效果不如预期,核心原因是一套参数做不好所有事。过去三年全球投入数千亿美元训练大模型...

GPT-5.4暴击华尔街!白领工作灭绝时刻,美国5.7万科技岗位被血洗

OpenAI发布的GPT-5.4拥有100万token上下文与原生Computer Use能力,将彻底改变AI智能体格局,对全球白领就业市场产生颠覆性冲击。实测显示,GPT-5.4可完成全...
1 2 3 77