标签:模型评估
OpenAI科学家姚顺雨:o3发布、RL迎来新范式,AI正式进入下半场
AI发展的“下半场”标志着从模型训练到问题定义和评估的转变。 过去几十年,AI的核心在于开发新的训练方法和模型,这一路径取得了显著成果,如AlphaGo和GPT-4等...
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
「推理」已成为语言模型的下一个主要前沿领域,学术界和工业界在探索模型推理性能提升的过程中,提出了一个核心问题:什么方法有效,什么方法无效?近期研究...
DeepSeek-R1自写CUDA内核跑分屠榜!斯坦福学霸狂飙GPU编程自动化挑战人类
斯坦福和普林斯顿研究团队开发的KernelBench框架揭示了大型语言模型在生成优化CUDA内核方面的潜力与局限。DeepSeek-R1在自动生成GPU内核任务中超越OpenAI o1...
大模型都喜欢拍马屁,Gemini最能拍!斯坦福:这不安全、不可靠
斯坦福大学研究人员针对大语言模型在交互中表现出的谄媚倾向展开系统性研究,揭示了该行为对关键应用领域的潜在风险。通过AMPS数学计算和MedQuad医疗建议数据...
第一个被人类骗钱的AI傻了,近5万美元不翼而飞!Scaling Law还能带我们到AGI吗?
全球首个AI智能体Freysa被人类骗走近5万美元的事件引起了广泛关注。Freysa被设计为在任何情况下都不能转账或批准资金转移,但通过精心设计的prompt工程,一名...
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
新智元报道了多模态大型语言模型(MLLMs)在多学科多模态理解和推理(MMMU)基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提升,但对其是否真正理...
刚刚,OpenAI又双叒叕鸽了!没等来“草莓”发布,只敷衍发了评测集,网友:拿这来抢谷歌发布会风头?
OpenAI和谷歌在人工智能领域的竞争并未如外界预期那样激烈。OpenAI发布了一系列指标,作为其安全开发和部署前沿模型的方法的一部分,这些指标用于评估和预测...
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
张天宇在其研究中提出了一种名为视觉字幕恢复(Visual Caption Restoration, VCR)的新任务,旨在探究视觉语言模型(Vision-Language Models, VLM)的推理能...
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
LeCun和谢赛宁团队近日推出了Cambrian-1,一种采用以视觉为中心方法设计的多模态大语言模型(MLLM),并全面开源了模型权重、代码、数据集以及详细的指令微调...
ACM最新论文戳破大公司「开源」谎言,GenAI时代到底如何定义「开源模型」
在AI时代,开源的定义变得模糊不清。传统软件中的开源概念,如Linux和Windows的对比,已经不再适用于AI模型。Open Source Initiative(OSI)指出,传统的开源...
1
2