标签:大语言模型
大语言模型系统评估新框架:微观指标构建方法论
大语言模型(LLM)的系统化评估面临独特挑战,需通过微观指标体系的构建实现持续优化。将LLM视为系统组件而非独立存在,其性能需结合实时监控、防护机制与业...
AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零
Scale AI、Center for AI Safety与MIT研究者联合推出的ENIGMAEVAL基准,通过1184道源自解谜寻宝竞赛的复杂题目,系统评估大语言模型的多模态推理能力。该基准...
赶紧放弃强化学习?!Meta 首席 AI 科学家杨立昆喊话:当前推理方式会“作弊”,卷大模型没有意义!
Meta首席AI科学家杨立昆在AI Action Summit 2025的演讲中指出,当前基于大语言模型的人工智能系统存在根本性缺陷。现有模型通过自回归生成token的暴力计算范...
DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制
最新研究利用NPR周日谜题挑战构建的新型基准测试,揭示了当前大语言模型在语言推理任务中的独特表现与局限。该数据集包含近600个涉及字母重组、单词变换等类...
招生信息丨香港大学建筑学院招收「大模型 BIM 应用」博士后/RA
马骏博士及其团队专注于智能建造和智慧城市领域的前沿研究,致力于将人工智能与建筑信息模型(BIM)结合,推动行业技术创新。此次招聘的重点在于探索大语言模...
OpenAI反击DeepSeek!刚发布新模型Deep research,刷新最高记录
OpenAI东京分部近日发布了一款新型大语言模型(LLM)——Deep Research。该模型突破了传统LLM的局限,能够像人类分析师一样逐步分解复杂任务,并在互联网上进行...
LLM带来了「编程末日」?哥本哈根大学CS教授:别做梦了!
哥本哈根大学计算机教授Hans Hüttel最近发表观点,认为尽管大语言模型(LLM)在文本生成等领域取得了显著进展,但编程并不会因此被淘汰。他反驳了Matt Welsh...
英特尔至强6独享MRDIMM,内存带宽飙升,加速推理达2.4倍!
英特尔至强6性能核处理器以其显著的推理性能提升2.4倍而受到业界关注。其架构、核数和内存带宽的大幅提升是性能激增的关键因素。尽管至强6性能核处理器的Die ...
OpenAI发布强化微调API,能深度定制超复杂大模型了
OpenAI最近发布了一项名为“强化微调”的新技术,旨在通过深度定制技术提升大语言模型(LLM)在特定领域的应用能力。与传统微调不同,强化微调允许开发者利用高...
谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!
在AIGC领域,大语言模型(LLM)的发展和应用落地备受关注。OpenAI的高级研究科学家Noam Brown提出了一个理论,即AI模型思考20秒的性能提升相当于将模型扩大并...