文心新出的推理大模型,给了我们信心

文章摘要
【关 键 词】 文心X1.1、大模型、可信度、模型升级、能力测评
当下大语言模型存在“幻觉”问题,OpenAI 研究指出消除幻觉需修正评分机制与开发新技术。而在 WAVE SUMMIT 深度学习开发者大会 2025 上,百度发布的文心大模型 X1.1 深度思考模型显著提升了“可信度”。
文心 X1.1 是 4 月份发布的旗舰模型 X1 的升级版,发布即上线,可免费体验,也通过百度智能云千帆平台向企业客户与开发者开放。升级后的模型在事实性、指令遵循、智能体和工具调用能力上综合提升,事实性提升 34.8%,指令遵循提升 12.5%,智能体提升 9.6%。它在处理复杂任务时表现出色,如复杂内容创作能调用联网搜索工具,处理共享单车平台多元素叠加问题有人工客服的效果。在多个权威基准上,文心 X1.1 在中文问答、幻觉和多步任务等方面领先,整体效果与国际顶尖模型不相上下。
对文心 X1.1 进行了全方位测评。在事实性测试中,面对违反常识的“树上结满花生”问题和具有迷惑性的“爱因斯坦未获诺贝尔奖”问题,文心 X1.1 能识别错误并给出正确信息;在一词多义问题和处理时效信息“脱脂牛马”梗时,也表现良好,展现出在保证事实性与可靠性上的能力。
在指令遵循测试方面,面对自我介绍的苛刻要求和模糊的旅游规划指令,文心 X1.1 都能准确理解并执行,提升了对复杂需求的执行力,拓宽了应用边界。
文心 X1.1 的智能体能力也是一大亮点,它能自主规划拆解任务,调度外部工具与服务。在测试北京杜莎夫人蜡像馆停业信息时,能快速准确得出结果。目前,可在文心一言官网、文小言 App 上使用文心 X1.1,官网地址为 https://yiyan.baidu.com/X1 。
原文和模型
【原文链接】 阅读原文 [ 2289字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★