文心新出的推理大模型，给了我们信心

AIGC动态11小时前发布 almosthuman2014

91 0 0

文章摘要

当下大语言模型存在“幻觉”问题，OpenAI 研究指出消除幻觉需修正评分机制与开发新技术。而在 WAVE SUMMIT 深度学习开发者大会 2025 上，百度发布的文心大模型 X1.1 深度思考模型显著提升了“可信度”。

文心 X1.1 是 4 月份发布的旗舰模型 X1 的升级版，发布即上线，可免费体验，也通过百度智能云千帆平台向企业客户与开发者开放。升级后的模型在事实性、指令遵循、智能体和工具调用能力上综合提升，事实性提升 34.8%，指令遵循提升 12.5%，智能体提升 9.6%。它在处理复杂任务时表现出色，如复杂内容创作能调用联网搜索工具，处理共享单车平台多元素叠加问题有人工客服的效果。在多个权威基准上，文心 X1.1 在中文问答、幻觉和多步任务等方面领先，整体效果与国际顶尖模型不相上下。

对文心 X1.1 进行了全方位测评。在事实性测试中，面对违反常识的“树上结满花生”问题和具有迷惑性的“爱因斯坦未获诺贝尔奖”问题，文心 X1.1 能识别错误并给出正确信息；在一词多义问题和处理时效信息“脱脂牛马”梗时，也表现良好，展现出在保证事实性与可靠性上的能力。

在指令遵循测试方面，面对自我介绍的苛刻要求和模糊的旅游规划指令，文心 X1.1 都能准确理解并执行，提升了对复杂需求的执行力，拓宽了应用边界。

文心 X1.1 的智能体能力也是一大亮点，它能自主规划拆解任务，调度外部工具与服务。在测试北京杜莎夫人蜡像馆停业信息时，能快速准确得出结果。目前，可在文心一言官网、文小言 App 上使用文心 X1.1，官网地址为 https://yiyan.baidu.com/X1 。