用国考题来测试“百小应”和 GPT-4o,到底谁能成功上岸?|AI鲜测

AIGC动态6个月前发布 Si-Planet
977 0 0
用国考题来测试“百小应”和 GPT-4o,到底谁能成功上岸?|AI鲜测

 

文章摘要


【关 键 词】 AI助手中文处理长文本理解问题分析竞争力强

百川智能发布了Baichuan 4大模型,并推出了首款AI搜索助手“百小应”。这款助手在知识百科、长文本、生成创作等文科类中文任务上表现优于国外大模型。通过对“百小应”与GPT-4o的比较测评,以下是详细的摘要总结:

一、常识与长文本表现
– “百小应”在常识性问题上回答准确,如识别“毛病”指的是马的毛,人体最先衰老的器官是胸腺,以及识别图片中的小绿人名字为皮特托先生。
– 在长文本处理中,“百小应”正确回答了裙子的颜色问题,虽然GPT-4o提供了更清晰的描述和背景信息。

二、言语理解
– 在言语理解测试中,“百小应”正确匹配了四季与四方的关系,展示了对中文成语和类比的掌握。

三、问题分析与逻辑推理
– 在问题分析方面,“百小应”表现出了主动提问和联网多轮搜索的能力,尤其在解决电脑黑屏问题时,展示了其针对性和服务性。

关键发现与结论
– “百小应”在与GPT-4o的对比中展现了不俗的实力,尤其在文科类任务上表现突出。
– “百小应”具备主动交互和深度搜索的能力,使其在解决问题时更加高效和贴心。
– 尽管在某些问题上GPT-4o提供了更详尽的答案,但“百小应”在测评中显示出了与之一较高下的潜力。

综上,百川智能推出的“百小应”AI搜索助手在中文处理任务上显示出较强的竞争力和应用前景

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3209字 | 13分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 glm-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...