一年过去了，国产大模型怎样了？——用户视角的 12 家 AI 产品评测

AIGC动态2年前 (2024)更新 admin

6,206 0 0

原文作者：刘言飞语
作者简介：做一个产品观察者。
微信号：liufeinotes

关键词：AI、大模型、评测、ChatGPT、国产
文章摘要：

背景与问题
– 2024年，AI大模型成为科技公司关注焦点，但缺乏系统性评价。
– 评测集存在问题：类似应试题，缺乏实际应用题；固定题库可能被刷题。
– 作者提出从可用性角度进行评测，分为四大场景：博学家、通讯员、书记员、创作者。

评测方法
– 评测分为四个场景，每个场景有不同的评价标准。
– 评测标准主观，侧重个人实际使用需求。
– 评测了12家AI产品，包括ChatGPT、通义千问、文心一言等。

评测结果
– 博学家：通义千问、智谱清言、Kimi Chat表现最佳。
– 通讯员：New Bing、讯飞星火在信息搜集方面表现较好，但整体水平不足。
– 书记员：ChatGPT、Kimi Chat在内容总结方面表现优秀。
– 创作者：ChatGPT、通义千问、文心一言在内容创作方面领先。

总结与感想
– 国产大模型与ChatGPT相比有差距，但进步显著，有些产品在特定场景下表现出色。
– 腾讯和字节的大模型在评测中表现不佳。
– 评测基于个人主观判断，鼓励更多用户视角的评测，推动厂商提升体验。

推荐产品
– 博学家：通义千问、智谱清言、Kimi Chat
– 通讯员：New Bing、讯飞星火
– 书记员：ChatGPT、Kimi Chat
– 创作者：ChatGPT、通义千问、文心一言

附录
– 提供了评测的产品链接和完整评分表格。