原文作者:刘言飞语
作者简介:做一个产品观察者。
微信号:liufeinotes
关键词:AI、大模型、评测、ChatGPT、国产
文章摘要:背景与问题
– 2024年,AI大模型成为科技公司关注焦点,但缺乏系统性评价。
– 评测集存在问题:类似应试题,缺乏实际应用题;固定题库可能被刷题。
– 作者提出从可用性角度进行评测,分为四大场景:博学家、通讯员、书记员、创作者。评测方法
– 评测分为四个场景,每个场景有不同的评价标准。
– 评测标准主观,侧重个人实际使用需求。
– 评测了12家AI产品,包括ChatGPT、通义千问、文心一言等。评测结果
– 博学家:通义千问、智谱清言、Kimi Chat表现最佳。
– 通讯员:New Bing、讯飞星火在信息搜集方面表现较好,但整体水平不足。
– 书记员:ChatGPT、Kimi Chat在内容总结方面表现优秀。
– 创作者:ChatGPT、通义千问、文心一言在内容创作方面领先。总结与感想
– 国产大模型与ChatGPT相比有差距,但进步显著,有些产品在特定场景下表现出色。
– 腾讯和字节的大模型在评测中表现不佳。
– 评测基于个人主观判断,鼓励更多用户视角的评测,推动厂商提升体验。推荐产品
– 博学家:通义千问、智谱清言、Kimi Chat
– 通讯员:New Bing、讯飞星火
– 书记员:ChatGPT、Kimi Chat
– 创作者:ChatGPT、通义千问、文心一言附录
– 提供了评测的产品链接和完整评分表格。
原文链接:阅读原文
原文字数:8897
阅读时长:30分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...