13.11 和 13.8 哪个大，不只是人类，为什么连大模型也翻车了？

AIGC动态1年前 (2024)发布 Founder Park

2,899 0 0

文章摘要

【关键词】 AI错误、数字比较、提示技巧、Token理解、模型优化

在《歌手2024》第十期竞演排名公布后，社交媒体上的观众对数字大小的比较产生了疑问，而一些AI大模型在回答这类问题时也出现了错误。

例如，当被问及”9.11和9.9哪个大”时，GPT-4o等主流大模型错误地认为9.11更大。

这一现象背后的原理与大模型以token的方式来理解文字有关。

当9.11被拆分为“9”、“小数点”和“11”三部分时，模型错误地认为11比9大。

然而，当明确指出这是一个双精度浮点数时，AI就能正确处理这个问题。

为了引导大模型正确理解问题，人们开始尝试不同的提问方法。

Zero-shot CoT思维链，即“一步一步地想”，能够引导大模型正确回答问题。

总的来说，大模型在处理数字大小比较问题时容易出错，这与它们以token方式理解文字有关。

通过改变提问方式或明确指出问题类型，可以引导大模型正确处理这类问题。

同时，研究者们也在不断探索更有效的提示词技巧，以提高大模型的准确性。

原文和模型

【原文链接】 阅读原文 [ 1480字 | 6分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # GPT-GPTs # 大模型 # AI错误 # Token理解 # 数字比较 # 模型优化

文章版权归作者所有，未经允许请勿转载。

o1突发内幕曝光？谷歌8月论文已揭示原理，大模型光有软件不存在护城河

量子位

2,237

周五畅聊：大家都用 DeepSeek R1 做了啥？

Founder Park

1,647

清华一作1B暴打405B巨无霸，7B逆袭DeepSeek R1！测试时Scaling封神

新智元

1,739

小米小爱同学：资源受限下，实现端侧大模型的高性能推理

AI前线

947

DeepSeek R1 之后，重新理解推理模型

Founder Park

1,743

我在构建 MLOps 系统四年中学到的经验

AI前线

2,385

暂无评论

暂无评论...

13.11 和 13.8 哪个大，不只是人类，为什么连大模型也翻车了？

文章摘要

原文和模型

GPT-4o 现货变期货，是什么在拖 OpenAI 的后腿

四问大模型落地：Scaling Law是否会放缓？企业究竟需要大模型还是小模型？｜钛媒体AGI

相关文章

暂无评论

热门网址

热门文章

13.11 和 13.8 哪个大，不只是人类，为什么连大模型也翻车了？

文章摘要

原文和模型

GPT-4o 现货变期货，是什么在拖 OpenAI 的后腿

四问大模型落地：Scaling Law是否会放缓？企业究竟需要大模型还是小模型？｜钛媒体AGI

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章