新王Claude 3.5实测：阿里数学竞赛题不给选项直接做对

AIGC动态2年前 (2024)发布 QbitAI

3,353 0 0

文章摘要

Claude 3.5 Sonnet是Anthropic公司推出的一款新型大型语言模型，以其卓越的性能和快速、低成本的特点在全球范围内受到关注。在关键指标的比较中，Claude 3.5 Sonnet在多个方面超越了GPT-4o。

Claude 3.5 Sonnet的训练数据知识截止日期更新至2024年4月，能够了解最新的事件，如2024年2月的橄榄球超级碗比赛结果。网友们对这款模型的测评非常热衷，测评方式多样，甚至有人用它重现了1995年电影《黑客》中的3D数据流模型。

在中文场景的测试中，Claude 3.5 Sonnet成功完成了一项此前只有GPT最新模型才能完成的任务：编写一个长度为10行的故事，每行均以“苹果”结尾。此外，它还在阿里巴巴数学竞赛的选择题中，即使没有给定选项，也能正确回答问题。

Claude 3.5 Sonnet在视觉推理方面也显示出显著的改进。有网友利用其可视化深度学习的能力，虽然与知名博主3blue1brown的教程相比还有差距，但表现仍然不错。此外，Claude 3.5 Sonnet还尝试了芯片设计领域，通过简单的提示词生成了芯片制造流程图，尽管在某些情况下生成的结果不太稳定。

在编码能力方面，Claude 3.5 Sonnet同样表现出色。Anthropic的员工表示，该模型开始真正擅长编码和自动修复Pull Request。尽管Claude 3.5 Sonnet在某些方面仍有不稳定的情况，但其在多个领域的出色表现已经引起了广泛关注和讨论。