一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

1,567 0 0

文章摘要

在字节火山发布会现场，字节跳动展示了其AI技术的多项升级，包括语音、音乐、大语言模型、文生图和3D生成等。其中，豆包视觉理解模型因其出色的效果和价格优势而备受关注。该模型将视觉理解模型的价格降低了85%，使其进入了“厘时代”，显示了字节跳动在AI领域的雄厚实力。

视觉理解是人类认知世界的首要方式，它先于语言，无需翻译即可输入。豆包视觉理解模型的发布，使得从儿童到老人都能轻松使用AI进行视觉识别。在发布会现场，作者与朋友进行了100个案例的详细评测，对比了豆包模型与GPT4o的表现。在数数任务中，豆包模型准确识别出12只狗，而GPT4o和Claude3.5均只识别出11只。在识别手办数量和角色的任务中，豆包模型虽然未能完美识别，但正确率达到66%，优于GPT4o。在看图识景点的任务中，豆包模型在一些题目上胜过GPT4o，尤其是在识别山东济南灵岩寺塔林的任务上。

尽管豆包模型在视觉理解方面表现出色，但在数学公式计算上仍有改进空间。此外，豆包模型能够识别人脸，而GPT4o因安全限制无法做到这一点。总体来看，豆包模型在大多数任务上比GPT4o更精准、更详细，尤其在中国文化内容的理解上更为深入。

作者通过一个朋友的故事强调了视觉理解模型的实用性。这位朋友希望通过AI技术简化数码产品的销售过程，而豆包模型的进步预示着未来AI技术将帮助普通人在日常生活中实现自我创造的乐趣，将脑中蓝图变为现实。这不仅是技术的进步，也是帮助人们减轻生活压力、实现创意的重要途径。