标签:视觉理解

豆包说要「普惠」,于是大模型处理图片按「厘」计价了

近期,字节跳动在2024冬季火山引擎FORCE原动力大会上推出了豆包大模型家族的新成员——豆包・视觉理解模型,该模型具备强大的视觉理解能力,能够处理复杂视觉问...

统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与

多模态大模型(MLLM)在视觉理解领域取得了显著进展,其中视觉指令调整方法因其数据和计算效率而被广泛应用。Meta和纽约大学的合作论文探讨了大型语言模型(L...

豆包升级了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠

豆包最新发布的“豆包·视觉理解模型”展示了其在图像识别和代码生成方面的强大能力。该模型能够识别APP截图,并迅速生成相应的代码,包括菜单栏、播放列表框架...

一手实测豆包新发布的视觉理解大模型,他们真的卷起飞了。

在字节火山发布会现场,字节跳动展示了其AI技术的多项升级,包括语音、音乐、大语言模型、文生图和3D生成等。其中,豆包视觉理解模型因其出色的效果和价格优...

新SOTA来了:国产9B模型多项得分超4o-mini,中国出海电商已经用上了

阿里巴巴国际AI团队最近开源了一款名为Ovis1.6的多模态大模型,该模型在多模态领域的权威评测基准OpenCompass上取得了显著成绩,超越了其他主流开源模型,如Q...