标签:视觉

32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强

阿里通义千问Qwen发布了最新视觉语言模型Qwen2.5-VL-32B-Instruct,进一步扩展了其开源家族的产品线。该模型在尺寸和性能之间取得了平衡,能够在本地运行,并...

多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代

昆仑万维近期发布了Skywork R1V系列模型,这一多模态思维链推理模型在视觉推理和通用推理能力上达到了SOTA级别,成为国内首家开源多模态思维链推理模型的企业...

OpenAI 重磅发布的GPT-4 Turbo with Vision,是编码的倒退

OpenAI 最近发布了最新的 GPT-4 Turbo with Vision 模型,该模型在 GPT-4 Turbo 系列的基础上新增了视觉理解能力,可以处理和分析多媒体输入信息。这一革新使...

2张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora

DUSt3R是一个令人兴奋的新工具,它能够仅通过两张图片,无需任何额外数据测量,快速生成一个完整的3D小熊模型。这个工具在GitHub上迅速走红,成为热榜第二。...