标签:视觉
AI生成字体设计我有点玩明白了,用这套Prompt提效50%。
阿真通过即梦3.0探索了一种创新的文字设计方法,能够通过输入文字内容生成具有视觉冲击力的设计效果。这一方法的核心在于使用提示词模板,结合AI工具,生成符...
CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!
视觉自监督学习(SSL)在多模态任务中的潜力得到了验证,研究表明,通过扩展模型和数据规模,SSL能够媲美甚至超越语言监督方法(如CLIP)。这项研究由杨立昆...
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
近来,GPT-4.5在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力,引发了关于多模态大模型(MLLMs)创造力天花板的讨论。现有的评测基准难...
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
阿里通义千问Qwen发布了最新视觉语言模型Qwen2.5-VL-32B-Instruct,进一步扩展了其开源家族的产品线。该模型在尺寸和性能之间取得了平衡,能够在本地运行,并...
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
昆仑万维近期发布了Skywork R1V系列模型,这一多模态思维链推理模型在视觉推理和通用推理能力上达到了SOTA级别,成为国内首家开源多模态思维链推理模型的企业...
OpenAI 重磅发布的GPT-4 Turbo with Vision,是编码的倒退
OpenAI 最近发布了最新的 GPT-4 Turbo with Vision 模型,该模型在 GPT-4 Turbo 系列的基础上新增了视觉理解能力,可以处理和分析多媒体输入信息。这一革新使...
2张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora
DUSt3R是一个令人兴奋的新工具,它能够仅通过两张图片,无需任何额外数据测量,快速生成一个完整的3D小熊模型。这个工具在GitHub上迅速走红,成为热榜第二。...