标签:视觉
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...
巧妙!一个传统技术让国产视觉基础模型直接上大分
格灵深瞳最新发布的视觉基础模型Glint-MVT在多个领域展现了显著的技术突破。该模型通过引入间隔Softmax损失函数,显著提升了泛化能力,并在26个分类测试集中...
代码、多模态检索全面登顶SOTA!智源BGE向量模型三连击,并全面开放
检索增强技术在代码及多模态场景中发挥着重要作用,而向量模型是这一技术体系中的核心组成部分。近日,智源研究院联合多所高校研发了三款向量模型,包括代码...
三金,又是中国队!全球机器人视触融合挑战赛揭榜
在2025年ICRA国际会议上,ManiSkill-ViTac视触觉融合挑战赛揭晓了最终结果,全球42支顶尖团队参与了这场激烈的角逐。中国团队表现尤为突出,包揽了三个赛道的...
阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈
视觉-语言-导航(VLN)和视觉-语言-动作(VLA)是近年来具身智能领域的重要研究方向。2018年,吴琦与Peter Anderson、Abhishek Das首次将视觉-语言(VL)与机...
AI生成字体设计我有点玩明白了,用这套Prompt提效50%。
阿真通过即梦3.0探索了一种创新的文字设计方法,能够通过输入文字内容生成具有视觉冲击力的设计效果。这一方法的核心在于使用提示词模板,结合AI工具,生成符...
CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!
视觉自监督学习(SSL)在多模态任务中的潜力得到了验证,研究表明,通过扩展模型和数据规模,SSL能够媲美甚至超越语言监督方法(如CLIP)。这项研究由杨立昆...
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
近来,GPT-4.5在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力,引发了关于多模态大模型(MLLMs)创造力天花板的讨论。现有的评测基准难...
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
阿里通义千问Qwen发布了最新视觉语言模型Qwen2.5-VL-32B-Instruct,进一步扩展了其开源家族的产品线。该模型在尺寸和性能之间取得了平衡,能够在本地运行,并...
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
昆仑万维近期发布了Skywork R1V系列模型,这一多模态思维链推理模型在视觉推理和通用推理能力上达到了SOTA级别,成为国内首家开源多模态思维链推理模型的企业...
1
2