视觉 | 学习AIGC

AI 编程冲击来袭，程序员怎么办？IDEA研究院张磊：底层系统能力才是护城河

在人工智能迈向“多模态智能体”新时代的过程中，视觉理解、空间智能建模以及感知、认知与行动的高效整合仍是当前面临的主要挑战。IDEA研究院计算机视觉与机器...

AIGC动态

5个月前

ICCV 2025放榜！录取率24%，夏威夷门票你抢到了吗？

ICCV 2025将于10月19日至25日在美国夏威夷举行，会议主办方已向投稿者发送了论文接收结果的通知。数据显示，今年大会共收到11239份有效投稿，最终录用2699篇...

AIGC动态

6个月前

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...

AIGC动态

7个月前

巧妙！一个传统技术让国产视觉基础模型直接上大分

格灵深瞳最新发布的视觉基础模型Glint-MVT在多个领域展现了显著的技术突破。该模型通过引入间隔Softmax损失函数，显著提升了泛化能力，并在26个分类测试集中...

AIGC动态

7个月前

代码、多模态检索全面登顶SOTA！智源BGE向量模型三连击，并全面开放

检索增强技术在代码及多模态场景中发挥着重要作用，而向量模型是这一技术体系中的核心组成部分。近日，智源研究院联合多所高校研发了三款向量模型，包括代码...

AIGC动态

7个月前

三金，又是中国队！全球机器人视触融合挑战赛揭榜

在2025年ICRA国际会议上，ManiSkill-ViTac视触觉融合挑战赛揭晓了最终结果，全球42支顶尖团队参与了这场激烈的角逐。中国团队表现尤为突出，包揽了三个赛道的...

AIGC动态

7个月前

阿德莱德大学吴琦：VLN 仍是 VLA 的未竟之战丨具身先锋十人谈

视觉-语言-导航（VLN）和视觉-语言-动作（VLA）是近年来具身智能领域的重要研究方向。2018年，吴琦与Peter Anderson、Abhishek Das首次将视觉-语言（VL）与机...

AIGC动态

8个月前

AI生成字体设计我有点玩明白了，用这套Prompt提效50%。

阿真通过即梦3.0探索了一种创新的文字设计方法，能够通过输入文字内容生成具有视觉冲击力的设计效果。这一方法的核心在于使用提示词模板，结合AI工具，生成符...

AIGC动态

8个月前

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

视觉自监督学习（SSL）在多模态任务中的潜力得到了验证，研究表明，通过扩展模型和数据规模，SSL能够媲美甚至超越语言监督方法（如CLIP）。这项研究由杨立昆...

AIGC动态

8个月前

GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板

近来，GPT-4.5在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力，引发了关于多模态大模型（MLLMs）创造力天花板的讨论。现有的评测基准难...

AIGC动态

8个月前

标签：视觉

AI 编程冲击来袭，程序员怎么办？IDEA研究院张磊：底层系统能力才是护城河

ICCV 2025放榜！录取率24%，夏威夷门票你抢到了吗？

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

巧妙！一个传统技术让国产视觉基础模型直接上大分

代码、多模态检索全面登顶SOTA！智源BGE向量模型三连击，并全面开放

三金，又是中国队！全球机器人视触融合挑战赛揭榜

阿德莱德大学吴琦：VLN 仍是 VLA 的未竟之战丨具身先锋十人谈

AI生成字体设计我有点玩明白了，用这套Prompt提效50%。

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板

热门网址

标签：视觉

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址