标签：视觉多模态

新年大礼！阿里刚开源视觉 AI Agent模型—Qwen2.5-VL

阿里巴巴最新发布了视觉多模态模型Qwen2.5-VL，该模型在图像、文本、视频的理解与识别能力上显著增强，并且具备直接作为视觉Agent自动化操作电脑和手机的独特...

AI-Agent

7个月前

更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅

2024年，AIGC领域特别是文生视频赛道呈现出显著的发展趋势，其中智象未来（HiDream.ai）作为国内专注于构建视觉多模态基础模型及应用的生成式AI初创公司，以...

AIGC动态

1年前 (2024)