标签:视觉多模态
新年大礼!阿里刚开源视觉 AI Agent模型—Qwen2.5-VL
阿里巴巴最新发布了视觉多模态模型Qwen2.5-VL,该模型在图像、文本、视频的理解与识别能力上显著增强,并且具备直接作为视觉Agent自动化操作电脑和手机的独特...
更美图像生成、直出分钟级视频,国产自研DiT架构的越级之旅
2024年,AIGC领域特别是文生视频赛道呈现出显著的发展趋势,其中智象未来(HiDream.ai)作为国内专注于构建视觉多模态基础模型及应用的生成式AI初创公司,以...