多模态AI黑马刷榜后再造神器：一个产品搞定图片视频播客生成，自带百种特效，大牛梅涛团队出品

1,156 0 0

文章摘要

智象未来推出的vivago2.0是一款集成了多模态AI能力的全能创作工具，由加拿大工程院院士梅涛领衔的团队开发。该工具整合了文生图、图生视频、AI播客、特效模板等六大核心功能，显著降低了专业级内容创作的技术门槛。其核心创新在于HiDream-A1图像智能体系统，该系统融合了开源模型HiDream-I1和HiDream-E1的进阶版本，通过稀疏混合专家技术（Sparse MoE）与扩散Transformer架构的结合，实现了高质量的图像生成与编辑。

在图像生成方面，vivago2.0提供三种交互方式：纯文本生图支持提示词机器人自动优化描述；图生图功能可保留原图特征进行风格转换；Image Agent则突破性地实现了自然语言驱动的批量修图与生图，用户仅需口语化表达需求即可完成复杂编辑。视频生成模块支持单图动态化与双图过渡特效，测试显示其能精准处理写实与奇幻场景的转换，并自动提升低质量素材的分辨率。播客功能通过唇形同步技术，使静态图像能根据输入文本实现口型与肢体动作的自然匹配。

技术层面，HiDream-I1模型在HPS、GenEval等基准测试中取得SOTA成绩，其双流-单流混合架构配合渐进式训练策略，支持从256×256到1024×1024的多分辨率输出。团队通过上下文学习将模型扩展为指令式编辑工具HiDream-E1，最终整合为具备多轮对话能力的HiDream-A1智能体。商业化方面，智象未来已完成数亿元融资，与慈文传媒、上影集团等达成战略合作，计划从MaaS模式逐步转向IP二创与C端下沉市场。

梅涛强调团队聚焦”可控生成”技术路线，避开与大厂的算力竞赛，选择视频生成这个离商业化最近的赛道。2024年发布的智象多模态大模型3.0在画面质量、镜头控制等方面实现突破，配套的理解模型1.0版则增强了物体级与事件级的分析能力。随着AIGC视频应用被视为下一代超级平台，具备技术沉淀与清晰商业化路径的智象未来，正展现出成为行业领导者的潜力。