模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
文章摘要
【关 键 词】 AIGC、EMO、AI视频模型、表情生成、市场研究
本文介绍了阿里巴巴集团AI研究院推出的创新性视频模型——EMO。
该模型能够通过用户提供的图像和音频生成表情丰富的视频,如让张国荣唱歌或让赫本唱《Perfect》。
EMO的视频生成效果在嘴型和背景音乐的契合度、表情丰富度以及视频时长方面表现出色,但目前无法改变原始姿态。
EMO的核心框架是扩散模型,它通过稳定控制机制、时间模块、参考编码和音频编码等技术实现高质量的视频生成。
训练流程包括图像预训练、视频训练和速度微调三个阶段,使用了超过250小时的多语言素材。
在HDTF数据集上的测试显示,EMO的性能超过了其他领先的AI产品。
原文信息
【原文链接】 阅读原文
【阅读预估】 1159 / 5分钟
【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...