百度又放大招！视觉生成模型 Hallo2 或将落地数字人等场景

2,181 0 0

文章摘要

百度与复旦大学联合发布了Hallo2，这是一个创新的视觉模型，能够生成长达数小时、分辨率高达4K的人物动画。Hallo2的发布在海外引起了广泛关注，其开源模型和代码已在GitHub上公开，供全球开发者免费使用和研究。这一技术突破解决了人像视频生成中的关键问题，即如何提升视频生成的时长和质量，有望为数字人、电影制作、虚拟助手、游戏开发等多个领域带来革命性的变化。

Hallo2模型采用了图像块丢弃、噪声增强和时间对齐等创新技术，有效解决了长时视频生成中的外观漂移和视觉不一致问题。它支持灵活的语音与文本控制，生成质量达到了业内领先水平。Hallo2继承了前代Hallo模型的创新框架，通过基于扩散的生成模型和分层音频驱动视觉合成模块，提高了音频与视觉输出之间的同步精度，增强了生成动画的质量和真实感。此外，Hallo2在图像和视频质量、动作丰富性和多样性方面都有显著提升。

行业专家认为，Hallo2的出现标志着音频驱动的肖像图像动画技术进入了新的发展阶段。百度凭借其长期的视觉技术积累，正在针对行业痛点进行研究和场景落地，为开发者提供了强大的工具，也为未来各种应用场景下的动画形象创作带来了新的可能性。