火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

AIGC动态2个月前发布 ai-front
597 0 0
火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

 

文章摘要


【关 键 词】 火山引擎视频预处理大模型训练AI视频芯片技术

火山引擎在视频云技术大会上推出了大模型训练视频预处理方案,旨在解决视频大模型训练中的成本、质量和性能挑战。该方案通过统一视频数据格式、提升数据质量、实现数据标准化等手段,提高模型训练效率。抖音集团视频架构负责人王悦指出,大模型厂商在训练过程中面临计算成本高、视频样本数据质量不一、处理链路复杂和异构算力资源调度部署等挑战。

火山引擎的方案利用Intel CPU等资源,依托自研的多媒体处理框架BMF,有效应对算力成本挑战。同时,该方案在算法和工程方面进行了优化,能够对海量视频数据进行高质量预处理,提高模型训练效率。此外,火山引擎还发布了移动端后处理解决方案BMF lite版本,支持端侧大模型接入和算子加速。

豆包视频生成模型PixelDance在训练中采用了火山引擎的预处理方案,利用潮汐资源为模型训练提供支持。火山引擎视频云团队还为PixelDance生产的视频提供了全生命周期一站式服务,保障模型的商业化应用。PixelDance模型采用DiT架构,通过高效的融合计算单元和新的训练方法,解决了多主体运动交互和多镜头切换内容一致性问题。

火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D大场景重建方案,将AI能力融入视频生产、交互和消费全链路。对话式AI实时交互方案依托豆包大模型和火山引擎视频云自研算法,提供智能对话和自然语言处理能力,实现毫秒级人声检测和打断响应。

王悦还透露了字节自研视频编解码芯片的最新进展,该芯片在同等视频压缩效率下成本节省95%以上,并在2024MSU世界编码器大赛中获得最佳ASIC编码器。该芯片将于近期对外开放测试,招募首批种子用户探索商业价值可复制性。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1210字 | 5分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...