火山引擎发布大模型训练视频预处理方案，已应用于豆包视频生成模型

2,062 0 0

文章摘要

火山引擎在视频云技术大会上推出了大模型训练视频预处理方案，旨在解决视频大模型训练中的成本、质量和性能挑战。该方案通过统一视频数据格式、提升数据质量、实现数据标准化等手段，提高模型训练效率。抖音集团视频架构负责人王悦指出，大模型厂商在训练过程中面临计算成本高、视频样本数据质量不一、处理链路复杂和异构算力资源调度部署等挑战。

火山引擎的方案利用Intel CPU等资源，依托自研的多媒体处理框架BMF，有效应对算力成本挑战。同时，该方案在算法和工程方面进行了优化，能够对海量视频数据进行高质量预处理，提高模型训练效率。此外，火山引擎还发布了移动端后处理解决方案BMF lite版本，支持端侧大模型接入和算子加速。

豆包视频生成模型PixelDance在训练中采用了火山引擎的预处理方案，利用潮汐资源为模型训练提供支持。火山引擎视频云团队还为PixelDance生产的视频提供了全生命周期一站式服务，保障模型的商业化应用。PixelDance模型采用DiT架构，通过高效的融合计算单元和新的训练方法，解决了多主体运动交互和多镜头切换内容一致性问题。

火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D大场景重建方案，将AI能力融入视频生产、交互和消费全链路。对话式AI实时交互方案依托豆包大模型和火山引擎视频云自研算法，提供智能对话和自然语言处理能力，实现毫秒级人声检测和打断响应。

王悦还透露了字节自研视频编解码芯片的最新进展，该芯片在同等视频压缩效率下成本节省95%以上，并在2024MSU世界编码器大赛中获得最佳ASIC编码器。该芯片将于近期对外开放测试，招募首批种子用户探索商业价值可复制性。