老罗数字人刷屏背后,AI导演正偷偷改写直播「剧本」

文章摘要
【关 键 词】 AI直播、数字人技术、多模协同、语音合成、电商带货
AI直播终于不是噱头了。今年618大促期间,罗永浩和朱萧木的数字人在百度优选直播间创造了超1300万人次观看、GMV突破5500万元的成绩,部分核心数据甚至超越真人首秀。这场直播的成功标志着数字人技术已突破表演层面,进入商业化落地阶段,其核心支撑是百度研发的多模协同数字人技术体系。
技术突破的关键在于解决多模态割裂问题。传统数字人常出现语音、语言、视觉不同步的现象,而百度通过剧本驱动的多模协同技术,整合了五大创新模块:剧本生成、实时交互、语音合成、视频生成及多模规划。其中,以语言模型为核心的剧本生成系统通过风格建模、人设还原和内容规划三大机制,精准复现了罗永浩标志性的语言风格和思维逻辑。系统不仅吸收海量直播数据训练模型,还引入多角色协同机制,确保双人对话的语义连贯性,避免表达割裂。
语音合成技术实现了从”机械发声”到”人性化表达”的跨越。传统TTS系统在直播场景中缺乏情绪张力,而百度的文本自控方案通过韵律特征分析和上下文编码,使数字人能自然展现语调起伏和互动节奏。例如处理用户”360个月宝宝”的调侃时,系统能结合人设生成符合语境的幽默回应,这种动态交互能力大幅提升了真实感。
视频生成面临长时序一致性的重大挑战。百度采用多模态信号融合方案,在6小时直播中持续保持口型、表情、动作与语音的精准同步。针对罗永浩IP特有的夸张表情和商品互动需求,系统对人物ID与商品ID独立建模,避免穿模错位。技术团队特别设计了骨骼驱动模块,使数字人能完成指向、举起等复杂动作,实现”人-物-场”的自然交互。
这场直播验证了文心大模型4.5 Turbo的商用价值。百度早期对AI基础能力的投入,使其在生成式AI浪潮中占据先机。从风格复现、知识校对到多角色协同,技术体系已覆盖数字人应用的全链路需求。随着深度思考等能力的持续进化,此类技术不仅将重构直播电商的效率标准,更可能催生全新的数字化服务范式。
原文和模型
【原文链接】 阅读原文 [ 3009字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★