老罗数字人刷屏背后，AI导演正偷偷改写直播「剧本」

AIGC动态3个月前发布 almosthuman2014

1,016 0 0

文章摘要

AI直播终于不是噱头了。今年618大促期间，罗永浩和朱萧木的数字人在百度优选直播间创造了超1300万人次观看、GMV突破5500万元的成绩，部分核心数据甚至超越真人首秀。这场直播的成功标志着数字人技术已突破表演层面，进入商业化落地阶段，其核心支撑是百度研发的多模协同数字人技术体系。

技术突破的关键在于解决多模态割裂问题。传统数字人常出现语音、语言、视觉不同步的现象，而百度通过剧本驱动的多模协同技术，整合了五大创新模块：剧本生成、实时交互、语音合成、视频生成及多模规划。其中，以语言模型为核心的剧本生成系统通过风格建模、人设还原和内容规划三大机制，精准复现了罗永浩标志性的语言风格和思维逻辑。系统不仅吸收海量直播数据训练模型，还引入多角色协同机制，确保双人对话的语义连贯性，避免表达割裂。

语音合成技术实现了从”机械发声”到”人性化表达”的跨越。传统TTS系统在直播场景中缺乏情绪张力，而百度的文本自控方案通过韵律特征分析和上下文编码，使数字人能自然展现语调起伏和互动节奏。例如处理用户”360个月宝宝”的调侃时，系统能结合人设生成符合语境的幽默回应，这种动态交互能力大幅提升了真实感。

视频生成面临长时序一致性的重大挑战。百度采用多模态信号融合方案，在6小时直播中持续保持口型、表情、动作与语音的精准同步。针对罗永浩IP特有的夸张表情和商品互动需求，系统对人物ID与商品ID独立建模，避免穿模错位。技术团队特别设计了骨骼驱动模块，使数字人能完成指向、举起等复杂动作，实现”人-物-场”的自然交互。

这场直播验证了文心大模型4.5 Turbo的商用价值。百度早期对AI基础能力的投入，使其在生成式AI浪潮中占据先机。从风格复现、知识校对到多角色协同，技术体系已覆盖数字人应用的全链路需求。随着深度思考等能力的持续进化，此类技术不仅将重构直播电商的效率标准，更可能催生全新的数字化服务范式。