别只盯着ChatGPT版「Her」，在多模态AI拟人互动上，国内玩家也支棱起来了

AIGC动态1年前 (2024)发布 almosthuman2014

2,369 0 0

别只盯着ChatGPT版「Her」，在多模态AI拟人互动上，国内玩家也支棱起来了

文章摘要

第二届多模态情感识别挑战赛（MER24）在AI顶会IJCAI2024上成功举办，旨在推动利用文本、音视频等多模态数据进行AI情感识别的技术发展和真实人机交互场景中的应用。挑战赛设有三个赛道，其中Semi赛道因参赛队伍多、难度高、竞争激烈而备受关注。Semi赛道要求参赛队伍使用少量有标签和大量无标签数据视频数据训练模型，并评估模型在无标签数据集上的表现和泛化能力。Soul App的语音技术团队凭借创新技术方案在Semi赛道中获得第一名。

AI在多模态情感识别领域正成为业界追逐的新热点，被认为是AI领域的下一个重大突破。例如，国外创业公司Hume AI发布的语音对话机器人EVI能识别多达53种情绪，而OpenAI的GPT-4o模型展现了实时音视频通话功能，对用户情感和语气做出即时响应。国内企业如微软小冰、聆心智能等也在积极打造有情感的AI产品。然而，要进一步发展拟人化情感识别领域，仍需解决有标签数据稀缺、主观情绪识别不稳定和不准确等问题。

Soul团队在Semi赛道中获得第一名，其技术方案包括多模态特征提取、多模态特征融合、对比学习、无标签数据自训练等。Soul团队利用自研大模型部分模块，采取”先主干后微调”的策略，提高核心特征提取模型的泛化性，然后融合形成模型架构。他们首次提出EmoVCLIP模型，结合prompt learning技术，在视频情感识别领域具有更强的泛化性能。此外，Soul团队还使用GPT-4为文本模态打情感伪标签，提高文本模态情感识别准确率。在多模态特征融合上，他们首次使用Modality Dropout策略，缓解模态间竞争问题，提升模型泛化能力。通过半监督学习技术，Soul团队为超过11万条无标签数据打伪标签并进行模型迭代更新。

Soul团队在社交领域的深耕使其在AI大模型技术尤其是多模态情感化交互能力上积累了丰富经验。Soul自2016年上线以来，通过引入AI技术解决人与人连接需求，推出了”灵犀引擎”等智能推荐算法，形成高粘性用户和内容生态。近年来，Soul进一步探索AI介入社交、辅助关系网络的新可能，自2020年起在多模态方向进行AIGC算法研发，拥有前沿能力积累。Soul推出的自研语言大模型Soul X具备Prompt驱动、条件可控生成、上下文理解、多模态理解等能力，使站内对话更流畅自然，具备情感温度。

Soul在AI情感识别领域的布局已覆盖语言、语音和视觉多模态，与社交紧密关联的文字、图片、音频和视频场景齐发力，为用户提供有温度的AI互动体验。例如，Soul推出的拟人型对话机器人”AI苟蛋”依托Soul X实现拟人化交互，精准理解用户输入的多模态内容，并在多轮沟通中主动送去关怀。此外，Soul还在游戏场景中引入AI NPC，具备拟人决策能力，与用户玩起狼人杀等游戏。Soul还推出了AI社交平台”异世界回响”，用户可与多场景、多风格的虚拟人角色展开沉浸式即时交流。

2024年被视为AIGC应用元年，社交领域尤其需要围绕用户需求进行创新。Soul等企业通过自研技术积累，为用户提供个性化、拟人化、多样化的AI能力，加速AI Native应用落地，形成完备的AI产品链。未来，像Soul这样坚持技术和产品创新的平台将在释放AI能力的过程中持续为用户创造价值，实现更持久、更多样化的商业价值。