长文本、语音、视觉、结构化数据全覆盖，中国移动九天善智多模态大模型震撼发布

AIGC动态1年前 (2024)发布 almosthuman2014

3,033 0 0

文章摘要

中国移动在第十二届全球合作伙伴大会上发布了九天善智多模态基座大模型，标志着其在人工智能领域的全面升级。该模型以全栈国产化和复杂系统智能化为特点，展现了在长文本理解与生成、全双工语音交互、视频与图像处理、结构化数据处理等方面的技术突破。九天善智大模型在国际竞赛中屡获佳绩，如在INTERSPEECH和CVPR VSS中分别获得第一名，同时在多个国际主流榜单中名列前茅。

该模型支持处理复杂的任务资料收集并深度解析，提供专业报告，已拓展至128K超长上下文的理解与生成。在全双工语音交互方面，即使用户随时打断，也能保持对话的连贯性和一致性。此外，模型还能实现实时的语音到图片转换，联网搜索并实时总结信息。在视频与图像处理方面，通过自主研发的JTVLM架构和P-LoRA跨模态训练方案，大幅提升了视频画质和文本与画面一致性等核心指标。

九天善智多模态基座大模型还具备跨领域结构化数据通用表征建模能力，覆盖通信、交通、工业、金融营销、医疗等多个行业领域，已在多个行业深度使用。中国移动通过九天善智大模型的发布，展现了其在人工智能领域的战略布局，致力于打造行业领先的AI生态。通过构建多模态基座大模型，中国移动已成为通用人工智能时代的供给者、汇聚者和运营者。