复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

AIGC动态2年前 (2024)发布 almosthuman2014

2,038 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

摘要：

机器之心报道了OpenAI的视频生成模型Sora的火爆情况，引发了对生成式AI模型多模态能力的关注。多模态系统开发的目标是增强大型语言模型（LLM）的多模态感知能力，但现有策略仅限于文本生成。复旦大学邱锡鹏团队联合MAP和上海人工智能实验室提出了AnyGPT模型，能够理解和推理多种模态内容，并生成相应响应。

方法简介：

AnyGPT采用离散表征统一处理不同模态，包括语音、文本、图像和音乐。该模型由多模态tokenizer、多模态语言模型和多模态de-tokenizer组成。为了训练模型，研究团队创建了AnyInstruct-108k数据集，包含108k多轮多模态对话样本。模型采用两阶段高保真生成框架，平衡性能和效率。

实验：

实验结果显示，AnyGPT在多模态理解和生成任务上表现出色，无需对LLM架构或训练范式进行改变。模型在图像描述、文本到图像生成、自动语音识别（ASR）和音乐理解与生成任务上均取得了良好成绩。

结论：

AnyGPT证明了离散表征在统一语言模型中的多种模态方面的有效性和便利性。该研究为多模态AI模型的发展提供了新的方向。