具备实时数据更新能力的大语言模型——Larimar

AIGC动态8个月前发布 AIGCOPEN
875 0 0
具备实时数据更新能力的大语言模型——Larimar

 

文章摘要


【关 键 词】 AIGC大语言模型情景记忆Larimar知识更新

文章介绍了一个专注于AIGC领域的专业社区,关注微软 &OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地的平台。其中提到了ChatGPT、Claude.ai等大模型产品为我们生成各种内容,但更新知识需要漫长、费时的预训练和蒸馏。为解决这一问题,研究人员提出了一种名为Larimar的大语言模型,具有情景记忆控制能力,类似于人脑中的“海马体”。Larimar设计了一个外部记忆模块,可以有效注入新的知识数据到大语言模型中,无需重新预训练即可精准使用新数据。

Larimar的核心方法受到人脑“海马体”神经结构的启发,海马体在记忆形成、组织、检索和空间导航中扮演关键角色。Larimar采用互补学习系统理论,将样本记录为情景记忆,同时学习输入分布的摘要统计信息作为语义记忆。目标是将情景记忆作为大语言模型解码器的条件,利用类似Kanerva Machine的分层记忆结构高效更新记忆。

Larimar包括多个核心模块:大语言模型编码器使用BERT模型将输入文本映射到潜在语义空间;外部情景记忆模块设计了一个存储矩阵,用于存放向量表示,新知识数据输入后写入并随机抽取;大语言模型解码器使用GPT系列模型将记忆模块中的数据解码生成文本输出;记忆范围检测器是一个小型序列二分类模型,判断是否需要利用记忆模块进行条件生成。

研究人员表示,Larimar是一种创新技术架构,可以解决大语言模型数据更新不及时、消除非法、偏见、错误数据,同时保护敏感数据防止外泄。该技术有望提高大语言模型的灵活性和实用性,为AIGC领域的发展带来新的可能性。

原文和模型


【原文链接】 阅读原文 [ 1048字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...