大模型
LLM,VLM,模型
Transformer的无限之路:位置编码视角下的长度外推综述
作者信息 【原文作者】 机器之心 【作者简介】 专业的人工智能媒体和产业服务平台 【微 信 号】 almosthuman2014 文章摘要 【关 键 词】 Trans...
聊聊我构建SMoE模型的过程
文章首先介绍了稀疏混合专家语言模型的背景和相关概念,以及与传统 Transformer 模型的共享元素。作者指出训练稳定性是这些模型面临的主要挑战,而小规模、可...
2023年大语言模型融合技术调研与实践指南
本文介绍了大语言模型融合的新技术,包括模型合并算法、实践和配置示例。首先介绍了模型合并的流行趋势和效果,以及在OpenLLM排行榜上产生了许多最先进的模型...
小模型有大智慧,Phi-2:微软Microsoft 的小语言模型,开源!
文章介绍了微软Microsoft推出的小语言模型Phi-2,该模型虽然参数只有2.7亿,但在各种测试中展现出了卓越的推理和语言理解能力,甚至超过了规模大达25倍的模型...
清华、小米、华为、 vivo、理想等多机构联合综述,首提个人LLM智能体、划分5级智能水平
这篇文章主要介绍了一篇综述论文,该论文来自国内多所高校和企业研究所,梳理了个人 LLM 智能体所需的能力、效率和安全问题,并提出了个人 LLM 智能体的 5 级...
OpenAI 演讲:如何通过 API 将大模型集成到自己的应用程序中
第一部分介绍了大语言模型(LLMs)及其局限性。 LLMs 是自回归语言模型,它们接受一个 prompt,然后预测下一个单词或 token。然后,文章介绍了如何使用 GPT ...
AutoGen零代码构建⾃⼰的智能助理
总的来说,AutoGen是一个有潜力的框架,能够在多个领域提供自动化解决方案,但也需要解决一些问题,如扩大应用范围、提高自动化效果可控性和降低成本等。
LLaVA-Plus:多模态大模型的新突破
LLaVA-Plus多模态大模型的重大突破,该模型具有丰富的多模态处理能力,创新的技能库概念,模块化与灵活性,以及LLM与多模态任务的融合。LLaVA-Plus的设计思路...
大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉
研究指出,预训练语言模型产生幻觉的原因是固有的统计学原因,与Transformer架构或数据质量无关。语言模型可以用于生成文本或预测下一个token,但这篇论文强...
小语言模型在企业应用中崭露头角
文章主要讨论了小型语言模型(SLMs)在企业中的崭露头角,以及它们相对于大型语言模型(LLMs)的优势和挑战。文章指出,由于其较低的计算成本、领域特定以及...