标签:语言模型
Mixtral 8×7B模型调研
本文主要介绍了Mistral AI在2023年年底推出的以混合专家网络(MoE)为架构的大语言模型Mixtral 8x7B。该模型以其创新的网络架构和在总参数量更少的情况下性能...
从 0 到 1 了解大模型安全,看这篇就够了
本文主要介绍了大型语言模型(LLM)的安全性研究。首先,作者解释了LLM的发展历程,包括BERT、T5和ChatGPT等模型的演变。接着,文章讨论了大模型的安全性挑战...
Krutrim:印度版的ChatGPT,2万亿tokens训练,更智能。
文章介绍了印度初创公司Krutrim开发的AI人工智能语言模型,该模型具有多语言支持、大规模训练和文化敏感性等核心优势。Krutrim AI的应用前景广阔,可以为消费...
聊聊我构建SMoE模型的过程
文章首先介绍了稀疏混合专家语言模型的背景和相关概念,以及与传统 Transformer 模型的共享元素。作者指出训练稳定性是这些模型面临的主要挑战,而小规模、可...
2023年大语言模型融合技术调研与实践指南
本文介绍了大语言模型融合的新技术,包括模型合并算法、实践和配置示例。首先介绍了模型合并的流行趋势和效果,以及在OpenLLM排行榜上产生了许多最先进的模型...
小模型有大智慧,Phi-2:微软Microsoft 的小语言模型,开源!
文章介绍了微软Microsoft推出的小语言模型Phi-2,该模型虽然参数只有2.7亿,但在各种测试中展现出了卓越的推理和语言理解能力,甚至超过了规模大达25倍的模型...
OpenAI 演讲:如何通过 API 将大模型集成到自己的应用程序中
第一部分介绍了大语言模型(LLMs)及其局限性。 LLMs 是自回归语言模型,它们接受一个 prompt,然后预测下一个单词或 token。然后,文章介绍了如何使用 GPT ...
大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉
研究指出,预训练语言模型产生幻觉的原因是固有的统计学原因,与Transformer架构或数据质量无关。语言模型可以用于生成文本或预测下一个token,但这篇论文强...
基于开源模型搭建Agent系统教程
这篇文章主要介绍了使用大型语言模型(LLMs)作为代理系统的概念,重点介绍了ReAct代理的内部工作原理和挑战。文章首先解释了LLM Agent的定义和其在任务完成...
当前大模型的能力边界
深入探讨了大型语言模型的能力边界及其在理解、逻辑推理、提示词互动和未来发展方向上的挑战。