标签:语言模型
「人车交互」新突破!普渡大学发布Talk2Drive框架:可学习/定制的「指令识别」系统
新智元报道了普渡大学数字孪生实验室的最新研究成果,该研究引入了一种革命性的技术,利用大型语言模型(LLM)为自动驾驶汽车提供智能指令解析能力。这项技术...
谷歌Deepmind提出LLMs“自我发现”框架,提升GPT-4性能
谷歌Deepmind与南加州大学的研究人员提出了一种名为“自我发现”的新提示框架,以提高大型语言模型(LLMs)的推理能力。该方法已在arXiV和Hugging Face上发布,...
LlamaPack | 新手入门
文章主要介绍了LlamaIndex和LlamaPack的概念及其使用方法。LlamaIndex是一个简单、灵活的数据框架,用于将自定义数据源连接到大型语言模型。它提供了数据连接...
大模型没有护城河?OpenAI的“LLM城池”如何攻破,如何防守
文章主要讨论了开源模型对大型语言模型(LLM)市场的冲击,特别是针对OpenAI的GPT-4。谷歌公司的一份内部文件指出,尽管OpenAI的LLM在质量上有一定的优势,但...
LLM大模型部署的最佳实践
本文主要讨论了大型语言模型(LLM)在生产环境中的应用挑战及应对策略。首先,文章指出成本和延迟是在部署LLM应用程序时需要考虑的关键因素。接着,文章介绍...
Mixtral 8×7B模型调研
本文主要介绍了Mistral AI在2023年年底推出的以混合专家网络(MoE)为架构的大语言模型Mixtral 8x7B。该模型以其创新的网络架构和在总参数量更少的情况下性能...
从 0 到 1 了解大模型安全,看这篇就够了
本文主要介绍了大型语言模型(LLM)的安全性研究。首先,作者解释了LLM的发展历程,包括BERT、T5和ChatGPT等模型的演变。接着,文章讨论了大模型的安全性挑战...
Krutrim:印度版的ChatGPT,2万亿tokens训练,更智能。
文章介绍了印度初创公司Krutrim开发的AI人工智能语言模型,该模型具有多语言支持、大规模训练和文化敏感性等核心优势。Krutrim AI的应用前景广阔,可以为消费...
聊聊我构建SMoE模型的过程
文章首先介绍了稀疏混合专家语言模型的背景和相关概念,以及与传统 Transformer 模型的共享元素。作者指出训练稳定性是这些模型面临的主要挑战,而小规模、可...
2023年大语言模型融合技术调研与实践指南
本文介绍了大语言模型融合的新技术,包括模型合并算法、实践和配置示例。首先介绍了模型合并的流行趋势和效果,以及在OpenLLM排行榜上产生了许多最先进的模型...