标签:语言模型

我是如何赢得GPT-4提示工程大赛冠军的

本文是一篇关于如何进行有效的提示工程(Prompt Engineering)的指南,作者Sheila Teo在新加坡政府科技局(GovTech)组织的GPT-4提示工程竞赛中获得胜利,并...

原作者带队,LSTM真杀回来了!

长短时记忆(LSTM)网络自20世纪90年代引入以来,一直是深度学习领域的重要组成部分,尤其在处理序列数据方面表现出色。然而,随着可并行自注意力机制的Trans...

微软秘密开发首个千亿大模型,竟由OpenAI对手操刀!网友:你不要奥特曼了?

微软正在开发一个名为MAI-1的新型人工智能模型,这标志着该公司在人工智能领域的重大发展。MAI-1将是一个具有约5000亿参数的大型语言模型,位于OpenAI的GPT-3...

苹果AI终于来了!从2.7到30亿四款大模型代码全开源,AI技术持续“狂飙”|钛媒体AGI

苹果公司在Hugging Face平台上发布了名为OpenELM的开源高效语言模型,该模型有四种不同尺寸的版本,参数数量从2.7亿到30亿不等。这些模型定位于超小规模,运...

微软开源最强小参数大模型—Phi-3 Mini

本文介绍了微软在AIGC领域的最新动态,着重关注了微软发布的小参数大语言模型Phi-3-mini。Phi-3-mini是微软Phi家族的第4代模型,拥有38亿参数,但训练数据高...

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

这篇文章报道了斯坦福大学团队最新的研究成果,该研究声称语言模型实际上是一个 Q 函数而不是奖励函数。他们提出了一种直接对齐方法,即在上下文多臂赌博机设...

ChatGPT能预测未来特定事件,准确率高达97%

```这篇文章主要介绍了贝勒大学经济学院的两位教授基于OpenAI的GPT-3.5和GPT-4对大型语言模型在预测能力方面的研究成果。研究人员使用了直接预测和未来叙述两...

Transformer本可以深谋远虑,但就是不做

这篇报道探讨了语言模型是否会规划未来token的问题。研究发现,虽然Transformer有能力预测未来token,但在实践中并不会这样做。人类在使用语言时会预测即将出...

开源模型越来越落后?Llama 3 说李总你真幽默

Llama 3 正式发布,被 Meta 宣称为迄今为止最强大的开源大模型。这一版本推出了两种规模的预训练语言模型,分别拥有 80 亿和 700 亿参数,以支持更广泛的应用...

Meta无限长文本大模型来了:参数仅7B,已开源

Meta近日提出了一种名为MEGALODON的新型神经架构,用于高效地处理无限长的文本序列。这一技术的提出是为了解决传统Transformer模型在处理长序列时存在的二次...
1 3 4 5 6 7 9