标签:语言模型
英伟达新研究:上下文长度虚标严重,32K性能合格的都不多
研究人员近日针对大型语言模型处理长文本的能力进行了深入探讨,并提出了名为RULER的新基准测试。该测试包含四大类共13项任务,旨在评估模型的“有效上下文”长...
ChatGPT真能记住你的话吗?DeepMind与开源大佬揭示LLM记忆之谜
在探讨大型语言模型(LLM)的记忆能力时,Simon Willison指出,尽管LLM看似具备记忆功能,实则它们在推理时并不能记住任何信息,本质上是无状态函数。用户感...
学界正在研究1-bit的大模型,目前已经有突破性进展
随着大型语言模型(LLM)性能的增强,其对计算资源和能源的需求也日益增加。为降低成本、提高速度并实现环保,研究者致力于将模型压缩至能在手机等小型设备上...
解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进
这篇文章介绍了Meta公司研究人员提出的一种新的位置编码方法,称为CoPE(Contextual Position Encoding),用于Transformer模型,旨在解决标准位置编码无法处...
芝大论文证明GPT-4选股准确率高达60%,人类股票分析师要下岗?AI大牛质疑数据污染
这篇文章报道了一项最新研究,发现大型语言模型(LLM)在分析财务报表和预测公司收益方面的表现超越人类分析师和专业模型。主要内容包括:1. 研究发现,LLM(尤...
Hinton揭秘Ilya成长历程:Scaling Law是他学生时代就有的直觉
在2003年夏天的一个周日,AI领域的传奇人物Hinton在他的多伦多大学办公室里,意外迎来了一个年轻的学生Ilya Sutskever。这位学生在经历了整个夏天的炸薯条工...
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
为使大型语言模型(LLM)与人类价值观和意图保持一致,学习人类反馈是关键。近期研究提出了一种简单有效的离线偏好优化算法——SimPO。SimPO的核心优势在于其奖...
我是如何赢得GPT-4提示工程大赛冠军的
本文是一篇关于如何进行有效的提示工程(Prompt Engineering)的指南,作者Sheila Teo在新加坡政府科技局(GovTech)组织的GPT-4提示工程竞赛中获得胜利,并...
原作者带队,LSTM真杀回来了!
长短时记忆(LSTM)网络自20世纪90年代引入以来,一直是深度学习领域的重要组成部分,尤其在处理序列数据方面表现出色。然而,随着可并行自注意力机制的Trans...
微软秘密开发首个千亿大模型,竟由OpenAI对手操刀!网友:你不要奥特曼了?
微软正在开发一个名为MAI-1的新型人工智能模型,这标志着该公司在人工智能领域的重大发展。MAI-1将是一个具有约5000亿参数的大型语言模型,位于OpenAI的GPT-3...