标签:语言模型
ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了
最近,一篇入选ACL 2024的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体上引发了广泛讨论。该论文探讨了当前语言模型是否可...
Llama3-8B秒杀700亿巨兽?北大博士生等全新「BoT」框架推理暴涨70倍,24点图形推理一步成神
北大、UC伯克利和斯坦福的研究人员针对大型语言模型(LLM)在推理任务上的不足,提出了一种名为“思维缓冲区”(Buffer of Thoughts,简称BoT)的新方法。该方...
跟大厂拼价格到底!智谱AI 宣布模型全面降价,刘慈欣、AI 老罗线上“整活儿”
在人工智能领域,大型语言模型的创新正处于飞速发展期。智谱AI公司CEO张鹏在最近的Open Day上强调,大模型技术的进步不仅没有放缓,反而有加速的趋势。与此同...
英伟达新研究:上下文长度虚标严重,32K性能合格的都不多
研究人员近日针对大型语言模型处理长文本的能力进行了深入探讨,并提出了名为RULER的新基准测试。该测试包含四大类共13项任务,旨在评估模型的“有效上下文”长...
ChatGPT真能记住你的话吗?DeepMind与开源大佬揭示LLM记忆之谜
在探讨大型语言模型(LLM)的记忆能力时,Simon Willison指出,尽管LLM看似具备记忆功能,实则它们在推理时并不能记住任何信息,本质上是无状态函数。用户感...
学界正在研究1-bit的大模型,目前已经有突破性进展
随着大型语言模型(LLM)性能的增强,其对计算资源和能源的需求也日益增加。为降低成本、提高速度并实现环保,研究者致力于将模型压缩至能在手机等小型设备上...
解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进
这篇文章介绍了Meta公司研究人员提出的一种新的位置编码方法,称为CoPE(Contextual Position Encoding),用于Transformer模型,旨在解决标准位置编码无法处...
芝大论文证明GPT-4选股准确率高达60%,人类股票分析师要下岗?AI大牛质疑数据污染
这篇文章报道了一项最新研究,发现大型语言模型(LLM)在分析财务报表和预测公司收益方面的表现超越人类分析师和专业模型。主要内容包括:1. 研究发现,LLM(尤...
Hinton揭秘Ilya成长历程:Scaling Law是他学生时代就有的直觉
在2003年夏天的一个周日,AI领域的传奇人物Hinton在他的多伦多大学办公室里,意外迎来了一个年轻的学生Ilya Sutskever。这位学生在经历了整个夏天的炸薯条工...
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
为使大型语言模型(LLM)与人类价值观和意图保持一致,学习人类反馈是关键。近期研究提出了一种简单有效的离线偏好优化算法——SimPO。SimPO的核心优势在于其奖...