标签:语言模型
73年前,香农已经给大模型发展埋下一颗种子
普林斯顿大学教授承现峻提出,1951年克劳德·香农在贝尔实验室提出的预测下一个单词的问题,成为了当前大语言模型(LLM)的基础。香农在论文中给出了两种估计...
新王Claude 3.5实测:阿里数学竞赛题不给选项直接做对
Claude 3.5 Sonnet是Anthropic公司推出的一款新型大型语言模型,以其卓越的性能和快速、低成本的特点在全球范围内受到关注。在关键指标的比较中,Claude 3.5 ...
LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告
由马里兰大学、OpenAI、斯坦福大学、微软等12所机构的30多名研究者共同完成的一项大规模系统研究,首次深入探讨了大型语言模型(LLM)的提示技术,并发布了一...
ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了
最近,一篇入选ACL 2024的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体上引发了广泛讨论。该论文探讨了当前语言模型是否可...
Llama3-8B秒杀700亿巨兽?北大博士生等全新「BoT」框架推理暴涨70倍,24点图形推理一步成神
北大、UC伯克利和斯坦福的研究人员针对大型语言模型(LLM)在推理任务上的不足,提出了一种名为“思维缓冲区”(Buffer of Thoughts,简称BoT)的新方法。该方...
跟大厂拼价格到底!智谱AI 宣布模型全面降价,刘慈欣、AI 老罗线上“整活儿”
在人工智能领域,大型语言模型的创新正处于飞速发展期。智谱AI公司CEO张鹏在最近的Open Day上强调,大模型技术的进步不仅没有放缓,反而有加速的趋势。与此同...
英伟达新研究:上下文长度虚标严重,32K性能合格的都不多
研究人员近日针对大型语言模型处理长文本的能力进行了深入探讨,并提出了名为RULER的新基准测试。该测试包含四大类共13项任务,旨在评估模型的“有效上下文”长...
ChatGPT真能记住你的话吗?DeepMind与开源大佬揭示LLM记忆之谜
在探讨大型语言模型(LLM)的记忆能力时,Simon Willison指出,尽管LLM看似具备记忆功能,实则它们在推理时并不能记住任何信息,本质上是无状态函数。用户感...
学界正在研究1-bit的大模型,目前已经有突破性进展
随着大型语言模型(LLM)性能的增强,其对计算资源和能源的需求也日益增加。为降低成本、提高速度并实现环保,研究者致力于将模型压缩至能在手机等小型设备上...
解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进
这篇文章介绍了Meta公司研究人员提出的一种新的位置编码方法,称为CoPE(Contextual Position Encoding),用于Transformer模型,旨在解决标准位置编码无法处...