标签:语言模型

AI写小说的套路被扒光了: Claude爱平铺,GPT总做梦,Gemini只会“他如何如何”

马里兰大学与谷歌深度思维团队联合开展了一项名为故事显微镜的研究,通过分析叙事特征来鉴别大语言模型生成的文本。研究团队收集了上万个写作提示,让人类作...

大模型也需要睡觉!让AI打个盹,醒来更聪明

卡内基梅隆大学和马里兰大学的研究团队提出了一种旨在提升大语言模型处理长上下文和复杂逻辑能力的新机制。研究表明,大语言模型在面对长上下文和深度推理任...

哈萨比斯出的难题,GPT之父接上了:用一个知识停在1930年的模型

在能力测试环节,模型对1930年后的历史事件表现出明显的信息惊讶度攀升,验证了时间截断的有效性。尽管在Python编程测试中整体落后于现代版本,但该模型能够...

模型性能提升近50%,成本削减83%!约翰·霍普金斯大学发布专业领域提示优化框架

约翰·霍普金斯大学提出的EGO-Prompt框架通过进化图优化技术,显著提升了小型语言模型在专业领域任务中的性能,同时大幅降低推理成本。该框架的核心创新在于将...

长上下文快2.9倍,解码快6倍:Kimi 用线性注意力实现性能与效率双突破

月之暗面团队开发的Kimi Linear模型通过创新的混合线性注意力架构,在公平比较中全面超越传统全注意力机制,实现了推理速度与模型性能的双重突破。该模型的核...

最具争议性研究:大模型中间层输出可 100% 反推原始输入

一项来自意大利罗马第一大学GLADIA Research Lab的研究表明,主流Transformer语言模型在信息处理过程中几乎不会丢失任何输入内容,从数学意义上看具有可逆性...

扩散语言模型新发现:其计算潜力正在被浪费?

掩码扩散语言模型(MDLM)作为一种新兴的生成范式,挑战了传统自回归模型从左到右的token生成方式。这种模型通过训练时随机遮蔽序列位置并学习填充,具备多to...

OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击

OpenAI、Anthropic和Google DeepMind罕见合作发表研究,揭示了当前大语言模型防御机制在自适应攻击下的系统性脆弱性。研究团队通过构建通用自适应攻击框架,...

Thinking Machines 发布 Tinker API,实现灵活的模型微调

Thinking Machines 公司推出的 Tinker API 为开放权重语言模型的微调提供了新的解决方案。该服务通过抽象化集群管理,使开发者能够通过简单的 Python 调用进...

管你模型多大,250份有毒文档统统放倒,Anthropic:LLM比想象中脆弱

黑掉一个大模型似乎比人们预期的要简单得多。传统观点认为,攻击或污染具有庞大参数量的大模型非常困难,通常需要极大量的数据污染。然而,Anthropic与英国人...
1 2 3 13