标签:语言模型

模型性能提升近50%,成本削减83%!约翰·霍普金斯大学发布专业领域提示优化框架

约翰·霍普金斯大学提出的EGO-Prompt框架通过进化图优化技术,显著提升了小型语言模型在专业领域任务中的性能,同时大幅降低推理成本。该框架的核心创新在于将...

长上下文快2.9倍,解码快6倍:Kimi 用线性注意力实现性能与效率双突破

月之暗面团队开发的Kimi Linear模型通过创新的混合线性注意力架构,在公平比较中全面超越传统全注意力机制,实现了推理速度与模型性能的双重突破。该模型的核...

最具争议性研究:大模型中间层输出可 100% 反推原始输入

一项来自意大利罗马第一大学GLADIA Research Lab的研究表明,主流Transformer语言模型在信息处理过程中几乎不会丢失任何输入内容,从数学意义上看具有可逆性...

扩散语言模型新发现:其计算潜力正在被浪费?

掩码扩散语言模型(MDLM)作为一种新兴的生成范式,挑战了传统自回归模型从左到右的token生成方式。这种模型通过训练时随机遮蔽序列位置并学习填充,具备多to...

OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击

OpenAI、Anthropic和Google DeepMind罕见合作发表研究,揭示了当前大语言模型防御机制在自适应攻击下的系统性脆弱性。研究团队通过构建通用自适应攻击框架,...

Thinking Machines 发布 Tinker API,实现灵活的模型微调

Thinking Machines 公司推出的 Tinker API 为开放权重语言模型的微调提供了新的解决方案。该服务通过抽象化集群管理,使开发者能够通过简单的 Python 调用进...

管你模型多大,250份有毒文档统统放倒,Anthropic:LLM比想象中脆弱

黑掉一个大模型似乎比人们预期的要简单得多。传统观点认为,攻击或污染具有庞大参数量的大模型非常困难,通常需要极大量的数据污染。然而,Anthropic与英国人...

更高智商更快思考!蚂蚁开源最新万亿语言模型,多项复杂推理SOTA

蚂蚁集团正式发布其百灵大模型系列的首款旗舰产品——拥有万亿参数的通用语言模型Ling-1T。该模型在多项复杂推理基准测试中超越主流开源与闭源模型,包括DeepSe...

北京邮电大学最新研究:使用提示工程解决大模型记忆问题

北京邮电大学的研究者开发了一种免训练的提示技巧,显著提升了大型语言模型在多轮对话中的表现。该方法通过状态更新策略,使推理时间减少73.1%,令牌消耗降低...

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

普林斯顿大学陈丹琦团队最新研究提出基于模型奖励思维的强化学习(RLMT)方法,旨在弥合专门推理能力与通用对话能力之间的差距。该方法通过将显式的思维链推...
1 2 3 13