推理速度 | 学习AIGC

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

KAIST、Mila和谷歌DeepMind团队近期发布了一种名为Mixture-of-Recursions（MoR）的全新大型语言模型（LLM）架构，该架构被认为有潜力成为Transformer的替代者...

AIGC动态

2个月前

全球首次，Transformer「混血」速度狂飙65倍！英伟达已下注

扩散建模与自回归方法的融合在语言模型领域取得突破性进展。康奈尔大学、CMU等机构的研究团队提出新型混合框架Eso-LM，首次实现并行生成与KV缓存机制的兼容，...

AIGC动态

3个月前

创新突破！字节跳动首创无需数据，1.58位超低量化自监督生成

字节跳动研究人员针对大型语言模型（LLM）在推理和生成过程中占用大量内存的问题，提出了一种创新的量化方法。该方法不依赖实际图像数据，仅利用模型自身的自...

AIGC动态

9个月前

是时候停止炒作「o3是AGI」了！背后15人安全对齐团队大盘点

OpenAI最近发布了推理模型o3系列，该模型在ARC-AGI基准上表现出色，成为首个突破该基准的AI模型，引发业界对AGI（人工通用智能）的热烈讨论。o3系列模型的能...

AIGC动态

9个月前

清华&面壁开源高效压缩技术：一块 80 G A100 轻松加载 50 个 7B 模型

清华大学与面壁智能团队提出了一种名为Delta Compression的技术，通过存储主干模型与任务专用模型之间的参数差值，显著降低了模型对显卡的存储需求。在此基础...

AIGC动态

10个月前

阿里发布Qwen2.5-Turbo，上下文长度突破100万

阿里巴巴通义大模型团队近日发布了Qwen2.5-Turbo，这是其最新语言模型Qwen2.5的升级版。新模型在多个方面进行了显著提升，尤其是在处理超长上下文的能力上，...

AIGC动态

10个月前

零一万物发布最新旗舰模型，百万 token 仅 0.99 元！李开复：定价没有亏本

10月16日，零一万物公司发布了其最新旗舰模型Yi-Lightning，这是继上半年推出的千亿参数模型Yi-Large之后的又一次技术突破。Yi-Lightning在保持模型性能提升...

AIGC动态

11个月前

英伟达股价暴跌！或与 Llama 3 发布有关？

本文介绍了Meta发布的Llama 3大模型以及Groq平台上Llama 3的运行速度超快的情况。Llama 3经过预训练和指令微调，参数分别为8B和70B，支持广泛的用例，并在行...

AIGC动态

1年前 (2024)

社区供稿 | 多轮对话推理速度提升 46%，开源方案打破 LLM 多轮对话的长度限制

第二段：讲述了StreamingLLM的优势和挑战，以及其通过观察注意力模块中Softmax的输出，解决了注意力 sink 的现象，提高了生成效果。第三段：介绍了Colossal-A...

AIGC动态

2年前 (2024)

标签：推理速度

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

全球首次，Transformer「混血」速度狂飙65倍！英伟达已下注

创新突破！字节跳动首创无需数据，1.58位超低量化自监督生成

是时候停止炒作「o3是AGI」了！背后15人安全对齐团队大盘点

清华&面壁开源高效压缩技术：一块 80 G A100 轻松加载 50 个 7B 模型

阿里发布Qwen2.5-Turbo，上下文长度突破100万

零一万物发布最新旗舰模型，百万 token 仅 0.99 元！李开复：定价没有亏本

英伟达股价暴跌！或与 Llama 3 发布有关？

社区供稿 | 多轮对话推理速度提升 46%，开源方案打破 LLM 多轮对话的长度限制

热门网址

标签：推理速度

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址