标签:模型架构
中科院、百度提出新架构:突破参数限制,实现高效推理
针对大模型参数规模扩大与性能提升不匹配的挑战,中国科学院信息工程研究所联合百度与北京师范大学AI学院提出了Inner Thinking Transformer架构(ITT)。该架...
OpenAI发布GPT-4.5:功能非常特殊,推理很贵
OpenAI于今日凌晨发布最新模型GPT-4.5,该模型在情感交互能力与架构设计上实现重大突破。GPT-4.5的核心创新在于引入“情商”功能,通过深度学习与对话数据训练...
有望治愈癌症!微软开源新模型,诺奖级重大突破
微软开源的最新蛋白质生成模型BioEmu-1通过技术创新显著提升了动态蛋白质结构预测效率。该模型在单个GPU上每小时可生成数千种蛋白质结构,生成效率比传统分子...
梁文锋、杨植麟同一天发论文“秀肌肉”,主题居然撞上了!下一代模型要来了?
2月18日,DeepSeek与月之暗面同时发布针对Transformer注意力机制改进的研究成果,聚焦于降低计算复杂度并提升长文本处理效率。这一技术竞争凸显了行业对高效...
「黑神话」级3A大作AI实时游戏生成!港科大、中科大等祭出最强扩散Transformer,火爆国外
由香港科技大学、中国科学技术大学等机构联合推出的GameGen-X,是一项突破性的AI技术,它首次实现了开放世界游戏的AI生成与交互控制。这项技术基于扩散Transf...
UIUC 李博:如何探索大模型背后的安全隐忧?丨ICML 2024 直击
在AI科技评论的访谈中,ICML Tutorial Chair李博教授分享了她对大模型安全问题的看法,并介绍了她创立的Virtue AI公司。李博教授指出,大模型能力的提升并不...
盛名一时的BERT哪去了?这个问题的答案昭示了LLM范式的转变
在大型语言模型(LLM)的发展历程中,我们见证了从编码器-解码器模型到仅解码器模型的转变。AI 创业公司 Reka 的首席科学家 Yi Tay 在其博客文章中深入探讨了...
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
视频生成的挑战视频生成比图像合成更复杂,因为它需要在不同帧之间保持时间一致性,并且收集高质量的视频数据比收集图像数据更具挑战性。从头建模视频生成文...
Llama架构比不上GPT2?神奇token提升10倍记忆?
这篇文章主要介绍了朱泽园和李远志最新研究的内容,标题为《语言模型物理学 Part 3.3:知识的 Scaling Laws》。他们通过海量实验总结了12条定律,为语言模型...
全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
文章介绍了全球首个开源的类Sora架构视频生成模型Open-Sora 1.0的发布。该模型开放了整个训练流程,包括数据处理、训练细节和模型权重。Open-Sora能生成繁华...
1
2