“架构”的搜索结果

革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2
新智元报道了Meta、南加州大学(USC)、CMU和UCSD联合提出的革命性新架构Megalodon,旨在处理无限上下文,并在2万亿token训练任务中超越...
Google:如何为AI和分析工作负载定义存储架构
本文讨论了构建大规模AI/ML数据管道的方法,并探讨了如何选择适合的存储方案来优化各类AI/ML工作负载。文章中,来自Google和Toyota的专...
大模型应用的 10 种架构模式
在这篇文章中,作者曹洪伟深入探讨了大模型应用在人工智能领域的设计方法和架构模式。文章首先指出,在新兴技术如生成式AI领域,我们缺...
清华首款AI光芯片登上Science,全球首创架构迈向AGI
清华大学的研究团队开发了一种名为「太极」的AI光芯片,这是一种使用光而非电来处理数据的新型芯片。这项技术的亮点在于其高效的能源利...
Llama架构比不上GPT2?神奇token提升10倍记忆?
这篇文章主要介绍了朱泽园和李远志最新研究的内容,标题为《语言模型物理学 Part 3.3:知识的 Scaling Laws》。他们通过海量实验总结了1...
谷歌更新Transformer架构,更节省计算资源!50%性能提升
谷歌最近更新了其Transformer架构,推出了一种名为Mixture-of-Depths(MoD)的新技术。这项技术通过动态分配大模型中的计算资源,跳过一...
国内首个音乐版「ChatGPT」来了!Sora同款架构,唱作技巧全面发展,还剧透了全新MoE大模型
昆仑万维近期宣布了其AI音乐生成大模型「天工SkyMusic」的开放邀测,这一模型基于公司的「天工3.0」超级大模型构建。这个模型的亮点在于...
英伟达开卷价格!最新Blackwell GPU架构/成本揭秘,彰显老黄的「仁慈」
新智元报道了英伟达新一代GPU——Blackwell架构的B100和B200的发布,这款新GPU在硬件规格上令人震撼,同时也引发了对其售价和成本的广泛讨...
LLM就是框架,Agent就是应用,Workflow就是架构
在探讨LLM-based时代的应用开发时,我们必须打破传统思维的束缚,正如iphone在手机行业的颠覆性创新一样,AI时代可能会彻底改变我们使用...
首个基于SSM-Transformer混合架构,开源商业大模型Jamba
AI研究实验室AI21最近开源了其基于SSM-Transformer混合架构的商业大模型——Jamba。这个模型在传统的Transformer架构上加入了结构化状态空...
1 2 3 4 5 6 99