标签:性能提升
首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了
Llama 3.1,一个多语言大型语言模型(LLM)集合,最近在Reddit上泄露,引起了广泛关注。这个集合包含8B、70B和405B三种不同参数规模的模型,且在多项基准测试...
仅微调0.02%参数,性能接近全量微调!上交大推出高效微调统一新范式
随着大模型应用的扩展,基础模型的参数数量不断增加,给训练带来了巨大负担。为了解决这一问题,研究者们开始关注高效微调(Parameter Efficient Fine-Tuning...
AWS Graviton 4,水平如何?
Graviton4相较于前代Graviton3在性能上实现了显著提升,其R8g实例据称比R7g实例性能高出30%。Graviton4配备了96个基于Armv9.0 ISA的Neoverse-V2内核,每个内...
奥特曼深夜发动价格战,GPT-4o mini暴跌99%!清华同济校友立功,GPT-3.5退役
OpenAI最近推出了GPT-4o mini,这是一款更小、性能更强、成本更低的人工智能模型。相较于GPT-3.5,GPT-4o mini在性能上有所提升,同时价格降低了60%以上。这...
Karpathy又整活儿了!一天训练出GPT-2、成本还骤降100倍,网友:dream老黄把价格再打下来
OpenAI的创始成员和前研究科学家Andrej Karpathy最近成功地在单个八H100节点上重现了GPT-2(1.6B)模型,整个过程仅需24小时,成本为672美元。这一成就展示了...
H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级,比标准注意力快16倍
FlashAttention-3,一种用于大模型训练和推理的算法,经过一年的开发,已经推出了第三代。这一升级版本在训练速度上实现了1.5至2倍的提升,在FP16(16位浮点...
Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍
FlashAttention-3是针对H100 GPU优化的第三代FlashAttention技术,它在前一代的基础上实现了1.5至2倍的速度提升,将H100 GPU的FLOPs利用率提高到了75%。Flash...
RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架
佐治亚理工学院和英伟达的学者们提出了一种名为RankRAG的微调框架,旨在简化传统的RAG(Retrieval-Augmented Generation)流水线。RAG是一种在文本生成任务中...
LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告
由马里兰大学、OpenAI、斯坦福大学、微软等12所机构的30多名研究者共同完成的一项大规模系统研究,首次深入探讨了大型语言模型(LLM)的提示技术,并发布了一...
Stable diffusion 3 正式开源
Stability AI近日宣布开源其文生图片模型——Stable Diffusion 3 Medium(简称SD3-M)。该模型拥有20亿参数,在保证高推理效率的同时,对硬件需求较低,适合在P...