标签:大模型
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
在大模型竞赛日益激烈的背景下,强化学习后训练(RL后训练)已成为突破大语言模型(LLM)性能瓶颈的关键路径。OpenAI o1、DeepSeek-R1等模型的成功,均得益于...
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
随着大语言模型(LLM)的快速发展,扩展Transformer架构已成为推动人工智能领域进步的关键途径。然而,LLM参数规模的指数级增长带来了高昂的训练成本和推理效...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
微软副总裁 Nando de Freitas 在 X 平台上发布了一系列关于人工智能教育的帖子,内容涵盖大语言模型(LLM)的强化学习、扩散模型、流匹配等技术。他通过深入...
华为中科大联创大模型低比特量化算法,1‰数据实现昇腾无损压缩7倍
大模型在人工智能领域展现出强大的能力,但其庞大的参数量和部署成本成为广泛应用的主要障碍。以DeepSeek-R1 671B为例,其推理过程需要高达1342GB的显存,即...
最新W4A4KV4全量化框架,单卡A100大模型推理速度飙升
王颖研究员团队联合华北电力大学和上海科技大学,在ASPLOS 2025会议上发布了COMET框架,该框架通过系统-算法协同优化,实现了权重、激活和KV缓存全4比特推理...
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
随着大语言模型(LLM)参数规模的指数级增长,AI 的智力正在快速跃迁,但大模型在落地过程中面临着一系列推理层面的难题,如推理速度慢、计算成本高、部署效...
今年第二笔大模型融资披露:面壁获新一轮数亿元融资
面壁智能近日完成了新一轮数亿元融资,本轮融资由洪泰基金、国中资本、清控金信和茅台基金联合投资。此次融资的完成,将为面壁智能在高效大模型技术、产品壁...
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
阿里通义实验室最近开源了ZeroSearch,这是一个无需与真实搜索引擎交互的强化学习框架,旨在提升大模型的检索和推理能力。传统的强化学习方法依赖于真实搜索...
AIGCode宿文:我们就是要自训练大模型,直接做「L5」| AI产品十人谈
宿文通过其创业公司AIGCode,探索了一条通过大模型实现代码自动生成(Autocoding)的道路,最终目标是实现通用人工智能(AGI)。他认为,代码生成是实现AGI的...