标签:大模型
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
微软副总裁 Nando de Freitas 在 X 平台上发布了一系列关于人工智能教育的帖子,内容涵盖大语言模型(LLM)的强化学习、扩散模型、流匹配等技术。他通过深入...
华为中科大联创大模型低比特量化算法,1‰数据实现昇腾无损压缩7倍
大模型在人工智能领域展现出强大的能力,但其庞大的参数量和部署成本成为广泛应用的主要障碍。以DeepSeek-R1 671B为例,其推理过程需要高达1342GB的显存,即...
最新W4A4KV4全量化框架,单卡A100大模型推理速度飙升
王颖研究员团队联合华北电力大学和上海科技大学,在ASPLOS 2025会议上发布了COMET框架,该框架通过系统-算法协同优化,实现了权重、激活和KV缓存全4比特推理...
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
随着大语言模型(LLM)参数规模的指数级增长,AI 的智力正在快速跃迁,但大模型在落地过程中面临着一系列推理层面的难题,如推理速度慢、计算成本高、部署效...
今年第二笔大模型融资披露:面壁获新一轮数亿元融资
面壁智能近日完成了新一轮数亿元融资,本轮融资由洪泰基金、国中资本、清控金信和茅台基金联合投资。此次融资的完成,将为面壁智能在高效大模型技术、产品壁...
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
阿里通义实验室最近开源了ZeroSearch,这是一个无需与真实搜索引擎交互的强化学习框架,旨在提升大模型的检索和推理能力。传统的强化学习方法依赖于真实搜索...
AIGCode宿文:我们就是要自训练大模型,直接做「L5」| AI产品十人谈
宿文通过其创业公司AIGCode,探索了一条通过大模型实现代码自动生成(Autocoding)的道路,最终目标是实现通用人工智能(AGI)。他认为,代码生成是实现AGI的...
爆冷!字节Seed 在CCPC 决赛只做出一道签到题,而DeepSeek R1 直接挂零?
第十届中国大学生程序设计竞赛(CCPC)的决赛中,字节 Seed 作为赞助商,携 Seed-Thinking 非正式参与了比赛,但结果令人意外,Seed-Thinking 仅完成了一道签...
清华许华哲:具身智能需要从 ImageNet 做起吗?
具身智能的兴起源于人类对物理世界的依赖,尽管数字化技术如互联网和人工智能取得了显著进展,但人类作为物理实体的存在使得具身智能成为不可忽视的领域。具...
不再“纸上谈兵”:大模型能力如何转化为实际业务价值
随着大模型技术的快速发展,其在各行业的应用潜力日益凸显,但如何将大模型能力高效转化为实际业务价值,仍是企业面临的核心挑战。在 AICon 全球人工智能开发...