小红书开源1420亿参数大模型,部分性能与阿里Qwen3模型相当

文章摘要
小红书近期开源了其首个自研大模型dots.llm1,标志着其在AI领域的进一步探索。该模型由小红书hi lab团队开发,并在Github和Hugging Face等平台上发布。dots.llm1包括两个主要模型:base模型和instruct模型。base模型完成了预训练,而instruct模型则是在base模型基础上通过指令微调,便于直接部署和使用。dots.llm1混合专家模型(MoE)拥有1420亿参数,使用11.2万亿token的非合成高质量训练数据,在推理过程中仅激活140亿参数,显著降低了训练和推理成本。
在性能方面,dots.llm1与阿里Qwen 2.5模型相当,部分性能甚至与Qwen 3模型持平。特别是在中文任务中,dots.llm1.inst在CLUEWSC和C-Eval等测试中表现出色,分别取得了92.6分和92.2分,超越了包括DeepSeek-V3在内的多个模型。这些成绩表明,dots.llm1在中文语义理解和通用任务上已达到业界领先水平。
技术实现上,小红书团队在MoE高效训练实践中引入了Interleaved 1F1B with AlltoAll overlap和优化Grouped GEMM,显著提升了计算效率。实测数据显示,与NVIDIA Transformer Engine中的Grouped GEMM API相比,hi lab实现的算子在前向计算中平均提升了14.00%,在反向计算中平均提升了6.68%。这一优化方案不仅提高了模型性能,还降低了计算成本,具有显著的实用价值。
小红书的AI布局不仅限于技术研发,还体现在产品落地和资本市场的表现上。2023年以来,小红书加快了AI应用的步伐,推出了AI搜索应用“点点”和内置的“问一问”功能,帮助用户更高效地查找信息。与此同时,小红书的估值在2024年3月底达到260亿美元,远超过B站和知乎等上市公司,显示出市场对其未来发展的高度期待。
未来,小红书hi lab计划进一步优化模型架构,探索分组查询注意力(GQA)、多头潜在注意力(MLA)和线性注意力等技术,以提升训练和推理效率。此外,团队还将深入研究最佳训练数据,探索更接近人类学习效率的方法,以最大限度地从每个训练示例中获取知识。小红书hi lab的目标是训练一个更强大的模型,并计划为社区贡献更多更优的全模态大模型,进一步推动AI技术的发展。
原文和模型
【原文链接】 阅读原文 [ 1316字 | 6分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆