标签:架构优化

小红书开源首个大模型,11万亿非合成训练数据

小红书近期开源了其首个大模型dots.llm1,这是一个1420亿参数的专家混合模型(MoE),在推理过程中仅激活140亿参数,显著降低了训练和推理成本。dots.llm1的...