标签：架构优化

小红书开源首个大模型，11万亿非合成训练数据

小红书近期开源了其首个大模型dots.llm1，这是一个1420亿参数的专家混合模型（MoE），在推理过程中仅激活140亿参数，显著降低了训练和推理成本。dots.llm1的...

AIGC动态

3周前