LG开源韩语大模型Exaone 3.0，8万亿token训练数据

1,952 0 0

文章摘要

【关键词】 EXAONE 3.0、AI大模型、多语言支持、长序列处理、性能优化

LG的AI研究机构推出了一款名为EXAONE 3.0的新型大模型，这是一款具有78亿参数的指令微调模型，经过8万亿token的高质量数据训练，支持韩语和英文两种语言，尤其在韩语支持上表现出色。EXAONE 3.0在多个基准测试中的表现超过了其他知名开源模型，如Llama 3.1-8B和Gemma 2-9B。

该模型采用了主流的解码器仅变换器架构，与传统变换器相比，它通过去除编码器部分来简化模型结构，同时增强了处理长距离依赖关系的能力。EXAONE 3.0支持4,096 token的上下文长度，这使得模型在理解语言连贯性方面具有显著优势，提升了生成文本、翻译和摘要的能力。

为了提升对长序列数据的处理能力，EXAONE 3.0采用了RoPE和GQA技术。RoPE通过编码位置信息帮助模型理解文本中的单词顺序，而GQA则提高了模型对不同查询的关注能力。此外，为了更好地处理韩语数据，研究人员采用了MeCab对韩语语料进行预标记，并训练了BBPE标记器，实现了在韩语上的低压缩比，有助于保留语言的结构和语义信息。

EXAONE 3.0的预训练分为两个阶段，第一阶段使用了6万亿token的数据优化一般领域能力，第二阶段则通过额外2万亿token的训练，重点提高语言技巧和专业知识。研究团队通过重新平衡数据分布和创建分类器来确保高价值数据的有效利用。

在优化阶段，LG的研究人员采用了SFT（监督微调）和DPO（直接偏好优化）技术来增强模型的指令跟随能力。SFT阶段通过创建多轮对话数据集来模拟真实用户交互，而DPO阶段则通过人类反馈进行模型调整，包括离线DPO和在线DPO两个步骤，以持续优化模型性能。

经过综合测试，EXAONE 3.0在MT-Bench、Arena-Hard-v0.1、WildBench和AlpacaEval 2.0 LC等基准平台上的表现优于其他知名模型，尤其在韩语和英语的数学、编码、推理等能力方面。对于希望开发专门用于韩语的类ChatGPT生成式AI应用的开发者来说，EXAONE 3.0是一个值得考虑的选择。