文章摘要
【关 键 词】 TableGPT2、结构化数据、性能提升、模型开源、技术创新
浙江大学博导赵俊博领衔的团队开发了TableGPT2,这是一个能够理解复杂表格并进行计算的最新模型。TableGPT2首次将结构化数据作为独立模态进行训练,使得大模型能够直接理解数据库、Excel、数仓中的数据,并执行SQL、分析、增删改查等任务。这一创新使得模型不再依赖长上下文窗口,而是通过理解结构化数据本身来提高性能。
TableGPT2在23个基准测试中表现出色,平均性能提升显著,7B模型提升了35.20%,72B模型提升了49.32%。该模型基于Qwen2.5系列模型,使用超过860亿token进行预训练,并加入了一个表格编码器,专门用于读取和解释表格数据。表格编码器支持输入整个表格,生成每列的紧凑嵌入,并采用双维注意力机制,无需位置嵌入,同时进行分层特征提取,确保行和列的关系被有效捕捉。
LLM解码器基于Qwen-2.5模型,用于自然语言生成。预训练阶段,模型的编码和推理能力得到加强,使用了80%的优质注释代码数据,并融入了大量推理数据和特定领域知识。在数据处理层面,采用了两级过滤策略,文档层面将数据标记为54个不同类别,token层面利用RHO-1来微调高质量token。
TableGPT2的开发过程中,团队面临了技术和数据收集的挑战,包括构建table上单独模态的编码器、结构化数据的收集和清洗、标签体系的定制、合成数据和人工数据的合并以及成本控制。尽管如此,团队看到了大模型理解结构化数据背后的广阔应用前景,包括硬件和具身智能领域。目前,团队已经开源了模型和相关工作流程,以便社区进一步研究和应用。
原文和模型
【原文链接】 阅读原文 [ 2584字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆