浙大开源“最懂Excel的GPT”！首次将结构化数据作为独立模态训练，刷榜提升40百分点

2,031 0 0

文章摘要

【关键词】 TableGPT2、结构化数据、性能提升、模型开源、技术创新

浙江大学博导赵俊博领衔的团队开发了TableGPT2，这是一个能够理解复杂表格并进行计算的最新模型。TableGPT2首次将结构化数据作为独立模态进行训练，使得大模型能够直接理解数据库、Excel、数仓中的数据，并执行SQL、分析、增删改查等任务。这一创新使得模型不再依赖长上下文窗口，而是通过理解结构化数据本身来提高性能。

TableGPT2在23个基准测试中表现出色，平均性能提升显著，7B模型提升了35.20%，72B模型提升了49.32%。该模型基于Qwen2.5系列模型，使用超过860亿token进行预训练，并加入了一个表格编码器，专门用于读取和解释表格数据。表格编码器支持输入整个表格，生成每列的紧凑嵌入，并采用双维注意力机制，无需位置嵌入，同时进行分层特征提取，确保行和列的关系被有效捕捉。

LLM解码器基于Qwen-2.5模型，用于自然语言生成。预训练阶段，模型的编码和推理能力得到加强，使用了80%的优质注释代码数据，并融入了大量推理数据和特定领域知识。在数据处理层面，采用了两级过滤策略，文档层面将数据标记为54个不同类别，token层面利用RHO-1来微调高质量token。

TableGPT2的开发过程中，团队面临了技术和数据收集的挑战，包括构建table上单独模态的编码器、结构化数据的收集和清洗、标签体系的定制、合成数据和人工数据的合并以及成本控制。尽管如此，团队看到了大模型理解结构化数据背后的广阔应用前景，包括硬件和具身智能领域。目前，团队已经开源了模型和相关工作流程，以便社区进一步研究和应用。