百川智能发布金融大模型 Baichuan4-Finance，整体准确率领先GPT-4o近20%

240 0 0

文章摘要

百川智能于12月23日发布了全链路领域增强大模型Baichuan4-Finance，该模型在高质量金融数据的基础上，通过领域自约束训练方案，实现了金融能力和通用能力同步提升，提高了金融场景的整体可用性。在中国人民大学财政金融学院发布的评测体系FLAME和国内主流开源金融评测基准FinancelQ上，Baichuan4-Finance均表现优异，整体准确率领先GPT-4o近20%。

FLAME评测体系由FLAME-Cer和FLAME-Sce两个方向的评测基准组成，分别针对模型的专业金融能力和场景应用能力。Baichuan4-Finance在多个资格认证领域的准确率均突破95%，整体准确率达93.62%，大幅领先GPT-4o和XuanYuan3-70B-Chat。在FLAME-Sce评测中，Baichuan4-Finance一级核心金融业务场景的整体可用率达84.15%，金融数据计算、金融知识理论等场景的可用率超过90%。

Baichuan4-Finance的金融数据集包含金融专业教材、学术著作、顶级金融期刊论文、监管机构政策文件、金融法律法规等核心专业金融知识数据，以及金融专业问答集、企业财报与年度报告、金融类研究分析报告等实践应用类数据。在领域自约束训练过程中引入了更高精的通用数据，实现了模型通用能力不下降，金融能力稳定增长的效果。

百川智能在后训练环节也做了大量增强工作，如通过合成数据、指令数据对模型进行有监督的微调；在强化学习策略中，针对数学计算等金融领域特别关注的场景进行样本增强等，进一步提升了模型性能。

Baichuan4-Finance能够在效率提升、风控合规、客服、决策支持等诸多层面为金融行业带来全方位的价值提升。例如帮助金融从业者处理文档审核、客户咨询、产品营销等大量日常工作，还能依托深厚的金融专业知识和法律法规理解能力，为机构提供精准的风险识别和合规保障。此外，还可以凭借强大的数据分析能力为管理层提供专业的市场洞察和决策建议。

百川智能客户用友表示，Baichuan4-Finance在财税知识问答场景中，准确率较Baichuan4-Turbo提升了20%，较GPT-4o提升了10%，表现尤为亮眼。软通动力表示，其客户在实际应用中既要求大模型具备通用能力，又希望其在金融场景中有所专长。自部署Baichuan4-Finance以来，客户满意度提升了20%。