宁德核电推出全球参数量最大的核工业大模型｜InfoQ 独家

AIGC动态2年前 (2024)发布 ai-front

3,393 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-4-0125-preview
【摘要评分】 ★★★★★

文章摘要

宁德核电公司近日发布了专为核工业领域打造的大语言模型「锦书」，这是一个标志性的技术创新，其参数规模达到720亿，成为目前全球范围内参数量最大的核工业预训练大语言模型。该模型不仅拥有中国最大的核工业大模型语料库，训练语料超过20亿token，还开发了适用于核工业的专属词向量模型和模型重排算法，展示了卓越的性能。

「锦书」的开发旨在解决核电行业面临的各种挑战，如知识管理不足、低脑力劳动过多、安全分析能力有待增强等问题。通过AI大模型的应用，宁德核电成功开发出国内首个核工业大语言模型应用平台「云中锦书」，该平台部署了智能培训系统、个人岗位晋升系统、PPT生成等多个应用，实现了企业降本提质增效的目标。

此外，「锦书」还实现了核工业首个企业级大规模智能知识管理系统，支持个人知识库的构建和使用，以及核工业首个多模态AI讲师书锦，通过多模态交互实现了AIGC技术赋能SAT应用的首次尝试。这些创新不仅提升了工作效率，促进了知识分享，还大幅节省了人力成本，每年可节省超过200万元。

宁德核电人工智能实验室负责人王澍表示，「锦书」不仅是人工智能时代的蓝图，也是献给核电的一封情书。该项目的成功实施，不仅为核电行业的数字化转型提供了强有力的支持，也为AI技术在其他工业领域的应用提供了宝贵的经验和借鉴。

在面对核电领域知识问答系统开发中的挑战时，项目团队采取了多种创新方法，如提升LLM本身多轮对话能力、提升AI平台系统对多轮的应对能力、压缩历史对话信息等，有效解决了多轮对话能力弱、专业编码理解不足等问题。此外，团队还在降低幻觉和提升深层核电问题回答能力方面采取了创新的方法或技术，如数据清洗、精心设计的RAG技术、领域特定的微调等，以确保问答系统的输出结果准确性。

项目的推进过程中遇到了多项预料之外的困难，如核工业知识体系的复杂性、核工业数据的保密性、数据格式的多样性和清洗难度等，但通过构建核工业语义库、开发数据处理平台、训练核工业专用黑话库等创新性解决方案，项目团队成功克服了这些挑战，取得了显著的成果。

最后，王澍强调，该项目的完成将极大地提升核电行业知识管理和在岗培训的效率，降低人员的低脑力工作负荷，为核电行业乃至整个能源行业的发展带来深远的影响。