浙江大学联合华为发布国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型

82 0 0

文章摘要

【关键词】 大模型安全、DeepSeek模型、安全技术突破、模型性能、安全治理

随着以大模型为代表的人工智能技术加速演进，其安全性成为核心议题。截至 2025 年 1 月，中国约有 197 个大模型，覆盖多个重要行业领域。全球主流大模型频现安全问题，如谷歌 Gemini 大模型被利用发动网络攻击，三星引入 ChatGPT 后机密资料外泄。我国国产大模型虽在生态建设上取得成效，但在框架健全性等方面仍处于起步阶段，部分早期版本面对越狱攻击失守率高达 100%。

为应对这一挑战，浙江大学联合华为计算产品线推出 DeepSeek – R1 – Safe 基础大模型。该模型基于昇腾千卡集群，依托全流程自主可控后训练框架完成训练，安全防御能力提升至 83%，较原模型越狱防御增幅 115%，普通问题安全率近 100%，且通用性能接近零损耗，实现了安全性与通用性能的有效均衡。它已在多个社区全面开源，采用 MIT License 开放共享，任奎教授因该项目贡献获“科研创新卓越贡献奖”。

DeepSeek – R1 – Safe 在“安全语料构建”“安全模型训练”“软硬件环境搭建”三个维度实现关键技术突破。团队构建了自主可控的全栈式安全训练框架，从底层将安全能力嵌入模型。在安全语料方面，创新构建具备多元维度融合等特征的语料，并提出全链路语料质控框架。安全训练范式上，首创安全核心思维模式预对齐等机制。软硬件环境搭建方面，首次实现基于昇腾千卡算力平台的千亿级参数模型安全训练，并构建共享开发工具。

模型性能测评显示，DeepSeek – R1 – Safe 安全性能显著提升，多维度普通有害问题整体防御成功率近 100%，越狱防御能力整体成功率超 40%，均超过多个同期模型；通用性能基本无损，与同期模型相当。

DeepSeek – R1 – Safe 为“人工智能安全治理”提供了中国答案，不仅提升了国产大模型安全能力，还探索实践了人工智能安全治理路径。浙大团队未来将依托相关实验室，与华为等产业伙伴携手，推动内生安全人工智能发展，实现人工智能大模型算力、数据与算法的全面自主、安全与可控。