浙江大学联合华为发布国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型

AIGC动态6小时前发布 ai-front
82 0 0
浙江大学联合华为发布国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型

 

文章摘要


【关 键 词】 大模型安全DeepSeek模型安全技术突破模型性能安全治理

随着以大模型为代表的人工智能技术加速演进,其安全性成为核心议题。截至 2025 年 1 月,中国约有 197 个大模型,覆盖多个重要行业领域。全球主流大模型频现安全问题,如谷歌 Gemini 大模型被利用发动网络攻击,三星引入 ChatGPT 后机密资料外泄。我国国产大模型虽在生态建设上取得成效,但在框架健全性等方面仍处于起步阶段,部分早期版本面对越狱攻击失守率高达 100%。

为应对这一挑战,浙江大学联合华为计算产品线推出 DeepSeek – R1 – Safe 基础大模型。该模型基于昇腾千卡集群,依托全流程自主可控后训练框架完成训练,安全防御能力提升至 83%,较原模型越狱防御增幅 115%,普通问题安全率近 100%,且通用性能接近零损耗,实现了安全性与通用性能的有效均衡。它已在多个社区全面开源,采用 MIT License 开放共享,任奎教授因该项目贡献获“科研创新卓越贡献奖”。

DeepSeek – R1 – Safe 在“安全语料构建”“安全模型训练”“软硬件环境搭建”三个维度实现关键技术突破。团队构建了自主可控的全栈式安全训练框架,从底层将安全能力嵌入模型。在安全语料方面,创新构建具备多元维度融合等特征的语料,并提出全链路语料质控框架。安全训练范式上,首创安全核心思维模式预对齐等机制。软硬件环境搭建方面,首次实现基于昇腾千卡算力平台的千亿级参数模型安全训练,并构建共享开发工具。

模型性能测评显示,DeepSeek – R1 – Safe 安全性能显著提升,多维度普通有害问题整体防御成功率近 100%,越狱防御能力整体成功率超 40%,均超过多个同期模型;通用性能基本无损,与同期模型相当。

DeepSeek – R1 – Safe 为“人工智能安全治理”提供了中国答案,不仅提升了国产大模型安全能力,还探索实践了人工智能安全治理路径。浙大团队未来将依托相关实验室,与华为等产业伙伴携手,推动内生安全人工智能发展,实现人工智能大模型算力、数据与算法的全面自主、安全与可控。

原文和模型


【原文链接】 阅读原文 [ 2711字 | 11分钟 ]
【原文作者】 AI前线
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...