ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费
文章摘要
【关 键 词】 AI安全、AI治理、技术趋势、安全评测、国际共识
随着人工智能技术的快速发展,AI安全问题日益凸显。AI投资人Rob Toews预测,2025年将发生第一起真实的AI安全事件。北京智源研究院在其2025十大AI技术趋势中将AI安全治理体系的持续完善列为第十个趋势。AI安全风险可分为内生安全问题、衍生安全问题和外生安全问题三类。内生安全问题涉及大模型的基因问题,如数据有毒、价值对齐、决策黑盒等。衍生安全问题包括AI滥用引发的其他领域安全事故,如假新闻、深度伪造诈骗、侵犯知识产权等。外生安全问题则涉及人工智能系统的外部网络攻击对抗,如平台、框架安全漏洞、模型被盗、数据泄露风险等。
为应对AI安全挑战,业界、政府和国际组织在AI治理上做了大量工作。中国是全球最早对生成式AI进行规范的国家之一,已发布《生成式人工智能服务管理暂行办法》等规范。在底层关键技术研究上,国内业界取得了积极成果,如北京智源研究院研发了防御大模型和AI监管大模型,在对齐优化方面进行了创新。在多模态对齐上,智源推出的”align anything”框架实现了多模态信息的全面对齐。蚂蚁集团将知识图谱与大模型结合,有效增强了模型输出的专业性和可靠性。华为、蚂蚁集团、360集团、深信服等厂商在AI对抗AI方面进行了有益探索。
在安全治理领域,模型的安全评测非常重要。2024年4月,联合国科技大会发布了两项大模型安全标准,其中蚂蚁集团牵头制定《大语言模型安全测试方法》,首次给出四种攻击强度分类,提供了可衡量的安全评估标准。在推进国际对话上,北京智源研究院发起并承办我国首个AI安全国际对话高端闭门论坛,与全球AI领袖学者及产业专家联合签署《北京AI安全国际共识》,设定模型安全红线。
AI安全治理是AI行业永恒的话题。我们不可能放弃科技,唯有为其打造足够安全的刀鞘,让AI在造福人类的同时始终处于可控轨道。
原文和模型
【原文链接】 阅读原文 [ 3642字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆