UIUC 李博:如何探索大模型背后的安全隐忧?丨ICML 2024 直击
文章摘要
【关 键 词】 大模型安全、AI可信度、模型架构、风险评估、Virtue AI
在AI科技评论的访谈中,ICML Tutorial Chair李博教授分享了她对大模型安全问题的看法,并介绍了她创立的Virtue AI公司。李博教授指出,大模型能力的提升并不代表其安全能力也得到改进,需要有意识地发现模型潜在的风险和漏洞。她认为,推理能力纯靠Transformer架构或数据驱动模型是解决不了问题的,需要模型同时具备数据驱动的泛化能力和逻辑的推理能力,才能从根本上解决幻觉问题。
李博教授的研究主要集中在机器学习系统对各种对抗性攻击的漏洞,并致力于开发现实世界的可信机器学习系统。她创立的Virtue AI公司目前团队规模20人左右,已获得上千万美元融资。Virtue AI的愿景是缩小大模型发展和部署在实际场景之间的鸿沟,让安全真正能运用到场景中,确保现有的AI模型能够被保护起来。
Virtue AI目前的产品线包括面向AI模型、系统和代理的综合风险评估平台,Guardrail模型以及Safe Agent。公司正在与斯坦福大学的HELM合作开发AIR-BENCH 2024,评估AI模型的安全性和合规性,并与Huggingface共同托管标准LLM安全排行榜。
李博教授认为,可信AI的瓶颈在于如何将基础模型部署到真正可使用到场景中的能力。她强调,需要解决如何对齐和微调的问题,针对添加了额外的模型,需要考虑如何辅助它变得更安全;针对新添的知识,能有一些额外的推理组件,真正做到可推理。
在访谈中,李博教授还提到了大模型在处理复杂任务时面临的挑战,包括提高模型的推理能力、整合知识以及模型微调和训练的效率问题。她认为,对抗性训练在提高大模型鲁棒性方面的作用有限,需要更适合大模型的方法来提高人工智能价值对齐。
总的来说,李博教授强调了大模型安全问题的重要性,并分享了她在这方面的研究和创业经历。她认为,要解决大模型的幻觉问题,需要在模型架构上进行创新,同时具备数据驱动的泛化能力和逻辑推理能力。Virtue AI公司正致力于通过风险评估、Guardrail模型和Safe Agent等产品,提高AI模型的安全性和可信度。
原文和模型
【原文链接】 阅读原文 [ 4275字 | 18分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★