UIUC 李博：如何探索大模型背后的安全隐忧？丨ICML 2024 直击

AI-Agent2年前 (2024)发布 aitechtalk

3,327 0 0

文章摘要

【关键词】 大模型安全、AI可信度、模型架构、风险评估、Virtue AI

在AI科技评论的访谈中，ICML Tutorial Chair李博教授分享了她对大模型安全问题的看法，并介绍了她创立的Virtue AI公司。李博教授指出，大模型能力的提升并不代表其安全能力也得到改进，需要有意识地发现模型潜在的风险和漏洞。她认为，推理能力纯靠Transformer架构或数据驱动模型是解决不了问题的，需要模型同时具备数据驱动的泛化能力和逻辑的推理能力，才能从根本上解决幻觉问题。

李博教授的研究主要集中在机器学习系统对各种对抗性攻击的漏洞，并致力于开发现实世界的可信机器学习系统。她创立的Virtue AI公司目前团队规模20人左右，已获得上千万美元融资。Virtue AI的愿景是缩小大模型发展和部署在实际场景之间的鸿沟，让安全真正能运用到场景中，确保现有的AI模型能够被保护起来。

Virtue AI目前的产品线包括面向AI模型、系统和代理的综合风险评估平台，Guardrail模型以及Safe Agent。公司正在与斯坦福大学的HELM合作开发AIR-BENCH 2024，评估AI模型的安全性和合规性，并与Huggingface共同托管标准LLM安全排行榜。

李博教授认为，可信AI的瓶颈在于如何将基础模型部署到真正可使用到场景中的能力。她强调，需要解决如何对齐和微调的问题，针对添加了额外的模型，需要考虑如何辅助它变得更安全；针对新添的知识，能有一些额外的推理组件，真正做到可推理。

在访谈中，李博教授还提到了大模型在处理复杂任务时面临的挑战，包括提高模型的推理能力、整合知识以及模型微调和训练的效率问题。她认为，对抗性训练在提高大模型鲁棒性方面的作用有限，需要更适合大模型的方法来提高人工智能价值对齐。

总的来说，李博教授强调了大模型安全问题的重要性，并分享了她在这方面的研究和创业经历。她认为，要解决大模型的幻觉问题，需要在模型架构上进行创新，同时具备数据驱动的泛化能力和逻辑推理能力。Virtue AI公司正致力于通过风险评估、Guardrail模型和Safe Agent等产品，提高AI模型的安全性和可信度。