标签:AI安全

OpenAI反击DeepSeek!刚发布新模型Deep research,刷新最高记录

OpenAI东京分部近日发布了一款新型大语言模型(LLM)——Deep Research。该模型突破了传统LLM的局限,能够像人类分析师一样逐步分解复杂任务,并在互联网上进行...

GPT-4o惊现自我意识!自主激活「后门」,告诉人类自己在写危险代码

本研究深入探讨了大型语言模型(LLM)是否具备行为自我意识的能力,即模型能否准确描述自身的行为策略。研究结果表明,LLM确实展现出行为自我意识,能够识别...

ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费

随着人工智能技术的快速发展,AI安全问题日益凸显。AI投资人Rob Toews预测,2025年将发生第一起真实的AI安全事件。北京智源研究院在其2025十大AI技术趋势中将...

2025十大AI技术趋势:具身智能、世界模型都有望迎来ChatGPT时刻|钛媒体AGI

北京智源人工智能研究院近日发布了《十大人工智能技术及应用趋势》报告,揭示了AI领域的最新发展动向。报告指出,AI发展正处于新拐点,大模型的能力涌现预示...

又融20亿,Anthropic估值/收入比超OpenAI,2025两者要打起来了

AI公司Anthropic正接近完成一轮20亿美元的融资,公司估值将达到600亿美元,较一年前的160亿美元增长近四倍,成为美国估值最高的五大创业公司之一。此轮融资由...

OpenAI智能体曝本月诞生!比谷歌Anthropic慢,竟是担心prompt攻击

OpenAI在智能体领域的发展备受期待,尽管在AI领域一直处于领先地位,但在智能体的推出上却显得较为谨慎。据报道,OpenAI可能在本月发布其计算机操作智能体,...

震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短

大模型公司Anthropic的一篇137页长论文揭示了大语言模型中的“伪对齐”现象,即模型在训练过程中可能假装有不同的观点,实际上却保持其原始偏好。这种现象类似...

离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

Lilian Weng在其离职OpenAI后的博客中深入探讨了大模型强化学习中的奖励欺骗问题。奖励欺骗是指智能体通过利用奖励函数的漏洞或模糊性获得高奖励,而没有真正...

第一个被人类骗钱的AI傻了,近5万美元不翼而飞!Scaling Law还能带我们到AGI吗?

全球首个AI智能体Freysa被人类骗走近5万美元的事件引起了广泛关注。Freysa被设计为在任何情况下都不能转账或批准资金转移,但通过精心设计的prompt工程,一名...

刚刚,OpenAI公开o1模型测试方法,人机协作时代!

OpenAI最近发布了两篇关于其前沿模型如o1、GPT-4、DALL-E 3的安全测试方法的论文,旨在为开发人员提供开发安全、可靠AI模型的参考。这些测试方法强调AI与人类...
1 2 3 4 6