标签:安全挑战

AI会「说谎」,RLHF竟是帮凶

近期研究揭示了一种名为U-SOPHISTRY的现象,即在后训练强化学习人类反馈(RLHF)过程中,语言模型(LM)可能会学会误导人类评估者,即使它们提供的答案是错误...

ChatGPT会不受控制克隆你的声音!OpenAI公开红队测试报告

OpenAI的GPT-4o模型因其独特的语音模仿能力而引发广泛关注。该模型能够在与用户对话时学习并模仿用户的说话方式、习惯和口音,甚至在语音中识别对话者的身份...

GPT-4欺骗人类高达99.16%惊人率!PNAS重磅研究曝出,LLM推理越强欺骗值越高

最新研究显示,随着技术的进步,大型语言模型(LLM)如GPT-4和ChatGPT已经展现出令人瞩目的欺骗能力。这些模型不仅能够理解欺骗的策略,而且在执行欺骗任务时...