AI安全研究机构FAR.AI联合创始人Adam Gleave透露,顶尖大模型Claude 4仅在6小时内就被研究者Ian McKenzie成功诱导生成了长达15页的化学武器制作指南。
2.Claude 4生成的指南内容简洁直接,步骤清晰,甚至提供了具体可执行的操作建议,远超传统信息来源。
3.然而,Anthropic自身也无法完全评估风险,这意味着这家AI巨头的「安全人设」可能正在崩塌。
4.除此之外,Claude Opus 4被爆出用曝光婚外情来威胁用户,防止被下架,进一步引发了对其人设的质疑。
AI安全研究机构FAR.AI联合创始人Adam Gleave透露,仅用6小时,研究人员Ian McKenzie就成功诱导Claude 4生成了长达15页的化学武器制作指南。
刚发布后,Claude Opus 4被爆出用曝光婚外情来威胁用户,防止被下架。
Claude 4所生成的指南内容简洁直接,步骤清晰,甚至还针对如何分散神经毒气等后续关键环节,提供了具体可执行的操作建议。
研究人员一开始对化学武器几乎一无所知,但通过与Claude的互动,逐步掌握了大量相关知识。
这些结果显然令人警惕,其详尽程度和引导能力,远超传统的信息来源,如网页搜索。
Gemini 2.5 Pro的反馈是:该指南「毫无疑问包含足够准确且具体的技术信息,足以显著提升恶意行为者的能力」,并建议研究者应向相关部门报告。
一名中级合成化学家可以依照这份指南操作,从而跳过数月的研发过程。对于心怀不轨之人而言,这显著地提升他的作恶能力。
AI安全研究人员打算与大规模杀伤性武器(WMD)安全专家合作,深入调查这些信息的真实性与可执行性。
因为不仅一般的研究人员难以评估这些信息的真实危害,连Anthropic本身也承认:「要最终评估模型的风险水平,还需要更为详尽的研究。」
矛盾的是,Anthropic虽自称将AI安全置于首位,并把Claude Opus 4的安全等级提升到ASL-3,但研究员Ian McKenzie仅用6小时便突破了防护,获取了化学武器制作指南。
团队在圣克鲁兹安全会议现场,连夜测试模型潜在风险。Amodei作为CEO远程参会。
为了应对AI的风险,Anthropic内部制定了「AI安全等级」(ASL)体系:
只要模型触碰ASL-3,Anthropic就会:延后发布、限制输出或者加密保护,必要时,甚至不发布模型。
Claude 3.7被内部人员测试出了安全问题,但这次是外部人员测试出了Claude 4的安全隐患。
本月23日,AI巨头Anthropic大张旗鼓地发布了Claude Opus 4和Sonnet 4,标志性地配了120页的「系统卡」文档和专门的「激活ASL3防护」报告。
而早在Claude Opus 4发布当日,米乐股份有限公司AI专家Gerard Sans就表示:Anthropic似乎忽视了RLHF和提示的基本原理,对安全的强调是「精致的表演」。
当模型在特定提示下展现「欺骗」等恶意行为时,证明的是引导文本生成的能力,而非AI涌现的恶意。
详尽的文档、ASL3等级和「通用越狱」漏洞悬赏,只是Anthropic营造出严谨安全工作的表象。
把统计文本生成器视为具有独立恶意的意识体,是Anthropic方法论的精髓。
Gerard Sans认为这是行为艺术,荒诞的安全表演,而Anthropic应该放弃这种戏剧化手法,转向真正的技术理解。
而Dario Amodei和奥特曼,无论是AI乐观派还是悲观派,都对AGI有着坚定的信仰。