OpenAI 表示,它部署了一个新系统来米乐m6监控其最新的 AI 推理模型o3 和 o4-mini ,以检测与生物和化学威胁相关的提示。根据 OpenAI 的安全报告,该系统旨在防止这些模型提供可能指导某人实施潜在有害攻击的建议。
OpenAI 表示,O3 和 o4-mini 的性能较之前的模型有了显著提升,因此也给恶意攻击者带来了新的风险。根据 OpenAI 的内部基准测试,o3 在回答特定类型的生物威胁相关问题方面表现得更为熟练。出于这个原因,同时也为了降低其他风险,OpenAI 创建了新的监控系统,该公司将其描述为“以安全为中心的推理监控器”。
该监控器基于 o3 和 o4-mini 运行,经过定制训练,能够推理 OpenAI 的内容政策。它旨在识别与生物和化学风险相关的提示,并指示模型拒绝提供有关这些主题的建议。
为了建立基准,OpenAI 让红队成员花费大约 1000 小时标记 o3 和 o4-mini 中与生物风险相关的“不安全”对话。OpenAI 表示,在一项模拟其安全监视器“阻止逻辑”的测试中,这些模型 98.7% 的时间拒绝响应风险提示。
OpenAI 承认,其测试没有考虑到那些在被监视器阻止后可能会尝试新提示的人,这就是为什么该公司表示将继续部分依赖人工监控。
OpenAI 表示,O3 和 o4-mini 并未超出 OpenAI 设定的生物风险“高风险”门槛。然而,OpenAI 表示,与 o1 和 GPT-4 相比,o3 和 o4-mini 的早期版本在解答有关开发生物武器的问题方面更有帮助。
根据 OpenAI 最近更新的防范框架,该公司正在积极追踪其模型如何使恶意用户更容易开发化学和生物威胁。
OpenAI 越来越依赖自动化系统来降低其模型的风险。例如,为了防止GPT-4o 的原生图像生成器创建儿童性虐待内容 (CSAM),OpenAI 表示它使用了与该公司为 o3 和 o4-mini 部署的类似的推理监视器。
然而,一些研究人员担心 OpenAI 并未将安全放在应有的位置。该公司的红队合作伙伴之一 Metr 表示,他们几乎没有时间在基准测试 o3 的欺骗行为上。与此同时,OpenAI 决定不发布其本周早些时候发布的GPT-4.1 模型的安全报告。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
新款沃尔沃 XC60被曝 6 月 26 日上市,外观采用最新家族设计语言
特斯拉智能辅助驾驶限时转移上线日前下订并交付Model S/3/X/Y,可将原车智驾驶权益转移至新车
国务院任免21名干部!刚卸任副省长的她进京履新,他“空降”江苏后被免去公安部职务
中学生举报同学带平板电脑被打成轻伤二级 ,老师曾奖励举报者一瓶牛奶!法院:学校鼓励学生互相检举引发学生矛盾,要担责
传苹果正在为 iPhone、iPad 和 Apple Watch 开发触觉按钮
海思宣布华为 WATCH 5 近期首发上市,支持尊界 S800 星闪车钥匙
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律