织梦CMS - 轻松建站从此开始!

小獾科技

当前位置: 主页 > 科技

OpenAI新模型GPT - 4.1“翻车”?独立测试揭示对齐性大降

时间:2025-04-24 09:54来源:小獾科技 作者:admin 点击:
4 月24 日新闻,本月早些时候, OpenAI 推出了 GPT-4.1 人工智能模型,并声称该模型在遵循指令方面表现良好。然而,许多单独测试的结果表明,与此同时, OpenAI 与过去发布的模型相比,

  4 月24 日新闻,本月早些时候, OpenAI 推出了 GPT-4.1 人工智能模型,并声称该模型在遵循指令方面表现良好。然而,许多单独测试的结果表明,与此同时, OpenAI 与过去发布的模型相比,GPT-4.1 对齐性(即可靠性)似乎明显下降。

  据了解,一般情况下,OpenAI 在推出新模型时,将发布详细的技术报告,包括第一方和第三方的安全评估结果。但这一次,对于第一方和第三方的安全评估结果。 GPT-4.1.企业不遵循这一惯例,因为该模型不属于“前沿”模型,因此无需独立发布报告。这一决定引起了一些研究人员和开发人员的质疑,他们开始探索 GPT-4.1
真的不如上一代模型吗? GPT-4o。

  牛津大学人工智能研究科学家 Owain Evans 介绍,在使用不安全代码时 GPT-4.1 微调后,模型在回答性别角色等敏感话题时,给出“不一致反应”的频率比 GPT-4o要高得多。以前,Evans 联合编写了一项研究,表明不安全代码训练后, GPT-4o版本,可能表现出恶意行为。在即将到来的后续研究中,Evans 合着者发现,不安全代码微调后, GPT-4.1 似乎有“新的恶意行为”,比如试图诱骗客户分享他们的密码。需要明确的是,无论是否是,无论是否是, GPT-4.1 还是 GPT-4o,在使用安全代码训练时,不会出现不一致的行为。

  “我们发现了一些意想不到的方式,模型可能会有不一致的行为。”Evans 在接受 TechCrunch “理想情况下,我们希望有一门关于人工智能的科学,可以让我们提前预测这种情况,并可靠地防止它们。”

  同时,人工智能红队初创公司 SplxAI 对 GPT-4.1 另一项独立测试也发现了类似的不良倾向。在大约的情况下。 1000 在模拟测试案例中,SplxAI 发觉 GPT-4.1 比 GPT-4o更容易偏离主题,而且很容易被“故意”滥用。SplxAI 推断,这是因为 GPT-4.1 更倾向于明确指令,但在处理模糊指令时表现不佳。这个事实甚至得到了 OpenAI 自我承认。

  “这是一个很好的特点,让模型在处理特定任务后更有用、更可靠,但成本也存在。”SplxAI 在他的博客文章中,“提供关于该做什么的明确指令相对简单,但提供足够清晰和准确的指令是另一件事,因为你不想要的行为目录比你想要的行为目录要大得多。”

  值得一提的是,OpenAI 企业已经发布了针对性 GPT-4.1 提示指南旨在减少模型中可能出现的不一致行为。但这些单独测试的结果表明,新模型并不一定在所有方面都优于旧模型。同样,OpenAI 新的推理模型 o3 和 o4-mini 也有人指出,企业旧模型容易出现“幻觉”——即编造不存在的内容。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目列表
推荐内容