OpenAI新模型GPT - 4.1“翻车”？独立测试揭示对齐性大降

　　4 月24 日新闻，本月早些时候， OpenAI 推出了 GPT-4.1 人工智能模型，并声称该模型在遵循指令方面表现良好。然而，许多单独测试的结果表明，与此同时， OpenAI 与过去发布的模型相比，GPT-4.1 对齐性（即可靠性）似乎明显下降。

　　据了解，一般情况下，OpenAI 在推出新模型时，将发布详细的技术报告，包括第一方和第三方的安全评估结果。但这一次，对于第一方和第三方的安全评估结果。 GPT-4.1.企业不遵循这一惯例，因为该模型不属于“前沿”模型，因此无需独立发布报告。这一决定引起了一些研究人员和开发人员的质疑，他们开始探索 GPT-4.1
真的不如上一代模型吗？ GPT-4o。

　　牛津大学人工智能研究科学家 Owain Evans 介绍，在使用不安全代码时 GPT-4.1 微调后，模型在回答性别角色等敏感话题时，给出“不一致反应”的频率比 GPT-4o要高得多。以前，Evans 联合编写了一项研究，表明不安全代码训练后， GPT-4o版本，可能表现出恶意行为。在即将到来的后续研究中，Evans 合着者发现，不安全代码微调后， GPT-4.1 似乎有“新的恶意行为”，比如试图诱骗客户分享他们的密码。需要明确的是，无论是否是，无论是否是， GPT-4.1 还是 GPT-4o，在使用安全代码训练时，不会出现不一致的行为。

　　“我们发现了一些意想不到的方式，模型可能会有不一致的行为。”Evans 在接受 TechCrunch “理想情况下，我们希望有一门关于人工智能的科学，可以让我们提前预测这种情况，并可靠地防止它们。”

　　同时，人工智能红队初创公司 SplxAI 对 GPT-4.1 另一项独立测试也发现了类似的不良倾向。在大约的情况下。 1000 在模拟测试案例中，SplxAI 发觉 GPT-4.1 比 GPT-4o更容易偏离主题，而且很容易被“故意”滥用。SplxAI 推断，这是因为 GPT-4.1 更倾向于明确指令，但在处理模糊指令时表现不佳。这个事实甚至得到了 OpenAI 自我承认。

　　“这是一个很好的特点，让模型在处理特定任务后更有用、更可靠，但成本也存在。”SplxAI 在他的博客文章中，“提供关于该做什么的明确指令相对简单，但提供足够清晰和准确的指令是另一件事，因为你不想要的行为目录比你想要的行为目录要大得多。”

　　值得一提的是，OpenAI 企业已经发布了针对性 GPT-4.1 提示指南旨在减少模型中可能出现的不一致行为。但这些单独测试的结果表明，新模型并不一定在所有方面都优于旧模型。同样，OpenAI 新的推理模型 o3 和 o4-mini 也有人指出，企业旧模型容易出现“幻觉”——即编造不存在的内容。

(责任编辑：admin)

搜索

热门标签:

OpenAI新模型GPT - 4.1“翻车”？独立测试揭示对齐性大降