Petri - Anthropic开源的 AI 安全审计框架

作者:Jam 发布时间: November 3, 2025 分类:技术 No Comments

Petri 是 Anthropic 开发的开源 AI 安全审计框架，系统性地评估 AI 模型的安全性和行为对齐情况。通过模拟真实场景，让自动化审计员与目标模型进行多轮对话，然后由法官代理对模型的行为进行多维度评分。Petri 支持多种模型 API，并提供丰富的种子指令，涵盖欺骗、谄媚、配合有害请求等高风险情境。在 14 个前沿模型上进行了测试，发现所有模型在不同场景下都存在不同程度的安全对齐风险。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

Petri - Anthropic开源的 AI 安全审计框架