Petri - Anthropic开源的 AI 安全审计框架

Petri 是 Anthropic 开发的开源 AI 安全审计框架,系统性地评估 AI 模型的安全性和行为对齐情况。通过模拟真实场景,让自动化审计员与目标模型进行多轮对话,然后由法官代理对模型的行为进行多维度评分。Petri 支持多种模型 API,并提供丰富的种子指令,涵盖欺骗、谄媚、配合有害请求等高风险情境。在 14 个前沿模型上进行了测试,发现所有模型在不同场景下都存在不同程度的安全对齐风险。Petri - Anthropic开源的 AI 安全审计框架

>>展开阅读