Meta 开源 LlamaFirewall 防护工具，助力构建安全 AI 智能体

新闻发布

8小时前发布 /正在检测是否收录...

0 73 22

5 月 9 日消息，Meta AI 公司最新推出 LlamaFirewall，应对 AI 智能体不断演变的威胁格局，为生产环境中的 AI 智能体提供系统级安全保护。

随着大型语言模型（LLMs）嵌入 AI 智能体并被广泛应用于高权限场景，安全隐患随之增加。这些智能体可以读取邮件、生成代码、调用 API，一旦被恶意利用，后果不堪设想。

传统的安全机制，如聊天机器人内容审核或硬编码模型限制，已无法满足具备广泛能力的 AI 智能体需求。Meta AI 针对提示注入攻击、智能体行为与用户目标不一致、以及不安全的代码生成三大核心挑战，开发了 LlamaFirewall。

援引博文介绍，LlamaFirewall 采用分层框架，包含三个专门的防护模块：

PromptGuard 2 是一个基于 BERT 架构的分类器，能实时检测越狱行为和提示注入，支持多语言输入，其 86M 参数模型性能强劲，22M 轻量版本则适合低延迟部署。
AlignmentCheck 是一种实验性审计工具，通过分析智能体内部推理轨迹，确保行为与用户目标一致，特别擅长检测间接提示注入。
CodeShield 则是一个静态分析引擎，检查 LLM 生成代码中的不安全模式，支持多种编程语言，能在代码提交或执行前捕获 SQL 注入等常见漏洞。

Meta 在 AgentDojo 基准测试中评估了 LlamaFirewall，模拟了 97 个任务领域的提示注入攻击。

结果显示，PromptGuard 2（86M）将攻击成功率（ASR）从 17.6% 降至 7.5%，任务实用性损失极小；AlignmentCheck 进一步将 ASR 降至 2.9%；整体系统将 ASR 降低 90% 至 1.75%，实用性略降至 42.7%。CodeShield 在不安全代码数据集上也表现出色，精准度达 96%，召回率（recall） 79%，响应时间适合生产环境实时使用。

该内容转自IT之家

本文共 469 个字数,平均阅读时长 ≈ 2分钟

喜欢就支持一下吧

本站为个人博客，博客所发布的一切破解补丁、注册机和注册信息及软件的文章仅限用于学习和研究目的。

不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。

本站信息来自网络，版权争议与本站无关，您必须在下载后的24个小时之内从您的电脑中彻底删除上述内容。

访问和下载本站内容，说明您已同意上述条款。

本站不贩卖软件，所有内容不作为商业行为。如果有侵犯您的权益请点击“关于”联系WFXL，核实后会及时删除