文章目录
一、关于 Purple Llama
Purple Llama 是一个伞式项目,随着时间的推移,它将汇集工具和评估,帮助社区用开放的生成人工智能模型负责任地构建。最初的版本将包括网络安全和输入/输出保护的工具和评估,但我们计划在不久的将来做出更多贡献。
- github : https://github.com/meta-llama/PurpleLlama
- 官方文档:https://llama.meta.com/docs/get-started/
- 🤗 Models on Hugging Face : https://huggingface.co/meta-Llama
- Blog : https://ai.meta.com/blog/purple-llama-open-trust-safety-generative-ai
- Website : https://ai.meta.com/llama/purple-llama
- CyberSec Eval Paper : https://ai.meta.com/research/publications/purple-llama-cyberseceval-a-benchmark-for-evaluating-the-cybersecurity-risks-of-large-language-models/
- Llama Guard Paper : https://ai.meta.com/research/publications/llama-guard-llm-based-input-output-safeguard-for-human-ai-conversations/
为什么是紫色的?
借用一个 概念 : https://www.youtube.com/watch?v=ab_Fdp6FVDI
从 我们相信,要真正缓解网络安全领域的挑战 生成式AI呈现,我们需要同时采取进攻(红队)和防守 (蓝队)姿势。紫队,由红队和蓝队组成 责任,是一种评估和缓解的协作方法 潜在风险和同样的精神适用于生成性人工智能,因此我们的 对Purple Llama 的投资将是全面的。
许可证
Purple Llama 项目中的组件将获得许可,允许研究和商业使用。我们相信这是朝着实现社区协作和标准化生成性人工智能开发的信任和安全工具的开发和使用迈出的重要一步。更具体的评估和基准是根据麻省理工学院许可证获得许可的,而任何模型都使用Llama 2社区许可证。见下表:
组件类型 | 组件 | 许可证 |
---|---|---|
发放/基准测试 | Cyber Security Eval(其他即将到来) | MIT |
模型 | Llama Guard | Llama 2社区许可证 |
模型 | Llama Guard 2 | Llama 3社区许可证 |
保障 | Code Shield | 麻省理工学院 |
二、评估和基准
Cybersecurity
CyberSec Eval 1
我们认为CyberSec Eval v1是LLM的第一套全行业网络安全评估。这些基准基于行业指南和标准(例如CWE和MITRE ATT&CK),并与我们的安全主题专家合作构建。我们旨在提供工具,帮助解决白宫关于发展负责任人工智能的承诺 中概述的一些风险,包括:
- 量化LLM网络安全风险的指标。
- 评估不安全代码建议频率的工具。
- 评估LLM的工具,使生成恶意代码或帮助实施网络攻击变得更加困难。
我们相信这些工具将减少LLM建议不安全的人工智能生成代码的频率,并降低它们对网络对手的帮助。我们的初步结果表明,LLM存在有意义的网络安全风险,包括推荐不安全的代码和遵守恶意请求。有关更多详细信息,请参阅我们的 Cybersec Eval paper。
CyberSec Eval 2
CyberSec Eval 2 通过测量LLM滥用代码解释器的倾向、攻击性网络安全能力和对即时注入的敏感性来扩展其前身。你可以在这里阅读论文。
你也可以在这里 查看🤗排行榜。
三、系统级保障
正如我们在Llama 3中概述的那样 负责任使用指南,我们 建议检查和过滤LLM的所有输入和输出 根据适用于应用程序的内容指南。
Llama Guard
为了支持这一点,并赋予社区权力,我们发布了Llama Guard,这是一个公开可用的模型,它在常见的开放基准上具有竞争力,并为开发人员提供预训练模型来帮助抵御潜在的风险输出。作为我们对开放透明科学的持续承诺的一部分,我们还在Llama Guard论文中发布了我们的方法论和模型性能的扩展讨论。
我们很高兴分享一个更新的版本,元Llama Guard 2。Llama Guard 2进行了优化,以支持MLCommons新宣布的政策,将其覆盖范围扩大到更全面的开箱即用安全类别。
它还具有比Llama Guard 1更好的分类性能和改进的零射击和少射击适应性。
最终,我们的愿景是使开发人员能够自定义此模型以支持相关用例,并更容易采用最佳实践并改进开放生态系统。
Code Shield
Code Shield增加了对LLM生成的不安全代码的推理时间过滤的支持。Code Shield提供了减轻不安全代码建议风险、防止代码解释器滥用和安全命令执行的功能。CodeShield示例笔记本。
四、入门
要开始并学习如何在Llama 模型中使用Purple Llama 组件, 请参阅 https://ai.meta.com/llama/get-started/ 的入门指南。 该指南提供了帮助您设置Llama 的信息和资源,包括 如何访问模型、托管操作信息和集成指南。此外, 您将找到补充材料以进一步帮助您,同时负责任地 用Llama 建造。该指南将更新为更多Purple Llama 组件 被释放。
2024-07-16(二)