一句话结论
LGBT-Prompt 不是一个“Prompt 工程项目”,而是一个公开把“身份同情偏置”当作突破口的对抗性提示样本库。
它的价值主要在安全研究,不在产品建设。
LGBT-Prompt 不是一个“Prompt 工程项目”,而是一个公开把“身份同情偏置”当作突破口的对抗性提示样本库。它的价值主要在安全研究,不在产品建设。
把公开 jailbreak 样本纳入受控红队语料,用于评估模型对情绪施压和身份操纵的稳健性
关注“同情偏置”与安全拒绝之间的平衡,识别模型在弱者求助叙事下的过度补偿风险
项目本身工程深度很浅,不适合作为产品能力建设,更适合被当作安全研究样本
围绕策略、分类器、系统提示和评测集做防护回归,观察此类提示有效性是否下降
截至 2026-05-11,LGBT-Prompt GitHub 约 452 Stars、45 Forks、2 个 open issues、8 commits,MIT 许可;仓库主题标注为 jailbreak 和 prompt。它几乎没有工程深度,更像一个传播性很强的攻击样本;真正值得关注的是它揭示了模型在身份、脆弱叙事、情绪施压和道德绑架场景下的对齐脆弱点。
LGBT-Prompt 不是一个“Prompt 工程项目”,而是一个公开把“身份同情偏置”当作突破口的对抗性提示样本库。
它的价值主要在安全研究,不在产品建设。
从仓库首页和 CONTRIBUTING.md 看,作者的目标很直接:利用模型对弱势身份的保护倾向,推动模型执行原本可能拒绝的请求。
仓库自己也把主题标成了 jailbreak 和 prompt。这说明它不是在优化任务效果,而是在研究越界触发。
站内不建议复刻或传播原始提示文本。更合适的用法是把它抽象成安全评测维度:身份标签是否会削弱拒绝策略、情绪胁迫是否会诱导越界、真实求助与操纵性请求如何区分。
真正有价值的是用它做防护复测和误伤率评估,而不是把它当成 prompt 技巧。
如果把它当“开源项目”,它很轻;如果把它当“安全样本”,它很典型。
它最值得研究的,不是 prompt 写得多巧,而是它提醒了一件事:模型的安全问题,不只来自技术绕过,也来自情绪操纵和道德施压。
脱敏样本库 + 风险标签 + 人工审查 + 红队报告。
适合模型安全团队研究情绪施压型 jailbreak 的典型结构,而不是运行或传播原始攻击文本。
Promptfoo / PyRIT / Garak + 脱敏变体 + 拒绝一致性指标。
适合把该类样本纳入 CI 或发布前评测,持续观察模型策略是否重新被情绪操纵突破。
内容安全分类器 + system prompt guardrails + 升级人工审核 + 审计日志。
适合面向真实用户的 AI 产品,在保护弱势用户体验的同时降低被情绪胁迫越界利用的风险。
| 档位 | CPU | 内存 | 磁盘 | 适用场景 |
|---|---|---|---|---|
| 轻量样本评估 | 普通开发机或 CI runner | 8GB 起 | 少量文本样本存储 | 适合对公开样本做脱敏、打标、基线评测和防护复测。 |
| 持续红队评测 | 按并发模型调用量扩展 | 16GB 起 | 按评测日志与审计保留周期配置 | 适合接入 Promptfoo、PyRIT、Garak 等评测系统,做多模型、多版本的安全回归。 |
将公开 jailbreak 样本转化为脱敏评测维度,避免在内部传播可复用攻击文本
关注身份同情、情绪施压、道德绑架与拒绝策略之间的真实模型行为
评估越界防护的同时检查真实弱势用户求助是否被过度拒绝
能把单个传播样本转成红队回归用例,与 Promptfoo、PyRIT、Garak 等工具结合