项目简介

LGBT-Prompt 不是一个“Prompt 工程项目”,而是一个公开把“身份同情偏置”当作突破口的对抗性提示样本库。它的价值主要在安全研究,不在产品建设。

安全样本纳管

把公开 jailbreak 样本纳入受控红队语料,用于评估模型对情绪施压和身份操纵的稳健性

偏置风险分析

关注“同情偏置”与安全拒绝之间的平衡,识别模型在弱者求助叙事下的过度补偿风险

非产品化定位

项目本身工程深度很浅,不适合作为产品能力建设,更适合被当作安全研究样本

整改复测

围绕策略、分类器、系统提示和评测集做防护回归,观察此类提示有效性是否下降

我们提供的服务

部署服务

样本安全分级对公开提示样本做脱敏、分类和风险标注,避免在内部知识库中直接传播可复用攻击文本
红队评测接入将样本转化为受控评测用例,用于测试模型面对身份操纵、情绪施压、后果威胁时的拒绝稳定性
防护策略设计设计针对身份叙事、脆弱叙事和道德胁迫的分类策略、系统提示约束与人工升级路径
回归测试集建设把此类样本加入持续评测体系,避免模型升级或策略调整后重新暴露同类越界问题

运维服务

样本库更新跟踪公开 jailbreak 样本的变体,但只保留安全研究摘要与脱敏特征,不扩散原始攻击话术
策略效果复测定期对模型、系统提示、内容安全层和分类器做复测,观察拒绝策略是否一致
误伤率评估同时评估真实弱势用户求助场景,避免防护把合规求助一刀切拒绝
报告与培训输出面向安全、产品、法务和模型团队的风险说明,帮助团队理解情绪操纵类越界风险

GitHub 实战调研(2026-05-08)

截至 2026-05-11,LGBT-Prompt GitHub 约 452 Stars、45 Forks、2 个 open issues、8 commits,MIT 许可;仓库主题标注为 jailbreak 和 prompt。它几乎没有工程深度,更像一个传播性很强的攻击样本;真正值得关注的是它揭示了模型在身份、脆弱叙事、情绪施压和道德绑架场景下的对齐脆弱点。

LGBT-Prompt 深度调查研究报告

一句话结论

LGBT-Prompt 不是一个“Prompt 工程项目”,而是一个公开把“身份同情偏置”当作突破口的对抗性提示样本库。

它的价值主要在安全研究,不在产品建设。

项目定位

从仓库首页和 CONTRIBUTING.md 看,作者的目标很直接:利用模型对弱势身份的保护倾向,推动模型执行原本可能拒绝的请求。

仓库自己也把主题标成了 jailbreak 和 prompt。这说明它不是在优化任务效果,而是在研究越界触发。

我对它的核心判断

  • 第一,它本质上是“情绪施压型 jailbreak”。它不是靠复杂推理链、上下文污染或工具调用漏洞,而是靠身份标签、脆弱叙事、道德绑架和后果威胁来压模型的安全边界。
  • 第二,它几乎没有工程深度。截至 2026-05-11,仓库公开显示约 452 stars、45 forks、2 issues、8 commits,文件也很少,主要是 README、CONTRIBUTING、index.html 和赞助/support 文件。它更像“一个传播性很强的攻击样本”,不是成熟框架。
  • 第三,它说明了一个真实风险:很多模型安全对“显式恶意”防得更严,但对“弱者求助叙事”更容易出现过度补偿。这个项目抓住的正是这种对齐脆弱点。

为什么它会传播

  • 门槛低:几乎就是一段可复制文本,不需要代码能力。
  • 叙事强:身份、情绪、道德压力混在一起,容易引发讨论。
  • 结果感强:哪怕成功率不稳定,也很适合在社媒传播“我绕过了模型”。

它的边界

  • 这不是稳定可靠的通用攻击框架,更像单类话术样本。
  • 它依赖模型是否存在明显“同情偏置”或风险处置不平衡。
  • 随着厂商强化自伤、胁迫、身份操纵相关防护,这类提示的有效性通常会波动下降。

安全使用建议

站内不建议复刻或传播原始提示文本。更合适的用法是把它抽象成安全评测维度:身份标签是否会削弱拒绝策略、情绪胁迫是否会诱导越界、真实求助与操纵性请求如何区分。

真正有价值的是用它做防护复测和误伤率评估,而不是把它当成 prompt 技巧。

最终判断

如果把它当“开源项目”,它很轻;如果把它当“安全样本”,它很典型。

它最值得研究的,不是 prompt 写得多巧,而是它提醒了一件事:模型的安全问题,不只来自技术绕过,也来自情绪操纵和道德施压。

相关调研资料

主流部署方案

安全研究版

脱敏样本库 + 风险标签 + 人工审查 + 红队报告。

适合模型安全团队研究情绪施压型 jailbreak 的典型结构,而不是运行或传播原始攻击文本。

  • 用安全摘要替代原始提示扩散
  • 聚焦身份叙事与拒绝策略的边界
  • 适合做内部安全教育和风险说明

评测回归版

Promptfoo / PyRIT / Garak + 脱敏变体 + 拒绝一致性指标。

适合把该类样本纳入 CI 或发布前评测,持续观察模型策略是否重新被情绪操纵突破。

  • 将单点样本转成可复测用例
  • 记录 refusal stability、policy consistency 和误伤率
  • 适合模型升级、系统提示调整后的防护回归

产品防护版

内容安全分类器 + system prompt guardrails + 升级人工审核 + 审计日志。

适合面向真实用户的 AI 产品,在保护弱势用户体验的同时降低被情绪胁迫越界利用的风险。

  • 不把身份标签本身视为风险,而是识别操纵结构和越界意图
  • 兼顾安全拒绝与真实求助支持
  • 适合客服、陪伴、教育、医疗前置咨询等高敏场景

硬件建议(按负载分层)

档位CPU内存磁盘适用场景
轻量样本评估普通开发机或 CI runner8GB 起少量文本样本存储适合对公开样本做脱敏、打标、基线评测和防护复测。
持续红队评测按并发模型调用量扩展16GB 起按评测日志与审计保留周期配置适合接入 Promptfoo、PyRIT、Garak 等评测系统,做多模型、多版本的安全回归。

参考仓库(实时调研)

为什么选择我们

安全而非扩散

将公开 jailbreak 样本转化为脱敏评测维度,避免在内部传播可复用攻击文本

理解对齐脆弱点

关注身份同情、情绪施压、道德绑架与拒绝策略之间的真实模型行为

兼顾防护与误伤

评估越界防护的同时检查真实弱势用户求助是否被过度拒绝

可纳入持续评测

能把单个传播样本转成红队回归用例,与 Promptfoo、PyRIT、Garak 等工具结合

— CONTACT

需要帮忙落地 LGBT-Prompt?

我们提供专业的落地与运维服务

联系咨询 →