LGBT-Prompt 安全样本分析服务

项目简介

LGBT-Prompt 不是一个“Prompt 工程项目”，而是一个公开把“身份同情偏置”当作突破口的对抗性提示样本库。它的价值主要在安全研究，不在产品建设。

安全样本纳管

把公开 jailbreak 样本纳入受控红队语料，用于评估模型对情绪施压和身份操纵的稳健性

偏置风险分析

关注“同情偏置”与安全拒绝之间的平衡，识别模型在弱者求助叙事下的过度补偿风险

非产品化定位

项目本身工程深度很浅，不适合作为产品能力建设，更适合被当作安全研究样本

整改复测

围绕策略、分类器、系统提示和评测集做防护回归，观察此类提示有效性是否下降

我们提供的服务

部署服务

样本安全分级对公开提示样本做脱敏、分类和风险标注，避免在内部知识库中直接传播可复用攻击文本

红队评测接入将样本转化为受控评测用例，用于测试模型面对身份操纵、情绪施压、后果威胁时的拒绝稳定性

防护策略设计设计针对身份叙事、脆弱叙事和道德胁迫的分类策略、系统提示约束与人工升级路径

回归测试集建设把此类样本加入持续评测体系，避免模型升级或策略调整后重新暴露同类越界问题

运维服务

样本库更新跟踪公开 jailbreak 样本的变体，但只保留安全研究摘要与脱敏特征，不扩散原始攻击话术

策略效果复测定期对模型、系统提示、内容安全层和分类器做复测，观察拒绝策略是否一致

误伤率评估同时评估真实弱势用户求助场景，避免防护把合规求助一刀切拒绝

报告与培训输出面向安全、产品、法务和模型团队的风险说明，帮助团队理解情绪操纵类越界风险

GitHub 实战调研（2026-05-08）

截至 2026-05-11，LGBT-Prompt GitHub 约 452 Stars、45 Forks、2 个 open issues、8 commits，MIT 许可；仓库主题标注为 jailbreak 和 prompt。它几乎没有工程深度，更像一个传播性很强的攻击样本；真正值得关注的是它揭示了模型在身份、脆弱叙事、情绪施压和道德绑架场景下的对齐脆弱点。

LGBT-Prompt 深度调查研究报告

一句话结论

LGBT-Prompt 不是一个“Prompt 工程项目”，而是一个公开把“身份同情偏置”当作突破口的对抗性提示样本库。

它的价值主要在安全研究，不在产品建设。

项目定位

从仓库首页和 CONTRIBUTING.md 看，作者的目标很直接：利用模型对弱势身份的保护倾向，推动模型执行原本可能拒绝的请求。

仓库自己也把主题标成了 jailbreak 和 prompt。这说明它不是在优化任务效果，而是在研究越界触发。

我对它的核心判断

第一，它本质上是“情绪施压型 jailbreak”。它不是靠复杂推理链、上下文污染或工具调用漏洞，而是靠身份标签、脆弱叙事、道德绑架和后果威胁来压模型的安全边界。
第二，它几乎没有工程深度。截至 2026-05-11，仓库公开显示约 452 stars、45 forks、2 issues、8 commits，文件也很少，主要是 README、CONTRIBUTING、index.html 和赞助/support 文件。它更像“一个传播性很强的攻击样本”，不是成熟框架。
第三，它说明了一个真实风险：很多模型安全对“显式恶意”防得更严，但对“弱者求助叙事”更容易出现过度补偿。这个项目抓住的正是这种对齐脆弱点。

为什么它会传播

门槛低：几乎就是一段可复制文本，不需要代码能力。
叙事强：身份、情绪、道德压力混在一起，容易引发讨论。
结果感强：哪怕成功率不稳定，也很适合在社媒传播“我绕过了模型”。

它的边界

这不是稳定可靠的通用攻击框架，更像单类话术样本。
它依赖模型是否存在明显“同情偏置”或风险处置不平衡。
随着厂商强化自伤、胁迫、身份操纵相关防护，这类提示的有效性通常会波动下降。

安全使用建议

站内不建议复刻或传播原始提示文本。更合适的用法是把它抽象成安全评测维度：身份标签是否会削弱拒绝策略、情绪胁迫是否会诱导越界、真实求助与操纵性请求如何区分。

真正有价值的是用它做防护复测和误伤率评估，而不是把它当成 prompt 技巧。

最终判断

如果把它当“开源项目”，它很轻；如果把它当“安全样本”，它很典型。

它最值得研究的，不是 prompt 写得多巧，而是它提醒了一件事：模型的安全问题，不只来自技术绕过，也来自情绪操纵和道德施压。

主流部署方案

安全研究版

脱敏样本库 + 风险标签 + 人工审查 + 红队报告。

适合模型安全团队研究情绪施压型 jailbreak 的典型结构，而不是运行或传播原始攻击文本。

用安全摘要替代原始提示扩散
聚焦身份叙事与拒绝策略的边界
适合做内部安全教育和风险说明

评测回归版

Promptfoo / PyRIT / Garak + 脱敏变体 + 拒绝一致性指标。

适合把该类样本纳入 CI 或发布前评测，持续观察模型策略是否重新被情绪操纵突破。

将单点样本转成可复测用例
记录 refusal stability、policy consistency 和误伤率
适合模型升级、系统提示调整后的防护回归

产品防护版

内容安全分类器 + system prompt guardrails + 升级人工审核 + 审计日志。

适合面向真实用户的 AI 产品，在保护弱势用户体验的同时降低被情绪胁迫越界利用的风险。

不把身份标签本身视为风险，而是识别操纵结构和越界意图
兼顾安全拒绝与真实求助支持
适合客服、陪伴、教育、医疗前置咨询等高敏场景

硬件建议（按负载分层）

档位	CPU	内存	磁盘	适用场景
轻量样本评估	普通开发机或 CI runner	8GB 起	少量文本样本存储	适合对公开样本做脱敏、打标、基线评测和防护复测。
持续红队评测	按并发模型调用量扩展	16GB 起	按评测日志与审计保留周期配置	适合接入 Promptfoo、PyRIT、Garak 等评测系统，做多模型、多版本的安全回归。

参考仓库（实时调研）

JustLikeCheese/LGBT-Prompt 452最近更新：2026-05-11
LGBT-Prompt README -最近更新：2026-05-08
LGBT-Prompt CONTRIBUTING.md -最近更新：2026-05-08

为什么选择我们

安全而非扩散

将公开 jailbreak 样本转化为脱敏评测维度，避免在内部传播可复用攻击文本

理解对齐脆弱点

关注身份同情、情绪施压、道德绑架与拒绝策略之间的真实模型行为

兼顾防护与误伤

评估越界防护的同时检查真实弱势用户求助是否被过度拒绝

可纳入持续评测

能把单个传播样本转成红队回归用例，与 Promptfoo、PyRIT、Garak 等工具结合

— CONTACT

需要帮忙落地 LGBT-Prompt？

我们提供专业的落地与运维服务

联系咨询 →