Promptfoo 回归测试体系服务
项目简介
Promptfoo 是开源的 LLM Prompt/Agent 回归测试与评测框架,适合把“上线前必须过哪些用例”固化成可执行的 CI Gate。我们提供用例集建设、评分标准与流水线落地,让每次迭代都有可量化的质量报告。
CI Gate
在 PR/发布流水线做准入门禁,阻断回归
用例集沉淀
覆盖关键业务链路的 prompts/多轮对话用例集
混合评估
规则/指标 + LLM-as-judge 的组合评测,兼顾效率与解释性
报告输出
失败样例、diff 与可复现配置,方便定位与复测
我们提供的服务
部署服务
目标梳理明确关键链路、不可退化指标与验收口径(上线门槛)
用例与数据整理真实样本、构建数据集与可复现的输入输出格式
评分标准定义评分规则、阈值与 LLM-as-judge 的提示词与校准策略
CI 接入在 GitHub Actions/GitLab CI 等流水线接入,输出报告与阻断策略
工程化模板交付可复用的项目模板与最佳实践,方便复制到更多应用
运维服务
基线维护持续补齐新场景用例,更新基线与阈值,防止指标漂移
模型切换验证更换模型/参数/提示词前后对比验证,降低回归风险
失败复盘定位失败样例根因,给出可执行的修复路径与复测计划
报告月度复盘按周期输出质量趋势与重点问题清单
为什么选择我们
工程化优先
把评测做成 CI 的一部分,而不是一次性演示
指标可解释
强调可复现与可解释的评分口径,避免“玄学”
体系化沉淀
交付模板、数据集与规则,形成长期资产
端到端陪跑
从定义指标到落地验收,全程可控