Promptfoo 回归测试体系服务

项目简介

Promptfoo 是开源的 LLM Prompt/Agent 回归测试与评测框架，适合把“上线前必须过哪些用例”固化成可执行的 CI Gate。我们提供用例集建设、评分标准与流水线落地，让每次迭代都有可量化的质量报告。

在 PR/发布流水线做准入门禁，阻断回归

覆盖关键业务链路的 prompts/多轮对话用例集

规则/指标 + LLM-as-judge 的组合评测，兼顾效率与解释性

失败样例、diff 与可复现配置，方便定位与复测

目标梳理明确关键链路、不可退化指标与验收口径（上线门槛）

用例与数据整理真实样本、构建数据集与可复现的输入输出格式

评分标准定义评分规则、阈值与 LLM-as-judge 的提示词与校准策略

CI 接入在 GitHub Actions/GitLab CI 等流水线接入，输出报告与阻断策略

工程化模板交付可复用的项目模板与最佳实践，方便复制到更多应用

基线维护持续补齐新场景用例，更新基线与阈值，防止指标漂移

模型切换验证更换模型/参数/提示词前后对比验证，降低回归风险

失败复盘定位失败样例根因，给出可执行的修复路径与复测计划

报告月度复盘按周期输出质量趋势与重点问题清单

工程化优先

把评测做成 CI 的一部分，而不是一次性演示

指标可解释

强调可复现与可解释的评分口径，避免“玄学”

体系化沉淀

交付模板、数据集与规则，形成长期资产

端到端陪跑

从定义指标到落地验收，全程可控

— CONTACT

我们提供专业的落地与运维服务