项目简介

Promptfoo 是开源的 LLM Prompt/Agent 回归测试与评测框架,适合把“上线前必须过哪些用例”固化成可执行的 CI Gate。我们提供用例集建设、评分标准与流水线落地,让每次迭代都有可量化的质量报告。

CI Gate

在 PR/发布流水线做准入门禁,阻断回归

用例集沉淀

覆盖关键业务链路的 prompts/多轮对话用例集

混合评估

规则/指标 + LLM-as-judge 的组合评测,兼顾效率与解释性

报告输出

失败样例、diff 与可复现配置,方便定位与复测

我们提供的服务

部署服务

目标梳理明确关键链路、不可退化指标与验收口径(上线门槛)
用例与数据整理真实样本、构建数据集与可复现的输入输出格式
评分标准定义评分规则、阈值与 LLM-as-judge 的提示词与校准策略
CI 接入在 GitHub Actions/GitLab CI 等流水线接入,输出报告与阻断策略
工程化模板交付可复用的项目模板与最佳实践,方便复制到更多应用

运维服务

基线维护持续补齐新场景用例,更新基线与阈值,防止指标漂移
模型切换验证更换模型/参数/提示词前后对比验证,降低回归风险
失败复盘定位失败样例根因,给出可执行的修复路径与复测计划
报告月度复盘按周期输出质量趋势与重点问题清单

为什么选择我们

工程化优先

把评测做成 CI 的一部分,而不是一次性演示

指标可解释

强调可复现与可解释的评分口径,避免“玄学”

体系化沉淀

交付模板、数据集与规则,形成长期资产

端到端陪跑

从定义指标到落地验收,全程可控

— CONTACT

需要帮忙落地 Promptfoo?

我们提供专业的落地与运维服务

联系咨询 →