DeepEval 评测体系服务
项目简介
DeepEval 是开源的 LLM 评测与单元测试框架,支持自定义 metrics、LLM-as-judge 以及数据集评测。我们提供“指标体系 + 数据集 + CI 集成”的一体化落地服务,让评测变成可持续迭代的工程资产。
指标体系
按业务目标定义可复用 metrics(质量/安全/一致性)
LLM Judge
Judge 提示词与校准策略,控制一致性与成本
可扩展
支持自定义评测逻辑与模型接入,适配不同应用形态
持续评测
把评测接入 CI,形成长期回归与趋势监控
我们提供的服务
部署服务
评测目标定义拆解“好”的定义:质量、安全、结构化输出、鲁棒性等
数据集构建整理真实样本、构建覆盖边界条件的评测数据集
指标落地落地 metrics 与 Judge 规则,设置阈值与失败解释
CI 集成接入流水线,输出标准化报告与阻断策略
成本控制评测采样、分层评测与缓存策略,控制 token 成本
运维服务
指标校准随业务演进调整指标权重与阈值,保持评测有效性
数据集更新持续吸收线上 badcase,避免评测“只会刷题”
回归看板趋势分析与重点退化追踪,辅助工程决策
故障复测针对退化点提供复测脚本与修复建议
为什么选择我们
方法论清晰
强调“指标-数据-阈值-闭环”,避免空泛评测
可持续交付
落地到 CI 与看板,保证长期可用
业务贴合
从业务目标反推指标,不做“为了评测而评测”
安全意识
把安全评测纳入基线,减少线上风险