RAG 平台
/
评测
批量评测
批量评测与打分
基于测试集批量运行 RAG 问答,自动四维打分(精确匹配 / 语义 / 召回 / 引用),追踪效果趋势
新建评测
评测任务列表
全部测试集
全部状态
已完成
运行中
待运行
失败
评测名称
测试集
进度
总分
精确
语义
召回
引用
状态
操作
加载中...
返回列表
-
总分
-
精确匹配
-
语义匹配
-
召回率
-
引用准确
按类型分数
按难度分数
逐题结果
新建评测任务
评测名称
*
选择测试集
*
加载中...
RAG 配置
检索策略
混合 (Vector+BM25)
仅向量
仅 BM25
TopK
最低分阈值
启用 LLM 重排
取消
创建并运行