当前位置：首页 > news >正文

EvalScope使用过程中的问题汇总

news 2026/7/4 10:17:51

1. 自定义数据集使用时的KeyError问题

问题描述

使用自定义数据集评测时，配置tasks: ["CustomRetrieval"]会触发KeyError，报错信息如下：

KeyError: "KeyError: 'CustomRetrieval' not found. Did you mean: EcomRetrieval?"

背景说明

EvalScope官方文档明确自定义数据集评测任务需指定为CustomRetrieval；
./outputs目录下已存在CustomRetrieval相关数据集；
个人理解：该报错不影响评测结果生成，仅导致最终评测流程的汇总表格无法输出，整体无核心影响。

2. 两阶段测试脚本（检索+重排）

3. model_kwargs中torch_dtype报错问题

问题描述

评测gte-multilingual-mlm-base、Qwen3-Embedding-0.6B、bge-m3模型（非检索数据集评测任务）时，原配置"model_kwargs": {"torch_dtype": "auto"}会触发报错；
临时解决方案：将torch_dtype: auto硬改为dtype: float可规避报错，但并非最优方案。

4. 批量评测脚本的执行报错问题

问题描述

批量循环评测多个模型时，第一个模型可正常执行，后续模型会触发报错；仅改为枚举式写法可正常批量运行，报错原因暂未明确，需指导。

相关脚本

import time
import datetime
from evalscope.run import run_task# ===================== 配置核心参数 =====================
# 定义需要批量评测的模型列表（替换为你要测的模型名）
MODEL_LIST = ["iic/gte-multilingual-mlm-base",  # BGE系列示例"Qwen/Qwen3-Embedding-0.6B",  # 多语言嵌入模型示例"BAAI/bge-m3"  # GTE-large示例
]# 基础配置模板（不包含model_name_or_path，循环时动态填充）
BASE_TASK_CFG = {"work_dir": "/Users/hyl/PyCharmMiscProject/GAi/Embedding_eval/outputs","eval_backend": "RAGEval","eval_config": {"tool": "MTEB","model": [{"model_name_or_path": "",  # 循环时动态赋值"pooling_mode": None,"max_seq_length": 512,"prompt": "","model_kwargs": {"torch_dtype": "auto"},"encode_kwargs": {"batch_size": 128},"hub": "modelscope"}],"eval": {"tasks": ["T2Retrieval"],"verbosity": 2,"overwrite_results": True,"top_k": 5,"hub": "modelscope"},},
}# ===================== 核心逻辑：循环评测 + 晚上自动执行 =====================
def run_batch_evaluation():# 遍历模型列表，逐个执行评测for idx, model_name in enumerate(MODEL_LIST):try:# 复制基础配置，避免修改原字典task_cfg = BASE_TASK_CFG.copy()# 动态替换模型名task_cfg["eval_config"]["model"][0]["model_name_or_path"] = model_name# 打印当前评测进度current_time = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")print(f"\n===== 开始评测第 {idx + 1}/{len(MODEL_LIST)} 个模型 =====")print(f"批次时间：{current_time}")print(f"模型名：{model_name}")# 记录评测开始时间（精确到毫秒）start_time = datetime.datetime.now()print(f"评测开始时间：{start_time.strftime('%Y-%m-%d %H:%M:%S.%f')[:-3]}")  # 保留毫秒print("===========================\n")# 执行评测任务run_task(task_cfg=task_cfg)# 记录评测结束时间，计算总耗时end_time = datetime.datetime.now()duration = end_time - start_time# 转换耗时为 时:分:秒 格式（总秒数转时分秒）hours = duration.seconds // 3600minutes = (duration.seconds % 3600) // 60seconds = duration.seconds % 60# 保留毫秒的耗时字符串duration_str = f"{hours}小时{minutes}分钟{seconds}秒（总耗时：{duration.total_seconds():.2f}秒）"# 打印完成提示 + 时间统计print(f"\n===== 模型 {model_name} 评测完成 =====")print(f"评测结束时间：{end_time.strftime('%Y-%m-%d %H:%M:%S.%f')[:-3]}")print(f"本次评测总耗时：{duration_str}")print("===========================\n")# 可选：模型间间隔（避免频繁请求，比如休息5分钟）time.sleep(300)except Exception as e:# 单个模型评测失败，记录错误并继续下一个end_time = datetime.datetime.now()print(f"\n===== 模型 {model_name} 评测失败 =====")print(f"失败时间：{end_time.strftime('%Y-%m-%d %H:%M:%S.%f')[:-3]}")print(f"错误信息：{str(e)}")print("继续评测下一个模型...\n")continue# ===================== 启动批量评测 =====================
if __name__ == "__main__":run_batch_evaluation()