自动批量测试
自动批量测试用于在小助手上线前或配置变更后,对多个业务场景进行批量验证。你可以将高频问题、异常流程、边界问题和历史失败案例整理为测试用例,并通过测试集统一执行和查看结果。
相比单次文本/语音测试,自动批量测试更适合用于规模场景测试,帮助确认提示词、知识库、工作流或工具配置调整后,小助手仍能按预期完成回答、追问、转人工和工具调用。
配置前准备
- 已创建并保存小助手。
- 已完成提示词、知识库、工作流或工具相关配置。
- 已准备需要验证的业务场景或历史失败案例。
- 已明确测试用例的评判标准。
- 如需测试工具调用能力,已配置真实工具或准备 Mock 配置。
操作流程
自动批量测试的主流程为:创建测试集 → 创建用例 → 执行测试 → 查看测试结果。
创建测试集
路径:小助手 → 小助手配置页面 → 调试 → 测试管理。
进入测试管理页面后,根据测试目的选择对应测试类型,并在页面右上方点击 新建测试集。如果当前还没有测试集,也可以在空状态页面点击 新建测试集。


在新建测试集页面填写测试集信息:
- 测试集名称:必填。建议以测试目的命名,例如“预约场景流程测试”。
- 测试集描述:选填。可说明测试覆盖的业务范围、适用版本或注意事项。
填写完成后,点击右下角 新建 创建测试集。

测试集创建完成后,会在测试管理的单元测试或回归测试页面显示对应测试集信息。

创建测试用例
从测试集列表点击目标测试集,进入测试用例管理页面。你可以在页面右上方点击 新建 创建测试用例;如果测试集内暂无用例,也可以在空状态页面点击 新建。

进入新建测试用例页面后,可依次编辑 用例名称、对话内容 与 评判标准。

用例名称
用例名称可自定义,建议以测试目的或测试场景命名,例如“预约流程异常处理-用例 1”。
对话内容
对话内容支持三种录入方式:
- 手动键入。
- 粘贴 JSON 内容直接导入。
- 从通话记录导入。
手动键入
点击对话内容左下侧的 用户、助手 按钮,依次添加对话顺序。添加后,对话会显示在对话内容框内,你可以通过聊天框下方的箭头按钮调整顺序。
创建聊天框后,点击聊天框输入具体对话内容。
在助手对话侧,可点击聊天框下方 工具 图标,添加需要调用的模型工具,例如“查询时间”“查询业务情况”,用于测试小助手的工具调用能力。
在用户对话侧,可点击聊天框下方 知识库 图标,配置当前小助手绑定的知识库根据当前对话内容产生的召回结果。

JSON 内容直接导入
点击对话内容框右上角 JSON 按钮进入 JSON 编辑模式。你可以复制历史 Session 的通话记录 JSON 信息,快速录入测试用例对话内容。

从通话记录导入
在通话记录中选择特定通话,点击聊天框旁的试剂形状按钮,即可将该通话记录作为测试用例导入测试集。

评判标准
评判标准用于设定每个用例的通过条件。你可以通过上方插入模板快捷选项,快速插入通用评判标准。

管理测试用例
点击测试集进入测试用例管理页后,可在右侧 操作 下方停用/启用、复制或删除特定用例。目前暂不支持批量停用/启用、复制或删除用例。

编辑测试用例
点击测试集内的测试用例,可进入编辑测试用例页面。编辑页面的整体功能与新建测试用例一致。

AI 生成变种
在编辑测试用例页面右下角点击 AI 生成变种,可以根据当前对话内容生成场景类似的新测试用例。该功能适合对同一场景下的不同对话内容进行批量测试,进一步检验小助手场景能力的稳定性。

执行测试
测试执行有两种入口:
- 路径一:左侧导航栏 → AI 自动化测试 → 测试列表右侧前往测试,进入特定小助手的测试管理页面。
- 路径二:左侧导航栏 → 小助手 → 调试 → 测试管理,手动进入测试管理页面。
在测试管理页勾选单元测试或回归测试内的测试集,点击右上角 运行。随后配置模型和重复次数,配置完成后即可自动执行测试。运行过程与结果会显示在列表中。

查看测试结果
测试完成后,路径:测试管理 → 测试结果。

进入测试结果页面后,点击想要查看的测试集结果,即可进入用例测试列表,查看每个用例的多轮测试结果。

进阶:Mock 配置
如果未配置真实的小助手工具,可以通过 Mock 配置设置虚拟工具及其召回内容,模拟真实环境中的小助手工具调用表现。
路径:测试管理 → Mock 配置。
点击页面内 新建 Mock,填写工具名与虚拟工具调用 JSON,即可创建 Mock 配置。

通过标准
- 测试集和测试用例已成功创建。
- 测试任务可正常运行,并生成测试结果。
- 可查看每个用例的多轮测试结果。
- 高频问题、异常流程和边界问题的处理结果符合预期。
- 失败用例可定位到提示词、知识库、工作流、工具配置或评判标准。
下一步
- 如果测试未通过,请根据失败原因回到 创建与配置小助手、创建工作流 或 切片管理 调整配置。
- 如果测试通过并准备上线,请继续阅读 上线概览。
- 如果已经上线并需要复盘真实通话表现,请查看 通话记录 和 AI 洞察。
常见问题
自动批量测试适合什么时候使用?
适合在小助手上线前、提示词修改后、知识库更新后、工作流调整后或工具配置变更后使用。
单次调试通过了,为什么还需要自动批量测试?
单次调试只能验证少量问题,自动批量测试可以一次性验证多个场景,更适合发现回归问题和边界问题。
没有配置真实工具时,可以测试工具调用吗?
可以。你可以使用 Mock 配置模拟工具及其返回内容,用于验证小助手在工具调用场景下的表现。
AI 生成变种可以直接使用吗?
建议先人工检查后再使用,确认对话内容、业务边界和评判标准符合测试目标。