自动批量测试

自动批量测试用于在小助手上线前或配置变更后，对多个业务场景进行批量验证。你可以将高频问题、异常流程、边界问题和历史失败案例整理为测试用例，并通过测试集统一执行和查看结果。

相比单次文本/语音测试，自动批量测试更适合用于规模场景测试，帮助确认提示词、知识库、工作流或工具配置调整后，小助手仍能按预期完成回答、追问、转人工和工具调用。

配置前准备

已创建并保存小助手。
已完成提示词、知识库、工作流或工具相关配置。
已准备需要验证的业务场景或历史失败案例。
已明确测试用例的评判标准。
如需测试工具调用能力，已配置真实工具或准备 Mock 配置。

操作流程

自动批量测试的主流程为：创建测试集 → 创建用例 → 执行测试 → 查看测试结果。

创建测试集

路径：小助手 → 小助手配置页面 → 调试 → 测试管理。

进入测试管理页面后，根据测试目的选择对应测试类型，并在页面右上方点击 新建测试集。如果当前还没有测试集，也可以在空状态页面点击 新建测试集。

进入测试管理

新建测试集入口

在新建测试集页面填写测试集信息：

测试集名称：必填。建议以测试目的命名，例如“预约场景流程测试”。
测试集描述：选填。可说明测试覆盖的业务范围、适用版本或注意事项。

填写完成后，点击右下角新建创建测试集。

填写测试集信息

测试集创建完成后，会在测试管理的单元测试或回归测试页面显示对应测试集信息。

测试集列表

创建测试用例

从测试集列表点击目标测试集，进入测试用例管理页面。你可以在页面右上方点击新建创建测试用例；如果测试集内暂无用例，也可以在空状态页面点击新建。

创建测试用例入口

进入新建测试用例页面后，可依次编辑 用例名称、对话内容 与 评判标准。

新建测试用例页面

用例名称

用例名称可自定义，建议以测试目的或测试场景命名，例如“预约流程异常处理-用例 1”。

对话内容

对话内容支持三种录入方式：

手动键入。
粘贴 JSON 内容直接导入。
从通话记录导入。

手动键入

点击对话内容左下侧的用户、助手按钮，依次添加对话顺序。添加后，对话会显示在对话内容框内，你可以通过聊天框下方的箭头按钮调整顺序。

创建聊天框后，点击聊天框输入具体对话内容。

在助手对话侧，可点击聊天框下方工具图标，添加需要调用的模型工具，例如“查询时间”“查询业务情况”，用于测试小助手的工具调用能力。

在用户对话侧，可点击聊天框下方 知识库 图标，配置当前小助手绑定的知识库根据当前对话内容产生的召回结果。

手动编辑对话内容

JSON 内容直接导入

点击对话内容框右上角 JSON 按钮进入 JSON 编辑模式。你可以复制历史 Session 的通话记录 JSON 信息，快速录入测试用例对话内容。

JSON 导入对话内容

从通话记录导入

在通话记录中选择特定通话，点击聊天框旁的试剂形状按钮，即可将该通话记录作为测试用例导入测试集。

从通话记录导入测试用例

评判标准

评判标准用于设定每个用例的通过条件。你可以通过上方插入模板快捷选项，快速插入通用评判标准。

设置评判标准

管理测试用例

点击测试集进入测试用例管理页后，可在右侧操作下方停用/启用、复制或删除特定用例。目前暂不支持批量停用/启用、复制或删除用例。

管理测试用例

编辑测试用例

点击测试集内的测试用例，可进入编辑测试用例页面。编辑页面的整体功能与新建测试用例一致。

编辑测试用例

AI 生成变种

在编辑测试用例页面右下角点击 AI 生成变种，可以根据当前对话内容生成场景类似的新测试用例。该功能适合对同一场景下的不同对话内容进行批量测试，进一步检验小助手场景能力的稳定性。

AI 生成变种

执行测试

测试执行有两种入口：

路径一：左侧导航栏 → AI 自动化测试 → 测试列表右侧前往测试，进入特定小助手的测试管理页面。
路径二：左侧导航栏 → 小助手 → 调试 → 测试管理，手动进入测试管理页面。

在测试管理页勾选单元测试或回归测试内的测试集，点击右上角运行。随后配置模型和重复次数，配置完成后即可自动执行测试。运行过程与结果会显示在列表中。

执行测试

查看测试结果

测试完成后，路径：测试管理 → 测试结果。

测试结果入口

进入测试结果页面后，点击想要查看的测试集结果，即可进入用例测试列表，查看每个用例的多轮测试结果。

查看用例测试结果

进阶：Mock 配置

如果未配置真实的小助手工具，可以通过 Mock 配置设置虚拟工具及其召回内容，模拟真实环境中的小助手工具调用表现。

路径：测试管理 → Mock 配置。

点击页面内 新建 Mock，填写工具名与虚拟工具调用 JSON，即可创建 Mock 配置。

Mock 配置

通过标准

测试集和测试用例已成功创建。
测试任务可正常运行，并生成测试结果。
可查看每个用例的多轮测试结果。
高频问题、异常流程和边界问题的处理结果符合预期。
失败用例可定位到提示词、知识库、工作流、工具配置或评判标准。

下一步

如果测试未通过，请根据失败原因回到创建与配置小助手、创建工作流或切片管理调整配置。
如果测试通过并准备上线，请继续阅读上线概览。
如果已经上线并需要复盘真实通话表现，请查看通话记录和 AI 洞察。

常见问题

自动批量测试适合什么时候使用？

适合在小助手上线前、提示词修改后、知识库更新后、工作流调整后或工具配置变更后使用。

单次调试通过了，为什么还需要自动批量测试？

单次调试只能验证少量问题，自动批量测试可以一次性验证多个场景，更适合发现回归问题和边界问题。

没有配置真实工具时，可以测试工具调用吗？

可以。你可以使用 Mock 配置模拟工具及其返回内容，用于验证小助手在工具调用场景下的表现。

AI 生成变种可以直接使用吗？

建议先人工检查后再使用，确认对话内容、业务边界和评判标准符合测试目标。