Prompt A/B 测试规划器 · 一分钟做出可比较的 prompt 实验

1 · 描述这次改版

原始 Prompt（对照组 A）任务类型改版目标（你想让它变好在哪）

要对比的变体策略（基线 A 会自动加入）

测试样例数量（3–24）额外评分维度（可选，逗号分隔）

全部计算在你的浏览器本地完成，不上传、不调用任何模型接口。

📋

左边填好后点「生成测试计划」，这里会给出可直接开跑的
变体脚手架、测试样例集、加权 rubric 和记录表。

为什么需要它

大多数 prompt 改版是「改一版、跑两次、凭感觉觉得更好」。没有对照组、没有固定样例、没有评分口径，改进无法复现，也说不清到底哪一处起了作用。

选任务类型 + 想测的策略，工具据此产出：基线 A + 若干变体脚手架、覆盖典型/边界/对抗的测试样例集、按任务加权的评分 rubric、逐格实验记录表。

约一分钟把一次 prompt 改版落成可复现实验：变体可比、样例固定、评分有口径、结果可记录，改进能归因、能回滚、能沉淀成方法论。