Prompt A/B 测试规划器

把「随手改 prompt」变成有变体、有样例、有评分、有记录的可复现实验

怎么用

1 · 描述这次改版

要对比的变体策略(基线 A 会自动加入)

全部计算在你的浏览器本地完成,不上传、不调用任何模型接口。

2 · 你的 A/B 测试计划

📋

左边填好后点「生成测试计划」,这里会给出可直接开跑的
变体脚手架、测试样例集、加权 rubric 和记录表。

为什么需要它

问题

大多数 prompt 改版是「改一版、跑两次、凭感觉觉得更好」。没有对照组、没有固定样例、没有评分口径,改进无法复现,也说不清到底哪一处起了作用。

做法

选任务类型 + 想测的策略,工具据此产出:基线 A + 若干变体脚手架、覆盖典型/边界/对抗的测试样例集、按任务加权的评分 rubric、逐格实验记录表。

收益

约一分钟把一次 prompt 改版落成可复现实验:变体可比、样例固定、评分有口径、结果可记录,改进能归因、能回滚、能沉淀成方法论。