1 · 描述这次改版
全部计算在你的浏览器本地完成,不上传、不调用任何模型接口。
2 · 你的 A/B 测试计划
📋
左边填好后点「生成测试计划」,这里会给出可直接开跑的
变体脚手架、测试样例集、加权 rubric 和记录表。
全部计算在你的浏览器本地完成,不上传、不调用任何模型接口。
左边填好后点「生成测试计划」,这里会给出可直接开跑的
变体脚手架、测试样例集、加权 rubric 和记录表。
大多数 prompt 改版是「改一版、跑两次、凭感觉觉得更好」。没有对照组、没有固定样例、没有评分口径,改进无法复现,也说不清到底哪一处起了作用。
选任务类型 + 想测的策略,工具据此产出:基线 A + 若干变体脚手架、覆盖典型/边界/对抗的测试样例集、按任务加权的评分 rubric、逐格实验记录表。
约一分钟把一次 prompt 改版落成可复现实验:变体可比、样例固定、评分有口径、结果可记录,改进能归因、能回滚、能沉淀成方法论。