Benchmark

模型对战 Arena.

把同一个任务丢给多个模型，side-by-side 看谁在质量、延迟、成本三个维度上更胜一筹。

任务类型

任务 / 提示词

示例 Prompt

参赛模型 (3/4)

加载模型列表...

一次最多 4 个模型，端到端测量延迟 / 成本 / token。盲测模式 (投票前隐藏模型名)

还没有运行过

上面选一个任务和几个模型，点击开始对战。

最近的对战

任务	模型	平均延迟	总成本	时间