Benchmark
模型对战 Arena
把同一个任务丢给多个模型,side-by-side 看谁在质量、延迟、成本三个维度上更胜一筹。
任务类型
示例 Prompt
参赛模型 (3/4)
加载模型列表...
一次最多 4 个模型,端到端测量延迟 / 成本 / token。
还没有运行过
上面选一个任务和几个模型,点击开始对战。
最近的对战
| 任务 | 模型 | 平均延迟 | 总成本 | 时间 |
|---|
把同一个任务丢给多个模型,side-by-side 看谁在质量、延迟、成本三个维度上更胜一筹。
| 任务 | 模型 | 平均延迟 | 总成本 | 时间 |
|---|