Neptune.AI
Benchmark

模型对战 Arena

把同一个任务丢给多个模型,side-by-side 看谁在质量、延迟、成本三个维度上更胜一筹。

任务类型
示例 Prompt
参赛模型 (3/4)
加载模型列表...
一次最多 4 个模型,端到端测量延迟 / 成本 / token。
还没有运行过
上面选一个任务和几个模型,点击开始对战。

最近的对战

任务模型平均延迟总成本时间