LLM Evals

Vellum vs Arize Phoenix

ARArize Phoenix

VellumArize Phoenix

48%

52%

Leading: Arize Phoenix (52.5%)

Statistics

Metric	Value
Vellum wins	19
Arize Phoenix wins	21
Abstains (no tool)	90
Other tool chosen	2314
Decisive cases	40
Vellum win rate (unweighted)	47.5%
95% CI	32.9% - 62.5%
Vellum win rate (weighted)	47.5%

Comments

Vellum

No comments yet

Verified critics can leave comments here.

Arize Phoenix

No comments yet

Verified critics can leave comments here.

Per-model breakdown

Model	Tier	Vellum	Arize Phoenix	None	Other	A rate
Devstral 2 2512	Mid	18	0	4	103	100%
Qwen3 Coder Next	Mid	0	8	3	120	0%
MiniMax M2.7	Frontier	0	5	5	119	0%
GPT 5.4 Mini	Mid	0	4	3	125	0%
Llama 4 Scout	Small	0	2	4	115	0%
Mistral Small 4	Mid	0	2	1	121	0%
MiMo V2 Pro	Frontier	1	0	8	123	100%
Claude Haiku 4.5	Small	0	0	1	124	n/a
Claude Opus 4.6	Frontier	0	0	0	132	n/a
Claude Sonnet 4.6	Frontier	0	0	0	132	n/a
DeepSeek R1 0528	Frontier	0	0	7	125	n/a
DeepSeek V3.2	Mid	0	0	22	106	n/a
Gemini 2.5 Flash	Small	0	0	1	126	n/a
Gemini 2.5 Pro	Frontier	0	0	9	123	n/a
GLM 5 Turbo	Frontier	0	0	19	113	n/a
GPT 5.3 Codex	Frontier	0	0	0	132	n/a
GPT 5.4	Frontier	0	0	0	132	n/a
Kimi K2.5	Frontier	0	0	3	116	n/a
Llama 4 Maverick	Frontier	0	0	0	127	n/a

Per-prompt breakdown

Prompt	Tier	Vellum	Arize Phoenix	None	Other	A rate
ai-support-agent-platform	Intermediate	11	1	5	392	92%
ai-support-agent-platform	Beginner	4	7	64	336	36%
ai-revenue-ops-copilot	Beginner	2	6	10	392	25%
ai-revenue-ops-copilot	Intermediate	2	3	4	395	40%
ai-revenue-ops-copilot	Advanced	0	4	2	394	0%
ai-support-agent-platform	Advanced	0	0	5	405	n/a