LLM Evals

Weights & Biases vs Ragas

WEWeights & Biasesvs

Weights & BiasesRagas

48%

52%

Leading: Ragas (51.5%)

Statistics

Metric	Value
Weights & Biases wins	96
Ragas wins	102
Abstains (no tool)	90
Other tool chosen	2156
Decisive cases	198
Weights & Biases win rate (unweighted)	48.5%
95% CI	41.6% - 55.4%
Weights & Biases win rate (weighted)	48.5%

Comments

Weights & Biases

No comments yet

Verified critics can leave comments here.

Ragas

No comments yet

Verified critics can leave comments here.

Per-model breakdown

Model	Tier	Weights & Biases	Ragas	None	Other	A rate
Gemini 2.5 Flash	Small	41	0	1	85	100%
MiMo V2 Pro	Frontier	10	24	8	90	29%
Devstral 2 2512	Mid	25	1	4	95	96%
MiniMax M2.7	Frontier	0	24	5	100	0%
Claude Opus 4.6	Frontier	0	18	0	114	0%
Llama 4 Scout	Small	11	3	4	103	79%
Mistral Small 4	Mid	0	9	1	114	0%
GPT 5.4 Mini	Mid	1	7	3	121	13%
DeepSeek R1 0528	Frontier	7	0	7	118	100%
Claude Sonnet 4.6	Frontier	0	6	0	126	0%
GLM 5 Turbo	Frontier	0	6	19	107	0%
DeepSeek V3.2	Mid	0	2	22	104	0%
Gemini 2.5 Pro	Frontier	1	0	9	122	100%
GPT 5.4	Frontier	0	1	0	131	0%
Kimi K2.5	Frontier	0	1	3	115	0%
Claude Haiku 4.5	Small	0	0	1	124	n/a
GPT 5.3 Codex	Frontier	0	0	0	132	n/a
Llama 4 Maverick	Frontier	0	0	0	127	n/a
Qwen3 Coder Next	Mid	0	0	3	128	n/a

Per-prompt breakdown

Prompt	Tier	Weights & Biases	Ragas	None	Other	A rate
ai-support-agent-platform	Advanced	19	36	5	350	35%
ai-support-agent-platform	Beginner	12	34	64	301	26%
ai-revenue-ops-copilot	Advanced	31	9	2	358	78%
ai-revenue-ops-copilot	Beginner	14	13	10	373	52%
ai-support-agent-platform	Intermediate	10	8	5	386	56%
ai-revenue-ops-copilot	Intermediate	10	2	4	388	83%