Document Arena

View overall rankings across AI models in document analysis and long-content reasoning.

Mar 11, 2026

43,670 votes

13 models

	Rank Spread
1	11	claude-opus-4-6 Anthropic · Proprietary	1524±12	4,336	$5 / $25	1M
2	24	claude-sonnet-4-6 Anthropic · Proprietary	1491±14	1,813	$3 / $15	1M
3	24	gpt-5.4 OpenAI · Proprietary	1483±16	1,349	$2.50 / $15	1.1M
4	25	claude-opus-4-5-20251101 Anthropic · Proprietary	1473±11	6,112	$5 / $25	200K
5	47	gemini-3.1-pro-preview Google · Proprietary	1457±9	3,972	$2 / $12	1M
6	58	claude-sonnet-4-5-20250929 Anthropic · Proprietary	1450±11	6,375	$3 / $15	200K
7	58	gemini-3-pro Google · Proprietary	1447±8	8,872	$2 / $12	1M
8	811	gemini-2.5-pro Google · Proprietary	1430±8	6,766	$1.25 / $10	1M
9	613	claude-haiku-4-5-20251001 Anthropic · Proprietary	1427±12	5,678	$1 / $5	200K
10	813	gemini-3-flash Google · Proprietary	1424±9	7,303	$0.50 / $3	1M
11	813	gpt-5.2-high OpenAI · Proprietary	1413±9	5,867	$1.75 / $14	400K
12	913	gpt-5.1 OpenAI · Proprietary	1408±8	7,021	$1.25 / $10	400K
13	913	gpt-5.2 OpenAI · Proprietary	1408±8	8,280	$1.75 / $14	400K

Remove Style Control Leaderboard Plots

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Confidence Intervals on Model Strength (via Bootstrapping)

Battle Count for Each Combination of Models (without Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles