IA Finance — Benchmarks des modèles IA pour la finance 2026

Classement live des meilleurs modèles d'intelligence artificielle sur 4 benchmarks de finance publiés par vals.ai : Finance Agent (raisonnement d'agent), CorpFin (finance d'entreprise), MortgageTax (fiscalité immobilière), TaxEval (fiscalité personnelle). Données rafraîchies automatiquement toutes les 24h.

4 benchmarks40 modèles9 providers

CorpFin v2

Mesure la performance sur des questions de finance d'entreprise (M&A, valuation, fiscalité corporate).

#	Modèle	Provider	Accuracy	Coût	Latence
1	GPT 5.5	OpenAI	68.42%	$0.432	23.3s
2	Kimi K2.5 (Thinking)	Moonshot AI	68.26%	$0.052	80.8s
3	Qwen 3 Max	Alibaba	68.03%	$0.261	121.3s
4	Claude Opus 4.6 (Thinking)	Anthropic	67.02%	$0.487	20.6s
5	Grok 4 Fast Reasoning	xAI	66.90%	$0.040	11.8s
6	Kimi K2.6 (Thinking)	Moonshot AI	66.74%	$0.073	79.6s
7	Gemini 3 Flash Preview	Google	66.43%	$0.047	11.3s
8	Claude Opus 4.7	Anthropic	66.08%	$0.816	17.8s
9	Grok 4.0709	xAI	66.05%	$0.191	29.7s
10	Grok 4.1 Fast Reasoning	xAI	65.97%	$0.016	28.4s
11	GPT 5.2	OpenAI	65.89%	$0.154	26.0s
12	Claude Sonnet 4.6	Anthropic	65.31%	$0.307	18.5s
13	Qwen 3.5 Plus (Thinking)	Alibaba	65.31%	$0.058	155.9s
14	GPT 5.4	OpenAI	65.27%	$0.235	82.3s
15	Muse Spark	Meta	65.11%	$0.012	40.1s
16	Claude Opus 4.5 (Thinking)	Anthropic	65.07%	$0.173	17.7s
17	Gemini 3.1 Pro Preview	Google	64.49%	$0.182	25.4s
18	GLM 5.1 (Thinking)	Zhipu AI	64.45%	$0.079	68.2s
19	GPT 5.1	OpenAI	63.83%	$0.092	35.3s
20	Grok 4.20.0309 Reasoning	xAI	63.68%	$0.163	9.7s

Mis à jour le 26 avril 2026

Finance Agent v1.1

Évalue la capacité d'un modèle à raisonner sur des tâches d'agent financier (analyse de portefeuille, recherche, synthèse).

#	Modèle	Provider	Accuracy	Coût	Latence
1	Qwen 3.6 Max Preview	Alibaba	86.67%	$0.301	1690.9s
2	Claude Opus 4.7	Anthropic	64.37%	$0.802	271.1s
3	Claude Sonnet 4.6	Anthropic	63.33%	$1.437	349.0s
4	Muse Spark	Meta	60.60%	$0.063	418.1s
5	DeepSeek V4 Pro	DeepSeek	60.39%	$0.585	588.4s
6	Claude Opus 4.6 (Thinking)	Anthropic	60.05%	$1.108	289.7s
7	GPT 5.5	OpenAI	59.96%	$1.328	855.2s
8	Gemini 3.1 Pro Preview	Google	59.72%	$0.873	265.7s
9	Claude Opus 4.5 (Thinking)	Anthropic	58.81%	$1.501	181.9s
10	GPT 5.2	OpenAI	58.54%	$0.978	585.4s
11	GLM 5.1 (Thinking)	Zhipu AI	57.66%	$0.292	501.8s
12	GPT 5.4	OpenAI	57.15%	$1.412	656.7s
13	Kimi K2.6 (Thinking)	Moonshot AI	57.06%	$0.493	1505.9s
14	GPT 5.1	OpenAI	55.31%	$0.474	578.1s
15	Gemini 3 Pro Preview	Google	55.15%	$0.559	183.6s
16	Qwen 3.6 Plus	Alibaba	54.63%	$0.152	327.8s
17	Claude Sonnet 4.5 (Thinking)	Anthropic	54.50%	$1.102	202.1s
18	Qwen 3.5 Plus (Thinking)	Alibaba	54.48%	$0.236	360.5s
19	Grok 4.0709	xAI	53.51%	$1.075	321.0s
20	GPT 5.4 Mini	OpenAI	53.41%	$0.492	876.3s

Mis à jour le 26 avril 2026

MortgageTax

Tests sur la fiscalité immobilière (déductibilité d'intérêts, abattements, plus-values).

#	Modèle	Provider	Accuracy	Coût	Latence
1	Claude Opus 4.7	Anthropic	70.27%	$0.084	16.1s
2	Gemini 3.1 Pro Preview	Google	69.40%	$0.024	23.6s
3	Gemini 3 Pro Preview	Google	69.08%	$0.041	25.6s
4	Gemini 2.5 Pro	Google	68.92%	$0.005	24.0s
5	GPT 5.5	OpenAI	68.76%	$0.071	28.2s
6	Gemini 3 Flash Preview	Google	68.72%	$0.007	12.8s
7	Claude 3.7 Sonnet	Anthropic	68.68%	$0.016	5.7s
8	Claude Opus 4.5	Anthropic	68.68%	$0.092	10.5s
9	Claude Opus 4.6 (Thinking)	Anthropic	68.52%	$0.061	27.2s
10	GPT 5.4	OpenAI	68.32%	$0.103	45.0s
11	Gemini 3.1 Flash Lite Preview	Google	68.04%	$0.003	5.4s
12	Qwen 3.6 Plus	Alibaba	67.97%	$0.013	78.2s
13	Claude Sonnet 4.6	Anthropic	67.73%	$0.045	29.7s
14	Claude Opus 4.5 (Thinking)	Anthropic	67.69%	$0.178	28.2s
15	Qwen 3.5 Flash	Alibaba	67.37%	$0.002	36.8s
16	Gemini 2.5 Pro Exp 03.25	Google	67.17%	$0.004	8.9s
17	GPT 5.2	OpenAI	67.13%	$0.050	70.7s
18	GPT 5 Mini	OpenAI	66.89%	$0.004	24.9s
19	Claude 3.7 Sonnet (Thinking)	Anthropic	66.85%	$0.024	13.6s
20	Kimi K2.5 (Thinking)	Moonshot AI	66.53%	$0.015	79.8s

Mis à jour le 26 avril 2026

TaxEval v2

Évaluation sur la fiscalité personnelle (impôt sur le revenu, abattements, niches fiscales).

#	Modèle	Provider	Accuracy	Coût	Latence
1	Muse Spark	Meta	77.68%	—	57.5s
2	Claude Sonnet 4.6	Anthropic	77.11%	$0.128	127.9s
3	Claude Opus 4.6 (Thinking)	Anthropic	75.96%	$0.071	79.3s
4	Grok 3	xAI	75.88%	$0.017	13.1s
5	GPT 5.2	OpenAI	75.76%	$0.067	60.5s
6	Grok 4 Fast Reasoning	xAI	75.70%	$0.001	10.2s
7	Claude Opus 4.7	Anthropic	75.27%	$0.125	62.1s
8	GPT 5 Mini	OpenAI	75.22%	$0.012	37.4s
9	GPT 4.1	OpenAI	75.06%	$0.006	7.9s
10	GPT 5.5	OpenAI	74.98%	$0.060	95.8s
11	GPT 5.1	OpenAI	74.86%	$0.007	44.2s
12	Claude Opus 4.5 (Thinking)	Anthropic	74.86%	$0.219	47.4s
13	o4 Mini	OpenAI	74.78%	$0.007	15.4s
14	Qwen 3.6 Plus	Alibaba	74.73%	$0.011	70.6s
15	Kimi K2.6 (Thinking)	Moonshot AI	74.65%	$0.029	267.5s
16	o3	OpenAI	74.57%	$0.013	24.0s
17	GPT 4o	OpenAI	74.53%	$0.006	5.9s
18	Claude Opus 4.5	Anthropic	74.33%	$0.059	14.9s
19	o1	OpenAI	74.29%	$0.122	19.5s
20	Kimi K2.5 (Thinking)	Moonshot AI	74.20%	$0.014	90.5s

Mis à jour le 26 avril 2026

Source : vals.ai. Pour aller plus loin, lis notre article Alpha Arena : 6 LLM tradés en crypto réelle.