MedicalBenchmark
Anthropic: Claude 3.7 Sonnet (thinking) provider

Claude 3.7 Sonnet (thinking)

50

#50 de 319 modelos no ranking xeral

Rendemento acumulado en 3 exames MIR

Puntuación neta

561.66 pts

Certeza

95.2%

Correctas / Incorrectas

571 / 28

Custo total

$22.68

Rendemento Xeral

(vs. media)
Certeza

95.2%

avg: 80.6%

Puntuación neta

561.66 pts

avg: 453.30 pts

Acertos

571

avg: 483

Erros

28

avg: 90

Custo total

$22.68

avg: $9.58

Tempo promedio de resposta

31.3s

avg: 17.9s

Tokens saíntes

1.4M

avg: 1.3M

Tokens de razoamento

912K

avg: 898K

Confianza promedia

99.7%

avg: 95.4%

Desagregación por Exame

MIR 2024
56
Correctas
191
Incorrectas
8
Certeza
95.5%
Puntuación neta
188.33
MIR 2025
62
Correctas
186
Incorrectas
14
Certeza
93.0%
Puntuación neta
181.33
MIR 2026
50
Correctas
194
Incorrectas
6
Certeza
97.0%
Puntuación neta
192.00