
199 de 200: La IA Solo Falla Una en el MIR 2026
Resultados definitivos del mayor benchmark de IA médica en español. Tres modelos empatan con 199 aciertos sobre 200 preguntas válidas. Un modelo 'Flash' lidera por tercer año consecutivo. Análisis exhaustivo de 290 modelos evaluados con datos de coste, velocidad, tokens y precisión.
El 24 de enero de 2026, más de 12.000 aspirantes se enfrentaron al examen MIR más polémico de la última década. Pero mientras la comunidad médica debatía sobre anulaciones, baremos y caos administrativo, en Medical Benchmark estábamos ejecutando algo sin precedentes: 290 modelos de inteligencia artificial respondiendo las 210 preguntas del examen en tiempo real, antes de que nadie conociera las respuestas correctas.
Los resultados definitivos son, sencillamente, demoledores.
Tres modelos de IA han acertado 199 de las 200 preguntas válidas del MIR 2026. Un solo fallo. Un 99,5% de precisión. Ningún ser humano en la historia del MIR ha conseguido jamás una puntuación comparable.[1]
1. El Podio Imposible: Empate a Tres con 199/200
Por primera vez en los tres años de historia de MedBench, tres modelos de IA han obtenido exactamente la misma puntuación neta: 198,67 netas (199 aciertos, 1 fallo, 0 preguntas en blanco).
Gemini 3 Flash
Googleo3
OpenAIGPT-5
OpenAILos tres co-ganadores representan a dos gigantes tecnológicos con filosofías radicalmente distintas:
-
Google Gemini 3 Flash Preview.
Un modelo diseñado para ser rápido y económico. Coste total del examen completo: 0,33 € (treinta y tres céntimos de euro). Tiempo medio por pregunta: 4,2 segundos. Sin tokens de razonamiento explícito. Aunque el modelo permite configurar un presupuesto de tokens para razonamiento, en este benchmark decidimos ejecutarlo con 0 tokens de razonamiento. -
OpenAI o3.
El modelo de razonamiento avanzado de OpenAI. Coste: 1,86 €. Genera 71.000 tokens de razonamiento internos antes de responder. Tiempo: 7,3 segundos por pregunta. -
OpenAI GPT-5.
El buque insignia de OpenAI. Coste: 1,97 €. El más intensivo en razonamiento con 135.000 tokens dedicados. Pero también el más lento de los tres: 18 segundos por pregunta.
¿Cómo se desempata?
En MedBench, ante empate en puntuación neta, el criterio de desempate es el coste total del examen (menor coste gana). Este criterio refleja una realidad práctica crucial: si dos modelos tienen idéntica precisión, el que lo consigue de forma más eficiente es objetivamente superior desde la perspectiva de despliegue clínico.
Con este criterio, Gemini 3 Flash Preview es el ganador oficial del MIR 2026, con un coste 5,7 veces inferior a o3 y 6 veces inferior a GPT-5.
2. El Ranking Completo: Los 15 Mejores
Top 15 modelos de IA en el MIR 2026 por puntuación neta (resultados definitivos)
La concentración de puntuaciones en la zona alta es extraordinaria. Los 10 primeros modelos se mueven en un rango de apenas 1,33 netas (de 198,67 a 197,33). Esto refleja tanto la calidad de los modelos actuales como la relativa "facilidad" del MIR 2026 para los sistemas de IA, un fenómeno que analizamos en profundidad en nuestro artículo anterior sobre la tormenta perfecta del MIR 2026.
Datos clave del ranking:
- 3 modelos con 199/200 (99,5% de precisión)
- 9 modelos con 198/200 (99,0%)
- 8 modelos con 197/200 (98,5%)
- Todos los Top 20 superan el 98% de precisión (196/200 o más)
- 58 modelos superan el 95% de precisión
- 119 modelos superan el 90%
Para poner esto en contexto: el mejor resultado humano conocido en el MIR 2025 fue de 174 aciertos y 25 errores (87% de precisión, 165,67 netas).[2] Los tres ganadores de este año tienen un 99,5%.
3. David contra Goliat: La Paradoja Flash
Esta es quizás la conclusión más contraintuitiva y fascinante de todo el benchmark: un modelo "Flash" — diseñado para velocidad y bajo coste, no para máxima inteligencia — lleva tres años consecutivos siendo el mejor o empatando en primera posición en el examen médico más exigente de España.
*Sonar Deep Research tiene acceso a búsqueda web, pudiendo consultar respuestas del examen publicadas online
El historial de Gemini Flash:
| Convocatoria | Posición Flash | Netas | Coste | Ganador oficial | Nota |
|---|---|---|---|---|---|
| MIR 2024 | #2 (empate en netas con #3-#10) | 193,33 | 0,32 € | Sonar Deep Research (193,67) | Sonar tiene acceso web |
| MIR 2025 | #1 | 190,67 | 0,34 € | Gemini 3 Flash | Ganador indiscutible |
| MIR 2026 | #1 (empate con o3 y GPT-5) | 198,67 | 0,33 € | Gemini 3 Flash (por coste) | Empate a tres |
El caso del MIR 2024 merece una mención especial. El ganador nominal fue Perplexity Sonar Deep Research con 193,67 netas frente a las 193,33 de Flash. Sin embargo, Sonar Deep Research es un modelo con acceso a búsqueda web en tiempo real. Dado que las respuestas del MIR se publican en múltiples webs de academias y foros médicos pocos días después del examen[3], no se puede descartar que Sonar consultara directamente estas fuentes. Si excluimos los modelos con acceso web, Gemini Flash ha sido efectivamente el mejor modelo tres años consecutivos.
¿Por qué un modelo "ligero" supera a los más caros?
Este resultado desafía la intuición de que "más grande = mejor". Existen varias hipótesis complementarias:
-
Eficiencia arquitectónica sobre tamaño bruto. Google ha invertido fuertemente en optimizaciones de destilación y eficiencia de tokens.[4] Gemini 3 Flash genera respuestas más concisas y directas: en pruebas independientes, completó tareas con un 26% menos de tokens que modelos Pro equivalentes.[5]
-
El MIR como test de conocimiento factual, no de razonamiento profundo. La mayoría de preguntas del MIR 2026 requerían reconocimiento directo de patrones clínicos, no cadenas complejas de razonamiento. Un modelo que "sabe" la respuesta directamente no necesita "pensar" 135.000 tokens para llegar a ella.
-
Menos tokens de razonamiento = menos oportunidades de error. Los modelos con cadenas de razonamiento extensas (chain-of-thought) pueden "convencerse" de respuestas incorrectas a través de razonamientos internos elaborados pero erróneos. Flash, con 0 tokens de razonamiento, simplemente responde lo que "sabe".
-
El paradigma "más inteligente, no más grande". Como señala Barclays en su informe de perspectivas de IA para 2026[6], la industria está virando del escalado puro de parámetros hacia la optimización inteligente. Gemini 3 Flash es el ejemplo perfecto de esta tendencia.
La reflexión de fondo: Si un modelo que cuesta 0,33 € por examen es capaz de acertar 199 de 200 preguntas, ¿qué valor añadido real aportan modelos que cuestan 100 o 660 veces más y aciertan lo mismo o incluso menos?
4. Anatomía del Único Fallo
Cada uno de los tres ganadores falló exactamente una pregunta diferente. Ningún fallo se repite entre ellos, lo que sugiere que se trata de errores estocásticos, no de lagunas sistemáticas de conocimiento:
| Modelo | Pregunta fallada | Respondió | Correcta | Especialidad |
|---|---|---|---|---|
| Gemini 3 Flash | Pregunta 118 | C | B | Cardiología |
| o3 | Pregunta 157 | C | D | Neumología |
| GPT-5 | Pregunta 77 | C | A | Dermatología / Traumatología |
Curiosamente, los tres modelos respondieron "C" en su única pregunta fallada. Más allá de la anécdota, lo relevante es que si combináramos las respuestas de los tres modelos usando un sistema de votación mayoritaria, el resultado sería un perfecto 200/200: cada pregunta que falla uno, la aciertan los otros dos.
Esto abre una reflexión fascinante sobre los sistemas de ensemble en IA médica: un comité de tres modelos complementarios podría alcanzar una precisión perfecta en este examen.
5. El Plot Twist: La Plantilla Provisional y la Sombra de ChatGPT
Antes de que se publicaran los resultados definitivos (con 7 preguntas anuladas), la plantilla provisional del Ministerio solo contemplaba 4 anulaciones (preguntas 13, 50, 64 y 161). Con aquella plantilla, el ranking era significativamente diferente.
Las tres preguntas adicionales que se anularon en la plantilla definitiva fueron la 139 (lupus y anemia), la 142 (tiroiditis) y la 208 (cirrosis). El impacto de estas anulaciones fue asimétrico:
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Modelos con 0/3 correctas en las anuladas | +1,00 netas | Máximo beneficio. Las penalizaciones por fallar esas preguntas desaparecen. Ejemplo: Gemini 3 Flash. |
| Modelos con 1/3 correctas | -0,33 netas | Impacto leve negativo. Pierden 1 acierto pero eliminan 2 penalizaciones. Ejemplo: o3. |
| Modelos con 2/3 correctas | -1,67 netas | Impacto moderado. Pierden 2 aciertos y solo eliminan 1 penalización. Ejemplo: GPT-5. |
| Modelos con 3/3 correctas | -3,00 netas | Máximo perjuicio. Pierden 3 aciertos sin compensación. Ejemplo: o1. |
Impacto de las 3 anulaciones adicionales (Q139, Q142, Q208) en la puntuación neta según aciertos previos
¿Quién lideraba con la plantilla provisional?
Con solo 4 preguntas anuladas, GPT-5 y o1 co-lideraban con una puntuación neta aproximada de 193,33 (acertando las 3 preguntas que posteriormente se anularían). Gemini 3 Flash, que falló las tres, ocupaba una posición más rezagada.
La anulación de estas tres preguntas provocó el mayor movimiento de ranking del benchmark: Gemini Flash subió 9 posiciones (de la #11 a la #2), mientras que o1 cayó 7 posiciones (del co-liderato a la #8).
La hipótesis incómoda
Existe un detalle que no podemos obviar. Entre la comunidad de opositores y en foros especializados han circulado rumores — que debemos calificar expresamente de no confirmados y presuntos — sobre la posibilidad de que algunas preguntas del MIR 2026 pudieran haber sido elaboradas, total o parcialmente, con asistencia de herramientas de IA generativa como ChatGPT.[7]
Si estos rumores fueran ciertos (y reiteramos que no tenemos evidencia que lo confirme), explicaría un patrón observable en nuestros datos: los modelos de la familia GPT/OpenAI obtuvieron un rendimiento especialmente elevado en la plantilla provisional, precisamente en preguntas que luego fueron anuladas por contener ambigüedades o errores. Un modelo de IA tendería a "acertar" preguntas generadas por una IA similar, ya que compartirían sesgos de redacción y patrones de formulación.
Nota editorial: Esta hipótesis es especulativa y no pretende ser una afirmación categórica ni una descripción de la realidad. La anulación de preguntas es un proceso rutinario en el MIR que puede deberse a múltiples factores legítimos, incluyendo ambigüedad clínica, actualización de guías médicas y errores de redacción.
6. Sin Contaminación Posible: Metodología Blindada
Un aspecto crucial de nuestro benchmark que le confiere máxima credibilidad es el timing de las evaluaciones:
- Fecha del examen MIR: 24 de enero de 2026
- Fecha de ejecución de todos los modelos: 25 de enero de 2026
- Publicación de la plantilla provisional: 26 de enero de 2026
Todas las evaluaciones se ejecutaron ANTES de que se publicaran las respuestas correctas. Ningún modelo pudo haber sido entrenado, fine-tuneado o contaminado con las respuestas del MIR 2026, porque sencillamente no existían cuando se ejecutaron las evaluaciones.
Esto convierte a MedBench en uno de los pocos benchmarks de IA médica del mundo donde la contaminación de datos es físicamente imposible.[8] Los modelos respondieron con su conocimiento médico preexistente, exactamente igual que un opositor humano.
Además, todos los modelos recibieron el mismo prompt del sistema, sin pistas sobre el año del examen ni información adicional que pudiera sesgar las respuestas.
7. Análisis Profundo de Métricas
Más allá de la puntuación neta, MedBench registra métricas detalladas de cada modelo en cada pregunta: coste, tokens, tiempo de respuesta y confianza. Estos datos revelan patrones fascinantes.
7.1. Coste: De 0,33 € a 217 €
Coste total por examen completo (210 preguntas). Gemini 3 Flash lidera con 0.33 € frente a 216.96 € de o1-pro.
La dispersión de costes es brutal:
-
Gemini 3 Flash.
0,33 € por examen completo (210 preguntas). Es decir, 0,0016 € por pregunta. -
o1-pro.
217 € por examen. 1,08 € por pregunta. Y obtiene peor resultado (98,5% vs 99,5%). -
o3 Deep Research.
167,82 €. Necesita 3,6 minutos por pregunta y consume 6,6 millones de tokens.
La relación coste-beneficio de Gemini Flash es, objetivamente, insuperable. Obtener la máxima puntuación por 0,33 € hace que cualquier gasto superior en modelos con igual o inferior rendimiento sea ineficiente.
7.2. Velocidad de Respuesta
Tiempo medio por pregunta de los modelos Top 15. o3 Deep Research necesita 218 segundos por pregunta (3.6 minutos), mientras que GPT-5.1 Chat responde en 3.2 segundos
La velocidad importa en contextos clínicos reales. Un sistema de apoyo diagnóstico que tarda 3 minutos en responder tiene una utilidad muy diferente a uno que responde en 3 segundos.
Los modelos más rápidos del Top 15:
-
GPT-5.1 Chat.
3,2 segundos/pregunta -
GPT-5 Codex.
3,9 segundos/pregunta -
Gemini 3 Flash.
4,2 segundos/pregunta
Los más lentos:
-
o3 Deep Research.
218 segundos/pregunta (3 min 38 seg) -
GPT-5.2 Pro.
31,8 segundos/pregunta -
Gemini 2.5 Pro Preview 05-06.
24,2 segundos/pregunta
7.3. Tokens: ¿Pensar Más Ayuda?
Desglose de tokens por tipo. o3 Deep Research consume 6.5M tokens por examen (fuera de escala). Gemini 3 Flash: 210K tokens totales sin razonamiento explícito
Una de las preguntas más interesantes que revelan nuestros datos: ¿los tokens de razonamiento mejoran el resultado?
En el caso de Gemini 3 Flash, el valor 0 corresponde a una decisión metodológica nuestra: aunque admite presupuesto de razonamiento, lo evaluamos deliberadamente sin tokens de razonamiento.
| Modelo | Tokens razonamiento | Precisión | Netas |
|---|---|---|---|
| Gemini 3 Flash | 0 | 99,5% | 198,67 |
| o3 | 71K | 99,5% | 198,67 |
| GPT-5 | 135K | 99,5% | 198,67 |
| GPT-5.1 Chat | 6K | 99,0% | 197,33 |
| o1 | 146K | 99,0% | 197,33 |
| o3 Deep Research | 1,74M | 99,0% | 197,33 |
La respuesta es clara: no, al menos no en este examen. El modelo con 0 tokens de razonamiento obtiene el mismo resultado que el modelo con 135.000, y mejor resultado que el modelo con 1,7 millones. Esto sugiere que el MIR 2026 es primariamente un examen de reconocimiento de patrones y conocimiento factual, donde el "pensamiento profundo" no añade valor marginal.
7.4. Confianza: Todos Seguros, Todos Aciertan
La confianza media reportada por los modelos del Top 10 es consistentemente cercana al 100%. Esto indica que los modelos modernos no solo aciertan, sino que saben que están acertando. La calibración de confianza es un indicador crucial para aplicaciones clínicas: un modelo que dice "estoy 100% seguro" y acierta el 99,5% de las veces es extraordinariamente fiable.
8. IA vs. Humanos: La Brecha se Ensancha
Comparación entre la mejor puntuación de IA y el mejor resultado humano conocido por convocatoria. MIR 2026: resultado humano pendiente de publicación oficial
La evolución histórica es inequívoca:
- MIR 2024: La mejor IA superó al mejor humano por 7 netas (193,67 vs 186,67). La IA aventajaba en un 3,7%.
- MIR 2025: La brecha se disparó a 25 netas (190,67 vs 165,67). La IA aventajaba en un 15,1%.
- MIR 2026: Con 198,67 netas y el resultado humano aún pendiente de publicación oficial[9], proyectamos una brecha aún mayor.
Incluso en el caso hipotético de que el mejor humano del MIR 2026 igualara el récord histórico humano de 190 aciertos (MIR 2024), su puntuación neta dependería del número de errores. Asumiendo un rendimiento óptimo de 190 aciertos y 10 errores (186,67 netas), la brecha con la IA sería de 12 netas.
La pregunta ya no es si la IA es mejor que los humanos en el MIR. La pregunta es cuánto mejor.
9. Evolución Histórica: Tres Años de Benchmark
Evolución de la precisión de IA vs. mejor humano en el MIR (2024-2026). MIR 2026: resultado humano pendiente de publicación oficial
El MIR 2025, considerado el más difícil de los tres años analizados (enunciados largos, preguntas "testamento", alta carga cognitiva), provocó una caída temporal en la precisión de todos los modelos. Sin embargo, la tendencia general es clara:
| Métrica | MIR 2024 | MIR 2025 | MIR 2026 |
|---|---|---|---|
| Mejor precisión | 97,5% | 96,5% | 99,5% |
| Media Top 5 | 97,5% | 96,0% | 99,3% |
| Media Top 10 | 97,5% | 95,8% | 99,2% |
| Modelos >95% | 53 | 10 | 58 |
| Modelos >90% | 124 | 54 | 119 |
| Modelos evaluados | 291 | 290 | 290 |
El salto del MIR 2026 se explica por la convergencia de dos factores: la mejora continua de los modelos (especialmente la generación GPT-5.x y Gemini 3) y la menor dificultad relativa del examen.
10. El Mapa del Poder: ¿Quién Domina el Benchmark?
Distribución por proveedor en el Top 20 del benchmark MIR 2026
OpenAI domina numéricamente el Top 20 con 11 modelos, reflejando su estrategia de proliferación de variantes (GPT-5, GPT-5.1, GPT-5.2, versiones Chat, Codex, Pro, Image, etc.).
Google coloca 6 modelos con una estrategia opuesta: menos variantes pero más diferenciadas (Flash vs Pro, distintas versiones de Gemini 2.5 y 3).
Anthropic sitúa 3 modelos en el Top 20 (Claude Opus 4.5 en #14, Claude Opus 4.6 en #15 y Claude Opus 4.1 en #18), confirmando su posición como tercer actor relevante.
Sin embargo, la calidad sobre cantidad favorece a Google: con 6 modelos en el Top 20, coloca el #1 (Gemini Flash) y cuatro modelos entre los 15 primeros. OpenAI necesita 11 modelos para dominar numéricamente.
11. Reflexiones Finales: ¿Qué Significa Todo Esto?
Para la comunidad médica
El MIR 2026 marca un punto de inflexión. Un sistema de IA que acierta el 99,5% de un examen diseñado para seleccionar a los mejores médicos del país no es una curiosidad tecnológica: es un cambio de paradigma.
Esto no significa que la IA vaya a sustituir a los médicos. El MIR evalúa conocimiento teórico en formato test, no habilidades clínicas como la empatía, la comunicación con el paciente, la exploración física o la toma de decisiones bajo incertidumbre extrema. Pero sí demuestra que la IA puede ser un aliado extraordinario como sistema de apoyo al diagnóstico y como herramienta de formación.
Para la comunidad de IA
La victoria de un modelo Flash sobre modelos frontier que cuestan hasta 660 veces más obliga a replantear supuestos fundamentales:
- El escalado bruto de parámetros tiene rendimientos decrecientes en dominios de conocimiento factual bien definidos.
- La eficiencia de la arquitectura importa más que el tamaño en muchos contextos reales.
- Los benchmarks médicos actuales pueden estar alcanzando su techo como medida de capacidad de IA. Cuando 3 modelos rozan el 100%, el examen deja de discriminar.
Para el futuro de MedBench
Ante resultados tan cercanos a la perfección, nuestro benchmark deberá evolucionar. Estamos trabajando en:
- Evaluaciones multimodales con imágenes clínicas y pruebas de imagen
- Métricas de calidad del razonamiento, no solo del acierto final
- Benchmarks de casos clínicos complejos que exijan integración de información a lo largo de múltiples pasos
- Evaluación de alucinaciones y confianza calibrada en contextos de incertidumbre
En Medical Benchmark seguiremos documentando y analizando la evolución de la inteligencia artificial en medicina con rigor, transparencia e independencia. Todos los datos están disponibles en nuestra plataforma de rankings.
Notas y Referencias
- El mejor resultado humano conocido en la historia reciente del MIR es de 190 aciertos y 10 errores (MIR 2024), equivalente a 186,67 netas. Los 199 aciertos de la IA superan este récord en 12 netas.
- Datos del mejor resultado humano MIR 2025 obtenidos de las publicaciones oficiales del Ministerio de Sanidad.
- Las academias MIR publican sus correcciones provisionales horas después del examen. Modelos con acceso web como Sonar Deep Research podrían acceder a estas respuestas durante la evaluación.
- Google Blog: Gemini 3 Flash: frontier intelligence built for speed (diciembre 2025)
- Engadget: Google's Gemini 3 Flash model outperforms GPT-5.2 in some benchmarks (diciembre 2025)
- Barclays Private Bank: AI in 2026: Smarter, not bigger
- Rumores circulados en redes sociales y foros de opositores MIR. No existe evidencia pública confirmada de que el Ministerio de Sanidad haya utilizado herramientas de IA generativa para la elaboración de preguntas del examen MIR 2026.
- Luengo Vera, Ferro Picon, et al.: Evaluating LLMs on the Spanish MIR Exam: A Comparative Analysis 2024/2025 (arXiv, 2025)
- Según la convocatoria oficial, el Ministerio de Sanidad tiene plazo hasta el 24 de febrero de 2026 para publicar los resultados definitivos con los números de orden. Dado el contexto de incidencias administrativas de esta convocatoria, es posible que se agote el plazo.