
199 de 200: A IA Só Falla Unha no MIR 2026
Resultados definitivos do maior benchmark de IA médica en español. Tres modelos empatan con 199 acertos sobre 200 preguntas válidas. Un modelo 'Flash' lidera por terceiro ano consecutivo. Análise exhaustiva de 290 modelos avaliados con datos de custo, velocidade, tokens e precisión.
O 24 de xaneiro de 2026, máis de 12.000 aspirantes enfrontáronse ao exame MIR máis polémico da última década. Pero mentres a comunidade médica debatía sobre anulacións, baremos e caos administrativo, en Medical Benchmark estabamos executando algo sen precedentes: 290 modelos de intelixencia artificial respondendo as 210 preguntas do exame en tempo real, antes de que ninguén coñecese as respostas correctas.
Os resultados definitivos son, sinxelamente, demoledores.
Tres modelos de IA acertaron 199 das 200 preguntas válidas do MIR 2026. Un só fallo. Un 99,5% de precisión. Ningún ser humano na historia do MIR conseguiu xamais unha puntuación comparable.[1]
1. O Podio Imposible: Empate a Tres con 199/200
Por primeira vez nos tres anos de historia de MedBench, tres modelos de IA obtiveron exactamente a mesma puntuación neta: 198,67 netas (199 acertos, 1 fallo, 0 preguntas en branco).
Gemini 3 Flash
Googleo3
OpenAIGPT-5
OpenAIOs tres co-gañadores representan a dous xigantes tecnolóxicos con filosofías radicalmente distintas:
-
Google Gemini 3 Flash Preview
: Un modelo deseñado para ser rápido e económico. Custo total do exame completo: 0,33 € (trinta e tres céntimos de euro). Tempo medio por pregunta: 4,2 segundos. Sen tokens de razoamento explícito. Aínda que o modelo permite configurar un orzamento de tokens de razoamento, neste benchmark decidimos executalo con 0 tokens de razoamento. -
OpenAI o3
: O modelo de razoamento avanzado de OpenAI. Custo: 1,86 €. Xera 71.000 tokens de razoamento internos antes de responder. Tempo: 7,3 segundos por pregunta. -
OpenAI GPT-5
: O buque insignia de OpenAI. Custo: 1,97 €. O máis intensivo en razoamento con 135.000 tokens dedicados. Pero tamén o máis lento dos tres: 18 segundos por pregunta.
Como se desempata?
En MedBench, ante empate en puntuación neta, o criterio de desempate é o custo total do exame (menor custo gaña). Este criterio reflicte unha realidade práctica crucial: se dous modelos teñen idéntica precisión, o que o consegue de forma máis eficiente é obxectivamente superior desde a perspectiva de despregamento clínico.
Con este criterio, Gemini 3 Flash Preview é o gañador oficial do MIR 2026, cun custo 5,7 veces inferior a o3 e 6 veces inferior a GPT-5.
2. O Ranking Completo: Os 15 Mellores
Top 15 modelos de IA no MIR 2026 por puntuación neta (resultados definitivos)
A concentración de puntuacións na zona alta é extraordinaria. Os 10 primeiros modelos móvense nun rango de apenas 1,33 netas (de 198,67 a 197,33). Isto reflicte tanto a calidade dos modelos actuais como a relativa "facilidade" do MIR 2026 para os sistemas de IA, un fenómeno que analizamos en profundidade no noso artigo anterior sobre a tormenta perfecta do MIR 2026.
Datos clave do ranking:
- 3 modelos con 199/200 (99,5% de precisión)
- 9 modelos con 198/200 (99,0%)
- 8 modelos con 197/200 (98,5%)
- Todos os Top 20 superan o 98% de precisión (196/200 ou máis)
- 58 modelos superan o 95% de precisión
- 119 modelos superan o 90%
Para poñer isto en contexto: o mellor resultado humano coñecido no MIR 2025 foi de 174 acertos e 25 erros (87% de precisión, 165,67 netas).[2] Os tres gañadores deste ano teñen un 99,5%.
3. David contra Goliat: A Paradoxa Flash
Esta é quizais a conclusión máis contraintuitiva e fascinante de todo o benchmark: un modelo "Flash" — deseñado para velocidade e baixo custo, non para máxima intelixencia — leva tres anos consecutivos sendo o mellor ou empatando en primeira posición no exame médico máis esixente de España.
*Sonar Deep Research ten acceso a busca web, podendo consultar respostas do exame publicadas en liña
O historial de Gemini Flash:
| Convocatoria | Posición Flash | Netas | Custo | Gañador oficial | Nota |
|---|---|---|---|---|---|
| MIR 2024 | #2 (empate en netas con #3-#5) | 193,33 | 0,32 € | Sonar Deep Research (193,67) | Sonar ten acceso web |
| MIR 2025 | #1 | 190,67 | 0,34 € | Gemini 3 Flash | Gañador indiscutible |
| MIR 2026 | #1 (empate con o3 e GPT-5) | 198,67 | 0,33 € | Gemini 3 Flash (por custo) | Empate a tres |
O caso do MIR 2024 merece unha mención especial. O gañador nominal foi Perplexity Sonar Deep Research con 193,67 netas fronte ás 193,33 de Flash. Con todo, Sonar Deep Research é un modelo con acceso a busca web en tempo real. Dado que as respostas do MIR publícanse en múltiples webs de academias e foros médicos poucos días despois do exame[3], non se pode descartar que Sonar consultara directamente estas fontes. Se excluímos os modelos con acceso web, Gemini Flash foi efectivamente o mellor modelo tres anos consecutivos.
Por que un modelo "lixeiro" supera aos máis caros?
Este resultado desafía a intuición de que "máis grande = mellor". Existen varias hipóteses complementarias:
-
Eficiencia arquitectónica sobre tamaño bruto. Google investiu fortemente en optimizacións de destilación e eficiencia de tokens.[4] Gemini 3 Flash xera respostas máis concisas e directas: en probas independentes, completou tarefas cun 26% menos de tokens que modelos Pro equivalentes.[5]
-
O MIR como test de coñecemento factual, non de razoamento profundo. A maioría de preguntas do MIR 2026 requirían recoñecemento directo de patróns clínicos, non cadeas complexas de razoamento. Un modelo que "sabe" a resposta directamente non necesita "pensar" 135.000 tokens para chegar a ela.
-
Menos tokens de razoamento = menos oportunidades de erro. Os modelos con cadeas de razoamento extensas (chain-of-thought) poden "convencerse" de respostas incorrectas a través de razoamentos internos elaborados pero erróneos. Flash, con 0 tokens de razoamento, simplemente responde o que "sabe".
-
O paradigma "máis intelixente, non máis grande". Como sinala Barclays no seu informe de perspectivas de IA para 2026[6], a industria está virando do escalado puro de parámetros cara á optimización intelixente. Gemini 3 Flash é o exemplo perfecto desta tendencia.
A reflexión de fondo: Se un modelo que custa 0,33 € por exame é capaz de acertar 199 de 200 preguntas, que valor engadido real achegan modelos que custan 100 ou 660 veces máis e acertan o mesmo ou incluso menos?
4. Anatomía do Único Fallo
Cada un dos tres gañadores fallou exactamente unha pregunta diferente. Ningún fallo repítese entre eles, o que suxire que se trata de erros estocásticos, non de lagoas sistemáticas de coñecemento:
| Modelo | Pregunta fallada | Respondeu | Correcta | Especialidade |
|---|---|---|---|---|
| Gemini 3 Flash | Pregunta 118 | C | B | Dermatoloxía |
| o3 | Pregunta 157 | C | D | Farmacoloxía |
| GPT-5 | Pregunta 77 | C | A | Medicina Interna |
Curiosamente, os tres modelos responderon "C" na súa única pregunta fallada. Máis aló da anécdota, o relevante é que se combináramos as respostas dos tres modelos usando un sistema de votación maioritaria, o resultado sería un perfecto 200/200: cada pregunta que falla un, acértana os outros dous.
Isto abre unha reflexión fascinante sobre os sistemas de ensemble en IA médica: un comité de tres modelos complementarios podería alcanzar unha precisión perfecta neste exame.
5. O Plot Twist: A Plantilla Provisional e a Sombra de ChatGPT
Antes de que se publicaran os resultados definitivos (con 7 preguntas anuladas), a plantilla provisional do Ministerio só contemplaba 4 anulacións (preguntas 13, 50, 64 e 161). Con aquela plantilla, o ranking era significativamente diferente.
As tres preguntas adicionais que se anularon na plantilla definitiva foron a 139 (lupus e anemia), a 142 (tiroidite) e a 208 (cirrose). O impacto destas anulacións foi asimétrico:
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Modelos con 0/3 correctas nas anuladas | +1,00 netas | Máximo beneficio. As penalizacións por fallar esas preguntas desaparecen. Exemplo: Gemini 3 Flash. |
| Modelos con 1/3 correctas | -0,33 netas | Impacto leve negativo. Perden 1 acerto pero eliminan 2 penalizacións. Exemplo: o3. |
| Modelos con 2/3 correctas | -1,67 netas | Impacto moderado. Perden 2 acertos e só eliminan 1 penalización. Exemplo: GPT-5. |
| Modelos con 3/3 correctas | -3,00 netas | Máximo prexuízo. Perden 3 acertos sen compensación. Exemplo: o1. |
Impacto das 3 anulacións adicionais (Q139, Q142, Q208) na puntuación neta segundo acertos previos
Quen lideraba coa plantilla provisional?
Con só 4 preguntas anuladas, GPT-5 e o1 co-lideraban cunha puntuación neta aproximada de 193,33 (acertando as 3 preguntas que posteriormente se anularían). Gemini 3 Flash, que fallou as tres, ocupaba unha posición máis rezagada.
A anulación destas tres preguntas provocou o maior movemento de ranking do benchmark: Gemini Flash subiu 9 posicións (da #11 á #2), mentres que o1 caeu 7 posicións (do co-liderado á #8).
A hipótese incómoda
Existe un detalle que non podemos obviar. Entre a comunidade de opositores e en foros especializados circularon rumores — que debemos cualificar expresamente de non confirmados e presuntos — sobre a posibilidade de que algunhas preguntas do MIR 2026 puidesen ser elaboradas, total ou parcialmente, con asistencia de ferramentas de IA xerativa como ChatGPT.[7]
Se estes rumores fosen certos (e reiteramos que non temos evidencia que o confirme), explicaría un patrón observable nos nosos datos: os modelos da familia GPT/OpenAI obtiveron un rendemento especialmente elevado na plantilla provisional, precisamente en preguntas que logo foron anuladas por conter ambigüidades ou erros. Un modelo de IA tendería a "acertar" preguntas xeradas por unha IA similar, xa que compartirían sesgos de redacción e patróns de formulación.
Nota editorial: Esta hipótese é especulativa e non pretende ser unha afirmación categórica nin unha descrición da realidade. A anulación de preguntas é un proceso rutinario no MIR que pode deberse a múltiples factores lexítimos, incluíndo ambigüidade clínica, actualización de guías médicas e erros de redacción.
6. Sen Contaminación Posible: Metodoloxía Blindada
Un aspecto crucial do noso benchmark que lle confíre máxima credibilidade é o timing das avaliacións:
- Data do exame MIR: 24 de xaneiro de 2026
- Data de execución de todos os modelos: 25 de xaneiro de 2026
- Publicación da plantilla provisional: 26 de xaneiro de 2026
Todas as avaliacións executáronse ANTES de que se publicaran as respostas correctas. Ningún modelo puido ser adestrado, fine-tuneado ou contaminado coas respostas do MIR 2026, porque sinxelamente non existían cando se executaron as avaliacións.
Isto converte a MedBench nun dos poucos benchmarks de IA médica do mundo onde a contaminación de datos é fisicamente imposible.[8] Os modelos responderon co seu coñecemento médico preexistente, exactamente igual que un opositor humano.
Ademais, todos os modelos recibiron o mesmo prompt do sistema, sen pistas sobre o ano do exame nin información adicional que puidese sesgar as respostas.
7. Análise Profunda de Métricas
Máis aló da puntuación neta, MedBench rexistra métricas detalladas de cada modelo en cada pregunta: custo, tokens, tempo de resposta e confianza. Estes datos revelan patróns fascinantes.
7.1. Custo: De 0,33 € a 217 €
Custo total por exame completo (210 preguntas). Gemini 3 Flash lidera con 0,33 € fronte aos 217 € de o1-pro, con idéntica ou superior precisión
A dispersión de custos é brutal:
-
Gemini 3 Flash
: 0,33 € por exame completo (210 preguntas). É dicir, 0,0016 € por pregunta. -
o1-pro
: 217 € por exame. 1,08 € por pregunta. E obtén peor resultado (98,5% vs 99,5%). -
o3 Deep Research
: 167,82 €. Necesita 3,6 minutos por pregunta e consome 6,6 millóns de tokens.
A relación custo-beneficio de Gemini Flash é, obxectivamente, insuperable. Obter a máxima puntuación por 0,33 € fai que calquera gasto superior en modelos con igual ou inferior rendemento sexa ineficiente.
7.2. Velocidade de Resposta
Tempo medio por pregunta dos modelos Top 15. o3 Deep Research necesita 218 segundos por pregunta (3,6 minutos), mentres que GPT-5.1 Chat responde en 3,2 segundos
A velocidade importa en contextos clínicos reais. Un sistema de apoio diagnóstico que tarda 3 minutos en responder ten unha utilidade moi diferente a un que responde en 3 segundos.
Os modelos máis rápidos do Top 15:
-
GPT-5.1 Chat
: 3,2 segundos/pregunta -
GPT-5 Codex
: 3,9 segundos/pregunta -
Gemini 3 Flash
: 4,2 segundos/pregunta
Os máis lentos:
-
o3 Deep Research
: 218 segundos/pregunta (3 min 38 seg) -
GPT-5.2 Pro
: 31,8 segundos/pregunta -
Gemini 2.5 Pro Preview 05-06
: 24,2 segundos/pregunta
7.3. Tokens: Pensar Máis Axuda?
Desglose de tokens por tipo. o3 Deep Research consume 6,6M tokens por exame (fóra de escala). Gemini 3 Flash: 210K tokens totais sen razoamento explícito
Unha das preguntas máis interesantes que revelan os nosos datos: os tokens de razoamento melloran o resultado?
No caso de Gemini 3 Flash, o valor 0 corresponde a unha decisión metodolóxica nosa: aínda que admite orzamento de razoamento, avaliámolo deliberadamente sen tokens de razoamento.
| Modelo | Tokens razoamento | Precisión | Netas |
|---|---|---|---|
| Gemini 3 Flash | 0 | 99,5% | 198,67 |
| o3 | 71K | 99,5% | 198,67 |
| GPT-5 | 135K | 99,5% | 198,67 |
| GPT-5.1 Chat | 6K | 99,0% | 197,33 |
| o1 | 146K | 99,0% | 197,33 |
| o3 Deep Research | 1.741K | 99,0% | 197,33 |
A resposta é clara: non, polo menos non neste exame. O modelo con 0 tokens de razoamento obtén o mesmo resultado que o modelo con 135.000, e mellor resultado que o modelo con 1,7 millóns. Isto suxire que o MIR 2026 é primariamente un exame de recoñecemento de patróns e coñecemento factual, onde o "pensamento profundo" non engade valor marxinal.
7.4. Confianza: Todos Seguros, Todos Acertan
A confianza media reportada polos modelos do Top 10 é consistentemente próxima ao 100%. Isto indica que os modelos modernos non só acertan, senón que saben que están acertando. A calibración de confianza é un indicador crucial para aplicacións clínicas: un modelo que di "estou 100% seguro" e acerta o 99,5% das veces é extraordinariamente fiable.
8. IA vs. Humanos: A Fenda Ensánchase
Comparación entre a mellor puntuación de IA e o mellor resultado humano coñecido por convocatoria. MIR 2026: resultado humano pendente de publicación oficial
A evolución histórica é inequívoca:
- MIR 2024: A mellor IA superou ao mellor humano por 7 netas (193,67 vs 186,67). A IA aventaxaba nun 3,7%.
- MIR 2025: A fenda disparouse a 25 netas (190,67 vs 165,67). A IA aventaxaba nun 15,1%.
- MIR 2026: Con 198,67 netas e o resultado humano aínda pendente de publicación oficial[9], proxectamos unha fenda aínda maior.
Incluso no caso hipotético de que o mellor humano do MIR 2026 igualara o récord histórico humano de 190 acertos (MIR 2024), a súa puntuación neta dependería do número de erros. Asumindo un rendemento óptimo de 190 acertos e 10 erros (186,67 netas), a fenda coa IA sería de 12 netas.
A pregunta xa non é se a IA é mellor que os humanos no MIR. A pregunta é canto mellor.
9. Evolución Histórica: Tres Anos de Benchmark
Evolución da precisión da IA vs. mellor humano no MIR (2024-2026). MIR 2026: resultado humano pendente de publicación oficial
O MIR 2025, considerado o máis difícil dos tres anos analizados (enunciados longos, preguntas "testamento", alta carga cognitiva), provocou unha caída temporal na precisión de todos os modelos. Con todo, a tendencia xeral é clara:
| Métrica | MIR 2024 | MIR 2025 | MIR 2026 |
|---|---|---|---|
| Mellor precisión | 97,5% | 96,5% | 99,5% |
| Media Top 5 | 97,5% | 96,0% | 99,3% |
| Media Top 10 | 97,5% | 95,8% | 99,2% |
| Modelos >95% | 18 | 11 | 58 |
| Modelos >90% | 68 | 52 | 119 |
| Modelos avaliados | 291 | 290 | 290 |
O salto do MIR 2026 explícase pola converxencia de dous factores: a mellora continua dos modelos (especialmente a xeración GPT-5.x e Gemini 3) e a menor dificultade relativa do exame.
10. O Mapa do Poder: Quen Domina o Benchmark?
Distribución por provedor no Top 20 do benchmark MIR 2026
OpenAI domina numericamente o Top 20 con 11 modelos, reflectindo a súa estratexia de proliferación de variantes (GPT-5, GPT-5.1, GPT-5.2, versións Chat, Codex, Pro, Image, etc.).
Google coloca 6 modelos cunha estratexia oposta: menos variantes pero máis diferenciadas (Flash vs Pro, distintas versións de Gemini 2.5 e 3).
Anthropic sitúa 3 modelos no Top 20 (Claude Opus 4.5 en #14, Claude Opus 4.6 en #15 e Claude Opus 4.1 en #18), confirmando a súa posición como terceiro actor relevante.
Con todo, a calidade sobre cantidade favorece a Google: con 6 modelos no Top 20, coloca o #1 (Gemini Flash) e catro modelos entre os 15 primeiros. OpenAI necesita 11 modelos para dominar numericamente.
11. Reflexións Finais: Que Significa Todo Isto?
Para a comunidade médica
O MIR 2026 marca un punto de inflexión. Un sistema de IA que acerta o 99,5% dun exame deseñado para seleccionar aos mellores médicos do país non é unha curiosidade tecnolóxica: é un cambio de paradigma.
Isto non significa que a IA vaia substituír aos médicos. O MIR avalía coñecemento teórico en formato test, non habilidades clínicas como a empatía, a comunicación co paciente, a exploración física ou a toma de decisións baixo incerteza extrema. Pero si demostra que a IA pode ser un aliado extraordinario como sistema de apoio ao diagnóstico e como ferramenta de formación.
Para a comunidade de IA
A victoria dun modelo Flash sobre modelos frontier que custan ata 660 veces máis obriga a replantear supostos fundamentais:
- O escalado bruto de parámetros ten rendementos decrecentes en dominios de coñecemento factual ben definidos.
- A eficiencia da arquitectura importa máis que o tamaño en moitos contextos reais.
- Os benchmarks médicos actuais poden estar alcanzando o seu teito como medida de capacidade de IA. Cando 3 modelos rozan o 100%, o exame deixa de discriminar.
Para o futuro de MedBench
Ante resultados tan próximos á perfección, o noso benchmark deberá evolucionar. Estamos traballando en:
- Avaliacións multimodais con imaxes clínicas e probas de imaxe
- Métricas de calidade do razoamento, non só do acerto final
- Benchmarks de casos clínicos complexos que esixan integración de información ao longo de múltiples pasos
- Avaliación de alucinacións e confianza calibrada en contextos de incerteza
En Medical Benchmark seguiremos documentando e analizando a evolución da intelixencia artificial en medicina con rigor, transparencia e independencia. Todos os datos están dispoñibles na nosa plataforma de rankings.
Notas y Referencias
- O mellor resultado humano coñecido na historia recente do MIR é de 190 acertos e 10 erros (MIR 2024), equivalente a 186,67 netas. Os 199 acertos da IA superan este récord en 12 netas.
- Datos do mellor resultado humano MIR 2025 obtidos das publicacións oficiais do Ministerio de Sanidade.
- As academias MIR publican as súas correccións provisionales horas despois do exame. Modelos con acceso web como Sonar Deep Research poderían acceder a estas respostas durante a avaliación.
- Google Blog: Gemini 3 Flash: frontier intelligence built for speed (decembro 2025)
- Engadget: Google's Gemini 3 Flash model outperforms GPT-5.2 in some benchmarks (decembro 2025)
- Barclays Private Bank: AI in 2026: Smarter, not bigger
- Rumores circulados en redes sociais e foros de opositores MIR. Non existe evidencia pública confirmada de que o Ministerio de Sanidade utilizara ferramentas de IA xerativa para a elaboración de preguntas do exame MIR 2026.
- Luengo Vera, Ferro Picon, et al.: Evaluating LLMs on the Spanish MIR Exam: A Comparative Analysis 2024/2025 (arXiv, 2025)
- Segundo a convocatoria oficial, o Ministerio de Sanidade ten prazo ata o 24 de febreiro de 2026 para publicar os resultados definitivos cos números de orde. Dado o contexto de incidencias administrativas desta convocatoria, é posible que se esgote o prazo.