
199 de 200: La IA Només Falla Una en el MIR 2026
Resultats definitius del major benchmark d'IA mèdica en espanyol. Tres models empaten en 199 encerts sobre 200 preguntes vàlides. Un model 'Flash' lidera per tercer any consecutiu. Anàlisi exhaustiva de 290 models avaluats amb dades de cost, velocitat, tokens i precisió.
El 24 de gener de 2026, més de 12.000 aspirants es van enfrontar a l'examen MIR més polèmic de l'última dècada. Però mentre la comunitat mèdica debatia sobre anul·lacions, barems i caos administratiu, en Medical Benchmark estàvem executant alguna cosa sense precedents: 290 models d'intel·ligència artificial responent les 210 preguntes de l'examen en temps real, abans que ningú coneguera les respostes correctes.
Els resultats definitius són, senzillament, demolidors.
Tres models d'IA han encertat 199 de les 200 preguntes vàlides del MIR 2026. Un sol fallo. Un 99,5% de precisió. Cap ser humà en la història del MIR ha aconseguit mai una puntuació comparable.[1]
1. El Podi Impossible: Empat a Tres en 199/200
Per primera volta en els tres anys d'història de MedBench, tres models d'IA han obtingut exactament la mateixa puntuació neta: 198,67 netes (199 encerts, 1 fallo, 0 preguntes en blanc).
Gemini 3 Flash
Googleo3
OpenAIGPT-5
OpenAIEls tres co-guanyadors representen a dos gegants tecnològics en filosofies radicalment distintes:
-
Google Gemini 3 Flash Preview
: Un model dissenyat per a ser ràpid i econòmic. Cost total de l'examen complet: 0,33 € (trenta-tres cèntims d'euro). Temps mitjà per pregunta: 4,2 segons. Sense tokens de raonament explícit. Encara que el model permet configurar un pressupost de tokens per al raonament, en este benchmark el vam executar amb 0 tokens de raonament. -
OpenAI o3
: El model de raonament avançat d'OpenAI. Cost: 1,86 €. Genera 71.000 tokens de raonament interns abans de respondre. Temps: 7,3 segons per pregunta. -
OpenAI GPT-5
: El vaixell insígnia d'OpenAI. Cost: 1,97 €. El més intensiu en raonament en 135.000 tokens dedicats. Però també el més lent dels tres: 18 segons per pregunta.
Com es desempata?
En MedBench, davant empat en puntuació neta, el criteri de desempat és el cost total de l'examen (menor cost guanya). Este criteri reflectix una realitat pràctica crucial: si dos models tenen idèntica precisió, el que ho aconseguix de forma més eficient és objectivament superior des de la perspectiva de desplegament clínic.
En este criteri, Gemini 3 Flash Preview és el guanyador oficial del MIR 2026, en un cost 5,7 vegades inferior a o3 i 6 vegades inferior a GPT-5.
2. El Rànquing Complet: Els 15 Millors
Top 15 models d'IA en el MIR 2026 per puntuació neta (resultats definitius)
La concentració de puntuacions en la zona alta és extraordinària. Els 10 primers models es mouen en un rang de penes 1,33 netes (de 198,67 a 197,33). Açò reflectix tant la qualitat dels models actuals com la relativa "facilitat" del MIR 2026 per als sistemes d'IA, un fenomen que analitzem en profunditat en el nostre article anterior sobre la tempesta perfecta del MIR 2026.
Dades clau del rànquing:
- 3 models en 199/200 (99,5% de precisió)
- 9 models en 198/200 (99,0%)
- 8 models en 197/200 (98,5%)
- Tots els Top 20 superen el 98% de precisió (196/200 o més)
- 58 models superen el 95% de precisió
- 119 models superen el 90%
Per a posar açò en context: el millor resultat humà conegut en el MIR 2025 va ser de 174 encerts i 25 errors (87% de precisió, 165,67 netes).[2] Els tres guanyadors d'enguany tenen un 99,5%.
3. David contra Goliat: La Paradoxa Flash
Esta és potser la conclusió més contraintuïtiva i fascinant de tot el benchmark: un model "Flash" — dissenyat per a velocitat i baix cost, no per a màxima intel·ligència — porta tres anys consecutius sent el millor o empatant en primera posició en l'examen mèdic més exigent d'Espanya.
*Sonar Deep Research té accés a cerca web, podent consultar respostes de l'examen publicades en línia
L'historial de Gemini Flash:
| Convocatòria | Posició Flash | Netes | Cost | Guanyador oficial | Nota |
|---|---|---|---|---|---|
| MIR 2024 | #2 (empat en netes en #3-#5) | 193,33 | 0,32 € | Sonar Deep Research (193,67) | Sonar té accés web |
| MIR 2025 | #1 | 190,67 | 0,34 € | Gemini 3 Flash | Guanyador indiscutible |
| MIR 2026 | #1 (empat en o3 i GPT-5) | 198,67 | 0,33 € | Gemini 3 Flash (per cost) | Empat a tres |
El cas del MIR 2024 mereix una menció especial. El guanyador nominal va ser Perplexity Sonar Deep Research en 193,67 netes enfront de les 193,33 de Flash. No obstant això, Sonar Deep Research és un model en accés a busca web en temps real. Donat que les respostes del MIR es publiquen en múltiples webs d'acadèmies i fòrums mèdics pocs dies després de l'examen[3], no es pot descartar que Sonar consultara directament estes fonts. Si excloem els models en accés web, Gemini Flash ha sigut efectivament el millor model tres anys consecutius.
Per què un model "lleuger" supera als més cars?
Este resultat desafia la intuïció de què "més gran = millor". Existixen diverses hipòtesis complementàries:
-
Eficiència arquitectònica sobre grandària bruta. Google ha invertit fortament en optimitzacions de destil·lació i eficiència de tokens.[4] Gemini 3 Flash genera respostes més concises i directes: en proves independents, va completar tasques en un 26% menys de tokens que models Pro equivalents.[5]
-
El MIR com a test de coneiximent factual, no de raonament profund. La majoria de preguntes del MIR 2026 requerien reconeiximent directe de patrons clínics, no cadenes complexes de raonament. Un model que "sap" la resposta directament no necessita "pensar" 135.000 tokens per a arribar a ella.
-
Menys tokens de raonament = menys oportunitats d'error. Els models en cadenes de raonament extensos (chain-of-thought) poden "convèncer-se" de respostes incorrectes a través de raonaments interns elaborats però erronis. Flash, en 0 tokens de raonament, simplement respon el que "sap".
-
El paradigma "més intel·ligent, no més gran". Com assenyala Barclays en el seu informe de perspectives d'IA per a 2026[6], la indústria està virant de l'escalat pur de paràmetres cap a l'optimització intel·ligent. Gemini 3 Flash és l'exemple perfecte d'esta tendència.
La reflexió de fons: Si un model que costa 0,33 € per examen és capaç d'encertar 199 de 200 preguntes, què valor afegit real aporten models que costen 100 o 660 vegades més i encerten el mateix o inclús menys?
4. Anatomia de l'Únic Fallo
Cada un dels tres guanyadors va fallar exactament una pregunta diferent. Cap fallo es repetix entre ells, la qual cosa suggerix que es tracta d'errors estocàstics, no de llacunes sistemàtiques de coneixement:
| Model | Pregunta fallada | Va respondre | Correcta | Especialitat |
|---|---|---|---|---|
| Gemini 3 Flash | Pregunta 118 | C | B | Dermatologia |
| o3 | Pregunta 157 | C | D | Farmacologia |
| GPT-5 | Pregunta 77 | C | A | Medicina Interna |
Curiosament, els tres models van respondre "C" en la seua única pregunta fallada. Més enllà de l'anècdota, el rellevant és que si combinàrem les respostes dels tres models utilitzant un sistema de votació majoritària, el resultat seria un perfecte 200/200: cada pregunta que falla un, l'encerten els altres dos.
Açò obri una reflexió fascinant sobre els sistemes d'ensemble en IA mèdica: un comité de tres models complementaris podria aconseguir una precisió perfecta en este examen.
5. El Plot Twist: La Plantilla Provisional i l'Ombra de ChatGPT
Abans que es publicaren els resultats definitius (en 7 preguntes anul·lades), la plantilla provisional del Ministeri només contemplava 4 anul·lacions (preguntes 13, 50, 64 i 161). En aquella plantilla, el rànquing era significativament diferent.
Les tres preguntes addicionals que es van anul·lar en la plantilla definitiva van ser la 139 (lupus i anèmia), la 142 (tiroiditis) i la 208 (cirrosi). L'impacte d'estes anul·lacions va ser asimètric:
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Models en 0/3 correctes en les anul·lades | +1,00 netes | Màxim benefici. Les penalitzacions per fallar estes preguntes desapareixen. Exemple: Gemini 3 Flash. |
| Models en 1/3 correctes | -0,33 netes | Impacte lleu negatiu. Perden 1 encert però eliminen 2 penalitzacions. Exemple: o3. |
| Models en 2/3 correctes | -1,67 netes | Impacte moderat. Perden 2 encerts i només eliminen 1 penalització. Exemple: GPT-5. |
| Models en 3/3 correctes | -3,00 netes | Màxim perjudici. Perden 3 encerts sense compensació. Exemple: o1. |
Impacte de les 3 anul·lacions addicionals (Q139, Q142, Q208) en la puntuació neta segons encerts previs
Qui liderava en la plantilla provisional?
En només 4 preguntes anul·lades, GPT-5 i o1 co-lideraven en una puntuació neta aproximada de 193,33 (encertant les 3 preguntes que posteriorment es anul·larien). Gemini 3 Flash, que va fallar les tres, ocupava una posició més retardada.
L'anul·lació d'estes tres preguntes va provocar el major moviment de rànquing del benchmark: Gemini Flash va pujar 9 posicions (de la #11 a la #2), mentres que o1 va caure 7 posicions (del co-lideratge a la #8).
La hipòtesi incòmoda
Existix un detall que no podem obviar. Entre la comunitat d'opositors i en fòrums especialitzats han circulat rumors — que hem de qualificar expressament de no confirmats i presumptes — sobre la possibilitat que algunes preguntes del MIR 2026 pogueren haver sigut elaborades, total o parcialment, en assistència de ferramentes d'IA generativa com ChatGPT.[7]
Si estos rumors foren certs (i reiterem que no tenim evidència que ho confirme), explicaria un patró observable en les nostres dades: els models de la família GPT/OpenAI van obtindre un rendiment especialment elevat en la plantilla provisional, precisament en preguntes que després van ser anul·lades per contindre ambigüitats o errors. Un model d'IA tendria a "encertar" preguntes generades per una IA similar, ja que compartirien biaixos de redacció i patrons de formulació.
Nota editorial: Esta hipòtesi és especulativa i no pretén ser una afirmació categòrica ni una descripció de la realitat. L'anul·lació de preguntes és un procés rutinari en el MIR que pot deure's a múltiples factors legítims, incloent ambigüitat clínica, actualització de guies mèdiques i errors de redacció.
6. Sense Contaminació Possible: Metodologia Blindada
Un aspecte crucial del nostre benchmark que li conferix màxima credibilitat és el timing de les avaluacions:
- Data de l'examen MIR: 24 de gener de 2026
- Data d'execució de tots els models: 25 de gener de 2026
- Publicació de la plantilla provisional: 26 de gener de 2026
Totes les avaluacions es van executar ABANS que es publicaren les respostes correctes. Cap model va poder haver sigut entrenat, fine-tuneat o contaminat en les respostes del MIR 2026, perquè senzillament no existien quan es van executar les avaluacions.
Açò convertix a MedBench en un dels pocs benchmarks d'IA mèdica del món on la contaminació de dades és físicament impossible.[8] Els models van respondre en el seu coneixement mèdic preexistent, exactament igual que un opositor humà.
A més, tots els models van rebre el mateix prompt del sistema, sense pistes sobre l'any de l'examen ni informació addicional que poguera biasar les respostes.
7. Anàlisi Profunda de Mètriques
Més enllà de la puntuació neta, MedBench registra mètriques detallades de cada model en cada pregunta: cost, tokens, temps de resposta i confiança. Estes dades revelen patrons fascinants.
7.1. Cost: De 0,33 € a 217 €
Cost total per examen complet (210 preguntes). Gemini 3 Flash lidera amb 0,33 € enfront dels 217 € d'o1-pro, amb idèntica o superior precisió
La dispersió de costs és brutal:
-
Gemini 3 Flash
: 0,33 € per examen complet (210 preguntes). És a dir, 0,0016 € per pregunta. -
o1-pro
: 217 € per examen. 1,08 € per pregunta. I obté pitjor resultat (98,5% vs 99,5%). -
o3 Deep Research
: 167,82 €. Necessita 3,6 minuts per pregunta i consumix 6,6 milions de tokens.
La relació cost-benefici de Gemini Flash és, objectivament, insuperable. Obtindre la màxima puntuació per 0,33 € fa que qualsevol gasto superior en models en igual o inferior rendiment siga ineficient.
7.2. Velocitat de Resposta
Temps mitjà per pregunta dels models Top 15. o3 Deep Research necessita 218 segons per pregunta (3,6 minuts), mentre que GPT-5.1 Chat respon en 3,2 segons
La velocitat importa en contextos clínics reals. Un sistema de suport diagnòstic que tarda 3 minuts a respondre té una utilitat molt diferent a un que respon en 3 segons.
Els models més ràpits del Top 15:
-
GPT-5.1 Chat
: 3,2 segons/pregunta -
GPT-5 Codex
: 3,9 segons/pregunta -
Gemini 3 Flash
: 4,2 segons/pregunta
Els més lents:
-
o3 Deep Research
: 218 segons/pregunta (3 min 38 seg) -
GPT-5.2 Pro
: 31,8 segons/pregunta -
Gemini 2.5 Pro Preview 05-06
: 24,2 segons/pregunta
7.3. Tokens: Pensar Més Ajuda?
Desglossament de tokens per tipus. o3 Deep Research consumix 6,6M tokens per examen (fora d'escala). Gemini 3 Flash: 210K tokens totals sense raonament explícit
Una de les preguntes més interessants que revelen les nostres dades: els tokens de raonament milloren el resultat?
En el cas de Gemini 3 Flash, el valor 0 correspon a una decisió metodològica nostra: encara que admet pressupost de raonament, el vam avaluar deliberadament sense tokens de raonament.
| Model | Tokens raonament | Precisió | Netes |
|---|---|---|---|
| Gemini 3 Flash | 0 | 99,5% | 198,67 |
| o3 | 71K | 99,5% | 198,67 |
| GPT-5 | 135K | 99,5% | 198,67 |
| GPT-5.1 Chat | 6K | 99,0% | 197,33 |
| o1 | 146K | 99,0% | 197,33 |
| o3 Deep Research | 1.741K | 99,0% | 197,33 |
La resposta és clara: no, almenys no en este examen. El model en 0 tokens de raonament obté el mateix resultat que el model en 135.000, i millor resultat que el model en 1,7 milions. Açò suggerix que el MIR 2026 és primàriament un examen de reconeiximent de patrons i coneixement factual, on el "pensament profund" no afig valor marginal.
7.4. Confiança: Tots Segurs, Tots Encerten
La confiança mitjana reportada pels models del Top 10 és consistentment pròxima al 100%. Açò indica que els models moderns no només encerten, sinó que saben que estan encertant. La calibració de confiança és un indicador crucial per a aplicacions clíniques: un model que diu "estic 100% segur" i encerta el 99,5% de les vegades és extraordinàriament fiable.
8. IA vs. Humans: L'Escletxa s'Eixampla
Comparació entre la millor puntuació d'IA i el millor resultat humà conegut per convocatòria. MIR 2026: resultat humà pendent de publicació oficial
L'evolució històrica és inequívoca:
- MIR 2024: La millor IA va superar al millor humà per 7 netes (193,67 vs 186,67). La IA aventajava en un 3,7%.
- MIR 2025: L'escletxa es va disparar a 25 netes (190,67 vs 165,67). La IA aventajava en un 15,1%.
- MIR 2026: En 198,67 netes i el resultat humà encara pendent de publicació oficial[9], projectem una escletxa encara major.
Inclús en el cas hipotètic que el millor humà del MIR 2026 igualara el rècord històric humà de 190 encerts (MIR 2024), la seua puntuació neta dependria del nombre d'errors. Assumint un rendiment òptim de 190 encerts i 10 errors (186,67 netes), l'escletxa en la IA seria de 12 netes.
La pregunta ja no és si la IA és millor que els humans en el MIR. La pregunta és quant millor.
9. Evolució Històrica: Tres Anys de Benchmark
Evolució de la precisió de la IA vs. millor humà en el MIR (2024-2026). MIR 2026: resultat humà pendent de publicació oficial
El MIR 2025, considerat el més difícil dels tres anys analitzats (enunciats llargs, preguntes "testament", alta càrrega cognitiva), va provocar una caiguda temporal en la precisió de tots els models. No obstant això, la tendència general és clara:
| Mètrica | MIR 2024 | MIR 2025 | MIR 2026 |
|---|---|---|---|
| Millor precisió | 97,5% | 96,5% | 99,5% |
| Mitjana Top 5 | 97,5% | 96,0% | 99,3% |
| Mitjana Top 10 | 97,5% | 95,8% | 99,2% |
| Models >95% | 18 | 11 | 58 |
| Models >90% | 68 | 52 | 119 |
| Models avaluats | 291 | 290 | 290 |
El salt del MIR 2026 s'explica per la convergència de dos factors: la millora contínua dels models (especialment la generació GPT-5.x i Gemini 3) i la menor dificultat relativa de l'examen.
10. El Mapa del Poder: Qui Domina el Benchmark?
Distribució per proveïdor en el Top 20 del benchmark MIR 2026
OpenAI domina numèricament el Top 20 en 11 models, reflectint la seua estratègia de proliferació de variants (GPT-5, GPT-5.1, GPT-5.2, versions Chat, Codex, Pro, Image, etc.).
Google col·loca 6 models en una estratègia oposada: menys variants però més diferenciades (Flash vs Pro, distintes versions de Gemini 2.5 i 3).
Anthropic situa 3 models en el Top 20 (Claude Opus 4.5 en #14, Claude Opus 4.6 en #15 i Claude Opus 4.1 en #18), confirmant la seua posició com a tercer actor rellevant.
No obstant això, la qualitat sobre quantitat afavorix a Google: en 6 models en el Top 20, col·loca el #1 (Gemini Flash) i quatre models entre els 15 primers. OpenAI necessita 11 models per a dominar numèricament.
11. Reflexions Finals: Què Significa Tot Açò?
Per a la comunitat mèdica
El MIR 2026 marca un punt d'inflexió. Un sistema d'IA que encerta el 99,5% d'un examen dissenyat per a seleccionar als millors metges del país no és una curiositat tecnològica: és un canvi de paradigma.
Açò no significa que la IA vaja a substituir als metges. El MIR avalua coneixement teòric en format test, no habilitats clíniques com l'empatia, la comunicació en el pacient, l'exploració física o la presa de decisions baix incertesa extrema. Però sí demostra que la IA pot ser un aliat extraordinari com a sistema de suport al diagnòstic i com a ferramenta de formació.
Per a la comunitat d'IA
La victòria d'un model Flash sobre models frontier que costen fins a 660 vegades més obliga a replantejar suposats fonamentals:
- L'escalat brut de paràmetres té rendiments decreixents en dominis de coneixement factual ben definits.
- L'eficiència de l'arquitectura importa més que la grandària en molts contextos reals.
- Els benchmarks mèdics actuals poden estar aconseguint el seu sostre com a mesura de capacitat d'IA. Quan 3 models voren el 100%, l'examen deixa de discriminar.
Per al futur de MedBench
Davant resultats tan pròxims a la perfecció, el nostre benchmark haurà d'evolucionar. Estem treballant en:
- Avaluacions multimodals en imatges clíniques i proves d'imatge
- Mètriques de qualitat del raonament, no només de l'encert final
- Benchmarks de casos clínics complexos que exigisquen integració d'informació al llarg de múltiples passos
- Avaluació d'al·lucinacions i confiança calibrada en contextos d'incertesa
En Medical Benchmark continuarem documentant i analitzant l'evolució de la intel·ligència artificial en medicina en rigor, transparència i independència. Totes les dades estan disponibles en la nostra plataforma de rànquings.
Notas y Referencias
- El millor resultat humà conegut en la història recent del MIR és de 190 encerts i 10 errors (MIR 2024), equivalent a 186,67 netes. Els 199 encerts de la IA superen este rècord en 12 netes.
- Dades del millor resultat humà MIR 2025 obtingudes de les publicacions oficials del Ministeri de Sanitat.
- Les acadèmies MIR publiquen les seues correccions provisionals hores després de l'examen. Models en accés web com Sonar Deep Research podrien accedir a estes respostes durant l'avaluació.
- Google Blog: Gemini 3 Flash: frontier intelligence built for speed (desembre 2025)
- Engadget: Google's Gemini 3 Flash model outperforms GPT-5.2 in some benchmarks (desembre 2025)
- Barclays Private Bank: AI in 2026: Smarter, not bigger
- Rumors circulats en xarxes socials i fòrums d'opositors MIR. No existix evidència pública confirmada que el Ministeri de Sanitat haja utilitzat ferramentes d'IA generativa per a l'elaboració de preguntes de l'examen MIR 2026.
- Luengo Vera, Ferro Picon, et al.: Evaluating LLMs on the Spanish MIR Exam: A Comparative Analysis 2024/2025 (arXiv, 2025)
- Segons la convocatòria oficial, el Ministeri de Sanitat té termini fins al 24 de febrer de 2026 per a publicar els resultats definitius en els números d'orde. Donat el context d'incidències administratives d'esta convocatòria, és possible que s'esgote el termini.