
199 de 200: La IA Només Falla Una al MIR 2026
Resultats definitius del major benchmark d'IA mèdica en espanyol. Tres models empaten amb 199 encerts sobre 200 preguntes vàlides. Un model 'Flash' lidera per tercer any consecutiu. Anàlisi exhaustiva de 290 models avaluats amb dades de cost, velocitat, tokens i precisió.
El 24 de gener de 2026, més de 12.000 aspirants es van enfrontar a l'examen MIR més polèmic de l'última dècada. Però mentre la comunitat mèdica debatia sobre anul·lacions, barems i caos administratiu, a Medical Benchmark estàvem executant alguna cosa sense precedents: 290 models d'intel·ligència artificial responent les 210 preguntes de l'examen en temps real, abans que ningú conegués les respostes correctes.
Els resultats definitius són, senzillament, demolidors.
Tres models d'IA han encertat 199 de les 200 preguntes vàlides del MIR 2026. Un sol error. Un 99,5% de precisió. Cap ésser humà en la història del MIR ha aconseguit mai una puntuació comparable.[1]
1. El Podi Impossible: Empat a Tres amb 199/200
Per primera vegada en els tres anys d'història de MedBench, tres models d'IA han obtingut exactament la mateixa puntuació neta: 198,67 netes (199 encerts, 1 error, 0 preguntes en blanc).
Gemini 3 Flash
Googleo3
OpenAIGPT-5
OpenAIEls tres co-guanyadors representen dos gegants tecnològics amb filosofies radicalment diferents:
-
Google Gemini 3 Flash Preview
: Un model dissenyat per ser ràpid i econòmic. Cost total de l'examen complet: 0,33 € (trenta-tres cèntims d'euro). Temps mitjà per pregunta: 4,2 segons. Sense tokens de raonament explícit. Tot i que el model permet configurar un pressupost de tokens per al raonament, en aquest benchmark el vam executar amb 0 tokens de raonament. -
OpenAI o3
: El model de raonament avançat d'OpenAI. Cost: 1,86 €. Genera 71.000 tokens de raonament interns abans de respondre. Temps: 7,3 segons per pregunta. -
OpenAI GPT-5
: El vaixell insígnia d'OpenAI. Cost: 1,97 €. El més intensiu en raonament amb 135.000 tokens dedicats. Però també el més lent dels tres: 18 segons per pregunta.
Com es desempata?
A MedBench, davant empat en puntuació neta, el criteri de desempat és el cost total de l'examen (menor cost guanya). Aquest criteri reflecteix una realitat pràctica crucial: si dos models tenen idèntica precisió, el que ho aconsegueix de forma més eficient és objectivament superior des de la perspectiva de desplegament clínic.
Amb aquest criteri, Gemini 3 Flash Preview és el guanyador oficial del MIR 2026, amb un cost 5,7 vegades inferior a o3 i 6 vegades inferior a GPT-5.
2. El Rànquing Complet: Els 15 Millors
Top 15 models d'IA al MIR 2026 per puntuació neta (resultats definitius)
La concentració de puntuacions a la zona alta és extraordinària. Els 10 primers models es mouen en un rang de tot just 1,33 netes (de 198,67 a 197,33). Això reflecteix tant la qualitat dels models actuals com la relativa "facilitat" del MIR 2026 per als sistemes d'IA, un fenomen que analitzem en profunditat al nostre article anterior sobre la tempesta perfecta del MIR 2026.
Dades clau del rànquing:
- 3 models amb 199/200 (99,5% de precisió)
- 9 models amb 198/200 (99,0%)
- 8 models amb 197/200 (98,5%)
- Tots els Top 20 superen el 98% de precisió (196/200 o més)
- 58 models superen el 95% de precisió
- 119 models superen el 90%
Per posar això en context: el millor resultat humà conegut al MIR 2025 va ser de 174 encerts i 25 errors (87% de precisió, 165,67 netes).[2] Els tres guanyadors d'aquest any tenen un 99,5%.
3. David contra Goliat: La Paradoxa Flash
Aquesta és potser la conclusió més contraintuitiva i fascinant de tot el benchmark: un model "Flash" — dissenyat per a velocitat i baix cost, no per a màxima intel·ligència — porta tres anys consecutius sent el millor o empatant a primera posició a l'examen mèdic més exigent d'Espanya.
*Sonar Deep Research té accés a cerca web, podent consultar respostes de l'examen publicades en línia
L'historial de Gemini Flash:
| Convocatòria | Posició Flash | Netes | Cost | Guanyador oficial | Nota |
|---|---|---|---|---|---|
| MIR 2024 | #2 (empat en netes amb #3-#5) | 193,33 | 0,32 € | Sonar Deep Research (193,67) | Sonar té accés web |
| MIR 2025 | #1 | 190,67 | 0,34 € | Gemini 3 Flash | Guanyador indiscutible |
| MIR 2026 | #1 (empat amb o3 i GPT-5) | 198,67 | 0,33 € | Gemini 3 Flash (per cost) | Empat a tres |
El cas del MIR 2024 mereix una menció especial. El guanyador nominal va ser Perplexity Sonar Deep Research amb 193,67 netes enfront de les 193,33 de Flash. No obstant això, Sonar Deep Research és un model amb accés a cerca web en temps real. Atès que les respostes del MIR es publiquen a múltiples webs d'acadèmies i fòrums mèdics pocs dies després de l'examen[3], no es pot descartar que Sonar consultés directament aquestes fonts. Si excloem els models amb accés web, Gemini Flash ha estat efectivament el millor model tres anys consecutius.
Per què un model "lleuger" supera els més cars?
Aquest resultat desafia la intuïció que "més gran = millor". Existeixen diverses hipòtesis complementàries:
-
Eficiència arquitectònica sobre mida bruta. Google ha invertit fortament en optimitzacions de destil·lació i eficiència de tokens.[4] Gemini 3 Flash genera respostes més concises i directes: en proves independents, va completar tasques amb un 26% menys de tokens que models Pro equivalents.[5]
-
El MIR com a test de coneixement factual, no de raonament profund. La majoria de preguntes del MIR 2026 requerien reconeixement directe de patrons clínics, no cadenes complexes de raonament. Un model que "sap" la resposta directament no necessita "pensar" 135.000 tokens per arribar-hi.
-
Menys tokens de raonament = menys oportunitats d'error. Els models amb cadenes de raonament extenses (chain-of-thought) poden "convèncer-se" de respostes incorrectes a través de raonaments interns elaborats però erronis. Flash, amb 0 tokens de raonament, simplement respon el que "sap".
-
El paradigma "més intel·ligent, no més gran". Com assenyala Barclays al seu informe de perspectives d'IA per a 2026[6], la indústria està virant de l'escalat pur de paràmetres cap a l'optimització intel·ligent. Gemini 3 Flash és l'exemple perfecte d'aquesta tendència.
La reflexió de fons: Si un model que costa 0,33 € per examen és capaç d'encertar 199 de 200 preguntes, quin valor afegit real aporten models que costen 100 o 660 vegades més i encerten el mateix o fins i tot menys?
4. Anatomia de l'Únic Error
Cadascun dels tres guanyadors va fallar exactament una pregunta diferent. Cap error es repeteix entre ells, la qual cosa suggereix que es tracta d'errors estocàstics, no de llacunes sistemàtiques de coneixement:
| Model | Pregunta fallada | Va respondre | Correcta | Especialitat |
|---|---|---|---|---|
| Gemini 3 Flash | Pregunta 118 | C | B | Dermatologia |
| o3 | Pregunta 157 | C | D | Farmacologia |
| GPT-5 | Pregunta 77 | C | A | Medicina Interna |
Curiosament, els tres models van respondre "C" a la seva única pregunta fallada. Més enllà de l'anècdota, el rellevant és que si combinéssim les respostes dels tres models utilitzant un sistema de votació majoritària, el resultat seria un perfecte 200/200: cada pregunta que falla un, l'encerten els altres dos.
Això obre una reflexió fascinant sobre els sistemes d'ensemble en IA mèdica: un comitè de tres models complementaris podria assolir una precisió perfecta en aquest examen.
5. El Plot Twist: La Plantilla Provisional i l'Ombra de ChatGPT
Abans que es publiquessin els resultats definitius (amb 7 preguntes anul·lades), la plantilla provisional del Ministeri només contemplava 4 anul·lacions (preguntes 13, 50, 64 i 161). Amb aquella plantilla, el rànquing era significativament diferent.
Les tres preguntes addicionals que es van anul·lar a la plantilla definitiva van ser la 139 (lupus i anèmia), la 142 (tiroiditis) i la 208 (cirrosi). L'impacte d'aquestes anul·lacions va ser asimètric:
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Models amb 0/3 correctes a les anul·lades | +1,00 netes | Màxim benefici. Les penalitzacions per fallar aquestes preguntes desapareixen. Exemple: Gemini 3 Flash. |
| Models amb 1/3 correctes | -0,33 netes | Impacte lleu negatiu. Perden 1 encert però eliminen 2 penalitzacions. Exemple: o3. |
| Models amb 2/3 correctes | -1,67 netes | Impacte moderat. Perden 2 encerts i només eliminen 1 penalització. Exemple: GPT-5. |
| Models amb 3/3 correctes | -3,00 netes | Màxim perjudici. Perden 3 encerts sense compensació. Exemple: o1. |
Impacte de les 3 anul·lacions addicionals (Q139, Q142, Q208) a la puntuació neta segons encerts previs
Qui liderava amb la plantilla provisional?
Amb només 4 preguntes anul·lades, GPT-5 i o1 co-lideraven amb una puntuació neta aproximada de 193,33 (encertant les 3 preguntes que posteriorment s'anul·larien). Gemini 3 Flash, que va fallar les tres, ocupava una posició més endarrerida.
L'anul·lació d'aquestes tres preguntes va provocar el major moviment de rànquing del benchmark: Gemini Flash va pujar 9 posicions (de la #11 a la #2), mentre que o1 va caure 7 posicions (del co-lideratge a la #8).
La hipòtesi incòmoda
Existeix un detall que no podem obviar. Entre la comunitat d'opositors i en fòrums especialitzats han circulat rumors — que hem de qualificar expressament de no confirmats i presumptes — sobre la possibilitat que algunes preguntes del MIR 2026 poguessin haver estat elaborades, total o parcialment, amb assistència d'eines d'IA generativa com ChatGPT.[7]
Si aquests rumors fossin certs (i reiterem que no tenim evidència que ho confirmi), explicaria un patró observable a les nostres dades: els models de la família GPT/OpenAI van obtenir un rendiment especialment elevat a la plantilla provisional, precisament en preguntes que després van ser anul·lades per contenir ambigüitats o errors. Un model d'IA tendria a "encertar" preguntes generades per una IA similar, ja que compartirien biaixos de redacció i patrons de formulació.
Nota editorial: Aquesta hipòtesi és especulativa i no pretén ser una afirmació categòrica ni una descripció de la realitat. L'anul·lació de preguntes és un procés rutinari al MIR que pot deure's a múltiples factors legítims, incloent ambigüitat clínica, actualització de guies mèdiques i errors de redacció.
6. Sense Contaminació Possible: Metodologia Blindada
Un aspecte crucial del nostre benchmark que li confereix màxima credibilitat és el timing de les avaluacions:
- Data de l'examen MIR: 24 de gener de 2026
- Data d'execució de tots els models: 25 de gener de 2026
- Publicació de la plantilla provisional: 26 de gener de 2026
Totes les avaluacions es van executar ABANS que es publiquessin les respostes correctes. Cap model no va poder haver estat entrenat, fine-tunejat o contaminat amb les respostes del MIR 2026, perquè senzillament no existien quan es van executar les avaluacions.
Això converteix MedBench en un dels pocs benchmarks d'IA mèdica del món on la contaminació de dades és físicament impossible.[8] Els models van respondre amb el seu coneixement mèdic preexistent, exactament igual que un opositor humà.
A més, tots els models van rebre el mateix prompt del sistema, sense pistes sobre l'any de l'examen ni informació addicional que pogués esbiaixar les respostes.
7. Anàlisi Profunda de Mètriques
Més enllà de la puntuació neta, MedBench registra mètriques detallades de cada model en cada pregunta: cost, tokens, temps de resposta i confiança. Aquestes dades revelen patrons fascinants.
7.1. Cost: De 0,33 € a 217 €
Cost total per examen complet (210 preguntes). Gemini 3 Flash lidera amb 0,33 € enfront dels 217 € d'o1-pro, amb idèntica o superior precisió
La dispersió de costos és brutal:
-
Gemini 3 Flash
: 0,33 € per examen complet (210 preguntes). És a dir, 0,0016 € per pregunta. -
o1-pro
: 217 € per examen. 1,08 € per pregunta. I obté pitjor resultat (98,5% vs 99,5%). -
o3 Deep Research
: 167,82 €. Necessita 3,6 minuts per pregunta i consumeix 6,6 milions de tokens.
La relació cost-benefici de Gemini Flash és, objectivament, insuperable. Obtenir la màxima puntuació per 0,33 € fa que qualsevol despesa superior en models amb igual o inferior rendiment sigui ineficient.
7.2. Velocitat de Resposta
Temps mitjà per pregunta dels models Top 15. o3 Deep Research necessita 218 segons per pregunta (3,6 minuts), mentre que GPT-5.1 Chat respon en 3,2 segons
La velocitat importa en contextos clínics reals. Un sistema de suport diagnòstic que triga 3 minuts a respondre té una utilitat molt diferent a un que respon en 3 segons.
Els models més ràpids del Top 15:
-
GPT-5.1 Chat
: 3,2 segons/pregunta -
GPT-5 Codex
: 3,9 segons/pregunta -
Gemini 3 Flash
: 4,2 segons/pregunta
Els més lents:
-
o3 Deep Research
: 218 segons/pregunta (3 min 38 seg) -
GPT-5.2 Pro
: 31,8 segons/pregunta -
Gemini 2.5 Pro Preview 05-06
: 24,2 segons/pregunta
7.3. Tokens: Pensar Més Ajuda?
Desglossament de tokens per tipus. o3 Deep Research consumeix 6,6M tokens per examen (fora d'escala). Gemini 3 Flash: 210K tokens totals sense raonament explícit
Una de les preguntes més interessants que revelen les nostres dades: els tokens de raonament milloren el resultat?
En el cas de Gemini 3 Flash, el valor 0 correspon a una decisió metodològica nostra: tot i que admet pressupost de raonament, el vam avaluar deliberadament sense tokens de raonament.
| Model | Tokens raonament | Precisió | Netes |
|---|---|---|---|
| Gemini 3 Flash | 0 | 99,5% | 198,67 |
| o3 | 71K | 99,5% | 198,67 |
| GPT-5 | 135K | 99,5% | 198,67 |
| GPT-5.1 Chat | 6K | 99,0% | 197,33 |
| o1 | 146K | 99,0% | 197,33 |
| o3 Deep Research | 1.741K | 99,0% | 197,33 |
La resposta és clara: no, almenys no en aquest examen. El model amb 0 tokens de raonament obté el mateix resultat que el model amb 135.000, i millor resultat que el model amb 1,7 milions. Això suggereix que el MIR 2026 és primordialment un examen de reconeixement de patrons i coneixement factual, on el "pensament profund" no afegeix valor marginal.
7.4. Confiança: Tots Segurs, Tots Encerten
La confiança mitjana reportada pels models del Top 10 és consistentment propera al 100%. Això indica que els models moderns no només encerten, sinó que saben que estan encertant. La calibració de confiança és un indicador crucial per a aplicacions clíniques: un model que diu "estic 100% segur" i encerta el 99,5% de les vegades és extraordinàriament fiable.
8. IA vs. Humans: La Bretxa s'Eixampla
Comparació entre la millor puntuació d'IA i el millor resultat humà conegut per convocatòria. MIR 2026: resultat humà pendent de publicació oficial
L'evolució històrica és inequívoca:
- MIR 2024: La millor IA va superar el millor humà per 7 netes (193,67 vs 186,67). La IA aventajava en un 3,7%.
- MIR 2025: La bretxa es va disparar a 25 netes (190,67 vs 165,67). La IA aventajava en un 15,1%.
- MIR 2026: Amb 198,67 netes i el resultat humà encara pendent de publicació oficial[9], projectem una bretxa encara més gran.
Fins i tot en el cas hipotètic que el millor humà del MIR 2026 igualés el rècord històric humà de 190 encerts (MIR 2024), la seva puntuació neta dependria del nombre d'errors. Assumint un rendiment òptim de 190 encerts i 10 errors (186,67 netes), la bretxa amb la IA seria de 12 netes.
La pregunta ja no és si la IA és millor que els humans al MIR. La pregunta és quant millor.
9. Evolució Històrica: Tres Anys de Benchmark
Evolució de la precisió de la IA vs. millor humà al MIR (2024-2026). MIR 2026: resultat humà pendent de publicació oficial
El MIR 2025, considerat el més difícil dels tres anys analitzats (enunciats llargs, preguntes "testament", alta càrrega cognitiva), va provocar una caiguda temporal en la precisió de tots els models. No obstant això, la tendència general és clara:
| Mètrica | MIR 2024 | MIR 2025 | MIR 2026 |
|---|---|---|---|
| Millor precisió | 97,5% | 96,5% | 99,5% |
| Mitjana Top 5 | 97,5% | 96,0% | 99,3% |
| Mitjana Top 10 | 97,5% | 95,8% | 99,2% |
| Models >95% | 18 | 11 | 58 |
| Models >90% | 68 | 52 | 119 |
| Models avaluats | 291 | 290 | 290 |
El salt del MIR 2026 s'explica per la convergència de dos factors: la millora contínua dels models (especialment la generació GPT-5.x i Gemini 3) i la menor dificultat relativa de l'examen.
10. El Mapa del Poder: Qui Domina el Benchmark?
Distribució per proveïdor al Top 20 del benchmark MIR 2026
OpenAI domina numèricament el Top 20 amb 11 models, reflectint la seva estratègia de proliferació de variants (GPT-5, GPT-5.1, GPT-5.2, versions Chat, Codex, Pro, Image, etc.).
Google col·loca 6 models amb una estratègia oposada: menys variants però més diferenciades (Flash vs Pro, diferents versions de Gemini 2.5 i 3).
Anthropic situa 3 models al Top 20 (Claude Opus 4.5 al #14, Claude Opus 4.6 al #15 i Claude Opus 4.1 al #18), confirmant la seva posició com a tercer actor rellevant.
No obstant això, la qualitat sobre quantitat afavoreix Google: amb 6 models al Top 20, col·loca el #1 (Gemini Flash) i quatre models entre els 15 primers. OpenAI necessita 11 models per dominar numèricament.
11. Reflexions Finals: Què Significa Tot Això?
Per a la comunitat mèdica
El MIR 2026 marca un punt d'inflexió. Un sistema d'IA que encerta el 99,5% d'un examen dissenyat per seleccionar els millors metges del país no és una curiositat tecnològica: és un canvi de paradigma.
Això no significa que la IA substituirà els metges. El MIR avalua coneixement teòric en format test, no habilitats clíniques com l'empatia, la comunicació amb el pacient, l'exploració física o la presa de decisions sota incertesa extrema. Però sí demostra que la IA pot ser un aliat extraordinari com a sistema de suport al diagnòstic i com a eina de formació.
Per a la comunitat d'IA
La victòria d'un model Flash sobre models frontier que costen fins a 660 vegades més obliga a replantejar supòsits fonamentals:
- L'escalat brut de paràmetres té rendiments decreixents en dominis de coneixement factual ben definits.
- L'eficiència de l'arquitectura importa més que la mida en molts contextos reals.
- Els benchmarks mèdics actuals poden estar assolint el seu sostre com a mesura de capacitat d'IA. Quan 3 models frisen el 100%, l'examen deixa de discriminar.
Per al futur de MedBench
Davant resultats tan propers a la perfecció, el nostre benchmark haurà d'evolucionar. Estem treballant en:
- Avaluacions multimodals amb imatges clíniques i proves d'imatge
- Mètriques de qualitat del raonament, no només de l'encert final
- Benchmarks de casos clínics complexos que exigeixin integració d'informació al llarg de múltiples passos
- Avaluació d'al·lucinacions i confiança calibrada en contextos d'incertesa
A Medical Benchmark seguirem documentant i analitzant l'evolució de la intel·ligència artificial en medicina amb rigor, transparència i independència. Totes les dades estan disponibles a la nostra plataforma de rànquings.
Notas y Referencias
- El millor resultat humà conegut a la història recent del MIR és de 190 encerts i 10 errors (MIR 2024), equivalent a 186,67 netes. Els 199 encerts de la IA superen aquest rècord en 12 netes.
- Dades del millor resultat humà MIR 2025 obtingudes de les publicacions oficials del Ministeri de Sanitat.
- Les acadèmies MIR publiquen les seves correccions provisionals hores després de l'examen. Models amb accés web com Sonar Deep Research podrien accedir a aquestes respostes durant l'avaluació.
- Google Blog: Gemini 3 Flash: frontier intelligence built for speed (desembre 2025)
- Engadget: Google's Gemini 3 Flash model outperforms GPT-5.2 in some benchmarks (desembre 2025)
- Barclays Private Bank: AI in 2026: Smarter, not bigger
- Rumors circulats a xarxes socials i fòrums d'opositors MIR. No existeix evidència pública confirmada que el Ministeri de Sanitat hagi utilitzat eines d'IA generativa per a l'elaboració de preguntes de l'examen MIR 2026.
- Luengo Vera, Ferro Picon, et al.: Evaluating LLMs on the Spanish MIR Exam: A Comparative Analysis 2024/2025 (arXiv, 2025)
- Segons la convocatòria oficial, el Ministeri de Sanitat té termini fins al 24 de febrer de 2026 per publicar els resultats definitius amb els números d'ordre. Atès el context d'incidències administratives d'aquesta convocatòria, és possible que s'esgoti el termini.