MedicalBenchmark
199 de 200: S'IA Només Falla Una en es MIR 2026

199 de 200: S'IA Només Falla Una en es MIR 2026

Resultats definitius des major benchmark d'IA mèdica en espanyol. Tres models empaten amb 199 encerts sobre 200 preguntes vàlides. Un model 'Flash' lidera per tercer any consecutiu. Anàlisi exhaustiva de 290 models avaluats amb dades de cost, velocitat, tokens i precisió.

Equipo MedBenchFebruary 5, 202619 min de lectura
MIR 2026BenchmarkGemini FlashGPT-5Resultats Definitius

Es 24 de gener de 2026, més de 12.000 aspirants s'enfrontaren an es MIR més polèmic de sa darrera dècada. Però mentre sa comunitat mèdica debatia sobre anul·lacions, barems i caos administratiu, a Medical Benchmark estàvem executant qualque cosa sense precedents: 290 models d'intel·ligència artificial responent ses 210 preguntes de s'examen en temps real, abans que ningú conegués ses respostes correctes.

Es resultats definitius són, senzillament, demolidors.

Tres models d'IA han encertat 199 de ses 200 preguntes vàlides des MIR 2026. Un sol error. Un 99,5% de precisió. Cap ésser humà en s'història des MIR ha aconseguit mai una puntuació comparable.[1]


1. Es Podi Impossible: Empat a Tres amb 199/200

Per primera vegada en es tres anys d'història de MedBench, tres models d'IA han obtingut exactament sa mateixa puntuació neta: 198,67 netes (199 encerts, 1 error, 0 preguntes en blanc).

Gemini 3 Flash

Google
Més barat
199/200
Netes198.67
Cost total0.33 €
Temps/pregunta4.2s
Tokens totals210K
Tokens raonament0
Confiança mitjana100%
Únic errorP118
EspecialitatDermatologia

o3

OpenAI
Equilibrat
199/200
Netes198.67
Cost total1.86 €
Temps/pregunta7.3s
Tokens totals311K
Tokens raonament71K
Confiança mitjana100%
Únic errorP157
EspecialitatFarmacologia

GPT-5

OpenAI
Més raonament
199/200
Netes198.67
Cost total1.97 €
Temps/pregunta18s
Tokens totals420K
Tokens raonament135K
Confiança mitjana100%
Únic errorP77
EspecialitatMedicina Interna

Es tres co-guanyadors representen a dos gegants tecnològics amb filosofies radicalment diferents:

  • Google Gemini 3 Flash Preview

    : Un model dissenyat per ésser ràpid i econòmic. Cost total de s'examen complet: 0,33 € (trenta-tres cèntims d'euro). Temps mitjà per pregunta: 4,2 segons. Sense tokens de raonament explícit. Tot i que es model permet configurar un pressupost de tokens per an es raonament, en aquest benchmark el vàrem executar amb 0 tokens de raonament.
  • OpenAI o3

    : Es model de raonament avançat d'OpenAI. Cost: 1,86 €. Genera 71.000 tokens de raonament interns abans de respondre. Temps: 7,3 segons per pregunta.
  • OpenAI GPT-5

    : Es vaixell insígnia d'OpenAI. Cost: 1,97 €. Es més intensiu en raonament amb 135.000 tokens dedicats. Però també es més lent des tres: 18 segons per pregunta.

Com es desempata?

A MedBench, davant empat en puntuació neta, es criteri de desempat és es cost total de s'examen (menor cost guanya). Aquest criteri reflecteix una realitat pràctica crucial: si dos models tenen idèntica precisió, es que ho aconsegueix de forma més eficient és objectivament superior des de sa perspectiva de desplegament clínic.

Amb aquest criteri, Gemini 3 Flash Preview és es guanyador oficial des MIR 2026, amb un cost 5,7 vegades inferior a o3 i 6 vegades inferior a GPT-5.


2. Es Rànquing Complet: Es 15 Millors

Google
OpenAI
Anthropic

Top 15 models d'IA en es MIR 2026 per puntuació neta (resultats definitius)

Sa concentració de puntuacions a sa zona alta és extraordinària. Es 10 primers models es mouen en un rang de només 1,33 netes (de 198,67 a 197,33). Això reflecteix tant sa qualitat des models actuals com sa relativa "facilitat" des MIR 2026 per a ets sistemes d'IA, un fenomen que analitzam en profunditat en es nostro article anterior sobre sa tempesta perfecta des MIR 2026.

Dades clau des rànquing:

  • 3 models amb 199/200 (99,5% de precisió)
  • 9 models amb 198/200 (99,0%)
  • 8 models amb 197/200 (98,5%)
  • Tots es Top 20 superen es 98% de precisió (196/200 o més)
  • 58 models superen es 95% de precisió
  • 119 models superen es 90%

Per posar això en context: es millor resultat humà conegut en es MIR 2025 va ser de 174 encerts i 25 errors (87% de precisió, 165,67 netes).[2] Es tres guanyadors d'enguany tenen un 99,5%.


3. David contra Goliat: Sa Paradoxa Flash

Aquesta és potser sa conclusió més contraintuïtiva i fascinant de tot es benchmark: un model "Flash" — dissenyat per a velocitat i baix cost, no per a màxima intel·ligència — porta tres anys consecutius sent es millor o empatant en primera posició en s'examen mèdic més exigent d'Espanya.

*Sonar Deep Research té accés a cerca web, podent consultar respostes de s'examen publicades en línia

S'historial de Gemini Flash:

ConvocatòriaPosició FlashNetesCostGuanyador oficialNota
MIR 2024#2 (empat en netes amb #3-#5)193,330,32 €Sonar Deep Research (193,67)Sonar té accés web
MIR 2025#1190,670,34 €Gemini 3 FlashGuanyador indiscutible
MIR 2026#1 (empat amb o3 i GPT-5)198,670,33 €Gemini 3 Flash (per cost)Empat a tres

Es cas des MIR 2024 mereix una menció especial. Es guanyador nominal va ser Perplexity Sonar Deep Research amb 193,67 netes front a ses 193,33 de Flash. No obstant això, Sonar Deep Research és un model amb accés a cerca web en temps real. Donat que ses respostes des MIR es publiquen en múltiples webs d'acadèmies i fòrums mèdics pocs dies després de s'examen[3], no es pot descartar que Sonar consultàs directament aquestes fonts. Si excloem es models amb accés web, Gemini Flash ha estat efectivament es millor model tres anys consecutius.

Per què un model "lleuger" supera ets més cars?

Aquest resultat desafia s'intuïció de que "més gran = millor". Existeixen diverses hipòtesis complementàries:

  1. Eficiència arquitectònica sobre grandària bruta. Google ha invertit fortament en optimitzacions de destil·lació i eficiència de tokens.[4] Gemini 3 Flash genera respostes més concises i directes: en proves independents, completà tasques amb un 26% menys de tokens que models Pro equivalents.[5]

  2. Es MIR com a test de coneixement factual, no de raonament profund. Sa majoria de preguntes des MIR 2026 requerien reconeixement directe de patrons clínics, no cadenes complexes de raonament. Un model que "sap" sa resposta directament no necessita "pensar" 135.000 tokens per arribar-hi.

  3. Menys tokens de raonament = menys oportunitats d'error. Es models amb cadenes de raonament extenses (chain-of-thought) poden "convèncer-se" de respostes incorrectes a través de raonaments interns elaborats però erronis. Flash, amb 0 tokens de raonament, simplement respon lo que "sap".

  4. Es paradigma "més intel·ligent, no més gran". Com assenyala Barclays en es seu informe de perspectives d'IA per a 2026[6], s'indústria està virant de s'escalat pur de paràmetres cap a s'optimització intel·ligent. Gemini 3 Flash és s'exemple perfecte d'aquesta tendència.

Sa reflexió de fons: Si un model que costa 0,33 € per examen és capaç d'encertar 199 de 200 preguntes, quin valor afegit real aporten models que costen 100 o 660 vegades més i encerten lo mateix o fins i tot menys?


4. Anatomia de s'Únic Error

Cadascun des tres guanyadors va fallar exactament una pregunta diferent. Cap error es repeteix entre ells, lo que suggereix que es tracta d'errors estocàstics, no de llacunes sistemàtiques de coneixement:

ModelPregunta falladaResponguéCorrectaEspecialitat
Gemini 3 FlashPregunta 118CBDermatologia
o3Pregunta 157CDFarmacologia
GPT-5Pregunta 77CAMedicina Interna

Curiosament, es tres models respongueren "C" en sa seva única pregunta fallada. Més enllà de s'anècdota, lo rellevant és que si combinàssim ses respostes des tres models utilitzant un sistema de votació majoritària, es resultat seria un perfecte 200/200: cada pregunta que falla un, s'encerten es altres dos.

Això obre una reflexió fascinant sobre es sistemes d'ensemble en IA mèdica: un comitè de tres models complementaris podria assolir una precisió perfecta en aquest examen.


5. Es Plot Twist: Sa Plantilla Provisional i s'Ombra de ChatGPT

Abans que es publiquessin es resultats definitius (amb 7 preguntes anul·lades), sa plantilla provisional des Ministeri només contemplava 4 anul·lacions (preguntes 13, 50, 64 i 161). Amb aquella plantilla, es rànquing era significativament diferent.

Ses tres preguntes addicionals que s'anul·laren a sa plantilla definitiva varen ser sa 139 (lupus i anèmia), sa 142 (tiroiditis) i sa 208 (cirrosi). S'impacte d'aquestes anul·lacions va ser asimètric:

ParámetroTendencia MIR 2026Implicación
Models amb 0/3 correctes en ses anul·lades+1,00 netesMàxim benefici. Ses penalitzacions per fallar aquestes preguntes desapareixen. Exemple: Gemini 3 Flash.
Models amb 1/3 correctes-0,33 netesImpacte lleu negatiu. Perden 1 encert però eliminen 2 penalitzacions. Exemple: o3.
Models amb 2/3 correctes-1,67 netesImpacte moderat. Perden 2 encerts i només eliminen 1 penalització. Exemple: GPT-5.
Models amb 3/3 correctes-3,00 netesMàxim perjudici. Perden 3 encerts sense compensació. Exemple: o1.

Impacte de ses 3 anul·lacions addicionals (Q139, Q142, Q208) en sa puntuació neta segons encerts previs

Qui liderava amb sa plantilla provisional?

Amb només 4 preguntes anul·lades, GPT-5 i o1 co-lideraven amb una puntuació neta aproximada de 193,33 (encertant ses 3 preguntes que posteriorment s'anul·larien). Gemini 3 Flash, que fallà ses tres, ocupava una posició més endarrerida.

S'anul·lació d'aquestes tres preguntes provocà es major moviment de rànquing des benchmark: Gemini Flash pujà 9 posicions (de sa #11 a sa #2), mentre que o1 caigué 7 posicions (des co-lideratge a sa #8).

S'hipòtesi incòmoda

Existeix un detall que no podem obviar. Entre sa comunitat d'opositors i en fòrums especialitzats han circulat rumors — que hem de qualificar expressament de no confirmats i presumptes — sobre sa possibilitat que algunes preguntes des MIR 2026 poguessin haver estat elaborades, total o parcialment, amb assistència d'eines d'IA generativa com ChatGPT.[7]

Si aquests rumors fossin certs (i reiteram que no tenim evidència que ho confirmi), explicaria un patró observable en es nostros dades: es models de sa família GPT/OpenAI obtingueren un rendiment especialment elevat en sa plantilla provisional, precisament en preguntes que després varen ser anul·lades per contenir ambigüitats o errors. Un model d'IA tendria a "encertar" preguntes generades per una IA similar, ja que compartirien biaixos de redacció i patrons de formulació.

Nota editorial: Aquesta hipòtesi és especulativa i no pretén ser una afirmació categòrica ni una descripció de sa realitat. S'anul·lació de preguntes és un procés rutinari en es MIR que pot deure's a múltiples factors legítims, incloent ambigüitat clínica, actualització de guies mèdiques i errors de redacció.


6. Sense Contaminació Possible: Metodologia Blindada

Un aspecte crucial des nostro benchmark que li confereix màxima credibilitat és es timing de ses avaluacions:

  • Data de s'examen MIR: 24 de gener de 2026
  • Data d'execució de tots es models: 25 de gener de 2026
  • Publicació de sa plantilla provisional: 26 de gener de 2026

Totes ses avaluacions s'executaren ABANS que es publiquessin ses respostes correctes. Cap model pogué haver estat entrenat, fine-tuneat o contaminat amb ses respostes des MIR 2026, perquè senzillament no existien quan s'executaren ses avaluacions.

Això converteix a MedBench en un des pocs benchmarks d'IA mèdica des món on sa contaminació de dades és físicament impossible.[8] Es models respongueren amb es seu coneixement mèdic preexistent, exactament igual que un opositor humà.

A més, tots es models reberen es mateix prompt des sistema, sense pistes sobre s'any de s'examen ni informació addicional que pogués esbiaixar ses respostes.


7. Anàlisi Profunda de Mètriques

Més enllà de sa puntuació neta, MedBench registra mètriques detallades de cada model en cada pregunta: cost, tokens, temps de resposta i confiança. Aquestes dades revelen patrons fascinants.

7.1. Cost: De 0,33 € a 217 €

Cost total per examen complet (210 preguntes). Gemini 3 Flash lidera amb 0,33 € davant des 217 € d'o1-pro, amb idèntica o superior precisió

Sa dispersió de costs és brutal:

  • Gemini 3 Flash

    : 0,33 € per examen complet (210 preguntes). És a dir, 0,0016 € per pregunta.
  • o1-pro

    : 217 € per examen. 1,08 € per pregunta. I obté pitjor resultat (98,5% vs 99,5%).
  • o3 Deep Research

    : 167,82 €. Necessita 3,6 minuts per pregunta i consumeix 6,6 milions de tokens.

Sa relació cost-benefici de Gemini Flash és, objectivament, insuperable. Obtenir sa màxima puntuació per 0,33 € fa que qualsevol despesa superior en models amb igual o inferior rendiment sigui ineficient.

7.2. Velocitat de Resposta

Google
OpenAI
Anthropic

Temps mitjà per pregunta des models Top 15. o3 Deep Research necessita 218 segons per pregunta (3,6 minuts), mentre que GPT-5.1 Chat respon en 3,2 segons

Sa velocitat importa en contextos clínics reals. Un sistema de suport diagnòstic que tarda 3 minuts a respondre té una utilitat molt diferent a un que respon en 3 segons.

Es models més ràpids des Top 15:

  1. GPT-5.1 Chat

    : 3,2 segons/pregunta
  2. GPT-5 Codex

    : 3,9 segons/pregunta
  3. Gemini 3 Flash

    : 4,2 segons/pregunta

Es més lents:

7.3. Tokens: Pensar Més Ajuda?

Desglossament de tokens per tipus. o3 Deep Research consumeix 6,6M tokens per examen (fora d'escala). Gemini 3 Flash: 210K tokens totals sense raonament explícit

Una de ses preguntes més interessants que revelen es nostros dades: es tokens de raonament milloren es resultat?

En es cas de Gemini 3 Flash, es valor 0 correspon a una decisió metodològica nostra: tot i que admet pressupost de raonament, el vàrem avaluar deliberadament sense tokens de raonament.

ModelTokens raonamentPrecisióNetes
Gemini 3 Flash099,5%198,67
o371K99,5%198,67
GPT-5135K99,5%198,67
GPT-5.1 Chat6K99,0%197,33
o1146K99,0%197,33
o3 Deep Research1.741K99,0%197,33

Sa resposta és clara: no, almenys no en aquest examen. Es model amb 0 tokens de raonament obté es mateix resultat que es model amb 135.000, i millor resultat que es model amb 1,7 milions. Això suggereix que es MIR 2026 és primàriament un examen de reconeixement de patrons i coneixement factual, on es "pensament profund" no afegeix valor marginal.

7.4. Confiança: Tots Segurs, Tots Encerten

Sa confiança mitjana reportada per es models des Top 10 és consistentment propera an es 100%. Això indica que es models moderns no només encerten, sinó que saben que estan encertant. Sa calibració de confiança és un indicador crucial per a aplicacions clíniques: un model que diu "estic 100% segur" i encerta es 99,5% de ses vegades és extraordinàriament fiable.


8. IA vs. Humans: Sa Bretxa s'Eixampla

Comparació entre sa millor puntuació d'IA i es millor resultat humà conegut per convocatòria. MIR 2026: resultat humà pendent de publicació oficial

S'evolució històrica és inequívoca:

  • MIR 2024: Sa millor IA superà an es millor humà per 7 netes (193,67 vs 186,67). S'IA aventatjava en un 3,7%.
  • MIR 2025: Sa bretxa es disparà a 25 netes (190,67 vs 165,67). S'IA aventatjava en un 15,1%.
  • MIR 2026: Amb 198,67 netes i es resultat humà encara pendent de publicació oficial[9], projectam una bretxa encara major.

Fins i tot en es cas hipotètic que es millor humà des MIR 2026 igualés es rècord històric humà de 190 encerts (MIR 2024), sa seva puntuació neta dependria des nombre d'errors. Assumint un rendiment òptim de 190 encerts i 10 errors (186,67 netes), sa bretxa amb s'IA seria de 12 netes.

Sa pregunta ja no és si s'IA és millor que ets humans en es MIR. Sa pregunta és quant millor.


9. Evolució Històrica: Tres Anys de Benchmark

Millor IA
Millor Humà
Mitjana Top 5
Mitjana Top 10

Evolució de sa precisió de sa IA vs. millor humà en es MIR (2024-2026). MIR 2026: resultat humà pendent de publicació oficial

Es MIR 2025, considerat es més difícil des tres anys analitzats (enunciats llargs, preguntes "testament", alta càrrega cognitiva), provocà una caiguda temporal en sa precisió de tots es models. No obstant això, sa tendència general és clara:

MètricaMIR 2024MIR 2025MIR 2026
Millor precisió97,5%96,5%99,5%
Mitjana Top 597,5%96,0%99,3%
Mitjana Top 1097,5%95,8%99,2%
Models >95%181158
Models >90%6852119
Models avaluats291290290

Es salt des MIR 2026 s'explica per sa convergència de dos factors: sa millora contínua des models (especialment sa generació GPT-5.x i Gemini 3) i sa menor dificultat relativa de s'examen.


10. Es Mapa des Poder: Qui Domina es Benchmark?

Distribució per proveïdor en es Top 20 des benchmark MIR 2026

OpenAI domina numèricament es Top 20 amb 11 models, reflectint sa seva estratègia de proliferació de variants (GPT-5, GPT-5.1, GPT-5.2, versions Chat, Codex, Pro, Image, etc.).

Google col·loca 6 models amb una estratègia oposada: menys variants però més diferenciades (Flash vs Pro, diferents versions de Gemini 2.5 i 3).

Anthropic situa 3 models en es Top 20 (Claude Opus 4.5 en es #14, Claude Opus 4.6 en es #15 i Claude Opus 4.1 en es #18), confirmant sa seva posició com a tercer actor rellevant.

No obstant això, sa qualitat sobre quantitat afavoreix a Google: amb 6 models en es Top 20, col·loca es #1 (Gemini Flash) i quatre models entre es 15 primers. OpenAI necessita 11 models per dominar numèricament.


11. Reflexions Finals: Què Significa Tot Això?

Per a sa comunitat mèdica

Es MIR 2026 marca un punt d'inflexió. Un sistema d'IA que encerta es 99,5% d'un examen dissenyat per seleccionar ets millors metges des país no és una curiositat tecnològica: és un canvi de paradigma.

Això no significa que s'IA vagi a substituir ets metges. Es MIR avalua coneixement teòric en format test, no habilitats clíniques com s'empatia, sa comunicació amb es pacient, s'exploració física o sa presa de decisions davall incertesa extrema. Però sí demostra que s'IA pot ésser un aliat extraordinari com a sistema de suport an es diagnòstic i com a eina de formació.

Per a sa comunitat d'IA

Sa victòria d'un model Flash sobre models frontier que costen fins a 660 vegades més obliga a replantejar supòsits fonamentals:

  • S'escalat brut de paràmetres té rendiments decreixents en dominis de coneixement factual ben definits.
  • S'eficiència de s'arquitectura importa més que sa grandària en molts contextos reals.
  • Es benchmarks mèdics actuals poden estar assolint es seu sostre com a mesura de capacitat d'IA. Quan 3 models rosetgen es 100%, s'examen deixa de discriminar.

Per a es futur de MedBench

Davant resultats tan pròxims a sa perfecció, es nostro benchmark haurà d'evolucionar. Estam treballant en:

  • Avaluacions multimodals amb imatges clíniques i proves d'imatge
  • Mètriques de qualitat des raonament, no només de s'encert final
  • Benchmarks de casos clínics complexos que exigeixin integració d'informació al llarg de múltiples passos
  • Avaluació d'al·lucinacions i confiança calibrada en contextos d'incertesa

A Medical Benchmark seguirem documentant i analitzant s'evolució de s'intel·ligència artificial en medicina amb rigor, transparència i independència. Totes ses dades estan disponibles en sa nostra plataforma de rànquings.

Notas y Referencias

  1. Es millor resultat humà conegut en s'història recent des MIR és de 190 encerts i 10 errors (MIR 2024), equivalent a 186,67 netes. Es 199 encerts de s'IA superen aquest rècord en 12 netes.
  2. Dades des millor resultat humà MIR 2025 obtingudes de ses publicacions oficials des Ministeri de Sanitat.
  3. Ses acadèmies MIR publiquen ses seves correccions provisionals hores després de s'examen. Models amb accés web com Sonar Deep Research podrien accedir a aquestes respostes durant s'avaluació.
  4. Google Blog: Gemini 3 Flash: frontier intelligence built for speed (desembre 2025)
  5. Engadget: Google's Gemini 3 Flash model outperforms GPT-5.2 in some benchmarks (desembre 2025)
  6. Barclays Private Bank: AI in 2026: Smarter, not bigger
  7. Rumors circulats en xarxes socials i fòrums d'opositors MIR. No existeix evidència pública confirmada que es Ministeri de Sanitat hagi utilitzat eines d'IA generativa per a s'elaboració de preguntes de s'examen MIR 2026.
  8. Luengo Vera, Ferro Picon, et al.: Evaluating LLMs on the Spanish MIR Exam: A Comparative Analysis 2024/2025 (arXiv, 2025)
  9. Segons sa convocatòria oficial, es Ministeri de Sanitat té termini fins es 24 de febrer de 2026 per publicar es resultats definitius amb es números d'ordre. Donat es context d'incidències administratives d'aquesta convocatòria, és possible que s'esgoti es termini.