MedicalBenchmark
El Ganivet Suís i el Bisturí: Per Què els Millors Models de Codi Fracassen en el MIR

El Ganivet Suís i el Bisturí: Per Què els Millors Models de Codi Fracassen en el MIR

Claude Opus 4.6 i GPT-5.2-Codex són els models d'IA més avançats per a programar. Però en el MIR 2026, un model Flash de 0,34 € els humilia. Anàlisi de la paradoxa agèntica amb dades de 290 models.

Equipo MedBenchFebruary 6, 202616 min de lectura
MIR 2026Models AgènticsClaude Opus 4.6GPT-5.2-CodexGemini Flash

El 5 de febrer de 2026, la intel·ligència artificial va viure un dia que només ocorre una volta per dècada. A les 10:00 del matí (hora del Pacífic), Anthropic va publicar un post en el seu blog amb un titular que pareixia tret de la ciència ficció: "Claude Opus 4.6: el model que coordina equips d'agents d'IA per a resoldre problemes que cap model individual podria abordar".[1] Quaranta minuts després, OpenAI va contraatacar: "Presentem GPT-5.3-Codex, el primer model que es va construir parcialment a si mateix".[2]

Els titulars de la premsa tecnològica van ser previsibles: "La guerra dels agents d'IA", "El model que programa com un equip de 10 enginyers", "La singularitat ja té nom". En Terminal-Bench 2.0 — el benchmark de referència per a tasques de programació agèntica — Claude Opus 4.6 va establir un rècord absolut amb un 65,4%, destrossant l'anterior màxim del 57,2% del seu predecessor, Opus 4.5.[3] En SWE-Bench Pro, GPT-5.3-Codex també va marcar un nou màxim.[4]

Però ací, en Medical Benchmark, les dades conten una història molt diferent.

Mentre el món celebrava l'arribada dels models de codi més avançats de la història, nosaltres ja teníem els resultats de 290 models avaluats en el MIR 2026. I el veredicte és incòmode: els millors models agèntics de codi són mediocres en medicina. Un model "Flash" que costa 34 cèntims els aplasta a tots.

I respecte a GPT-5.3-Codex, el flamant llançament d'OpenAI: no hem pogut avaluar-lo. Només està disponible a través de ChatGPT (app, CLI i extensions IDE). No té API pública.[5] En MedBench avaluem models a través d'OpenRouter API, així que GPT-5.3-Codex és, per ara, el gran absent del nostre rànquing.


1. Els Gladiadors del Codi

Abans de mostrar les dades, convé entendre què són estos models i per què importen. Els tres protagonistes d'esta història compartixen una característica: estan dissenyats per a ser agents de codi — sistemes d'IA que no sols responen preguntes, sinó que executen tasques complexes de programació de forma autònoma, coordinant ferramentes, llegint fitxers, executant tests i depurant errors.

Claude Opus 4.6 (Anthropic)

El vaixell insígnia d'Anthropic. Llançat el 5 de febrer de 2026. Finestra de context d'1 milió de tokens. Capacitat per a coordinar equips d'agents especialitzats ("agent teams"). Rècord en Terminal-Bench 2.0 amb un 65,4%. Dissenyat per a raonament adaptatiu — pot decidir quant "pensar" abans de respondre.[1]

Claude Opus 4.5 (Anthropic)

L'anterior vaixell insígnia. Durant mesos va ser el model de codi més avançat del mercat. 57,2% en Terminal-Bench. Continua sent extraordinàriament capaç, però Opus 4.6 el supera en totes les mètriques de programació.

GPT-5.2-Codex (OpenAI)

Llançat en desembre de 2025 com "el model agèntic de codi més avançat" d'OpenAI. Optimitzat per a contextos llargs, tool calling fiable i tasques multi-pas. Top 3 en SWE-Bench Verified.[6]

GPT-5.3-Codex (OpenAI) — El Gran Absent

Llançat el mateix dia que Opus 4.6. Segons OpenAI, és el primer model en l'entrenament del qual es van usar versions primerenques de si mateix per a depuració i avaluació. Rècords en SWE-Bench Pro i altres benchmarks de codi. Però només està disponible via ChatGPT — no té endpoint API, la qual cosa fa impossible la seua avaluació en MedBench.[5]

El que tots estos models tenen en comú: estan optimitzats per a tasques multi-pas, ús de ferramentes i coordinació d'agents. Són ganivets suïssos digitals: poden tallar, caragolar, obrir llaunes i llimar. La pregunta és: poden també operar?


2. El Veredicte del MIR

Agèntic / Codi
Generalista
Raonament

Comparativa de models agèntics/codi vs. generalistes en el MIR 2026. Els models agèntics (taronja) rendixen pitjor que els generalistes (blau) malgrat ser més cars.

Els números no necessiten interpretació. Parlen sols:

ModelTipusPosicióEncertsCost
Gemini 3 FlashGeneralista#1199/2000,34 €
o3Raonament#2199/2001,94 €
GPT-5Raonament#3199/2002,05 €
GPT-5.1 ChatGeneralista#4198/2000,65 €
Claude Opus 4.5Agèntic#13197/2004,62 €
Claude Opus 4.6Agèntic#15197/2004,89 €
GPT-5.2-CodexAgèntic#26195/2001,67 €

La dada demolidora: Claude Opus 4.6 costa 14 vegades més que Gemini Flash i encerta 2 preguntes menys. GPT-5.2-Codex n'encerta 4 menys que un model que costa 5 vegades menys. Entre Opus 4.6 (#15) i Flash (#1) hi ha 14 models intermedis, la majoria generalistes sense cap optimització especial per a codi.


3. Programar No És Diagnosticar

Rànquing en benchmarks de codi (Terminal-Bench/SWE-Bench) vs. rànquing en el MIR 2026. La inversió és clara: els millors en codi (barra taronja curta) són mediocres en medicina (barra blava llarga) i viceversa.

El gràfic anterior revela una inversió quasi perfecta: els models que dominen els benchmarks de programació queden relegats en el MIR, i viceversa.

  • Claude Opus 4.6: #1 en Terminal-Bench → #15 en el MIR
  • GPT-5.2-Codex: Top 3 en SWE-Bench → #26 en el MIR
  • Gemini 3 Flash: No competix en benchmarks de codi → #1 en el MIR
  • GPT-5.1 Chat: Model "bàsic" d'OpenAI → #4 en el MIR

Per què es produïx esta inversió? La resposta està en la naturalesa del MIR. L'examen mèdic és fonamentalment un test de coneixement factual i reconeixement de patrons clínics. La majoria de les seues 200 preguntes requerixen que el model identifique un quadre clínic, recorde un protocol o reconega una associació diagnòstica. No requerix coordinar ferramentes, escriure codi ni executar tasques en múltiples passos.

Un model optimitzat per a programació agèntica ha dedicat una part significativa del seu entrenament a aprendre a usar terminals, depurar codi i coordinar agents. Eixe entrenament no ajuda — i potencialment perjudica — quan la tasca és simplement respondre "quin és el tractament de primera línia per a la pneumònia adquirida en la comunitat?".


4. El Cas Opus 4.6: Ahir Va Nàixer, Hui Ja Té Diagnòstic

Preguntes correctes
Rànquing MIR (menor = millor)

Evolució de Claude Opus en el MIR 2026. Opus 4.6 millora en codi (Terminal-Bench) però no supera Opus 4.5 en medicina: mateixa precisió, major cost i pitjor rànquing.

L'evolució de la família Claude Opus en el MIR 2026 és particularment reveladora:

ModelRànquing MIRCorrectesCostTemps/preguntaTerminal-Bench
Opus 4#44192/20010,46 €28s42%
Opus 4.1#20196/20011,10 €30s52%
Opus 4.5#13197/2004,62 €13,4s57%
Opus 4.6#15197/2004,89 €14,1s65%

Cada nova versió d'Opus és objectivament millor en programació: Opus 4 → 4.1 → 4.5 → 4.6 mostra una progressió constant en Terminal-Bench (42% → 52% → 57% → 65%). Però en medicina, Opus 4.6 no sols no millora el 4.5, sinó que queda per darrere en el rànquing (posició #15 vs. #13).

Com és possible? Opus 4.6 encerta les mateixes 197 preguntes que Opus 4.5, però costa 0,27 € més per examen (4,89 € vs. 4,62 €). En MedBench, davant empat en precisió, el model més barat guanya — i Opus 4.6 perd eixe desempat.

La paradoxa és clara: la major optimització agèntica d'Opus 4.6 no aporta cap benefici en un examen mèdic d'opció múltiple. La seua finestra de context d'1 milió de tokens, la seua capacitat de coordinar agent teams, el seu raonament adaptatiu — res d'açò servix quan la tasca és triar entre A, B, C o D en una pregunta de cardiologia. És com portar un equip quirúrgic complet per a posar una tireta.


5. La Caiguda de GPT-5.2-Codex: De Subcampió a Lloc 26

Evolució dels tres models Codex d'OpenAI en el MIR (2024–2026). Les barres mostren encerts; les etiquetes, el rànquing. GPT-5.2-Codex (el més agèntic) rendix pitjor que els seus germans menors en el MIR 2026.

La història de GPT-5.2-Codex al llarg de tres convocatòries del MIR és un drama en tres actes:

ConvocatòriaPosicióEncertsPrecisió
MIR 2024#9194/20097,0%
MIR 2025#2192/20096,0%
MIR 2026#26195/20097,5%

Llig-ho de nou: en el MIR 2026, GPT-5.2-Codex va encertar més preguntes que mai (195 vs. 194 en 2024) i no obstant això va caure 24 posicions respecte a 2025. Com és possible caure encertant més?

Perquè els altres van millorar molt més. En 2025, 192 encerts et posaven en el podi. En 2026, amb 50 models superant el 95% de precisió, 195 encerts et deixen en el pilot.

I ací està el patró més revelador: les versions "menys agèntiques" dels models Codex rendixen millor en el MIR.

Com més s'optimitza un model Codex per a capacitats agèntiques de codi, pitjor rendix en coneixement mèdic. El patró és consistent i inquietant.


6. GPT-5.3-Codex: El Gran Absent

Llançat el mateix 5 de febrer juntament amb Claude Opus 4.6, GPT-5.3-Codex és, segons OpenAI, el model més avançat mai creat per a programació. Les seues credencials són impressionants: nous rècords en SWE-Bench Pro, capacitat d'autodepuració, i la curiosa distinció de ser "el primer model que es va construir parcialment a si mateix".[2]

No obstant això, GPT-5.3-Codex no apareix en el nostre rànquing. La raó és simple: OpenAI l'ha llançat exclusivament a través de ChatGPT — l'aplicació d'escriptori, la CLI i les extensions IDE. No té endpoint API públic.[5]

En MedBench, tots els models s'avaluen a través d'OpenRouter API baix condicions controlades i idèntiques: mateix prompt, mateixa temperatura, mateix format de resposta. Avaluar un model a través d'una interfície de xat introduiria variables incontrolables (prompt del sistema, formateig, limitacions de la interfície) que invalidarien la comparació.

Quan GPT-5.3-Codex tinga API disponible — OpenAI ha dit que "soon" — l'avaluarem immediatament. Però per ara, és l'elefant en l'habitació: probablement el model agèntic més potent del món, i no podem mesurar-lo.

La pregunta que flota en l'aire: si fins i tot GPT-5 Codex (un model menys avançat) només aconseguix el #5 en el MIR, seria GPT-5.3-Codex realment capaç de superar Gemini Flash? Les dades suggerixen que no — però sense mesurar-lo, queda com a especulació.


7. Per Què Ocorre Açò? La Ciència del Trade-Off

Agèntic / Codi
Flash / Lleuger
Generalista
Raonament
Pro / Frontier

Top 40 models del MIR 2026: cost total de l'examen vs. precisió. Els models agèntics (taronja, amb vora) no arriben a la zona superior-esquerra (barat i precís), dominada per Flash i generalistes. Dades reals de MedBench.

El gràfic de dispersió confirma visualment el que les dades individuals ja suggerien: existix una correlació negativa entre la capacitat agèntica i la precisió mèdica. Els models més optimitzats per a codi (zona dreta) tendixen a rendir pitjor en el MIR (zona inferior).

Per què? Hi ha quatre hipòtesis complementàries que ho expliquen:

7.1. El Trade-Off de l'Especialització

L'entrenament d'un LLM és un joc de suma quasi zero. Els cicles de RLHF i fine-tuning dedicats a millorar tool calling, execució de codi i coordinació d'agents són cicles que no es dediquen a consolidar coneixement mèdic factual.

L'analogia és directa: un cirurgià que dedica anys a especialitzar-se en microcirurgia de mà no es convertix per això en millor neurocirurgià. De fet, pot perdre competències generalistes per desús. Els models agèntics són l'equivalent digital: extraordinàriament bons en la seua especialitat (codi), però no necessàriament millors — i de vegades pitjors — fora d'ella.

7.2. La Maledicció de l'Overthinking

Investigacions recents sobre "overthinking" en cadenes de raonament (chain-of-thought) suggerixen que pensar més no sempre és pensar millor.[7] Els models agèntics estan optimitzats per a raonar en molts passos, descompondre problemes complexos i iterar sobre solucions. Però en preguntes directes d'opció múltiple, esta capacitat pot ser contraproduent.

Una dada il·lustrativa: Claude Opus 4.6 amb 0 tokens de raonament encerta 197/200. o3 Deep Research amb 1,7 milions de tokens de raonament encerta 198/200. Una pregunta més per 500 vegades més tokens. El retorn marginal del "pensament profund" en preguntes mèdiques d'opció múltiple és pràcticament nul.

7.3. L'Optimització per a Ferramentes Contamina el Coneixement

L'entrenament per a tool calling (ús de ferramentes, APIs, terminals) modifica la distribució de probabilitats del model de formes subtils però significatives. Un model Codex ha sigut entrenat extensivament per a generar codi, no per a recordar farmacologia. Les representacions internes del model es reorganitzen per a prioritzar patrons sintàctics, APIs i fluxos d'execució — a costa potencial de patrons clínics, protocols terapèutics i associacions diagnòstiques.

El MIR no requerix ferramentes. No hi ha fitxers per a llegir, tests per a executar ni agents per a coordinar. Només requerix memòria i reconeixement de patrons — precisament les capacitats que l'entrenament agèntic pot erosionar.

7.4. L'Efecte "Ganivet Suís"

Un ganivet suís és una ferramenta extraordinària per a anar d'acampada. Pot tallar pa, obrir llaunes, traure taps i apretar caragols. Però ningú operaria un pacient amb ell. Per a operar, necessites un bisturí: una ferramenta simple, especialitzada i extraordinàriament precisa en la seua única funció.

Els models agèntics són ganivets suïssos digitals: poden fer moltes coses bé, però sacrifiquen profunditat per amplitud. Un model Flash que simplement respon la pregunta sense pensar massa — un bisturí — és més eficient per a un examen d'opció múltiple que un model dissenyat per a coordinar equips d'agents.

ParámetroTendencia MIR 2026Implicación
Trade-Off de l'EspecialitzacióFuerteRLHF per a codi desplaça coneixement mèdic. Més agentivitat → menys precisió factual.
Maledicció de l'OverthinkingModeradaRaonament multi-pas contraproduent en MCQ directes. 1,7M tokens → +1 encert vs. 0 tokens.
Contaminació per Tool CallingProbableEntrenament per a generar codi reorganitza representacions internes, erosionant patrons clínics.
Efecte Ganivet SuísClaroAmplitud de capacitats sacrifica profunditat en dominis específics. Flash > Opus en MCQ mèdiques.

Resum de les quatre hipòtesis sobre el trade-off agèntic. L'evidència apunta que són complementàries, no excloents.


8. El Preu de la Complexitat

Agèntic / Codi
Generalista
Raonament

Cost per resposta correcta en el MIR 2026. o1-pro costa 641x més per resposta correcta que Gemini Flash, amb menor precisió.

Si els models agèntics no són més precisos en medicina, almenys són eficients? Les dades diuen que no. El cost per resposta correcta revela la magnitud del malbaratament:

ModelCost/correctavs. FlashCorrectes
Gemini 3 Flash0,0017 €1x199/200
GPT-5.1 Chat0,0033 €1,9x198/200
GPT-5.2-Codex0,0086 €5x195/200
Claude Opus 4.60,0248 €14,6x197/200
o10,112 €65,9x198/200
o3 Deep Research0,883 €519x198/200
o1-pro1,09 €641x197/200

La pregunta és inevitable: en un sistema de salut amb pressupost limitat, pagaries 14 vegades més per 2 respostes menys? O 641 vegades més per la mateixa precisió?

Per a un hospital que volguera implementar IA com a ferramenta de suport diagnòstic, estos números són decisius. Si l'objectiu és maximitzar precisió per euro invertit, Gemini Flash és l'elecció òptima per un marge absurd. Els models agèntics tenen usos legítims en entorns mèdics complexos (integració d'historials, diagnòstic diferencial multi-pas), però per a consultes ràpides tipus pattern matching, són una solució cara a un problema barat.


9. Què Significa Açò per a la IA Mèdica

La lliçó principal d'estes dades és enganyosament simple: no necessites el "millor" model d'IA per a medicina. Necessites el més adequat.

Els sistemes agèntics com Claude Opus 4.6 i GPT-5.2-Codex tenen el seu lloc legítim. Si necessites un sistema que revise un historial clínic de 500 pàgines, correlacione resultats de laboratori amb símptomes, consulte bases de dades d'interaccions farmacològiques i genere un informe estructurat — un model agèntic és exactament el que necessites. Eixe és el seu quiròfan.

Però si necessites respondre ràpidament si un pacient amb dolor precordial, elevació del ST i troponines elevades té un infart — ahí necessites un bisturí, no un ganivet suís. I Gemini Flash, amb la seua resposta directa en 4 segons per 0,17 cèntims, és un bisturí extraordinàriament esmolat.

La importància d'avaluar models en el domini específic d'aplicació no pot subestimar-se. Assumir que el model #1 en programació serà també el #1 en medicina és un error que, amb les dades de MedBench sobre la taula, ja no té excusa. Cada domini té les seues pròpies regles i els seus propis campions.


10. Conclusions: Cada Ferramenta per a la Seua Tasca

El ganivet suís — Claude Opus 4.6, GPT-5.2-Codex — és una ferramenta extraordinària. Pot programar com un equip d'enginyers, coordinar agents, depurar codi i automatitzar fluxos de treball complexos. En el seu terreny, no té rival.

El bisturí — Gemini 3 Flash — fa una sola cosa: respondre preguntes amb precisió devastadora, a velocitat de vertigen, per un cost ridícul. En el MIR 2026, on la tasca és exactament eixa, no necessita més.

Els models agèntics revolucionaran la programació, l'automatització i probablement desenes d'indústries. Però la medicina té les seues pròpies regles. I en l'examen mèdic més important d'Espanya, un model de 34 cèntims ha tornat a demostrar que més car, més gran i més complex no sempre significa millor.

La pròxima volta que algú et diga que el millor model d'IA del món resoldrà tots els problemes, recorda: depén del problema. Un cirurgià no necessita un ganivet suís. Necessita un bisturí.

Explora els rànquings complets del MIR 2026 i compara els 290 models avaluats en MedBench Rankings.


Notas y Referencias

  1. Anthropic Blog: Introducing Claude Opus 4.6. 5 de febrer de 2026.
  2. OpenAI Blog: GPT-5.3-Codex: The Most Advanced Coding Agent. 5 de febrer de 2026.
  3. Terminal-Bench 2.0 Leaderboard. Claude Opus 4.6 va aconseguir un 65,4%, superant l'anterior rècord del 57,2% d'Opus 4.5. terminal-bench.com.
  4. SWE-Bench Pro Leaderboard. GPT-5.3-Codex establix un nou màxim en resolució autònoma d'issues reals de GitHub.
  5. GPT-5.3-Codex només està disponible a través de ChatGPT (app, CLI i extensions IDE). OpenAI ha indicat que l'accés API estarà disponible 'pròximament'. Sense API, no és possible avaluar-lo en MedBench baix condicions controlades.
  6. OpenAI: GPT-5.2-Codex. Llançat en desembre de 2025.
  7. Investigacions sobre 'overthinking' en models de raonament chain-of-thought mostren rendiment decreixent amb longitud excessiva de cadenes de pensament en tasques de resposta directa. Vegeu també: MedBench: 199 de 200 per a l'anàlisi de tokens de raonament vs. precisió.
  8. Els resultats complets del MIR 2026 amb 290 models estan disponibles en MedBench Rankings. Metodologia detallada en la nostra secció de metodologia.