
El Ganivet Suís i el Bisturí: Per Què els Millors Models de Codi Fracassen al MIR
Claude Opus 4.6 i GPT-5.2-Codex són els models d'IA més avançats per programar. Però al MIR 2026, un model Flash de 0,34 € els humilia. Anàlisi de la paradoxa agèntica amb dades de 290 models.
El 5 de febrer de 2026, la intel·ligència artificial va viure un dia que només passa un cop per dècada. A les 10:00 del matí (hora del Pacífic), Anthropic va publicar un post al seu blog amb un titular que semblava tret de la ciència ficció: "Claude Opus 4.6: el model que coordina equips d'agents d'IA per resoldre problemes que cap model individual podria abordar".[1] Quaranta minuts després, OpenAI va contraatacar: "Presentem GPT-5.3-Codex, el primer model que es va construir parcialment a si mateix".[2]
Els titulars de la premsa tecnològica van ser previsibles: "La guerra dels agents d'IA", "El model que programa com un equip de 10 enginyers", "La singularitat ja té nom". A Terminal-Bench 2.0 — el benchmark de referència per a tasques de programació agèntica — Claude Opus 4.6 va establir un rècord absolut amb un 65,4%, destrossant l'anterior màxim del 57,2% del seu predecessor, Opus 4.5.[3] A SWE-Bench Pro, GPT-5.3-Codex també va marcar un nou màxim.[4]
Però aquí, a Medical Benchmark, les dades expliquen una història molt diferent.
Mentre el món celebrava l'arribada dels models de codi més avançats de la història, nosaltres ja teníem els resultats de 290 models avaluats al MIR 2026. I el veredicte és incòmode: els millors models agèntics de codi són mediocres en medicina. Un model "Flash" que costa 34 cèntims els aplasta a tots.
I respecte a GPT-5.3-Codex, el flamant llançament d'OpenAI: no l'hem pogut avaluar. Només està disponible a través de ChatGPT (app, CLI i extensions IDE). No té API pública.[5] A MedBench avaluem models a través d'OpenRouter API, així que GPT-5.3-Codex és, per ara, el gran absent del nostre rànquing.
1. Els Gladiadors del Codi
Abans de mostrar les dades, convé entendre què són aquests models i per què importen. Els tres protagonistes d'aquesta història comparteixen una característica: estan dissenyats per ser agents de codi — sistemes d'IA que no només responen preguntes, sinó que executen tasques complexes de programació de forma autònoma, coordinant eines, llegint fitxers, executant tests i depurant errors.
Claude Opus 4.6 (Anthropic)
El vaixell insígnia d'Anthropic. Llançat el 5 de febrer de 2026. Finestra de context d'1 milió de tokens. Capacitat per coordinar equips d'agents especialitzats ("agent teams"). Rècord a Terminal-Bench 2.0 amb un 65,4%. Dissenyat per a raonament adaptatiu — pot decidir quant "pensar" abans de respondre.[1]
Claude Opus 4.5 (Anthropic)
L'anterior vaixell insígnia. Durant mesos va ser el model de codi més avançat del mercat. 57,2% a Terminal-Bench. Continua sent extraordinàriament capaç, però Opus 4.6 el supera en totes les mètriques de programació.
GPT-5.2-Codex (OpenAI)
Llançat el desembre de 2025 com "el model agèntic de codi més avançat" d'OpenAI. Optimitzat per a contextos llargs, tool calling fiable i tasques multi-pas. Top 3 a SWE-Bench Verified.[6]
GPT-5.3-Codex (OpenAI) — El Gran Absent
Llançat el mateix dia que Opus 4.6. Segons OpenAI, és el primer model en l'entrenament del qual es van usar versions primerenques de si mateix per a depuració i avaluació. Rècords a SWE-Bench Pro i altres benchmarks de codi. Però només està disponible via ChatGPT — no té endpoint API, la qual cosa fa impossible la seva avaluació a MedBench.[5]
El que tots aquests models tenen en comú: estan optimitzats per a tasques multi-pas, ús d'eines i coordinació d'agents. Són ganivets suïssos digitals: poden tallar, cargolar, obrir llaunes i llimar. La pregunta és: poden també operar?
2. El Veredicte del MIR
Comparativa de models agèntics/codi vs. generalistes al MIR 2026. Els models agèntics (taronja) rendeixen pitjor que els generalistes (blau) malgrat ser més cars.
Els números no necessiten interpretació. Parlen sols:
| Model | Tipus | Posició | Encerts | Cost |
|---|---|---|---|---|
| Gemini 3 Flash | Generalista | #1 | 199/200 | 0,34 € |
| o3 | Raonament | #2 | 199/200 | 1,94 € |
| GPT-5 | Raonament | #3 | 199/200 | 2,05 € |
| GPT-5.1 Chat | Generalista | #4 | 198/200 | 0,65 € |
| Claude Opus 4.5 | Agèntic | #13 | 197/200 | 4,62 € |
| Claude Opus 4.6 | Agèntic | #15 | 197/200 | 4,89 € |
| GPT-5.2-Codex | Agèntic | #26 | 195/200 | 1,67 € |
La dada demolidora: Claude Opus 4.6 costa 14 vegades més que Gemini Flash i encerta 2 preguntes menys. GPT-5.2-Codex n'encerta 4 menys que un model que costa 5 vegades menys. Entre Opus 4.6 (#15) i Flash (#1) hi ha 14 models intermedis, la majoria generalistes sense cap optimització especial per a codi.
3. Programar No És Diagnosticar
Rànquing en benchmarks de codi (Terminal-Bench/SWE-Bench) vs. rànquing al MIR 2026. La inversió és clara: els millors en codi (barra taronja curta) són mediocres en medicina (barra blava llarga) i viceversa.
El gràfic anterior revela una inversió gairebé perfecta: els models que dominen els benchmarks de programació queden relegats al MIR, i viceversa.
- Claude Opus 4.6: #1 a Terminal-Bench → #15 al MIR
- GPT-5.2-Codex: Top 3 a SWE-Bench → #26 al MIR
- Gemini 3 Flash: No competeix en benchmarks de codi → #1 al MIR
- GPT-5.1 Chat: Model "bàsic" d'OpenAI → #4 al MIR
Per què es produeix aquesta inversió? La resposta rau en la naturalesa del MIR. L'examen mèdic és fonamentalment un test de coneixement factual i reconeixement de patrons clínics. La majoria de les seves 200 preguntes requereixen que el model identifiqui un quadre clínic, recordi un protocol o reconegui una associació diagnòstica. No requereix coordinar eines, escriure codi ni executar tasques en múltiples passos.
Un model optimitzat per a programació agèntica ha dedicat una part significativa del seu entrenament a aprendre a usar terminals, depurar codi i coordinar agents. Aquest entrenament no ajuda — i potencialment perjudica — quan la tasca és simplement respondre "quin és el tractament de primera línia per a la pneumònia adquirida a la comunitat?".
4. El Cas Opus 4.6: Ahir Va Néixer, Avui Ja Té Diagnòstic
Evolució de Claude Opus al MIR 2026. Opus 4.6 millora en codi (Terminal-Bench) però no supera Opus 4.5 en medicina: mateixa precisió, major cost i pitjor rànquing.
L'evolució de la família Claude Opus al MIR 2026 és particularment reveladora:
| Model | Rànquing MIR | Correctes | Cost | Temps/pregunta | Terminal-Bench |
|---|---|---|---|---|---|
| Opus 4 | #44 | 192/200 | 10,46 € | 28s | 42% |
| Opus 4.1 | #20 | 196/200 | 11,10 € | 30s | 52% |
| Opus 4.5 | #13 | 197/200 | 4,62 € | 13,4s | 57% |
| Opus 4.6 | #15 | 197/200 | 4,89 € | 14,1s | 65% |
Cada nova versió d'Opus és objectivament millor en programació: Opus 4 → 4.1 → 4.5 → 4.6 mostra una progressió constant a Terminal-Bench (42% → 52% → 57% → 65%). Però en medicina, Opus 4.6 no només no millora el 4.5, sinó que queda per darrere al rànquing (posició #15 vs. #13).
Com és possible? Opus 4.6 encerta les mateixes 197 preguntes que Opus 4.5, però costa 0,27 € més per examen (4,89 € vs. 4,62 €). A MedBench, davant empat en precisió, el model més barat guanya — i Opus 4.6 perd aquest desempat.
La paradoxa és clara: la major optimització agèntica d'Opus 4.6 no aporta cap benefici en un examen mèdic d'opció múltiple. La seva finestra de context d'1 milió de tokens, la seva capacitat de coordinar agent teams, el seu raonament adaptatiu — res d'això serveix quan la tasca és triar entre A, B, C o D en una pregunta de cardiologia. És com portar un equip quirúrgic complet per posar una tireta.
5. La Caiguda de GPT-5.2-Codex: De Subcampió a Posició 26
Evolució dels tres models Codex d'OpenAI al MIR (2024–2026). Les barres mostren encerts; les etiquetes, el rànquing. GPT-5.2-Codex (el més agèntic) rendeix pitjor que els seus germans menors al MIR 2026.
La història de GPT-5.2-Codex al llarg de tres convocatòries del MIR és un drama en tres actes:
| Convocatòria | Posició | Encerts | Precisió |
|---|---|---|---|
| MIR 2024 | #9 | 194/200 | 97,0% |
| MIR 2025 | #2 | 192/200 | 96,0% |
| MIR 2026 | #26 | 195/200 | 97,5% |
Torna-ho a llegir: al MIR 2026, GPT-5.2-Codex va encertar més preguntes que mai (195 vs. 194 el 2024) i tanmateix va caure 24 posicions respecte al 2025. Com és possible caure encertant més?
Perquè els altres van millorar molt més. El 2025, 192 encerts et posaven al podi. El 2026, amb 50 models superant el 95% de precisió, 195 encerts et deixen al pilot.
I aquí rau el patró més revelador: les versions "menys agèntiques" dels models Codex rendeixen millor al MIR.
- GPT-5 Codex (menys agèntic): #5, 198/200
- GPT-5.1-Codex-Max: #6, 198/200
- GPT-5.2-Codex (més agèntic): #26, 195/200
Com més s'optimitza un model Codex per a capacitats agèntiques de codi, pitjor rendeix en coneixement mèdic. El patró és consistent i inquietant.
6. GPT-5.3-Codex: El Gran Absent
Llançat el mateix 5 de febrer juntament amb Claude Opus 4.6, GPT-5.3-Codex és, segons OpenAI, el model més avançat mai creat per a programació. Les seves credencials són impressionants: nous rècords a SWE-Bench Pro, capacitat d'autodepuració, i la curiosa distinció de ser "el primer model que es va construir parcialment a si mateix".[2]
No obstant això, GPT-5.3-Codex no apareix al nostre rànquing. La raó és simple: OpenAI l'ha llançat exclusivament a través de ChatGPT — l'aplicació d'escriptori, la CLI i les extensions IDE. No té endpoint API públic.[5]
A MedBench, tots els models s'avaluen a través d'OpenRouter API sota condicions controlades i idèntiques: mateix prompt, mateixa temperatura, mateix format de resposta. Avaluar un model a través d'una interfície de xat introduiria variables incontrolables (prompt del sistema, formatatge, limitacions de la interfície) que invalidarien la comparació.
Quan GPT-5.3-Codex tingui API disponible — OpenAI ha dit que "soon" — l'avaluarem immediatament. Però per ara, és l'elefant a l'habitació: probablement el model agèntic més potent del món, i no el podem mesurar.
La pregunta que flota a l'aire: si fins i tot GPT-5 Codex (un model menys avançat) només aconsegueix el #5 al MIR, seria GPT-5.3-Codex realment capaç de superar Gemini Flash? Les dades suggereixen que no — però sense mesurar-lo, queda com a especulació.
7. Per Què Passa Això? La Ciència del Trade-Off
Top 40 models del MIR 2026: cost total de l'examen vs. precisió. Els models agèntics (taronja, amb vora) no arriben a la zona superior-esquerra (barat i precís), dominada per Flash i generalistes. Dades reals de MedBench.
El gràfic de dispersió confirma visualment el que les dades individuals ja suggerien: existeix una correlació negativa entre la capacitat agèntica i la precisió mèdica. Els models més optimitzats per a codi (zona dreta) tendeixen a rendir pitjor al MIR (zona inferior).
Per què? Hi ha quatre hipòtesis complementàries que ho expliquen:
7.1. El Trade-Off de l'Especialització
L'entrenament d'un LLM és un joc de suma gairebé zero. Els cicles de RLHF i fine-tuning dedicats a millorar tool calling, execució de codi i coordinació d'agents són cicles que no es dediquen a consolidar coneixement mèdic factual.
L'analogia és directa: un cirurgià que dedica anys a especialitzar-se en microcirurgia de mà no es converteix per això en millor neurocirurgià. De fet, pot perdre competències generalistes per desús. Els models agèntics són l'equivalent digital: extraordinàriament bons en la seva especialitat (codi), però no necessàriament millors — i de vegades pitjors — fora d'ella.
7.2. La Maledicció de l'Overthinking
Investigacions recents sobre "overthinking" en cadenes de raonament (chain-of-thought) suggereixen que pensar més no sempre és pensar millor.[7] Els models agèntics estan optimitzats per raonar en molts passos, descompondre problemes complexos i iterar sobre solucions. Però en preguntes directes d'opció múltiple, aquesta capacitat pot ser contraproduent.
Una dada il·lustrativa: Claude Opus 4.6 amb 0 tokens de raonament encerta 197/200. o3 Deep Research amb 1,7 milions de tokens de raonament encerta 198/200. Una pregunta més per 500 vegades més tokens. El retorn marginal del "pensament profund" en preguntes mèdiques d'opció múltiple és pràcticament nul.
7.3. L'Optimització per a Eines Contamina el Coneixement
L'entrenament per a tool calling (ús d'eines, APIs, terminals) modifica la distribució de probabilitats del model de formes subtils però significatives. Un model Codex ha estat entrenat extensivament per generar codi, no per recordar farmacologia. Les representacions internes del model es reorganitzen per prioritzar patrons sintàctics, APIs i fluxos d'execució — a costa potencial de patrons clínics, protocols terapèutics i associacions diagnòstiques.
El MIR no requereix eines. No hi ha fitxers per llegir, tests per executar ni agents per coordinar. Només requereix memòria i reconeixement de patrons — precisament les capacitats que l'entrenament agèntic pot erosionar.
7.4. L'Efecte "Ganivet Suís"
Un ganivet suís és una eina extraordinària per anar de càmping. Pot tallar pa, obrir llaunes, treure taps i collar cargols. Però ningú no operaria un pacient amb ell. Per operar, necessites un bisturí: una eina simple, especialitzada i extraordinàriament precisa en la seva única funció.
Els models agèntics són ganivets suïssos digitals: poden fer moltes coses bé, però sacrifiquen profunditat per amplitud. Un model Flash que simplement respon la pregunta sense pensar massa — un bisturí — és més eficient per a un examen d'opció múltiple que un model dissenyat per coordinar equips d'agents.
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Trade-Off de l'Especialització | Fuerte | RLHF per a codi desplaça coneixement mèdic. Més agentivitat → menys precisió factual. |
| Maledicció de l'Overthinking | Moderada | Raonament multi-pas contraproduent en MCQ directes. 1,7M tokens → +1 encert vs. 0 tokens. |
| Contaminació per Tool Calling | Probable | Entrenament per generar codi reorganitza representacions internes, erosionant patrons clínics. |
| Efecte Ganivet Suís | Claro | Amplitud de capacitats sacrifica profunditat en dominis específics. Flash > Opus en MCQ mèdiques. |
Resum de les quatre hipòtesis sobre el trade-off agèntic. L'evidència apunta que són complementàries, no excloents.
8. El Preu de la Complexitat
Cost per resposta correcta al MIR 2026. o1-pro costa 641x més per resposta correcta que Gemini Flash, amb menor precisió.
Si els models agèntics no són més precisos en medicina, almenys són eficients? Les dades diuen que no. El cost per resposta correcta revela la magnitud del malbaratament:
| Model | Cost/correcta | vs. Flash | Correctes |
|---|---|---|---|
| Gemini 3 Flash | 0,0017 € | 1x | 199/200 |
| GPT-5.1 Chat | 0,0033 € | 1,9x | 198/200 |
| GPT-5.2-Codex | 0,0086 € | 5x | 195/200 |
| Claude Opus 4.6 | 0,0248 € | 14,6x | 197/200 |
| o1 | 0,112 € | 65,9x | 198/200 |
| o3 Deep Research | 0,883 € | 519x | 198/200 |
| o1-pro | 1,09 € | 641x | 197/200 |
La pregunta és inevitable: en un sistema de salut amb pressupost limitat, pagaries 14 vegades més per 2 respostes menys? O 641 vegades més per la mateixa precisió?
Per a un hospital que volgués implementar IA com a eina de suport diagnòstic, aquests números són decisius. Si l'objectiu és maximitzar precisió per euro invertit, Gemini Flash és l'elecció òptima per un marge absurd. Els models agèntics tenen usos legítims en entorns mèdics complexos (integració d'historials, diagnòstic diferencial multi-pas), però per a consultes ràpides tipus pattern matching, són una solució cara a un problema barat.
9. Què Significa Això per a la IA Mèdica
La lliçó principal d'aquestes dades és enganyosament simple: no necessites el "millor" model d'IA per a medicina. Necessites el més adequat.
Els sistemes agèntics com Claude Opus 4.6 i GPT-5.2-Codex tenen el seu lloc legítim. Si necessites un sistema que revisi un historial clínic de 500 pàgines, correlacioni resultats de laboratori amb símptomes, consulti bases de dades d'interaccions farmacològiques i generi un informe estructurat — un model agèntic és exactament el que necessites. Aquest és el seu quiròfan.
Però si necessites respondre ràpidament si un pacient amb dolor precordial, elevació del ST i troponines elevades té un infart — allà necessites un bisturí, no un ganivet suís. I Gemini Flash, amb la seva resposta directa en 4 segons per 0,17 cèntims, és un bisturí extraordinàriament esmolat.
La importància d'avaluar models en el domini específic d'aplicació no es pot subestimar. Assumir que el model #1 en programació serà també el #1 en medicina és un error que, amb les dades de MedBench sobre la taula, ja no té excusa. Cada domini té les seves pròpies regles i els seus propis campions.
10. Conclusions: Cada Eina per a la Seva Tasca
El ganivet suís — Claude Opus 4.6, GPT-5.2-Codex — és una eina extraordinària. Pot programar com un equip d'enginyers, coordinar agents, depurar codi i automatitzar fluxos de treball complexos. En el seu terreny, no té rival.
El bisturí — Gemini 3 Flash — fa una sola cosa: respondre preguntes amb precisió devastadora, a velocitat de vertigen, per un cost ridícul. Al MIR 2026, on la tasca és exactament aquesta, no necessita més.
Els models agèntics revolucionaran la programació, l'automatització i probablement dotzenes d'indústries. Però la medicina té les seves pròpies regles. I a l'examen mèdic més important d'Espanya, un model de 34 cèntims ha tornat a demostrar que més car, més gran i més complex no sempre significa millor.
La propera vegada que algú et digui que el millor model d'IA del món resoldrà tots els problemes, recorda: depèn del problema. Un cirurgià no necessita un ganivet suís. Necessita un bisturí.
Explora els rànquings complets del MIR 2026 i compara els 290 models avaluats a MedBench Rankings.
Notas y Referencias
- Anthropic Blog: Introducing Claude Opus 4.6. 5 de febrer de 2026.
- OpenAI Blog: GPT-5.3-Codex: The Most Advanced Coding Agent. 5 de febrer de 2026.
- Terminal-Bench 2.0 Leaderboard. Claude Opus 4.6 va assolir un 65,4%, superant l'anterior rècord del 57,2% d'Opus 4.5. terminal-bench.com.
- SWE-Bench Pro Leaderboard. GPT-5.3-Codex estableix un nou màxim en resolució autònoma d'issues reals de GitHub.
- GPT-5.3-Codex només està disponible a través de ChatGPT (app, CLI i extensions IDE). OpenAI ha indicat que l'accés API estarà disponible 'pròximament'. Sense API, no és possible avaluar-lo a MedBench sota condicions controlades.
- OpenAI: GPT-5.2-Codex. Llançat el desembre de 2025.
- Investigacions sobre 'overthinking' en models de raonament chain-of-thought mostren rendiment decreixent amb longitud excessiva de cadenes de pensament en tasques de resposta directa. Vegeu també: MedBench: 199 de 200 per a l'anàlisi de tokens de raonament vs. precisió.
- Els resultats complets del MIR 2026 amb 290 models estan disponibles a MedBench Rankings. Metodologia detallada a la nostra secció de metodologia.