
Es Ganivet Suís i es Bisturí: Per Què ets Millors Models de Codi Fracassen en es MIR
Claude Opus 4.6 i GPT-5.2-Codex són ets models d'IA més avançats per programar. Però en es MIR 2026, un model Flash de 0,34 € ets humilia. Anàlisi de sa paradoxa agèntica amb dades de 290 models.
Es 5 de febrer de 2026, sa intel·ligència artificial visqué un dia que només ocorre una vegada per dècada. A ses 10:00 des matí (hora des Pacífic), Anthropic publicà un post en es seu blog amb un titular que pareixia tret de sa ciència ficció: "Claude Opus 4.6: es model que coordina equips d'agents d'IA per resoldre problemes que cap model individual podria abordar".[1] Quaranta minuts després, OpenAI contraatacà: "Presentam GPT-5.3-Codex, es primer model que es construí parcialment a si mateix".[2]
Ets titulars de sa premsa tecnològica varen ser previsibles: "Sa guerra dets agents d'IA", "Es model que programa com un equip de 10 enginyers", "Sa singularitat ja té nom". A Terminal-Bench 2.0 — es benchmark de referència per a tasques de programació agèntica — Claude Opus 4.6 establí un rècord absolut amb un 65,4%, destrossant s'anterior màxim des 57,2% des seu predecessor, Opus 4.5.[3] A SWE-Bench Pro, GPT-5.3-Codex també marcà un nou màxim.[4]
Però aquí, a Medical Benchmark, ses dades conten una història molt diferent.
Mentre es món celebrava s'arribada dets models de codi més avançats de sa història, noltros ja teníem es resultats de 290 models avaluats en es MIR 2026. I es veredicte és incòmode: ets millors models agèntics de codi són mediocres en medicina. Un model "Flash" que costa 34 cèntims ets aplasta a tots.
I respecte a GPT-5.3-Codex, es flamant llançament d'OpenAI: no hem pogut avaluar-lo. Només està disponible a través de ChatGPT (app, CLI i extensions IDE). No té API pública.[5] A MedBench avaluam models a través d'OpenRouter API, així que GPT-5.3-Codex és, per ara, es gran absent des nostro rànquing.
1. Ets Gladiadors des Codi
Abans de mostrar ses dades, convé entendre què són aquests models i per què importen. Ets tres protagonistes d'aquesta història comparteixen una característica: estan dissenyats per ésser agents de codi — sistemes d'IA que no només responen preguntes, sinó que executen tasques complexes de programació de forma autònoma, coordinant eines, llegint fitxers, executant tests i depurant errors.
Claude Opus 4.6 (Anthropic)
Es vaixell insígnia d'Anthropic. Llançat es 5 de febrer de 2026. Finestra de context d'1 milió de tokens. Capacitat per coordinar equips d'agents especialitzats ("agent teams"). Rècord a Terminal-Bench 2.0 amb un 65,4%. Dissenyat per a raonament adaptatiu — pot decidir quant "pensar" abans de respondre.[1]
Claude Opus 4.5 (Anthropic)
S'anterior vaixell insígnia. Durant mesos va ser es model de codi més avançat des mercat. 57,2% a Terminal-Bench. Segueix sent extraordinàriament capaç, però Opus 4.6 el supera en totes ses mètriques de programació.
GPT-5.2-Codex (OpenAI)
Llançat al desembre de 2025 com "es model agèntic de codi més avançat" d'OpenAI. Optimitzat per a contextos llargs, tool calling fiable i tasques multi-pas. Top 3 a SWE-Bench Verified.[6]
GPT-5.3-Codex (OpenAI) — Es Gran Absent
Llançat es mateix dia que Opus 4.6. Segons OpenAI, és es primer model en es qual s'entrenament s'usaren versions primerenques de si mateix per a depuració i avaluació. Rècords a SWE-Bench Pro i altres benchmarks de codi. Però només està disponible via ChatGPT — no té endpoint API, lo que fa impossible sa seva avaluació a MedBench.[5]
Lo que tots aquests models tenen en comú: estan optimitzats per a tasques multi-pas, ús d'eines i coordinació d'agents. Són ganivets suïssos digitals: poden tallar, cargolar, obrir llaunes i llimar. Sa pregunta és: poden també operar?
2. Es Veredicte des MIR
Comparativa de models agèntics/codi vs. generalistes en es MIR 2026. Es models agèntics (taronja) rendeixen pitjor que es generalistes (blau) malgrat ser més cars.
Ets números no necessiten interpretació. Parlen sols:
| Model | Tipus | Posició | Encerts | Cost |
|---|---|---|---|---|
| Gemini 3 Flash | Generalista | #1 | 199/200 | 0,34 € |
| o3 | Raonament | #2 | 199/200 | 1,94 € |
| GPT-5 | Raonament | #3 | 199/200 | 2,05 € |
| GPT-5.1 Chat | Generalista | #4 | 198/200 | 0,65 € |
| Claude Opus 4.5 | Agèntic | #13 | 197/200 | 4,62 € |
| Claude Opus 4.6 | Agèntic | #15 | 197/200 | 4,89 € |
| GPT-5.2-Codex | Agèntic | #26 | 195/200 | 1,67 € |
Sa dada demolidora: Claude Opus 4.6 costa 14 vegades més que Gemini Flash i encerta 2 preguntes menys. GPT-5.2-Codex encerta 4 menys que un model que costa 5 vegades menys. Entre Opus 4.6 (#15) i Flash (#1) hi ha 14 models intermedis, sa majoria generalistes sense cap optimització especial per a codi.
3. Programar No És Diagnosticar
Rànquing en benchmarks de codi (Terminal-Bench/SWE-Bench) vs. rànquing en es MIR 2026. Sa inversió és clara: es millors en codi (barra taronja curta) són mediocres en medicina (barra blava llarga) i viceversa.
Es gràfic anterior revela una inversió quasi perfecta: ets models que dominen ets benchmarks de programació queden relegats en es MIR, i viceversa.
- Claude Opus 4.6: #1 a Terminal-Bench → #15 en es MIR
- GPT-5.2-Codex: Top 3 a SWE-Bench → #26 en es MIR
- Gemini 3 Flash: No competeix a benchmarks de codi → #1 en es MIR
- GPT-5.1 Chat: Model "bàsic" d'OpenAI → #4 en es MIR
Per què ocorre aquesta inversió? Sa resposta està en sa naturalesa des MIR. S'examen mèdic és fonamentalment un test de coneixement factual i reconeixement de patrons clínics. Sa majoria de ses 200 preguntes requereixen que es model identifiqui un quadre clínic, recordi un protocol o reconegui una associació diagnòstica. No requereix coordinar eines, escriure codi ni executar tasques en múltiples passos.
Un model optimitzat per a programació agèntica ha dedicat una part significativa des seu entrenament a aprendre a usar terminals, depurar codi i coordinar agents. Aquest entrenament no ajuda — i potencialment perjudica — quan sa tasca és simplement respondre "quin és es tractament de primera línia per a sa pneumònia adquirida a sa comunitat?".
4. Es Cas Opus 4.6: Ahir Nasqué, Avui Ja Té Diagnòstic
Evolució de Claude Opus en es MIR 2026. Opus 4.6 millora en codi (Terminal-Bench) però no supera Opus 4.5 en medicina: mateixa precisió, major cost i pitjor rànquing.
S'evolució de sa família Claude Opus en es MIR 2026 és particularment reveladora:
| Model | Rànquing MIR | Correctes | Cost | Temps/pregunta | Terminal-Bench |
|---|---|---|---|---|---|
| Opus 4 | #44 | 192/200 | 10,46 € | 28s | 42% |
| Opus 4.1 | #20 | 196/200 | 11,10 € | 30s | 52% |
| Opus 4.5 | #13 | 197/200 | 4,62 € | 13,4s | 57% |
| Opus 4.6 | #15 | 197/200 | 4,89 € | 14,1s | 65% |
Cada nova versió d'Opus és objectivament millor en programació: Opus 4 → 4.1 → 4.5 → 4.6 mostra una progressió constant a Terminal-Bench (42% → 52% → 57% → 65%). Però en medicina, Opus 4.6 no només no millora a 4.5, sinó que queda per darrere en es rànquing (posició #15 vs. #13).
Com és possible? Opus 4.6 encerta ses mateixes 197 preguntes que Opus 4.5, però costa 0,27 € més per examen (4,89 € vs. 4,62 €). A MedBench, davant empat en precisió, es model més barat guanya — i Opus 4.6 perd aquest desempat.
Sa paradoxa és clara: sa major optimització agèntica d'Opus 4.6 no aporta cap benefici en un examen mèdic d'opció múltiple. Sa seva finestra de context d'1 milió de tokens, sa seva capacitat de coordinar agent teams, es seu raonament adaptatiu — res d'això serveix quan sa tasca és triar entre A, B, C o D en una pregunta de cardiologia. És com dur un equip quirúrgic complet per posar una tireta.
5. Sa Caiguda de GPT-5.2-Codex: De Subcampió a Lloc 26
Evolució des tres models Codex d'OpenAI en es MIR (2024–2026). Ses barres mostren encerts; ses etiquetes, es rànquing. GPT-5.2-Codex (es més agèntic) rendeix pitjor que es seus germans menors en es MIR 2026.
Sa història de GPT-5.2-Codex al llarg de tres convocatòries des MIR és un drama en tres actes:
| Convocatòria | Posició | Encerts | Precisió |
|---|---|---|---|
| MIR 2024 | #9 | 194/200 | 97,0% |
| MIR 2025 | #2 | 192/200 | 96,0% |
| MIR 2026 | #26 | 195/200 | 97,5% |
Llegeix-ho de bell nou: en es MIR 2026, GPT-5.2-Codex encertà més preguntes que mai (195 vs. 194 en 2024) i no obstant això caigué 24 posicions respecte a 2025. Com és possible caure encertant més?
Perquè ets altres milloraren molt més. En 2025, 192 encerts et posaven an es podi. En 2026, amb 50 models superant es 95% de precisió, 195 encerts et deixen en es pilot.
I aquí està es patró més revelador: ses versions "menys agèntiques" dets models Codex rendeixen millor en es MIR.
- GPT-5 Codex (menys agèntic): #5, 198/200
- GPT-5.1-Codex-Max: #6, 198/200
- GPT-5.2-Codex (més agèntic): #26, 195/200
Com més s'optimitza un model Codex per a capacitats agèntiques de codi, pitjor rendeix en coneixement mèdic. Es patró és consistent i inquietant.
6. GPT-5.3-Codex: Es Gran Absent
Llançat es mateix 5 de febrer juntament amb Claude Opus 4.6, GPT-5.3-Codex és, segons OpenAI, es model més avançat mai creat per a programació. Ses seves credencials són impressionants: nous rècords a SWE-Bench Pro, capacitat d'auto-depuració, i sa curiosa distinció d'ésser "es primer model que es construí parcialment a si mateix".[2]
No obstant això, GPT-5.3-Codex no apareix en es nostro rànquing. Sa raó és simple: OpenAI l'ha llançat exclusivament a través de ChatGPT — s'aplicació d'escriptori, sa CLI i ses extensions IDE. No té endpoint API públic.[5]
A MedBench, tots ets models s'avaluen a través d'OpenRouter API davall condicions controlades i idèntiques: mateix prompt, mateixa temperatura, mateix format de resposta. Avaluar un model a través d'una interfície de xat introduiria variables incontrolables (prompt des sistema, formatejat, limitacions de sa interfície) que invalidarien sa comparació.
Quan GPT-5.3-Codex tengui API disponible — OpenAI ha dit que "soon" — l'avaluarem immediatament. Però per ara, és s'elefant dins sa sala: probablement es model agèntic més potent des món, i no podem mesurar-lo.
Sa pregunta que flota en s'aire: si fins i tot GPT-5 Codex (un model menys avançat) només aconsegueix es #5 en es MIR, seria GPT-5.3-Codex realment capaç de superar a Gemini Flash? Ses dades suggereixen que no — però sense mesurar-lo, queda com a especulació.
7. Per Què Ocorre Això? Sa Ciència des Trade-Off
Top 40 models des MIR 2026: cost total de s'examen vs. precisió. Es models agèntics (taronja, amb vora) no arriben a sa zona superior-esquerra (barat i precís), dominada per Flash i generalistes. Dades reals de MedBench.
Es gràfic de dispersió confirma visualment lo que ses dades individuals ja suggerien: existeix una correlació negativa entre sa capacitat agèntica i sa precisió mèdica. Ets models més optimitzats per a codi (zona dreta) tendeixen a rendir pitjor en es MIR (zona inferior).
Per què? Hi ha quatre hipòtesis complementàries que ho expliquen:
7.1. Es Trade-Off de s'Especialització
S'entrenament d'un LLM és un joc de suma quasi-zero. Ets cicles de RLHF i fine-tuning dedicats a millorar tool calling, execució de codi i coordinació d'agents són cicles que no es dediquen a consolidar coneixement mèdic factual.
S'analogia és directa: un cirurgià que dedica anys a especialitzar-se en microcirurgia de mà no es converteix per això en millor neurocirurgià. De fet, pot perdre competències generalistes per desús. Ets models agèntics són s'equivalent digital: extraordinàriament bons en sa seva especialitat (codi), però no necessàriament millors — i de vegades pitjors — fora d'ella.
7.2. Sa Maledicció de s'Overthinking
Investigacions recents sobre "overthinking" en cadenes de raonament (chain-of-thought) suggereixen que pensar més no sempre és pensar millor.[7] Ets models agèntics estan optimitzats per raonar en molts passos, descompondre problemes complexos i iterar sobre solucions. Però en preguntes directes d'opció múltiple, aquesta capacitat pot resultar contraproduent.
Una dada il·lustrativa: Claude Opus 4.6 amb 0 tokens de raonament encerta 197/200. o3 Deep Research amb 1,7 milions de tokens de raonament encerta 198/200. Una pregunta més per 500 vegades més tokens. Es retorn marginal des "pensament profund" en preguntes mèdiques d'opció múltiple és pràcticament nul.
7.3. S'Optimització per a Eines Contamina es Coneixement
S'entrenament per a tool calling (ús d'eines, APIs, terminals) modifica sa distribució de probabilitats des model de formes subtils però significatives. Un model Codex ha estat entrenat extensivament per generar codi, no per recordar farmacologia. Ses representacions internes des model es reorganitzen per prioritzar patrons sintàctics, APIs i fluxos d'execució — a cost potencial de patrons clínics, protocols terapèutics i associacions diagnòstiques.
Es MIR no requereix eines. No hi ha fitxers que llegir, tests que executar ni agents que coordinar. Només requereix memòria i reconeixement de patrons — precisament ses capacitats que s'entrenament agèntic pot erosionar.
7.4. S'Efecte "Ganivet Suís"
Un ganivet suís és una eina extraordinària per anar d'acampada. Pot tallar pa, obrir llaunes, treure taps i estrènyer cargols. Però ningú operaria un pacient amb ell. Per operar, necessites un bisturí: una eina simple, especialitzada i extraordinàriament precisa en sa seva única funció.
Ets models agèntics són ganivets suïssos digitals: poden fer moltes coses bé, però sacrifiquen profunditat per amplitud. Un model Flash que simplement respon sa pregunta sense pensar massa — un bisturí — és més eficient per a un examen d'opció múltiple que un model dissenyat per coordinar equips d'agents.
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Trade-Off d'Especialització | Fuerte | RLHF per a codi desplaça coneixement mèdic. Més agentivitat → menys precisió factual. |
| Maledicció de s'Overthinking | Moderada | Raonament multi-pas contraproduent en MCQ directes. 1,7M tokens → +1 encert vs. 0 tokens. |
| Contaminació per Tool Calling | Probable | Entrenament per generar codi reorganitza representacions internes, erosionant patrons clínics. |
| Efecte Ganivet Suís | Claro | Amplitud de capacitats sacrifica profunditat en dominis específics. Flash > Opus en MCQ mèdiques. |
Resum de ses quatre hipòtesis sobre es trade-off agèntic. S'evidència apunta a que són complementàries, no excloents.
8. Es Preu de sa Complexitat
Cost per resposta correcta en es MIR 2026. o1-pro costa 641x més per resposta correcta que Gemini Flash, amb menor precisió.
Si ets models agèntics no són més precisos en medicina, almenys són eficients? Ses dades diuen que no. Es cost per resposta correcta revela sa magnitud des malbaratament:
| Model | Cost/correcta | vs. Flash | Correctes |
|---|---|---|---|
| Gemini 3 Flash | 0,0017 € | 1x | 199/200 |
| GPT-5.1 Chat | 0,0033 € | 1,9x | 198/200 |
| GPT-5.2-Codex | 0,0086 € | 5x | 195/200 |
| Claude Opus 4.6 | 0,0248 € | 14,6x | 197/200 |
| o1 | 0,112 € | 65,9x | 198/200 |
| o3 Deep Research | 0,883 € | 519x | 198/200 |
| o1-pro | 1,09 € | 641x | 197/200 |
Sa pregunta és inevitable: en un sistema de salut amb pressupost limitat, pagaries 14 vegades més per 2 respostes menys? O 641 vegades més per sa mateixa precisió?
Per a un hospital que volgués implementar IA com a eina de suport diagnòstic, aquests números són decisius. Si s'objectiu és maximitzar precisió per euro invertit, Gemini Flash és s'elecció òptima per un marge absurd. Ets models agèntics tenen usos legítims en entorns mèdics complexos (integració d'historials, diagnòstic diferencial multi-pas), però per a consultes ràpides tipus pattern matching, són una solució cara a un problema barat.
9. Lo Que Això Significa per a s'IA Mèdica
Sa lliçó principal d'aquestes dades és enganyosament simple: no necessites es "millor" model d'IA per a medicina. Necessites es més adequat.
Ets sistemes agèntics com Claude Opus 4.6 i GPT-5.2-Codex tenen es seu lloc legítim. Si necessites un sistema que revisi un historial clínic de 500 pàgines, correlacioni resultats de laboratori amb símptomes, consulti bases de dades d'interaccions farmacològiques i generi un informe estructurat — un model agèntic és exactament lo que necessites. Aquest és es seu quiròfan.
Però si necessites respondre ràpidament si un pacient amb dolor precordial, elevació de l'ST i troponines elevades té un infart — allà necessites un bisturí, no un ganivet suís. I Gemini Flash, amb sa seva resposta directa en 4 segons per 0,17 cèntims, és un bisturí extraordinàriament esmolat.
Sa importància d'avaluar models en es domini específic d'aplicació no pot subestimar-se. Assumir que es model #1 en programació serà també es #1 en medicina és un error que, amb ses dades de MedBench damunt sa taula, ja no té excusa. Cada domini té ses seves pròpies regles i es seus propis campions.
10. Conclusions: Cada Eina per a sa Seva Tasca
Es ganivet suís — Claude Opus 4.6, GPT-5.2-Codex — és una eina extraordinària. Pot programar com un equip d'enginyers, coordinar agents, depurar codi i automatitzar fluxos de feina complexos. En es seu terreny, no té rival.
Es bisturí — Gemini 3 Flash — fa una sola cosa: respondre preguntes amb precisió devastadora, a velocitat de vertigen, per un cost ridícul. En es MIR 2026, on sa tasca és exactament aquesta, no necessita més.
Ets models agèntics revolucionaran sa programació, s'automatització i probablement desenes d'indústries. Però sa medicina té ses seves pròpies regles. I en s'examen mèdic més important d'Espanya, un model de 34 cèntims ha tornat a demostrar que més car, més gran i més complex no sempre significa millor.
Sa pròxima vegada que qualcú et digui que es millor model d'IA des món resoldrà tots es problemes, recorda: depèn des problema. Un cirurgià no necessita un ganivet suís. Necessita un bisturí.
Explora ets rànquings complets des MIR 2026 i compara ets 290 models avaluats a MedBench Rankings.
Notas y Referencias
- Anthropic Blog: Introducing Claude Opus 4.6. 5 de febrer de 2026.
- OpenAI Blog: GPT-5.3-Codex: The Most Advanced Coding Agent. 5 de febrer de 2026.
- Terminal-Bench 2.0 Leaderboard. Claude Opus 4.6 assolí un 65,4%, superant s'anterior rècord des 57,2% d'Opus 4.5. terminal-bench.com.
- SWE-Bench Pro Leaderboard. GPT-5.3-Codex estableix nou màxim en resolució autònoma d'issues reals de GitHub.
- GPT-5.3-Codex només està disponible a través de ChatGPT (app, CLI i extensions IDE). OpenAI ha indicat que s'accés API estarà disponible 'pròximament'. Sense API, no és possible avaluar-lo a MedBench davall condicions controlades.
- OpenAI: GPT-5.2-Codex. Llançat al desembre de 2025.
- Investigacions sobre 'overthinking' en models de raonament chain-of-thought mostren rendiment decreixent amb longitud excessiva de cadenes de pensament en tasques de resposta directa. Vegeu també: MedBench: 199 de 200 per a anàlisi de tokens de raonament vs. precisió.
- Ets resultats complets des MIR 2026 amb 290 models estan disponibles a MedBench Rankings. Metodologia detallada a sa nostra secció de metodologia.