MedicalBenchmark
A Navalla Suíza e o Bisturí: Por Que os Mellores Modelos de Código Fracasan no MIR

A Navalla Suíza e o Bisturí: Por Que os Mellores Modelos de Código Fracasan no MIR

Claude Opus 4.6 e GPT-5.2-Codex son os modelos de IA máis avanzados para programar. Pero no MIR 2026, un modelo Flash de 0,34 € humíllaos. Análise da paradoxa axéntica con datos de 290 modelos.

Equipo MedBench6 de febreiro de 202616 min de lectura
MIR 2026Modelos AxénticosClaude Opus 4.6GPT-5.2-CodexGemini Flash

O 5 de febreiro de 2026, a intelixencia artificial viviu un día que só ocorre unha vez por década. Ás 10:00 da mañá (hora do Pacífico), Anthropic publicou un post no seu blog cun titular que parecía sacado da ciencia ficción: "Claude Opus 4.6: o modelo que coordina equipos de axentes de IA para resolver problemas que ningún modelo individual podería abordar".[1] Corenta minutos despois, OpenAI contraatacou: "Presentamos GPT-5.3-Codex, o primeiro modelo que se construíu parcialmente a si mesmo".[2]

Os titulares da prensa tecnolóxica foron predecibles: "A guerra dos axentes de IA", "O modelo que programa como un equipo de 10 enxeñeiros", "A singularidade xa ten nome". En Terminal-Bench 2.0 — o benchmark de referencia para tarefas de programación axéntica — Claude Opus 4.6 estableceu un récord absoluto cun 65,4%, destrozando o anterior máximo do 57,2% do seu predecesor, Opus 4.5.[3] En SWE-Bench Pro, GPT-5.3-Codex tamén marcou un novo máximo.[4]

Pero aquí, en Medical Benchmark, os datos contan unha historia moi diferente.

Mentres o mundo celebraba a chegada dos modelos de código máis avanzados da historia, nós tiñamos xa os resultados de 290 modelos avaliados no MIR 2026. E o veredicto é incómodo: os mellores modelos axénticos de código son mediocres en medicina. Un modelo "Flash" que custa 34 céntimos esmagaos a todos.

E respecto a GPT-5.3-Codex, o flamante lanzamento de OpenAI: non puidemos avalialo. Só está dispoñible a través de ChatGPT (app, CLI e extensións IDE). Non ten API pública.[5] En MedBench avaliamos modelos a través de OpenRouter API, así que GPT-5.3-Codex é, por agora, o gran ausente do noso ranking.


1. Os Gladiadores do Código

Antes de mostrar os datos, convén entender que son estes modelos e por que importan. Os tres protagonistas desta historia comparten unha característica: están deseñados para ser axentes de código — sistemas de IA que non só responden preguntas, senón que executan tarefas complexas de programación de forma autónoma, coordinando ferramentas, lendo ficheiros, executando tests e depurando erros.

Claude Opus 4.6 (Anthropic)

O buque insignia de Anthropic. Lanzado o 5 de febreiro de 2026. Ventá de contexto de 1 millón de tokens. Capacidade para coordinar equipos de axentes especializados ("agent teams"). Récord en Terminal-Bench 2.0 cun 65,4%. Deseñado para razoamento adaptativo — pode decidir canto "pensar" antes de responder.[1]

Claude Opus 4.5 (Anthropic)

O anterior buque insignia. Durante meses foi o modelo de código máis avanzado do mercado. 57,2% en Terminal-Bench. Segue sendo extraordinariamente capaz, pero Opus 4.6 supérao en todas as métricas de programación.

GPT-5.2-Codex (OpenAI)

Lanzado en decembro de 2025 como "o modelo axéntico de código máis avanzado" de OpenAI. Optimizado para contextos longos, tool calling fiable e tarefas multi-paso. Top 3 en SWE-Bench Verified.[6]

GPT-5.3-Codex (OpenAI) — O Gran Ausente

Lanzado o mesmo día que Opus 4.6. Segundo OpenAI, é o primeiro modelo no cuxo adestramento se usaron versións temperás de si mesmo para depuración e avaliación. Récords en SWE-Bench Pro e outros benchmarks de código. Pero só está dispoñible vía ChatGPT — non ten endpoint API, o que fai imposible a súa avaliación en MedBench.[5]

O que todos estes modelos teñen en común: están optimizados para tarefas multi-paso, uso de ferramentas e coordinación de axentes. Son navallas suízas dixitais: poden cortar, aparafusar, abrir latas e limar. A pregunta é: poden tamén operar?


2. O Veredicto do MIR

Axéntico / Código
Xeneralista
Razoamento

Comparativa de modelos axénticos/código vs. xeneralistas no MIR 2026. Os modelos axénticos (laranxa) renden peor que os xeneralistas (azul) a pesar de seren máis caros.

Os números non necesitan interpretación. Falan sós:

ModeloTipoPosiciónAcertosCusto
Gemini 3 FlashXeneralista#1199/2000,34 €
o3Razoamento#2199/2001,94 €
GPT-5Razoamento#3199/2002,05 €
GPT-5.1 ChatXeneralista#4198/2000,65 €
Claude Opus 4.5Axéntico#13197/2004,62 €
Claude Opus 4.6Axéntico#15197/2004,89 €
GPT-5.2-CodexAxéntico#26195/2001,67 €

O dato demoledor: Claude Opus 4.6 custa 14 veces máis que Gemini Flash e acerta 2 preguntas menos. GPT-5.2-Codex acerta 4 menos que un modelo que custa 5 veces menos. Entre Opus 4.6 (#15) e Flash (#1) hai 14 modelos intermedios, a maioría xeneralistas sen ningunha optimización especial para código.


3. Programar Non É Diagnosticar

Ranking en benchmarks de código (Terminal-Bench/SWE-Bench) vs. ranking no MIR 2026. A inversión é clara: os mellores en código (barra laranxa curta) son mediocres en medicina (barra azul longa) e viceversa.

O gráfico anterior revela unha inversión case perfecta: os modelos que dominan os benchmarks de programación quedan relegados no MIR, e viceversa.

  • Claude Opus 4.6: #1 en Terminal-Bench → #15 no MIR
  • GPT-5.2-Codex: Top 3 en SWE-Bench → #26 no MIR
  • Gemini 3 Flash: Non compite en benchmarks de código → #1 no MIR
  • GPT-5.1 Chat: Modelo "básico" de OpenAI → #4 no MIR

Por que ocorre esta inversión? A resposta está na natureza do MIR. O exame médico é fundamentalmente un test de coñecemento factual e recoñecemento de patróns clínicos. A maioría das súas 200 preguntas requiren que o modelo identifique un cadro clínico, recorde un protocolo ou recoñeza unha asociación diagnóstica. Non require coordinar ferramentas, escribir código nin executar tarefas en múltiples pasos.

Un modelo optimizado para programación axéntica dedicou unha parte significativa do seu adestramento a aprender a usar terminais, depurar código e coordinar axentes. Ese adestramento non axuda — e potencialmente prexudica — cando a tarefa é simplemente responder "cal é o tratamento de primeira liña para a pneumonía adquirida na comunidade?".


4. O Caso Opus 4.6: Onte Naceu, Hoxe Xa Ten Diagnóstico

Preguntas correctas
Ranking MIR (menor = mellor)

Evolución de Claude Opus no MIR 2026. Opus 4.6 mellora en código (Terminal-Bench) pero non supera a Opus 4.5 en medicina: mesma precisión, maior custo e peor ranking.

A evolución da familia Claude Opus no MIR 2026 é particularmente reveladora:

ModeloRanking MIRCorrectasCustoTempo/preguntaTerminal-Bench
Opus 4#44192/20010,46 €28s42%
Opus 4.1#20196/20011,10 €30s52%
Opus 4.5#13197/2004,62 €13,4s57%
Opus 4.6#15197/2004,89 €14,1s65%

Cada nova versión de Opus é obxectivamente mellor en programación: Opus 4 → 4.1 → 4.5 → 4.6 mostra unha progresión constante en Terminal-Bench (42% → 52% → 57% → 65%). Pero en medicina, Opus 4.6 non só non mellora a 4.5, senón que queda por detrás no ranking (posición #15 vs. #13).

Como é posible? Opus 4.6 acerta as mesmas 197 preguntas que Opus 4.5, pero custa 0,27 € máis por exame (4,89 € vs. 4,62 €). En MedBench, ante empate en precisión, o modelo máis barato gaña — e Opus 4.6 perde ese desempate.

A paradoxa é clara: a maior optimización axéntica de Opus 4.6 non achega ningún beneficio nun exame médico de opción múltiple. A súa ventá de contexto de 1 millón de tokens, a súa capacidade de coordinar agent teams, o seu razoamento adaptativo — nada disto serve cando a tarefa é elixir entre A, B, C ou D nunha pregunta de cardioloxía. É como levar un equipo cirúrxico completo para poñer unha tirita.


5. A Caída de GPT-5.2-Codex: De Subcampión a Posto 26

Evolución dos tres modelos Codex de OpenAI no MIR (2024–2026). As barras amosan acertos; as etiquetas, o ranking. GPT-5.2-Codex (o máis axéntico) rende peor que os seus irmáns menores no MIR 2026.

A historia de GPT-5.2-Codex ao longo de tres convocatorias do MIR é un drama en tres actos:

ConvocatoriaPosiciónAcertosPrecisión
MIR 2024#9194/20097,0%
MIR 2025#2192/20096,0%
MIR 2026#26195/20097,5%

Léeo de novo: no MIR 2026, GPT-5.2-Codex acertou máis preguntas ca nunca (195 vs. 194 en 2024) e con todo caeu 24 posicións respecto a 2025. Como é posible caer acertando máis?

Porque os demais melloraron moito máis. En 2025, 192 acertos poñíanche no podio. En 2026, con 50 modelos superando o 95% de precisión, 195 acertos déixanche no pelotón.

E aquí está o patrón máis revelador: as versións "menos axénticas" dos modelos Codex renden mellor no MIR.

Canto máis se optimiza un modelo Codex para capacidades axénticas de código, peor rende en coñecemento médico. O patrón é consistente e inquietante.


6. GPT-5.3-Codex: O Gran Ausente

Lanzado o mesmo 5 de febreiro xunto a Claude Opus 4.6, GPT-5.3-Codex é, segundo OpenAI, o modelo máis avanzado xamais creado para programación. As súas credenciais son impresionantes: novos récords en SWE-Bench Pro, capacidade de auto-depuración, e a curiosa distinción de ser "o primeiro modelo que se construíu parcialmente a si mesmo".[2]

Con todo, GPT-5.3-Codex non aparece no noso ranking. A razón é sinxela: OpenAI lanzouono exclusivamente a través de ChatGPT — a aplicación de escritorio, a CLI e as extensións IDE. Non ten endpoint API público.[5]

En MedBench, todos os modelos avalíanse a través de OpenRouter API baixo condicións controladas e idénticas: mesmo prompt, mesma temperatura, mesmo formato de resposta. Avaliar un modelo a través dunha interface de chat introduciría variables incontrolables (prompt do sistema, formateo, limitacións da interface) que invalidarían a comparación.

Cando GPT-5.3-Codex teña API dispoñible — OpenAI dixo que "soon" — avaliarémolo inmediatamente. Pero por agora, é o elefante na habitación: probablemente o modelo axéntico máis potente do mundo, e non podemos medilo.

A pregunta que flota no aire: se incluso GPT-5 Codex (un modelo menos avanzado) só consegue o #5 no MIR, sería GPT-5.3-Codex realmente capaz de superar a Gemini Flash? Os datos suxiren que non — pero sen medilo, queda como especulación.


7. Por Que Ocorre Isto? A Ciencia do Trade-Off

Axéntico / Código
Flash / Lixeiro
Xeneralista
Razoamento
Pro / Frontier

Top 40 modelos do MIR 2026: custo total do exame vs. precisión. Os modelos axénticos (laranxa, con bordo) non alcanzan a zona superior-esquerda (barato e preciso), dominada por Flash e xeneralistas. Datos reais de MedBench.

O gráfico de dispersión confirma visualmente o que os datos individuais xa suxerían: existe unha correlación negativa entre a capacidade axéntica e a precisión médica. Os modelos máis optimizados para código (zona dereita) tenden a render peor no MIR (zona inferior).

Por que? Hai catro hipóteses complementarias que o explican:

7.1. O Trade-Off da Especialización

O adestramento dun LLM é un xogo de suma case-cero. Os ciclos de RLHF e fine-tuning dedicados a mellorar tool calling, execución de código e coordinación de axentes son ciclos que non se dedican a consolidar coñecemento médico factual.

A analoxía é directa: un cirurxián que dedica anos a especializarse en microcirurxía de man non se converte por iso en mellor neurocirurxián. De feito, pode perder competencias xeneralistas por desuso. Os modelos axénticos son o equivalente dixital: extraordinariamente bos na súa especialidade (código), pero non necesariamente mellores — e ás veces peores — fóra dela.

7.2. A Maldición do Overthinking

Investigacións recentes sobre "overthinking" en cadeas de razoamento (chain-of-thought) suxiren que pensar máis non sempre é pensar mellor.[7] Os modelos axénticos están optimizados para razoar en moitos pasos, descompoñer problemas complexos e iterar sobre solucións. Pero en preguntas directas de opción múltiple, esta capacidade pode ser contraproducente.

Un dato ilustrativo: Claude Opus 4.6 con 0 tokens de razoamento acerta 197/200. o3 Deep Research con 1,7 millóns de tokens de razoamento acerta 198/200. Unha pregunta máis por 500 veces máis tokens. O retorno marxinal do "pensamento profundo" en preguntas médicas de opción múltiple é practicamente nulo.

7.3. A Optimización para Ferramentas Contamina o Coñecemento

O adestramento para tool calling (uso de ferramentas, APIs, terminais) modifica a distribución de probabilidades do modelo de formas sutís pero significativas. Un modelo Codex foi adestrado extensivamente para xerar código, non para recordar farmacoloxía. As representacións internas do modelo reorgánizanse para priorizar patróns sintácticos, APIs e fluxos de execución — a costa potencial de patróns clínicos, protocolos terapéuticos e asociacións diagnósticas.

O MIR non require ferramentas. Non hai ficheiros que ler, tests que executar nin axentes que coordinar. Só require memoria e recoñecemento de patróns — precisamente as capacidades que o adestramento axéntico pode erosionar.

7.4. O Efecto "Navalla Suíza"

Unha navalla suíza é unha ferramenta extraordinaria para acampar. Pode cortar pan, abrir latas, sacar rollas e apertar parafusos. Pero ninguén operaría un paciente con ela. Para operar, necesitas un bisturí: unha ferramenta sinxela, especializada e extraordinariamente precisa na súa única función.

Os modelos axénticos son navallas suízas dixitais: poden facer moitas cousas ben, pero sacrifican profundidade por amplitude. Un modelo Flash que simplemente responde a pregunta sen pensar demasiado — un bisturí — é máis eficiente para un exame de opción múltiple que un modelo deseñado para coordinar equipos de axentes.

ParámetroTendencia MIR 2026Implicación
Trade-Off da EspecializaciónFuerteRLHF para código desprace coñecemento médico. Máis axentividade → menos precisión factual.
Maldición do OverthinkingModeradaRazoamento multi-paso contraproducente en MCQ directas. 1,7M tokens → +1 acerto vs. 0 tokens.
Contaminación por Tool CallingProbableAdestramento para xerar código reorganiza representacións internas, erosionando patróns clínicos.
Efecto Navalla SuízaClaroAmplitude de capacidades sacrifica profundidade en dominios específicos. Flash > Opus en MCQ médicas.

Resumo das catro hipóteses sobre o trade-off axéntico. A evidencia apunta a que son complementarias, non excluíntes.


8. O Prezo da Complexidade

Axéntico / Código
Xeneralista
Razoamento

Custo por resposta correcta no MIR 2026. o1-pro custa 641x máis por resposta correcta que Gemini Flash, con menor precisión.

Se os modelos axénticos non son máis precisos en medicina, polo menos son eficientes? Os datos din que non. O custo por resposta correcta revela a magnitude do desperdicio:

ModeloCusto/correctavs. FlashCorrectas
Gemini 3 Flash0,0017 €1x199/200
GPT-5.1 Chat0,0033 €1,9x198/200
GPT-5.2-Codex0,0086 €5x195/200
Claude Opus 4.60,0248 €14,6x197/200
o10,112 €65,9x198/200
o3 Deep Research0,883 €519x198/200
o1-pro1,09 €641x197/200

A pregunta é inevitable: nun sistema de saúde con orzamento limitado, pagarías 14 veces máis por 2 respostas menos? Ou 641 veces máis pola mesma precisión?

Para un hospital que quixese implementar IA como ferramenta de apoio diagnóstico, estes números son decisivos. Se o obxectivo é maximizar precisión por euro investido, Gemini Flash é a elección óptima por unha marxe absurda. Os modelos axénticos teñen usos lexítimos en contornas médicas complexas (integración de historiais, diagnóstico diferencial multi-paso), pero para consultas rápidas tipo pattern matching, son unha solución cara a un problema barato.


9. O Que Isto Significa para a IA Médica

A lección principal destes datos é enganosamente sinxela: non necesitas o "mellor" modelo de IA para medicina. Necesitas o máis adecuado.

Os sistemas axénticos como Claude Opus 4.6 e GPT-5.2-Codex teñen o seu lugar lexítimo. Se necesitas un sistema que revise un historial clínico de 500 páxinas, correlacione resultados de laboratorio con síntomas, consulte bases de datos de interaccións farmacolóxicas e xere un informe estruturado — un modelo axéntico é exactamente o que necesitas. Ese é o seu quirófano.

Pero se necesitas responder rapidamente se un paciente con dor precordial, elevación do ST e troponinas elevadas ten un infarto — aí necesitas un bisturí, non unha navalla suíza. E Gemini Flash, coa súa resposta directa en 4 segundos por 0,17 céntimos, é un bisturí extraordinariamente afiado.

A importancia de avaliar modelos no dominio específico de aplicación non pode subestimarse. Asumir que o modelo #1 en programación será tamén o #1 en medicina é un erro que, cos datos de MedBench sobre a mesa, xa non ten escusa. Cada dominio ten as súas propias regras e os seus propios campións.


10. Conclusións: Cada Ferramenta para a Súa Tarefa

A navalla suíza — Claude Opus 4.6, GPT-5.2-Codex — é unha ferramenta extraordinaria. Pode programar como un equipo de enxeñeiros, coordinar axentes, depurar código e automatizar fluxos de traballo complexos. No seu terreo, non ten rival.

O bisturí — Gemini 3 Flash — fai unha soa cousa: responder preguntas con precisión devastadora, a velocidade de vertixe, por un custo ridículo. No MIR 2026, onde a tarefa é exactamente esa, non necesita máis.

Os modelos axénticos revolucionarán a programación, a automatización e probablemente decenas de industrias. Pero a medicina ten as súas propias regras. E no exame médico máis importante de España, un modelo de 34 céntimos volveu demostrar que máis caro, máis grande e máis complexo non sempre significa mellor.

A próxima vez que alguén che diga que o mellor modelo de IA do mundo resolverá todos os problemas, lembra: depende do problema. Un cirurxián non necesita unha navalla suíza. Necesita un bisturí.

Explora os rankings completos do MIR 2026 e compara os 290 modelos avaliados en MedBench Rankings.


Notas y Referencias

  1. Anthropic Blog: Introducing Claude Opus 4.6. 5 de febreiro de 2026.
  2. OpenAI Blog: GPT-5.3-Codex: The Most Advanced Coding Agent. 5 de febreiro de 2026.
  3. Terminal-Bench 2.0 Leaderboard. Claude Opus 4.6 alcanzou un 65,4%, superando o anterior récord do 57,2% de Opus 4.5. terminal-bench.com.
  4. SWE-Bench Pro Leaderboard. GPT-5.3-Codex establece novo máximo en resolución autónoma de issues reais de GitHub.
  5. GPT-5.3-Codex só está dispoñible a través de ChatGPT (app, CLI e extensións IDE). OpenAI indicou que o acceso API estará dispoñible 'proximamente'. Sen API, non é posible avalialo en MedBench baixo condicións controladas.
  6. OpenAI: GPT-5.2-Codex. Lanzado en decembro de 2025.
  7. Investigacións sobre 'overthinking' en modelos de razoamento chain-of-thought mostran rendemento decrecente con lonxitude excesiva de cadeas de pensamento en tarefas de resposta directa. Ver tamén: MedBench: 199 de 200 para análise de tokens de razoamento vs. precisión.
  8. Os resultados completos do MIR 2026 con 290 modelos están dispoñibles en MedBench Rankings. Metodoloxía detallada en a nosa sección de metodoloxía.