
La Navaja Suiza y el Bisturí: Por Qué los Mejores Modelos de Código Fracasan en el MIR
Claude Opus 4.6 y GPT-5.2-Codex son los modelos de IA más avanzados para programar. Pero en el MIR 2026, un modelo Flash de 0,34 € los humilla. Análisis de la paradoja agéntica con datos de 290 modelos.
El 5 de febrero de 2026, la inteligencia artificial vivió un día que solo ocurre una vez por década. A las 10:00 de la mañana (hora del Pacífico), Anthropic publicó un post en su blog con un titular que parecía sacado de la ciencia ficción: "Claude Opus 4.6: el modelo que coordina equipos de agentes de IA para resolver problemas que ningún modelo individual podría abordar".[1] Cuarenta minutos después, OpenAI contraatacó: "Presentamos GPT-5.3-Codex, el primer modelo que se construyó parcialmente a sí mismo".[2]
Los titulares de la prensa tecnológica fueron predecibles: "La guerra de los agentes de IA", "El modelo que programa como un equipo de 10 ingenieros", "La singularidad ya tiene nombre". En Terminal-Bench 2.0 — el benchmark de referencia para tareas de programación agéntica — Claude Opus 4.6 estableció un récord absoluto con un 65,4%, destrozando el anterior máximo del 57,2% de su predecesor, Opus 4.5.[3] En SWE-Bench Pro, GPT-5.3-Codex también marcó un nuevo máximo.[4]
Pero aquí, en Medical Benchmark, los datos cuentan una historia muy diferente.
Mientras el mundo celebraba la llegada de los modelos de código más avanzados de la historia, nosotros teníamos ya los resultados de 290 modelos evaluados en el MIR 2026. Y el veredicto es incómodo: los mejores modelos agénticos de código son mediocres en medicina. Un modelo "Flash" que cuesta 34 céntimos los aplasta a todos.
Y respecto a GPT-5.3-Codex, el flamante lanzamiento de OpenAI: no hemos podido evaluarlo. Solo está disponible a través de ChatGPT (app, CLI y extensiones IDE). No tiene API pública.[5] En MedBench evaluamos modelos a través de OpenRouter API, así que GPT-5.3-Codex es, por ahora, el gran ausente de nuestro ranking.
1. Los Gladiadores del Código
Antes de mostrar los datos, conviene entender qué son estos modelos y por qué importan. Los tres protagonistas de esta historia comparten una característica: están diseñados para ser agentes de código — sistemas de IA que no solo responden preguntas, sino que ejecutan tareas complejas de programación de forma autónoma, coordinando herramientas, leyendo archivos, ejecutando tests y depurando errores.
Claude Opus 4.6 (Anthropic)
El buque insignia de Anthropic. Lanzado el 5 de febrero de 2026. Ventana de contexto de 1 millón de tokens. Capacidad para coordinar equipos de agentes especializados ("agent teams"). Récord en Terminal-Bench 2.0 con un 65,4%. Diseñado para razonamiento adaptativo — puede decidir cuánto "pensar" antes de responder.[1]
Claude Opus 4.5 (Anthropic)
El anterior buque insignia. Durante meses fue el modelo de código más avanzado del mercado. 57,2% en Terminal-Bench. Sigue siendo extraordinariamente capaz, pero Opus 4.6 lo supera en todas las métricas de programación.
GPT-5.2-Codex (OpenAI)
Lanzado en diciembre de 2025 como "el modelo agéntico de código más avanzado" de OpenAI. Optimizado para contextos largos, tool calling fiable y tareas multi-paso. Top 3 en SWE-Bench Verified.[6]
GPT-5.3-Codex (OpenAI) — El Gran Ausente
Lanzado el mismo día que Opus 4.6. Según OpenAI, es el primer modelo en cuyo entrenamiento se usaron versiones tempranas de sí mismo para depuración y evaluación. Récords en SWE-Bench Pro y otros benchmarks de código. Pero solo está disponible via ChatGPT — no tiene endpoint API, lo que hace imposible su evaluación en MedBench.[5]
Lo que todos estos modelos tienen en común: están optimizados para tareas multi-paso, uso de herramientas y coordinación de agentes. Son navajas suizas digitales: pueden cortar, atornillar, abrir latas y limar. La pregunta es: ¿pueden también operar?
2. El Veredicto del MIR
Comparativa de modelos agénticos/código vs. generalistas en el MIR 2026. Los modelos agénticos (naranja) rinden peor que los generalistas (azul) pese a ser más caros.
Los números no necesitan interpretación. Hablan solos:
| Modelo | Tipo | Posición | Aciertos | Coste |
|---|---|---|---|---|
| Gemini 3 Flash | Generalista | #1 | 199/200 | 0,34 € |
| o3 | Razonamiento | #2 | 199/200 | 1,94 € |
| GPT-5 | Razonamiento | #3 | 199/200 | 2,05 € |
| GPT-5.1 Chat | Generalista | #4 | 198/200 | 0,65 € |
| Claude Opus 4.5 | Agéntico | #13 | 197/200 | 4,62 € |
| Claude Opus 4.6 | Agéntico | #15 | 197/200 | 4,89 € |
| GPT-5.2-Codex | Agéntico | #26 | 195/200 | 1,67 € |
El dato demoledor: Claude Opus 4.6 cuesta 14 veces más que Gemini Flash y acierta 2 preguntas menos. GPT-5.2-Codex acierta 4 menos que un modelo que cuesta 5 veces menos. Entre Opus 4.6 (#15) y Flash (#1) hay 14 modelos intermedios, la mayoría generalistas sin ninguna optimización especial para código.
3. Programar No Es Diagnosticar
Ranking en benchmarks de código (Terminal-Bench/SWE-Bench) vs. ranking en MIR 2026. La inversión es clara: los mejores en código (barra naranja corta) son mediocres en medicina (barra azul larga) y viceversa.
El gráfico anterior revela una inversión casi perfecta: los modelos que dominan los benchmarks de programación quedan relegados en el MIR, y viceversa.
- Claude Opus 4.6: #1 en Terminal-Bench → #15 en MIR
- GPT-5.2-Codex: Top 3 en SWE-Bench → #26 en MIR
- Gemini 3 Flash: No compite en benchmarks de código → #1 en MIR
- GPT-5.1 Chat: Modelo "básico" de OpenAI → #4 en MIR
¿Por qué ocurre esta inversión? La respuesta está en la naturaleza del MIR. El examen médico es fundamentalmente un test de conocimiento factual y reconocimiento de patrones clínicos. La mayoría de sus 200 preguntas requieren que el modelo identifique un cuadro clínico, recuerde un protocolo o reconozca una asociación diagnóstica. No requiere coordinar herramientas, escribir código ni ejecutar tareas en múltiples pasos.
Un modelo optimizado para programación agéntica ha dedicado una parte significativa de su entrenamiento a aprender a usar terminales, depurar código y coordinar agentes. Ese entrenamiento no ayuda — y potencialmente perjudica — cuando la tarea es simplemente responder "¿cuál es el tratamiento de primera línea para la neumonía adquirida en la comunidad?".
4. El Caso Opus 4.6: Ayer Nació, Hoy Ya Tiene Diagnóstico
Evolución de Claude Opus en el MIR 2026. Opus 4.6 mejora en código (Terminal-Bench) pero no supera a Opus 4.5 en medicina: misma precisión, mayor coste y peor ranking.
La evolución de la familia Claude Opus en el MIR 2026 es particularmente reveladora:
| Modelo | Ranking MIR | Correctas | Coste | Tiempo/pregunta | Terminal-Bench |
|---|---|---|---|---|---|
| Opus 4 | #44 | 192/200 | 10,46 € | 28s | 42% |
| Opus 4.1 | #20 | 196/200 | 11,10 € | 30s | 52% |
| Opus 4.5 | #13 | 197/200 | 4,62 € | 13,4s | 57% |
| Opus 4.6 | #15 | 197/200 | 4,89 € | 14,1s | 65% |
Cada nueva versión de Opus es objetivamente mejor en programación: Opus 4 → 4.1 → 4.5 → 4.6 muestra una progresión constante en Terminal-Bench (42% → 52% → 57% → 65%). Pero en medicina, Opus 4.6 no solo no mejora a 4.5, sino que queda por detrás en el ranking (posición #15 vs. #13).
¿Cómo es posible? Opus 4.6 acierta las mismas 197 preguntas que Opus 4.5, pero cuesta 0,27 € más por examen (4,89 € vs. 4,62 €). En MedBench, ante empate en precisión, el modelo más barato gana — y Opus 4.6 pierde ese desempate.
La paradoja es clara: la mayor optimización agéntica de Opus 4.6 no aporta ningún beneficio en un examen médico de opción múltiple. Su ventana de contexto de 1 millón de tokens, su capacidad de coordinar agent teams, su razonamiento adaptativo — nada de esto sirve cuando la tarea es elegir entre A, B, C o D en una pregunta de cardiología. Es como llevar un equipo quirúrgico completo para poner una tirita.
5. La Caída de GPT-5.2-Codex: De Subcampeón a Puesto 26
Evolución de los tres modelos Codex de OpenAI en el MIR (2024-2026). Las barras muestran aciertos; las etiquetas, el ranking. GPT-5.2-Codex (el más agéntico) rinde peor que sus hermanos menores en el MIR 2026.
La historia de GPT-5.2-Codex a lo largo de tres convocatorias del MIR es un drama en tres actos:
| Convocatoria | Posición | Aciertos | Precisión |
|---|---|---|---|
| MIR 2024 | #9 | 194/200 | 97,0% |
| MIR 2025 | #2 | 192/200 | 96,0% |
| MIR 2026 | #26 | 195/200 | 97,5% |
Léelo de nuevo: en el MIR 2026, GPT-5.2-Codex acertó más preguntas que nunca (195 vs. 194 en 2024) y sin embargo cayó 24 posiciones respecto a 2025. ¿Cómo es posible caer acertando más?
Porque los demás mejoraron mucho más. En 2025, 192 aciertos te ponían en el podio. En 2026, con 50 modelos superando el 95% de precisión, 195 aciertos te dejan en el pelotón.
Y aquí está el patrón más revelador: las versiones "menos agénticas" de los modelos Codex rinden mejor en el MIR.
- GPT-5 Codex (menos agéntico): #5, 198/200
- GPT-5.1-Codex-Max: #6, 198/200
- GPT-5.2-Codex (más agéntico): #26, 195/200
Cuanto más se optimiza un modelo Codex para capacidades agénticas de código, peor rinde en conocimiento médico. El patrón es consistente e inquietante.
6. GPT-5.3-Codex: El Gran Ausente
Lanzado el mismo 5 de febrero junto a Claude Opus 4.6, GPT-5.3-Codex es, según OpenAI, el modelo más avanzado jamás creado para programación. Sus credenciales son impresionantes: nuevos récords en SWE-Bench Pro, capacidad de auto-depuración, y la curiosa distinción de ser "el primer modelo que se construyó parcialmente a sí mismo".[2]
Sin embargo, GPT-5.3-Codex no aparece en nuestro ranking. La razón es simple: OpenAI lo ha lanzado exclusivamente a través de ChatGPT — la aplicación de escritorio, la CLI y las extensiones IDE. No tiene endpoint API público.[5]
En MedBench, todos los modelos se evalúan a través de OpenRouter API bajo condiciones controladas e idénticas: mismo prompt, misma temperatura, mismo formato de respuesta. Evaluar un modelo a través de una interfaz de chat introduciría variables incontrolables (prompt del sistema, formateo, limitaciones de la interfaz) que invalidarían la comparación.
Cuando GPT-5.3-Codex tenga API disponible — OpenAI ha dicho que "soon" — lo evaluaremos inmediatamente. Pero por ahora, es el elefante en la habitación: probablemente el modelo agéntico más potente del mundo, y no podemos medirlo.
La pregunta que flota en el aire: si incluso GPT-5 Codex (un modelo menos avanzado) solo consigue el #5 en el MIR, ¿sería GPT-5.3-Codex realmente capaz de superar a Gemini Flash? Los datos sugieren que no — pero sin medirlo, queda como especulación.
7. ¿Por Qué Ocurre Esto? La Ciencia del Trade-Off
Top 40 modelos del MIR 2026: coste total del examen vs. precisión. Los modelos agénticos (naranja, con borde) no alcanzan la zona superior-izquierda (barato y preciso), dominada por Flash y generalistas. Datos reales de MedBench.
El gráfico de dispersión confirma visualmente lo que los datos individuales ya sugerían: existe una correlación negativa entre la capacidad agéntica y la precisión médica. Los modelos más optimizados para código (zona derecha) tienden a rendir peor en el MIR (zona inferior).
¿Por qué? Hay cuatro hipótesis complementarias que lo explican:
7.1. El Trade-Off de la Especialización
El entrenamiento de un LLM es un juego de suma casi-cero. Los ciclos de RLHF y fine-tuning dedicados a mejorar tool calling, ejecución de código y coordinación de agentes son ciclos que no se dedican a consolidar conocimiento médico factual.
La analogía es directa: un cirujano que dedica años a especializarse en microcirugía de mano no se convierte por ello en mejor neurocirujano. De hecho, puede perder competencias generalistas por desuso. Los modelos agénticos son el equivalente digital: extraordinariamente buenos en su especialidad (código), pero no necesariamente mejores — y a veces peores — fuera de ella.
7.2. La Maldición del Overthinking
Investigaciones recientes sobre "overthinking" en cadenas de razonamiento (chain-of-thought) sugieren que pensar más no siempre es pensar mejor.[7] Los modelos agénticos están optimizados para razonar en muchos pasos, descomponer problemas complejos y iterar sobre soluciones. Pero en preguntas directas de opción múltiple, esta capacidad puede contraproducente.
Un dato ilustrativo: Claude Opus 4.6 con 0 tokens de razonamiento acierta 197/200. o3 Deep Research con 1,7 millones de tokens de razonamiento acierta 198/200. Una pregunta más por 500 veces más tokens. El retorno marginal del "pensamiento profundo" en preguntas médicas de opción múltiple es prácticamente nulo.
7.3. La Optimización para Herramientas Contamina el Conocimiento
El entrenamiento para tool calling (uso de herramientas, APIs, terminales) modifica la distribución de probabilidades del modelo de formas sutiles pero significativas. Un modelo Codex ha sido entrenado extensivamente para generar código, no para recordar farmacología. Las representaciones internas del modelo se reorganizan para priorizar patrones sintácticos, APIs y flujos de ejecución — a costa potencial de patrones clínicos, protocolos terapéuticos y asociaciones diagnósticas.
El MIR no requiere herramientas. No hay archivos que leer, tests que ejecutar ni agentes que coordinar. Solo requiere memoria y reconocimiento de patrones — precisamente las capacidades que el entrenamiento agéntico puede erosionar.
7.4. El Efecto "Navaja Suiza"
Una navaja suiza es una herramienta extraordinaria para acampar. Puede cortar pan, abrir latas, sacar corchos y apretar tornillos. Pero nadie operaría a un paciente con ella. Para operar, necesitas un bisturí: una herramienta simple, especializada y extraordinariamente precisa en su única función.
Los modelos agénticos son navajas suizas digitales: pueden hacer muchas cosas bien, pero sacrifican profundidad por amplitud. Un modelo Flash que simplemente responde la pregunta sin pensar demasiado — un bisturí — es más eficiente para un examen de opción múltiple que un modelo diseñado para coordinar equipos de agentes.
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Trade-Off de Especialización | Fuerte | RLHF para código desplaza conocimiento médico. Más agentividad → menos precisión factual. |
| Maldición del Overthinking | Moderada | Razonamiento multi-paso contraproducente en MCQ directas. 1,7M tokens → +1 acierto vs. 0 tokens. |
| Contaminación por Tool Calling | Probable | Entrenamiento para generar código reorganiza representaciones internas, erosionando patrones clínicos. |
| Efecto Navaja Suiza | Claro | Amplitud de capacidades sacrifica profundidad en dominios específicos. Flash > Opus en MCQ médicas. |
Resumen de las cuatro hipótesis sobre el trade-off agéntico. La evidencia apunta a que son complementarias, no excluyentes.
8. El Precio de la Complejidad
Coste por respuesta correcta en el MIR 2026. o1-pro cuesta 641x más por respuesta correcta que Gemini Flash, con menor precisión.
Si los modelos agénticos no son más precisos en medicina, al menos ¿son eficientes? Los datos dicen que no. El coste por respuesta correcta revela la magnitud del despilfarro:
| Modelo | Coste/correcta | vs. Flash | Correctas |
|---|---|---|---|
| Gemini 3 Flash | 0,0017 € | 1x | 199/200 |
| GPT-5.1 Chat | 0,0033 € | 1,9x | 198/200 |
| GPT-5.2-Codex | 0,0086 € | 5x | 195/200 |
| Claude Opus 4.6 | 0,0248 € | 14,6x | 197/200 |
| o1 | 0,112 € | 65,9x | 198/200 |
| o3 Deep Research | 0,883 € | 519x | 198/200 |
| o1-pro | 1,09 € | 641x | 197/200 |
La pregunta es inevitable: en un sistema de salud con presupuesto limitado, ¿pagarías 14 veces más por 2 respuestas menos? ¿O 641 veces más por la misma precisión?
Para un hospital que quisiera implementar IA como herramienta de apoyo diagnóstico, estos números son decisivos. Si el objetivo es maximizar precisión por euro invertido, Gemini Flash es la elección óptima por un margen absurdo. Los modelos agénticos tienen usos legítimos en entornos médicos complejos (integración de historiales, diagnóstico diferencial multi-paso), pero para consultas rápidas tipo pattern matching, son una solución cara a un problema barato.
9. Lo Que Esto Significa para la IA Médica
La lección principal de estos datos es engañosamente simple: no necesitas el "mejor" modelo de IA para medicina. Necesitas el más adecuado.
Los sistemas agénticos como Claude Opus 4.6 y GPT-5.2-Codex tienen su lugar legítimo. Si necesitas un sistema que revise un historial clínico de 500 páginas, correlacione resultados de laboratorio con síntomas, consulte bases de datos de interacciones farmacológicas y genere un informe estructurado — un modelo agéntico es exactamente lo que necesitas. Ese es su quirófano.
Pero si necesitas responder rápidamente si un paciente con dolor precordial, elevación del ST y troponinas elevadas tiene un infarto — ahí necesitas un bisturí, no una navaja suiza. Y Gemini Flash, con su respuesta directa en 4 segundos por 0,17 céntimos, es un bisturí extraordinariamente afilado.
La importancia de evaluar modelos en el dominio específico de aplicación no puede subestimarse. Asumir que el modelo #1 en programación será también el #1 en medicina es un error que, con los datos de MedBench sobre la mesa, ya no tiene excusa. Cada dominio tiene sus propias reglas y sus propios campeones.
10. Conclusiones: Cada Herramienta para su Tarea
La navaja suiza — Claude Opus 4.6, GPT-5.2-Codex — es una herramienta extraordinaria. Puede programar como un equipo de ingenieros, coordinar agentes, depurar código y automatizar flujos de trabajo complejos. En su terreno, no tiene rival.
El bisturí — Gemini 3 Flash — hace una sola cosa: responder preguntas con precisión devastadora, a velocidad de vértigo, por un coste ridículo. En el MIR 2026, donde la tarea es exactamente esa, no necesita más.
Los modelos agénticos revolucionarán la programación, la automatización y probablemente docenas de industrias. Pero la medicina tiene sus propias reglas. Y en el examen médico más importante de España, un modelo de 34 céntimos ha vuelto a demostrar que más caro, más grande y más complejo no siempre significa mejor.
La próxima vez que alguien te diga que el mejor modelo de IA del mundo resolverá todos los problemas, recuerda: depende del problema. Un cirujano no necesita una navaja suiza. Necesita un bisturí.
Explora los rankings completos del MIR 2026 y compara los 290 modelos evaluados en MedBench Rankings.
Notas y Referencias
- Anthropic Blog: Introducing Claude Opus 4.6. 5 de febrero de 2026.
- OpenAI Blog: GPT-5.3-Codex: The Most Advanced Coding Agent. 5 de febrero de 2026.
- Terminal-Bench 2.0 Leaderboard. Claude Opus 4.6 alcanzó un 65,4%, superando el anterior récord de 57,2% de Opus 4.5. terminal-bench.com.
- SWE-Bench Pro Leaderboard. GPT-5.3-Codex establece nuevo máximo en resolución autónoma de issues reales de GitHub.
- GPT-5.3-Codex solo está disponible a través de ChatGPT (app, CLI y extensiones IDE). OpenAI ha indicado que el acceso API estará disponible 'próximamente'. Sin API, no es posible evaluarlo en MedBench bajo condiciones controladas.
- OpenAI: GPT-5.2-Codex. Lanzado en diciembre de 2025.
- Investigaciones sobre 'overthinking' en modelos de razonamiento chain-of-thought muestran rendimiento decreciente con longitud excesiva de cadenas de pensamiento en tareas de respuesta directa. Ver también: MedBench: 199 de 200 para análisis de tokens de razonamiento vs. precisión.
- Los resultados completos del MIR 2026 con 290 modelos están disponibles en MedBench Rankings. Metodología detallada en nuestra sección de metodología.