Dos Semanas Después: 22 Modelos Nuevos y Triple 200/200 en el MIR 2026

El 5 de febrero de 2026 publicamos "199 de 200: La IA Solo Falla Una en el MIR 2026". En ese momento, 199/200 parecía un techo razonable: ya era mejor que cualquier humano histórico, y el examen (200 preguntas válidas) no deja mucho margen.

Quince días después, ese techo ya no existe.

Entre el 5 de febrero de 2026 y el 20 de febrero de 2026 incorporamos 22 modelos nuevos al benchmark, y los 22 están ya evaluados en MIR 2026 y en el ranking global acumulado.

La foto cambia por dos motivos:

El rendimiento llega a 200/200 (nota perfecta).
Cuando hay nota perfecta, el problema deja de ser “quién acierta más” y pasa a ser “cómo comparas a los que empatan”.

1. La Quincena en Una Imagen

Custom (ALMA/MIRI)

Frontier

Especializado

Larga cola

Modelos añadidos después del 5 de febrero de 2026. Etiqueta derecha: posición en MIR 2026.

Este gráfico es el mejor resumen: una quincena con 22 incorporaciones parece una nota de release, pero en un benchmark “con techo” (200 preguntas) es otra cosa: es un empujón que cambia el significado del ranking.

Lo relevante no es solo que haya “más modelos”, sino que varios entran directamente en la zona alta. En concreto:

El Top 3 de MIR 2026 queda en triple 200/200: ALMA, MIRI y Gemini 3.1 Pro Preview.
5 de los 22 nuevos modelos entran en el Top 20 del año.
En open-weights, aparece un candidato que cambia jerarquía: Qwen3.5 397B A17B.

Este post es el relato de esa quincena: lo que hemos visto, lo que hemos aprendido y, sobre todo, por qué el ranking cambia de naturaleza cuando se queda sin margen.

2. El Empate Perfecto y el Nuevo Desempate Temporal

Hoy, la parte alta de MIR 2026 queda así:

ALMA — 200/200
MIRI — 200/200
Gemini 3.1 Pro Preview — 200/200

La diferencia está en el desempate. Cuando varios modelos hacen 200/200, se ordenan por antigüedad de consecución (timestamp de sincronización): primero el que llegó antes, después los que lo logran más tarde.

Eso evita un sesgo obvio: un modelo lanzado semanas después tiene ventaja tecnológica frente a uno evaluado antes. Si no penalizas ese retraso temporal, el ranking premia "llegar tarde".

En esta actualización, ese orden temporal deja a Gemini 3.1 Pro Preview por detrás de ALMA y MIRI, aunque también alcanza el 100%.

No vamos a profundizar en ALMA/MIRI en este post porque tienen su análisis específico en "ALMA y MIRI: RAG Agéntico", pero sí era importante dejarlos aquí en contexto como referencia real de techo actual.

3. Gemini: El Salto de 3.1 Pro y la Paradoja Flash vs Pro

MIR 2024

MIR 2025

MIR 2026

Stack de 3 años para comparar el ranking global acumulado entre Gemini 3 Flash, Gemini 3 Pro y Gemini 3.1 Pro.

Si miramos primero el ranking global acumulado (suma de MIR 2024, 2025 y 2026), la comparación entre los tres Gemini queda así:

Gemini 3 Flash: #3 global, 586,667 netas.
Gemini 3.1 Pro: #4 global, 584 netas.
Gemini 3 Pro: #9 global, 580 netas.

La lectura es más interesante de lo que parece. En “global acumulado” no estás premiando una foto, sino una trayectoria: consistencia a lo largo de tres exámenes. Y ahí, por ahora, Flash sigue por delante.

Ahora bien: en MIR 2026 el dato central de esta quincena es que Gemini 3.1 Pro Preview entra con 200/200. Es decir: llega un modelo nuevo que, por definición, ya no puede “subir” más en este examen.

Gemini 3 Flash Preview: 199/200, coste 0,341766 €.
Gemini 3 Pro Preview: 198/200, coste 5,746186 €.
Gemini 3.1 Pro Preview: 200/200, coste 4,326056 €.

Paradoja operativa: en MIR 2026, Flash mantiene mejor relación acierto/coste que Pro, y MedGemma queda lejos pese a ser vertical de salud.

Aquí hay dos historias a la vez:

La historia del techo: 3.1 Pro llega a 200/200. Cuando alcanzas el máximo, el ranking deja de tener resolución para distinguir “mejoras pequeñas”. Por eso el desempate temporal se vuelve necesario.
La historia de la eficiencia: Flash vuelve a ganar el duelo Flash vs Pro en este benchmark, con una fracción del coste. Y no es un accidente: Gemini 3 Flash fue lanzado explícitamente como un modelo pensado para empujar el “frente eficiente” (calidad por latencia/coste), no como una versión “menor” que se resigna a perder.^[1]

Y una capa adicional: Google presenta 3.1 Pro como un salto centrado en razonamiento y tareas más largas (incluido coding/agentic). Parte de esa apuesta, de hecho, ha aterrizado incluso como preview en entornos de desarrollo como GitHub Copilot.^[2]

Además, el salto temporal es corto: en registros públicos de Google, Gemini 3 Pro Preview figura en noviembre de 2025 y Gemini 3.1 Pro se anuncia el 19 de febrero de 2026.^[9]

4. Qwen3.5 397B A17B: El Cambio de Jerarquía en Open-Data

Qwen

5. MedGemma: El Caso que Obliga a Ser Honestos

Hay una tentación recurrente en IA médica: pensar que “vertical” equivale a “mejor”. Por eso, el modelo que más interés despertaba por narrativa era MedGemma.

Resultados actuales:

No es un mal resultado absoluto: 172/200 sigue siendo una nota respetable. Pero sí es claramente bajo para lo que sugiere el nombre en un benchmark MIR.

Y aquí está la lección incómoda: especialización declarada no es especialización medida. Un modelo puede estar entrenado para dominios biomédicos y aun así rendir peor en un examen tipo MIR, porque el MIR no es “solo medicina”. Es medicina en español, en formato MCQ, con trampas de estilo examen y con una distribución de temas muy concreta.

Contexto externo: MedGemma se presentó como familia de modelos orientados a salud, construida sobre Gemma y entrenada/evaluada en tareas médicas específicas (texto y, según variantes, multimodal). Esa propuesta estratégica es relevante: “abrir” un modelo médico utilizable localmente es un paso importante para investigación y despliegues sensibles.^[5]

Pero el benchmark hace de juez implacable: en esta primera foto competitiva del MIR, MedGemma queda lejos de la frontera SOTA.

6. Claude Opus 4.6: Mejora Global, Estancamiento en MIR 2026

Comparativa de nota global de la familia Opus: 4.6 mejora ligeramente a 4.5 y amplía distancia frente a 4.1.

Si has seguido la conversación pública de estas semanas, es fácil pensar que “los modelos de código” son el nuevo SOTA universal. El problema es que el MIR no premia lo mismo que SWE-bench.

La incorporación de Claude Opus 4.6 deja una conclusión matizada:

En ranking global, la nota sube ligeramente: Opus 4.1 (556,333 netas) → Opus 4.5 (568 netas) → Opus 4.6 (570,667 netas).
En posición global, Opus 4.6 sube a #27, frente a #33 (4.5) y #57 (4.1).
En MIR 2026, Opus 4.6 queda #20 (197/200), empatado en aciertos con Opus 4.5.
En coste MIR 2026, Opus 4.6 queda ligeramente por encima de 4.5 (4,888935 € vs 4,620485 €).

Esto encaja con lo que vemos en mercado: Opus 4.6 está posicionado para tareas complejas de código y agentividad, no para exámenes médicos tipo MCQ.^[6] Si quieres el argumento completo, lo desarrollamos con calma en "La Navaja Suiza y el Bisturí".

Y aquí entra el punto crítico: sigue faltando GPT-5.3-Codex en benchmark porque no está disponible por API pública en condiciones comparables. OpenAI lo presenta como su punta de lanza en coding, pero la propia comunicación del lanzamiento sitúa el acceso en productos y deja el acceso API como “pendiente”.^[7] En el changelog público del API, el modelo disponible es gpt-5.2-codex, no 5.3.^[8]

La crítica es simple: si no hay acceso API comparable, no hay comparación justa. Y sin comparación justa, no hay evidencia, solo marketing.

7. Lo Que Hemos Aprendido en Solo Dos Semanas

Si tuviera que resumir esta quincena para perfiles distintos (clínico, técnico, producto), me quedaría con seis aprendizajes:

El benchmark ya no está en fase de incrementos pequeños; está en fase de saltos de frontera en semanas.
Cuando llegas al 100%, el ranking necesita reglas nuevas: el desempate temporal deja de ser opcional.
La paradoja eficiencia vs tamaño (Flash vs Pro) no desaparece; convive con el salto de 3.1 Pro.
Qwen3.5 entra donde pocos open-weights habían entrado antes: top 15 global de verdad.
Un modelo sanitario no es “mejor” por etiqueta: la especialización hay que medirla en el entorno exacto.
El cuello de botella para evaluar la “guerra del código” sigue siendo el mismo: acceso API homogéneo.

La conclusión de fondo no cambia, pero ahora es más contundente: la evolución del benchmark en 2026 está ocurriendo en semanas, no en trimestres. Y eso obliga a tratar cada “actualización” como un mini-cambio de era.

Si la curva mantiene esta pendiente, el siguiente corte puede volver a mover el podio.

Notas y Referencias

Contexto oficial y externo sobre Gemini Flash como estrategia de eficiencia (no solo 'modelo pequeño'): Google Developers Blog (Gemini 3 Flash, 17 dic 2025) developers.googleblog.com y cobertura técnica de lanzamiento techcrunch.com.
Gemini 3.1 Pro Preview (19 feb 2026) y su llegada a tooling de desarrollo: 9to5Google 9to5google.com y GitHub Copilot changelog github.blog.
Qwen3.5 397B A17B model card oficial (arquitectura, capacidades multimodales y posicionamiento). huggingface.co/Qwen/Qwen3.5-397B-A17B.
Contexto de lanzamiento de Qwen3.5 y enfoque agentic/open-weights: Economic Times (16 feb 2026) economictimes.indiatimes.com.
MedGemma: model card oficial (Google Developers) developers.google.com y ficha de Hugging Face (ejemplo) huggingface.co/google/medgemma-27b-text-it.
Anthropic: anuncio y documentación de Claude Opus 4.6 anthropic.com y página de producto anthropic.com/claude/opus.
OpenAI: lanzamiento de GPT-5.3-Codex y nota sobre disponibilidad/API (5 feb 2026) openai.com.
OpenAI API changelog (14 ene 2026): disponibilidad de gpt-5.2-codex en API y ausencia de referencia a 5.3 en el changelog público. platform.openai.com/docs/changelog.
Google Gemini API changelog (referencia pública de catálogo/fechas): ai.google.dev/gemini-api/docs/changelog.