Dúas Semanas Despois: 22 Modelos Novos e Triplo 200/200 no MIR 2026

O 5 de febreiro de 2026 publicamos "199 de 200: A IA Só Falla Unha no MIR 2026". Naquel momento, 199/200 parecía un teito razoable: xa era mellor ca calquera humano histórico, e o exame (200 preguntas válidas) non deixa moita marxe.

Quince días despois, ese teito xa non existe.

Entre o 5 de febreiro de 2026 e o 20 de febreiro de 2026 incorporamos 22 modelos novos ao benchmark, e os 22 xa están avaliados no MIR 2026 e no ránquing global acumulado.

A foto cambia por dous motivos:

O rendemento chega a 200/200 (nota perfecta).
Cando hai nota perfecta, o problema deixa de ser "quen acerta máis" e pasa a ser "como comparas os que empatan".

1. A Quincena Nunha Imaxe

Custom (ALMA/MIRI)

Frontier

Especializado

Cola longa

Modelos engadidos despois do 5 de febreiro de 2026. Etiqueta dereita: posición no MIR 2026.

Este gráfico é o mellor resumo: unha quincena con 22 incorporacións pode parecer unha nota de release, pero nun benchmark "con teito" (200 preguntas) é outra cousa: é un empurrón que cambia o significado do ránquing.

O relevante non é só que haxa "máis modelos", senón que varios entran directamente na zona alta. En concreto:

O Top 3 do MIR 2026 queda en triplo 200/200: ALMA, MIRI e Gemini 3.1 Pro Preview.
5 dos 22 novos modelos entran no Top 20 do ano.
En open-weights, aparece un candidato que cambia a xerarquía: Qwen3.5 397B A17B.

Este post é o relato desa quincena: o que vimos, o que aprendemos e, sobre todo, por que o ránquing cambia de natureza cando se queda sen marxe.

2. O Empate Perfecto e o Novo Desempate Temporal

Hoxe, a parte alta do MIR 2026 queda así:

ALMA — 200/200
MIRI — 200/200
Gemini 3.1 Pro Preview — 200/200

A diferenza está no desempate. Cando varios modelos fan 200/200, ordénanse por antigüidade de consecución (timestamp de sincronización): primeiro o que chegou antes, despois os que o conseguen máis tarde.

Isto evita un sesgo obvio: un modelo lanzado semanas despois ten vantaxe tecnolóxica fronte a un avaliado antes. Se non penalizas ese atraso temporal, o ránquing premia "chegar tarde".

Nesta actualización, esa orde temporal deixa a Gemini 3.1 Pro Preview por detrás de ALMA e MIRI, aínda que tamén alcanza o 100%.

Non imos profundar en ALMA/MIRI aquí porque teñen o seu post específico en "ALMA e MIRI: RAG Agéntico", pero era importante deixalos en contexto como referencia real do teito actual.

3. Gemini: O Salto de 3.1 Pro e a Paradoxa Flash vs Pro

MIR 2024

MIR 2025

MIR 2026

Stack de 3 anos para comparar o ranking global acumulado entre Gemini 3 Flash, Gemini 3 Pro e Gemini 3.1 Pro.

Se miramos primeiro o ránquing global acumulado (suma de MIR 2024, 2025 e 2026), a comparación entre os tres Gemini queda así:

Gemini 3 Flash: #3 global, 586,667 netas.
Gemini 3.1 Pro: #4 global, 584 netas.
Gemini 3 Pro: #9 global, 580 netas.

A lectura é máis interesante do que parece. En "global acumulado" non estás a premiar unha foto, senón unha traxectoria: consistencia ao longo de tres exames. E aquí, polo de agora, Flash segue por diante.

Agora ben: no MIR 2026, o dato central desta quincena é que Gemini 3.1 Pro Preview entra con 200/200. É dicir: chega un modelo novo que, por definición, xa non pode "subir" máis neste exame.

Gemini 3 Flash Preview: 199/200, custo 0,341766 €.
Gemini 3 Pro Preview: 198/200, custo 5,746186 €.
Gemini 3.1 Pro Preview: 200/200, custo 4,326056 €.

Paradoxa operativa: no MIR 2026, Flash mantén mellor relación acerto/custo que Pro, e MedGemma queda lonxe malia ser vertical de saúde.

Aquí hai dúas historias ao mesmo tempo:

A historia do teito: 3.1 Pro chega a 200/200. Cando alcanzas o máximo, o ránquing deixa de ter resolución para distinguir "melloras pequenas". Por iso o desempate temporal faise necesario.
A historia da eficiencia: Flash volve gañar o duelo Flash vs Pro neste benchmark, cunha fracción do custo. E non é un accidente: Gemini 3 Flash foi lanzado explicitamente como un modelo pensado para empuxar a "fronteira eficiente" (calidade por latencia/custo), non como unha versión "menor" resignada a perder.^[1]

E unha capa adicional: Google presenta 3.1 Pro como un salto centrado en razoamento e tarefas máis longas (incluído coding/agentic). Parte desa aposta, de feito, xa chegou como preview a ferramentas de desenvolvemento como GitHub Copilot.^[2]

Ademais, o salto temporal é curto: en rexistros públicos de Google, Gemini 3 Pro Preview figura en novembro de 2025 e Gemini 3.1 Pro anúnciase o 19 de febreiro de 2026.^[9]

4. Qwen3.5 397B A17B: O Cambio de Xerarquía en Open-Data

Qwen

5. MedGemma: O Caso que Obriga a Ser Honestos

Hai unha tentación recorrente en IA médica: pensar que "vertical" equivale a "mellor". Por iso, o modelo que máis interese espertaba por narrativa era MedGemma.

Resultados actuais:

Non é un mal resultado absoluto: 172/200 segue a ser unha nota respectable. Pero si é claramente baixo para o que suxire o nome nun benchmark MIR.

E aquí está a lección incómoda: especialización declarada non é especialización medida. Un modelo pode estar adestrado para dominios biomédicos e, aínda así, render peor nun exame tipo MIR, porque o MIR non é "só medicina". É medicina en español, en formato MCQ, con trampas de estilo exame e cunha distribución de temas moi concreta.

Contexto externo: MedGemma presentouse como unha familia de modelos orientados a saúde, construída sobre Gemma e adestrada/avaliada en tarefas médicas específicas (texto e, segundo variantes, multimodal). Esta proposta estratéxica é relevante: "abrir" un modelo médico usable localmente é un paso importante para investigación e para despregues sensibles.^[5]

Pero o benchmark actúa como xuíz implacable: nesta primeira foto competitiva do MIR, MedGemma queda lonxe da fronteira SOTA.

6. Claude Opus 4.6: Mellora Global, Estancamento no MIR 2026

Comparativa de nota global da familia Opus: 4.6 mellora lixeiramente a 4.5 e amplía distancia fronte a 4.1.

Se seguiches a conversa pública destas semanas, é fácil pensar que "os modelos de código" son o novo SOTA universal. O problema é que o MIR non premia o mesmo que SWE-bench.

A incorporación de Claude Opus 4.6 deixa unha conclusión matizada:

No ránquing global, a nota sobe lixeiramente: Opus 4.1 (556,333 netas) → Opus 4.5 (568 netas) → Opus 4.6 (570,667 netas).
En posición global, Opus 4.6 sobe ao #27, fronte a #33 (4.5) e #57 (4.1).
No MIR 2026, Opus 4.6 queda #20 (197/200), empatado en acertos con Opus 4.5.
En custo MIR 2026, Opus 4.6 queda lixeiramente por enriba de 4.5 (4,888935 € vs 4,620485 €).

Isto encaixa co que vemos no mercado: Opus 4.6 está posicionado para tarefas complexas de código e axentividade, non para exames médicos tipo MCQ.^[6] Se queres o argumento completo, desenvolvémolo con calma en "O Canivete Suíço e o Bisturi".

E aquí entra o punto crítico: segue faltando GPT-5.3-Codex no benchmark porque non está dispoñible por API pública en condicións comparables. OpenAI preséntao como a súa punta de lanza en coding, pero a propia comunicación do lanzamento sitúa o acceso en produtos e deixa o acceso API como "pendente".^[7] No changelog público do API, o modelo dispoñible é gpt-5.2-codex, non 5.3.^[8]

A crítica é simple: se non hai acceso API comparable, non hai comparación xusta. E sen comparación xusta, non hai evidencia, só márketing.

7. O Que Aprendemos en Só Dúas Semanas

Se tivese que resumir esta quincena para perfís distintos (clínico, técnico, produto), quedaría con seis aprendizaxes:

O benchmark xa non está en fase de incrementos pequenos; está en fase de saltos de fronteira semana a semana.
Cando chegas ao 100%, o ránquing precisa regras novas: o desempate temporal deixa de ser opcional.
A paradoxa eficiencia vs tamaño (Flash vs Pro) non desaparece; convive co salto de 3.1 Pro.
Qwen3.5 entra onde poucos open-weights entraran antes: top 15 global de verdade.
Un modelo sanitario non é "mellor" por etiqueta: a especialización hai que medila no contorno exacto.
O pescozo de botella para avaliar a "guerra do código" segue a ser o mesmo: acceso API homoxéneo.

A conclusión de fondo non cambia, pero agora é máis contundente: a evolución do benchmark en 2026 está a ocorrer en semanas, non en trimestres. E iso obriga a tratar cada "actualización" como un mini-cambio de era.

Se a curva mantén esta pendente, o seguinte corte pode volver mover o podio.

Notas y Referencias

Contexto oficial e externo sobre Gemini Flash como estratexia de eficiencia (non só 'modelo pequeno'): Google Developers Blog (Gemini 3 Flash, 17 dec 2025) developers.googleblog.com e cobertura técnica de lanzamento techcrunch.com.
Gemini 3.1 Pro Preview (19 feb 2026) e a súa chegada a tooling de desenvolvemento: 9to5Google 9to5google.com e changelog de GitHub Copilot github.blog.
Qwen3.5 397B A17B: model card oficial (arquitectura, capacidades e posicionamento). huggingface.co/Qwen/Qwen3.5-397B-A17B.
Contexto do lanzamento de Qwen3.5 e enfoque agentic/open-weights: Economic Times (16 feb 2026) economictimes.indiatimes.com.
MedGemma: model card oficial (Google Developers) developers.google.com e ficha en Hugging Face (exemplo) huggingface.co/google/medgemma-27b-text-it.
Anthropic: anuncio e documentación de Claude Opus 4.6 anthropic.com e páxina de produto anthropic.com/claude/opus.
OpenAI: lanzamento de GPT-5.3-Codex e nota sobre dispoñibilidade/API (5 feb 2026) openai.com.
OpenAI API changelog (14 xan 2026): dispoñibilidade de gpt-5.2-codex na API e ausencia de referencia a 5.3 no changelog público. platform.openai.com.
Google Gemini API changelog (referencia pública de catálogo/datas): ai.google.dev.