O 5 de febreiro de 2026 publicamos "199 de 200: A IA Só Falla Unha no MIR 2026". Naquel momento, 199/200 parecía un teito razoable: xa era mellor ca calquera humano histórico, e o exame (200 preguntas válidas) non deixa moita marxe.
Quince días despois, ese teito xa non existe.
Entre o 5 de febreiro de 2026 e o 20 de febreiro de 2026 incorporamos 22 modelos novos ao benchmark, e os 22 xa están avaliados no MIR 2026 e no ránquing global acumulado.
A foto cambia por dous motivos:
- O rendemento chega a 200/200 (nota perfecta).
- Cando hai nota perfecta, o problema deixa de ser "quen acerta máis" e pasa a ser "como comparas os que empatan".
1. A Quincena Nunha Imaxe
Modelos engadidos despois do 5 de febreiro de 2026. Etiqueta dereita: posición no MIR 2026.
Este gráfico é o mellor resumo: unha quincena con 22 incorporacións pode parecer unha nota de release, pero nun benchmark "con teito" (200 preguntas) é outra cousa: é un empurrón que cambia o significado do ránquing.
O relevante non é só que haxa "máis modelos", senón que varios entran directamente na zona alta. En concreto:
- O Top 3 do MIR 2026 queda en triplo 200/200: ALMA, MIRI e Gemini 3.1 Pro Preview.
- 5 dos 22 novos modelos entran no Top 20 do ano.
- En open-weights, aparece un candidato que cambia a xerarquía: Qwen3.5 397B A17B.
Este post é o relato desa quincena: o que vimos, o que aprendemos e, sobre todo, por que o ránquing cambia de natureza cando se queda sen marxe.
2. O Empate Perfecto e o Novo Desempate Temporal
Hoxe, a parte alta do MIR 2026 queda así:
- ALMA — 200/200
- MIRI — 200/200
- Gemini 3.1 Pro Preview — 200/200
A diferenza está no desempate. Cando varios modelos fan 200/200, ordénanse por antigüidade de consecución (timestamp de sincronización): primeiro o que chegou antes, despois os que o conseguen máis tarde.
Isto evita un sesgo obvio: un modelo lanzado semanas despois ten vantaxe tecnolóxica fronte a un avaliado antes. Se non penalizas ese atraso temporal, o ránquing premia "chegar tarde".
Nesta actualización, esa orde temporal deixa a Gemini 3.1 Pro Preview por detrás de ALMA e MIRI, aínda que tamén alcanza o 100%.
Non imos profundar en ALMA/MIRI aquí porque teñen o seu post específico en "ALMA e MIRI: RAG Agéntico", pero era importante deixalos en contexto como referencia real do teito actual.
3. Gemini: O Salto de 3.1 Pro e a Paradoxa Flash vs Pro
Stack de 3 anos para comparar o ranking global acumulado entre Gemini 3 Flash, Gemini 3 Pro e Gemini 3.1 Pro.
Se miramos primeiro o ránquing global acumulado (suma de MIR 2024, 2025 e 2026), a comparación entre os tres Gemini queda así:
- Gemini 3 Flash: #3 global, 586,667 netas.
- Gemini 3.1 Pro: #4 global, 584 netas.
- Gemini 3 Pro: #9 global, 580 netas.
A lectura é máis interesante do que parece. En "global acumulado" non estás a premiar unha foto, senón unha traxectoria: consistencia ao longo de tres exames. E aquí, polo de agora, Flash segue por diante.
Agora ben: no MIR 2026, o dato central desta quincena é que Gemini 3.1 Pro Preview entra con 200/200. É dicir: chega un modelo novo que, por definición, xa non pode "subir" máis neste exame.
- Gemini 3 Flash Preview: 199/200, custo 0,341766 €.
- Gemini 3 Pro Preview: 198/200, custo 5,746186 €.
- Gemini 3.1 Pro Preview: 200/200, custo 4,326056 €.
Paradoxa operativa: no MIR 2026, Flash mantén mellor relación acerto/custo que Pro, e MedGemma queda lonxe malia ser vertical de saúde.
Aquí hai dúas historias ao mesmo tempo:
- A historia do teito: 3.1 Pro chega a 200/200. Cando alcanzas o máximo, o ránquing deixa de ter resolución para distinguir "melloras pequenas". Por iso o desempate temporal faise necesario.
- A historia da eficiencia: Flash volve gañar o duelo Flash vs Pro neste benchmark, cunha fracción do custo. E non é un accidente: Gemini 3 Flash foi lanzado explicitamente como un modelo pensado para empuxar a "fronteira eficiente" (calidade por latencia/custo), non como unha versión "menor" resignada a perder.[1]
E unha capa adicional: Google presenta 3.1 Pro como un salto centrado en razoamento e tarefas máis longas (incluído coding/agentic). Parte desa aposta, de feito, xa chegou como preview a ferramentas de desenvolvemento como GitHub Copilot.[2]
Ademais, o salto temporal é curto: en rexistros públicos de Google, Gemini 3 Pro Preview figura en novembro de 2025 e Gemini 3.1 Pro anúnciase o 19 de febreiro de 2026.[9]
4. Qwen3.5 397B A17B: O Cambio de Xerarquía en Open-Data
Top open-data no ranking global. Qwen3.5 397B A17B lidera este bloque na posición #15.
Se excluímos modelos custom (ALMA/MIRI) e miramos o bloque open-data/open-weights, o movemento máis importante desta quincena é:
- Qwen3.5 397B A17B sobe ao #15 global.
- Llama 4 Maverick, que era a referencia aberta máis visible en artigos anteriores, queda no #50 global.
- No MIR 2026, Qwen3.5 397B A17B entra en #17 (197/200).
Este salto non é cosmético. É un sinal de que a familia Qwen3.5 está a empuxar unha nova fase en open-weights: non só "moi boa por euro", senón capaz de competir na zona alta de precisión acumulada. E iso, historicamente, era terreo de catedrais.
Os 303 modelos avaliados no MIR 2026 por data de lanzamento. Cada punto é un modelo; vermello = propietario, azul = open weights, verde = open source (OSI). Os modelos máis recentes tenden a obter mellores netas, pero os propietarios manteñen o bordo superior.
A franxa vertical (do 5 ao 20 de febreiro de 2026) é a quincena deste post. Aquí vese o importante: non é "un modelo solto que sobe"; é unha banda de incorporacións que cae de golpe na zona onde antes había poucos puntos.
E non é só un modelo illado. Qwen3.5 Plus tamén entra forte (#52 global), mentres modelos Qwen previos seguen poboando o top open.[3]
Dúas notas para contextualizar, sen esixir background:
- Qwen3.5 preséntase como unha familia orientada a agentic AI e, no seu modelo máis grande, publica detalles como contexto longo (262k tokens) e "thinking mode" por defecto, un patrón que xa vemos repetirse en varias familias punteiras.[3]
- A nivel estratéxico, o lanzamento enmárcase no movemento de laboratorios chineses cara a open-weights como "plataforma": abrir pesos para acelerar ecosistema, mantendo o adestramento como vantaxe competitiva.[4]
5. MedGemma: O Caso que Obriga a Ser Honestos
Hai unha tentación recorrente en IA médica: pensar que "vertical" equivale a "mellor". Por iso, o modelo que máis interese espertaba por narrativa era MedGemma.
Resultados actuais:
Non é un mal resultado absoluto: 172/200 segue a ser unha nota respectable. Pero si é claramente baixo para o que suxire o nome nun benchmark MIR.
E aquí está a lección incómoda: especialización declarada non é especialización medida. Un modelo pode estar adestrado para dominios biomédicos e, aínda así, render peor nun exame tipo MIR, porque o MIR non é "só medicina". É medicina en español, en formato MCQ, con trampas de estilo exame e cunha distribución de temas moi concreta.
Contexto externo: MedGemma presentouse como unha familia de modelos orientados a saúde, construída sobre Gemma e adestrada/avaliada en tarefas médicas específicas (texto e, segundo variantes, multimodal). Esta proposta estratéxica é relevante: "abrir" un modelo médico usable localmente é un paso importante para investigación e para despregues sensibles.[5]
Pero o benchmark actúa como xuíz implacable: nesta primeira foto competitiva do MIR, MedGemma queda lonxe da fronteira SOTA.
6. Claude Opus 4.6: Mellora Global, Estancamento no MIR 2026
Comparativa de nota global da familia Opus: 4.6 mellora lixeiramente a 4.5 e amplía distancia fronte a 4.1.
Se seguiches a conversa pública destas semanas, é fácil pensar que "os modelos de código" son o novo SOTA universal. O problema é que o MIR non premia o mesmo que SWE-bench.
A incorporación de Claude Opus 4.6 deixa unha conclusión matizada:
- No ránquing global, a nota sobe lixeiramente: Opus 4.1 (556,333 netas) → Opus 4.5 (568 netas) → Opus 4.6 (570,667 netas).
- En posición global, Opus 4.6 sobe ao #27, fronte a #33 (4.5) e #57 (4.1).
- No MIR 2026, Opus 4.6 queda #20 (197/200), empatado en acertos con Opus 4.5.
- En custo MIR 2026, Opus 4.6 queda lixeiramente por enriba de 4.5 (4,888935 € vs 4,620485 €).
Isto encaixa co que vemos no mercado: Opus 4.6 está posicionado para tarefas complexas de código e axentividade, non para exames médicos tipo MCQ.[6] Se queres o argumento completo, desenvolvémolo con calma en "O Canivete Suíço e o Bisturi".
E aquí entra o punto crítico: segue faltando GPT-5.3-Codex no benchmark porque non está dispoñible por API pública en condicións comparables. OpenAI preséntao como a súa punta de lanza en coding, pero a propia comunicación do lanzamento sitúa o acceso en produtos e deixa o acceso API como "pendente".[7] No changelog público do API, o modelo dispoñible é gpt-5.2-codex, non 5.3.[8]
A crítica é simple: se non hai acceso API comparable, non hai comparación xusta. E sen comparación xusta, non hai evidencia, só márketing.
7. O Que Aprendemos en Só Dúas Semanas
Se tivese que resumir esta quincena para perfís distintos (clínico, técnico, produto), quedaría con seis aprendizaxes:
- O benchmark xa non está en fase de incrementos pequenos; está en fase de saltos de fronteira semana a semana.
- Cando chegas ao 100%, o ránquing precisa regras novas: o desempate temporal deixa de ser opcional.
- A paradoxa eficiencia vs tamaño (Flash vs Pro) non desaparece; convive co salto de 3.1 Pro.
- Qwen3.5 entra onde poucos open-weights entraran antes: top 15 global de verdade.
- Un modelo sanitario non é "mellor" por etiqueta: a especialización hai que medila no contorno exacto.
- O pescozo de botella para avaliar a "guerra do código" segue a ser o mesmo: acceso API homoxéneo.
A conclusión de fondo non cambia, pero agora é máis contundente: a evolución do benchmark en 2026 está a ocorrer en semanas, non en trimestres. E iso obriga a tratar cada "actualización" como un mini-cambio de era.
Se a curva mantén esta pendente, o seguinte corte pode volver mover o podio.
Notas y Referencias
- Contexto oficial e externo sobre Gemini Flash como estratexia de eficiencia (non só 'modelo pequeno'): Google Developers Blog (Gemini 3 Flash, 17 dec 2025) developers.googleblog.com e cobertura técnica de lanzamento techcrunch.com.
- Gemini 3.1 Pro Preview (19 feb 2026) e a súa chegada a tooling de desenvolvemento: 9to5Google 9to5google.com e changelog de GitHub Copilot github.blog.
- Qwen3.5 397B A17B: model card oficial (arquitectura, capacidades e posicionamento). huggingface.co/Qwen/Qwen3.5-397B-A17B.
- Contexto do lanzamento de Qwen3.5 e enfoque agentic/open-weights: Economic Times (16 feb 2026) economictimes.indiatimes.com.
- MedGemma: model card oficial (Google Developers) developers.google.com e ficha en Hugging Face (exemplo) huggingface.co/google/medgemma-27b-text-it.
- Anthropic: anuncio e documentación de Claude Opus 4.6 anthropic.com e páxina de produto anthropic.com/claude/opus.
- OpenAI: lanzamento de GPT-5.3-Codex e nota sobre dispoñibilidade/API (5 feb 2026) openai.com.
- OpenAI API changelog (14 xan 2026): dispoñibilidade de
gpt-5.2-codexna API e ausencia de referencia a 5.3 no changelog público. platform.openai.com. - Google Gemini API changelog (referencia pública de catálogo/datas): ai.google.dev.