MedicalBenchmark
Volver ao blog

Dúas Semanas Despois: 22 Modelos Novos e Triplo 200/200 no MIR 2026

Do 5 ao 20 de febreiro de 2026 incorporamos 22 modelos novos ao benchmark. En só 15 días pasamos do 99,5% ao 100%: Gemini 3.1 Pro Preview entra con 200/200, Qwen3.5 397B A17B rompe o teito open-weights no ránquing global e MedGemma deixa unha lección incómoda sobre o que significa realmente a especialización en saúde.

Storytelling técnico con novas gráficas sobre o empate perfecto, o desempate temporal e como cambia un benchmark cando se queda sen teito.

Equipo MedBench20 de febreiro de 202610 min de lectura
MIR 2026BenchmarkGemini 3.1Qwen3.5Claude Opus 4.6Actualización

O 5 de febreiro de 2026 publicamos "199 de 200: A IA Só Falla Unha no MIR 2026". Naquel momento, 199/200 parecía un teito razoable: xa era mellor ca calquera humano histórico, e o exame (200 preguntas válidas) non deixa moita marxe.

Quince días despois, ese teito xa non existe.

Entre o 5 de febreiro de 2026 e o 20 de febreiro de 2026 incorporamos 22 modelos novos ao benchmark, e os 22 xa están avaliados no MIR 2026 e no ránquing global acumulado.

A foto cambia por dous motivos:

  1. O rendemento chega a 200/200 (nota perfecta).
  2. Cando hai nota perfecta, o problema deixa de ser "quen acerta máis" e pasa a ser "como comparas os que empatan".

1. A Quincena Nunha Imaxe

Custom (ALMA/MIRI)
Frontier
Especializado
Cola longa

Modelos engadidos despois do 5 de febreiro de 2026. Etiqueta dereita: posición no MIR 2026.

Este gráfico é o mellor resumo: unha quincena con 22 incorporacións pode parecer unha nota de release, pero nun benchmark "con teito" (200 preguntas) é outra cousa: é un empurrón que cambia o significado do ránquing.

O relevante non é só que haxa "máis modelos", senón que varios entran directamente na zona alta. En concreto:

Este post é o relato desa quincena: o que vimos, o que aprendemos e, sobre todo, por que o ránquing cambia de natureza cando se queda sen marxe.


2. O Empate Perfecto e o Novo Desempate Temporal

Hoxe, a parte alta do MIR 2026 queda así:

  1. ALMA200/200
  2. MIRI200/200
  3. Gemini 3.1 Pro Preview200/200

A diferenza está no desempate. Cando varios modelos fan 200/200, ordénanse por antigüidade de consecución (timestamp de sincronización): primeiro o que chegou antes, despois os que o conseguen máis tarde.

Isto evita un sesgo obvio: un modelo lanzado semanas despois ten vantaxe tecnolóxica fronte a un avaliado antes. Se non penalizas ese atraso temporal, o ránquing premia "chegar tarde".

Nesta actualización, esa orde temporal deixa a Gemini 3.1 Pro Preview por detrás de ALMA e MIRI, aínda que tamén alcanza o 100%.

Non imos profundar en ALMA/MIRI aquí porque teñen o seu post específico en "ALMA e MIRI: RAG Agéntico", pero era importante deixalos en contexto como referencia real do teito actual.


3. Gemini: O Salto de 3.1 Pro e a Paradoxa Flash vs Pro

MIR 2024
MIR 2025
MIR 2026

Stack de 3 anos para comparar o ranking global acumulado entre Gemini 3 Flash, Gemini 3 Pro e Gemini 3.1 Pro.

Se miramos primeiro o ránquing global acumulado (suma de MIR 2024, 2025 e 2026), a comparación entre os tres Gemini queda así:

A lectura é máis interesante do que parece. En "global acumulado" non estás a premiar unha foto, senón unha traxectoria: consistencia ao longo de tres exames. E aquí, polo de agora, Flash segue por diante.

Agora ben: no MIR 2026, o dato central desta quincena é que Gemini 3.1 Pro Preview entra con 200/200. É dicir: chega un modelo novo que, por definición, xa non pode "subir" máis neste exame.

Paradoxa operativa: no MIR 2026, Flash mantén mellor relación acerto/custo que Pro, e MedGemma queda lonxe malia ser vertical de saúde.

Aquí hai dúas historias ao mesmo tempo:

  1. A historia do teito: 3.1 Pro chega a 200/200. Cando alcanzas o máximo, o ránquing deixa de ter resolución para distinguir "melloras pequenas". Por iso o desempate temporal faise necesario.
  2. A historia da eficiencia: Flash volve gañar o duelo Flash vs Pro neste benchmark, cunha fracción do custo. E non é un accidente: Gemini 3 Flash foi lanzado explicitamente como un modelo pensado para empuxar a "fronteira eficiente" (calidade por latencia/custo), non como unha versión "menor" resignada a perder.[1]

E unha capa adicional: Google presenta 3.1 Pro como un salto centrado en razoamento e tarefas máis longas (incluído coding/agentic). Parte desa aposta, de feito, xa chegou como preview a ferramentas de desenvolvemento como GitHub Copilot.[2]

Ademais, o salto temporal é curto: en rexistros públicos de Google, Gemini 3 Pro Preview figura en novembro de 2025 e Gemini 3.1 Pro anúnciase o 19 de febreiro de 2026.[9]


4. Qwen3.5 397B A17B: O Cambio de Xerarquía en Open-Data

Qwen
Meta
DeepSeek
Z.ai

Top open-data no ranking global. Qwen3.5 397B A17B lidera este bloque na posición #15.

Se excluímos modelos custom (ALMA/MIRI) e miramos o bloque open-data/open-weights, o movemento máis importante desta quincena é:

Este salto non é cosmético. É un sinal de que a familia Qwen3.5 está a empuxar unha nova fase en open-weights: non só "moi boa por euro", senón capaz de competir na zona alta de precisión acumulada. E iso, historicamente, era terreo de catedrais.

Propietario
Open Weights
Open Source (OSI)
Xanela de actualización (5-20 feb 2026)

Os 303 modelos avaliados no MIR 2026 por data de lanzamento. Cada punto é un modelo; vermello = propietario, azul = open weights, verde = open source (OSI). Os modelos máis recentes tenden a obter mellores netas, pero os propietarios manteñen o bordo superior.

A franxa vertical (do 5 ao 20 de febreiro de 2026) é a quincena deste post. Aquí vese o importante: non é "un modelo solto que sobe"; é unha banda de incorporacións que cae de golpe na zona onde antes había poucos puntos.

E non é só un modelo illado. Qwen3.5 Plus tamén entra forte (#52 global), mentres modelos Qwen previos seguen poboando o top open.[3]

Dúas notas para contextualizar, sen esixir background:

  • Qwen3.5 preséntase como unha familia orientada a agentic AI e, no seu modelo máis grande, publica detalles como contexto longo (262k tokens) e "thinking mode" por defecto, un patrón que xa vemos repetirse en varias familias punteiras.[3]
  • A nivel estratéxico, o lanzamento enmárcase no movemento de laboratorios chineses cara a open-weights como "plataforma": abrir pesos para acelerar ecosistema, mantendo o adestramento como vantaxe competitiva.[4]

5. MedGemma: O Caso que Obriga a Ser Honestos

Hai unha tentación recorrente en IA médica: pensar que "vertical" equivale a "mellor". Por iso, o modelo que máis interese espertaba por narrativa era MedGemma.

Resultados actuais:

Non é un mal resultado absoluto: 172/200 segue a ser unha nota respectable. Pero si é claramente baixo para o que suxire o nome nun benchmark MIR.

E aquí está a lección incómoda: especialización declarada non é especialización medida. Un modelo pode estar adestrado para dominios biomédicos e, aínda así, render peor nun exame tipo MIR, porque o MIR non é "só medicina". É medicina en español, en formato MCQ, con trampas de estilo exame e cunha distribución de temas moi concreta.

Contexto externo: MedGemma presentouse como unha familia de modelos orientados a saúde, construída sobre Gemma e adestrada/avaliada en tarefas médicas específicas (texto e, segundo variantes, multimodal). Esta proposta estratéxica é relevante: "abrir" un modelo médico usable localmente é un paso importante para investigación e para despregues sensibles.[5]

Pero o benchmark actúa como xuíz implacable: nesta primeira foto competitiva do MIR, MedGemma queda lonxe da fronteira SOTA.


6. Claude Opus 4.6: Mellora Global, Estancamento no MIR 2026

Comparativa de nota global da familia Opus: 4.6 mellora lixeiramente a 4.5 e amplía distancia fronte a 4.1.

Se seguiches a conversa pública destas semanas, é fácil pensar que "os modelos de código" son o novo SOTA universal. O problema é que o MIR non premia o mesmo que SWE-bench.

A incorporación de Claude Opus 4.6 deixa unha conclusión matizada:

  • No ránquing global, a nota sobe lixeiramente: Opus 4.1 (556,333 netas) → Opus 4.5 (568 netas) → Opus 4.6 (570,667 netas).
  • En posición global, Opus 4.6 sobe ao #27, fronte a #33 (4.5) e #57 (4.1).
  • No MIR 2026, Opus 4.6 queda #20 (197/200), empatado en acertos con Opus 4.5.
  • En custo MIR 2026, Opus 4.6 queda lixeiramente por enriba de 4.5 (4,888935 € vs 4,620485 €).

Isto encaixa co que vemos no mercado: Opus 4.6 está posicionado para tarefas complexas de código e axentividade, non para exames médicos tipo MCQ.[6] Se queres o argumento completo, desenvolvémolo con calma en "O Canivete Suíço e o Bisturi".

E aquí entra o punto crítico: segue faltando GPT-5.3-Codex no benchmark porque non está dispoñible por API pública en condicións comparables. OpenAI preséntao como a súa punta de lanza en coding, pero a propia comunicación do lanzamento sitúa o acceso en produtos e deixa o acceso API como "pendente".[7] No changelog público do API, o modelo dispoñible é gpt-5.2-codex, non 5.3.[8]

A crítica é simple: se non hai acceso API comparable, non hai comparación xusta. E sen comparación xusta, non hai evidencia, só márketing.


7. O Que Aprendemos en Só Dúas Semanas

Se tivese que resumir esta quincena para perfís distintos (clínico, técnico, produto), quedaría con seis aprendizaxes:

  1. O benchmark xa non está en fase de incrementos pequenos; está en fase de saltos de fronteira semana a semana.
  2. Cando chegas ao 100%, o ránquing precisa regras novas: o desempate temporal deixa de ser opcional.
  3. A paradoxa eficiencia vs tamaño (Flash vs Pro) non desaparece; convive co salto de 3.1 Pro.
  4. Qwen3.5 entra onde poucos open-weights entraran antes: top 15 global de verdade.
  5. Un modelo sanitario non é "mellor" por etiqueta: a especialización hai que medila no contorno exacto.
  6. O pescozo de botella para avaliar a "guerra do código" segue a ser o mesmo: acceso API homoxéneo.

A conclusión de fondo non cambia, pero agora é máis contundente: a evolución do benchmark en 2026 está a ocorrer en semanas, non en trimestres. E iso obriga a tratar cada "actualización" como un mini-cambio de era.

Se a curva mantén esta pendente, o seguinte corte pode volver mover o podio.


Notas y Referencias

  1. Contexto oficial e externo sobre Gemini Flash como estratexia de eficiencia (non só 'modelo pequeno'): Google Developers Blog (Gemini 3 Flash, 17 dec 2025) developers.googleblog.com e cobertura técnica de lanzamento techcrunch.com.
  2. Gemini 3.1 Pro Preview (19 feb 2026) e a súa chegada a tooling de desenvolvemento: 9to5Google 9to5google.com e changelog de GitHub Copilot github.blog.
  3. Qwen3.5 397B A17B: model card oficial (arquitectura, capacidades e posicionamento). huggingface.co/Qwen/Qwen3.5-397B-A17B.
  4. Contexto do lanzamento de Qwen3.5 e enfoque agentic/open-weights: Economic Times (16 feb 2026) economictimes.indiatimes.com.
  5. MedGemma: model card oficial (Google Developers) developers.google.com e ficha en Hugging Face (exemplo) huggingface.co/google/medgemma-27b-text-it.
  6. Anthropic: anuncio e documentación de Claude Opus 4.6 anthropic.com e páxina de produto anthropic.com/claude/opus.
  7. OpenAI: lanzamento de GPT-5.3-Codex e nota sobre dispoñibilidade/API (5 feb 2026) openai.com.
  8. OpenAI API changelog (14 xan 2026): dispoñibilidade de gpt-5.2-codex na API e ausencia de referencia a 5.3 no changelog público. platform.openai.com.
  9. Google Gemini API changelog (referencia pública de catálogo/datas): ai.google.dev.