MedicalBenchmark
Voltar ao blog

Duas Semanas Depois: 22 Modelos Novos e Triplo 200/200 no MIR 2026

De 5 a 20 de fevereiro de 2026 incorporámos 22 modelos novos ao benchmark. Em apenas 15 dias passámos de 99,5% para 100%: o Gemini 3.1 Pro Preview entra com 200/200, o Qwen3.5 397B A17B quebra o teto open-weights no ranking global e o MedGemma deixa uma lição desconfortável sobre o que significa, na prática, especialização em saúde.

Storytelling técnico com novas gráficas sobre o empate perfeito, o desempate temporal e como muda um benchmark quando fica sem teto.

Equipo MedBench20 de fevereiro de 202611 min de leitura
MIR 2026BenchmarkGemini 3.1Qwen3.5Claude Opus 4.6Atualização

No dia 5 de fevereiro de 2026 publicámos "199 de 200: A IA Só Falha Numa no MIR 2026". Nesse momento, 199/200 parecia um teto razoável: já era melhor do que qualquer humano histórico, e o exame (200 perguntas válidas) não deixa muita margem.

Quinze dias depois, esse teto já não existe.

Entre 5 de fevereiro de 2026 e 20 de fevereiro de 2026 incorporámos 22 modelos novos ao benchmark, e os 22 já estão avaliados no MIR 2026 e no ranking global acumulado.

A fotografia muda por duas razões:

  1. O desempenho chega a 200/200 (pontuação perfeita).
  2. Quando há pontuação perfeita, o problema deixa de ser "quem acerta mais" e passa a ser "como comparas os que empatam".

1. A Quinzena Numa Imagem

Custom (ALMA/MIRI)
Frontier
Especializado
Cauda longa

Modelos adicionados depois de 5 de fevereiro de 2026. Etiqueta da direita: posição no MIR 2026.

Este gráfico é o melhor resumo: uma quinzena com 22 incorporações pode parecer uma nota de release, mas num benchmark "com teto" (200 perguntas) é outra coisa: é um empurrão que muda o significado do ranking.

O relevante não é apenas haver "mais modelos", mas sim vários entrarem diretamente na zona alta. Concretamente:

Este post é o relato dessa quinzena: o que vimos, o que aprendemos e, sobretudo, por que razão o ranking muda de natureza quando fica sem margem.


2. O Empate Perfeito e o Novo Desempate Temporal

Hoje, a parte alta do MIR 2026 fica assim:

  1. ALMA200/200
  2. MIRI200/200
  3. Gemini 3.1 Pro Preview200/200

A diferença está no desempate. Quando vários modelos fazem 200/200, ordenamo-los por antiguidade de conquista (timestamp de sincronização): primeiro o que chegou antes, depois os que o conseguem mais tarde.

Isto evita um viés óbvio: um modelo lançado semanas depois tem vantagem tecnológica face a um avaliado antes. Se não penalizares esse atraso temporal, o ranking premia "chegar tarde".

Nesta atualização, essa ordem temporal deixa o Gemini 3.1 Pro Preview atrás de ALMA e MIRI, apesar de também atingir 100%.

Não vamos aprofundar ALMA/MIRI aqui porque têm o seu post específico em "ALMA e MIRI: RAG Agêntico", mas era importante deixá-los em contexto como referência real do teto atual.


3. Gemini: O Salto do 3.1 Pro e a Paradoxo Flash vs Pro

MIR 2024
MIR 2025
MIR 2026

Stack de 3 anos para comparar o ranking global acumulado entre Gemini 3 Flash, Gemini 3 Pro e Gemini 3.1 Pro.

Se olharmos primeiro para o ranking global acumulado (soma de MIR 2024, 2025 e 2026), a comparação entre os três Gemini fica assim:

A leitura é mais interessante do que parece. No "global acumulado" não estás a premiar uma fotografia, mas uma trajetória: consistência ao longo de três exames. E aí, por agora, o Flash continua à frente.

Agora: no MIR 2026, o dado central desta quinzena é que o Gemini 3.1 Pro Preview entra com 200/200. Ou seja: chega um modelo novo que, por definição, já não pode "subir" mais neste exame.

Paradoxo operativo: no MIR 2026, Flash mantém melhor relação acerto/custo que Pro, e MedGemma fica longe apesar de ser vertical de saúde.

Aqui há duas histórias ao mesmo tempo:

  1. A história do teto: o 3.1 Pro chega a 200/200. Quando atinges o máximo, o ranking deixa de ter resolução para distinguir "melhorias pequenas". Por isso, o desempate temporal torna-se necessário.
  2. A história da eficiência: o Flash volta a ganhar o duelo Flash vs Pro neste benchmark, com uma fração do custo. E não é acidente: o Gemini 3 Flash foi lançado explicitamente como um modelo para empurrar a "fronteira eficiente" (qualidade por latência/custo), não como uma versão "menor" resignada a perder.[1]

E há uma camada adicional: a Google apresenta o 3.1 Pro como um salto focado em raciocínio e tarefas mais longas (incluindo coding/agentic). Parte dessa aposta já chegou, inclusive como preview, a ferramentas de desenvolvimento como o GitHub Copilot.[2]

Além disso, o salto temporal é curto: em registos públicos da Google, o Gemini 3 Pro Preview aparece em novembro de 2025 e o Gemini 3.1 Pro é anunciado a 19 de fevereiro de 2026.[9]


4. Qwen3.5 397B A17B: A Mudança de Hierarquia em Open-Data

Qwen
Meta
DeepSeek
Z.ai

Top open-data no ranking global. Qwen3.5 397B A17B lidera este bloco na posição #15.

Se excluirmos modelos custom (ALMA/MIRI) e olharmos para o bloco open-data/open-weights, o movimento mais importante desta quinzena é:

Este salto não é cosmético. É um sinal de que a família Qwen3.5 está a empurrar uma nova fase em open-weights: não apenas "muito boa por euro", mas capaz de competir na zona alta de precisão acumulada. E isso, historicamente, era terreno de catedrais.

Proprietário
Open Weights
Open Source (OSI)
Janela de atualização (5-20 fev 2026)

Os 303 modelos avaliados no MIR 2026 por data de lançamento. Cada ponto é um modelo; vermelho = proprietário, azul = open weights, verde = open source (OSI). Modelos mais recentes tendem a obter melhores notas, mas os proprietários mantêm a borda superior.

A faixa vertical (de 5 a 20 de fevereiro de 2026) é a quinzena deste post. Aqui vê-se o que importa: não é "um modelo isolado que sobe"; é uma banda de incorporações que cai de golpe na zona onde antes havia poucos pontos.

E não é apenas um modelo isolado. O Qwen3.5 Plus também entra forte (#52 global), enquanto modelos Qwen anteriores continuam a povoar o topo open.[3]

Duas notas para contextualizar, sem exigir background:

  • O Qwen3.5 apresenta-se como uma família orientada para agentic AI e, no seu modelo maior, publica detalhes como contexto longo (262k tokens) e "thinking mode" por defeito, um padrão que já vemos repetir-se em várias famílias de ponta.[3]
  • A nível estratégico, o lançamento enquadra-se no movimento de laboratórios chineses rumo a open-weights como "plataforma": abrir pesos para acelerar o ecossistema, mantendo o treino como vantagem competitiva.[4]

5. MedGemma: O Caso que Obriga a Ser Honestos

Há uma tentação recorrente na IA médica: achar que "vertical" equivale a "melhor". Por isso, o modelo que mais interesse despertava por narrativa era o MedGemma.

Resultados atuais:

Não é um mau resultado absoluto: 172/200 continua a ser uma nota respeitável. Mas é claramente baixo para o que o nome sugere num benchmark MIR.

E aqui está a lição desconfortável: especialização declarada não é especialização medida. Um modelo pode estar treinado para domínios biomédicos e, mesmo assim, render pior num exame tipo MIR, porque o MIR não é "só medicina". É medicina em espanhol, em formato MCQ, com armadilhas de estilo exame e com uma distribuição de temas muito específica.

Contexto externo: o MedGemma foi apresentado como uma família de modelos orientados para saúde, construída sobre o Gemma e treinada/avaliada em tarefas médicas específicas (texto e, conforme variantes, multimodal). Esta proposta estratégica é relevante: "abrir" um modelo médico utilizável localmente é um passo importante para investigação e para deployments sensíveis.[5]

Mas o benchmark é um juiz implacável: nesta primeira fotografia competitiva do MIR, o MedGemma fica longe da fronteira SOTA.


6. Claude Opus 4.6: Melhoria Global, Estagnação no MIR 2026

Comparativo da nota global da família Opus: 4.6 melhora ligeiramente a 4.5 e amplia a distância face a 4.1.

Se tens acompanhado a conversa pública destas semanas, é fácil pensar que "os modelos de código" são o novo SOTA universal. O problema é que o MIR não premia o mesmo que o SWE-bench.

A incorporação do Claude Opus 4.6 deixa uma conclusão matizada:

  • No ranking global, a nota sobe ligeiramente: Opus 4.1 (556,333 líquidas) → Opus 4.5 (568 líquidas) → Opus 4.6 (570,667 líquidas).
  • Em posição global, o Opus 4.6 sobe para #27, face a #33 (4.5) e #57 (4.1).
  • No MIR 2026, o Opus 4.6 fica em #20 (197/200), empatado em acertos com o Opus 4.5.
  • Em custo no MIR 2026, o Opus 4.6 fica ligeiramente acima do 4.5 (4,888935 € vs 4,620485 €).

Isto encaixa com o que vemos no mercado: o Opus 4.6 está posicionado para tarefas complexas de código e agentividade, não para exames médicos tipo MCQ.[6] Se quiseres o argumento completo, desenvolvemo-lo com calma em "O Canivete Suíço e o Bisturi".

E aqui entra o ponto crítico: continua a faltar o GPT-5.3-Codex no benchmark porque não está disponível por API pública em condições comparáveis. A OpenAI apresenta-o como a sua ponta de lança em coding, mas a própria comunicação do lançamento coloca o acesso em produtos e deixa o acesso API como "pendente".[7] No changelog público da API, o modelo disponível é o gpt-5.2-codex, não o 5.3.[8]

A crítica é simples: se não há acesso API comparável, não há comparação justa. E sem comparação justa, não há evidência, só marketing.


7. O Que Aprendemos em Apenas Duas Semanas

Se tivesse de resumir esta quinzena para perfis diferentes (clínico, técnico, produto), ficava com seis aprendizagens:

  1. O benchmark já não está em fase de incrementos pequenos; está em fase de saltos de fronteira semana a semana.
  2. Quando chegas a 100%, o ranking precisa de novas regras: o desempate temporal deixa de ser opcional.
  3. O paradoxo eficiência vs tamanho (Flash vs Pro) não desaparece; convive com o salto do 3.1 Pro.
  4. O Qwen3.5 entra onde poucos open-weights tinham entrado antes: top 15 global a sério.
  5. Um modelo de saúde não é "melhor" por etiqueta: a especialização tem de ser medida no ambiente exato.
  6. O gargalo para avaliar a "guerra do código" continua a ser o mesmo: acesso API homogéneo.

A conclusão de fundo não muda, mas agora é mais contundente: a evolução do benchmark em 2026 está a acontecer em semanas, não em trimestres. E isso obriga a tratar cada "atualização" como um mini-mudança de era.

Se a curva mantiver esta inclinação, o próximo corte pode voltar a mexer no pódio.


Notas y Referencias

  1. Contexto oficial e externo sobre Gemini Flash como estratégia de eficiência (não apenas 'modelo pequeno'): Google Developers Blog (Gemini 3 Flash, 17 dez 2025) developers.googleblog.com e cobertura técnica de lançamento techcrunch.com.
  2. Gemini 3.1 Pro Preview (19 fev 2026) e a sua chegada a tooling de desenvolvimento: 9to5Google 9to5google.com e changelog do GitHub Copilot github.blog.
  3. Qwen3.5 397B A17B: model card oficial (arquitetura, capacidades e posicionamento). huggingface.co/Qwen/Qwen3.5-397B-A17B.
  4. Contexto do lançamento do Qwen3.5 e foco agentic/open-weights: Economic Times (16 fev 2026) economictimes.indiatimes.com.
  5. MedGemma: model card oficial (Google Developers) developers.google.com e ficha no Hugging Face (exemplo) huggingface.co/google/medgemma-27b-text-it.
  6. Anthropic: anúncio e documentação do Claude Opus 4.6 anthropic.com e página de produto anthropic.com/claude/opus.
  7. OpenAI: lançamento do GPT-5.3-Codex e nota sobre disponibilidade/API (5 fev 2026) openai.com.
  8. OpenAI API changelog (14 jan 2026): disponibilidade do gpt-5.2-codex na API e ausência de referência a 5.3 no changelog público. platform.openai.com.
  9. Google Gemini API changelog (referência pública de catálogo/datas): ai.google.dev.