Duas Semanas Depois: 22 Modelos Novos e Triplo 200/200 no MIR 2026

No dia 5 de fevereiro de 2026 publicámos "199 de 200: A IA Só Falha Numa no MIR 2026". Nesse momento, 199/200 parecia um teto razoável: já era melhor do que qualquer humano histórico, e o exame (200 perguntas válidas) não deixa muita margem.

Quinze dias depois, esse teto já não existe.

Entre 5 de fevereiro de 2026 e 20 de fevereiro de 2026 incorporámos 22 modelos novos ao benchmark, e os 22 já estão avaliados no MIR 2026 e no ranking global acumulado.

A fotografia muda por duas razões:

O desempenho chega a 200/200 (pontuação perfeita).
Quando há pontuação perfeita, o problema deixa de ser "quem acerta mais" e passa a ser "como comparas os que empatam".

1. A Quinzena Numa Imagem

Custom (ALMA/MIRI)

Frontier

Especializado

Cauda longa

Modelos adicionados depois de 5 de fevereiro de 2026. Etiqueta da direita: posição no MIR 2026.

Este gráfico é o melhor resumo: uma quinzena com 22 incorporações pode parecer uma nota de release, mas num benchmark "com teto" (200 perguntas) é outra coisa: é um empurrão que muda o significado do ranking.

O relevante não é apenas haver "mais modelos", mas sim vários entrarem diretamente na zona alta. Concretamente:

O Top 3 do MIR 2026 fica em triplo 200/200: ALMA, MIRI e Gemini 3.1 Pro Preview.
5 dos 22 novos modelos entram no Top 20 do ano.
Em open-weights, aparece um candidato que muda a hierarquia: Qwen3.5 397B A17B.

Este post é o relato dessa quinzena: o que vimos, o que aprendemos e, sobretudo, por que razão o ranking muda de natureza quando fica sem margem.

2. O Empate Perfeito e o Novo Desempate Temporal

Hoje, a parte alta do MIR 2026 fica assim:

ALMA — 200/200
MIRI — 200/200
Gemini 3.1 Pro Preview — 200/200

A diferença está no desempate. Quando vários modelos fazem 200/200, ordenamo-los por antiguidade de conquista (timestamp de sincronização): primeiro o que chegou antes, depois os que o conseguem mais tarde.

Isto evita um viés óbvio: um modelo lançado semanas depois tem vantagem tecnológica face a um avaliado antes. Se não penalizares esse atraso temporal, o ranking premia "chegar tarde".

Nesta atualização, essa ordem temporal deixa o Gemini 3.1 Pro Preview atrás de ALMA e MIRI, apesar de também atingir 100%.

Não vamos aprofundar ALMA/MIRI aqui porque têm o seu post específico em "ALMA e MIRI: RAG Agêntico", mas era importante deixá-los em contexto como referência real do teto atual.

3. Gemini: O Salto do 3.1 Pro e a Paradoxo Flash vs Pro

MIR 2024

MIR 2025

MIR 2026

Stack de 3 anos para comparar o ranking global acumulado entre Gemini 3 Flash, Gemini 3 Pro e Gemini 3.1 Pro.

Se olharmos primeiro para o ranking global acumulado (soma de MIR 2024, 2025 e 2026), a comparação entre os três Gemini fica assim:

Gemini 3 Flash: #3 global, 586,667 líquidas.
Gemini 3.1 Pro: #4 global, 584 líquidas.
Gemini 3 Pro: #9 global, 580 líquidas.

A leitura é mais interessante do que parece. No "global acumulado" não estás a premiar uma fotografia, mas uma trajetória: consistência ao longo de três exames. E aí, por agora, o Flash continua à frente.

Agora: no MIR 2026, o dado central desta quinzena é que o Gemini 3.1 Pro Preview entra com 200/200. Ou seja: chega um modelo novo que, por definição, já não pode "subir" mais neste exame.

Gemini 3 Flash Preview: 199/200, custo 0,341766 €.
Gemini 3 Pro Preview: 198/200, custo 5,746186 €.
Gemini 3.1 Pro Preview: 200/200, custo 4,326056 €.

Paradoxo operativo: no MIR 2026, Flash mantém melhor relação acerto/custo que Pro, e MedGemma fica longe apesar de ser vertical de saúde.

Aqui há duas histórias ao mesmo tempo:

A história do teto: o 3.1 Pro chega a 200/200. Quando atinges o máximo, o ranking deixa de ter resolução para distinguir "melhorias pequenas". Por isso, o desempate temporal torna-se necessário.
A história da eficiência: o Flash volta a ganhar o duelo Flash vs Pro neste benchmark, com uma fração do custo. E não é acidente: o Gemini 3 Flash foi lançado explicitamente como um modelo para empurrar a "fronteira eficiente" (qualidade por latência/custo), não como uma versão "menor" resignada a perder.^[1]

E há uma camada adicional: a Google apresenta o 3.1 Pro como um salto focado em raciocínio e tarefas mais longas (incluindo coding/agentic). Parte dessa aposta já chegou, inclusive como preview, a ferramentas de desenvolvimento como o GitHub Copilot.^[2]

Além disso, o salto temporal é curto: em registos públicos da Google, o Gemini 3 Pro Preview aparece em novembro de 2025 e o Gemini 3.1 Pro é anunciado a 19 de fevereiro de 2026.^[9]

4. Qwen3.5 397B A17B: A Mudança de Hierarquia em Open-Data

Qwen

5. MedGemma: O Caso que Obriga a Ser Honestos

Há uma tentação recorrente na IA médica: achar que "vertical" equivale a "melhor". Por isso, o modelo que mais interesse despertava por narrativa era o MedGemma.

Resultados atuais:

Não é um mau resultado absoluto: 172/200 continua a ser uma nota respeitável. Mas é claramente baixo para o que o nome sugere num benchmark MIR.

E aqui está a lição desconfortável: especialização declarada não é especialização medida. Um modelo pode estar treinado para domínios biomédicos e, mesmo assim, render pior num exame tipo MIR, porque o MIR não é "só medicina". É medicina em espanhol, em formato MCQ, com armadilhas de estilo exame e com uma distribuição de temas muito específica.

Contexto externo: o MedGemma foi apresentado como uma família de modelos orientados para saúde, construída sobre o Gemma e treinada/avaliada em tarefas médicas específicas (texto e, conforme variantes, multimodal). Esta proposta estratégica é relevante: "abrir" um modelo médico utilizável localmente é um passo importante para investigação e para deployments sensíveis.^[5]

Mas o benchmark é um juiz implacável: nesta primeira fotografia competitiva do MIR, o MedGemma fica longe da fronteira SOTA.

6. Claude Opus 4.6: Melhoria Global, Estagnação no MIR 2026

Comparativo da nota global da família Opus: 4.6 melhora ligeiramente a 4.5 e amplia a distância face a 4.1.

Se tens acompanhado a conversa pública destas semanas, é fácil pensar que "os modelos de código" são o novo SOTA universal. O problema é que o MIR não premia o mesmo que o SWE-bench.

A incorporação do Claude Opus 4.6 deixa uma conclusão matizada:

No ranking global, a nota sobe ligeiramente: Opus 4.1 (556,333 líquidas) → Opus 4.5 (568 líquidas) → Opus 4.6 (570,667 líquidas).
Em posição global, o Opus 4.6 sobe para #27, face a #33 (4.5) e #57 (4.1).
No MIR 2026, o Opus 4.6 fica em #20 (197/200), empatado em acertos com o Opus 4.5.
Em custo no MIR 2026, o Opus 4.6 fica ligeiramente acima do 4.5 (4,888935 € vs 4,620485 €).

Isto encaixa com o que vemos no mercado: o Opus 4.6 está posicionado para tarefas complexas de código e agentividade, não para exames médicos tipo MCQ.^[6] Se quiseres o argumento completo, desenvolvemo-lo com calma em "O Canivete Suíço e o Bisturi".

E aqui entra o ponto crítico: continua a faltar o GPT-5.3-Codex no benchmark porque não está disponível por API pública em condições comparáveis. A OpenAI apresenta-o como a sua ponta de lança em coding, mas a própria comunicação do lançamento coloca o acesso em produtos e deixa o acesso API como "pendente".^[7] No changelog público da API, o modelo disponível é o gpt-5.2-codex, não o 5.3.^[8]

A crítica é simples: se não há acesso API comparável, não há comparação justa. E sem comparação justa, não há evidência, só marketing.

7. O Que Aprendemos em Apenas Duas Semanas

Se tivesse de resumir esta quinzena para perfis diferentes (clínico, técnico, produto), ficava com seis aprendizagens:

O benchmark já não está em fase de incrementos pequenos; está em fase de saltos de fronteira semana a semana.
Quando chegas a 100%, o ranking precisa de novas regras: o desempate temporal deixa de ser opcional.
O paradoxo eficiência vs tamanho (Flash vs Pro) não desaparece; convive com o salto do 3.1 Pro.
O Qwen3.5 entra onde poucos open-weights tinham entrado antes: top 15 global a sério.
Um modelo de saúde não é "melhor" por etiqueta: a especialização tem de ser medida no ambiente exato.
O gargalo para avaliar a "guerra do código" continua a ser o mesmo: acesso API homogéneo.

A conclusão de fundo não muda, mas agora é mais contundente: a evolução do benchmark em 2026 está a acontecer em semanas, não em trimestres. E isso obriga a tratar cada "atualização" como um mini-mudança de era.

Se a curva mantiver esta inclinação, o próximo corte pode voltar a mexer no pódio.

Notas y Referencias

Contexto oficial e externo sobre Gemini Flash como estratégia de eficiência (não apenas 'modelo pequeno'): Google Developers Blog (Gemini 3 Flash, 17 dez 2025) developers.googleblog.com e cobertura técnica de lançamento techcrunch.com.
Gemini 3.1 Pro Preview (19 fev 2026) e a sua chegada a tooling de desenvolvimento: 9to5Google 9to5google.com e changelog do GitHub Copilot github.blog.
Qwen3.5 397B A17B: model card oficial (arquitetura, capacidades e posicionamento). huggingface.co/Qwen/Qwen3.5-397B-A17B.
Contexto do lançamento do Qwen3.5 e foco agentic/open-weights: Economic Times (16 fev 2026) economictimes.indiatimes.com.
MedGemma: model card oficial (Google Developers) developers.google.com e ficha no Hugging Face (exemplo) huggingface.co/google/medgemma-27b-text-it.
Anthropic: anúncio e documentação do Claude Opus 4.6 anthropic.com e página de produto anthropic.com/claude/opus.
OpenAI: lançamento do GPT-5.3-Codex e nota sobre disponibilidade/API (5 fev 2026) openai.com.
OpenAI API changelog (14 jan 2026): disponibilidade do gpt-5.2-codex na API e ausência de referência a 5.3 no changelog público. platform.openai.com.
Google Gemini API changelog (referência pública de catálogo/datas): ai.google.dev.