MedicalBenchmark
199 de 200: A IA Só Falha Numa no MIR 2026

199 de 200: A IA Só Falha Numa no MIR 2026

Resultados definitivos do maior benchmark de IA médica em espanhol. Três modelos empatam com 199 acertos em 200 questões válidas. Um modelo 'Flash' lidera pelo terceiro ano consecutivo. Análise exaustiva de 290 modelos avaliados com dados de custo, velocidade, tokens e precisão.

Equipo MedBench5 de fevereiro de 202619 min de leitura
MIR 2026BenchmarkGemini FlashGPT-5Resultados Definitivos

No dia 24 de janeiro de 2026, mais de 12.000 candidatos enfrentaram o exame MIR mais polémico da última década. Mas enquanto a comunidade médica debatia sobre anulações, escalas de pontuação e caos administrativo, no Medical Benchmark estávamos a executar algo sem precedentes: 290 modelos de inteligência artificial a responder às 210 questões do exame em tempo real, antes de qualquer pessoa conhecer as respostas corretas.

Os resultados definitivos são, simplesmente, demolidores.

Três modelos de IA acertaram 199 das 200 questões válidas do MIR 2026. Apenas um erro. Uma precisão de 99,5%. Nenhum ser humano na história do MIR alguma vez conseguiu uma pontuação comparável.[1]


1. O Pódio Impossível: Empate a Três com 199/200

Pela primeira vez nos três anos de história do MedBench, três modelos de IA obtiveram exatamente a mesma pontuação líquida: 198,67 líquidas (199 acertos, 1 erro, 0 questões em branco).

Gemini 3 Flash

Google
Mais barato
199/200
Líquidas198.67
Custo total0.33 €
Tempo/questão4.2s
Tokens totais210K
Tokens raciocínio0
Confiança média100%
Único erroP118
EspecialidadeDermatologia

o3

OpenAI
Equilibrado
199/200
Líquidas198.67
Custo total1.86 €
Tempo/questão7.3s
Tokens totais311K
Tokens raciocínio71K
Confiança média100%
Único erroP157
EspecialidadeFarmacologia

GPT-5

OpenAI
Mais raciocínio
199/200
Líquidas198.67
Custo total1.97 €
Tempo/questão18s
Tokens totais420K
Tokens raciocínio135K
Confiança média100%
Único erroP77
EspecialidadeMedicina Interna

Os três co-vencedores representam dois gigantes tecnológicos com filosofias radicalmente distintas:

  • Google Gemini 3 Flash Preview

    : Um modelo projetado para ser rápido e económico. Custo total do exame completo: 0,33 € (trinta e três cêntimos de euro). Tempo médio por questão: 4,2 segundos. Sem tokens de raciocínio explícito. Embora o modelo permita configurar um orçamento de tokens de raciocínio, neste benchmark decidimos executá-lo com 0 tokens de raciocínio.
  • OpenAI o3

    : O modelo de raciocínio avançado da OpenAI. Custo: 1,86 €. Gera 71.000 tokens de raciocínio internos antes de responder. Tempo: 7,3 segundos por questão.
  • OpenAI GPT-5

    : O navio insignia da OpenAI. Custo: 1,97 €. O mais intensivo em raciocínio com 135.000 tokens dedicados. Mas também o mais lento dos três: 18 segundos por questão.

Como se desempata?

No MedBench, em caso de empate na pontuação líquida, o critério de desempate é o custo total do exame (menor custo ganha). Este critério reflete uma realidade prática crucial: se dois modelos têm idêntica precisão, aquele que o consegue de forma mais eficiente é objetivamente superior do ponto de vista do desdobramento clínico.

Com este critério, Gemini 3 Flash Preview é o vencedor oficial do MIR 2026, com um custo 5,7 vezes inferior a o3 e 6 vezes inferior a GPT-5.


2. O Ranking Completo: Os 15 Melhores

Google
OpenAI
Anthropic

Top 15 modelos de IA no MIR 2026 por pontuação líquida (resultados definitivos)

A concentração de pontuações na zona alta é extraordinária. Os 10 primeiros modelos movem-se numa margem de apenas 1,33 líquidas (de 198,67 a 197,33). Isto reflete tanto a qualidade dos modelos atuais como a relativa "facilidade" do MIR 2026 para os sistemas de IA, um fenómeno que analisámos em profundidade no nosso artigo anterior sobre a tempestade perfeita do MIR 2026.

Dados-chave do ranking:

  • 3 modelos com 199/200 (99,5% de precisão)
  • 9 modelos com 198/200 (99,0%)
  • 8 modelos com 197/200 (98,5%)
  • Todos os Top 20 superam os 98% de precisão (196/200 ou mais)
  • 58 modelos superam os 95% de precisão
  • 119 modelos superam os 90%

Para pôr isto em contexto: o melhor resultado humano conhecido no MIR 2025 foi de 174 acertos e 25 erros (87% de precisão, 165,67 líquidas).[2] Os três vencedores deste ano têm 99,5%.


3. David contra Golias: O Paradoxo Flash

Esta é talvez a conclusão mais contraintuitiva e fascinante de todo o benchmark: um modelo "Flash" — projetado para velocidade e baixo custo, não para máxima inteligência — leva três anos consecutivos a ser o melhor ou a empatar na primeira posição no exame médico mais exigente de Espanha.

*Sonar Deep Research tem acesso a pesquisa web, podendo consultar respostas do exame publicadas online

O historial do Gemini Flash:

ConvocatóriaPosição FlashLíquidasCustoVencedor oficialNota
MIR 2024#2 (empate em líquidas com #3-#5)193,330,32 €Sonar Deep Research (193,67)Sonar tem acesso à web
MIR 2025#1190,670,34 €Gemini 3 FlashVencedor indiscutível
MIR 2026#1 (empate com o3 e GPT-5)198,670,33 €Gemini 3 Flash (por custo)Empate a três

O caso do MIR 2024 merece uma menção especial. O vencedor nominal foi Perplexity Sonar Deep Research com 193,67 líquidas contra as 193,33 do Flash. No entanto, o Sonar Deep Research é um modelo com acesso a pesquisa web em tempo real. Dado que as respostas do MIR são publicadas em múltiplas páginas web de academias e fóruns médicos poucos dias depois do exame[3], não se pode descartar que o Sonar tenha consultado diretamente estas fontes. Se excluirmos os modelos com acesso à web, o Gemini Flash foi efetivamente o melhor modelo três anos consecutivos.

Porque é que um modelo "ligeiro" supera os mais caros?

Este resultado desafia a intuição de que "maior = melhor". Existem várias hipóteses complementares:

  1. Eficiência arquitetónica sobre tamanho bruto. A Google investiu fortemente em otimizações de destilação e eficiência de tokens.[4] O Gemini 3 Flash gera respostas mais concisas e diretas: em testes independentes, completou tarefas com 26% menos tokens do que modelos Pro equivalentes.[5]

  2. O MIR como teste de conhecimento factual, não de raciocínio profundo. A maioria das questões do MIR 2026 exigia reconhecimento direto de padrões clínicos, não cadeias complexas de raciocínio. Um modelo que "sabe" a resposta diretamente não necessita de "pensar" 135.000 tokens para chegar a ela.

  3. Menos tokens de raciocínio = menos oportunidades de erro. Os modelos com cadeias de raciocínio extensas (chain-of-thought) podem "convencer-se" de respostas incorretas através de raciocínios internos elaborados mas erróneos. O Flash, com 0 tokens de raciocínio, simplesmente responde aquilo que "sabe".

  4. O paradigma "mais inteligente, não maior". Como assinala o Barclays no seu relatório de perspetivas de IA para 2026[6], a indústria está a virar do escalonamento puro de parâmetros para a otimização inteligente. O Gemini 3 Flash é o exemplo perfeito desta tendência.

A reflexão de fundo: Se um modelo que custa 0,33 € por exame é capaz de acertar 199 de 200 questões, que valor acrescentado real trazem modelos que custam 100 ou 660 vezes mais e acertam o mesmo ou até menos?


4. Anatomia do Único Erro

Cada um dos três vencedores errou exatamente uma questão diferente. Nenhum erro se repete entre eles, o que sugere que se trata de erros estocásticos, não de lacunas sistemáticas de conhecimento:

ModeloQuestão erradaRespondeuCorretaEspecialidade
Gemini 3 FlashQuestão 118CBDermatologia
o3Questão 157CDFarmacologia
GPT-5Questão 77CAMedicina Interna

Curiosamente, os três modelos responderam "C" na sua única questão errada. Para além da anedota, o relevante é que se combinássemos as respostas dos três modelos usando um sistema de votação maioritária, o resultado seria um perfeito 200/200: cada questão que um falha, os outros dois acertam.

Isto abre uma reflexão fascinante sobre os sistemas de ensemble em IA médica: um comité de três modelos complementares poderia alcançar uma precisão perfeita neste exame.


5. O Plot Twist: A Grelha Provisória e a Sombra do ChatGPT

Antes de serem publicados os resultados definitivos (com 7 questões anuladas), a grelha provisória do Ministério só contemplava 4 anulações (questões 13, 50, 64 e 161). Com aquela grelha, o ranking era significativamente diferente.

As três questões adicionais que foram anuladas na grelha definitiva foram a 139 (lúpus e anemia), a 142 (tiroidite) e a 208 (cirrose). O impacto destas anulações foi assimétrico:

ParámetroTendencia MIR 2026Implicación
Modelos com 0/3 corretas nas anuladas+1,00 líquidasMáximo benefício. As penalizações por falhar essas questões desaparecem. Exemplo: Gemini 3 Flash.
Modelos com 1/3 corretas-0,33 líquidasImpacto leve negativo. Perdem 1 acerto mas eliminam 2 penalizações. Exemplo: o3.
Modelos com 2/3 corretas-1,67 líquidasImpacto moderado. Perdem 2 acertos e só eliminam 1 penalização. Exemplo: GPT-5.
Modelos com 3/3 corretas-3,00 líquidasMáximo prejuízo. Perdem 3 acertos sem compensação. Exemplo: o1.

Impacto das 3 anulações adicionais (Q139, Q142, Q208) na pontuação líquida segundo acertos prévios

Quem liderava com a grelha provisória?

Com apenas 4 questões anuladas, GPT-5 e o1 co-lideravam com uma pontuação líquida aproximada de 193,33 (acertando as 3 questões que posteriormente seriam anuladas). O Gemini 3 Flash, que errou as três, ocupava uma posição mais recuada.

A anulação destas três questões provocou o maior movimento de ranking do benchmark: Gemini Flash subiu 9 posições (da #11 para a #2), enquanto o1 caiu 7 posições (da co-liderança para a #8).

A hipótese incómoda

Existe um detalhe que não podemos ignorar. Entre a comunidade de opositores e em fóruns especializados circularam rumores — que devemos qualificar expressamente de não confirmados e presuntivos — sobre a possibilidade de algumas questões do MIR 2026 poderem ter sido elaboradas, total ou parcialmente, com assistência de ferramentas de IA generativa como o ChatGPT.[7]

Se estes rumores fossem verdadeiros (e reiteramos que não temos evidências que o confirmem), explicaria um padrão observável nos nossos dados: os modelos da família GPT/OpenAI obtiveram um desempenho especialmente elevado na grelha provisória, precisamente em questões que depois foram anuladas por conter ambiguidades ou erros. Um modelo de IA tenderia a "acertar" questões geradas por uma IA similar, já que partilhariam enviesamentos de redação e padrões de formulação.

Nota editorial: Esta hipótese é especulativa e não pretende ser uma afirmação categórica nem uma descrição da realidade. A anulação de questões é um processo rotineiro no MIR que pode dever-se a múltiplos fatores legítimos, incluindo ambiguidade clínica, atualização de normas médicas e erros de redação.


6. Sem Contaminação Possível: Metodologia Blindada

Um aspeto crucial do nosso benchmark que lhe confere máxima credibilidade é o timing das avaliações:

  • Data do exame MIR: 24 de janeiro de 2026
  • Data de execução de todos os modelos: 25 de janeiro de 2026
  • Publicação da grelha provisória: 26 de janeiro de 2026

Todas as avaliações foram executadas ANTES de serem publicadas as respostas corretas. Nenhum modelo pôde ter sido treinado, afinado ou contaminado com as respostas do MIR 2026, porque simplesmente não existiam quando as avaliações foram executadas.

Isto converte o MedBench num dos poucos benchmarks de IA médica do mundo onde a contaminação de dados é fisicamente impossível.[8] Os modelos responderam com o seu conhecimento médico preexistente, exatamente como um opositor humano.

Além disso, todos os modelos receberam o mesmo prompt do sistema, sem pistas sobre o ano do exame nem informação adicional que pudesse enviesar as respostas.


7. Análise Profunda de Métricas

Para além da pontuação líquida, o MedBench regista métricas detalhadas de cada modelo em cada questão: custo, tokens, tempo de resposta e confiança. Estes dados revelam padrões fascinantes.

7.1. Custo: De 0,33 € a 217 €

Custo total por exame completo (210 perguntas). Gemini 3 Flash lidera com 0,33 € contra os 217 € do o1-pro, com precisão igual ou superior

A dispersão de custos é brutal:

  • Gemini 3 Flash

    : 0,33 € por exame completo (210 questões). Ou seja, 0,0016 € por questão.
  • o1-pro

    : 217 € por exame. 1,08 € por questão. E obtém pior resultado (98,5% vs 99,5%).
  • o3 Deep Research

    : 167,82 €. Necessita de 3,6 minutos por questão e consome 6,6 milhões de tokens.

A relação custo-benefício do Gemini Flash é, objetivamente, insuperável. Obter a máxima pontuação por 0,33 € faz com que qualquer gasto superior em modelos com igual ou inferior desempenho seja ineficiente.

7.2. Velocidade de Resposta

Google
OpenAI
Anthropic

Tempo médio por pergunta dos modelos Top 15. o3 Deep Research precisa de 218 segundos por pergunta (3,6 minutos), enquanto GPT-5.1 Chat responde em 3,2 segundos

A velocidade importa em contextos clínicos reais. Um sistema de apoio diagnóstico que demora 3 minutos a responder tem uma utilidade muito diferente de um que responde em 3 segundos.

Os modelos mais rápidos do Top 15:

  1. GPT-5.1 Chat

    : 3,2 segundos/questão
  2. GPT-5 Codex

    : 3,9 segundos/questão
  3. Gemini 3 Flash

    : 4,2 segundos/questão

Os mais lentos:

7.3. Tokens: Pensar Mais Ajuda?

Distribuição de tokens por tipo. o3 Deep Research consome 6,6M tokens por exame (fora de escala). Gemini 3 Flash: 210K tokens totais sem raciocínio explícito

Uma das questões mais interessantes que os nossos dados revelam: os tokens de raciocínio melhoram o resultado?

No caso do Gemini 3 Flash, o valor 0 corresponde a uma decisão metodológica nossa: embora admita orçamento de raciocínio, avaliámo-lo deliberadamente sem tokens de raciocínio.

ModeloTokens raciocínioPrecisãoLíquidas
Gemini 3 Flash099,5%198,67
o371K99,5%198,67
GPT-5135K99,5%198,67
GPT-5.1 Chat6K99,0%197,33
o1146K99,0%197,33
o3 Deep Research1.741K99,0%197,33

A resposta é clara: não, pelo menos não neste exame. O modelo com 0 tokens de raciocínio obtém o mesmo resultado que o modelo com 135.000, e melhor resultado que o modelo com 1,7 milhões. Isto sugere que o MIR 2026 é primariamente um exame de reconhecimento de padrões e conhecimento factual, onde o "pensamento profundo" não acrescenta valor marginal.

7.4. Confiança: Todos Seguros, Todos Acertam

A confiança média reportada pelos modelos do Top 10 é consistentemente próxima dos 100%. Isto indica que os modelos modernos não só acertam, como sabem que estão a acertar. A calibração de confiança é um indicador crucial para aplicações clínicas: um modelo que diz "estou 100% seguro" e acerta 99,5% das vezes é extraordinariamente fiável.


8. IA vs. Humanos: A Brecha Alarga-se

Comparação entre a melhor pontuação de IA e o melhor resultado humano conhecido por convocatória. MIR 2026: resultado humano pendente de publicação oficial

A evolução histórica é inequívoca:

  • MIR 2024: A melhor IA superou o melhor humano por 7 líquidas (193,67 vs 186,67). A IA aventajava em 3,7%.
  • MIR 2025: A brecha disparou para 25 líquidas (190,67 vs 165,67). A IA aventajava em 15,1%.
  • MIR 2026: Com 198,67 líquidas e o resultado humano ainda pendente de publicação oficial[9], projetamos uma brecha ainda maior.

Mesmo no caso hipotético de o melhor humano do MIR 2026 igualar o recorde histórico humano de 190 acertos (MIR 2024), a sua pontuação líquida dependeria do número de erros. Assumindo um desempenho ótimo de 190 acertos e 10 erros (186,67 líquidas), a brecha com a IA seria de 12 líquidas.

A questão já não é se a IA é melhor que os humanos no MIR. A questão é quanto melhor.


9. Evolução Histórica: Três Anos de Benchmark

Melhor IA
Melhor Humano
Média Top 5
Média Top 10

Evolução da precisão da IA vs. melhor humano no MIR (2024-2026). MIR 2026: resultado humano pendente de publicação oficial

O MIR 2025, considerado o mais difícil dos três anos analisados (enunciados longos, questões "testamento", alta carga cognitiva), provocou uma queda temporária na precisão de todos os modelos. No entanto, a tendência geral é clara:

MétricaMIR 2024MIR 2025MIR 2026
Melhor precisão97,5%96,5%99,5%
Média Top 597,5%96,0%99,3%
Média Top 1097,5%95,8%99,2%
Modelos >95%181158
Modelos >90%6852119
Modelos avaliados291290290

O salto do MIR 2026 explica-se pela convergência de dois fatores: a melhoria contínua dos modelos (especialmente a geração GPT-5.x e Gemini 3) e a menor dificuldade relativa do exame.


10. O Mapa do Poder: Quem Domina o Benchmark?

Distribuição por fornecedor no Top 20 do benchmark MIR 2026

OpenAI domina numericamente o Top 20 com 11 modelos, refletindo a sua estratégia de proliferação de variantes (GPT-5, GPT-5.1, GPT-5.2, versões Chat, Codex, Pro, Image, etc.).

Google coloca 6 modelos com uma estratégia oposta: menos variantes mas mais diferenciadas (Flash vs Pro, distintas versões do Gemini 2.5 e 3).

Anthropic situa 3 modelos no Top 20 (Claude Opus 4.5 na #14, Claude Opus 4.6 na #15 e Claude Opus 4.1 na #18), confirmando a sua posição como terceiro ator relevante.

No entanto, a qualidade sobre quantidade favorece a Google: com 6 modelos no Top 20, coloca o #1 (Gemini Flash) e quatro modelos entre os 15 primeiros. A OpenAI necessita de 11 modelos para dominar numericamente.


11. Reflexões Finais: O Que Significa Tudo Isto?

Para a comunidade médica

O MIR 2026 marca um ponto de inflexão. Um sistema de IA que acerta 99,5% de um exame projetado para selecionar os melhores médicos do país não é uma curiosidade tecnológica: é uma mudança de paradigma.

Isto não significa que a IA vá substituir os médicos. O MIR avalia conhecimento teórico em formato de teste, não habilidades clínicas como a empatia, a comunicação com o paciente, a exploração física ou a tomada de decisões sob incerteza extrema. Mas sim demonstra que a IA pode ser um aliado extraordinário como sistema de apoio ao diagnóstico e como ferramenta de formação.

Para a comunidade de IA

A vitória de um modelo Flash sobre modelos frontier que custam até 660 vezes mais obriga a repensar pressupostos fundamentais:

  • O escalonamento bruto de parâmetros tem rendimentos decrescentes em domínios de conhecimento factual bem definidos.
  • A eficiência da arquitetura importa mais do que o tamanho em muitos contextos reais.
  • Os benchmarks médicos atuais podem estar a atingir o seu teto como medida de capacidade de IA. Quando 3 modelos roçam os 100%, o exame deixa de discriminar.

Para o futuro do MedBench

Perante resultados tão próximos da perfeição, o nosso benchmark deverá evoluir. Estamos a trabalhar em:

  • Avaliações multimodais com imagens clínicas e exames de imagem
  • Métricas de qualidade do raciocínio, não só do acerto final
  • Benchmarks de casos clínicos complexos que exijam integração de informação ao longo de múltiplos passos
  • Avaliação de alucinações e confiança calibrada em contextos de incerteza

No Medical Benchmark continuaremos a documentar e analisar a evolução da inteligência artificial em medicina com rigor, transparência e independência. Todos os dados estão disponíveis na nossa plataforma de rankings.

Notas y Referencias

  1. O melhor resultado humano conhecido na história recente do MIR é de 190 acertos e 10 erros (MIR 2024), equivalente a 186,67 líquidas. Os 199 acertos da IA superam este recorde em 12 líquidas.
  2. Dados do melhor resultado humano MIR 2025 obtidos das publicações oficiais do Ministério da Saúde.
  3. As academias MIR publicam as suas correções provisórias horas depois do exame. Modelos com acesso à web como o Sonar Deep Research poderiam aceder a estas respostas durante a avaliação.
  4. Google Blog: Gemini 3 Flash: frontier intelligence built for speed (dezembro 2025)
  5. Engadget: Google's Gemini 3 Flash model outperforms GPT-5.2 in some benchmarks (dezembro 2025)
  6. Barclays Private Bank: AI in 2026: Smarter, not bigger
  7. Rumores circulados em redes sociais e fóruns de opositores MIR. Não existe evidência pública confirmada de que o Ministério da Saúde tenha utilizado ferramentas de IA generativa para a elaboração de questões do exame MIR 2026.
  8. Luengo Vera, Ferro Picon, et al.: Evaluating LLMs on the Spanish MIR Exam: A Comparative Analysis 2024/2025 (arXiv, 2025)
  9. Segundo a convocatória oficial, o Ministério da Saúde tem prazo até 24 de fevereiro de 2026 para publicar os resultados definitivos com os números de ordem. Dado o contexto de incidências administrativas desta convocatória, é possível que se esgote o prazo.