MedicalBenchmark
O Canivete Suíço e o Bisturi: Por Que os Melhores Modelos de Código Fracassam no MIR

O Canivete Suíço e o Bisturi: Por Que os Melhores Modelos de Código Fracassam no MIR

Claude Opus 4.6 e GPT-5.2-Codex são os modelos de IA mais avançados para programar. Mas no MIR 2026, um modelo Flash de 0,34 € humilha-os. Análise do paradoxo agêntico com dados de 290 modelos.

Equipo MedBench6 de fevereiro de 202616 min de leitura
MIR 2026Modelos AgênticosClaude Opus 4.6GPT-5.2-CodexGemini Flash

No dia 5 de fevereiro de 2026, a inteligência artificial viveu um dia que só acontece uma vez por década. Às 10:00 da manhã (hora do Pacífico), a Anthropic publicou um post no seu blog com um título que parecia saído da ficção científica: "Claude Opus 4.6: o modelo que coordena equipas de agentes de IA para resolver problemas que nenhum modelo individual conseguiria abordar".[1] Quarenta minutos depois, a OpenAI contra-atacou: "Apresentamos o GPT-5.3-Codex, o primeiro modelo que se construiu parcialmente a si próprio".[2]

Os títulos da imprensa tecnológica foram previsíveis: "A guerra dos agentes de IA", "O modelo que programa como uma equipa de 10 engenheiros", "A singularidade já tem nome". No Terminal-Bench 2.0 — o benchmark de referência para tarefas de programação agêntica — o Claude Opus 4.6 estabeleceu um recorde absoluto com 65,4%, destruindo o anterior máximo de 57,2% do seu antecessor, o Opus 4.5.[3] No SWE-Bench Pro, o GPT-5.3-Codex também marcou um novo máximo.[4]

Mas aqui, no Medical Benchmark, os dados contam uma história muito diferente.

Enquanto o mundo celebrava a chegada dos modelos de código mais avançados da história, nós já tínhamos os resultados de 290 modelos avaliados no MIR 2026. E o veredicto é incómodo: os melhores modelos agênticos de código são medíocres em medicina. Um modelo "Flash" que custa 34 cêntimos esmaga-os a todos.

E quanto ao GPT-5.3-Codex, o flamejante lançamento da OpenAI: não conseguimos avaliá-lo. Só está disponível através do ChatGPT (aplicação, CLI e extensões IDE). Não tem API pública.[5] No MedBench avaliamos modelos através da OpenRouter API, pelo que o GPT-5.3-Codex é, por agora, o grande ausente do nosso ranking.


1. Os Gladiadores do Código

Antes de mostrar os dados, convém compreender o que são estes modelos e por que razão importam. Os três protagonistas desta história partilham uma característica: estão concebidos para serem agentes de código — sistemas de IA que não só respondem a perguntas, mas que executam tarefas complexas de programação de forma autónoma, coordenando ferramentas, lendo ficheiros, executando testes e depurando erros.

Claude Opus 4.6 (Anthropic)

O navio-almirante da Anthropic. Lançado a 5 de fevereiro de 2026. Janela de contexto de 1 milhão de tokens. Capacidade para coordenar equipas de agentes especializados ("agent teams"). Recorde no Terminal-Bench 2.0 com 65,4%. Concebido para raciocínio adaptativo — pode decidir quanto "pensar" antes de responder.[1]

Claude Opus 4.5 (Anthropic)

O anterior navio-almirante. Durante meses foi o modelo de código mais avançado do mercado. 57,2% no Terminal-Bench. Continua a ser extraordinariamente capaz, mas o Opus 4.6 supera-o em todas as métricas de programação.

GPT-5.2-Codex (OpenAI)

Lançado em dezembro de 2025 como "o modelo agêntico de código mais avançado" da OpenAI. Otimizado para contextos longos, tool calling fiável e tarefas multi-passo. Top 3 no SWE-Bench Verified.[6]

GPT-5.3-Codex (OpenAI) — O Grande Ausente

Lançado no mesmo dia que o Opus 4.6. Segundo a OpenAI, é o primeiro modelo em cujo treino se utilizaram versões iniciais de si próprio para depuração e avaliação. Recordes no SWE-Bench Pro e noutros benchmarks de código. Mas só está disponível via ChatGPT — não tem endpoint API, o que torna impossível a sua avaliação no MedBench.[5]

O que todos estes modelos têm em comum: estão otimizados para tarefas multi-passo, utilização de ferramentas e coordenação de agentes. São canivetes suíços digitais: podem cortar, aparafusar, abrir latas e limar. A pergunta é: podem também operar?


2. O Veredicto do MIR

Agêntico / Código
Generalista
Raciocínio

Comparativo de modelos agênticos/código vs. generalistas no MIR 2026. Os modelos agênticos (laranja) têm pior desempenho que os generalistas (azul) apesar de serem mais caros.

Os números não precisam de interpretação. Falam por si:

ModeloTipoPosiçãoAcertosCusto
Gemini 3 FlashGeneralista#1199/2000,34 €
o3Raciocínio#2199/2001,94 €
GPT-5Raciocínio#3199/2002,05 €
GPT-5.1 ChatGeneralista#4198/2000,65 €
Claude Opus 4.5Agêntico#13197/2004,62 €
Claude Opus 4.6Agêntico#15197/2004,89 €
GPT-5.2-CodexAgêntico#26195/2001,67 €

O dado demolidor: o Claude Opus 4.6 custa 14 vezes mais do que o Gemini Flash e acerta menos 2 questões. O GPT-5.2-Codex acerta menos 4 do que um modelo que custa 5 vezes menos. Entre o Opus 4.6 (#15) e o Flash (#1) há 14 modelos intermédios, a maioria generalistas sem qualquer otimização especial para código.


3. Programar Não É Diagnosticar

Ranking em benchmarks de código (Terminal-Bench/SWE-Bench) vs. ranking no MIR 2026. A inversão é clara: os melhores em código (barra laranja curta) são medianos em medicina (barra azul longa) e vice-versa.

O gráfico anterior revela uma inversão quase perfeita: os modelos que dominam os benchmarks de programação ficam relegados no MIR, e vice-versa.

  • Claude Opus 4.6: #1 no Terminal-Bench → #15 no MIR
  • GPT-5.2-Codex: Top 3 no SWE-Bench → #26 no MIR
  • Gemini 3 Flash: Não compete em benchmarks de código → #1 no MIR
  • GPT-5.1 Chat: Modelo "básico" da OpenAI → #4 no MIR

Por que ocorre esta inversão? A resposta está na natureza do MIR. O exame médico é fundamentalmente um teste de conhecimento factual e reconhecimento de padrões clínicos. A maioria das suas 200 questões requer que o modelo identifique um quadro clínico, recorde um protocolo ou reconheça uma associação diagnóstica. Não requer coordenar ferramentas, escrever código nem executar tarefas em múltiplos passos.

Um modelo otimizado para programação agêntica dedicou uma parte significativa do seu treino a aprender a usar terminais, depurar código e coordenar agentes. Esse treino não ajuda — e potencialmente prejudica — quando a tarefa é simplesmente responder "qual é o tratamento de primeira linha para a pneumonia adquirida na comunidade?".


4. O Caso Opus 4.6: Nasceu Ontem, Hoje Já Tem Diagnóstico

Respostas corretas
Ranking MIR (menor = melhor)

Evolução do Claude Opus no MIR 2026. O Opus 4.6 melhora em código (Terminal-Bench) mas não supera o Opus 4.5 em medicina: mesma precisão, maior custo e pior ranking.

A evolução da família Claude Opus no MIR 2026 é particularmente reveladora:

ModeloRanking MIRCorretasCustoTempo/questãoTerminal-Bench
Opus 4#44192/20010,46 €28s42%
Opus 4.1#20196/20011,10 €30s52%
Opus 4.5#13197/2004,62 €13,4s57%
Opus 4.6#15197/2004,89 €14,1s65%

Cada nova versão do Opus é objetivamente melhor em programação: Opus 4 → 4.1 → 4.5 → 4.6 mostra uma progressão constante no Terminal-Bench (42% → 52% → 57% → 65%). Mas em medicina, o Opus 4.6 não só não melhora o 4.5, como fica atrás no ranking (posição #15 vs. #13).

Como é possível? O Opus 4.6 acerta as mesmas 197 questões que o Opus 4.5, mas custa mais 0,27 € por exame (4,89 € vs. 4,62 €). No MedBench, em caso de empate na precisão, o modelo mais barato ganha — e o Opus 4.6 perde esse desempate.

O paradoxo é claro: a maior otimização agêntica do Opus 4.6 não traz qualquer benefício num exame médico de escolha múltipla. A sua janela de contexto de 1 milhão de tokens, a sua capacidade de coordenar agent teams, o seu raciocínio adaptativo — nada disto serve quando a tarefa é escolher entre A, B, C ou D numa questão de cardiologia. É como levar uma equipa cirúrgica completa para pôr um penso rápido.


5. A Queda do GPT-5.2-Codex: De Subcampeão a Posição 26

Evolução dos três modelos Codex da OpenAI no MIR (2024–2026). As barras mostram acertos; as etiquetas, o ranking. O GPT-5.2-Codex (o mais agêntico) tem pior desempenho que os seus irmãos menores no MIR 2026.

A história do GPT-5.2-Codex ao longo de três convocatórias do MIR é um drama em três atos:

ConvocatóriaPosiçãoAcertosPrecisão
MIR 2024#9194/20097,0%
MIR 2025#2192/20096,0%
MIR 2026#26195/20097,5%

Lê novamente: no MIR 2026, o GPT-5.2-Codex acertou mais questões do que nunca (195 vs. 194 em 2024) e, no entanto, caiu 24 posições em relação a 2025. Como é possível cair acertando mais?

Porque os restantes melhoraram muito mais. Em 2025, 192 acertos colocavam-te no pódio. Em 2026, com 50 modelos a superar os 95% de precisão, 195 acertos deixam-te no pelotão.

E aqui está o padrão mais revelador: as versões "menos agênticas" dos modelos Codex rendem melhor no MIR.

Quanto mais se otimiza um modelo Codex para capacidades agênticas de código, pior rende em conhecimento médico. O padrão é consistente e inquietante.


6. GPT-5.3-Codex: O Grande Ausente

Lançado no mesmo dia 5 de fevereiro juntamente com o Claude Opus 4.6, o GPT-5.3-Codex é, segundo a OpenAI, o modelo mais avançado jamais criado para programação. As suas credenciais são impressionantes: novos recordes no SWE-Bench Pro, capacidade de auto-depuração e a curiosa distinção de ser "o primeiro modelo que se construiu parcialmente a si próprio".[2]

No entanto, o GPT-5.3-Codex não aparece no nosso ranking. A razão é simples: a OpenAI lançou-o exclusivamente através do ChatGPT — a aplicação de computador, a CLI e as extensões IDE. Não tem endpoint API público.[5]

No MedBench, todos os modelos são avaliados através da OpenRouter API sob condições controladas e idênticas: mesmo prompt, mesma temperatura, mesmo formato de resposta. Avaliar um modelo através de uma interface de chat introduziria variáveis incontroláveis (prompt do sistema, formatação, limitações da interface) que invalidariam a comparação.

Quando o GPT-5.3-Codex tiver API disponível — a OpenAI disse que "soon" — avaliá-lo-emos imediatamente. Mas, por agora, é o elefante na sala: provavelmente o modelo agêntico mais potente do mundo, e não conseguimos medi-lo.

A pergunta que paira no ar: se mesmo o GPT-5 Codex (um modelo menos avançado) só consegue o #5 no MIR, seria o GPT-5.3-Codex realmente capaz de superar o Gemini Flash? Os dados sugerem que não — mas sem o medir, fica como especulação.


7. Por Que Acontece Isto? A Ciência do Trade-Off

Agêntico / Código
Flash / Leve
Generalista
Raciocínio
Pro / Frontier

Top 40 modelos do MIR 2026: custo total do exame vs. precisão. Os modelos agênticos (laranja, com borda) não alcançam a zona superior-esquerda (barato e preciso), dominada por Flash e generalistas. Dados reais do MedBench.

O gráfico de dispersão confirma visualmente o que os dados individuais já sugeriam: existe uma correlação negativa entre a capacidade agêntica e a precisão médica. Os modelos mais otimizados para código (zona direita) tendem a render pior no MIR (zona inferior).

Porquê? Há quatro hipóteses complementares que o explicam:

7.1. O Trade-Off da Especialização

O treino de um LLM é um jogo de soma quase-zero. Os ciclos de RLHF e fine-tuning dedicados a melhorar tool calling, execução de código e coordenação de agentes são ciclos que não se dedicam a consolidar conhecimento médico factual.

A analogia é direta: um cirurgião que dedica anos a especializar-se em microcirurgia da mão não se torna por isso melhor neurocirurgião. De facto, pode perder competências generalistas por desuso. Os modelos agênticos são o equivalente digital: extraordinariamente bons na sua especialidade (código), mas não necessariamente melhores — e por vezes piores — fora dela.

7.2. A Maldição do Overthinking

Investigações recentes sobre "overthinking" em cadeias de raciocínio (chain-of-thought) sugerem que pensar mais nem sempre é pensar melhor.[7] Os modelos agênticos estão otimizados para raciocinar em muitos passos, decompor problemas complexos e iterar sobre soluções. Mas em questões diretas de escolha múltipla, esta capacidade pode ser contraproducente.

Um dado ilustrativo: o Claude Opus 4.6 com 0 tokens de raciocínio acerta 197/200. O o3 Deep Research com 1,7 milhões de tokens de raciocínio acerta 198/200. Mais uma questão por 500 vezes mais tokens. O retorno marginal do "pensamento profundo" em questões médicas de escolha múltipla é praticamente nulo.

7.3. A Otimização para Ferramentas Contamina o Conhecimento

O treino para tool calling (utilização de ferramentas, APIs, terminais) modifica a distribuição de probabilidades do modelo de formas subtis mas significativas. Um modelo Codex foi treinado extensivamente para gerar código, não para recordar farmacologia. As representações internas do modelo reorganizam-se para priorizar padrões sintáticos, APIs e fluxos de execução — a custo potencial de padrões clínicos, protocolos terapêuticos e associações diagnósticas.

O MIR não requer ferramentas. Não há ficheiros para ler, testes para executar nem agentes para coordenar. Só requer memória e reconhecimento de padrões — precisamente as capacidades que o treino agêntico pode erodir.

7.4. O Efeito "Canivete Suíço"

Um canivete suíço é uma ferramenta extraordinária para acampar. Pode cortar pão, abrir latas, tirar rolhas e apertar parafusos. Mas ninguém operaria um paciente com ele. Para operar, precisas de um bisturi: uma ferramenta simples, especializada e extraordinariamente precisa na sua única função.

Os modelos agênticos são canivetes suíços digitais: podem fazer muitas coisas bem, mas sacrificam profundidade por amplitude. Um modelo Flash que simplesmente responde à questão sem pensar demasiado — um bisturi — é mais eficiente para um exame de escolha múltipla do que um modelo concebido para coordenar equipas de agentes.

ParámetroTendencia MIR 2026Implicación
Trade-Off da EspecializaçãoFuerteRLHF para código desloca conhecimento médico. Mais agentividade → menos precisão factual.
Maldição do OverthinkingModeradaRaciocínio multi-passo contraproducente em MCQ diretas. 1,7M tokens → +1 acerto vs. 0 tokens.
Contaminação por Tool CallingProbableTreino para gerar código reorganiza representações internas, erodindo padrões clínicos.
Efeito Canivete SuíçoClaroAmplitude de capacidades sacrifica profundidade em domínios específicos. Flash > Opus em MCQ médicas.

Resumo das quatro hipóteses sobre o trade-off agêntico. A evidência aponta para que sejam complementares, não excludentes.


8. O Preço da Complexidade

Agêntico / Código
Generalista
Raciocínio

Custo por resposta correta no MIR 2026. O o1-pro custa 641x mais por resposta correta que o Gemini Flash, com menor precisão.

Se os modelos agênticos não são mais precisos em medicina, pelo menos são eficientes? Os dados dizem que não. O custo por resposta correta revela a magnitude do desperdício:

ModeloCusto/corretavs. FlashCorretas
Gemini 3 Flash0,0017 €1x199/200
GPT-5.1 Chat0,0033 €1,9x198/200
GPT-5.2-Codex0,0086 €5x195/200
Claude Opus 4.60,0248 €14,6x197/200
o10,112 €65,9x198/200
o3 Deep Research0,883 €519x198/200
o1-pro1,09 €641x197/200

A pergunta é inevitável: num sistema de saúde com orçamento limitado, pagarias 14 vezes mais por menos 2 respostas? Ou 641 vezes mais pela mesma precisão?

Para um hospital que quisesse implementar IA como ferramenta de apoio ao diagnóstico, estes números são decisivos. Se o objetivo é maximizar a precisão por euro investido, o Gemini Flash é a escolha ótima por uma margem absurda. Os modelos agênticos têm usos legítimos em ambientes médicos complexos (integração de historial clínico, diagnóstico diferencial multi-passo), mas para consultas rápidas tipo pattern matching, são uma solução cara para um problema barato.


9. O Que Isto Significa para a IA Médica

A lição principal destes dados é enganadoramente simples: não precisas do "melhor" modelo de IA para medicina. Precisas do mais adequado.

Os sistemas agênticos como o Claude Opus 4.6 e o GPT-5.2-Codex têm o seu lugar legítimo. Se precisas de um sistema que reveja um historial clínico de 500 páginas, correlacione resultados laboratoriais com sintomas, consulte bases de dados de interações farmacológicas e gere um relatório estruturado — um modelo agêntico é exatamente o que precisas. Esse é o seu bloco operatório.

Mas se precisas de responder rapidamente se um paciente com dor precordial, elevação do ST e troponinas elevadas tem um enfarte — aí precisas de um bisturi, não de um canivete suíço. E o Gemini Flash, com a sua resposta direta em 4 segundos por 0,17 cêntimos, é um bisturi extraordinariamente afiado.

A importância de avaliar modelos no domínio específico de aplicação não pode ser subestimada. Assumir que o modelo #1 em programação será também o #1 em medicina é um erro que, com os dados do MedBench sobre a mesa, já não tem desculpa. Cada domínio tem as suas próprias regras e os seus próprios campeões.


10. Conclusões: Cada Ferramenta para a Sua Tarefa

O canivete suíço — Claude Opus 4.6, GPT-5.2-Codex — é uma ferramenta extraordinária. Pode programar como uma equipa de engenheiros, coordenar agentes, depurar código e automatizar fluxos de trabalho complexos. No seu terreno, não tem rival.

O bisturi — Gemini 3 Flash — faz uma só coisa: responder a questões com precisão devastadora, a uma velocidade vertiginosa, por um custo ridículo. No MIR 2026, onde a tarefa é exatamente essa, não precisa de mais.

Os modelos agênticos revolucionarão a programação, a automatização e provavelmente dezenas de indústrias. Mas a medicina tem as suas próprias regras. E no exame médico mais importante de Espanha, um modelo de 34 cêntimos voltou a demonstrar que mais caro, mais grande e mais complexo nem sempre significa melhor.

Da próxima vez que alguém te disser que o melhor modelo de IA do mundo resolverá todos os problemas, lembra-te: depende do problema. Um cirurgião não precisa de um canivete suíço. Precisa de um bisturi.

Explora os rankings completos do MIR 2026 e compara os 290 modelos avaliados em MedBench Rankings.


Notas y Referencias

  1. Anthropic Blog: Introducing Claude Opus 4.6. 5 de fevereiro de 2026.
  2. OpenAI Blog: GPT-5.3-Codex: The Most Advanced Coding Agent. 5 de fevereiro de 2026.
  3. Terminal-Bench 2.0 Leaderboard. O Claude Opus 4.6 alcançou 65,4%, superando o anterior recorde de 57,2% do Opus 4.5. terminal-bench.com.
  4. SWE-Bench Pro Leaderboard. O GPT-5.3-Codex estabelece novo máximo em resolução autónoma de issues reais do GitHub.
  5. O GPT-5.3-Codex só está disponível através do ChatGPT (aplicação, CLI e extensões IDE). A OpenAI indicou que o acesso API estará disponível 'proximamente'. Sem API, não é possível avaliá-lo no MedBench sob condições controladas.
  6. OpenAI: GPT-5.2-Codex. Lançado em dezembro de 2025.
  7. Investigações sobre 'overthinking' em modelos de raciocínio chain-of-thought mostram rendimento decrescente com comprimento excessivo de cadeias de pensamento em tarefas de resposta direta. Ver também: MedBench: 199 de 200 para análise de tokens de raciocínio vs. precisão.
  8. Os resultados completos do MIR 2026 com 290 modelos estão disponíveis em MedBench Rankings. Metodologia detalhada na nossa secção de metodologia.