MedicalBenchmark

A avaliar o futuro da IA Médica

A plataforma definitiva de avaliação para modelos de linguagem nos exames MIR de Espanha (2024-2026). Com a confiança de clínicos e investigadores.

A Nossa Metodologia

Como avaliamos os modelos de inteligência artificial no âmbito médico utilizando o exame MIR como referência.

Perguntas MIR Oficiais

Utilizamos perguntas reais do exame MIR de Espanha, o padrão para avaliar conhecimentos médicos a nível profissional. Cada pergunta é verificada e categorizada por especialidade.

Avaliação Rigorosa

Cada modelo é avaliado sob as mesmas condições controladas, sem acesso a informação externa. Medimos precisão, raciocínio clínico e consistência nas respostas.

Análise Detalhada

Fornecemos métricas granulares por especialidade médica, tipo de pergunta e nível de dificuldade. Isto permite identificar pontos fortes e áreas de melhoria de cada modelo.

Perguntas catalogadas por especialistas

Distribuição das perguntas do exame MIR por disciplina e tipo em cada edição.

Análise Integral

O nosso benchmark fornece uma avaliação exaustiva do desempenho de modelos de IA no âmbito médico.

Avaliação Contínua

Acompanhamento do desempenho ao longo do tempo para identificar melhorias e regressões.

Métricas Detalhadas

Análise granular por disciplina e tipo de pergunta clínica.

Objetivos Claros

Benchmarks padronizados baseados no exame MIR oficial de Espanha.

Transparência Total

Metodologia aberta e reprodutível com acesso completo aos critérios de avaliação.

Atualização Constante

Incorporação de novos modelos e edições do exame MIR de forma periódica.

Comparação Direta

Rankings e estatísticas que permitem comparar o desempenho entre modelos facilmente.

Dados Verificados

Perguntas oficiais do Ministério da Saúde com respostas validadas.

Perguntas por Tipo

Distribuição de perguntas por tipo

Anatomia3 perguntas
Bioestatística3 perguntas
Diagnóstico86 perguntas
Epidemiologia10 perguntas
Ética6 perguntas
Exames36 perguntas
Farmacologia16 perguntas
Fisiopatologia26 perguntas
Interpretação41 perguntas
Legal9 perguntas
Prevenção17 perguntas
Prognóstico5 perguntas
Risco17 perguntas
Tratamento74 perguntas

Perguntas por Disciplina

Distribuição de perguntas por disciplina

Alergologia1 perguntas
Anestesiologia e Reanimação7 perguntas
Cardiologia25 perguntas
Cuidados Paliativos6 perguntas
Dermatologia11 perguntas
Doenças Infecciosas14 perguntas
Endocrinologia e Nutrição16 perguntas
Epidemiologia8 perguntas
Estatística3 perguntas
Farmacologia12 perguntas
Gastrenterologia32 perguntas
Genética11 perguntas
Geriatria14 perguntas
Ginecologia e Obstetrícia13 perguntas
Hematologia11 perguntas
Imunologia6 perguntas
Medicina Legal e Bioética11 perguntas
Nefrologia10 perguntas
Neurologia15 perguntas
Oftalmologia6 perguntas
Oncologia Médica25 perguntas
ORL8 perguntas
Pediatria22 perguntas
Planeamento e Gestão em Saúde10 perguntas
Pneumologia17 perguntas
Psiquiatria8 perguntas
Radiologia-Urgências13 perguntas
Reumatologia12 perguntas
Traumatologia11 perguntas
Urologia8 perguntas

Últimos artigos

Artigos, novidades e análises sobre IA em medicina

188 Netas: Bianca Ciobanu Bate o Recorde do MIR — Mas a IA Já Vai nos 200
2 de mar. de 202611 min de leitura

188 Netas: Bianca Ciobanu Bate o Recorde do MIR — Mas a IA Já Vai nos 200

Bianca Ciobanu Selaru entra para a história com 188 netas, o melhor resultado humano alguma vez registado no MIR. 41 anos, origem romena, a prova de que a perseverança quebra moldes. Mas o recorde humano chega num momento singular: três modelos de IA já resolveram o exame completo — 200 de 200 — e quinze superam as 194 netas. Analisamos o que este duplo marco significa com dados, gráficos e contexto.

Ler mais
Duas Semanas Depois: 22 Modelos Novos e Triplo 200/200 no MIR 2026
20 de fev. de 202611 min de leitura

Duas Semanas Depois: 22 Modelos Novos e Triplo 200/200 no MIR 2026

De 5 a 20 de fevereiro de 2026 incorporámos 22 modelos novos ao benchmark. Em apenas 15 dias passámos de 99,5% para 100%: o Gemini 3.1 Pro Preview entra com 200/200, o Qwen3.5 397B A17B quebra o teto open-weights no ranking global e o MedGemma deixa uma lição desconfortável sobre o que significa, na prática, especialização em saúde. Storytelling técnico com novas gráficas sobre o empate perfeito, o desempate temporal e como muda um benchmark quando fica sem teto.

Ler mais
ALMA e MIRI obtêm a nota máxima possível no exame MIR 2026 com 100% de acerto
11 de fev. de 202627 min de leitura

ALMA e MIRI obtêm a nota máxima possível no exame MIR 2026 com 100% de acerto

Dois modelos de IA medica desenvolvidos em Espanha alcancam resultados sem precedentes. ALMA acerta as 600 perguntas dos tres ultimos MIR sem um unico erro — um 100% absoluto que nenhum outro modelo conseguiu. MIRI atinge 99,3% com um custo 13 vezes inferior e respondendo muito mais rapido. Nao sao modelos generalistas: sao arquiteturas RAG Agenticas com especialistas dedicados, construidas pela BinPar e Editorial Medica Panamericana, que demonstram que o futuro da IA medica nao esta em modelos maiores, mas em modelos mais inteligentes.

Ler mais
A Catedral e o Bazar: Open Source vs Proprietário no MIR 2026
9 de fev. de 202618 min de leitura

A Catedral e o Bazar: Open Source vs Proprietário no MIR 2026

As 33 primeiras posições do ranking MIR 2026 são todas de modelos proprietários. O melhor modelo aberto fica na posição 34. Analisamos o gap entre modelos abertos e fechados, a taxonomia real do open source em IA — onde muitos modelos que se proclamam abertos são catedrais com as portas entreabertas — e porque é que RAG supera o fine-tuning para personalizar IA médica sem perder o controlo dos seus dados.

Ler mais
O Canivete Suíço e o Bisturi: Por Que os Melhores Modelos de Código Fracassam no MIR
6 de fev. de 202616 min de leitura

O Canivete Suíço e o Bisturi: Por Que os Melhores Modelos de Código Fracassam no MIR

Claude Opus 4.6 e GPT-5.2-Codex sao os modelos de IA mais avancados para programar, capazes de coordenar equipas de agentes e construir-se parcialmente a si mesmos. Mas no MIR 2026, um modelo Flash de 0,34 EUR humilha-os. O canivete suico da programacao nao pode competir com o bisturi concebido para cortar. Analise do paradoxo agentico com dados de 290 modelos que demonstra por que a especializacao supera a potencia bruta no ambito medico.

Ler mais
199 de 200: A IA Só Falha Numa no MIR 2026
5 de fev. de 202619 min de leitura

199 de 200: A IA Só Falha Numa no MIR 2026

Resultados definitivos do maior benchmark de IA médica em espanhol. Três modelos empatam com 199 acertos em 200 questões válidas — uma precisão de 99,5% que nenhum ser humano jamais alcançou na história do MIR. Um modelo 'Flash' lidera pelo terceiro ano consecutivo, provando que mais caro não significa melhor. Análise exaustiva de 290 modelos avaliados com dados de custo, velocidade, tokens e precisão que revela as tendências que estão a transformar a inteligência artificial médica.

Ler mais