Documentacao
O que e o MedicalBenchmark
O MedicalBenchmark e uma plataforma independente de avaliacao que mede o desempenho de modelos de inteligencia artificial em exames medicos oficiais de Espanha, principalmente o MIR.
A nossa missao e fornecer dados objetivos, reprodutiveis e de acesso livre para que investigadores, profissionais de saude e programadores possam compreender as capacidades reais da IA na medicina.
Avaliacao independente
Sem afiliacao a qualquer fornecedor de IA. Avaliamos todos os modelos com o mesmo protocolo padronizado.
Exames oficiais
Utilizamos perguntas reais do MIR publicadas pelo Ministerio da Saude de Espanha.
+280 modelos de IA
A base de dados mais completa de avaliacoes de IA medica em espanhol, incluindo modelos proprietarios e de codigo aberto.
Dados abertos
Todos os resultados, respostas e metricas estao disponiveis publicamente para fomentar a investigacao aberta.
O exame MIR
O MIR (Medico Interno Residente) e o exame nacional de Espanha para aceder a formacao medica especializada. E uma prova padronizada, publica e altamente competitiva.
Cada convocatoria do MIR e composta por 200 perguntas validas mais 10 de reserva (210 no total). Cada pergunta tem 4 opcoes de resposta, das quais apenas uma e correta.
Sistema de pontuacao
Resposta correta
+3 pontos
Resposta incorreta
-1 ponto
Resposta em branco
0 pontos
Formula de liquidas
As liquidas representam o numero efetivo de perguntas acertadas, descontando a penalizacao por respostas incorretas. E a metrica oficial do MIR.
Algumas perguntas podem ser anuladas apos a publicacao do exame. As perguntas anuladas nao contam para o computo de liquidas e sao excluidas da avaliacao.
Como sao avaliados os modelos
Todos os modelos sao avaliados segundo um protocolo padronizado zero-shot, o que significa que nao recebem exemplos previos nem treino especifico para o exame.
Na avaliacao zero-shot, o modelo recebe cada pergunta de forma isolada, sem exemplos previos (few-shot) nem instrucoes de treino especificas para o MIR.
Preparacao do prompt
Cada pergunta e formatada com um prompt padronizado que inclui o enunciado, as opcoes de resposta e uma instrucao clara para selecionar uma unica opcao.
Envio ao modelo
A pergunta e enviada a API do modelo sem contexto adicional, exemplos previos nem system prompts especializados.
Extracao da resposta
A resposta do modelo e analisada para extrair a opcao selecionada (A, B, C ou D) utilizando multiplos metodos de parsing.
Calculo de metricas
Sao registados a resposta, tokens utilizados, tempo de resposta, custo e calcula-se a pontuacao segundo o sistema oficial do MIR.
Publicacao de resultados
Os resultados sao publicados na plataforma com total transparencia: cada resposta individual e verificavel.
Compreender os resultados
Cada modelo avaliado tem um perfil completo com multiplas metricas. Aqui explicamos como interpretar cada uma.
Accuracy (Precisao)
Percentagem de perguntas respondidas corretamente sobre o total de perguntas validas. E a metrica mais intuitiva: 80% significa que o modelo acertou 8 em cada 10 perguntas.
Liquidas (Netas)
Pontuacao oficial do MIR que tem em conta a penalizacao por respostas incorretas. Reflete melhor o desempenho real do que a accuracy pura.
Score (Pontuacao)
Pontuacao final calculada como 3 x Liquidas. E a metrica utilizada oficialmente para ordenar os candidatos do MIR.
Perguntas discriminatorias
Perguntas em que os modelos Frontier (de maior desempenho) nao concordam na resposta correta. Sao especialmente uteis para analisar as fronteiras do conhecimento da IA.
Tokens
Quantidade de texto processado (entrada) e gerado (saida) pelo modelo, medido em tokens. Influencia diretamente o custo.
Custo
Custo estimado em USD de avaliar o modelo em todo o exame, com base nos precos publicos de cada API.
Especialidades medicas
As perguntas do MIR abrangem mais de 30 especialidades medicas. Cada pergunta esta classificada por especialidade, permitindo analisar o desempenho dos modelos por area de conhecimento.
Pode filtrar os resultados por especialidade na pagina de detalhe de cada modelo.
Tipos de perguntas
Cada pergunta do MIR esta classificada segundo o tipo de raciocinio clinico que requer. Os 14 tipos refletem as competencias avaliadas na formacao medica.
A desagregacao por tipo de pergunta esta disponivel no perfil de cada modelo.
Integridade dos dados
A fiabilidade de um benchmark depende da integridade dos seus dados. Tomamos medidas especificas para garantir avaliacoes justas e nao contaminadas.
O MIR 2026 e o nosso benchmark virgem: nenhum modelo foi treinado com estas perguntas, uma vez que foram publicadas apos as suas datas de corte de treino.
Sem contaminacao
Os exames mais recentes nao estavam disponiveis durante o treino dos modelos, eliminando o risco de memorizacao.
Comparacao justa
Todos os modelos recebem exatamente o mesmo prompt, nas mesmas condicoes, sem vantagens para qualquer fornecedor.
Reprodutibilidade
Publicamos os prompts, respostas e configuracoes exatas para que qualquer investigador possa reproduzir os nossos resultados.
Como utilizar a plataforma
O MedicalBenchmark oferece multiplas formas de explorar e analisar os dados de avaliacao de IA medica.
Explorar rankings
Consulte a classificacao completa de modelos por exame. Filtre por tipo de modelo, ordene por diferentes metricas e compare resultados.
Ver rankingsVer perguntas do exame
Explore as perguntas do MIR e observe como cada modelo respondeu. Identifique padroes de erro e perguntas especialmente dificeis para a IA.
Ver examesComparar modelos
Aceda ao perfil detalhado de cada modelo para ver o seu desempenho desagregado por especialidade, tipo de pergunta e metricas de eficiencia.
Ver rankingsAceder aos dados
Descarregue datasets completos para investigacao ou solicite acesso a API para integrar os dados nas suas proprias ferramentas de analise.
Ver datasetsGlossario
Definicoes dos termos-chave utilizados na plataforma.
- Accuracy (Precisao)
- Percentagem de respostas corretas sobre o total de perguntas validas do exame.
- Liquidas (Netas)
- Metrica oficial do MIR. Calcula-se como: Acertos - (Erros / 3). Reflete o desempenho real penalizando respostas incorretas.
- Score (Pontuacao)
- Pontuacao final do MIR, calculada como 3 x Liquidas. E a metrica utilizada para ordenar candidatos.
- Zero-shot
- Metodo de avaliacao em que o modelo nao recebe exemplos previos nem treino especifico para a tarefa. A pergunta e-lhe apresentada diretamente.
- MIR
- Medico Interno Residente. Exame nacional de Espanha para aceder a formacao medica especializada.
- Prompt
- Texto de entrada enviado ao modelo de IA. No nosso caso, inclui a pergunta do MIR formatada com as suas opcoes de resposta.
- Token
- Unidade minima de texto processada pelos modelos de linguagem. Equivale aproximadamente a 3/4 de uma palavra em portugues.
- Frontier (modelo)
- Modelos de IA de ultima geracao com o maior desempenho. Incluem modelos como GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, etc.
- Multimodal
- Capacidade de um modelo para processar tanto texto como imagens. Relevante para perguntas do MIR que incluem imagens clinicas.
- Perguntas discriminatorias
- Perguntas em que os modelos de IA de maior desempenho (Frontier) nao concordam na resposta correta.
- Benchmark virgem
- Exame cujas perguntas nao existiam durante o treino dos modelos avaliados, garantindo zero contaminacao de dados.
- Codigo aberto (Open Source)
- Modelos cujo codigo e pesos estao disponiveis publicamente para descarregamento e utilizacao livre.
- API
- Interface de programacao que permite aceder aos dados do MedicalBenchmark de forma programatica.
Perguntas frequentes
Respostas as duvidas mais comuns sobre o MedicalBenchmark.
Os resultados sao fiaveis?
Sim. Cada avaliacao segue um protocolo padronizado e reprodutivel. Publicamos todas as respostas individuais para que qualquer investigador possa verificar os resultados. Alem disso, os nossos dados foram validados em publicacoes cientificas revistas por pares.
Com que frequencia sao atualizados os rankings?
Os rankings sao atualizados continuamente a medida que avaliamos novos modelos ou sao publicadas novas versoes. Cada convocatoria do MIR e adicionada quando o Ministerio da Saude publica oficialmente as perguntas e respostas.
Porque utilizam o MIR e nao outros exames?
O MIR e o exame medico mais importante de Espanha, com perguntas concebidas por especialistas e validadas estatisticamente. E publico, padronizado e abrange todo o espetro da medicina. Alem disso, sendo em espanhol, permite avaliar modelos num idioma diferente do ingles.
Que modelos estao incluidos?
Avaliamos mais de 280 modelos, incluindo modelos proprietarios (GPT-4, Claude, Gemini, etc.) e de codigo aberto (LLaMA, Mistral, Qwen, etc.). Qualquer pessoa pode propor um modelo para avaliacao.
Posso descarregar os dados?
Sim. Oferecemos datasets completos na pagina de Datasets, incluindo perguntas, respostas de cada modelo e metricas detalhadas. Para acesso programatico, tambem dispomos de uma API.
Em que se diferencia de outros benchmarks medicos?
O MedicalBenchmark distingue-se por utilizar exames oficiais reais (nao sinteticos), avaliar em espanhol, incluir o sistema de pontuacao oficial do MIR com penalizacao, e oferecer um benchmark virgem com exames nao contaminados.
Como posso contribuir ou colaborar?
Pode propor modelos para avaliacao, reportar erros, sugerir melhorias ou colaborar em investigacao. Visite a nossa pagina de contacto para mais informacoes.
Quanto custa utilizar o MedicalBenchmark?
A plataforma e completamente gratuita. Todos os dados, rankings e analises estao disponiveis de forma aberta. Acreditamos que a transparencia na avaliacao de IA medica beneficia toda a comunidade.
Pronto para explorar?
Consulte os rankings de modelos de IA em exames MIR e descubra como se comportam na medicina.