MedicalBenchmark

O seu guia completo do MedicalBenchmark

Documentacao

Tudo o que precisa de saber sobre como avaliamos modelos de IA em exames medicos oficiais de Espanha. Guia destinado a investigadores e profissionais de saude.

O que e o MedicalBenchmark

O MedicalBenchmark e uma plataforma independente de avaliacao que mede o desempenho de modelos de inteligencia artificial em exames medicos oficiais de Espanha, principalmente o MIR.

A nossa missao e fornecer dados objetivos, reprodutiveis e de acesso livre para que investigadores, profissionais de saude e programadores possam compreender as capacidades reais da IA na medicina.

Avaliacao independente

Sem afiliacao a qualquer fornecedor de IA. Avaliamos todos os modelos com o mesmo protocolo padronizado.

Exames oficiais

Utilizamos perguntas reais do MIR publicadas pelo Ministerio da Saude de Espanha.

+280 modelos de IA

A base de dados mais completa de avaliacoes de IA medica em espanhol, incluindo modelos proprietarios e de codigo aberto.

Dados abertos

Todos os resultados, respostas e metricas estao disponiveis publicamente para fomentar a investigacao aberta.

O exame MIR

O MIR (Medico Interno Residente) e o exame nacional de Espanha para aceder a formacao medica especializada. E uma prova padronizada, publica e altamente competitiva.

Cada convocatoria do MIR e composta por 200 perguntas validas mais 10 de reserva (210 no total). Cada pergunta tem 4 opcoes de resposta, das quais apenas uma e correta.

Sistema de pontuacao

Resposta correta

+3 pontos

Resposta incorreta

-1 ponto

Resposta em branco

0 pontos

Formula de liquidas

Liquidas = Acertos - (Erros / 3)

As liquidas representam o numero efetivo de perguntas acertadas, descontando a penalizacao por respostas incorretas. E a metrica oficial do MIR.

Algumas perguntas podem ser anuladas apos a publicacao do exame. As perguntas anuladas nao contam para o computo de liquidas e sao excluidas da avaliacao.

Como sao avaliados os modelos

Todos os modelos sao avaliados segundo um protocolo padronizado zero-shot, o que significa que nao recebem exemplos previos nem treino especifico para o exame.

Na avaliacao zero-shot, o modelo recebe cada pergunta de forma isolada, sem exemplos previos (few-shot) nem instrucoes de treino especificas para o MIR.

1

Preparacao do prompt

Cada pergunta e formatada com um prompt padronizado que inclui o enunciado, as opcoes de resposta e uma instrucao clara para selecionar uma unica opcao.

2

Envio ao modelo

A pergunta e enviada a API do modelo sem contexto adicional, exemplos previos nem system prompts especializados.

3

Extracao da resposta

A resposta do modelo e analisada para extrair a opcao selecionada (A, B, C ou D) utilizando multiplos metodos de parsing.

4

Calculo de metricas

Sao registados a resposta, tokens utilizados, tempo de resposta, custo e calcula-se a pontuacao segundo o sistema oficial do MIR.

5

Publicacao de resultados

Os resultados sao publicados na plataforma com total transparencia: cada resposta individual e verificavel.

Compreender os resultados

Cada modelo avaliado tem um perfil completo com multiplas metricas. Aqui explicamos como interpretar cada uma.

Accuracy (Precisao)

Percentagem de perguntas respondidas corretamente sobre o total de perguntas validas. E a metrica mais intuitiva: 80% significa que o modelo acertou 8 em cada 10 perguntas.

Liquidas (Netas)

Pontuacao oficial do MIR que tem em conta a penalizacao por respostas incorretas. Reflete melhor o desempenho real do que a accuracy pura.

Score (Pontuacao)

Pontuacao final calculada como 3 x Liquidas. E a metrica utilizada oficialmente para ordenar os candidatos do MIR.

Perguntas discriminatorias

Perguntas em que os modelos Frontier (de maior desempenho) nao concordam na resposta correta. Sao especialmente uteis para analisar as fronteiras do conhecimento da IA.

Tokens

Quantidade de texto processado (entrada) e gerado (saida) pelo modelo, medido em tokens. Influencia diretamente o custo.

Custo

Custo estimado em USD de avaliar o modelo em todo o exame, com base nos precos publicos de cada API.

Especialidades medicas

As perguntas do MIR abrangem mais de 30 especialidades medicas. Cada pergunta esta classificada por especialidade, permitindo analisar o desempenho dos modelos por area de conhecimento.

AlergologiaAnestesiologia e ReanimaçãoCardiologiaCuidados PaliativosDermatologiaEndocrinologia e NutriçãoDoenças InfecciosasEpidemiologiaEstatísticaFarmacologiaGastrenterologiaGenéticaGeriatriaGinecologia e ObstetríciaHematologiaImunologiaMedicina Legal e BioéticaNefrologiaPneumologiaNeurologiaOftalmologiaOncologia MédicaORLPediatriaPlaneamento e Gestão em SaúdePsiquiatriaRadiologia-UrgênciasReumatologiaTraumatologiaUrologia

Pode filtrar os resultados por especialidade na pagina de detalhe de cada modelo.

Tipos de perguntas

Cada pergunta do MIR esta classificada segundo o tipo de raciocinio clinico que requer. Os 14 tipos refletem as competencias avaliadas na formacao medica.

DiagnósticoTratamentoExamesInterpretaçãoFisiopatologiaRiscoPrevençãoPrognósticoEpidemiologiaBioestatísticaÉticaLegalFarmacologiaAnatomia

A desagregacao por tipo de pergunta esta disponivel no perfil de cada modelo.

Integridade dos dados

A fiabilidade de um benchmark depende da integridade dos seus dados. Tomamos medidas especificas para garantir avaliacoes justas e nao contaminadas.

O MIR 2026 e o nosso benchmark virgem: nenhum modelo foi treinado com estas perguntas, uma vez que foram publicadas apos as suas datas de corte de treino.

Sem contaminacao

Os exames mais recentes nao estavam disponiveis durante o treino dos modelos, eliminando o risco de memorizacao.

Comparacao justa

Todos os modelos recebem exatamente o mesmo prompt, nas mesmas condicoes, sem vantagens para qualquer fornecedor.

Reprodutibilidade

Publicamos os prompts, respostas e configuracoes exatas para que qualquer investigador possa reproduzir os nossos resultados.

Como utilizar a plataforma

O MedicalBenchmark oferece multiplas formas de explorar e analisar os dados de avaliacao de IA medica.

Explorar rankings

Consulte a classificacao completa de modelos por exame. Filtre por tipo de modelo, ordene por diferentes metricas e compare resultados.

Ver rankings

Ver perguntas do exame

Explore as perguntas do MIR e observe como cada modelo respondeu. Identifique padroes de erro e perguntas especialmente dificeis para a IA.

Ver exames

Comparar modelos

Aceda ao perfil detalhado de cada modelo para ver o seu desempenho desagregado por especialidade, tipo de pergunta e metricas de eficiencia.

Ver rankings

Aceder aos dados

Descarregue datasets completos para investigacao ou solicite acesso a API para integrar os dados nas suas proprias ferramentas de analise.

Ver datasets

Glossario

Definicoes dos termos-chave utilizados na plataforma.

Accuracy (Precisao)
Percentagem de respostas corretas sobre o total de perguntas validas do exame.
Liquidas (Netas)
Metrica oficial do MIR. Calcula-se como: Acertos - (Erros / 3). Reflete o desempenho real penalizando respostas incorretas.
Score (Pontuacao)
Pontuacao final do MIR, calculada como 3 x Liquidas. E a metrica utilizada para ordenar candidatos.
Zero-shot
Metodo de avaliacao em que o modelo nao recebe exemplos previos nem treino especifico para a tarefa. A pergunta e-lhe apresentada diretamente.
MIR
Medico Interno Residente. Exame nacional de Espanha para aceder a formacao medica especializada.
Prompt
Texto de entrada enviado ao modelo de IA. No nosso caso, inclui a pergunta do MIR formatada com as suas opcoes de resposta.
Token
Unidade minima de texto processada pelos modelos de linguagem. Equivale aproximadamente a 3/4 de uma palavra em portugues.
Frontier (modelo)
Modelos de IA de ultima geracao com o maior desempenho. Incluem modelos como GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, etc.
Multimodal
Capacidade de um modelo para processar tanto texto como imagens. Relevante para perguntas do MIR que incluem imagens clinicas.
Perguntas discriminatorias
Perguntas em que os modelos de IA de maior desempenho (Frontier) nao concordam na resposta correta.
Benchmark virgem
Exame cujas perguntas nao existiam durante o treino dos modelos avaliados, garantindo zero contaminacao de dados.
Codigo aberto (Open Source)
Modelos cujo codigo e pesos estao disponiveis publicamente para descarregamento e utilizacao livre.
API
Interface de programacao que permite aceder aos dados do MedicalBenchmark de forma programatica.

Perguntas frequentes

Respostas as duvidas mais comuns sobre o MedicalBenchmark.

Os resultados sao fiaveis?

Sim. Cada avaliacao segue um protocolo padronizado e reprodutivel. Publicamos todas as respostas individuais para que qualquer investigador possa verificar os resultados. Alem disso, os nossos dados foram validados em publicacoes cientificas revistas por pares.

Com que frequencia sao atualizados os rankings?

Os rankings sao atualizados continuamente a medida que avaliamos novos modelos ou sao publicadas novas versoes. Cada convocatoria do MIR e adicionada quando o Ministerio da Saude publica oficialmente as perguntas e respostas.

Porque utilizam o MIR e nao outros exames?

O MIR e o exame medico mais importante de Espanha, com perguntas concebidas por especialistas e validadas estatisticamente. E publico, padronizado e abrange todo o espetro da medicina. Alem disso, sendo em espanhol, permite avaliar modelos num idioma diferente do ingles.

Que modelos estao incluidos?

Avaliamos mais de 280 modelos, incluindo modelos proprietarios (GPT-4, Claude, Gemini, etc.) e de codigo aberto (LLaMA, Mistral, Qwen, etc.). Qualquer pessoa pode propor um modelo para avaliacao.

Posso descarregar os dados?

Sim. Oferecemos datasets completos na pagina de Datasets, incluindo perguntas, respostas de cada modelo e metricas detalhadas. Para acesso programatico, tambem dispomos de uma API.

Em que se diferencia de outros benchmarks medicos?

O MedicalBenchmark distingue-se por utilizar exames oficiais reais (nao sinteticos), avaliar em espanhol, incluir o sistema de pontuacao oficial do MIR com penalizacao, e oferecer um benchmark virgem com exames nao contaminados.

Como posso contribuir ou colaborar?

Pode propor modelos para avaliacao, reportar erros, sugerir melhorias ou colaborar em investigacao. Visite a nossa pagina de contacto para mais informacoes.

Quanto custa utilizar o MedicalBenchmark?

A plataforma e completamente gratuita. Todos os dados, rankings e analises estao disponiveis de forma aberta. Acreditamos que a transparencia na avaliacao de IA medica beneficia toda a comunidade.

Pronto para explorar?

Consulte os rankings de modelos de IA em exames MIR e descubra como se comportam na medicina.