MedicalBenchmark

Rigor cientifico e transparencia na avaliacao de IA medica

Metodologia de Avaliacao

A nossa metodologia garante uma avaliacao justa, reprodutivel e cientificamente rigorosa dos modelos de inteligencia artificial no ambito medico. Utilizamos o exame MIR oficial de Espanha como referencia padronizada.

O que e o exame MIR?

O MIR (Medico Interno Residente) e a prova nacional que os licenciados em Medicina devem superar para aceder a formacao sanitaria especializada em Espanha. E o padrao de excelencia para avaliar conhecimentos medicos a nivel profissional.

200 perguntas oficiais

Mais 10 perguntas de reserva caso alguma seja anulada

4 opcoes por pergunta

Uma unica resposta correta, tres distratores

Prova nacional unificada

Identica para todos os candidatos em toda a Espanha

Elaborada por especialistas

Comissao de especialistas do Ministerio da Saude

MIR 2026: Um Benchmark Virgem

O exame MIR 2026 representa uma oportunidade unica na avaliacao de modelos de IA: foi publicado APOS a data de corte de treino de todos os modelos avaliados.

Isto significa que nenhum modelo pode ter visto estas perguntas durante o seu treino, garantindo uma avaliacao zero-shot real.

Sem contaminacao de treino

As perguntas do MIR 2026 nao existiam quando os modelos foram treinados

Avaliacao zero-shot real

Os modelos respondem sem nunca terem visto as perguntas previamente

Comparacao justa entre modelos

Todos os modelos partem das mesmas condicoes iniciais

Sistema de Pontuacao Oficial

Utilizamos o sistema de pontuacao oficial do exame MIR, concebido para penalizar as respostas incorretas e desincentivar as respostas ao acaso.

Resposta correta

+3 pontos

Resposta incorreta

-1 ponto

Resposta em branco

0 pontos

Liquidas = Acertos - (Erros / 3)

Netas = Aciertos - (Fallos / 3)

A formula de 'liquidas' equilibra o risco de responder incorretamente. Por cada 3 erros, perde-se o equivalente a 1 acerto.

Pontuacao = 3 x Liquidas

Score = 3 x Netas

As perguntas oficialmente anuladas nao sao contabilizadas na pontuacao.

Protocolo de Avaliacao

Seguimos um protocolo padronizado para garantir a reprodutibilidade e comparabilidade dos resultados.

1

Preparacao do Prompt

Cada pergunta e contextualizada com um prompt especifico que coloca o modelo no papel de medico residente espanhol a realizar o exame MIR.

2

Envio da Pergunta

A pergunta e enviada em formato XML estruturado, incluindo o enunciado, as opcoes de resposta e imagens, se existirem.

3

Processamento da Resposta

O modelo gera a sua resposta com raciocinio clinico completo e seleciona uma opcao.

4

Extracao Padronizada

Um sistema automatizado extrai a opcao escolhida do texto de resposta, tratando diferentes formatos.

5

Calculo da Pontuacao

Aplica-se o sistema de pontuacao oficial MIR e registam-se todas as metricas.

Concepcao do Prompt

O prompt esta concebido para contextualizar o modelo no sistema de saude espanhol e na situacao especifica do exame MIR.

Prompt Template
Es um medico residente espanhol a realizar o exame MIR.
    Analisa a seguinte pergunta e fornece a tua resposta.
    <pergunta>
    {enunciado}
    </pergunta>
    <opcoes>
    A) {opcao_a}
    B) {opcao_b}
    C) {opcao_c}
    D) {opcao_d}
    </opcoes>
    Fundamenta a tua resposta e no final indica claramente a tua escolha
    com o formato: "A minha resposta e: [letra]"

Fundamentacao da concepcao:

  • Contexto espanhol: referencia explicita ao sistema de saude espanhol
  • Papel definido: o modelo atua como medico residente a realizar o exame
  • Instrucoes claras: formato de resposta especificado para facilitar a extracao
  • Sem pistas adicionais: o modelo recebe apenas a informacao da pergunta

Extracao de Respostas

Utilizamos um sistema robusto de extracao para identificar a opcao escolhida por cada modelo, independentemente das variacoes no formato de resposta.

Modelo secundario de parsing

Um modelo especializado analisa a resposta e extrai a opcao escolhida

Padroes de pesquisa

Expressoes regulares procuram frases-chave como 'A minha resposta e:', 'A opcao correta e:', etc.

Sistema de tentativas

Se a extracao falhar, solicita-se ao modelo que clarifique a sua resposta

Nivel de confianca

Regista-se a confianca na extracao para cada resposta

Suporte Multimodal

O exame MIR inclui perguntas com imagens medicas (radiografias, ECGs, cortes histologicos, etc.). O nosso sistema deteta e gere automaticamente estas perguntas.

Detecao automatica

O sistema identifica quais modelos possuem capacidade de visao

Envio de imagens

As imagens medicas sao enviadas juntamente com o texto da pergunta

Modelos apenas-texto

Para modelos sem visao, indica-se que a pergunta contem uma imagem nao disponivel

Metricas separadas

Registam-se metricas especificas para perguntas com e sem imagens

Metricas Capturadas

Registamos multiplas metricas para cada resposta, permitindo uma analise detalhada do desempenho de cada modelo.

Tempo de resposta

Latencia total desde o envio ate a resposta completa (ms)

Tokens de entrada

Numero de tokens no prompt enviado ao modelo

Tokens de saida

Numero de tokens gerados na resposta

Tokens de raciocinio

Tokens utilizados no processo de raciocinio (se aplicavel)

Custo por consulta

Custo estimado em USD com base nos precos da API

Nivel de confianca

Confianca do modelo na sua resposta (se disponivel)

Transparencia e Reprodutibilidade

Comprometemo-nos com a transparencia total na nossa metodologia. Qualquer investigador pode verificar e reproduzir os nossos resultados.

Metodologia documentada

Todos os detalhes do processo de avaliacao estao documentados publicamente

Dados de entrada publicos

As perguntas do MIR sao documentos publicos do Ministerio

Respostas verificaveis

As respostas dos modelos sao armazenadas para verificacao posterior

Codigo aberto

O codigo de avaliacao estara disponivel para inspecao e reproducao

Explore os Resultados

Consulte o desempenho detalhado de cada modelo nas perguntas do MIR 2026.