Metodologia de Avaliacao
O que e o exame MIR?
O MIR (Medico Interno Residente) e a prova nacional que os licenciados em Medicina devem superar para aceder a formacao sanitaria especializada em Espanha. E o padrao de excelencia para avaliar conhecimentos medicos a nivel profissional.
200 perguntas oficiais
Mais 10 perguntas de reserva caso alguma seja anulada
4 opcoes por pergunta
Uma unica resposta correta, tres distratores
Prova nacional unificada
Identica para todos os candidatos em toda a Espanha
Elaborada por especialistas
Comissao de especialistas do Ministerio da Saude
MIR 2026: Um Benchmark Virgem
O exame MIR 2026 representa uma oportunidade unica na avaliacao de modelos de IA: foi publicado APOS a data de corte de treino de todos os modelos avaliados.
Isto significa que nenhum modelo pode ter visto estas perguntas durante o seu treino, garantindo uma avaliacao zero-shot real.
Sem contaminacao de treino
As perguntas do MIR 2026 nao existiam quando os modelos foram treinados
Avaliacao zero-shot real
Os modelos respondem sem nunca terem visto as perguntas previamente
Comparacao justa entre modelos
Todos os modelos partem das mesmas condicoes iniciais
Sistema de Pontuacao Oficial
Utilizamos o sistema de pontuacao oficial do exame MIR, concebido para penalizar as respostas incorretas e desincentivar as respostas ao acaso.
Resposta correta
+3 pontos
Resposta incorreta
-1 ponto
Resposta em branco
0 pontos
Liquidas = Acertos - (Erros / 3)
A formula de 'liquidas' equilibra o risco de responder incorretamente. Por cada 3 erros, perde-se o equivalente a 1 acerto.
Pontuacao = 3 x Liquidas
As perguntas oficialmente anuladas nao sao contabilizadas na pontuacao.
Protocolo de Avaliacao
Seguimos um protocolo padronizado para garantir a reprodutibilidade e comparabilidade dos resultados.
Preparacao do Prompt
Cada pergunta e contextualizada com um prompt especifico que coloca o modelo no papel de medico residente espanhol a realizar o exame MIR.
Envio da Pergunta
A pergunta e enviada em formato XML estruturado, incluindo o enunciado, as opcoes de resposta e imagens, se existirem.
Processamento da Resposta
O modelo gera a sua resposta com raciocinio clinico completo e seleciona uma opcao.
Extracao Padronizada
Um sistema automatizado extrai a opcao escolhida do texto de resposta, tratando diferentes formatos.
Calculo da Pontuacao
Aplica-se o sistema de pontuacao oficial MIR e registam-se todas as metricas.
Concepcao do Prompt
O prompt esta concebido para contextualizar o modelo no sistema de saude espanhol e na situacao especifica do exame MIR.
Es um medico residente espanhol a realizar o exame MIR.
Analisa a seguinte pergunta e fornece a tua resposta.
<pergunta>
{enunciado}
</pergunta>
<opcoes>
A) {opcao_a}
B) {opcao_b}
C) {opcao_c}
D) {opcao_d}
</opcoes>
Fundamenta a tua resposta e no final indica claramente a tua escolha
com o formato: "A minha resposta e: [letra]"Fundamentacao da concepcao:
- Contexto espanhol: referencia explicita ao sistema de saude espanhol
- Papel definido: o modelo atua como medico residente a realizar o exame
- Instrucoes claras: formato de resposta especificado para facilitar a extracao
- Sem pistas adicionais: o modelo recebe apenas a informacao da pergunta
Extracao de Respostas
Utilizamos um sistema robusto de extracao para identificar a opcao escolhida por cada modelo, independentemente das variacoes no formato de resposta.
Modelo secundario de parsing
Um modelo especializado analisa a resposta e extrai a opcao escolhida
Padroes de pesquisa
Expressoes regulares procuram frases-chave como 'A minha resposta e:', 'A opcao correta e:', etc.
Sistema de tentativas
Se a extracao falhar, solicita-se ao modelo que clarifique a sua resposta
Nivel de confianca
Regista-se a confianca na extracao para cada resposta
Suporte Multimodal
O exame MIR inclui perguntas com imagens medicas (radiografias, ECGs, cortes histologicos, etc.). O nosso sistema deteta e gere automaticamente estas perguntas.
Detecao automatica
O sistema identifica quais modelos possuem capacidade de visao
Envio de imagens
As imagens medicas sao enviadas juntamente com o texto da pergunta
Modelos apenas-texto
Para modelos sem visao, indica-se que a pergunta contem uma imagem nao disponivel
Metricas separadas
Registam-se metricas especificas para perguntas com e sem imagens
Metricas Capturadas
Registamos multiplas metricas para cada resposta, permitindo uma analise detalhada do desempenho de cada modelo.
Tempo de resposta
Latencia total desde o envio ate a resposta completa (ms)
Tokens de entrada
Numero de tokens no prompt enviado ao modelo
Tokens de saida
Numero de tokens gerados na resposta
Tokens de raciocinio
Tokens utilizados no processo de raciocinio (se aplicavel)
Custo por consulta
Custo estimado em USD com base nos precos da API
Nivel de confianca
Confianca do modelo na sua resposta (se disponivel)
Transparencia e Reprodutibilidade
Comprometemo-nos com a transparencia total na nossa metodologia. Qualquer investigador pode verificar e reproduzir os nossos resultados.
Metodologia documentada
Todos os detalhes do processo de avaliacao estao documentados publicamente
Dados de entrada publicos
As perguntas do MIR sao documentos publicos do Ministerio
Respostas verificaveis
As respostas dos modelos sao armazenadas para verificacao posterior
Codigo aberto
O codigo de avaliacao estara disponivel para inspecao e reproducao
Explore os Resultados
Consulte o desempenho detalhado de cada modelo nas perguntas do MIR 2026.