MedicalBenchmark

Rigor cientifico e transparencia na avaliacion de IA medica

Metodoloxia de Avaliacion

A nosa metodoloxia garante unha avaliacion xusta, reproducible e cientificamente rigorosa dos modelos de intelixencia artificial no ambito medico. Utilizamos o exame MIR oficial de Espana como referencia estandarizada.

Que e o exame MIR?

O MIR (Medico Interno Residente) e a proba nacional que deben superar os graduados en Medicina para acceder a formacion sanitaria especializada en Espana. E o estandar de ouro para avaliar conecementos medicos a nivel profesional.

200 preguntas oficiais

Mais 10 preguntas de reserva por se algunha e anulada

4 opcions por pregunta

Unha soa resposta correcta, tres distractores

Proba nacional unificada

Identica para todos os candidatos en toda Espana

Elaborada por expertos

Comision de especialistas do Ministerio de Sanidade

MIR 2026: Un Benchmark Virxe

O exame MIR 2026 representa unha oportunidade unica na avaliacion de modelos de IA: foi publicado DESPOIS da data de corte de adestramento de todos os modelos avaliados.

Isto significa que ningun modelo puido ter visto estas preguntas durante o seu adestramento, garantindo unha avaliacion zero-shot real.

Sen contaminacion de adestramento

As preguntas do MIR 2026 non existian cando os modelos foron adestrados

Avaliacion zero-shot real

Os modelos responden sen ter visto nunca as preguntas previamente

Comparacion xusta entre modelos

Todos os modelos parten das mesmas condicions iniciais

Sistema de Puntuacion Oficial

Utilizamos o sistema de puntuacion oficial do exame MIR, desenado para penalizar as respostas incorrectas e desincentivar as respostas ao chou.

Resposta correcta

+3 puntos

Resposta incorrecta

-1 punto

Resposta en branco

0 puntos

Netas = Acertos - (Fallos / 3)

Netas = Aciertos - (Fallos / 3)

A formula de 'netas' equilibra o risco de responder incorrectamente. Por cada 3 fallos, perdese o equivalente a 1 acerto.

Puntuacion = 3 x Netas

Score = 3 x Netas

As preguntas anuladas oficialmente non se contabilizan na puntuacion.

Protocolo de Avaliacion

Seguimos un protocolo estandarizado para garantir a reproducibilidade e comparabilidade dos resultados.

1

Preparacion do Prompt

Cada pregunta contextualizada cun prompt especifico que situa o modelo no rol de medico residente espanol realizando o exame MIR.

2

Envio da Pregunta

A pregunta enviase en formato XML estruturado, incluindo o enunciado, as opcions de resposta e imaxes se as hai.

3

Procesamento de Resposta

O modelo xera a sua resposta con razoamento clinico completo e selecciona unha opcion.

4

Extraccion Estandarizada

Un sistema automatizado extrae a opcion elixida do texto de resposta, manexando diferentes formatos.

5

Calculo de Puntuacion

Aplicase o sistema de puntuacion oficial MIR e rexistranse todas as metricas.

Deseno do Prompt

O prompt esta desenado para contextualizar o modelo no sistema sanitario espanol e na situacion especifica do exame MIR.

Prompt Template
Es un medico residente espanol realizando o exame MIR.
    Analiza a seguinte pregunta e proporciona a tua resposta.
    <pregunta>
    {enunciado}
    </pregunta>
    <opcions>
    A) {opcion_a}
    B) {opcion_b}
    C) {opcion_c}
    D) {opcion_d}
    </opcions>
    Razona a tua resposta e ao final indica claramente a tua eleccion
    co formato: "A mina resposta e: [letra]"

Razoamento do deseno:

  • Contexto espanol: referencia explicita ao sistema sanitario espanol
  • Rol definido: o modelo actua como medico residente realizando o exame
  • Instruccions claras: formato de resposta especificado para facilitar a extraccion
  • Sen pistas adicionais: o modelo so recibe a informacion da pregunta

Extraccion de Respostas

Utilizamos un sistema robusto de extraccion para identificar a opcion elixida por cada modelo, independentemente das variacions no formato de resposta.

Modelo secundario de parsing

Un modelo especializado analiza a resposta e extrae a opcion elixida

Patrons de busca

Expresions regulares buscan frases clave como 'A mina resposta e:', 'A opcion correcta e:', etc.

Sistema de reintentos

Se a extraccion falla, solicitase ao modelo que clarifique a sua resposta

Nivel de confianza

Rexistrase a confianza na extraccion para cada resposta

Soporte Multimodal

O exame MIR inclue preguntas con imaxes medicas (radiografias, ECGs, cortes histoloxicos, etc.). O noso sistema detecta e xestiona automaticamente estas preguntas.

Deteccion automatica

O sistema identifica que modelos tenen capacidade de vision

Envio de imaxes

As imaxes medicas envianse xunto co texto da pregunta

Modelos so-texto

Para modelos sen vision, indicase que a pregunta conten unha imaxe non disponible

Metricas separadas

Rexistranse metricas especificas para preguntas con e sen imaxes

Metricas Capturadas

Rexistramos multiples metricas para cada resposta, permitindo unha analise detallada do rendemento de cada modelo.

Tempo de resposta

Latencia total dende o envio ata a resposta completa (ms)

Tokens de entrada

Numero de tokens no prompt enviado ao modelo

Tokens de saida

Numero de tokens xerados na resposta

Tokens de razoamento

Tokens utilizados no proceso de razoamento (se aplica)

Custo por consulta

Custo estimado en USD baseado nos prezos da API

Nivel de confianza

Confianza do modelo na sua resposta (se esta disponible)

Transparencia e Reproducibilidade

Comprometemonos coa transparencia total na nosa metodoloxia. Calquera investigador pode verificar e reproducir os nosos resultados.

Metodoloxia documentada

Todos os detalles do proceso de avaliacion estan documentados publicamente

Datos de entrada publicos

As preguntas do MIR son documentos publicos do Ministerio

Respostas verificables

As respostas dos modelos almacenanse para verificacion posterior

Codigo aberto

O codigo de avaliacion estara disponible para inspeccion e reproduccion

Explora os Resultados

Consulta o rendemento detallado de cada modelo nas preguntas do MIR 2026.