MedicalBenchmark

Rigor científico y transparencia en la evaluación de IA médica

Metodología de Evaluación

Nuestra metodología garantiza una evaluación justa, reproducible y científicamente rigurosa de los modelos de inteligencia artificial en el ámbito médico. Utilizamos el examen MIR oficial de España como referencia estandarizada.

¿Qué es el examen MIR?

El MIR (Médico Interno Residente) es la prueba nacional que deben superar los graduados en Medicina para acceder a la formación sanitaria especializada en España. Es el estándar de oro para evaluar conocimientos médicos a nivel profesional.

200 preguntas oficiales

Más 10 preguntas de reserva por si alguna es anulada

4 opciones por pregunta

Una sola respuesta correcta, tres distractores

Prueba nacional unificada

Idéntica para todos los candidatos en toda España

Elaborada por expertos

Comisión de especialistas del Ministerio de Sanidad

MIR 2026: Un Benchmark Virgen

El examen MIR 2026 representa una oportunidad única en la evaluación de modelos de IA: fue publicado DESPUÉS de la fecha de corte de entrenamiento de todos los modelos evaluados.

Esto significa que ningún modelo pudo haber visto estas preguntas durante su entrenamiento, garantizando una evaluación zero-shot real.

Sin contaminación de entrenamiento

Las preguntas del MIR 2026 no existían cuando los modelos fueron entrenados

Evaluación zero-shot real

Los modelos responden sin haber visto nunca las preguntas previamente

Comparación justa entre modelos

Todos los modelos parten de las mismas condiciones iniciales

Sistema de Puntuación Oficial

Utilizamos el sistema de puntuación oficial del examen MIR, diseñado para penalizar las respuestas incorrectas y desincentivar las respuestas al azar.

Respuesta correcta

+3 puntos

Respuesta incorrecta

-1 punto

Respuesta en blanco

0 puntos

Netas = Aciertos - (Fallos / 3)

Netas = Aciertos - (Fallos / 3)

La fórmula de 'netas' equilibra el riesgo de responder incorrectamente. Por cada 3 fallos, se pierde el equivalente a 1 acierto.

Puntuación = 3 x Netas

Score = 3 x Netas

Las preguntas anuladas oficialmente no se contabilizan en la puntuación.

Protocolo de Evaluación

Seguimos un protocolo estandarizado para garantizar la reproducibilidad y comparabilidad de los resultados.

1

Preparación del Prompt

Cada pregunta se contextualiza con un prompt específico que sitúa al modelo en el rol de médico residente español realizando el examen MIR.

2

Envío de la Pregunta

La pregunta se envía en formato XML estructurado, incluyendo el enunciado, las opciones de respuesta e imágenes si las hay.

3

Procesamiento de Respuesta

El modelo genera su respuesta con razonamiento clínico completo y selecciona una opción.

4

Extracción Estandarizada

Un sistema automatizado extrae la opción elegida del texto de respuesta, manejando diferentes formatos.

5

Cálculo de Puntuación

Se aplica el sistema de puntuación oficial MIR y se registran todas las métricas.

Diseño del Prompt

El prompt está diseñado para contextualizar al modelo en el sistema sanitario español y en la situación específica del examen MIR.

Prompt Template
Eres un médico residente español realizando el examen MIR.
    Analiza la siguiente pregunta y proporciona tu respuesta.
    <pregunta>
    {enunciado}
    </pregunta>
    <opciones>
    A) {opcion_a}
    B) {opcion_b}
    C) {opcion_c}
    D) {opcion_d}
    </opciones>
    Razona tu respuesta y al final indica claramente tu elección
    con el formato: "Mi respuesta es: [letra]"

Razonamiento del diseño:

  • Contexto español: referencia explícita al sistema sanitario español
  • Rol definido: el modelo actúa como médico residente realizando el examen
  • Instrucciones claras: formato de respuesta especificado para facilitar la extracción
  • Sin pistas adicionales: el modelo solo recibe la información de la pregunta

Extracción de Respuestas

Utilizamos un sistema robusto de extracción para identificar la opción elegida por cada modelo, independientemente de las variaciones en el formato de respuesta.

Modelo secundario de parsing

Un modelo especializado analiza la respuesta y extrae la opción elegida

Patrones de búsqueda

Expresiones regulares buscan frases clave como 'Mi respuesta es:', 'La opción correcta es:', etc.

Sistema de reintentos

Si la extracción falla, se solicita al modelo que clarifique su respuesta

Nivel de confianza

Se registra la confianza en la extracción para cada respuesta

Soporte Multimodal

El examen MIR incluye preguntas con imágenes médicas (radiografías, ECGs, cortes histológicos, etc.). Nuestro sistema detecta y gestiona automáticamente estas preguntas.

Detección automática

El sistema identifica qué modelos tienen capacidad de visión

Envío de imágenes

Las imágenes médicas se envían junto con el texto de la pregunta

Modelos solo-texto

Para modelos sin visión, se indica que la pregunta contiene una imagen no disponible

Métricas separadas

Se registran métricas específicas para preguntas con y sin imágenes

Métricas Capturadas

Registramos múltiples métricas para cada respuesta, permitiendo un análisis detallado del rendimiento de cada modelo.

Tiempo de respuesta

Latencia total desde el envío hasta la respuesta completa (ms)

Tokens de entrada

Número de tokens en el prompt enviado al modelo

Tokens de salida

Número de tokens generados en la respuesta

Tokens de razonamiento

Tokens utilizados en el proceso de razonamiento (si aplica)

Coste por consulta

Coste estimado en USD basado en los precios de la API

Nivel de confianza

Confianza del modelo en su respuesta (si está disponible)

Transparencia y Reproducibilidad

Nos comprometemos con la transparencia total en nuestra metodología. Cualquier investigador puede verificar y reproducir nuestros resultados.

Metodología documentada

Todos los detalles del proceso de evaluación están documentados públicamente

Datos de entrada públicos

Las preguntas del MIR son documentos públicos del Ministerio

Respuestas verificables

Las respuestas de los modelos se almacenan para verificación posterior

Código abierto

El código de evaluación estará disponible para inspección y reproducción

Explora los Resultados

Consulta el rendimiento detallado de cada modelo en las preguntas del MIR 2026.