Metodología de Evaluación
¿Qué es el examen MIR?
El MIR (Médico Interno Residente) es la prueba nacional que deben superar los graduados en Medicina para acceder a la formación sanitaria especializada en España. Es el estándar de oro para evaluar conocimientos médicos a nivel profesional.
200 preguntas oficiales
Más 10 preguntas de reserva por si alguna es anulada
4 opciones por pregunta
Una sola respuesta correcta, tres distractores
Prueba nacional unificada
Idéntica para todos los candidatos en toda España
Elaborada por expertos
Comisión de especialistas del Ministerio de Sanidad
MIR 2026: Un Benchmark Virgen
El examen MIR 2026 representa una oportunidad única en la evaluación de modelos de IA: fue publicado DESPUÉS de la fecha de corte de entrenamiento de todos los modelos evaluados.
Esto significa que ningún modelo pudo haber visto estas preguntas durante su entrenamiento, garantizando una evaluación zero-shot real.
Sin contaminación de entrenamiento
Las preguntas del MIR 2026 no existían cuando los modelos fueron entrenados
Evaluación zero-shot real
Los modelos responden sin haber visto nunca las preguntas previamente
Comparación justa entre modelos
Todos los modelos parten de las mismas condiciones iniciales
Sistema de Puntuación Oficial
Utilizamos el sistema de puntuación oficial del examen MIR, diseñado para penalizar las respuestas incorrectas y desincentivar las respuestas al azar.
Respuesta correcta
+3 puntos
Respuesta incorrecta
-1 punto
Respuesta en blanco
0 puntos
Netas = Aciertos - (Fallos / 3)
La fórmula de 'netas' equilibra el riesgo de responder incorrectamente. Por cada 3 fallos, se pierde el equivalente a 1 acierto.
Puntuación = 3 x Netas
Las preguntas anuladas oficialmente no se contabilizan en la puntuación.
Protocolo de Evaluación
Seguimos un protocolo estandarizado para garantizar la reproducibilidad y comparabilidad de los resultados.
Preparación del Prompt
Cada pregunta se contextualiza con un prompt específico que sitúa al modelo en el rol de médico residente español realizando el examen MIR.
Envío de la Pregunta
La pregunta se envía en formato XML estructurado, incluyendo el enunciado, las opciones de respuesta e imágenes si las hay.
Procesamiento de Respuesta
El modelo genera su respuesta con razonamiento clínico completo y selecciona una opción.
Extracción Estandarizada
Un sistema automatizado extrae la opción elegida del texto de respuesta, manejando diferentes formatos.
Cálculo de Puntuación
Se aplica el sistema de puntuación oficial MIR y se registran todas las métricas.
Diseño del Prompt
El prompt está diseñado para contextualizar al modelo en el sistema sanitario español y en la situación específica del examen MIR.
Eres un médico residente español realizando el examen MIR.
Analiza la siguiente pregunta y proporciona tu respuesta.
<pregunta>
{enunciado}
</pregunta>
<opciones>
A) {opcion_a}
B) {opcion_b}
C) {opcion_c}
D) {opcion_d}
</opciones>
Razona tu respuesta y al final indica claramente tu elección
con el formato: "Mi respuesta es: [letra]"Razonamiento del diseño:
- Contexto español: referencia explícita al sistema sanitario español
- Rol definido: el modelo actúa como médico residente realizando el examen
- Instrucciones claras: formato de respuesta especificado para facilitar la extracción
- Sin pistas adicionales: el modelo solo recibe la información de la pregunta
Extracción de Respuestas
Utilizamos un sistema robusto de extracción para identificar la opción elegida por cada modelo, independientemente de las variaciones en el formato de respuesta.
Modelo secundario de parsing
Un modelo especializado analiza la respuesta y extrae la opción elegida
Patrones de búsqueda
Expresiones regulares buscan frases clave como 'Mi respuesta es:', 'La opción correcta es:', etc.
Sistema de reintentos
Si la extracción falla, se solicita al modelo que clarifique su respuesta
Nivel de confianza
Se registra la confianza en la extracción para cada respuesta
Soporte Multimodal
El examen MIR incluye preguntas con imágenes médicas (radiografías, ECGs, cortes histológicos, etc.). Nuestro sistema detecta y gestiona automáticamente estas preguntas.
Detección automática
El sistema identifica qué modelos tienen capacidad de visión
Envío de imágenes
Las imágenes médicas se envían junto con el texto de la pregunta
Modelos solo-texto
Para modelos sin visión, se indica que la pregunta contiene una imagen no disponible
Métricas separadas
Se registran métricas específicas para preguntas con y sin imágenes
Métricas Capturadas
Registramos múltiples métricas para cada respuesta, permitiendo un análisis detallado del rendimiento de cada modelo.
Tiempo de respuesta
Latencia total desde el envío hasta la respuesta completa (ms)
Tokens de entrada
Número de tokens en el prompt enviado al modelo
Tokens de salida
Número de tokens generados en la respuesta
Tokens de razonamiento
Tokens utilizados en el proceso de razonamiento (si aplica)
Coste por consulta
Coste estimado en USD basado en los precios de la API
Nivel de confianza
Confianza del modelo en su respuesta (si está disponible)
Transparencia y Reproducibilidad
Nos comprometemos con la transparencia total en nuestra metodología. Cualquier investigador puede verificar y reproducir nuestros resultados.
Metodología documentada
Todos los detalles del proceso de evaluación están documentados públicamente
Datos de entrada públicos
Las preguntas del MIR son documentos públicos del Ministerio
Respuestas verificables
Las respuestas de los modelos se almacenan para verificación posterior
Código abierto
El código de evaluación estará disponible para inspección y reproducción
Explora los Resultados
Consulta el rendimiento detallado de cada modelo en las preguntas del MIR 2026.