MedicalBenchmark

Tu guía completa de MedicalBenchmark

Documentación

Todo lo que necesitas saber sobre cómo evaluamos modelos de IA en exámenes médicos oficiales de España. Guía orientada a investigadores y profesionales de la salud.

Qué es MedicalBenchmark

MedicalBenchmark es una plataforma independiente de evaluación que mide el rendimiento de modelos de inteligencia artificial en exámenes médicos oficiales de España, principalmente el MIR.

Nuestra misión es proporcionar datos objetivos, reproducibles y de libre acceso para que investigadores, profesionales sanitarios y desarrolladores puedan entender las capacidades reales de la IA en medicina.

Evaluación independiente

Sin afiliación a ningún proveedor de IA. Evaluamos todos los modelos con el mismo protocolo estandarizado.

Exámenes oficiales

Utilizamos preguntas reales del MIR publicadas por el Ministerio de Sanidad de España.

+280 modelos de IA

La base de datos más completa de evaluaciones de IA médica en español, incluyendo modelos propietarios y de código abierto.

Datos abiertos

Todos los resultados, respuestas y métricas están disponibles públicamente para fomentar la investigación abierta.

El examen MIR

El MIR (Médico Interno Residente) es el examen nacional de España para acceder a la formación médica especializada. Es una prueba estandarizada, pública y altamente competitiva.

Cada convocatoria del MIR consta de 200 preguntas válidas más 10 de reserva (210 en total). Cada pregunta tiene 4 opciones de respuesta, de las cuales solo una es correcta.

Sistema de puntuación

Respuesta correcta

+3 puntos

Respuesta incorrecta

-1 punto

Respuesta en blanco

0 puntos

Fórmula de netas

Netas = Aciertos - (Fallos / 3)

Las netas representan el número efectivo de preguntas acertadas, descontando la penalización por respuestas incorrectas. Es la métrica oficial del MIR.

Algunas preguntas pueden ser anuladas tras la publicación del examen. Las preguntas anuladas no cuentan para el cómputo de netas y se excluyen de la evaluación.

Cómo se evalúan los modelos

Todos los modelos se evalúan bajo un protocolo estandarizado zero-shot, lo que significa que no reciben ejemplos previos ni entrenamiento específico para el examen.

En evaluación zero-shot, el modelo recibe cada pregunta de forma aislada, sin ejemplos previos (few-shot) ni instrucciones de entrenamiento específicas para el MIR.

1

Preparación del prompt

Cada pregunta se formatea con un prompt estandarizado que incluye el enunciado, las opciones de respuesta y una instrucción clara para seleccionar una sola opción.

2

Envío al modelo

La pregunta se envía a la API del modelo sin contexto adicional, ejemplos previos ni system prompts especializados.

3

Extracción de la respuesta

Se analiza la respuesta del modelo para extraer la opción seleccionada (A, B, C o D) usando múltiples métodos de parsing.

4

Cálculo de métricas

Se registran la respuesta, tokens utilizados, tiempo de respuesta, coste y se calcula la puntuación según el sistema oficial del MIR.

5

Publicación de resultados

Los resultados se publican en la plataforma con total transparencia: cada respuesta individual es verificable.

Entendiendo los resultados

Cada modelo evaluado tiene un perfil completo con múltiples métricas. Aquí te explicamos cómo interpretar cada una.

Accuracy (Precisión)

Porcentaje de preguntas respondidas correctamente sobre el total de preguntas válidas. Es la métrica más intuitiva: un 80% significa que el modelo acertó 8 de cada 10 preguntas.

Netas

Puntuación oficial del MIR que tiene en cuenta la penalización por respuestas incorrectas. Refleja mejor el rendimiento real que la accuracy pura.

Score (Puntuación)

Puntuación final calculada como 3 × Netas. Es la métrica utilizada oficialmente para ordenar a los candidatos del MIR.

Preguntas discriminatorias

Preguntas donde los modelos Frontier (de mayor rendimiento) no se ponen de acuerdo. Son especialmente útiles para analizar las fronteras del conocimiento de la IA.

Tokens

Cantidad de texto procesado (entrada) y generado (salida) por el modelo, medido en tokens. Influye directamente en el coste.

Coste

Coste estimado en USD de evaluar el modelo en todo el examen, basado en los precios públicos de cada API.

Especialidades médicas

Las preguntas del MIR cubren más de 30 especialidades médicas. Cada pregunta está clasificada por especialidad, permitiendo analizar el rendimiento de los modelos por área de conocimiento.

AlergologíaAnestesiología y ReanimaciónCardiologíaCuidados PaliativosDermatologíaEndocrinología y NutriciónEnfermedades InfecciosasEpidemiologíaEstadísticaFarmacologíaGastroenterologíaGenéticaGeriatríaGinecología y ObstetriciaHematologíaInmunologíaMedicina Legal y BioéticaNefrologíaNeumologíaNeurologíaOftalmologíaOncología MédicaORLPediatríaPlanificación y Gestión SanitariaPsiquiatríaRadiología-UrgenciasReumatologíaTraumatologíaUrología

Puedes filtrar los resultados por especialidad en la página de detalle de cada modelo.

Tipos de preguntas

Cada pregunta del MIR está clasificada según el tipo de razonamiento clínico que requiere. Los 14 tipos reflejan las competencias evaluadas en la formación médica.

DiagnósticoTratamientoPruebasInterpretaciónFisiopatologíaRiesgoPrevenciónPronósticoEpidemiologíaBioestadísticaÉticaLegalFarmacologíaAnatomía

El desglose por tipo de pregunta está disponible en el perfil de cada modelo.

Integridad de los datos

La fiabilidad de un benchmark depende de la integridad de sus datos. Tomamos medidas específicas para garantizar evaluaciones justas y no contaminadas.

El MIR 2026 es nuestro benchmark virgen: ningún modelo fue entrenado con estas preguntas, ya que se publicaron después de sus fechas de corte de entrenamiento.

Sin contaminación

Los exámenes más recientes no estaban disponibles durante el entrenamiento de los modelos, eliminando el riesgo de memorización.

Comparación justa

Todos los modelos reciben exactamente el mismo prompt, en las mismas condiciones, sin ventajas para ningún proveedor.

Reproducibilidad

Publicamos los prompts, respuestas y configuraciones exactas para que cualquier investigador pueda reproducir nuestros resultados.

Cómo usar la plataforma

MedicalBenchmark ofrece múltiples formas de explorar y analizar los datos de evaluación de IA médica.

Explorar rankings

Consulta la clasificación completa de modelos por examen. Filtra por tipo de modelo, ordena por diferentes métricas y compara resultados.

Ver rankings

Ver preguntas del examen

Explora las preguntas del MIR y observa cómo respondió cada modelo. Identifica patrones de error y preguntas especialmente difíciles para la IA.

Ver exámenes

Comparar modelos

Accede al perfil detallado de cada modelo para ver su rendimiento desglosado por especialidad, tipo de pregunta y métricas de eficiencia.

Ver rankings

Acceder a los datos

Descarga datasets completos para investigación o solicita acceso a la API para integrar los datos en tus propias herramientas de análisis.

Ver datasets

Glosario

Definiciones de los términos clave utilizados en la plataforma.

Accuracy (Precisión)
Porcentaje de respuestas correctas sobre el total de preguntas válidas del examen.
Netas
Métrica oficial del MIR. Se calcula como: Aciertos - (Fallos / 3). Refleja el rendimiento real penalizando respuestas incorrectas.
Score (Puntuación)
Puntuación final del MIR, calculada como 3 × Netas. Es la métrica utilizada para ordenar candidatos.
Zero-shot
Método de evaluación donde el modelo no recibe ejemplos previos ni entrenamiento específico para la tarea. Se le presenta directamente la pregunta.
MIR
Médico Interno Residente. Examen nacional de España para acceder a la formación médica especializada.
Prompt
Texto de entrada que se envía al modelo de IA. En nuestro caso, incluye la pregunta del MIR formateada con sus opciones de respuesta.
Token
Unidad mínima de texto que procesan los modelos de lenguaje. Aproximadamente equivale a 3/4 de una palabra en español.
Frontier (modelo)
Modelos de IA de última generación con el mayor rendimiento. Incluyen modelos como GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, etc.
Multimodal
Capacidad de un modelo para procesar tanto texto como imágenes. Relevante para preguntas del MIR que incluyen imágenes clínicas.
Preguntas discriminatorias
Preguntas donde los modelos de IA de mayor rendimiento (Frontier) no se ponen de acuerdo en la respuesta correcta.
Benchmark virgen
Examen cuyas preguntas no existían durante el entrenamiento de los modelos evaluados, garantizando cero contaminación de datos.
Código abierto (Open Source)
Modelos cuyo código y pesos están disponibles públicamente para su descarga y uso libre.
API
Interfaz de programación que permite acceder a los datos de MedicalBenchmark de forma programática.

Preguntas frecuentes

Respuestas a las dudas más comunes sobre MedicalBenchmark.

¿Son fiables los resultados?

Sí. Cada evaluación sigue un protocolo estandarizado y reproducible. Publicamos todas las respuestas individuales para que cualquier investigador pueda verificar los resultados. Además, nuestros datos han sido validados en publicaciones científicas revisadas por pares.

¿Con qué frecuencia se actualizan los rankings?

Los rankings se actualizan continuamente a medida que evaluamos nuevos modelos o se publican nuevas versiones. Cada convocatoria del MIR se añade cuando el Ministerio de Sanidad publica oficialmente las preguntas y respuestas.

¿Por qué usáis el MIR y no otros exámenes?

El MIR es el examen médico más importante de España, con preguntas diseñadas por expertos y validadas estadísticamente. Es público, estandarizado y cubre todo el espectro de la medicina. Además, al ser en español, permite evaluar modelos en un idioma distinto al inglés.

¿Qué modelos están incluidos?

Evaluamos más de 280 modelos, incluyendo modelos propietarios (GPT-4, Claude, Gemini, etc.) y de código abierto (LLaMA, Mistral, Qwen, etc.). Cualquier persona puede proponer un modelo para evaluación.

¿Puedo descargar los datos?

Sí. Ofrecemos datasets completos en la página de Datasets, incluyendo preguntas, respuestas de cada modelo y métricas detalladas. Para acceso programático, también disponemos de una API.

¿En qué se diferencia de otros benchmarks médicos?

MedicalBenchmark se distingue por usar exámenes oficiales reales (no sintéticos), evaluar en español, incluir el sistema de puntuación oficial del MIR con penalización, y ofrecer un benchmark virgen con exámenes no contaminados.

¿Cómo puedo contribuir o colaborar?

Puedes proponer modelos para evaluación, reportar errores, sugerir mejoras o colaborar en investigación. Visita nuestra página de contacto para más información.

¿Cuánto cuesta usar MedicalBenchmark?

La plataforma es completamente gratuita. Todos los datos, rankings y análisis están disponibles de forma abierta. Creemos que la transparencia en la evaluación de IA médica beneficia a toda la comunidad.

¿Listo para explorar?

Consulta los rankings de modelos de IA en exámenes MIR y descubre cómo rinden en medicina.