Documentación
Qué es MedicalBenchmark
MedicalBenchmark es una plataforma independiente de evaluación que mide el rendimiento de modelos de inteligencia artificial en exámenes médicos oficiales de España, principalmente el MIR.
Nuestra misión es proporcionar datos objetivos, reproducibles y de libre acceso para que investigadores, profesionales sanitarios y desarrolladores puedan entender las capacidades reales de la IA en medicina.
Evaluación independiente
Sin afiliación a ningún proveedor de IA. Evaluamos todos los modelos con el mismo protocolo estandarizado.
Exámenes oficiales
Utilizamos preguntas reales del MIR publicadas por el Ministerio de Sanidad de España.
+280 modelos de IA
La base de datos más completa de evaluaciones de IA médica en español, incluyendo modelos propietarios y de código abierto.
Datos abiertos
Todos los resultados, respuestas y métricas están disponibles públicamente para fomentar la investigación abierta.
El examen MIR
El MIR (Médico Interno Residente) es el examen nacional de España para acceder a la formación médica especializada. Es una prueba estandarizada, pública y altamente competitiva.
Cada convocatoria del MIR consta de 200 preguntas válidas más 10 de reserva (210 en total). Cada pregunta tiene 4 opciones de respuesta, de las cuales solo una es correcta.
Sistema de puntuación
Respuesta correcta
+3 puntos
Respuesta incorrecta
-1 punto
Respuesta en blanco
0 puntos
Fórmula de netas
Las netas representan el número efectivo de preguntas acertadas, descontando la penalización por respuestas incorrectas. Es la métrica oficial del MIR.
Algunas preguntas pueden ser anuladas tras la publicación del examen. Las preguntas anuladas no cuentan para el cómputo de netas y se excluyen de la evaluación.
Cómo se evalúan los modelos
Todos los modelos se evalúan bajo un protocolo estandarizado zero-shot, lo que significa que no reciben ejemplos previos ni entrenamiento específico para el examen.
En evaluación zero-shot, el modelo recibe cada pregunta de forma aislada, sin ejemplos previos (few-shot) ni instrucciones de entrenamiento específicas para el MIR.
Preparación del prompt
Cada pregunta se formatea con un prompt estandarizado que incluye el enunciado, las opciones de respuesta y una instrucción clara para seleccionar una sola opción.
Envío al modelo
La pregunta se envía a la API del modelo sin contexto adicional, ejemplos previos ni system prompts especializados.
Extracción de la respuesta
Se analiza la respuesta del modelo para extraer la opción seleccionada (A, B, C o D) usando múltiples métodos de parsing.
Cálculo de métricas
Se registran la respuesta, tokens utilizados, tiempo de respuesta, coste y se calcula la puntuación según el sistema oficial del MIR.
Publicación de resultados
Los resultados se publican en la plataforma con total transparencia: cada respuesta individual es verificable.
Entendiendo los resultados
Cada modelo evaluado tiene un perfil completo con múltiples métricas. Aquí te explicamos cómo interpretar cada una.
Accuracy (Precisión)
Porcentaje de preguntas respondidas correctamente sobre el total de preguntas válidas. Es la métrica más intuitiva: un 80% significa que el modelo acertó 8 de cada 10 preguntas.
Netas
Puntuación oficial del MIR que tiene en cuenta la penalización por respuestas incorrectas. Refleja mejor el rendimiento real que la accuracy pura.
Score (Puntuación)
Puntuación final calculada como 3 × Netas. Es la métrica utilizada oficialmente para ordenar a los candidatos del MIR.
Preguntas discriminatorias
Preguntas donde los modelos Frontier (de mayor rendimiento) no se ponen de acuerdo. Son especialmente útiles para analizar las fronteras del conocimiento de la IA.
Tokens
Cantidad de texto procesado (entrada) y generado (salida) por el modelo, medido en tokens. Influye directamente en el coste.
Coste
Coste estimado en USD de evaluar el modelo en todo el examen, basado en los precios públicos de cada API.
Especialidades médicas
Las preguntas del MIR cubren más de 30 especialidades médicas. Cada pregunta está clasificada por especialidad, permitiendo analizar el rendimiento de los modelos por área de conocimiento.
Puedes filtrar los resultados por especialidad en la página de detalle de cada modelo.
Tipos de preguntas
Cada pregunta del MIR está clasificada según el tipo de razonamiento clínico que requiere. Los 14 tipos reflejan las competencias evaluadas en la formación médica.
El desglose por tipo de pregunta está disponible en el perfil de cada modelo.
Integridad de los datos
La fiabilidad de un benchmark depende de la integridad de sus datos. Tomamos medidas específicas para garantizar evaluaciones justas y no contaminadas.
El MIR 2026 es nuestro benchmark virgen: ningún modelo fue entrenado con estas preguntas, ya que se publicaron después de sus fechas de corte de entrenamiento.
Sin contaminación
Los exámenes más recientes no estaban disponibles durante el entrenamiento de los modelos, eliminando el riesgo de memorización.
Comparación justa
Todos los modelos reciben exactamente el mismo prompt, en las mismas condiciones, sin ventajas para ningún proveedor.
Reproducibilidad
Publicamos los prompts, respuestas y configuraciones exactas para que cualquier investigador pueda reproducir nuestros resultados.
Cómo usar la plataforma
MedicalBenchmark ofrece múltiples formas de explorar y analizar los datos de evaluación de IA médica.
Explorar rankings
Consulta la clasificación completa de modelos por examen. Filtra por tipo de modelo, ordena por diferentes métricas y compara resultados.
Ver rankingsVer preguntas del examen
Explora las preguntas del MIR y observa cómo respondió cada modelo. Identifica patrones de error y preguntas especialmente difíciles para la IA.
Ver exámenesComparar modelos
Accede al perfil detallado de cada modelo para ver su rendimiento desglosado por especialidad, tipo de pregunta y métricas de eficiencia.
Ver rankingsAcceder a los datos
Descarga datasets completos para investigación o solicita acceso a la API para integrar los datos en tus propias herramientas de análisis.
Ver datasetsGlosario
Definiciones de los términos clave utilizados en la plataforma.
- Accuracy (Precisión)
- Porcentaje de respuestas correctas sobre el total de preguntas válidas del examen.
- Netas
- Métrica oficial del MIR. Se calcula como: Aciertos - (Fallos / 3). Refleja el rendimiento real penalizando respuestas incorrectas.
- Score (Puntuación)
- Puntuación final del MIR, calculada como 3 × Netas. Es la métrica utilizada para ordenar candidatos.
- Zero-shot
- Método de evaluación donde el modelo no recibe ejemplos previos ni entrenamiento específico para la tarea. Se le presenta directamente la pregunta.
- MIR
- Médico Interno Residente. Examen nacional de España para acceder a la formación médica especializada.
- Prompt
- Texto de entrada que se envía al modelo de IA. En nuestro caso, incluye la pregunta del MIR formateada con sus opciones de respuesta.
- Token
- Unidad mínima de texto que procesan los modelos de lenguaje. Aproximadamente equivale a 3/4 de una palabra en español.
- Frontier (modelo)
- Modelos de IA de última generación con el mayor rendimiento. Incluyen modelos como GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, etc.
- Multimodal
- Capacidad de un modelo para procesar tanto texto como imágenes. Relevante para preguntas del MIR que incluyen imágenes clínicas.
- Preguntas discriminatorias
- Preguntas donde los modelos de IA de mayor rendimiento (Frontier) no se ponen de acuerdo en la respuesta correcta.
- Benchmark virgen
- Examen cuyas preguntas no existían durante el entrenamiento de los modelos evaluados, garantizando cero contaminación de datos.
- Código abierto (Open Source)
- Modelos cuyo código y pesos están disponibles públicamente para su descarga y uso libre.
- API
- Interfaz de programación que permite acceder a los datos de MedicalBenchmark de forma programática.
Preguntas frecuentes
Respuestas a las dudas más comunes sobre MedicalBenchmark.
¿Son fiables los resultados?
Sí. Cada evaluación sigue un protocolo estandarizado y reproducible. Publicamos todas las respuestas individuales para que cualquier investigador pueda verificar los resultados. Además, nuestros datos han sido validados en publicaciones científicas revisadas por pares.
¿Con qué frecuencia se actualizan los rankings?
Los rankings se actualizan continuamente a medida que evaluamos nuevos modelos o se publican nuevas versiones. Cada convocatoria del MIR se añade cuando el Ministerio de Sanidad publica oficialmente las preguntas y respuestas.
¿Por qué usáis el MIR y no otros exámenes?
El MIR es el examen médico más importante de España, con preguntas diseñadas por expertos y validadas estadísticamente. Es público, estandarizado y cubre todo el espectro de la medicina. Además, al ser en español, permite evaluar modelos en un idioma distinto al inglés.
¿Qué modelos están incluidos?
Evaluamos más de 280 modelos, incluyendo modelos propietarios (GPT-4, Claude, Gemini, etc.) y de código abierto (LLaMA, Mistral, Qwen, etc.). Cualquier persona puede proponer un modelo para evaluación.
¿Puedo descargar los datos?
Sí. Ofrecemos datasets completos en la página de Datasets, incluyendo preguntas, respuestas de cada modelo y métricas detalladas. Para acceso programático, también disponemos de una API.
¿En qué se diferencia de otros benchmarks médicos?
MedicalBenchmark se distingue por usar exámenes oficiales reales (no sintéticos), evaluar en español, incluir el sistema de puntuación oficial del MIR con penalización, y ofrecer un benchmark virgen con exámenes no contaminados.
¿Cómo puedo contribuir o colaborar?
Puedes proponer modelos para evaluación, reportar errores, sugerir mejoras o colaborar en investigación. Visita nuestra página de contacto para más información.
¿Cuánto cuesta usar MedicalBenchmark?
La plataforma es completamente gratuita. Todos los datos, rankings y análisis están disponibles de forma abierta. Creemos que la transparencia en la evaluación de IA médica beneficia a toda la comunidad.
¿Listo para explorar?
Consulta los rankings de modelos de IA en exámenes MIR y descubre cómo rinden en medicina.