MedicalBenchmark

Evaluando el futuro de la IA Médica

La plataforma definitiva de evaluación para modelos de lenguaje en los exámenes MIR de España (2024-2026). Con la confianza de clínicos e investigadores.

Nuestra Metodología

Cómo evaluamos los modelos de inteligencia artificial en el ámbito médico utilizando el examen MIR como referencia.

Preguntas MIR Oficiales

Utilizamos preguntas reales del examen MIR de España, el estándar para evaluar conocimientos médicos a nivel profesional. Cada pregunta es verificada y categorizada por especialidad.

Evaluación Rigurosa

Cada modelo es evaluado bajo las mismas condiciones controladas, sin acceso a información externa. Medimos precisión, razonamiento clínico y consistencia en las respuestas.

Análisis Detallado

Proporcionamos métricas granulares por especialidad médica, tipo de pregunta y nivel de dificultad. Esto permite identificar fortalezas y áreas de mejora de cada modelo.

Preguntas catalogadas por especialistas

Distribución de las preguntas del examen MIR por asignatura y tipo en cada edición.

Análisis Integral

Nuestro benchmark proporciona una evaluación exhaustiva del rendimiento de modelos de IA en el ámbito médico.

Evaluación Continua

Seguimiento del rendimiento a lo largo del tiempo para identificar mejoras y regresiones.

Métricas Detalladas

Análisis granular por asignatura y tipo de pregunta clínica.

Objetivos Claros

Benchmarks estandarizados basados en el examen MIR oficial de España.

Transparencia Total

Metodología abierta y reproducible con acceso completo a los criterios de evaluación.

Actualización Constante

Incorporación de nuevos modelos y ediciones del examen MIR de forma periódica.

Comparación Directa

Rankings y estadísticas que permiten comparar el rendimiento entre modelos fácilmente.

Datos Verificados

Preguntas oficiales del Ministerio de Sanidad con respuestas validadas.

Preguntas por Tipo

Distribución de preguntas por tipo

Anatomía3 preguntas
Bioestadística3 preguntas
Diagnóstico86 preguntas
Epidemiología10 preguntas
Ética6 preguntas
Farmacología16 preguntas
Fisiopatología26 preguntas
Interpretación41 preguntas
Legal9 preguntas
Prevención17 preguntas
Pronóstico5 preguntas
Pruebas36 preguntas
Riesgo17 preguntas
Tratamiento74 preguntas

Preguntas por Asignatura

Distribución de preguntas por asignatura

Alergología1 preguntas
Anestesiología y Reanimación7 preguntas
Cardiología25 preguntas
Cuidados Paliativos6 preguntas
Dermatología11 preguntas
Endocrinología y Nutrición16 preguntas
Enfermedades Infecciosas14 preguntas
Epidemiología8 preguntas
Estadística3 preguntas
Farmacología12 preguntas
Gastroenterología32 preguntas
Genética11 preguntas
Geriatría14 preguntas
Ginecología y Obstetricia13 preguntas
Hematología11 preguntas
Inmunología6 preguntas
Medicina Legal y Bioética11 preguntas
Nefrología10 preguntas
Neumología17 preguntas
Neurología15 preguntas
Oftalmología6 preguntas
Oncología Médica25 preguntas
ORL8 preguntas
Pediatría22 preguntas
Planificación y Gestión Sanitaria10 preguntas
Psiquiatría8 preguntas
Radiología-Urgencias13 preguntas
Reumatología12 preguntas
Traumatología11 preguntas
Urología8 preguntas

Últimos artículos

Artículos, novedades y análisis sobre IA en medicina

188 Netas: Bianca Ciobanu Bate el Récord del MIR — Pero la IA Ya Va por 200
2 mar 202611 min de lectura

188 Netas: Bianca Ciobanu Bate el Récord del MIR — Pero la IA Ya Va por 200

Bianca Ciobanu Selaru entra en la historia con 188 netas, el mejor resultado humano jamás registrado en el MIR. 41 años, origen rumano, la prueba de que la constancia rompe moldes. Pero el récord humano llega en un momento singular: tres modelos de IA ya han resuelto el examen completo — 200 de 200 — y quince superan las 194 netas. Analizamos qué significa este doble hito con datos, gráficas y contexto.

Leer más
Dos Semanas Después: 22 Modelos Nuevos y Triple 200/200 en el MIR 2026
20 feb 202611 min de lectura

Dos Semanas Después: 22 Modelos Nuevos y Triple 200/200 en el MIR 2026

Del 5 al 20 de febrero de 2026 incorporamos 22 modelos nuevos al benchmark. En solo 15 días pasamos del 99,5% al 100%: Gemini 3.1 Pro Preview entra con 200/200, Qwen3.5 397B A17B rompe el techo open-weights en el ranking global y MedGemma deja una lección incómoda sobre especialización en salud. Storytelling técnico con nuevas gráficas sobre el empate perfecto, el desempate temporal y cómo cambia un benchmark cuando se queda sin techo.

Leer más
ALMA y MIRI obtienen la nota máxima posible en el examen MIR 2026 con un 100% de acierto
11 feb 202627 min de lectura

ALMA y MIRI obtienen la nota máxima posible en el examen MIR 2026 con un 100% de acierto

Dos modelos de IA médica desarrollados en España logran resultados sin precedentes. ALMA acierta las 600 preguntas de los tres últimos MIR sin un solo error — un 100% absoluto que ningún otro modelo ha conseguido. MIRI alcanza un 99,3% con un coste 13 veces inferior y respondiendo mucho más rápido. No son modelos generalistas: son arquitecturas RAG Agénticas con expertos especializados, construidas por BinPar y Editorial Médica Panamericana, que demuestran que el futuro de la IA médica no está en modelos más grandes, sino en modelos más inteligentes.

Leer más
La Catedral y el Bazar: Open Source vs Propietario en el MIR 2026
9 feb 202618 min de lectura

La Catedral y el Bazar: Open Source vs Propietario en el MIR 2026

Los 33 primeros puestos del ranking MIR 2026 son todos modelos propietarios. El mejor modelo abierto queda en el puesto 34. Analizamos el gap entre modelos abiertos y cerrados, la taxonomía real del open source en IA — donde muchos modelos que se proclaman abiertos son catedrales con las puertas entreabiertas — y por qué RAG supera al fine-tuning para personalizar IA médica sin perder el control de tus datos.

Leer más
La Navaja Suiza y el Bisturí: Por Qué los Mejores Modelos de Código Fracasan en el MIR
6 feb 202616 min de lectura

La Navaja Suiza y el Bisturí: Por Qué los Mejores Modelos de Código Fracasan en el MIR

Claude Opus 4.6 y GPT-5.2-Codex son los modelos de IA más avanzados para programar, capaces de coordinar equipos de agentes y construirse parcialmente a sí mismos. Pero en el MIR 2026, un modelo Flash de 0,34 € los humilla. La navaja suiza de la programación no puede competir con el bisturí diseñado para cortar. Análisis de la paradoja agéntica con datos de 290 modelos que demuestra por qué la especialización supera a la potencia bruta en el ámbito médico.

Leer más
199 de 200: La IA Solo Falla Una en el MIR 2026
5 feb 202618 min de lectura

199 de 200: La IA Solo Falla Una en el MIR 2026

Resultados definitivos del mayor benchmark de IA médica en español. Tres modelos empatan con 199 aciertos sobre 200 preguntas válidas — un 99,5% de precisión que ningún ser humano ha alcanzado jamás en la historia del MIR. Un modelo 'Flash' lidera por tercer año consecutivo, demostrando que más caro no significa mejor. Análisis exhaustivo de 290 modelos evaluados con datos de coste, velocidad, tokens y precisión que revela las tendencias que están transformando la inteligencia artificial médica.

Leer más