MedicalBenchmark

Publicaciones científicas y transparencia académica

Artículos de Investigación

Nuestro trabajo de evaluación de modelos de IA en el ámbito médico está respaldado por publicaciones científicas revisadas por pares, garantizando la transparencia y reproducibilidad de nuestros resultados.

Paper 2026

Próximo

En preparación

Estamos trabajando en un nuevo artículo de investigación que incluirá el análisis completo de los resultados del MIR 2026, con datos actualizados y nuevos modelos evaluados.

Incluirá:

  • Análisis de resultados MIR 2026 completo
  • Evaluación de modelos de última generación
  • Comparativa interanual 2024-2026
  • Nuevas métricas de evaluación multimodal

Paper 2025

Disponible

Publicado

Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application

Autores

Carlos Luengo Vera, Ignacio Ferro Picón, M. Teresa del Val Núñez, José Andrés Gómez Gandía, Antonio de Lucas Ancillo, Víctor Ramos Arroyo, Carlos Milán Figueredo

Este estudio presenta una evaluación comparativa exhaustiva de 22 modelos de lenguaje de gran escala (LLMs) en los exámenes MIR españoles de 2024 y 2025.

Resultados destacados

Métricas clave del estudio

22
Modelos evaluados
420
Preguntas analizadas
210
Preguntas por ciclo
2024-2025
Ciclos MIR

Puntos clave del estudio

Objetivo del estudio

Evaluación comparativa exhaustiva de modelos de lenguaje de propósito general y especializados en medicina en los exámenes MIR españoles.

  • 22 modelos de lenguaje (LLMs) evaluados
  • Exámenes MIR oficiales de España 2024 y 2025
  • Análisis de capacidades de razonamiento clínico
  • Comparativa entre modelos generalistas y especializados

Metodología

Marco de evaluación riguroso basado en preguntas oficiales del examen MIR con sistema de puntuación estándar.

  • 210 preguntas de opción múltiple oficiales por ciclo
  • Sistema de puntuación MIR estándar (+3/-1/0)
  • Evaluación zero-shot sin ejemplos previos
  • Procesamiento multimodal de imágenes médicas

Modelos evaluados

Amplia selección de modelos que incluye tanto sistemas generalistas como especializados en el dominio médico.

  • OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
  • Anthropic: Claude 3 (Opus, Sonnet, Haiku)
  • Google: Gemini Pro, Gemini Ultra
  • Sistemas especializados: Miri Pro

Alcance del estudio

Evaluación integral que abarca múltiples dimensiones del conocimiento médico y habilidades clínicas.

  • Cobertura de todas las especialidades médicas del MIR
  • Preguntas con y sin soporte de imagen
  • Evaluación de razonamiento diagnóstico y terapéutico
  • Análisis de consistencia entre ciclos de examen

Hallazgos principales

Resultados significativos que revelan diferencias importantes entre los distintos tipos de modelos evaluados.

  • Modelos especializados superan a generalistas
  • Mayor precisión en razonamiento clínico complejo
  • Variabilidad en interpretación de imágenes médicas
  • Descenso de rendimiento entre ciclos 2024-2025

Conclusiones

Implicaciones importantes para el futuro de la IA en medicina y la educación médica.

  • Potencial del fine-tuning específico de dominio
  • Importancia crítica de capacidades multimodales
  • Necesidad de benchmarks actualizados anualmente
  • Aplicaciones potenciales en educación médica
Loading chart...

Hallazgo destacado

Se observó un ligero descenso en el rendimiento entre los ciclos 2024-2025, atribuido a cambios en el diseño de las preguntas para reducir la memorización.

Explora nuestros resultados

Consulta los rankings actualizados de modelos de IA o propón tu propio modelo para evaluación.