Artículos de Investigación
Paper 2026
PróximoEn preparación
Estamos trabajando en un nuevo artículo de investigación que incluirá el análisis completo de los resultados del MIR 2026, con datos actualizados y nuevos modelos evaluados.
Incluirá:
- Análisis de resultados MIR 2026 completo
- Evaluación de modelos de última generación
- Comparativa interanual 2024-2026
- Nuevas métricas de evaluación multimodal
Paper 2025
DisponiblePublicado
Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application
Autores
Carlos Luengo Vera, Ignacio Ferro Picón, M. Teresa del Val Núñez, José Andrés Gómez Gandía, Antonio de Lucas Ancillo, Víctor Ramos Arroyo, Carlos Milán Figueredo
Este estudio presenta una evaluación comparativa exhaustiva de 22 modelos de lenguaje de gran escala (LLMs) en los exámenes MIR españoles de 2024 y 2025.
Resultados destacados
Métricas clave del estudio
Puntos clave del estudio
Objetivo del estudio
Evaluación comparativa exhaustiva de modelos de lenguaje de propósito general y especializados en medicina en los exámenes MIR españoles.
- 22 modelos de lenguaje (LLMs) evaluados
- Exámenes MIR oficiales de España 2024 y 2025
- Análisis de capacidades de razonamiento clínico
- Comparativa entre modelos generalistas y especializados
Metodología
Marco de evaluación riguroso basado en preguntas oficiales del examen MIR con sistema de puntuación estándar.
- 210 preguntas de opción múltiple oficiales por ciclo
- Sistema de puntuación MIR estándar (+3/-1/0)
- Evaluación zero-shot sin ejemplos previos
- Procesamiento multimodal de imágenes médicas
Modelos evaluados
Amplia selección de modelos que incluye tanto sistemas generalistas como especializados en el dominio médico.
- OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
- Anthropic: Claude 3 (Opus, Sonnet, Haiku)
- Google: Gemini Pro, Gemini Ultra
- Sistemas especializados: Miri Pro
Alcance del estudio
Evaluación integral que abarca múltiples dimensiones del conocimiento médico y habilidades clínicas.
- Cobertura de todas las especialidades médicas del MIR
- Preguntas con y sin soporte de imagen
- Evaluación de razonamiento diagnóstico y terapéutico
- Análisis de consistencia entre ciclos de examen
Hallazgos principales
Resultados significativos que revelan diferencias importantes entre los distintos tipos de modelos evaluados.
- Modelos especializados superan a generalistas
- Mayor precisión en razonamiento clínico complejo
- Variabilidad en interpretación de imágenes médicas
- Descenso de rendimiento entre ciclos 2024-2025
Conclusiones
Implicaciones importantes para el futuro de la IA en medicina y la educación médica.
- Potencial del fine-tuning específico de dominio
- Importancia crítica de capacidades multimodales
- Necesidad de benchmarks actualizados anualmente
- Aplicaciones potenciales en educación médica
Hallazgo destacado
Se observó un ligero descenso en el rendimiento entre los ciclos 2024-2025, atribuido a cambios en el diseño de las preguntas para reducir la memorización.
Explora nuestros resultados
Consulta los rankings actualizados de modelos de IA o propón tu propio modelo para evaluación.