Artigos de Investigación
Paper 2026
PróximoEn preparación
Estamos traballando nun novo artigo de investigación que incluirá a análise completa dos resultados do MIR 2026, con datos actualizados e novos modelos avaliados.
Incluirá:
- Análise de resultados MIR 2026 completa
- Avaliación de modelos de última xeración
- Comparativa interanual 2024-2026
- Novas métricas de avaliación multimodal
Paper 2025
DispoñiblePublicado
Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application
Autores
Carlos Luengo Vera, Ignacio Ferro Picón, M. Teresa del Val Núñez, José Andrés Gómez Gandía, Antonio de Lucas Ancillo, Víctor Ramos Arroyo, Carlos Milán Figueredo
Este estudo presenta unha avaliación comparativa exhaustiva de 22 modelos de linguaxe de gran escala (LLMs) nos exames MIR españois de 2024 e 2025.
Resultados destacados
Métricas clave do estudo
Puntos clave do estudo
Obxectivo do estudo
Avaliación comparativa exhaustiva de modelos de linguaxe de propósito xeral e especializados en medicina nos exames MIR españois.
- 22 modelos de linguaxe (LLMs) avaliados
- Exames MIR oficiais de España 2024 e 2025
- Análise de capacidades de razoamento clínico
- Comparativa entre modelos xeneralistas e especializados
Metodoloxía
Marco de avaliación rigoroso baseado en preguntas oficiais do exame MIR con sistema de puntuación estándar.
- 210 preguntas de opción múltiple oficiais por ciclo
- Sistema de puntuación MIR estándar (+3/-1/0)
- Avaliación zero-shot sen exemplos previos
- Procesamento multimodal de imaxes médicas
Modelos avaliados
Ampla selección de modelos que inclúe tanto sistemas xeneralistas como especializados no dominio médico.
- OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
- Anthropic: Claude 3 (Opus, Sonnet, Haiku)
- Google: Gemini Pro, Gemini Ultra
- Sistemas especializados: Miri Pro
Alcance do estudo
Avaliación integral que abarca múltiples dimensións do coñecemento médico e habilidades clínicas.
- Cobertura de todas as especialidades médicas do MIR
- Preguntas con e sen soporte de imaxe
- Avaliación de razoamento diagnóstico e terapéutico
- Análise de consistencia entre ciclos de exame
Achados principais
Resultados significativos que revelan diferenzas importantes entre os distintos tipos de modelos avaliados.
- Modelos especializados superan aos xeneralistas
- Maior precisión en razoamento clínico complexo
- Variabilidade na interpretación de imaxes médicas
- Descenso de rendemento entre ciclos 2024-2025
Conclusións
Implicacións importantes para o futuro da IA en medicina e a educación médica.
- Potencial do fine-tuning específico de dominio
- Importancia crítica de capacidades multimodais
- Necesidade de benchmarks actualizados anualmente
- Aplicacións potenciais en educación médica
Achado destacado
Observouse un lixeiro descenso no rendemento entre os ciclos 2024-2025, atribuído a cambios no deseño das preguntas para reducir a memorización.
Explora os nosos resultados
Consulta os rankings actualizados de modelos de IA ou propón o teu propio modelo para avaliación.