Articles d'Investigació
Paper 2026
PròximEn preparació
Estam treballant en un nou article d'investigació que inclourà s'anàlisi complet des resultats des MIR 2026, amb dades actualitzades i nous models avaluats.
Inclourà:
- Anàlisi de resultats MIR 2026 complet
- Avaluació de models d'última generació
- Comparativa interanual 2024-2026
- Noves mètriques d'avaluació multimodal
Paper 2025
DisponiblePublicat
Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application
Autors
Carlos Luengo Vera, Ignacio Ferro Picón, M. Teresa del Val Núñez, José Andrés Gómez Gandía, Antonio de Lucas Ancillo, Víctor Ramos Arroyo, Carlos Milán Figueredo
Aquest estudi presenta una avaluació comparativa exhaustiva de 22 models de llenguatge de gran escala (LLMs) en es exàmens MIR espanyols de 2024 i 2025.
Resultats destacats
Mètriques clau de s'estudi
Punts clau de s'estudi
Objectiu de s'estudi
Avaluació comparativa exhaustiva de models de llenguatge de propòsit general i especialitzats en medicina en es exàmens MIR espanyols.
- 22 models de llenguatge (LLMs) avaluats
- Exàmens MIR oficials d'Espanya 2024 i 2025
- Anàlisi de capacitats de raonament clínic
- Comparativa entre models generalistes i especialitzats
Metodologia
Marc d'avaluació rigorós basat en preguntes oficials de s'examen MIR amb sistema de puntuació estàndard.
- 210 preguntes d'opció múltiple oficials per cicle
- Sistema de puntuació MIR estàndard (+3/-1/0)
- Avaluació zero-shot sense exemples previs
- Processament multimodal d'imatges mèdiques
Models avaluats
Àmplia selecció de models que inclou tant sistemes generalistes com especialitzats en es domini mèdic.
- OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
- Anthropic: Claude 3 (Opus, Sonnet, Haiku)
- Google: Gemini Pro, Gemini Ultra
- Sistemes especialitzats: Miri Pro
Abast de s'estudi
Avaluació integral que abasta múltiples dimensions des coneixement mèdic i habilitats clíniques.
- Cobertura de totes ses especialitats mèdiques des MIR
- Preguntes amb i sense suport d'imatge
- Avaluació de raonament diagnòstic i terapèutic
- Anàlisi de consistència entre cicles d'examen
Troballes principals
Resultats significatius que revelen diferències importants entre es diferents tipus de models avaluats.
- Models especialitzats superen es generalistes
- Major precisió en raonament clínic complex
- Variabilitat en interpretació d'imatges mèdiques
- Descens de rendiment entre cicles 2024-2025
Conclusions
Implicacions importants per an es futur de sa IA en medicina i s'educació mèdica.
- Potencial des fine-tuning específic de domini
- Importància crítica de capacitats multimodals
- Necessitat de benchmarks actualitzats anualment
- Aplicacions potencials en educació mèdica
Troballa destacada
Es va observar un lleuger descens en es rendiment entre es cicles 2024-2025, atribuït a canvis en es disseny de ses preguntes per reduir sa memorització.
Explora es nostres resultats
Consulta es rànkings actualitzats de models d'IA o proposa es teu propi model per a avaluació.