Publicacions científiques i transparència acadèmica

Articles d'Investigació

Es nostre treball d'avaluació de models d'IA en s'àmbit mèdic està recolzat per publicacions científiques revisades per parells, garantint sa transparència i reproduïbilitat des nostres resultats.

Paper 2026

Pròxim

En preparació

Estam treballant en un nou article d'investigació que inclourà s'anàlisi complet des resultats des MIR 2026, amb dades actualitzades i nous models avaluats.

Inclourà:

Anàlisi de resultats MIR 2026 complet
Avaluació de models d'última generació
Comparativa interanual 2024-2026
Noves mètriques d'avaluació multimodal

Paper 2025

Disponible

Publicat

Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application

Autors

Carlos Luengo Vera, Ignacio Ferro Picón, M. Teresa del Val Núñez, José Andrés Gómez Gandía, Antonio de Lucas Ancillo, Víctor Ramos Arroyo, Carlos Milán Figueredo

Aquest estudi presenta una avaluació comparativa exhaustiva de 22 models de llenguatge de gran escala (LLMs) en es exàmens MIR espanyols de 2024 i 2025.

Resultats destacats

Mètriques clau de s'estudi

Models avaluats

420

Preguntes analitzades

210

Preguntes per cicle

2024-2025

Cicles MIR

Punts clau de s'estudi

Objectiu de s'estudi

Avaluació comparativa exhaustiva de models de llenguatge de propòsit general i especialitzats en medicina en es exàmens MIR espanyols.

22 models de llenguatge (LLMs) avaluats
Exàmens MIR oficials d'Espanya 2024 i 2025
Anàlisi de capacitats de raonament clínic
Comparativa entre models generalistes i especialitzats

Metodologia

Marc d'avaluació rigorós basat en preguntes oficials de s'examen MIR amb sistema de puntuació estàndard.

210 preguntes d'opció múltiple oficials per cicle
Sistema de puntuació MIR estàndard (+3/-1/0)
Avaluació zero-shot sense exemples previs
Processament multimodal d'imatges mèdiques

Models avaluats

Àmplia selecció de models que inclou tant sistemes generalistes com especialitzats en es domini mèdic.

OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
Anthropic: Claude 3 (Opus, Sonnet, Haiku)
Google: Gemini Pro, Gemini Ultra
Sistemes especialitzats: Miri Pro

Abast de s'estudi

Avaluació integral que abasta múltiples dimensions des coneixement mèdic i habilitats clíniques.

Cobertura de totes ses especialitats mèdiques des MIR
Preguntes amb i sense suport d'imatge
Avaluació de raonament diagnòstic i terapèutic
Anàlisi de consistència entre cicles d'examen

Troballes principals

Resultats significatius que revelen diferències importants entre es diferents tipus de models avaluats.

Models especialitzats superen es generalistes
Major precisió en raonament clínic complex
Variabilitat en interpretació d'imatges mèdiques
Descens de rendiment entre cicles 2024-2025

Conclusions

Implicacions importants per an es futur de sa IA en medicina i s'educació mèdica.

Potencial des fine-tuning específic de domini
Importància crítica de capacitats multimodals
Necessitat de benchmarks actualitzats anualment
Aplicacions potencials en educació mèdica

Loading chart...

Troballa destacada

Es va observar un lleuger descens en es rendiment entre es cicles 2024-2025, atribuït a canvis en es disseny de ses preguntes per reduir sa memorització.

Veure article complet a arXiv

Explora es nostres resultats

Consulta es rànkings actualitzats de models d'IA o proposa es teu propi model per a avaluació.

Veure Rànkings Proposar Model