MedicalBenchmark

Publicacions científiques i transparència acadèmica

Articles d'Investigació

El nostre treball d'avaluació de models d'IA en l'àmbit mèdic està recolzat per publicacions científiques revisades per parells, garantint la transparència i reproduïbilitat dels nostres resultats.

Paper 2026

Pròxim

En preparació

Estem treballant en un nou article d'investigació que inclourà l'anàlisi complet dels resultats del MIR 2026, amb dades actualitzades i nous models avaluats.

Inclourà:

  • Anàlisi de resultats MIR 2026 complet
  • Avaluació de models d'última generació
  • Comparativa interanual 2024-2026
  • Noves mètriques d'avaluació multimodal

Paper 2025

Disponible

Publicat

Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application

Autors

Carlos Luengo Vera, Ignacio Ferro Picón, M. Teresa del Val Núñez, José Andrés Gómez Gandía, Antonio de Lucas Ancillo, Víctor Ramos Arroyo, Carlos Milán Figueredo

Este estudi presenta una avaluació comparativa exhaustiva de 22 models de llenguatge de gran escala (LLMs) en els exàmens MIR espanyols de 2024 i 2025.

Resultats destacats

Mètriques clau de l'estudi

22
Models avaluats
420
Preguntes analitzades
210
Preguntes per cicle
2024-2025
Cicles MIR

Punts clau de l'estudi

Objectiu de l'estudi

Avaluació comparativa exhaustiva de models de llenguatge de propòsit general i especialitzats en medicina en els exàmens MIR espanyols.

  • 22 models de llenguatge (LLMs) avaluats
  • Exàmens MIR oficials d'Espanya 2024 i 2025
  • Anàlisi de capacitats de raonament clínic
  • Comparativa entre models generalistes i especialitzats

Metodologia

Marc d'avaluació rigorós basat en preguntes oficials de l'examen MIR amb sistema de puntuació estàndard.

  • 210 preguntes d'opció múltiple oficials per cicle
  • Sistema de puntuació MIR estàndard (+3/-1/0)
  • Avaluació zero-shot sense exemples previs
  • Processament multimodal d'imatges mèdiques

Models avaluats

Àmplia selecció de models que inclou tant sistemes generalistes com especialitzats en el domini mèdic.

  • OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
  • Anthropic: Claude 3 (Opus, Sonnet, Haiku)
  • Google: Gemini Pro, Gemini Ultra
  • Sistemes especialitzats: Miri Pro

Abast de l'estudi

Avaluació integral que abasta múltiples dimensions del coneixement mèdic i habilitats clíniques.

  • Cobertura de totes les especialitats mèdiques del MIR
  • Preguntes amb i sense suport d'imatge
  • Avaluació de raonament diagnòstic i terapèutic
  • Anàlisi de consistència entre cicles d'examen

Troballes principals

Resultats significatius que revelen diferències importants entre els diferents tipus de models avaluats.

  • Models especialitzats superen els generalistes
  • Major precisió en raonament clínic complex
  • Variabilitat en interpretació d'imatges mèdiques
  • Descens de rendiment entre cicles 2024-2025

Conclusions

Implicacions importants per al futur de la IA en medicina i l'educació mèdica.

  • Potencial del fine-tuning específic de domini
  • Importància crítica de capacitats multimodals
  • Necessitat de benchmarks actualitzats anualment
  • Aplicacions potencials en educació mèdica
Loading chart...

Troballa destacada

Es va observar un lleuger descens en el rendiment entre els cicles 2024-2025, atribuït a canvis en el disseny de les preguntes per a reduir la memorització.

Explora els nostres resultats

Consulta els rànkings actualitzats de models d'IA o proposa el teu propi model per a avaluació.