MedicalBenchmark

Publicacións científicas e transparencia académica

Artigos de Investigación

O noso traballo de avaliación de modelos de IA no ámbito médico está apoiado por publicacións científicas revisadas por pares, garantindo a transparencia e reproducibilidade dos nosos resultados.

Paper 2026

Próximo

En preparación

Estamos traballando nun novo artigo de investigación que incluirá a análise completa dos resultados do MIR 2026, con datos actualizados e novos modelos avaliados.

Incluirá:

  • Análise de resultados MIR 2026 completa
  • Avaliación de modelos de última xeración
  • Comparativa interanual 2024-2026
  • Novas métricas de avaliación multimodal

Paper 2025

Dispoñible

Publicado

Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application

Autores

Carlos Luengo Vera, Ignacio Ferro Picón, M. Teresa del Val Núñez, José Andrés Gómez Gandía, Antonio de Lucas Ancillo, Víctor Ramos Arroyo, Carlos Milán Figueredo

Este estudo presenta unha avaliación comparativa exhaustiva de 22 modelos de linguaxe de gran escala (LLMs) nos exames MIR españois de 2024 e 2025.

Resultados destacados

Métricas clave do estudo

22
Modelos avaliados
420
Preguntas analizadas
210
Preguntas por ciclo
2024-2025
Ciclos MIR

Puntos clave do estudo

Obxectivo do estudo

Avaliación comparativa exhaustiva de modelos de linguaxe de propósito xeral e especializados en medicina nos exames MIR españois.

  • 22 modelos de linguaxe (LLMs) avaliados
  • Exames MIR oficiais de España 2024 e 2025
  • Análise de capacidades de razoamento clínico
  • Comparativa entre modelos xeneralistas e especializados

Metodoloxía

Marco de avaliación rigoroso baseado en preguntas oficiais do exame MIR con sistema de puntuación estándar.

  • 210 preguntas de opción múltiple oficiais por ciclo
  • Sistema de puntuación MIR estándar (+3/-1/0)
  • Avaliación zero-shot sen exemplos previos
  • Procesamento multimodal de imaxes médicas

Modelos avaliados

Ampla selección de modelos que inclúe tanto sistemas xeneralistas como especializados no dominio médico.

  • OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
  • Anthropic: Claude 3 (Opus, Sonnet, Haiku)
  • Google: Gemini Pro, Gemini Ultra
  • Sistemas especializados: Miri Pro

Alcance do estudo

Avaliación integral que abarca múltiples dimensións do coñecemento médico e habilidades clínicas.

  • Cobertura de todas as especialidades médicas do MIR
  • Preguntas con e sen soporte de imaxe
  • Avaliación de razoamento diagnóstico e terapéutico
  • Análise de consistencia entre ciclos de exame

Achados principais

Resultados significativos que revelan diferenzas importantes entre os distintos tipos de modelos avaliados.

  • Modelos especializados superan aos xeneralistas
  • Maior precisión en razoamento clínico complexo
  • Variabilidade na interpretación de imaxes médicas
  • Descenso de rendemento entre ciclos 2024-2025

Conclusións

Implicacións importantes para o futuro da IA en medicina e a educación médica.

  • Potencial do fine-tuning específico de dominio
  • Importancia crítica de capacidades multimodais
  • Necesidade de benchmarks actualizados anualmente
  • Aplicacións potenciais en educación médica
Loading chart...

Achado destacado

Observouse un lixeiro descenso no rendemento entre os ciclos 2024-2025, atribuído a cambios no deseño das preguntas para reducir a memorización.

Explora os nosos resultados

Consulta os rankings actualizados de modelos de IA ou propón o teu propio modelo para avaliación.