MedicalBenchmark

Publicacoes cientificas e transparencia academica

Artigos de Investigacao

O nosso trabalho de avaliacao de modelos de IA no ambito medico e sustentado por publicacoes cientificas revistas por pares, garantindo a transparencia e reprodutibilidade dos nossos resultados.

Paper 2026

Proximo

Em preparacao

Estamos a trabalhar num novo artigo de investigacao que incluira a analise completa dos resultados do MIR 2026, com dados atualizados e novos modelos avaliados.

Incluira:

  • Analise completa dos resultados MIR 2026
  • Avaliacao de modelos de ultima geracao
  • Comparativa interanual 2024-2026
  • Novas metricas de avaliacao multimodal

Paper 2025

Disponivel

Publicado

Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application

Autores

Carlos Luengo Vera, Ignacio Ferro Picon, M. Teresa del Val Nunez, Jose Andres Gomez Gandia, Antonio de Lucas Ancillo, Victor Ramos Arroyo, Carlos Milan Figueredo

Este estudo apresenta uma avaliacao comparativa exaustiva de 22 modelos de linguagem de grande escala (LLMs) nos exames MIR espanhois de 2024 e 2025.

Resultados destacados

Metricas-chave do estudo

22
Modelos avaliados
420
Perguntas analisadas
210
Perguntas por ciclo
2024-2025
Ciclos MIR

Pontos-chave do estudo

Objetivo do estudo

Avaliacao comparativa exaustiva de modelos de linguagem de proposito geral e especializados em medicina nos exames MIR espanhois.

  • 22 modelos de linguagem (LLMs) avaliados
  • Exames MIR oficiais de Espanha 2024 e 2025
  • Analise de capacidades de raciocinio clinico
  • Comparativa entre modelos generalistas e especializados

Metodologia

Quadro de avaliacao rigoroso baseado em perguntas oficiais do exame MIR com sistema de pontuacao padrao.

  • 210 perguntas de escolha multipla oficiais por ciclo
  • Sistema de pontuacao MIR padrao (+3/-1/0)
  • Avaliacao zero-shot sem exemplos previos
  • Processamento multimodal de imagens medicas

Modelos avaliados

Ampla selecao de modelos que inclui tanto sistemas generalistas como especializados no dominio medico.

  • OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
  • Anthropic: Claude 3 (Opus, Sonnet, Haiku)
  • Google: Gemini Pro, Gemini Ultra
  • Sistemas especializados: Miri Pro

Ambito do estudo

Avaliacao integral que abrange multiplas dimensoes do conhecimento medico e competencias clinicas.

  • Cobertura de todas as especialidades medicas do MIR
  • Perguntas com e sem suporte de imagem
  • Avaliacao de raciocinio diagnostico e terapeutico
  • Analise de consistencia entre ciclos de exame

Principais descobertas

Resultados significativos que revelam diferencas importantes entre os distintos tipos de modelos avaliados.

  • Modelos especializados superam os generalistas
  • Maior precisao em raciocinio clinico complexo
  • Variabilidade na interpretacao de imagens medicas
  • Diminuicao de desempenho entre ciclos 2024-2025

Conclusoes

Implicacoes importantes para o futuro da IA em medicina e a educacao medica.

  • Potencial do fine-tuning especifico de dominio
  • Importancia critica de capacidades multimodais
  • Necessidade de benchmarks atualizados anualmente
  • Aplicacoes potenciais em educacao medica
Loading chart...

Descoberta destacada

Observou-se uma ligeira diminuicao no desempenho entre os ciclos 2024-2025, atribuida a alteracoes no desenho das perguntas para reduzir a memorizacao.

Explore os nossos resultados

Consulte os rankings atualizados de modelos de IA ou proponha o seu proprio modelo para avaliacao.