Artigos de Investigacao
Paper 2026
ProximoEm preparacao
Estamos a trabalhar num novo artigo de investigacao que incluira a analise completa dos resultados do MIR 2026, com dados atualizados e novos modelos avaliados.
Incluira:
- Analise completa dos resultados MIR 2026
- Avaliacao de modelos de ultima geracao
- Comparativa interanual 2024-2026
- Novas metricas de avaliacao multimodal
Paper 2025
DisponivelPublicado
Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application
Autores
Carlos Luengo Vera, Ignacio Ferro Picon, M. Teresa del Val Nunez, Jose Andres Gomez Gandia, Antonio de Lucas Ancillo, Victor Ramos Arroyo, Carlos Milan Figueredo
Este estudo apresenta uma avaliacao comparativa exaustiva de 22 modelos de linguagem de grande escala (LLMs) nos exames MIR espanhois de 2024 e 2025.
Resultados destacados
Metricas-chave do estudo
Pontos-chave do estudo
Objetivo do estudo
Avaliacao comparativa exaustiva de modelos de linguagem de proposito geral e especializados em medicina nos exames MIR espanhois.
- 22 modelos de linguagem (LLMs) avaliados
- Exames MIR oficiais de Espanha 2024 e 2025
- Analise de capacidades de raciocinio clinico
- Comparativa entre modelos generalistas e especializados
Metodologia
Quadro de avaliacao rigoroso baseado em perguntas oficiais do exame MIR com sistema de pontuacao padrao.
- 210 perguntas de escolha multipla oficiais por ciclo
- Sistema de pontuacao MIR padrao (+3/-1/0)
- Avaliacao zero-shot sem exemplos previos
- Processamento multimodal de imagens medicas
Modelos avaliados
Ampla selecao de modelos que inclui tanto sistemas generalistas como especializados no dominio medico.
- OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
- Anthropic: Claude 3 (Opus, Sonnet, Haiku)
- Google: Gemini Pro, Gemini Ultra
- Sistemas especializados: Miri Pro
Ambito do estudo
Avaliacao integral que abrange multiplas dimensoes do conhecimento medico e competencias clinicas.
- Cobertura de todas as especialidades medicas do MIR
- Perguntas com e sem suporte de imagem
- Avaliacao de raciocinio diagnostico e terapeutico
- Analise de consistencia entre ciclos de exame
Principais descobertas
Resultados significativos que revelam diferencas importantes entre os distintos tipos de modelos avaliados.
- Modelos especializados superam os generalistas
- Maior precisao em raciocinio clinico complexo
- Variabilidade na interpretacao de imagens medicas
- Diminuicao de desempenho entre ciclos 2024-2025
Conclusoes
Implicacoes importantes para o futuro da IA em medicina e a educacao medica.
- Potencial do fine-tuning especifico de dominio
- Importancia critica de capacidades multimodais
- Necessidade de benchmarks atualizados anualmente
- Aplicacoes potenciais em educacao medica
Descoberta destacada
Observou-se uma ligeira diminuicao no desempenho entre os ciclos 2024-2025, atribuida a alteracoes no desenho das perguntas para reduzir a memorizacao.
Explore os nossos resultados
Consulte os rankings atualizados de modelos de IA ou proponha o seu proprio modelo para avaliacao.