Publicacoes cientificas e transparencia academica

Artigos de Investigacao

O nosso trabalho de avaliacao de modelos de IA no ambito medico e sustentado por publicacoes cientificas revistas por pares, garantindo a transparencia e reprodutibilidade dos nossos resultados.

Paper 2026

Proximo

Em preparacao

Estamos a trabalhar num novo artigo de investigacao que incluira a analise completa dos resultados do MIR 2026, com dados atualizados e novos modelos avaliados.

Incluira:

Analise completa dos resultados MIR 2026
Avaliacao de modelos de ultima geracao
Comparativa interanual 2024-2026
Novas metricas de avaliacao multimodal

Paper 2025

Disponivel

Publicado

Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application

Autores

Carlos Luengo Vera, Ignacio Ferro Picon, M. Teresa del Val Nunez, Jose Andres Gomez Gandia, Antonio de Lucas Ancillo, Victor Ramos Arroyo, Carlos Milan Figueredo

Este estudo apresenta uma avaliacao comparativa exaustiva de 22 modelos de linguagem de grande escala (LLMs) nos exames MIR espanhois de 2024 e 2025.

Resultados destacados

Metricas-chave do estudo

Modelos avaliados

420

Perguntas analisadas

210

Perguntas por ciclo

2024-2025

Ciclos MIR

Pontos-chave do estudo

Objetivo do estudo

Avaliacao comparativa exaustiva de modelos de linguagem de proposito geral e especializados em medicina nos exames MIR espanhois.

22 modelos de linguagem (LLMs) avaliados
Exames MIR oficiais de Espanha 2024 e 2025
Analise de capacidades de raciocinio clinico
Comparativa entre modelos generalistas e especializados

Metodologia

Quadro de avaliacao rigoroso baseado em perguntas oficiais do exame MIR com sistema de pontuacao padrao.

210 perguntas de escolha multipla oficiais por ciclo
Sistema de pontuacao MIR padrao (+3/-1/0)
Avaliacao zero-shot sem exemplos previos
Processamento multimodal de imagens medicas

Modelos avaliados

Ampla selecao de modelos que inclui tanto sistemas generalistas como especializados no dominio medico.

OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
Anthropic: Claude 3 (Opus, Sonnet, Haiku)
Google: Gemini Pro, Gemini Ultra
Sistemas especializados: Miri Pro

Ambito do estudo

Avaliacao integral que abrange multiplas dimensoes do conhecimento medico e competencias clinicas.

Cobertura de todas as especialidades medicas do MIR
Perguntas com e sem suporte de imagem
Avaliacao de raciocinio diagnostico e terapeutico
Analise de consistencia entre ciclos de exame

Principais descobertas

Resultados significativos que revelam diferencas importantes entre os distintos tipos de modelos avaliados.

Modelos especializados superam os generalistas
Maior precisao em raciocinio clinico complexo
Variabilidade na interpretacao de imagens medicas
Diminuicao de desempenho entre ciclos 2024-2025

Conclusoes

Implicacoes importantes para o futuro da IA em medicina e a educacao medica.

Potencial do fine-tuning especifico de dominio
Importancia critica de capacidades multimodais
Necessidade de benchmarks atualizados anualmente
Aplicacoes potenciais em educacao medica

Loading chart...

Descoberta destacada

Observou-se uma ligeira diminuicao no desempenho entre os ciclos 2024-2025, atribuida a alteracoes no desenho das perguntas para reduzir a memorizacao.

Ver artigo completo no arXiv

Explore os nossos resultados

Consulte os rankings atualizados de modelos de IA ou proponha o seu proprio modelo para avaliacao.

Ver Rankings Propor Modelo