MedicalBenchmark

A túa guía completa de MedicalBenchmark

Documentación

Todo o que necesitas saber sobre como avaliamos modelos de IA en exames médicos oficiais de España. Guía orientada a investigadores e profesionais da saúde.

Que é MedicalBenchmark

MedicalBenchmark é unha plataforma independente de avaliación que mide o rendemento de modelos de intelixencia artificial en exames médicos oficiais de España, principalmente o MIR.

A nosa misión é proporcionar datos obxectivos, reproducibles e de libre acceso para que investigadores, profesionais sanitarios e desenvolvedores poidan entender as capacidades reais da IA en medicina.

Avaliación independente

Sen afiliación a ningún provedor de IA. Avaliamos todos os modelos co mesmo protocolo estandarizado.

Exames oficiais

Utilizamos preguntas reais do MIR publicadas polo Ministerio de Sanidade de España.

+280 modelos de IA

A base de datos máis completa de avaliacións de IA médica en español, incluíndo modelos propietarios e de código aberto.

Datos abertos

Todos os resultados, respostas e métricas están dispoñibles publicamente para fomentar a investigación aberta.

O exame MIR

O MIR (Médico Interno Residente) é o exame nacional de España para acceder á formación médica especializada. É unha proba estandarizada, pública e altamente competitiva.

Cada convocatoria do MIR consta de 200 preguntas válidas máis 10 de reserva (210 en total). Cada pregunta ten 4 opcións de resposta, das cales só unha é correcta.

Sistema de puntuación

Resposta correcta

+3 puntos

Resposta incorrecta

-1 punto

Resposta en branco

0 puntos

Fórmula de netas

Netas = Acertos - (Fallos / 3)

As netas representan o número efectivo de preguntas acertadas, descontando a penalización por respostas incorrectas. É a métrica oficial do MIR.

Algunhas preguntas poden ser anuladas tras a publicación do exame. As preguntas anuladas non contan para o cómputo de netas e exclúense da avaliación.

Como se avalían os modelos

Todos os modelos se avalían baixo un protocolo estandarizado zero-shot, o que significa que non reciben exemplos previos nin adestramento específico para o exame.

En avaliación zero-shot, o modelo recibe cada pregunta de forma illada, sen exemplos previos (few-shot) nin instrucións de adestramento específicas para o MIR.

1

Preparación do prompt

Cada pregunta formátase cun prompt estandarizado que inclúe o enunciado, as opcións de resposta e unha instrución clara para seleccionar unha soa opción.

2

Envío ao modelo

A pregunta envíase á API do modelo sen contexto adicional, exemplos previos nin system prompts especializados.

3

Extracción da resposta

Analízase a resposta do modelo para extraer a opción seleccionada (A, B, C ou D) usando múltiples métodos de parsing.

4

Cálculo de métricas

Rexístranse a resposta, tokens utilizados, tempo de resposta, custo e calcúlase a puntuación segundo o sistema oficial do MIR.

5

Publicación de resultados

Os resultados publícanse na plataforma con total transparencia: cada resposta individual é verificable.

Entendendo os resultados

Cada modelo avaliado ten un perfil completo con múltiples métricas. Aquí explicámosche como interpretar cada unha.

Accuracy (Precisión)

Porcentaxe de preguntas respondidas correctamente sobre o total de preguntas válidas. É a métrica máis intuitiva: un 80% significa que o modelo acertou 8 de cada 10 preguntas.

Netas

Puntuación oficial do MIR que ten en conta a penalización por respostas incorrectas. Reflicte mellor o rendemento real que a accuracy pura.

Score (Puntuación)

Puntuación final calculada como 3 × Netas. É a métrica utilizada oficialmente para ordenar aos candidatos do MIR.

Preguntas discriminatorias

Preguntas onde os modelos Frontier (de maior rendemento) non se poñen de acordo na resposta correcta. Son especialmente útiles para analizar as fronteiras do coñecemento da IA.

Tokens

Cantidade de texto procesado (entrada) e xerado (saída) polo modelo, medido en tokens. Inflúe directamente no custo.

Custo

Custo estimado en USD de avaliar o modelo en todo o exame, baseado nos prezos públicos de cada API.

Especialidades médicas

As preguntas do MIR cobren máis de 30 especialidades médicas. Cada pregunta está clasificada por especialidade, permitindo analizar o rendemento dos modelos por área de coñecemento.

AlerxoloxíaAnestesioloxía e ReanimaciónCardioloxíaCoidados PaliativosDermatoloxíaEndocrinoloxía e NutriciónEnfermidades InfecciosasEpidemioloxíaEstatísticaFarmacoloxíaGastroenteroloxíaXenéticaXeriatríaXinecoloxía e ObstetriciaHematoloxíaInmunoloxíaMedicina Legal e BioéticaNefroloxíaPneumoloxíaNeuroloxíaOftalmoloxíaOncoloxía MédicaORLPediatríaPlanificación e Xestión SanitariaPsiquiatríaRadioloxía-UrxenciasReumatoloxíaTraumatoloxíaUroloxía

Podes filtrar os resultados por especialidade na páxina de detalle de cada modelo.

Tipos de preguntas

Cada pregunta do MIR está clasificada segundo o tipo de razoamento clínico que require. Os 14 tipos reflicten as competencias avaliadas na formación médica.

DiagnósticoTratamentoProbasInterpretaciónFisiopatoloxíaRiscoPrevenciónPrognósticoEpidemioloxíaBioestatísticaÉticaLegalFarmacoloxíaAnatomía

O desglose por tipo de pregunta está dispoñible no perfil de cada modelo.

Integridade dos datos

A fiabilidade dun benchmark depende da integridade dos seus datos. Tomamos medidas específicas para garantir avaliacións xustas e non contaminadas.

O MIR 2026 é o noso benchmark virxe: ningún modelo foi adestrado con estas preguntas, xa que se publicaron despois das súas datas de corte de adestramento.

Sen contaminación

Os exames máis recentes non estaban dispoñibles durante o adestramento dos modelos, eliminando o risco de memorización.

Comparación xusta

Todos os modelos reciben exactamente o mesmo prompt, nas mesmas condicións, sen vantaxes para ningún provedor.

Reproducibilidade

Publicamos os prompts, respostas e configuracións exactas para que calquera investigador poida reproducir os nosos resultados.

Como usar a plataforma

MedicalBenchmark ofrece múltiples formas de explorar e analizar os datos de avaliación de IA médica.

Explorar rankings

Consulta a clasificación completa de modelos por exame. Filtra por tipo de modelo, ordena por diferentes métricas e compara resultados.

Ver rankings

Ver preguntas do exame

Explora as preguntas do MIR e observa como respondeu cada modelo. Identifica patróns de erro e preguntas especialmente difíciles para a IA.

Ver exames

Comparar modelos

Accede ao perfil detallado de cada modelo para ver o seu rendemento desglosado por especialidade, tipo de pregunta e métricas de eficiencia.

Ver rankings

Acceder aos datos

Descarga datasets completos para investigación ou solicita acceso á API para integrar os datos nas túas propias ferramentas de análise.

Ver datasets

Glosario

Definicións dos termos clave utilizados na plataforma.

Accuracy (Precisión)
Porcentaxe de respostas correctas sobre o total de preguntas válidas do exame.
Netas
Métrica oficial do MIR. Calcúlase como: Acertos - (Fallos / 3). Reflicte o rendemento real penalizando respostas incorrectas.
Score (Puntuación)
Puntuación final do MIR, calculada como 3 × Netas. É a métrica utilizada para ordenar candidatos.
Zero-shot
Método de avaliación onde o modelo non recibe exemplos previos nin adestramento específico para a tarefa. Preséntaselle directamente a pregunta.
MIR
Médico Interno Residente. Exame nacional de España para acceder á formación médica especializada.
Prompt
Texto de entrada que se envía ao modelo de IA. No noso caso, inclúe a pregunta do MIR formateada coas súas opcións de resposta.
Token
Unidade mínima de texto que procesan os modelos de linguaxe. Aproximadamente equivale a 3/4 dunha palabra en galego.
Frontier (modelo)
Modelos de IA de última xeración co maior rendemento. Inclúen modelos como GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, etc.
Multimodal
Capacidade dun modelo para procesar tanto texto como imaxes. Relevante para preguntas do MIR que inclúen imaxes clínicas.
Preguntas discriminatorias
Preguntas onde os modelos de IA de maior rendemento (Frontier) non se poñen de acordo na resposta correcta.
Benchmark virxe
Exame cuxas preguntas non existían durante o adestramento dos modelos avaliados, garantindo cero contaminación de datos.
Código aberto (Open Source)
Modelos cuxo código e pesos están dispoñibles publicamente para a súa descarga e uso libre.
API
Interface de programación que permite acceder aos datos de MedicalBenchmark de forma programática.

Preguntas frecuentes

Respostas ás dúbidas máis comúns sobre MedicalBenchmark.

Son fiables os resultados?

Si. Cada avaliación segue un protocolo estandarizado e reproducible. Publicamos todas as respostas individuais para que calquera investigador poida verificar os resultados. Ademais, os nosos datos foron validados en publicacións científicas revisadas por pares.

Con que frecuencia se actualizan os rankings?

Os rankings actualízanse continuamente a medida que avaliamos novos modelos ou se publican novas versións. Cada convocatoria do MIR engádese cando o Ministerio de Sanidade publica oficialmente as preguntas e respostas.

Por que usades o MIR e non outros exames?

O MIR é o exame médico máis importante de España, con preguntas deseñadas por expertos e validadas estatisticamente. É público, estandarizado e cobre todo o espectro da medicina. Ademais, ao ser en español, permite avaliar modelos nun idioma distinto ao inglés.

Que modelos están incluídos?

Avaliamos máis de 280 modelos, incluíndo modelos propietarios (GPT-4, Claude, Gemini, etc.) e de código aberto (LLaMA, Mistral, Qwen, etc.). Calquera persoa pode propoñer un modelo para avaliación.

Podo descargar os datos?

Si. Ofrecemos datasets completos na páxina de Datasets, incluíndo preguntas, respostas de cada modelo e métricas detalladas. Para acceso programático, tamén dispomos dunha API.

En que se diferencia doutros benchmarks médicos?

MedicalBenchmark distínguese por usar exames oficiais reais (non sintéticos), avaliar en español, incluír o sistema de puntuación oficial do MIR con penalización, e ofrecer un benchmark virxe con exames non contaminados.

Como podo contribuír ou colaborar?

Podes propoñer modelos para avaliación, reportar erros, suxerir melloras ou colaborar en investigación. Visita a nosa páxina de contacto para máis información.

Canto custa usar MedicalBenchmark?

A plataforma é completamente gratuíta. Todos os datos, rankings e análises están dispoñibles de forma aberta. Cremos que a transparencia na avaliación de IA médica beneficia a toda a comunidade.

Listo para explorar?

Consulta os rankings de modelos de IA en exames MIR e descobre como renden en medicina.