MedicalBenchmark

La teva guia completa de MedicalBenchmark

Documentació

Tot el que necessites saber sobre com avaluem models d'IA en exàmens mèdics oficials d'Espanya. Guia orientada a investigadors i professionals de la salut.

Què és MedicalBenchmark

MedicalBenchmark és una plataforma independent d'avaluació que mesura el rendiment de models d'intel·ligència artificial en exàmens mèdics oficials d'Espanya, principalment el MIR.

La nostra missió és proporcionar dades objectives, reproduïbles i de lliure accés perquè investigadors, professionals sanitaris i desenvolupadors puguin entendre les capacitats reals de la IA en medicina.

Avaluació independent

Sense afiliació a cap proveïdor d'IA. Avaluem tots els models amb el mateix protocol estandarditzat.

Exàmens oficials

Utilitzem preguntes reals del MIR publicades pel Ministeri de Sanitat d'Espanya.

+280 models d'IA

La base de dades més completa d'avaluacions d'IA mèdica en espanyol, incloent models propietaris i de codi obert.

Dades obertes

Tots els resultats, respostes i mètriques estan disponibles públicament per fomentar la investigació oberta.

L'examen MIR

El MIR (Médico Interno Residente) és l'examen nacional d'Espanya per accedir a la formació mèdica especialitzada. És una prova estandarditzada, pública i altament competitiva.

Cada convocatòria del MIR consta de 200 preguntes vàlides més 10 de reserva (210 en total). Cada pregunta té 4 opcions de resposta, de les quals només una és correcta.

Sistema de puntuació

Resposta correcta

+3 punts

Resposta incorrecta

-1 punt

Resposta en blanc

0 punts

Fórmula de netes

Netes = Encerts - (Errors / 3)

Les netes representen el nombre efectiu de preguntes encertades, descomptant la penalització per respostes incorrectes. És la mètrica oficial del MIR.

Algunes preguntes poden ser anul·lades després de la publicació de l'examen. Les preguntes anul·lades no compten per al còmput de netes i s'exclouen de l'avaluació.

Com s'avaluen els models

Tots els models s'avaluen sota un protocol estandarditzat zero-shot, el que significa que no reben exemples previs ni entrenament específic per a l'examen.

En avaluació zero-shot, el model rep cada pregunta de forma aïllada, sense exemples previs (few-shot) ni instruccions d'entrenament específiques per al MIR.

1

Preparació del prompt

Cada pregunta es formata amb un prompt estandarditzat que inclou l'enunciat, les opcions de resposta i una instrucció clara per seleccionar una sola opció.

2

Enviament al model

La pregunta s'envia a l'API del model sense context addicional, exemples previs ni system prompts especialitzats.

3

Extracció de la resposta

S'analitza la resposta del model per extreure l'opció seleccionada (A, B, C o D) usant múltiples mètodes de parsing.

4

Càlcul de mètriques

Es registren la resposta, tokens utilitzats, temps de resposta, cost i es calcula la puntuació segons el sistema oficial del MIR.

5

Publicació de resultats

Els resultats es publiquen a la plataforma amb total transparència: cada resposta individual és verificable.

Entenent els resultats

Cada model avaluat té un perfil complet amb múltiples mètriques. Aquí t'expliquem com interpretar cadascuna.

Accuracy (Precisió)

Percentatge de preguntes respostes correctament sobre el total de preguntes vàlides. És la mètrica més intuïtiva: un 80% significa que el model va encertar 8 de cada 10 preguntes.

Netes

Puntuació oficial del MIR que té en compte la penalització per respostes incorrectes. Reflecteix millor el rendiment real que l'accuracy pura.

Score (Puntuació)

Puntuació final calculada com 3 × Netes. És la mètrica utilitzada oficialment per ordenar els candidats del MIR.

Preguntes discriminatòries

Preguntes on els models Frontier (de major rendiment) no es posen d'acord en la resposta correcta. Són especialment útils per analitzar les fronteres del coneixement de la IA.

Tokens

Quantitat de text processat (entrada) i generat (sortida) pel model, mesurat en tokens. Influeix directament en el cost.

Cost

Cost estimat en USD d'avaluar el model en tot l'examen, basat en els preus públics de cada API.

Especialitats mèdiques

Les preguntes del MIR cobreixen més de 30 especialitats mèdiques. Cada pregunta està classificada per especialitat, permetent analitzar el rendiment dels models per àrea de coneixement.

Al·lergologiaAnestesiologia i ReanimacióCardiologiaCures Pal·liativesDermatologiaEndocrinologia i NutricióMalalties InfecciosesEpidemiologiaEstadísticaFarmacologiaGastroenterologiaGenèticaGeriatriaGinecologia i ObstetríciaHematologiaImmunologiaMedicina Legal i BioèticaNefrologiaPneumologiaNeurologiaOftalmologiaOncologia MèdicaORLPediatriaPlanificació i Gestió SanitàriaPsiquiatriaRadiologia-UrgènciesReumatologiaTraumatologiaUrologia

Pots filtrar els resultats per especialitat a la pàgina de detall de cada model.

Tipus de preguntes

Cada pregunta del MIR està classificada segons el tipus de raonament clínic que requereix. Els 14 tipus reflecteixen les competències avaluades en la formació mèdica.

DiagnòsticTractamentProvesInterpretacióFisiopatologiaRiscPrevencióPronòsticEpidemiologiaBioestadísticaÈticaLegalFarmacologiaAnatomia

El desglossament per tipus de pregunta està disponible al perfil de cada model.

Integritat de les dades

La fiabilitat d'un benchmark depèn de la integritat de les seves dades. Prenem mesures específiques per garantir avaluacions justes i no contaminades.

El MIR 2026 és el nostre benchmark verge: cap model va ser entrenat amb aquestes preguntes, ja que es van publicar després de les seves dates de tall d'entrenament.

Sense contaminació

Els exàmens més recents no estaven disponibles durant l'entrenament dels models, eliminant el risc de memorització.

Comparació justa

Tots els models reben exactament el mateix prompt, en les mateixes condicions, sense avantatges per a cap proveïdor.

Reproduïbilitat

Publiquem els prompts, respostes i configuracions exactes perquè qualsevol investigador pugui reproduir els nostres resultats.

Com usar la plataforma

MedicalBenchmark ofereix múltiples formes d'explorar i analitzar les dades d'avaluació d'IA mèdica.

Explorar rànquings

Consulta la classificació completa de models per examen. Filtra per tipus de model, ordena per diferents mètriques i compara resultats.

Veure rànquings

Veure preguntes de l'examen

Explora les preguntes del MIR i observa com va respondre cada model. Identifica patrons d'error i preguntes especialment difícils per a la IA.

Veure exàmens

Comparar models

Accedeix al perfil detallat de cada model per veure el seu rendiment desglossat per especialitat, tipus de pregunta i mètriques d'eficiència.

Veure rànquings

Accedir a les dades

Descarrega datasets complets per a investigació o sol·licita accés a l'API per integrar les dades a les teves pròpies eines d'anàlisi.

Veure datasets

Glossari

Definicions dels termes clau utilitzats a la plataforma.

Accuracy (Precisió)
Percentatge de respostes correctes sobre el total de preguntes vàlides de l'examen.
Netes
Mètrica oficial del MIR. Es calcula com: Encerts - (Errors / 3). Reflecteix el rendiment real penalitzant respostes incorrectes.
Score (Puntuació)
Puntuació final del MIR, calculada com 3 × Netes. És la mètrica utilitzada per ordenar candidats.
Zero-shot
Mètode d'avaluació on el model no rep exemples previs ni entrenament específic per a la tasca. Se li presenta directament la pregunta.
MIR
Médico Interno Residente. Examen nacional d'Espanya per accedir a la formació mèdica especialitzada.
Prompt
Text d'entrada que s'envia al model d'IA. En el nostre cas, inclou la pregunta del MIR formatada amb les seves opcions de resposta.
Token
Unitat mínima de text que processen els models de llenguatge. Aproximadament equival a 3/4 d'una paraula en català.
Frontier (model)
Models d'IA d'última generació amb el major rendiment. Inclouen models com GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, etc.
Multimodal
Capacitat d'un model per processar tant text com imatges. Rellevant per a preguntes del MIR que inclouen imatges clíniques.
Preguntes discriminatòries
Preguntes on els models d'IA de major rendiment (Frontier) no es posen d'acord en la resposta correcta.
Benchmark verge
Examen les preguntes del qual no existien durant l'entrenament dels models avaluats, garantint zero contaminació de dades.
Codi obert (Open Source)
Models el codi i pesos dels quals estan disponibles públicament per a la seva descàrrega i ús lliure.
API
Interfície de programació que permet accedir a les dades de MedicalBenchmark de forma programàtica.

Preguntes freqüents

Respostes als dubtes més comuns sobre MedicalBenchmark.

Són fiables els resultats?

Sí. Cada avaluació segueix un protocol estandarditzat i reproduïble. Publiquem totes les respostes individuals perquè qualsevol investigador pugui verificar els resultats. A més, les nostres dades han estat validades en publicacions científiques revisades per parells.

Amb quina freqüència s'actualitzen els rànquings?

Els rànquings s'actualitzen contínuament a mesura que avaluem nous models o es publiquen noves versions. Cada convocatòria del MIR s'afegeix quan el Ministeri de Sanitat publica oficialment les preguntes i respostes.

Per què feu servir el MIR i no altres exàmens?

El MIR és l'examen mèdic més important d'Espanya, amb preguntes dissenyades per experts i validades estadísticament. És públic, estandarditzat i cobreix tot l'espectre de la medicina. A més, en ser en espanyol, permet avaluar models en un idioma diferent de l'anglès.

Quins models hi ha inclosos?

Avaluem més de 280 models, incloent models propietaris (GPT-4, Claude, Gemini, etc.) i de codi obert (LLaMA, Mistral, Qwen, etc.). Qualsevol persona pot proposar un model per a avaluació.

Puc descarregar les dades?

Sí. Oferim datasets complets a la pàgina de Datasets, incloent preguntes, respostes de cada model i mètriques detallades. Per a accés programàtic, també disposem d'una API.

En què es diferencia d'altres benchmarks mèdics?

MedicalBenchmark es distingeix per usar exàmens oficials reals (no sintètics), avaluar en espanyol, incloure el sistema de puntuació oficial del MIR amb penalització, i oferir un benchmark verge amb exàmens no contaminats.

Com puc contribuir o col·laborar?

Pots proposar models per a avaluació, reportar errors, suggerir millores o col·laborar en investigació. Visita la nostra pàgina de contacte per a més informació.

Quant costa usar MedicalBenchmark?

La plataforma és completament gratuïta. Totes les dades, rànquings i anàlisis estan disponibles de forma oberta. Creiem que la transparència en l'avaluació d'IA mèdica beneficia tota la comunitat.

Preparat per explorar?

Consulta els rànquings de models d'IA en exàmens MIR i descobreix com rendeixen en medicina.