MedicalBenchmark

Sa teva guia completa de MedicalBenchmark

Documentació

Tot es que necessites saber sobre com avaluam models d'IA en exàmens mèdics oficials d'Espanya. Guia orientada a investigadors i professionals de sa salut.

Què és MedicalBenchmark

MedicalBenchmark és una plataforma independent d'avaluació que mesura es rendiment de models d'intel·ligència artificial en exàmens mèdics oficials d'Espanya, principalment es MIR.

Sa nostra missió és proporcionar dades objectives, reproduïbles i de lliure accés perquè investigadors, professionals sanitaris i desenvolupadors puguin entendre ses capacitats reals de s'IA en medicina.

Avaluació independent

Sense afiliació a cap proveïdor d'IA. Avaluam tots es models amb es mateix protocol estandarditzat.

Exàmens oficials

Utilitzam preguntes reals des MIR publicades pes Ministeri de Sanitat d'Espanya.

+280 models d'IA

Sa base de dades més completa d'avaluacions d'IA mèdica en espanyol, incloent models propietaris i de codi obert.

Dades obertes

Tots es resultats, respostes i mètriques estan disponibles públicament per fomentar s'investigació oberta.

S'examen MIR

Es MIR (Médico Interno Residente) és s'examen nacional d'Espanya per accedir a sa formació mèdica especialitzada. És una prova estandarditzada, pública i altament competitiva.

Cada convocatòria des MIR consta de 200 preguntes vàlides més 10 de reserva (210 en total). Cada pregunta té 4 opcions de resposta, de ses quals només una és correcta.

Sistema de puntuació

Resposta correcta

+3 punts

Resposta incorrecta

-1 punt

Resposta en blanc

0 punts

Fórmula de netes

Netes = Encerts - (Errors / 3)

Ses netes representen es nombre efectiu de preguntes encertades, descomptant sa penalització per respostes incorrectes. És sa mètrica oficial des MIR.

Qualque pregunta pot ser anul·lada després de sa publicació de s'examen. Ses preguntes anul·lades no compten per an es còmput de netes i s'exclouen de s'avaluació.

Com s'avaluen es models

Tots es models s'avaluen davall un protocol estandarditzat zero-shot, es que significa que no reben exemples previs ni entrenament específic per a s'examen.

En avaluació zero-shot, es model rep cada pregunta de forma aïllada, sense exemples previs (few-shot) ni instruccions d'entrenament específiques per an es MIR.

1

Preparació des prompt

Cada pregunta es formata amb un prompt estandarditzat que inclou s'enunciat, ses opcions de resposta i una instrucció clara per seleccionar una sola opció.

2

Enviament an es model

Sa pregunta s'envia a s'API des model sense context addicional, exemples previs ni system prompts especialitzats.

3

Extracció de sa resposta

S'analitza sa resposta des model per extreure s'opció seleccionada (A, B, C o D) usant múltiples mètodes de parsing.

4

Càlcul de mètriques

Es registren sa resposta, tokens utilitzats, temps de resposta, cost i es calcula sa puntuació segons es sistema oficial des MIR.

5

Publicació de resultats

Es resultats es publiquen a sa plataforma amb total transparència: cada resposta individual és verificable.

Entenent es resultats

Cada model avaluat té un perfil complet amb múltiples mètriques. Aquí t'explicam com interpretar cadascuna.

Accuracy (Precisió)

Percentatge de preguntes respostes correctament sobre es total de preguntes vàlides. És sa mètrica més intuïtiva: un 80% significa que es model va encertar 8 de cada 10 preguntes.

Netes

Puntuació oficial des MIR que té en compte sa penalització per respostes incorrectes. Reflecteix millor es rendiment real que s'accuracy pura.

Score (Puntuació)

Puntuació final calculada com 3 × Netes. És sa mètrica utilitzada oficialment per ordenar es candidats des MIR.

Preguntes discriminatòries

Preguntes on es models Frontier (de major rendiment) no es posen d'acord en sa resposta correcta. Són especialment útils per analitzar ses fronteres des coneixement de s'IA.

Tokens

Quantitat de text processat (entrada) i generat (sortida) pes model, mesurat en tokens. Influeix directament en es cost.

Cost

Cost estimat en USD d'avaluar es model en tot s'examen, basat en es preus públics de cada API.

Especialitats mèdiques

Ses preguntes des MIR cobreixen més de 30 especialitats mèdiques. Cada pregunta està classificada per especialitat, permetent analitzar es rendiment des models per àrea de coneixement.

Al·lergologiaAnestesiologia i ReanimacióCardiologiaCures Pal·liativesDermatologiaEndocrinologia i NutricióMalalties InfecciosesEpidemiologiaEstadísticaFarmacologiaGastroenterologiaGenèticaGeriatriaGinecologia i ObstetríciaHematologiaImmunologiaMedicina Legal i BioèticaNefrologiaPneumologiaNeurologiaOftalmologiaOncologia MèdicaORLPediatriaPlanificació i Gestió SanitàriaPsiquiatriaRadiologia-UrgènciesReumatologiaTraumatologiaUrologia

Pots filtrar es resultats per especialitat a sa pàgina de detall de cada model.

Tipus de preguntes

Cada pregunta des MIR està classificada segons es tipus de raonament clínic que requereix. Es 14 tipus reflecteixen ses competències avaluades en sa formació mèdica.

DiagnòsticTractamentProvesInterpretacióFisiopatologiaRiscPrevencióPronòsticEpidemiologiaBioestadísticaÈticaLegalFarmacologiaAnatomia

Es desglossament per tipus de pregunta està disponible an es perfil de cada model.

Integritat de ses dades

Sa fiabilitat d'un benchmark depèn de s'integritat de ses seves dades. Prenem mesures específiques per garantir avaluacions justes i no contaminades.

Es MIR 2026 és es nostre benchmark verge: cap model va ser entrenat amb aquestes preguntes, ja que es van publicar després de ses seves dates de tall d'entrenament.

Sense contaminació

Es exàmens més recents no estaven disponibles durant s'entrenament des models, eliminant es risc de memorització.

Comparació justa

Tots es models reben exactament es mateix prompt, en ses mateixes condicions, sense avantatges per a cap proveïdor.

Reproduïbilitat

Publicam es prompts, respostes i configuracions exactes perquè qualsevol investigador pugui reproduir es nostres resultats.

Com usar sa plataforma

MedicalBenchmark ofereix múltiples formes d'explorar i analitzar ses dades d'avaluació d'IA mèdica.

Explorar rànquings

Consulta sa classificació completa de models per examen. Filtra per tipus de model, ordena per diferents mètriques i compara resultats.

Veure rànquings

Veure preguntes de s'examen

Explora ses preguntes des MIR i observa com va respondre cada model. Identifica patrons d'error i preguntes especialment difícils per a s'IA.

Veure exàmens

Comparar models

Accedeix an es perfil detallat de cada model per veure es seu rendiment desglossat per especialitat, tipus de pregunta i mètriques d'eficiència.

Veure rànquings

Accedir a ses dades

Descarrega datasets complets per a investigació o sol·licita accés a s'API per integrar ses dades a ses teves pròpies eines d'anàlisi.

Veure datasets

Glossari

Definicions des termes clau utilitzats a sa plataforma.

Accuracy (Precisió)
Percentatge de respostes correctes sobre es total de preguntes vàlides de s'examen.
Netes
Mètrica oficial des MIR. Es calcula com: Encerts - (Errors / 3). Reflecteix es rendiment real penalitzant respostes incorrectes.
Score (Puntuació)
Puntuació final des MIR, calculada com 3 × Netes. És sa mètrica utilitzada per ordenar candidats.
Zero-shot
Mètode d'avaluació on es model no rep exemples previs ni entrenament específic per a sa tasca. Se li presenta directament sa pregunta.
MIR
Médico Interno Residente. Examen nacional d'Espanya per accedir a sa formació mèdica especialitzada.
Prompt
Text d'entrada que s'envia an es model d'IA. En es nostre cas, inclou sa pregunta des MIR formatada amb ses seves opcions de resposta.
Token
Unitat mínima de text que processen es models de llenguatge. Aproximadament equival a 3/4 d'una paraula en balear.
Frontier (model)
Models d'IA d'última generació amb es major rendiment. Inclouen models com GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, etc.
Multimodal
Capacitat d'un model per processar tant text com imatges. Rellevant per a preguntes des MIR que inclouen imatges clíniques.
Preguntes discriminatòries
Preguntes on es models d'IA de major rendiment (Frontier) no es posen d'acord en sa resposta correcta.
Benchmark verge
Examen ses preguntes des qual no existien durant s'entrenament des models avaluats, garantint zero contaminació de dades.
Codi obert (Open Source)
Models es codi i pesos des quals estan disponibles públicament per a sa seva descàrrega i ús lliure.
API
Interfície de programació que permet accedir a ses dades de MedicalBenchmark de forma programàtica.

Preguntes freqüents

Respostes an es dubtes més comuns sobre MedicalBenchmark.

Són fiables es resultats?

Sí. Cada avaluació segueix un protocol estandarditzat i reproduïble. Publicam totes ses respostes individuals perquè qualsevol investigador pugui verificar es resultats. A més, ses nostres dades han estat validades en publicacions científiques revisades per parells.

Amb quina freqüència s'actualitzen es rànquings?

Es rànquings s'actualitzen contínuament a mesura que avaluam nous models o es publiquen noves versions. Cada convocatòria des MIR s'afegeix quan es Ministeri de Sanitat publica oficialment ses preguntes i respostes.

Per què feis servir es MIR i no altres exàmens?

Es MIR és s'examen mèdic més important d'Espanya, amb preguntes dissenyades per experts i validades estadísticament. És públic, estandarditzat i cobreix tot s'espectre de sa medicina. A més, en ser en espanyol, permet avaluar models en un idioma diferent de s'anglès.

Quins models hi ha inclosos?

Avaluam més de 280 models, incloent models propietaris (GPT-4, Claude, Gemini, etc.) i de codi obert (LLaMA, Mistral, Qwen, etc.). Qualsevol persona pot proposar un model per a avaluació.

Puc descarregar ses dades?

Sí. Oferim datasets complets a sa pàgina de Datasets, incloent preguntes, respostes de cada model i mètriques detallades. Per a accés programàtic, també disposam d'una API.

En què es diferencia d'altres benchmarks mèdics?

MedicalBenchmark es distingeix per usar exàmens oficials reals (no sintètics), avaluar en espanyol, incloure es sistema de puntuació oficial des MIR amb penalització, i oferir un benchmark verge amb exàmens no contaminats.

Com puc contribuir o col·laborar?

Pots proposar models per a avaluació, reportar errors, suggerir millores o col·laborar en investigació. Visita sa nostra pàgina de contacte per a més informació.

Quant costa usar MedicalBenchmark?

Sa plataforma és completament gratuïta. Totes ses dades, rànquings i anàlisis estan disponibles de forma oberta. Creim que sa transparència en s'avaluació d'IA mèdica beneficia tota sa comunitat.

Preparat per explorar?

Consulta es rànquings de models d'IA en exàmens MIR i descobreix com rendeixen en medicina.