MedicalBenchmark

Rigor cientific i transparencia en l'avaluacio d'IA medica

Metodologia d'Avaluacio

La nostra metodologia garanteix una avaluacio justa, reproduible i cientificament rigorosa dels models d'intel·ligencia artificial en l'ambit medic. Utilitzem l'examen MIR oficial d'Espanya com a referencia estandarditzada.

Que es l'examen MIR?

El MIR (Metge Intern Resident) es la prova nacional que han de superar els graduats en Medicina per accedir a la formacio sanitaria especialitzada a Espanya. Es l'estandard d'or per avaluar coneixements medics a nivell professional.

200 preguntes oficials

Mes 10 preguntes de reserva per si alguna es anul·lada

4 opcions per pregunta

Una sola resposta correcta, tres distractors

Prova nacional unificada

Identica per a tots els candidats a tota Espanya

Elaborada per experts

Comissio d'especialistes del Ministeri de Sanitat

MIR 2026: Un Benchmark Verge

L'examen MIR 2026 representa una oportunitat unica en l'avaluacio de models d'IA: va ser publicat DESPRES de la data de tall d'entrenament de tots els models avaluats.

Aixo significa que cap model va poder haver vist aquestes preguntes durant el seu entrenament, garantint una avaluacio zero-shot real.

Sense contaminacio d'entrenament

Les preguntes del MIR 2026 no existien quan els models van ser entrenats

Avaluacio zero-shot real

Els models responen sense haver vist mai les preguntes previament

Comparacio justa entre models

Tots els models parteixen de les mateixes condicions inicials

Sistema de Puntuacio Oficial

Utilitzem el sistema de puntuacio oficial de l'examen MIR, dissenyat per penalitzar les respostes incorrectes i desincentivar les respostes a l'atzar.

Resposta correcta

+3 punts

Resposta incorrecta

-1 punt

Resposta en blanc

0 punts

Netes = Encerts - (Errors / 3)

Netas = Aciertos - (Fallos / 3)

La formula de 'netes' equilibra el risc de respondre incorrectament. Per cada 3 errors, es perd l'equivalent a 1 encert.

Puntuacio = 3 x Netes

Score = 3 x Netas

Les preguntes anul·lades oficialment no es comptabilitzen en la puntuacio.

Protocol d'Avaluacio

Seguim un protocol estandarditzat per garantir la reproduibilitat i comparabilitat dels resultats.

1

Preparacio del Prompt

Cada pregunta es contextualitza amb un prompt especific que situa el model en el rol de metge resident espanyol realitzant l'examen MIR.

2

Enviament de la Pregunta

La pregunta s'envia en format XML estructurat, incloent l'enunciat, les opcions de resposta i imatges si n'hi ha.

3

Processament de Resposta

El model genera la seva resposta amb raonament clinic complet i selecciona una opcio.

4

Extraccio Estandarditzada

Un sistema automatitzat extreu l'opcio elegida del text de resposta, gestionant diferents formats.

5

Calcul de Puntuacio

S'aplica el sistema de puntuacio oficial MIR i es registren totes les metriques.

Disseny del Prompt

El prompt esta dissenyat per contextualitzar el model en el sistema sanitari espanyol i en la situacio especifica de l'examen MIR.

Prompt Template
Ets un metge resident espanyol realitzant l'examen MIR.
    Analitza la seguent pregunta i proporciona la teva resposta.
    <pregunta>
    {enunciat}
    </pregunta>
    <opcions>
    A) {opcio_a}
    B) {opcio_b}
    C) {opcio_c}
    D) {opcio_d}
    </opcions>
    Raona la teva resposta i al final indica clarament la teva eleccio
    amb el format: "La meva resposta es: [lletra]"

Raonament del disseny:

  • Context espanyol: referencia explicita al sistema sanitari espanyol
  • Rol definit: el model actua com a metge resident realitzant l'examen
  • Instruccions clares: format de resposta especificat per facilitar l'extraccio
  • Sense pistes addicionals: el model nomes rep la informacio de la pregunta

Extraccio de Respostes

Utilitzem un sistema robust d'extraccio per identificar l'opcio elegida per cada model, independentment de les variacions en el format de resposta.

Model secundari de parsing

Un model especialitzat analitza la resposta i extreu l'opcio elegida

Patrons de cerca

Expressions regulars cerquen frases clau com 'La meva resposta es:', 'L'opcio correcta es:', etc.

Sistema de reintents

Si l'extraccio falla, es sol·licita al model que clarifiqui la seva resposta

Nivell de confianca

Es registra la confianca en l'extraccio per a cada resposta

Suport Multimodal

L'examen MIR inclou preguntes amb imatges mediques (radiografies, ECGs, talls histologics, etc.). El nostre sistema detecta i gestiona automaticament aquestes preguntes.

Deteccio automatica

El sistema identifica quins models tenen capacitat de visio

Enviament d'imatges

Les imatges mediques s'envien juntament amb el text de la pregunta

Models nomes-text

Per a models sense visio, s'indica que la pregunta conte una imatge no disponible

Metriques separades

Es registren metriques especifiques per a preguntes amb i sense imatges

Metriques Capturades

Registrem multiples metriques per a cada resposta, permetent una analisi detallada del rendiment de cada model.

Temps de resposta

Latencia total des de l'enviament fins a la resposta completa (ms)

Tokens d'entrada

Nombre de tokens en el prompt enviat al model

Tokens de sortida

Nombre de tokens generats en la resposta

Tokens de raonament

Tokens utilitzats en el proces de raonament (si aplica)

Cost per consulta

Cost estimat en USD basat en els preus de l'API

Nivell de confianca

Confianca del model en la seva resposta (si esta disponible)

Transparencia i Reproduibilitat

Ens comprometem amb la transparencia total en la nostra metodologia. Qualsevol investigador pot verificar i reproduir els nostres resultats.

Metodologia documentada

Tots els detalls del proces d'avaluacio estan documentats publicament

Dades d'entrada publiques

Les preguntes del MIR son documents publics del Ministeri

Respostes verificables

Les respostes dels models s'emmagatzemen per a verificacio posterior

Codi obert

El codi d'avaluacio estara disponible per a inspeccio i reproduccio

Explora els Resultats

Consulta el rendiment detallat de cada model en les preguntes del MIR 2026.