MedicalBenchmark

Rigor cientific i transparencia en s'avaluacio d'IA medica

Metodologia d'Avaluacio

Sa nostra metodologia garanteix una avaluacio justa, reproduible i cientificament rigorosa des models d'intel·ligencia artificial en s'ambit medic. Utilitzam s'examen MIR oficial d'Espanya com a referencia estandarditzada.

Que es s'examen MIR?

Es MIR (Metge Intern Resident) es sa prova nacional que han de superar es graduats en Medicina per accedir a sa formacio sanitaria especialitzada a Espanya. Es s'estandard d'or per avaluar coneixements medics a nivell professional.

200 preguntes oficials

Mes 10 preguntes de reserva per si qualque es anul·lada

4 opcions per pregunta

Una sola resposta correcta, tres distractors

Prova nacional unificada

Identica per a tots es candidats a tota Espanya

Elaborada per experts

Comissio d'especialistes des Ministeri de Sanitat

MIR 2026: Un Benchmark Verge

S'examen MIR 2026 representa una oportunitat unica en s'avaluacio de models d'IA: va ser publicat DESPRES de sa data de tall d'entrenament de tots es models avaluats.

Aixo significa que cap model va poder haver vist aquestes preguntes durant es seu entrenament, garantint una avaluacio zero-shot real.

Sense contaminacio d'entrenament

Ses preguntes des MIR 2026 no existien quan es models van ser entrenats

Avaluacio zero-shot real

Es models responen sense haver vist mai ses preguntes previament

Comparacio justa entre models

Tots es models parteixen de ses mateixes condicions inicials

Sistema de Puntuacio Oficial

Utilitzam es sistema de puntuacio oficial de s'examen MIR, dissenyat per penalitzar ses respostes incorrectes i desincentivar ses respostes a s'atzar.

Resposta correcta

+3 punts

Resposta incorrecta

-1 punt

Resposta en blanc

0 punts

Netes = Encerts - (Errors / 3)

Netas = Aciertos - (Fallos / 3)

Sa formula de 'netes' equilibra es risc de respondre incorrectament. Per cada 3 errors, es perd s'equivalent a 1 encert.

Puntuacio = 3 x Netes

Score = 3 x Netas

Ses preguntes anul·lades oficialment no es comptabilitzen en sa puntuacio.

Protocol d'Avaluacio

Seguim un protocol estandarditzat per garantir sa reproduibilitat i comparabilitat des resultats.

1

Preparacio des Prompt

Cada pregunta es contextualitza amb un prompt especific que situa es model en es rol de metge resident espanyol realitzant s'examen MIR.

2

Enviament de sa Pregunta

Sa pregunta s'envia en format XML estructurat, incloent s'enunciat, ses opcions de resposta i imatges si n'hi ha.

3

Processament de Resposta

Es model genera sa seva resposta amb raonament clinic complet i selecciona una opcio.

4

Extraccio Estandarditzada

Un sistema automatitzat extreu s'opcio elegida des text de resposta, gestionant diferents formats.

5

Calcul de Puntuacio

S'aplica es sistema de puntuacio oficial MIR i es registren totes ses metriques.

Disseny des Prompt

Es prompt esta dissenyat per contextualitzar es model en es sistema sanitari espanyol i en sa situacio especifica de s'examen MIR.

Prompt Template
Ets un metge resident espanyol realitzant s'examen MIR.
    Analitza sa seguent pregunta i proporciona sa teva resposta.
    <pregunta>
    {enunciat}
    </pregunta>
    <opcions>
    A) {opcio_a}
    B) {opcio_b}
    C) {opcio_c}
    D) {opcio_d}
    </opcions>
    Raona sa teva resposta i an es final indica clarament sa teva eleccio
    amb es format: "Sa meva resposta es: [lletra]"

Raonament des disseny:

  • Context espanyol: referencia explicita an es sistema sanitari espanyol
  • Rol definit: es model actua com a metge resident realitzant s'examen
  • Instruccions clares: format de resposta especificat per facilitar s'extraccio
  • Sense pistes addicionals: es model nomes rep sa informacio de sa pregunta

Extraccio de Respostes

Utilitzam un sistema robust d'extraccio per identificar s'opcio elegida per cada model, independentment de ses variacions en es format de resposta.

Model secundari de parsing

Un model especialitzat analitza sa resposta i extreu s'opcio elegida

Patrons de cerca

Expressions regulars cerquen frases clau com 'Sa meva resposta es:', 'S'opcio correcta es:', etc.

Sistema de reintents

Si s'extraccio falla, es sol·licita an es model que clarifiqui sa seva resposta

Nivell de confianca

Es registra sa confianca en s'extraccio per a cada resposta

Suport Multimodal

S'examen MIR inclou preguntes amb imatges mediques (radiografies, ECGs, talls histologics, etc.). Es nostre sistema detecta i gestiona automaticament aquestes preguntes.

Deteccio automatica

Es sistema identifica quins models tenen capacitat de visio

Enviament d'imatges

Ses imatges mediques s'envien juntament amb es text de sa pregunta

Models nomes-text

Per a models sense visio, s'indica que sa pregunta conte una imatge no disponible

Metriques separades

Es registren metriques especifiques per a preguntes amb i sense imatges

Metriques Capturades

Registram multiples metriques per a cada resposta, permetent una analisi detallada des rendiment de cada model.

Temps de resposta

Latencia total des de s'enviament fins a sa resposta completa (ms)

Tokens d'entrada

Nombre de tokens en es prompt enviat an es model

Tokens de sortida

Nombre de tokens generats en sa resposta

Tokens de raonament

Tokens utilitzats en es proces de raonament (si aplica)

Cost per consulta

Cost estimat en USD basat en es preus de s'API

Nivell de confianca

Confianca des model en sa seva resposta (si esta disponible)

Transparencia i Reproduibilitat

Mos comprometem amb sa transparencia total en sa nostra metodologia. Qualsevol investigador pot verificar i reproduir es nostres resultats.

Metodologia documentada

Tots es detalls des proces d'avaluacio estan documentats publicament

Dades d'entrada publiques

Ses preguntes des MIR son documents publics des Ministeri

Respostes verificables

Ses respostes des models s'emmagatzemen per a verificacio posterior

Codi obert

Es codi d'avaluacio estara disponible per a inspeccio i reproduccio

Explora es Resultats

Consulta es rendiment detallat de cada model en ses preguntes des MIR 2026.