Metodologia d'Avaluacio
Que es l'examen MIR?
El MIR (Metge Intern Resident) es la prova nacional que han de superar els graduats en Medicina per a accedir a la formacio sanitaria especialitzada a Espanya. Es l'estandard d'or per a avaluar coneixements medics a nivell professional.
200 preguntes oficials
Mes 10 preguntes de reserva per si alguna es anul·lada
4 opcions per pregunta
Una sola resposta correcta, tres distractors
Prova nacional unificada
Identica per a tots els candidats a tota Espanya
Elaborada per experts
Comissio d'especialistes del Ministeri de Sanitat
MIR 2026: Un Benchmark Verge
L'examen MIR 2026 representa una oportunitat unica en l'avaluacio de models d'IA: va ser publicat DESPRES de la data de tall d'entrenament de tots els models avaluats.
Aixo significa que cap model va poder haver vist estes preguntes durant el seu entrenament, garantint una avaluacio zero-shot real.
Sense contaminacio d'entrenament
Les preguntes del MIR 2026 no existien quan els models van ser entrenats
Avaluacio zero-shot real
Els models responen sense haver vist mai les preguntes previament
Comparacio justa entre models
Tots els models partixen de les mateixes condicions inicials
Sistema de Puntuacio Oficial
Utilitzem el sistema de puntuacio oficial de l'examen MIR, dissenyat per a penalitzar les respostes incorrectes i desincentivar les respostes a l'atzar.
Resposta correcta
+3 punts
Resposta incorrecta
-1 punt
Resposta en blanc
0 punts
Netes = Encerts - (Errors / 3)
La formula de 'netes' equilibra el risc de respondre incorrectament. Per cada 3 errors, es perd l'equivalent a 1 encert.
Puntuacio = 3 x Netes
Les preguntes anul·lades oficialment no es comptabilitzen en la puntuacio.
Protocol d'Avaluacio
Seguim un protocol estandarditzat per a garantir la reproduibilitat i comparabilitat dels resultats.
Preparacio del Prompt
Cada pregunta es contextualitza amb un prompt especific que situa el model en el rol de metge resident espanyol realitzant l'examen MIR.
Enviament de la Pregunta
La pregunta s'envia en format XML estructurat, incloent l'enunciat, les opcions de resposta i imatges si n'hi ha.
Processament de Resposta
El model genera la seua resposta amb raonament clinic complet i selecciona una opcio.
Extraccio Estandarditzada
Un sistema automatitzat extrau l'opcio elegida del text de resposta, gestionant diferents formats.
Calcul de Puntuacio
S'aplica el sistema de puntuacio oficial MIR i es registren totes les metriques.
Disseny del Prompt
El prompt esta dissenyat per a contextualitzar el model en el sistema sanitari espanyol i en la situacio especifica de l'examen MIR.
Ets un metge resident espanyol realitzant l'examen MIR.
Analitza la seguent pregunta i proporciona la teua resposta.
<pregunta>
{enunciat}
</pregunta>
<opcions>
A) {opcio_a}
B) {opcio_b}
C) {opcio_c}
D) {opcio_d}
</opcions>
Raona la teua resposta i al final indica clarament la teua eleccio
amb el format: "La meua resposta es: [lletra]"Raonament del disseny:
- Context espanyol: referencia explicita al sistema sanitari espanyol
- Rol definit: el model actua com a metge resident realitzant l'examen
- Instruccions clares: format de resposta especificat per a facilitar l'extraccio
- Sense pistes addicionals: el model nomes rep la informacio de la pregunta
Extraccio de Respostes
Utilitzem un sistema robust d'extraccio per a identificar l'opcio elegida per cada model, independentment de les variacions en el format de resposta.
Model secundari de parsing
Un model especialitzat analitza la resposta i extrau l'opcio elegida
Patrons de cerca
Expressions regulars cerquen frases clau com 'La meua resposta es:', 'L'opcio correcta es:', etc.
Sistema de reintents
Si l'extraccio falla, es sol·licita al model que clarifique la seua resposta
Nivell de confianca
Es registra la confianca en l'extraccio per a cada resposta
Suport Multimodal
L'examen MIR inclou preguntes amb imatges mediques (radiografies, ECGs, talls histologics, etc.). El nostre sistema detecta i gestiona automaticament estes preguntes.
Deteccio automatica
El sistema identifica quins models tenen capacitat de visio
Enviament d'imatges
Les imatges mediques s'envien juntament amb el text de la pregunta
Models nomes-text
Per a models sense visio, s'indica que la pregunta conte una imatge no disponible
Metriques separades
Es registren metriques especifiques per a preguntes amb i sense imatges
Metriques Capturades
Registrem multiples metriques per a cada resposta, permetent una analisi detallada del rendiment de cada model.
Temps de resposta
Latencia total des de l'enviament fins a la resposta completa (ms)
Tokens d'entrada
Nombre de tokens en el prompt enviat al model
Tokens d'eixida
Nombre de tokens generats en la resposta
Tokens de raonament
Tokens utilitzats en el proces de raonament (si aplica)
Cost per consulta
Cost estimat en USD basat en els preus de l'API
Nivell de confianca
Confianca del model en la seua resposta (si esta disponible)
Transparencia i Reproduibilitat
Ens comprometem amb la transparencia total en la nostra metodologia. Qualsevol investigador pot verificar i reproduir els nostres resultats.
Metodologia documentada
Tots els detalls del proces d'avaluacio estan documentats publicament
Dades d'entrada publiques
Les preguntes del MIR son documents publics del Ministeri
Respostes verificables
Les respostes dels models s'emmagatzemen per a verificacio posterior
Codi obert
El codi d'avaluacio estara disponible per a inspeccio i reproduccio
Explora els Resultats
Consulta el rendiment detallat de cada model en les preguntes del MIR 2026.