Metodologia d'Avaluacio
Que es s'examen MIR?
Es MIR (Metge Intern Resident) es sa prova nacional que han de superar es graduats en Medicina per accedir a sa formacio sanitaria especialitzada a Espanya. Es s'estandard d'or per avaluar coneixements medics a nivell professional.
200 preguntes oficials
Mes 10 preguntes de reserva per si qualque es anul·lada
4 opcions per pregunta
Una sola resposta correcta, tres distractors
Prova nacional unificada
Identica per a tots es candidats a tota Espanya
Elaborada per experts
Comissio d'especialistes des Ministeri de Sanitat
MIR 2026: Un Benchmark Verge
S'examen MIR 2026 representa una oportunitat unica en s'avaluacio de models d'IA: va ser publicat DESPRES de sa data de tall d'entrenament de tots es models avaluats.
Aixo significa que cap model va poder haver vist aquestes preguntes durant es seu entrenament, garantint una avaluacio zero-shot real.
Sense contaminacio d'entrenament
Ses preguntes des MIR 2026 no existien quan es models van ser entrenats
Avaluacio zero-shot real
Es models responen sense haver vist mai ses preguntes previament
Comparacio justa entre models
Tots es models parteixen de ses mateixes condicions inicials
Sistema de Puntuacio Oficial
Utilitzam es sistema de puntuacio oficial de s'examen MIR, dissenyat per penalitzar ses respostes incorrectes i desincentivar ses respostes a s'atzar.
Resposta correcta
+3 punts
Resposta incorrecta
-1 punt
Resposta en blanc
0 punts
Netes = Encerts - (Errors / 3)
Sa formula de 'netes' equilibra es risc de respondre incorrectament. Per cada 3 errors, es perd s'equivalent a 1 encert.
Puntuacio = 3 x Netes
Ses preguntes anul·lades oficialment no es comptabilitzen en sa puntuacio.
Protocol d'Avaluacio
Seguim un protocol estandarditzat per garantir sa reproduibilitat i comparabilitat des resultats.
Preparacio des Prompt
Cada pregunta es contextualitza amb un prompt especific que situa es model en es rol de metge resident espanyol realitzant s'examen MIR.
Enviament de sa Pregunta
Sa pregunta s'envia en format XML estructurat, incloent s'enunciat, ses opcions de resposta i imatges si n'hi ha.
Processament de Resposta
Es model genera sa seva resposta amb raonament clinic complet i selecciona una opcio.
Extraccio Estandarditzada
Un sistema automatitzat extreu s'opcio elegida des text de resposta, gestionant diferents formats.
Calcul de Puntuacio
S'aplica es sistema de puntuacio oficial MIR i es registren totes ses metriques.
Disseny des Prompt
Es prompt esta dissenyat per contextualitzar es model en es sistema sanitari espanyol i en sa situacio especifica de s'examen MIR.
Ets un metge resident espanyol realitzant s'examen MIR.
Analitza sa seguent pregunta i proporciona sa teva resposta.
<pregunta>
{enunciat}
</pregunta>
<opcions>
A) {opcio_a}
B) {opcio_b}
C) {opcio_c}
D) {opcio_d}
</opcions>
Raona sa teva resposta i an es final indica clarament sa teva eleccio
amb es format: "Sa meva resposta es: [lletra]"Raonament des disseny:
- Context espanyol: referencia explicita an es sistema sanitari espanyol
- Rol definit: es model actua com a metge resident realitzant s'examen
- Instruccions clares: format de resposta especificat per facilitar s'extraccio
- Sense pistes addicionals: es model nomes rep sa informacio de sa pregunta
Extraccio de Respostes
Utilitzam un sistema robust d'extraccio per identificar s'opcio elegida per cada model, independentment de ses variacions en es format de resposta.
Model secundari de parsing
Un model especialitzat analitza sa resposta i extreu s'opcio elegida
Patrons de cerca
Expressions regulars cerquen frases clau com 'Sa meva resposta es:', 'S'opcio correcta es:', etc.
Sistema de reintents
Si s'extraccio falla, es sol·licita an es model que clarifiqui sa seva resposta
Nivell de confianca
Es registra sa confianca en s'extraccio per a cada resposta
Suport Multimodal
S'examen MIR inclou preguntes amb imatges mediques (radiografies, ECGs, talls histologics, etc.). Es nostre sistema detecta i gestiona automaticament aquestes preguntes.
Deteccio automatica
Es sistema identifica quins models tenen capacitat de visio
Enviament d'imatges
Ses imatges mediques s'envien juntament amb es text de sa pregunta
Models nomes-text
Per a models sense visio, s'indica que sa pregunta conte una imatge no disponible
Metriques separades
Es registren metriques especifiques per a preguntes amb i sense imatges
Metriques Capturades
Registram multiples metriques per a cada resposta, permetent una analisi detallada des rendiment de cada model.
Temps de resposta
Latencia total des de s'enviament fins a sa resposta completa (ms)
Tokens d'entrada
Nombre de tokens en es prompt enviat an es model
Tokens de sortida
Nombre de tokens generats en sa resposta
Tokens de raonament
Tokens utilitzats en es proces de raonament (si aplica)
Cost per consulta
Cost estimat en USD basat en es preus de s'API
Nivell de confianca
Confianca des model en sa seva resposta (si esta disponible)
Transparencia i Reproduibilitat
Mos comprometem amb sa transparencia total en sa nostra metodologia. Qualsevol investigador pot verificar i reproduir es nostres resultats.
Metodologia documentada
Tots es detalls des proces d'avaluacio estan documentats publicament
Dades d'entrada publiques
Ses preguntes des MIR son documents publics des Ministeri
Respostes verificables
Ses respostes des models s'emmagatzemen per a verificacio posterior
Codi obert
Es codi d'avaluacio estara disponible per a inspeccio i reproduccio
Explora es Resultats
Consulta es rendiment detallat de cada model en ses preguntes des MIR 2026.