Ebaluazio Metodologia
Zer da MIR azterketa?
MIR (Mediku Interno Egoiliarra) Medikuntzako graduatuek osasun prestakuntza espezializatuan sartzeko gainditu behar duten azterketa nazionala da Espainian. Maila profesionalean ezagutza medikoak ebaluatzeko urre estandarra da.
200 galdera ofizial
Gehi 10 erreserba galdera bat baliogabetuz gero
4 aukera galdera bakoitzeko
Erantzun zuzen bakarra, hiru distraktore
Azterketa nazional bateratua
Berbera Espainia osoko hautagaientzat
Adituek eginda
Osasun Ministerioko espezialistek osatutako batzordea
MIR 2026: Benchmark Birjina
MIR 2026 azterketak aukera bakarra eskaintzen du IA modeloen ebaluazioan: ebaluatutako modelo guztien entrenamendu muga-dataren ONDOREN argitaratu zen.
Honek esan nahi du modelorik ez zuela galdera hauek ikusi ahal izan entrenamenduan, zero-shot ebaluazio erreala bermatuz.
Entrenamendu kutsadurarik gabe
MIR 2026 galderak ez zeuden modeloak entrenatu zirenean
Benetako zero-shot ebaluazioa
Modeloek galderak inoiz aurretik ikusi gabe erantzuten dute
Modeloen arteko konparaketa zuzena
Modelo guztiak hasierako baldintza berberetatik abiatzen dira
Puntuazio Sistema Ofiziala
MIR azterketako puntuazio sistema ofiziala erabiltzen dugu, erantzun okerrak zigortzeko eta ausazko erantzunak desanimatzeko diseinatua.
Erantzun zuzena
+3 puntu
Erantzun okerra
-1 puntu
Erantzun zuria
0 puntu
Garbia = Zuzenak - (Okerrak / 3)
'Garbia' formulak oker erantzuteko arriskua orekatzen du. 3 oker bakoitzeko, zuzen 1en baliokidea galtzen da.
Puntuazioa = 3 x Garbia
Ofizialki baliogabetutako galderak ez dira puntuazioan zenbatzen.
Ebaluazio Protokoloa
Protokolo estandarizatu bat jarraitzen dugu emaitzen erreproduzigarritasuna eta konparagarritasuna bermatzeko.
Prompt-aren Prestaketa
Galdera bakoitza prompt zehatz batekin testuinguratzen da, modeloa MIR azterketa egiten ari den mediku egoiliar espainiarraren roletan kokatuz.
Galderaren Bidalketa
Galdera XML formatu egituratuan bidaltzen da, enuntziatua, erantzun aukerak eta irudiak barne.
Erantzunaren Prozesatzea
Modeloak bere erantzuna sortzen du arrazonamendu kliniko osoarekin eta aukera bat hautatzen du.
Erauzketa Estandarizatua
Sistema automatizatu batek hautatutako aukera erauzten du erantzun testutik, formatu desberdinak kudeatuz.
Puntuazio Kalkulua
MIR puntuazio sistema ofiziala aplikatzen da eta metrika guztiak erregistratzen dira.
Prompt-aren Diseinua
Prompt-a modeloa Espainiako osasun sisteman eta MIR azterketaren egoera zehatzean testuinguratzeko diseinatuta dago.
MIR azterketa egiten ari zaren Espainiako mediku egoiliarra zara.
Aztertu hurrengo galdera eta eman zure erantzuna.
<galdera>
{enuntziatua}
</galdera>
<aukerak>
A) {aukera_a}
B) {aukera_b}
C) {aukera_c}
D) {aukera_d}
</aukerak>
Arrazoitu zure erantzuna eta amaieran adierazi argi zure hautua
formatu honekin: "Nire erantzuna da: [letra]"Diseinuaren arrazoia:
- Testuinguru espainiarra: Espainiako osasun sistemaren erreferentzia esplizitua
- Rol definitua: modeloak azterketa egiten ari den mediku egoiliar gisa jarduten du
- Argibide argiak: erantzun formatua zehaztuta erauzketa errazteko
- Pista gehigarririk gabe: modeloak galderaren informazioa soilik jasotzen du
Erantzunen Erauzketa
Erauzketa sistema sendo bat erabiltzen dugu modelo bakoitzak hautatutako aukera identifikatzeko, erantzun formatuaren aldaketez aparte.
Bigarren mailako parsing modeloa
Modelo espezializatu batek erantzuna aztertzen du eta hautatutako aukera erauzten du
Bilaketa patroiak
Adierazpen erregularrek gako esaldiak bilatzen dituzte, 'Nire erantzuna da:', 'Aukera zuzena da:', etab.
Saiakera sistema
Erauzketak huts egiten badu, modeloari bere erantzuna argitzea eskatzen zaio
Konfiantza maila
Erantzun bakoitzerako erauzketaren konfiantza erregistratzen da
Euskarri Multimodala
MIR azterketak irudi medikoak dituzten galderak ditu (erradiografiak, EKGak, ebaki histologikoak, etab.). Gure sistemak automatikoki detektatzen eta kudeatzen ditu galdera hauek.
Detekzio automatikoa
Sistemak zein modelok duten ikusmen gaitasuna identifikatzen du
Irudien bidalketa
Irudi medikoak galderaren testuarekin batera bidaltzen dira
Testu-soilik modeloak
Ikusmenik gabeko modeloentzat, galderak irudi bat duela adierazten da eskuragarri ez dagoela
Metrika bereiziak
Metrika espezifikoak erregistratzen dira irudi gabeko eta irudidun galderetarako
Jasotako Metrikak
Erantzun bakoitzeko metrika anitz erregistratzen ditugu, modelo bakoitzaren errendimenduaren azterketa zehatza ahalbidetuz.
Erantzun denbora
Bidalketatik erantzun osora arteko latentzia osoa (ms)
Sarrerako tokenak
Modeloari bidalitako prompt-eko token kopurua
Irteerako tokenak
Erantzunean sortutako token kopurua
Arrazonamendu tokenak
Arrazonamendu prozesuan erabilitako tokenak (aplikagarria bada)
Kontsulta bakoitzeko kostua
USD-tan estimatutako kostua API prezioak oinarri hartuta
Konfiantza maila
Modeloaren konfiantza bere erantzunean (eskuragarri badago)
Gardentasuna eta Erreproduzigarritasuna
Gardentasun osoarekin konprometitzen gara gure metodologian. Edozein ikertzailek gure emaitzak egiaztatu eta erreproduzitu ditzake.
Metodologia dokumentatua
Ebaluazio prozesuaren xehetasun guztiak publikoki dokumentatuta daude
Sarrerako datu publikoak
MIR galderak Ministerioko dokumentu publikoak dira
Erantzun egiaztagarriak
Modeloen erantzunak gordetzen dira ondorengo egiaztapenerako
Kode irekia
Ebaluazio kodea ikuskaritza eta erreprodukziorako eskuragarri egongo da
Arakatu Emaitzak
Kontsultatu modelo bakoitzaren errendimendu zehatza MIR 2026 galderetan.