MedicalBenchmark

Zorroztasun zientifikoa eta gardentasuna IA medikoaren ebaluazioan

Ebaluazio Metodologia

Gure metodologiak ebaluazio zuzen, erreproduzigarri eta zientifikoki zorrotza bermatzen du adimen artifizialeko modeloen arloan medikoan. Espainiako MIR azterketa ofiziala erabiltzen dugu erreferentzia estandarizatu gisa.

Zer da MIR azterketa?

MIR (Mediku Interno Egoiliarra) Medikuntzako graduatuek osasun prestakuntza espezializatuan sartzeko gainditu behar duten azterketa nazionala da Espainian. Maila profesionalean ezagutza medikoak ebaluatzeko urre estandarra da.

200 galdera ofizial

Gehi 10 erreserba galdera bat baliogabetuz gero

4 aukera galdera bakoitzeko

Erantzun zuzen bakarra, hiru distraktore

Azterketa nazional bateratua

Berbera Espainia osoko hautagaientzat

Adituek eginda

Osasun Ministerioko espezialistek osatutako batzordea

MIR 2026: Benchmark Birjina

MIR 2026 azterketak aukera bakarra eskaintzen du IA modeloen ebaluazioan: ebaluatutako modelo guztien entrenamendu muga-dataren ONDOREN argitaratu zen.

Honek esan nahi du modelorik ez zuela galdera hauek ikusi ahal izan entrenamenduan, zero-shot ebaluazio erreala bermatuz.

Entrenamendu kutsadurarik gabe

MIR 2026 galderak ez zeuden modeloak entrenatu zirenean

Benetako zero-shot ebaluazioa

Modeloek galderak inoiz aurretik ikusi gabe erantzuten dute

Modeloen arteko konparaketa zuzena

Modelo guztiak hasierako baldintza berberetatik abiatzen dira

Puntuazio Sistema Ofiziala

MIR azterketako puntuazio sistema ofiziala erabiltzen dugu, erantzun okerrak zigortzeko eta ausazko erantzunak desanimatzeko diseinatua.

Erantzun zuzena

+3 puntu

Erantzun okerra

-1 puntu

Erantzun zuria

0 puntu

Garbia = Zuzenak - (Okerrak / 3)

Netas = Aciertos - (Fallos / 3)

'Garbia' formulak oker erantzuteko arriskua orekatzen du. 3 oker bakoitzeko, zuzen 1en baliokidea galtzen da.

Puntuazioa = 3 x Garbia

Score = 3 x Netas

Ofizialki baliogabetutako galderak ez dira puntuazioan zenbatzen.

Ebaluazio Protokoloa

Protokolo estandarizatu bat jarraitzen dugu emaitzen erreproduzigarritasuna eta konparagarritasuna bermatzeko.

1

Prompt-aren Prestaketa

Galdera bakoitza prompt zehatz batekin testuinguratzen da, modeloa MIR azterketa egiten ari den mediku egoiliar espainiarraren roletan kokatuz.

2

Galderaren Bidalketa

Galdera XML formatu egituratuan bidaltzen da, enuntziatua, erantzun aukerak eta irudiak barne.

3

Erantzunaren Prozesatzea

Modeloak bere erantzuna sortzen du arrazonamendu kliniko osoarekin eta aukera bat hautatzen du.

4

Erauzketa Estandarizatua

Sistema automatizatu batek hautatutako aukera erauzten du erantzun testutik, formatu desberdinak kudeatuz.

5

Puntuazio Kalkulua

MIR puntuazio sistema ofiziala aplikatzen da eta metrika guztiak erregistratzen dira.

Prompt-aren Diseinua

Prompt-a modeloa Espainiako osasun sisteman eta MIR azterketaren egoera zehatzean testuinguratzeko diseinatuta dago.

Prompt Template
MIR azterketa egiten ari zaren Espainiako mediku egoiliarra zara.
    Aztertu hurrengo galdera eta eman zure erantzuna.
    <galdera>
    {enuntziatua}
    </galdera>
    <aukerak>
    A) {aukera_a}
    B) {aukera_b}
    C) {aukera_c}
    D) {aukera_d}
    </aukerak>
    Arrazoitu zure erantzuna eta amaieran adierazi argi zure hautua
    formatu honekin: "Nire erantzuna da: [letra]"

Diseinuaren arrazoia:

  • Testuinguru espainiarra: Espainiako osasun sistemaren erreferentzia esplizitua
  • Rol definitua: modeloak azterketa egiten ari den mediku egoiliar gisa jarduten du
  • Argibide argiak: erantzun formatua zehaztuta erauzketa errazteko
  • Pista gehigarririk gabe: modeloak galderaren informazioa soilik jasotzen du

Erantzunen Erauzketa

Erauzketa sistema sendo bat erabiltzen dugu modelo bakoitzak hautatutako aukera identifikatzeko, erantzun formatuaren aldaketez aparte.

Bigarren mailako parsing modeloa

Modelo espezializatu batek erantzuna aztertzen du eta hautatutako aukera erauzten du

Bilaketa patroiak

Adierazpen erregularrek gako esaldiak bilatzen dituzte, 'Nire erantzuna da:', 'Aukera zuzena da:', etab.

Saiakera sistema

Erauzketak huts egiten badu, modeloari bere erantzuna argitzea eskatzen zaio

Konfiantza maila

Erantzun bakoitzerako erauzketaren konfiantza erregistratzen da

Euskarri Multimodala

MIR azterketak irudi medikoak dituzten galderak ditu (erradiografiak, EKGak, ebaki histologikoak, etab.). Gure sistemak automatikoki detektatzen eta kudeatzen ditu galdera hauek.

Detekzio automatikoa

Sistemak zein modelok duten ikusmen gaitasuna identifikatzen du

Irudien bidalketa

Irudi medikoak galderaren testuarekin batera bidaltzen dira

Testu-soilik modeloak

Ikusmenik gabeko modeloentzat, galderak irudi bat duela adierazten da eskuragarri ez dagoela

Metrika bereiziak

Metrika espezifikoak erregistratzen dira irudi gabeko eta irudidun galderetarako

Jasotako Metrikak

Erantzun bakoitzeko metrika anitz erregistratzen ditugu, modelo bakoitzaren errendimenduaren azterketa zehatza ahalbidetuz.

Erantzun denbora

Bidalketatik erantzun osora arteko latentzia osoa (ms)

Sarrerako tokenak

Modeloari bidalitako prompt-eko token kopurua

Irteerako tokenak

Erantzunean sortutako token kopurua

Arrazonamendu tokenak

Arrazonamendu prozesuan erabilitako tokenak (aplikagarria bada)

Kontsulta bakoitzeko kostua

USD-tan estimatutako kostua API prezioak oinarri hartuta

Konfiantza maila

Modeloaren konfiantza bere erantzunean (eskuragarri badago)

Gardentasuna eta Erreproduzigarritasuna

Gardentasun osoarekin konprometitzen gara gure metodologian. Edozein ikertzailek gure emaitzak egiaztatu eta erreproduzitu ditzake.

Metodologia dokumentatua

Ebaluazio prozesuaren xehetasun guztiak publikoki dokumentatuta daude

Sarrerako datu publikoak

MIR galderak Ministerioko dokumentu publikoak dira

Erantzun egiaztagarriak

Modeloen erantzunak gordetzen dira ondorengo egiaztapenerako

Kode irekia

Ebaluazio kodea ikuskaritza eta erreprodukziorako eskuragarri egongo da

Arakatu Emaitzak

Kontsultatu modelo bakoitzaren errendimendu zehatza MIR 2026 galderetan.