MedicalBenchmark-erako gida osoa

Dokumentazioa

Espainiako mediku-azterketa ofizialetan IA modeloak nola ebaluatzen ditugun jakiteko behar duzun guztia. Ikertzaile eta osasun-profesionalentzako gida.

Zer da MedicalBenchmark

MedicalBenchmark Espainiako mediku-azterketa ofizialetan, batez ere MIR-ean, adimen artifizialeko modeloen errendimendua neurtzen duen ebaluazio-plataforma independentea da.

Gure misioa datu objektiboak, erreproduzigarriak eta sarbide libreko datuak eskaintzea da, ikertzaileek, osasun-profesionalek eta garatzaileek IAren benetako gaitasunak medikuntzan uler ditzaten.

Ebaluazio independentea

IA hornitzaile batekin ere afiliazioa gabe. Modelo guztiak protokolo estandarizatu berarekin ebaluatzen ditugu.

Azterketa ofizialak

Espainiako Osasun Ministerioak argitaratutako MIR galdera errealak erabiltzen ditugu.

+280 IA modelo

Gaztelaniazko IA medikoko ebaluazioen datu-base osoena, modelo jabedun eta kode irekikoak barne.

Datu irekiak

Emaitza, erantzun eta metrika guztiak publikoki eskuragarri daude ikerketa irekia sustatzeko.

MIR azterketa

MIR (Médico Interno Residente) Espainiako mediku-prestakuntza espezializatura sartzeko azterketa nazionala da. Proba estandarizatua, publikoa eta oso lehiakorra da.

MIR deialdi bakoitzak 200 galdera baliagarri eta 10 erreserbakoak (guztira 210) ditu. Galdera bakoitzak 4 erantzun-aukera ditu, eta horietatik bakarra da zuzena.

Puntuazio sistema

Erantzun zuzena

+3 puntu

Erantzun okerra

-1 puntu

Erantzun zuria

0 puntu

Neto formula

Netoak = Asmatuak - (Hutsak / 3)

Netoek erantzun okerrengatiko penalizazioa deskontatuz, benetan asmatutako galdera kopuru eraginkorra adierazten dute. MIR-eko metrika ofiziala da.

Zenbait galdera azterketa argitaratu ondoren anulatzen dira. Galdera anulatuek ez dute netoen konputurako balio eta ebaluaziotik kanpo geratzen dira.

Nola ebaluatzen dira modeloak

Modelo guztiak zero-shot protokolo estandarizatu baten arabera ebaluatzen dira, hau da, ez dute aurretiko adibiderik edo azterketarako prestakuntza espezifikorik jasotzen.

Zero-shot ebaluazioan, modeloak galdera bakoitza isolatuta jasotzen du, aurretiko adibiderik (few-shot) edo MIR-erako prestakuntza-instrukzio espezifikorik gabe.

Prompt prestaketa

Galdera bakoitza prompt estandarizatu batekin formateatzen da, enuntziatua, erantzun-aukerak eta aukera bakarra hautatzeko instrukzio argia barne.

Modelora bidaltzea

Galdera modeloaren APIra bidaltzen da testuinguru gehigarririk, aurretiko adibiderik edo system prompt espezializaturik gabe.

Erantzunaren erauzketa

Modeloaren erantzuna aztertzen da hautatutako aukera (1, 2, 3 edo 4) erauzteko, parsing metodo anitz erabiliz.

Metriken kalkulua

Erantzuna, erabilitako tokenak, erantzun-denbora, kostua erregistratzen dira eta puntuazioa MIR sistema ofizialaren arabera kalkulatzen da.

Emaitzen argitalpena

Emaitzak plataforman argitaratzen dira gardentasun osoz: banakako erantzun bakoitza egiaztatzeko modukoa da.

Ikusi metodologia osoa

Emaitzak ulertzen

Ebaluatutako modelo bakoitzak metrika anitzeko profil osoa du. Hemen bakoitza nola interpretatu azaltzen dizugu.

Accuracy (Zehaztasuna)

Zuzen erantzundako galderen ehunekoa galdera baliagarri guztien gainean. Metrikarik intuitiboena da: %80ak modeloak 10 galderatik 8 asmatu dituela esan nahi du.

Netoak

MIR-eko puntuazio ofiziala erantzun okerrengatiko penalizazioa kontuan hartzen duena. Accuracy hutsa baino hobeto islatzen du benetako errendimendua.

Score (Puntuazioa)

Azken puntuazioa 3 × Neto gisa kalkulatua. MIR-eko hautagaiak ordenatzeko ofizialki erabiltzen den metrika da.

Galdera diskriminatzaileak

Frontier modeloak (errendimendu handienekoak) erantzun zuzenean bat ez datozen galderak. Bereziki erabilgarriak IA-ren ezagutzaren mugak aztertzeko.

Tokenak

Modeloak prozesatutako (sarrera) eta sortutako (irteera) testu kopurua, tokenetan neurtua. Zuzenean eragiten du kostuan.

Kostua

Modeloa azterketa osoan ebaluatzeko USD-tan estimatutako kostua, API bakoitzaren prezio publikoetan oinarritua.

Mediku-espezialitateak

MIR-eko galderek 30 mediku-espezialitate baino gehiago hartzen dituzte. Galdera bakoitza espezialitateka sailkatuta dago, modeloen errendimendua ezagutza-arloka aztertzeko aukera emanez.

AlergologiaAnestesiologia eta BizkortzeaKardiologiaZainketa AringarriakDermatologiaEndokrinologia eta NutrizioaGaixotasun InfekziosoakEpidemiologiaEstatistikaFarmakologiaGastroenterologiaGenetikaGeriatriaGinekologia eta ObstetriziaHematologiaImmunologiaMedikuntza Legala eta BioetikaNefrologiaPneumologiaNeurologiaOftalmologiaOnkologia MedikoaORLPediatriaOsasun Plangintza eta KudeaketaPsikiatriaErradiologia-LarrialdiakErreumatologiaTraumatologiaUrologia

Emaitzak espezialitateka iragazi ditzakezu modelo bakoitzaren xehetasun-orrian.

Galdera motak

MIR-eko galdera bakoitza eskatzen duen arrazonamendu kliniko motaren arabera sailkatuta dago. 14 motek mediku-prestakuntzan ebaluatutako gaitasunak islatzen dituzte.

DiagnostikoaTratamenduaProbakInterpretazioaFisiopatologiaArriskuaPrebentzioaPronostikoaEpidemiologiaBiostatistikaEtikaLegalaFarmakologiaAnatomia

Galdera motaren araberako xehetasuna modelo bakoitzaren profilean eskuragarri dago.

Datuen osotasuna

Benchmark baten fidagarritasuna datuen osotasunaren araberakoa da. Neurri espezifikoak hartzen ditugu ebaluazio zuzenak eta kutsatu gabeak bermatzeko.

MIR 2026 gure benchmark birjina da: ez zen modelorik galdera hauekin entrenatu, haien prestakuntza-datuen mozketaren ondoren argitaratu baitziren.

Kutsadurarik gabe

Azterketa berrienak ez zeuden eskuragarri modeloen entrenamentuan, memorizazio arriskua ezabatuz.

Konparazio zuzena

Modelo guztiek prompt bera jasotzen dute, baldintza berdinetan, hornitzaile batentzat ere abantailarik gabe.

Erreproduzigarritasuna

Prompt, erantzun eta konfigurazio zehatzak argitaratzen ditugu edozein ikertzailek gure emaitzak erreproduzitu ahal izateko.

Plataforma nola erabili

MedicalBenchmark-ek IA medikoko ebaluazio-datuak esploratzeko eta aztertzeko modu anitz eskaintzen ditu.

Sailkapenak esploratu

Kontsultatu modeloen sailkapen osoa azterketaka. Iragazi modelo motaren arabera, ordenatu metrika desberdinen arabera eta konparatu emaitzak.

Ikusi sailkapenak

Azterketako galderak ikusi

Esploratu MIR-eko galderak eta ikusi modelo bakoitzak nola erantzun duen. Identifikatu errore-patronak eta IArako bereziki zailak diren galderak.

Ikusi azterketak

Modeloak konparatu

Sartu modelo bakoitzaren profil xehatuan bere errendimendua espezialitateka, galdera motaka eta eraginkortasun-metrikaka ikusteko.

Ikusi sailkapenak

Datuetara sartu

Deskargatu dataset osoak ikerkuntza-lanerako edo eskatu API sarbidea datuak zure analisi-tresnetan integratzeko.

Ikusi datasetak

Glosarioa

Plataforman erabilitako funtsezko termino definizioak.

Accuracy (Zehaztasuna): Erantzun zuzenen ehunekoa azterketako galdera baliagarri guztien gainean.
Netoak: MIR-eko metrika ofiziala. Honela kalkulatzen da: Asmatuak - (Hutsak / 3). Benetako errendimendua islatzen du erantzun okerrak penalizatuz.
Score (Puntuazioa): MIR-eko azken puntuazioa, 3 × Neto gisa kalkulatua. Hautagaiak ordenatzeko erabiltzen den metrika.
Zero-shot: Ebaluazio-metodoa non modeloak ez duen aurretiko adibiderik edo zeregin espezifikorako prestakuntzarik jasotzen. Galdera zuzenean aurkezten zaio.
MIR: Médico Interno Residente. Espainiako azterketa nazionala mediku-prestakuntza espezializatura sartzeko.
Prompt: IA modeloari bidaltzen zaion sarrerako testua. Gure kasuan, MIR galdera formateatua bere erantzun-aukerekin barne hartzen du.
Token: Hizkuntza-modeloek prozesatzen duten testuko gutxieneko unitatea. Gutxi gorabehera euskarazko hitz baten 3/4 baliokidea.
Frontier (modeloa): Azken belaunaldiko IA modeloak errendimendu handienarekin. GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, etab. bezalako modeloak barne.
Multimodal: Modelo batek testua zein irudiak prozesatzeko gaitasuna. MIR-eko irudi klinikoak barne hartzen dituzten galderetarako garrantzitsua.
Galdera diskriminatzaileak: Errendimendu handieneko IA modeloak (Frontier) erantzun zuzenean bat ez datozen galderak.
Benchmark birjina: Azterketaren galderak ebaluatutako modeloen entrenamentuan existitzen ez ziren azterketa, datu-kutsadura zero bermatuz.
Kode irekia (Open Source): Kodea eta pisuak publikoki eskuragarri dauden modeloak, dohainik deskargatu eta erabiltzeko.
API: MedicalBenchmark-en datuetara programatikoki sartzeko aukera ematen duen programazio-interfazea.

Maiz egiten diren galderak

MedicalBenchmark-i buruzko zalantzarik ohikoenen erantzunak.

Fidagarriak al dira emaitzak?

Bai. Ebaluazio bakoitzak protokolo estandarizatu eta erreproduzigarri bat jarraitzen du. Banakako erantzun guztiak argitaratzen ditugu edozein ikertzailek emaitzak egiaztatu ahal izateko. Gainera, gure datuak kideen bidez berrikusitako argitalpen zientifikoetan balioztatu dira.

Zein maiztasunekin eguneratzen dira sailkapenak?

Sailkapenak etengabe eguneratzen dira modelo berriak ebaluatzen ditugun heinean edo bertsio berriak argitaratzen diren heinean. MIR deialdi bakoitza Osasun Ministerioak galderak eta erantzunak ofizialki argitaratzen dituenean gehitzen da.

Zergatik erabiltzen duzue MIR eta ez beste azterketa batzuk?

MIR Espainiako mediku-azterketarik garrantzitsuena da, adituek diseinatutako eta estatistikoki balioztatutako galderekin. Publikoa, estandarizatua eta medikuntzaren espektro osoa hartzen du. Gainera, gaztelaniaz izanik, modeloak ingelesaz bestelako hizkuntza batean ebaluatzeko aukera ematen du.

Zein modelo daude barne?

280 modelo baino gehiago ebaluatzen ditugu, modelo jabedun (GPT-4, Claude, Gemini, etab.) eta kode irekikoak (LLaMA, Mistral, Qwen, etab.) barne. Edozeinek proposatu dezake modelo bat ebaluaziorako.

Datuak deskargatu al ditzaket?

Bai. Dataset osoak eskaintzen ditugu Datasets orrian, galderak, modelo bakoitzaren erantzunak eta metrika xehatuak barne. Sarbide programatikorako, API bat ere badugu eskuragarri.

Zertan desberdintzen da beste mediku-benchmark batzuetatik?

MedicalBenchmark nabarmentzen da azterketa ofizial errealak erabiltzeagatik (ez sintetikoak), gaztelaniaz ebaluatzeagatik, MIR-eko puntuazio sistema ofiziala penalizazioarekin barne hartzeagatik, eta kutsatu gabeko azterketekin benchmark birjina eskaintzeagatik.

Nola lagundu edo kolaboratu dezaket?

Modeloak ebaluaziorako proposatu, erroreak jakinarazi, hobekuntzak iradoki edo ikerketan kolaboratu dezakezu. Bisitatu gure kontaktu-orria informazio gehiagorako.

Zenbat kostatzen da MedicalBenchmark erabiltzea?

Plataforma guztiz doakoa da. Datu, sailkapen eta analisi guztiak modu irekian daude eskuragarri. IA medikoko ebaluazioan gardentasunak komunitate osoari mesede egiten diola sinesten dugu.

Esploratzeko prest?

Kontsultatu MIR azterketetan IA modeloen sailkapenak eta aurkitu nola aritzen diren medikuntzan.

Ikusi sailkapenak

Gora itzuli

Dokumentazioa

Zer da MedicalBenchmark

Ebaluazio independentea

Azterketa ofizialak

+280 IA modelo

Datu irekiak

MIR azterketa

Puntuazio sistema

Neto formula

Nola ebaluatzen dira modeloak

Prompt prestaketa

Modelora bidaltzea

Erantzunaren erauzketa

Metriken kalkulua

Emaitzen argitalpena

Emaitzak ulertzen

Accuracy (Zehaztasuna)

Netoak

Score (Puntuazioa)

Galdera diskriminatzaileak

Tokenak

Kostua

Mediku-espezialitateak

Galdera motak

Datuen osotasuna

Kutsadurarik gabe

Konparazio zuzena

Erreproduzigarritasuna

Plataforma nola erabili

Sailkapenak esploratu

Azterketako galderak ikusi

Modeloak konparatu

Datuetara sartu

Glosarioa

Maiz egiten diren galderak

Lotutako orriak

Metodologia

Ikerketa

Datasetak

API sarbidea

Guri buruz

Kontaktua

Esploratzeko prest?